patrickvonplaten
/

data2vec-base

@@ -1,13 +1,16 @@
 {
   "activation_dropout": 0.1,
   "add_adapter": false,
   "architectures": [
-    "Data2VecForAudioModel"
   ],
   "attention_dropout": 0.1,
-  "attention_probs_dropout_prob": 0.1,
-  "bos_token_id": 0,
-  "classifier_dropout": null,
   "conv_bias": false,
   "conv_dim": [
     512,
@@ -37,33 +40,65 @@
     2,
     2
   ],
-  "do_stable_layer_norm": false,
   "eos_token_id": 2,
   "feat_extract_activation": "gelu",
-  "feat_extract_norm": "layer",
   "feat_proj_dropout": 0.0,
   "final_dropout": 0.1,
   "hidden_act": "gelu",
   "hidden_dropout": 0.1,
-  "hidden_dropout_prob": 0.1,
   "hidden_size": 768,
   "initializer_range": 0.02,
   "intermediate_size": 3072,
   "layer_norm_eps": 1e-05,
   "mask_time_prob": 0.05,
-  "max_position_embeddings": 512,
-  "model_type": "data2vec",
   "num_attention_heads": 12,
   "num_conv_pos_embedding_groups": 16,
   "num_conv_pos_embeddings": 5,
   "num_feat_extract_layers": 7,
   "num_hidden_layers": 12,
-  "pad_token_id": 1,
-  "position_embedding_type": "absolute",
   "proj_codevector_dim": 256,
   "torch_dtype": "float32",
   "transformers_version": "4.17.0.dev0",
-  "type_vocab_size": 2,
-  "use_cache": true,
-  "vocab_size": 32
 }

 {
   "activation_dropout": 0.1,
+  "adapter_kernel_size": 3,
+  "adapter_stride": 2,
   "add_adapter": false,
   "architectures": [
+    "Data2VecAudioModel"
   ],
   "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "codevector_dim": 256,
+  "contrastive_logits_temperature": 0.1,
   "conv_bias": false,
   "conv_dim": [
     512,
     2,
     2
   ],
+  "ctc_loss_reduction": "sum",
+  "ctc_zero_infinity": false,
+  "diversity_loss_weight": 0.1,
   "eos_token_id": 2,
   "feat_extract_activation": "gelu",
+  "feat_extract_norm": "group",
   "feat_proj_dropout": 0.0,
+  "feat_quantizer_dropout": 0.0,
   "final_dropout": 0.1,
   "hidden_act": "gelu",
   "hidden_dropout": 0.1,
   "hidden_size": 768,
   "initializer_range": 0.02,
   "intermediate_size": 3072,
   "layer_norm_eps": 1e-05,
+  "layerdrop": 0.1,
+  "mask_feature_length": 10,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
   "mask_time_prob": 0.05,
+  "model_type": "data2vec-audio",
+  "num_adapter_layers": 3,
   "num_attention_heads": 12,
+  "num_codevector_groups": 2,
+  "num_codevectors_per_group": 320,
   "num_conv_pos_embedding_groups": 16,
   "num_conv_pos_embeddings": 5,
   "num_feat_extract_layers": 7,
   "num_hidden_layers": 12,
+  "num_negatives": 100,
+  "output_hidden_size": 768,
+  "pad_token_id": 0,
   "proj_codevector_dim": 256,
+  "tdnn_dilation": [
+    1,
+    2,
+    3,
+    1,
+    1
+  ],
+  "tdnn_dim": [
+    512,
+    512,
+    512,
+    512,
+    1500
+  ],
+  "tdnn_kernel": [
+    5,
+    3,
+    3,
+    1,
+    1
+  ],
   "torch_dtype": "float32",
   "transformers_version": "4.17.0.dev0",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 32,
+  "xvector_output_dim": 512
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c61a644c4607cae1961a4b3d36fcc66b9e716068458af0c742de598f522b361
-size 372742325

 version https://git-lfs.github.com/spec/v1
+oid sha256:999df36ad12943c3848d8e2323266cf875d906ec5119d3f398bbff45f45a11d2
+size 372742261