first version

Browse files

Files changed (8) hide show

.gitattributes +1 -0
added_tokens.json +1 -0
config.json +76 -0
preprocessor_config.json +8 -0
pytorch_model.bin +3 -0
special_tokens_map.json +1 -0
tokenizer_config.json +1 -0
vocab.json +1 -0

.gitattributes CHANGED Viewed

@@ -14,3 +14,4 @@
 *.pb filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text

 *.pb filter=lfs diff=lfs merge=lfs -text
 *.pt filter=lfs diff=lfs merge=lfs -text
 *.pth filter=lfs diff=lfs merge=lfs -text
+pytorch_model.bin filter=lfs diff=lfs merge=lfs -text

added_tokens.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"<s>": 147, "</s>": 148}

config.json ADDED Viewed

	@@ -0,0 +1,76 @@

+{
+  "_name_or_path": "/home/joaoalvarenga/wav2vec2-large-xlsr-italian/checkpoint-9800",
+  "activation_dropout": 0.0,
+  "apply_spec_augment": true,
+  "architectures": [
+    "Wav2Vec2ForCTC"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "conv_bias": true,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "mean",
+  "ctc_zero_infinity": false,
+  "do_stable_layer_norm": true,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_dropout": 0.0,
+  "feat_extract_norm": "layer",
+  "feat_proj_dropout": 0.0,
+  "final_dropout": 0.0,
+  "gradient_checkpointing": true,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.1,
+  "mask_channel_length": 10,
+  "mask_channel_min_space": 1,
+  "mask_channel_other": 0.0,
+  "mask_channel_prob": 0.0,
+  "mask_channel_selection": "static",
+  "mask_feature_length": 10,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_space": 1,
+  "mask_time_other": 0.0,
+  "mask_time_prob": 0.05,
+  "mask_time_selection": "static",
+  "model_type": "wav2vec2",
+  "num_attention_heads": 16,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 24,
+  "pad_token_id": 146,
+  "transformers_version": "4.4.0",
+  "vocab_size": 147
+}

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "do_normalize": true,
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1e1325e6e6dca4a5fa6e6a615c0fc13bf0015eb0675476a0c8be7b79163ab359
+size 1262525543

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "[UNK]", "pad_token": "[PAD]"}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"unk_token": "[UNK]", "bos_token": "<s>", "eos_token": "</s>", "pad_token": "[PAD]", "do_lower_case": false, "word_delimiter_token": "\|", "special_tokens_map_file": "/home/joaoalvarenga/wav2vec2-large-xlsr-italian/special_tokens_map.json", "tokenizer_file": null, "name_or_path": "/home/joaoalvarenga/wav2vec2-large-xlsr-italian"}

vocab.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"w": 0, "ş": 1, "ʿ": 2, "л": 3, "ъ": 4, "»": 5, "̇": 6, "đ": 7, "ì": 8, "ã": 9, "æ": 10, "°": 11, "ț": 12, "s": 13, "t": 14, ">": 15, "«": 16, "[": 17, "е": 18, "ン": 19, "r": 20, "o": 21, "l": 23, "´": 24, "ś": 25, "ʻ": 26, "¡": 27, "カ": 28, "ñ": 29, "ו": 30, "<": 31, "ī": 32, "…": 33, "ô": 34, "ø": 35, "ṭ": 36, "f": 37, "ð": 38, "多": 39, "б": 40, "ё": 41, "ř": 42, "ő": 43, "丰": 44, "ı": 45, "í": 46, "c": 47, "万": 48, "š": 49, "ė": 50, "ō": 51, "=": 52, "é": 53, ")": 54, "y": 55, "þ": 56, "ṣ": 57, "/": 58, "(": 59, "–": 60, "張": 61, "å": 62, "ě": 63, "а": 64, "ה": 65, "ü": 66, "e": 67, "ö": 68, "á": 69, "~": 70, "`": 71, "ū": 72, "i": 73, "g": 74, "ß": 75, "_": 76, "’": 77, "峰": 78, "u": 79, "あ": 80, "ň": 81, "ノ": 82, "q": 83, "+": 84, "ú": 85, "ÿ": 86, "ê": 87, "p": 88, "ž": 89, "$": 90, "z": 91, "ʼ": 92, "ц": 93, "č": 94, "ア": 95, "ṛ": 96, "x": 97, "三": 98, "љ": 99, "ù": 100, "ò": 101, "ź": 102, "ľ": 103, "ń": 104, "û": 105, "#": 106, "j": 107, "„": 108, "î": 109, "ḥ": 110, "ー": 111, "h": 112, "è": 113, "禅": 114, "'": 115, "à": 116, "ë": 117, "m": 118, "ł": 119, "ד": 120, "d": 121, "ʾ": 122, "ę": 123, "ā": 124, "ğ": 125, "ï": 126, "]": 127, "旅": 128, "ə": 129, "b": 130, "ć": 131, "ʹ": 132, "サ": 133, "µ": 134, "ä": 135, "œ": 136, "v": 137, "キ": 138, "古": 139, "ș": 140, "n": 141, "k": 142, "ó": 143, "a": 144, "|": 22, "[UNK]": 145, "[PAD]": 146}