Bajiyo
/

w2v-bert-2_7_datasets

@@ -1,6 +1,6 @@
 {
   "added_tokens_decoder": {
-    "76": {
       "content": "[UNK]",
       "lstrip": true,
       "normalized": false,
@@ -8,7 +8,7 @@
       "single_word": false,
       "special": false
     },
-    "77": {
       "content": "[PAD]",
       "lstrip": true,
       "normalized": false,
@@ -16,7 +16,7 @@
       "single_word": false,
       "special": false
     },
-    "78": {
       "content": "<s>",
       "lstrip": false,
       "normalized": false,
@@ -24,7 +24,7 @@
       "single_word": false,
       "special": true
     },
-    "79": {
       "content": "</s>",
       "lstrip": false,
       "normalized": false,
@@ -39,7 +39,6 @@
   "eos_token": "</s>",
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "[PAD]",
-  "processor_class": "Wav2Vec2BertProcessor",
   "replace_word_delimiter_char": " ",
   "target_lang": null,
   "tokenizer_class": "Wav2Vec2CTCTokenizer",

 {
   "added_tokens_decoder": {
+    "73": {
       "content": "[UNK]",
       "lstrip": true,
       "normalized": false,
       "single_word": false,
       "special": false
     },
+    "74": {
       "content": "[PAD]",
       "lstrip": true,
       "normalized": false,
       "single_word": false,
       "special": false
     },
+    "75": {
       "content": "<s>",
       "lstrip": false,
       "normalized": false,
       "single_word": false,
       "special": true
     },
+    "76": {
       "content": "</s>",
       "lstrip": false,
       "normalized": false,
   "eos_token": "</s>",
   "model_max_length": 1000000000000000019884624838656,
   "pad_token": "[PAD]",
   "replace_word_delimiter_char": " ",
   "target_lang": null,
   "tokenizer_class": "Wav2Vec2CTCTokenizer",

vocab.json CHANGED Viewed

@@ -1,80 +1,77 @@
 {
-  "[PAD]": 77,
-  "[UNK]": 76,
   "|": 0,
-  "°": 1,
-  "ം": 2,
-  "ഃ": 3,
-  "അ": 4,
-  "ആ": 5,
-  "ഇ": 6,
-  "ഈ": 7,
-  "ഉ": 8,
-  "ഊ": 9,
-  "ഋ": 10,
-  "എ": 11,
-  "ഏ": 12,
-  "ഐ": 13,
-  "ഒ": 14,
-  "ഓ": 15,
-  "ഔ": 16,
-  "ക": 17,
-  "ഖ": 18,
-  "ഗ": 19,
-  "ഘ": 20,
-  "ങ": 21,
-  "ച": 22,
-  "ഛ": 23,
-  "ജ": 24,
-  "ഝ": 25,
-  "ഞ": 26,
-  "ട": 27,
-  "ഠ": 28,
-  "ഡ": 29,
-  "ഢ": 30,
-  "ണ": 31,
-  "ത": 32,
-  "ഥ": 33,
-  "ദ": 34,
-  "ധ": 35,
-  "ന": 36,
-  "പ": 37,
-  "ഫ": 38,
-  "ബ": 39,
-  "ഭ": 40,
-  "മ": 41,
-  "യ": 42,
-  "ര": 43,
-  "റ": 44,
-  "ല": 45,
-  "ള": 46,
-  "ഴ": 47,
-  "വ": 48,
-  "ശ": 49,
-  "ഷ": 50,
-  "സ": 51,
-  "ഹ": 52,
-  "ാ": 53,
-  "ി": 54,
-  "ീ": 55,
-  "ു": 56,
-  "ൂ": 57,
-  "ൃ": 58,
-  "െ": 59,
-  "േ": 60,
-  "ൈ": 61,
-  "ൊ": 62,
-  "ോ": 63,
-  "ൌ": 64,
-  "്": 65,
-  "ൗ": 66,
-  "൱": 67,
-  "ൺ": 68,
-  "ൻ": 69,
-  "ർ": 70,
-  "ൽ": 71,
-  "ൾ": 72,
-  "ൿ": 73,
-  "‌": 74,
-  "‍": 75
 }

 {
+  "[PAD]": 74,
+  "[UNK]": 73,
   "|": 0,
+  "ം": 1,
+  "ഃ": 2,
+  "അ": 3,
+  "ആ": 4,
+  "ഇ": 5,
+  "ഈ": 6,
+  "ഉ": 7,
+  "ഊ": 8,
+  "ഋ": 9,
+  "എ": 10,
+  "ഏ": 11,
+  "ഐ": 12,
+  "ഒ": 13,
+  "ഓ": 14,
+  "ഔ": 15,
+  "ക": 16,
+  "ഖ": 17,
+  "ഗ": 18,
+  "ഘ": 19,
+  "ങ": 20,
+  "ച": 21,
+  "ഛ": 22,
+  "ജ": 23,
+  "ഝ": 24,
+  "ഞ": 25,
+  "ട": 26,
+  "ഠ": 27,
+  "ഡ": 28,
+  "ഢ": 29,
+  "ണ": 30,
+  "ത": 31,
+  "ഥ": 32,
+  "ദ": 33,
+  "ധ": 34,
+  "ന": 35,
+  "പ": 36,
+  "ഫ": 37,
+  "ബ": 38,
+  "ഭ": 39,
+  "മ": 40,
+  "യ": 41,
+  "ര": 42,
+  "റ": 43,
+  "ല": 44,
+  "ള": 45,
+  "ഴ": 46,
+  "വ": 47,
+  "ശ": 48,
+  "ഷ": 49,
+  "സ": 50,
+  "ഹ": 51,
+  "ാ": 52,
+  "ി": 53,
+  "ീ": 54,
+  "ു": 55,
+  "ൂ": 56,
+  "ൃ": 57,
+  "െ": 58,
+  "േ": 59,
+  "ൈ": 60,
+  "ൊ": 61,
+  "ോ": 62,
+  "ൌ": 63,
+  "്": 64,
+  "ൗ": 65,
+  "൱": 66,
+  "ൺ": 67,
+  "ൻ": 68,
+  "ർ": 69,
+  "ൽ": 70,
+  "ൾ": 71,
+  "ൿ": 72
 }