Upload tokenizer (#26)

Files changed (6) hide show

added_tokens.json CHANGED Viewed

@@ -17,7 +17,6 @@
   "<|da|>": 50285,
   "<|de|>": 50261,
   "<|el|>": 50281,
-  "<|endoftext|>": 50257,
   "<|en|>": 50259,
   "<|es|>": 50262,
   "<|et|>": 50307,

   "<|da|>": 50285,
   "<|de|>": 50261,
   "<|el|>": 50281,
   "<|en|>": 50259,
   "<|es|>": 50262,
   "<|et|>": 50307,

merges.txt CHANGED Viewed

@@ -1,4 +1,4 @@
-#version: 0.2
 Ġ a
 Ġt h
 i n

+#version: 0.2 - Trained by `huggingface/tokenizers`
 Ġ a
 Ġt h
 i n

special_tokens_map.json CHANGED Viewed

@@ -124,7 +124,7 @@
   },
   "pad_token": "<|endoftext|>",
   "unk_token": {
-    "content": "",
     "lstrip": false,
     "normalized": true,
     "rstrip": false,

   },
   "pad_token": "<|endoftext|>",
   "unk_token": {
+    "content": "<|endoftext|>",
     "lstrip": false,
     "normalized": true,
     "rstrip": false,

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json CHANGED Viewed

@@ -19,7 +19,6 @@
   },
   "errors": "replace",
   "model_max_length": 1024,
-  "name_or_path": "openai/whisper-large",
   "pad_token": null,
   "processor_class": "WhisperProcessor",
   "return_attention_mask": false,
@@ -27,7 +26,7 @@
   "tokenizer_class": "WhisperTokenizer",
   "unk_token": {
     "__type": "AddedToken",
-    "content": "",
     "lstrip": false,
     "normalized": true,
     "rstrip": false,

   },
   "errors": "replace",
   "model_max_length": 1024,
   "pad_token": null,
   "processor_class": "WhisperProcessor",
   "return_attention_mask": false,
   "tokenizer_class": "WhisperTokenizer",
   "unk_token": {
     "__type": "AddedToken",
+    "content": "<|endoftext|>",
     "lstrip": false,
     "normalized": true,
     "rstrip": false,

vocab.json CHANGED Viewed

The diff for this file is too large to render. See raw diff