Upload folder using huggingface_hub

Files changed (7) hide show

added_tokens.json CHANGED Viewed

@@ -36,5 +36,8 @@
   "                            ": 50260,
   "                             ": 50259,
   "                              ": 50258,
-  "                               ": 50257
 }

   "                            ": 50260,
   "                             ": 50259,
   "                              ": 50258,
+  "                               ": 50257,
+  "<|im_end|>": 50295,
+  "<|im_start|>": 50296,
+  "<|startoftext|>": 50297
 }

config.json CHANGED Viewed

@@ -6,7 +6,7 @@
   "attention_dropout": 0.0,
   "bos_token_id": 50256,
   "embd_pdrop": 0.0,
-  "eos_token_id": 50256,
   "hidden_act": "gelu_new",
   "hidden_size": 2560,
   "initializer_range": 0.02,

   "attention_dropout": 0.0,
   "bos_token_id": 50256,
   "embd_pdrop": 0.0,
+  "eos_token_id": 50295,
   "hidden_act": "gelu_new",
   "hidden_size": 2560,
   "initializer_range": 0.02,

generation_config.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "_from_model_config": true,
   "bos_token_id": 50256,
-  "eos_token_id": 50256,
   "transformers_version": "4.37.0"
 }

 {
   "_from_model_config": true,
   "bos_token_id": 50256,
+  "eos_token_id": 50295,
   "transformers_version": "4.37.0"
 }

special_tokens_map.json CHANGED Viewed

@@ -1,5 +1,30 @@
 {
-  "bos_token": "<|endoftext|>",
-  "eos_token": "<|endoftext|>",
-  "unk_token": "<|endoftext|>"
 }

 {
+  "bos_token": {
+    "content": "<|startoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
 }

tokenizer.json CHANGED Viewed

@@ -353,6 +353,33 @@
       "rstrip": false,
       "normalized": true,
       "special": false
     }
   ],
   "normalizer": null,
@@ -100644,4 +100671,4 @@
       "Ġg azed"
     ]
   }
-}

       "rstrip": false,
       "normalized": true,
       "special": false
+    },
+    {
+      "id": 50295,
+      "content": "<|im_end|>",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": true
+    },
+    {
+      "id": 50296,
+      "content": "<|im_start|>",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": false
+    },
+    {
+      "id": 50297,
+      "content": "<|startoftext|>",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": false
     }
   ],
   "normalizer": null,
       "Ġg azed"
     ]
   }
+}

tokenizer_config.json CHANGED Viewed

@@ -312,13 +312,37 @@
       "rstrip": false,
       "single_word": false,
       "special": false
     }
   },
-  "bos_token": "<|endoftext|>",
   "clean_up_tokenization_spaces": true,
-  "eos_token": "<|endoftext|>",
   "model_max_length": 2048,
   "tokenizer_class": "CodeGenTokenizer",
-  "unk_token": "<|endoftext|>",
-  "chat_template": "{% for message in messages %}{{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}"
-}

       "rstrip": false,
       "single_word": false,
       "special": false
+    },
+    "50295": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "50296": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "50297": {
+      "content": "<|startoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
     }
   },
+  "bos_token": "<|startoftext|>",
   "clean_up_tokenization_spaces": true,
+  "eos_token": "<|im_end|>",
   "model_max_length": 2048,
+  "pad_token": "<|endoftext|>",
   "tokenizer_class": "CodeGenTokenizer",
+  "unk_token": "<|endoftext|>"
+}

vocab.json CHANGED Viewed

The diff for this file is too large to render. See raw diff