RaymondLi
/

gpt-4-tokenizer-sc-tokens

Model card Files Files and versions Community

RaymondLi commited on Oct 11, 2023

Commit

90cd208

•

1 Parent(s): b3ebc06

Upload tokenizer

Browse files

Files changed (6) hide show

added_tokens.json +25 -0
merges.txt +0 -0
special_tokens_map.json +26 -0
tokenizer.json +0 -0
tokenizer_config.json +216 -0
vocab.json +0 -0

added_tokens.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "<commit_after>": 100279,
+  "<commit_before>": 100292,
+  "<commit_msg>": 100286,
+  "<empty_output>": 100293,
+  "<filename>": 100283,
+  "<fim_middle>": 100281,
+  "<fim_pad>": 100287,
+  "<fim_prefix>": 100285,
+  "<fim_suffix>": 100284,
+  "<gh_stars>": 100277,
+  "<issue_closed>": 100291,
+  "<issue_comment>": 100288,
+  "<issue_start>": 100278,
+  "<jupyter_code>": 100282,
+  "<jupyter_output>": 100294,
+  "<jupyter_start>": 100290,
+  "<jupyter_text>": 100280,
+  "<reponame>": 100289,
+  "<|endofprompt|>": 100276,
+  "<|endoftext|>": 100257,
+  "<|fim_middle|>": 100259,
+  "<|fim_prefix|>": 100258,
+  "<|fim_suffix|>": 100260
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "additional_special_tokens": [
+    "<gh_stars>",
+    "<issue_start>",
+    "<commit_after>",
+    "<jupyter_text>",
+    "<fim_middle>",
+    "<|endoftext|>",
+    "<jupyter_code>",
+    "<filename>",
+    "<fim_suffix>",
+    "<fim_prefix>",
+    "<commit_msg>",
+    "<fim_pad>",
+    "<issue_comment>",
+    "<reponame>",
+    "<jupyter_start>",
+    "<issue_closed>",
+    "<commit_before>",
+    "<empty_output>",
+    "<jupyter_output>"
+  ],
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,216 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "100257": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100258": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100259": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100260": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100276": {
+      "content": "<|endofprompt|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100277": {
+      "content": "<gh_stars>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100278": {
+      "content": "<issue_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100279": {
+      "content": "<commit_after>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100280": {
+      "content": "<jupyter_text>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100281": {
+      "content": "<fim_middle>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100282": {
+      "content": "<jupyter_code>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100283": {
+      "content": "<filename>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100284": {
+      "content": "<fim_suffix>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100285": {
+      "content": "<fim_prefix>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100286": {
+      "content": "<commit_msg>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100287": {
+      "content": "<fim_pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100288": {
+      "content": "<issue_comment>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100289": {
+      "content": "<reponame>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100290": {
+      "content": "<jupyter_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100291": {
+      "content": "<issue_closed>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100292": {
+      "content": "<commit_before>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100293": {
+      "content": "<empty_output>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100294": {
+      "content": "<jupyter_output>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<gh_stars>",
+    "<issue_start>",
+    "<commit_after>",
+    "<jupyter_text>",
+    "<fim_middle>",
+    "<|endoftext|>",
+    "<jupyter_code>",
+    "<filename>",
+    "<fim_suffix>",
+    "<fim_prefix>",
+    "<commit_msg>",
+    "<fim_pad>",
+    "<issue_comment>",
+    "<reponame>",
+    "<jupyter_start>",
+    "<issue_closed>",
+    "<commit_before>",
+    "<empty_output>",
+    "<jupyter_output>"
+  ],
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "model_max_length": 8192,
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff