h2oai
/

h2o-danube3-500m-chat

Text Generation

large language model

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

Update tokenizer files

#2

by Xenova HF staff - opened Jul 15

base: refs/heads/main

←

from: refs/pr/2

Discussion Files changed

Files changed (2) hide show

tokenizer.json +10 -1
tokenizer_config.json +1 -1

tokenizer.json CHANGED Viewed

@@ -34,6 +34,10 @@
   "normalizer": {
     "type": "Sequence",
     "normalizers": [
       {
         "type": "Replace",
         "pattern": {
@@ -85,6 +89,12 @@
       },
       {
         "type": "Fuse"
       }
     ]
   },
@@ -96,7 +106,6 @@
     "end_of_word_suffix": null,
     "fuse_unk": true,
     "byte_fallback": true,
-    "ignore_merges": false,
     "vocab": {
       "<unk>": 0,
       "<s>": 1,

   "normalizer": {
     "type": "Sequence",
     "normalizers": [
+      {
+        "type": "Prepend",
+        "prepend": "▁"
+      },
       {
         "type": "Replace",
         "pattern": {
       },
       {
         "type": "Fuse"
+      },
+      {
+        "type": "Strip",
+        "content": " ",
+        "start": 1,
+        "stop": 0
       }
     ]
   },
     "end_of_word_suffix": null,
     "fuse_unk": true,
     "byte_fallback": true,
     "vocab": {
       "<unk>": 0,
       "<s>": 1,

tokenizer_config.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "add_bos_token": false,
   "add_eos_token": false,
-  "add_prefix_space": false,
   "added_tokens_decoder": {
     "0": {
       "content": "<unk>",

 {
   "add_bos_token": false,
   "add_eos_token": false,
+  "add_prefix_space": true,
   "added_tokens_decoder": {
     "0": {
       "content": "<unk>",