internlm
/

internlm-chat-7b

Text Generation

feature-extraction

Model card Files Files and versions Community

x54-729 commited on Oct 9, 2023

Commit

43367a7

•

1 Parent(s): add638c

Fix InternLMTokenizer

Files changed (1) hide show

tokenization_internlm.py +2 -2

tokenization_internlm.py CHANGED Viewed

@@ -65,6 +65,8 @@ class InternLMTokenizer(PreTrainedTokenizer):
         **kwargs,
     ):
         self.sp_model_kwargs = {} if sp_model_kwargs is None else sp_model_kwargs
         super().__init__(
             bos_token=bos_token,
             eos_token=eos_token,
@@ -77,8 +79,6 @@ class InternLMTokenizer(PreTrainedTokenizer):
         self.add_bos_token = add_bos_token
         self.add_eos_token = add_eos_token
         self.decode_with_prefix_space = decode_with_prefix_space
-        self.sp_model = spm.SentencePieceProcessor(**self.sp_model_kwargs)
-        self.sp_model.Load(vocab_file)
         self._no_prefix_space_tokens = None
         """ Initialisation"""

         **kwargs,
     ):
         self.sp_model_kwargs = {} if sp_model_kwargs is None else sp_model_kwargs
+        self.sp_model = spm.SentencePieceProcessor(**self.sp_model_kwargs)
+        self.sp_model.Load(vocab_file)
         super().__init__(
             bos_token=bos_token,
             eos_token=eos_token,
         self.add_bos_token = add_bos_token
         self.add_eos_token = add_eos_token
         self.decode_with_prefix_space = decode_with_prefix_space
         self._no_prefix_space_tokens = None
         """ Initialisation"""