update modeling file to newest

Browse files

Files changed (2) hide show

modeling_internlm2.py +11 -3
tokenization_internlm2_fast.py +14 -22

modeling_internlm2.py CHANGED Viewed

@@ -13,7 +13,7 @@
 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 # See the License for the specific language governing permissions and
 # limitations under the License.
-"""PyTorch InternLM2.5 model."""
 import math
 import queue
 import threading
@@ -59,6 +59,10 @@ try:
 except:
     pass
 logger = logging.get_logger(__name__)
@@ -1093,7 +1097,11 @@ class InternLM2Model(InternLM2PreTrainedModel):
         else:
             causal_mask = torch.full((sequence_length, target_length), fill_value=min_dtype, dtype=dtype, device=device)
             if sequence_length != 1:
-                causal_mask = torch.triu(causal_mask, diagonal=1)
             causal_mask *= torch.arange(target_length, device=device) > cache_position.reshape(-1, 1)
             causal_mask = causal_mask[None, None, :, :].expand(input_tensor.shape[0], 1, -1, -1)
             if attention_mask is not None:
@@ -1797,4 +1805,4 @@ class InternLM2ForTokenClassification(InternLM2PreTrainedModel):
             logits=logits,
             hidden_states=outputs.hidden_states,
             attentions=outputs.attentions,
-        )

 # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 # See the License for the specific language governing permissions and
 # limitations under the License.
+"""PyTorch InternLM2 model."""
 import math
 import queue
 import threading
 except:
     pass
+try:
+    support_bf16_triu = torch.__version__ >= "2.1.0"
+except Exception:
+    support_bf16_triu = False
 logger = logging.get_logger(__name__)
         else:
             causal_mask = torch.full((sequence_length, target_length), fill_value=min_dtype, dtype=dtype, device=device)
             if sequence_length != 1:
+                if support_bf16_triu or dtype == torch.float32:
+                    causal_mask = torch.triu(causal_mask, diagonal=1)
+                else:
+                    triu_mask = torch.triu(torch.ones(causal_mask.size(), device=device), diagonal=1).bool()
+                    causal_mask.masked_fill_(~triu_mask, 0)
             causal_mask *= torch.arange(target_length, device=device) > cache_position.reshape(-1, 1)
             causal_mask = causal_mask[None, None, :, :].expand(input_tensor.shape[0], 1, -1, -1)
             if attention_mask is not None:
             logits=logits,
             hidden_states=outputs.hidden_states,
             attentions=outputs.attentions,
+        )

tokenization_internlm2_fast.py CHANGED Viewed

@@ -20,15 +20,17 @@ import os
 from shutil import copyfile
 from typing import Any, Dict, Optional, Tuple
-from tokenizers import Tokenizer, decoders, normalizers, processors
 from tokenizers.models import BPE
 from transformers.convert_slow_tokenizer import (
     SLOW_TO_FAST_CONVERTERS,
-    SentencePieceExtractor,
     SpmConverter,
 )
-from transformers.tokenization_utils_fast import PreTrainedTokenizerFast
-from transformers.utils import logging
 from .tokenization_internlm2 import InternLM2Tokenizer
@@ -36,13 +38,8 @@ logger = logging.get_logger(__name__)
 VOCAB_FILES_NAMES = {"vocab_file": "./tokenizer.model"}
 # Modified from transformers.convert_slow_tokenizer.LlamaConverter
 class InternLM2Converter(SpmConverter):
-    """
-    Fast tokenizer converter for InternLM2.
-    """
     handle_byte_fallback = True
     def vocab(self, proto):
@@ -54,11 +51,11 @@ class InternLM2Converter(SpmConverter):
         vocab += [(piece.piece, piece.score) for piece in proto.pieces[3:]]
         return vocab
-    def unk_id(self, proto):  # pylint: disable=W0613
         unk_id = 0
         return unk_id
-    def decoder(self, replacement, add_prefix_space):  # pylint: disable=W0613
         decoders_sequence = [
             decoders.Replace("▁", " "),
             decoders.ByteFallback(),
@@ -74,7 +71,7 @@ class InternLM2Converter(SpmConverter):
         # special tokens
         added_tokens = self.original_tokenizer.added_tokens_decoder
         for i in range(len(vocab_scores)):
-            _, score = vocab_scores[i]
             if i in added_tokens:
                 vocab_scores[i] = (added_tokens[i].content, score)
         if model_type == 1:
@@ -86,7 +83,9 @@ class InternLM2Converter(SpmConverter):
             tokenizer = Tokenizer(
                 BPE(bpe_vocab, merges, unk_token=proto.trainer_spec.unk_piece, fuse_unk=True, byte_fallback=True)
             )
-            tokenizer.add_special_tokens([added_token for index, added_token in added_tokens.items()])
         else:
             raise Exception(
                 "You're trying to run a `Unigram` model but you're file was trained with a different algorithm"
@@ -101,19 +100,14 @@ class InternLM2Converter(SpmConverter):
         normalizers_list.append(normalizers.Replace(pattern=" ", content="▁"))
         return normalizers.Sequence(normalizers_list)
-    def pre_tokenizer(self, replacement, add_prefix_space):  # pylint: disable=W0613
         return None
 SLOW_TO_FAST_CONVERTERS["InternLM2Tokenizer"] = InternLM2Converter
 # Modified from transformers.model.llama.tokenization_llama_fast.LlamaTokenizerFast -> InternLM2TokenizerFast
 class InternLM2TokenizerFast(PreTrainedTokenizerFast):
-    """
-    Fast tokenizer for InternLM2.
-    """
     vocab_files_names = VOCAB_FILES_NAMES
     slow_tokenizer_class = InternLM2Tokenizer
     padding_side = "left"
@@ -171,9 +165,7 @@ class InternLM2TokenizerFast(PreTrainedTokenizerFast):
             raise ValueError("add_eos_token = True but eos_token = None")
         single = f"{(bos+':0 ') if self.add_bos_token else ''}$A:0{(' '+eos+':0') if self.add_eos_token else ''}"
-        pair = (
-            f"{single}{(' '+bos+':1') if self.add_bos_token else ''} $B:1{(' '+eos+':1') if self.add_eos_token else ''}"
-        )
         special_tokens = []
         if self.add_bos_token:

 from shutil import copyfile
 from typing import Any, Dict, Optional, Tuple
+from tokenizers import processors, decoders, Tokenizer, normalizers
 from tokenizers.models import BPE
+from transformers.tokenization_utils_fast import PreTrainedTokenizerFast
+from transformers.utils import logging
 from transformers.convert_slow_tokenizer import (
     SLOW_TO_FAST_CONVERTERS,
     SpmConverter,
+    SentencePieceExtractor,
 )
 from .tokenization_internlm2 import InternLM2Tokenizer
 VOCAB_FILES_NAMES = {"vocab_file": "./tokenizer.model"}
 # Modified from transformers.convert_slow_tokenizer.LlamaConverter
 class InternLM2Converter(SpmConverter):
     handle_byte_fallback = True
     def vocab(self, proto):
         vocab += [(piece.piece, piece.score) for piece in proto.pieces[3:]]
         return vocab
+    def unk_id(self, proto):
         unk_id = 0
         return unk_id
+    def decoder(self, replacement, add_prefix_space):
         decoders_sequence = [
             decoders.Replace("▁", " "),
             decoders.ByteFallback(),
         # special tokens
         added_tokens = self.original_tokenizer.added_tokens_decoder
         for i in range(len(vocab_scores)):
+            piece, score = vocab_scores[i]
             if i in added_tokens:
                 vocab_scores[i] = (added_tokens[i].content, score)
         if model_type == 1:
             tokenizer = Tokenizer(
                 BPE(bpe_vocab, merges, unk_token=proto.trainer_spec.unk_piece, fuse_unk=True, byte_fallback=True)
             )
+            tokenizer.add_special_tokens(
+                [ added_token for index, added_token in added_tokens.items()]
+            )
         else:
             raise Exception(
                 "You're trying to run a `Unigram` model but you're file was trained with a different algorithm"
         normalizers_list.append(normalizers.Replace(pattern=" ", content="▁"))
         return normalizers.Sequence(normalizers_list)
+    def pre_tokenizer(self, replacement, add_prefix_space):
         return None
 SLOW_TO_FAST_CONVERTERS["InternLM2Tokenizer"] = InternLM2Converter
 # Modified from transformers.model.llama.tokenization_llama_fast.LlamaTokenizerFast -> InternLM2TokenizerFast
 class InternLM2TokenizerFast(PreTrainedTokenizerFast):
     vocab_files_names = VOCAB_FILES_NAMES
     slow_tokenizer_class = InternLM2Tokenizer
     padding_side = "left"
             raise ValueError("add_eos_token = True but eos_token = None")
         single = f"{(bos+':0 ') if self.add_bos_token else ''}$A:0{(' '+eos+':0') if self.add_eos_token else ''}"
+        pair = f"{single}{(' '+bos+':1') if self.add_bos_token else ''} $B:1{(' '+eos+':1') if self.add_eos_token else ''}"
         special_tokens = []
         if self.add_bos_token: