jinaai
/

jina-bert-implementation

Jackmin108 commited on Oct 26, 2023

Commit

43899f3

•

1 Parent(s): 619ca8d

feat: truncate to 8k by default

Files changed (1) hide show

modeling_bert.py CHANGED Viewed

@@ -1195,7 +1195,9 @@ class JinaBertModel(JinaBertPreTrainedModel):
         inverse_permutation = np.argsort(permutation)
         sentences = [sentences[idx] for idx in permutation]
-        padding = tokenizer_kwargs.pop('padding', True)
         all_embeddings = []
@@ -1214,7 +1216,6 @@ class JinaBertModel(JinaBertPreTrainedModel):
             encoded_input = self.tokenizer(
                 sentences[i : i + batch_size],
                 return_tensors='pt',
-                padding=padding,
                 **tokenizer_kwargs,
             ).to(self.device)
             token_embs = self.forward(**encoded_input)[0]

         inverse_permutation = np.argsort(permutation)
         sentences = [sentences[idx] for idx in permutation]
+        tokenizer_kwargs['padding'] = tokenizer_kwargs.get('padding', True)
+        tokenizer_kwargs['max_length'] = tokenizer_kwargs.get('max_length', 8192)
+        tokenizer_kwargs['truncation'] = tokenizer_kwargs.get('truncation', True)
         all_embeddings = []
             encoded_input = self.tokenizer(
                 sentences[i : i + batch_size],
                 return_tensors='pt',
                 **tokenizer_kwargs,
             ).to(self.device)
             token_embs = self.forward(**encoded_input)[0]