liminghong
/

DNABERT-2-117M

@@ -579,21 +579,35 @@ class BertModel(BertPreTrainedModel):
     def forward(
         self,
-        input_ids: torch.Tensor,
         token_type_ids: Optional[torch.Tensor] = None,
         attention_mask: Optional[torch.Tensor] = None,
         position_ids: Optional[torch.Tensor] = None,
         output_all_encoded_layers: Optional[bool] = False,
         masked_tokens_mask: Optional[torch.Tensor] = None,
         **kwargs
     ) -> Tuple[Union[List[torch.Tensor], torch.Tensor], Optional[torch.Tensor]]:
         if attention_mask is None:
-            attention_mask = torch.ones_like(input_ids)
         if token_type_ids is None:
-            token_type_ids = torch.zeros_like(input_ids)
-        embedding_output = self.embeddings(input_ids, token_type_ids,
-                                           position_ids)
         subset_mask = []
         first_col_mask = []

     def forward(
         self,
+        input_ids: Optional[torch.Tensor] = None,
         token_type_ids: Optional[torch.Tensor] = None,
         attention_mask: Optional[torch.Tensor] = None,
         position_ids: Optional[torch.Tensor] = None,
+        inputs_embeds: Optional[torch.Tensor] = None,
         output_all_encoded_layers: Optional[bool] = False,
         masked_tokens_mask: Optional[torch.Tensor] = None,
         **kwargs
     ) -> Tuple[Union[List[torch.Tensor], torch.Tensor], Optional[torch.Tensor]]:
+        if input_ids is not None and inputs_embeds is not None:
+            raise ValueError("You cannot specify both input_ids and inputs_embeds at the same time")
+        elif input_ids is not None:
+            input_shape = input_ids.size()
+        elif inputs_embeds is not None:
+            input_shape = inputs_embeds.size()[:-1]
+        else:
+            raise ValueError("You have to specify either input_ids or inputs_embeds")
+        device = input_ids.device if input_ids is not None else inputs_embeds.device
         if attention_mask is None:
+            attention_mask = torch.ones(input_shape, device=device)
         if token_type_ids is None:
+            token_type_ids = torch.zeros(input_shape, device=device)
+        embedding_output = self.embeddings(
+            input_ids,
+            token_type_ids,
+            position_ids
+        ) if inputs_embeds is None else inputs_embeds
         subset_mask = []
         first_col_mask = []