marinone94
/

whisper-tiny-sv

@@ -330,13 +330,13 @@ class DataCollatorSpeechSeq2SeqWithPadding:
         # labels[:, 1] = torch.full_like(labels[:, 1], -100)
         # remove start of sentence token from labels
-        if (labels[:, 0] == self.decoder_start_token_id).all().cpu().item():
-            labels = labels[:, 1:]
-        # add start of sentence token to labels + language + task
-        labels = torch.cat((torch.full_like(labels[:, 0], self.task_id).unsqueeze(0).T, labels), dim=-1)
-        labels = torch.cat((torch.full_like(labels[:, 0], self.language_id).unsqueeze(0).T, labels), dim=-1)
-        labels = torch.cat((torch.full_like(labels[:, 0], self.decoder_start_token_id).unsqueeze(0).T, labels), dim=-1)
         batch["labels"] = labels
@@ -640,14 +640,16 @@ def main():
     if model_args.freeze_encoder:
         model.freeze_encoder()
-    if data_args.language_train is not None and len(data_args.language_train.split(",")) == 1:
-        # We only need to set the task id when the language is specified (i.e. in a multilingual setting)
-        # If more than a langugae is specified, it will be specified in the data collator
-        tokenizer.set_prefix_tokens(language=data_args.language_train, task=data_args.task)
-    elif data_args.language_train is not None and len(data_args.language_train.split(",")) > 1:
-        # make sure language and task are not stored in the model config
-        model.config.forced_decoder_ids = None
     # 6. Resample speech dataset if necessary
     # logger.info("*** Resample dataset ***")

         # labels[:, 1] = torch.full_like(labels[:, 1], -100)
         # remove start of sentence token from labels
+        # if (labels[:, 0] == self.decoder_start_token_id).all().cpu().item():
+        #     labels = labels[:, 1:]
+        # # add start of sentence token to labels + language + task
+        # labels = torch.cat((torch.full_like(labels[:, 0], self.task_id).unsqueeze(0).T, labels), dim=-1)
+        # labels = torch.cat((torch.full_like(labels[:, 0], self.language_id).unsqueeze(0).T, labels), dim=-1)
+        # labels = torch.cat((torch.full_like(labels[:, 0], self.decoder_start_token_id).unsqueeze(0).T, labels), dim=-1)
         batch["labels"] = labels
     if model_args.freeze_encoder:
         model.freeze_encoder()
+    tokenizer.set_prefix_tokens(language=data_args.language_train, task=data_args.task)
+    # if data_args.language_train is not None and len(data_args.language_train.split(",")) == 1:
+    #     # We only need to set the task id when the language is specified (i.e. in a multilingual setting)
+    #     # If more than a langugae is specified, it will be specified in the data collator
+    #     tokenizer.set_prefix_tokens(language=data_args.language_train, task=data_args.task)
+    # elif data_args.language_train is not None and len(data_args.language_train.split(",")) > 1:
+    #     # make sure language and task are not stored in the model config
+    #     model.config.forced_decoder_ids = None
     # 6. Resample speech dataset if necessary
     # logger.info("*** Resample dataset ***")