marinone94
/

whisper-tiny-sv

@@ -571,7 +571,7 @@ def main():
     if data_args.audio_column_name not in raw_datasets_features:
         raise ValueError(
-            f"--audio_column_name '{data_args.audio_column_name}' not found in dataset '{data_args.dataset_name}'. "
             "Make sure to set `--audio_column_name` to the correct audio column - one of "
             f"{', '.join(raw_datasets_features)}."
         )
@@ -579,7 +579,7 @@ def main():
     data_args.text_column_name = data_args.text_column_name.split(",")[0]
     if data_args.text_column_name not in raw_datasets_features:
         raise ValueError(
-            f"--text_column_name {data_args.text_column_name} not found in dataset '{data_args.dataset_name}'. "
             "Make sure to set `--text_column_name` to the correct text column - one of "
             f"{', '.join(raw_datasets_features)}."
         )
@@ -833,14 +833,19 @@ def main():
         "tasks": "automatic-speech-recognition",
         "tags": "whisper-event",
     }
-    if data_args.dataset_name is not None:
-        kwargs["dataset_tags"] = data_args.dataset_name
-        if data_args.dataset_config_name is not None:
-            kwargs["dataset"] = f"{data_args.dataset_name} {data_args.dataset_config_name}"
         else:
-            kwargs["dataset"] = data_args.dataset_name
         # if "common_voice" in data_args.dataset_name:
         #     kwargs["language"] = data_args.dataset_config_name[:2]
         if model_args.model_index_name is not None:
             kwargs["model_name"] = model_args.model_index_name

     if data_args.audio_column_name not in raw_datasets_features:
         raise ValueError(
+            f"--audio_column_name '{data_args.audio_column_name}' not found in dataset. "
             "Make sure to set `--audio_column_name` to the correct audio column - one of "
             f"{', '.join(raw_datasets_features)}."
         )
     data_args.text_column_name = data_args.text_column_name.split(",")[0]
     if data_args.text_column_name not in raw_datasets_features:
         raise ValueError(
+            f"--text_column_name {data_args.text_column_name} not found in dataset. "
             "Make sure to set `--text_column_name` to the correct text column - one of "
             f"{', '.join(raw_datasets_features)}."
         )
         "tasks": "automatic-speech-recognition",
         "tags": "whisper-event",
     }
+    if data_args.dataset_train_name is not None:
+        dataset_name = list(set(data_args.dataset_train_name.split(",")))
+        kwargs["dataset_tags"] = dataset_name
+        if data_args.dataset_train_config_name is not None:
+            dataset_config_name = list(set(data_args.dataset_train_config_name.split(",")))
+            kwargs["dataset"] = f"{dataset_name} {dataset_config_name}"
         else:
+            kwargs["dataset"] = dataset_name
         # if "common_voice" in data_args.dataset_name:
         #     kwargs["language"] = data_args.dataset_config_name[:2]
+        if data_args.language_train is not None:
+            languages = list(set(data_args.language_train.split(",")))
+            kwargs["language"] = languages
         if model_args.model_index_name is not None:
             kwargs["model_name"] = model_args.model_index_name

test_run_nordic.sh CHANGED Viewed

@@ -8,10 +8,10 @@ python $1run_speech_recognition_seq2seq_streaming.py \
 	--dataset_eval_config_name="sv-SE,da,nn-NO" \
 	--language_eval="swedish,danish,norwegian" \
 	--eval_split_name="test" \
-	--model_index_name="Whisper Tiny Swedish" \
 	--max_train_samples="64" \
 	--max_eval_samples="32" \
-	--max_steps="50" \
 	--output_dir="./" \
 	--per_device_train_batch_size="8" \
 	--per_device_eval_batch_size="4" \

 	--dataset_eval_config_name="sv-SE,da,nn-NO" \
 	--language_eval="swedish,danish,norwegian" \
 	--eval_split_name="test" \
+	--model_index_name="Whisper Tiny Nordic" \
 	--max_train_samples="64" \
 	--max_eval_samples="32" \
+	--max_steps="8" \
 	--output_dir="./" \
 	--per_device_train_batch_size="8" \
 	--per_device_eval_batch_size="4" \