trained model 1

Browse files

Files changed (16) hide show

.gitattributes +1 -0
README.md +81 -0
all_results.json +15 -0
config.json +107 -0
eval.py +134 -0
eval_results.json +10 -0
preprocessor_config.json +3 -3
pytorch_model.bin +3 -0
run.sh +3 -3
run_speech_recognition_ctc.py +6 -6
runs/Jan29_18-11-09_job-b1f4681b-d20d-47f2-af64-0c1734f4ff64/1643479909.8714664/events.out.tfevents.1643479909.job-b1f4681b-d20d-47f2-af64-0c1734f4ff64.6189.1 +3 -0
runs/Jan29_18-11-09_job-b1f4681b-d20d-47f2-af64-0c1734f4ff64/events.out.tfevents.1643479909.job-b1f4681b-d20d-47f2-af64-0c1734f4ff64.6189.0 +3 -0
runs/Jan29_18-11-09_job-b1f4681b-d20d-47f2-af64-0c1734f4ff64/events.out.tfevents.1643497112.job-b1f4681b-d20d-47f2-af64-0c1734f4ff64.6189.2 +3 -0
train_results.json +8 -0
trainer_state.json +249 -0
training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -26,3 +26,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zstandard filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 language_model/5gram.bin filter=lfs diff=lfs merge=lfs -text

 *.zstandard filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 language_model/5gram.bin filter=lfs diff=lfs merge=lfs -text
+pytorch_model.bin filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,81 @@

+---
+language:
+- hy-AM
+license: apache-2.0
+tags:
+- automatic-speech-recognition
+- mozilla-foundation/common_voice_8_0
+- generated_from_trainer
+datasets:
+- common_voice
+model-index:
+- name: ''
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+#
+This model is a fine-tuned version of [facebook/wav2vec2-xls-r-1b](https://huggingface.co/facebook/wav2vec2-xls-r-1b) on the MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - HY-AM dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.4521
+- Wer: 0.5141
+- Cer: 0.1100
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 8e-05
+- train_batch_size: 16
+- eval_batch_size: 64
+- seed: 42
+- gradient_accumulation_steps: 8
+- total_train_batch_size: 128
+- optimizer: Adam with betas=(0.9,0.98) and epsilon=1e-08
+- lr_scheduler_type: linear
+- lr_scheduler_warmup_ratio: 0.1
+- training_steps: 1400
+- mixed_precision_training: Native AMP
+### Training results
+| Training Loss | Epoch  | Step | Validation Loss | Wer    | Cer    |
+|:-------------:|:------:|:----:|:---------------:|:------:|:------:|
+| 6.1298        | 19.87  | 100  | 3.1204          | 1.0    | 1.0    |
+| 2.7269        | 39.87  | 200  | 0.6200          | 0.7592 | 0.1755 |
+| 1.4643        | 59.87  | 300  | 0.4796          | 0.5921 | 0.1277 |
+| 1.1242        | 79.87  | 400  | 0.4637          | 0.5359 | 0.1145 |
+| 0.9592        | 99.87  | 500  | 0.4521          | 0.5141 | 0.1100 |
+| 0.8704        | 119.87 | 600  | 0.4736          | 0.4914 | 0.1045 |
+| 0.7908        | 139.87 | 700  | 0.5394          | 0.5250 | 0.1124 |
+| 0.7049        | 159.87 | 800  | 0.4822          | 0.4754 | 0.0985 |
+| 0.6299        | 179.87 | 900  | 0.4890          | 0.4809 | 0.1028 |
+| 0.5832        | 199.87 | 1000 | 0.5233          | 0.4813 | 0.1028 |
+| 0.5145        | 219.87 | 1100 | 0.5350          | 0.4781 | 0.0994 |
+| 0.4604        | 239.87 | 1200 | 0.5223          | 0.4715 | 0.0984 |
+| 0.4226        | 259.87 | 1300 | 0.5167          | 0.4625 | 0.0953 |
+| 0.3946        | 279.87 | 1400 | 0.5248          | 0.4614 | 0.0950 |
+### Framework versions
+- Transformers 4.17.0.dev0
+- Pytorch 1.10.2+cu102
+- Datasets 1.18.2.dev0
+- Tokenizers 0.11.0

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 279.87,
+    "eval_cer": 0.1099645928174001,
+    "eval_loss": 0.452116459608078,
+    "eval_runtime": 15.4676,
+    "eval_samples": 335,
+    "eval_samples_per_second": 21.658,
+    "eval_steps_per_second": 0.388,
+    "eval_wer": 0.5140515222482436,
+    "train_loss": 1.2697014454432896,
+    "train_runtime": 17182.2968,
+    "train_samples": 728,
+    "train_samples_per_second": 10.429,
+    "train_steps_per_second": 0.081
+}

config.json ADDED Viewed

	@@ -0,0 +1,107 @@

+{
+  "_name_or_path": "facebook/wav2vec2-xls-r-1b",
+  "activation_dropout": 0.1,
+  "adapter_kernel_size": 3,
+  "adapter_stride": 2,
+  "add_adapter": false,
+  "apply_spec_augment": true,
+  "architectures": [
+    "Wav2Vec2ForCTC"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "classifier_proj_size": 256,
+  "codevector_dim": 1024,
+  "contrastive_logits_temperature": 0.1,
+  "conv_bias": true,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "mean",
+  "ctc_zero_infinity": false,
+  "diversity_loss_weight": 0.1,
+  "do_stable_layer_norm": true,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_dropout": 0.0,
+  "feat_extract_norm": "layer",
+  "feat_proj_dropout": 0.0,
+  "feat_quantizer_dropout": 0.0,
+  "final_dropout": 0.0,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.0,
+  "hidden_size": 1280,
+  "initializer_range": 0.02,
+  "intermediate_size": 5120,
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.1,
+  "mask_feature_length": 64,
+  "mask_feature_min_masks": 0,
+  "mask_feature_prob": 0.25,
+  "mask_time_length": 10,
+  "mask_time_min_masks": 2,
+  "mask_time_prob": 0.75,
+  "model_type": "wav2vec2",
+  "num_adapter_layers": 3,
+  "num_attention_heads": 16,
+  "num_codevector_groups": 2,
+  "num_codevectors_per_group": 320,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 48,
+  "num_negatives": 100,
+  "output_hidden_size": 1280,
+  "pad_token_id": 41,
+  "proj_codevector_dim": 1024,
+  "tdnn_dilation": [
+    1,
+    2,
+    3,
+    1,
+    1
+  ],
+  "tdnn_dim": [
+    512,
+    512,
+    512,
+    512,
+    1500
+  ],
+  "tdnn_kernel": [
+    5,
+    3,
+    3,
+    1,
+    1
+  ],
+  "torch_dtype": "float32",
+  "transformers_version": "4.17.0.dev0",
+  "use_weighted_layer_sum": false,
+  "vocab_size": 44,
+  "xvector_output_dim": 512
+}

eval.py ADDED Viewed

	@@ -0,0 +1,134 @@

+#!/usr/bin/env python3
+import argparse
+import re
+from typing import Dict
+import torch
+from datasets import Audio, Dataset, load_dataset, load_metric
+from transformers import AutoFeatureExtractor, pipeline, Wav2Vec2ProcessorWithLM
+def log_results(result: Dataset, args: Dict[str, str]):
+    """DO NOT CHANGE. This function computes and logs the result metrics."""
+    log_outputs = args.log_outputs
+    dataset_id = "_".join(args.dataset.split("/") + [args.config, args.split])
+    # load metric
+    wer = load_metric("wer")
+    cer = load_metric("cer")
+    # compute metrics
+    wer_result = wer.compute(references=result["target"], predictions=result["prediction"])
+    cer_result = cer.compute(references=result["target"], predictions=result["prediction"])
+    # print & log results
+    result_str = f"WER: {wer_result}\n" f"CER: {cer_result}"
+    print(result_str)
+    with open(f"{dataset_id}_eval_results.txt", "w") as f:
+        f.write(result_str)
+    # log all results in text file. Possibly interesting for analysis
+    if log_outputs is not None:
+        pred_file = f"log_{dataset_id}_predictions.txt"
+        target_file = f"log_{dataset_id}_targets.txt"
+        with open(pred_file, "w") as p, open(target_file, "w") as t:
+            # mapping function to write output
+            def write_to_file(batch, i):
+                p.write(f"{i}" + "\n")
+                p.write(batch["prediction"] + "\n")
+                t.write(f"{i}" + "\n")
+                t.write(batch["target"] + "\n")
+            result.map(write_to_file, with_indices=True)
+def normalize_text(text: str) -> str:
+    """This function normalizes the target text."""
+    chars_to_ignore_regex = re.compile("[^\sաբգդեզէըթժիլխծկհձղճմյնշոչպջռսվտրցւփքօֆև]")
+    text = re.sub(chars_to_ignore_regex, "", text.lower())
+    text = " ".join(text.split())
+    return text
+def main(args):
+    # load dataset
+    dataset = load_dataset(args.dataset, args.config, split=args.split, use_auth_token=True)
+    # for testing: only process the first two examples as a test
+    # dataset = dataset.select(range(10))
+    # load processor
+    # feature_extractor = AutoFeatureExtractor.from_pretrained(args.model_id)
+    # sampling_rate = feature_extractor.sampling_rate
+    processor = Wav2Vec2ProcessorWithLM.from_pretrained(args.model_id)
+    # resample audio
+    dataset = dataset.cast_column("audio", Audio(sampling_rate=processor.feature_extractor.sampling_rate))
+    # load eval pipeline
+    if args.device is None:
+        args.device = 0 if torch.cuda.is_available() else -1
+    asr = pipeline(
+        "automatic-speech-recognition", model=args.model_id, device=args.device,
+        feature_extractor=processor.feature_extractor, decoder=processor.decoder
+    )
+    # map function to decode audio
+    def map_to_pred(batch):
+        prediction = asr(
+            batch["audio"]["array"], chunk_length_s=args.chunk_length_s, stride_length_s=args.stride_length_s
+        )
+        batch["prediction"] = prediction["text"]
+        batch["target"] = normalize_text(batch["sentence"])
+        return batch
+    # run inference on all examples
+    result = dataset.map(map_to_pred, remove_columns=dataset.column_names)
+    # compute and log_results
+    # do not change function below
+    log_results(result, args)
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "--model_id", type=str, required=True, help="Model identifier. Should be loadable with 🤗 Transformers"
+    )
+    parser.add_argument(
+        "--dataset",
+        type=str,
+        required=True,
+        help="Dataset name to evaluate the `model_id`. Should be loadable with 🤗 Datasets",
+    )
+    parser.add_argument(
+        "--config", type=str, required=True, help="Config of the dataset. *E.g.* `'en'`  for Common Voice"
+    )
+    parser.add_argument("--split", type=str, required=True, help="Split of the dataset. *E.g.* `'test'`")
+    parser.add_argument(
+        "--chunk_length_s", type=float, default=None, help="Chunk length in seconds. Defaults to 5 seconds."
+    )
+    parser.add_argument(
+        "--stride_length_s", type=float, default=None, help="Stride of the audio chunks. Defaults to 1 second."
+    )
+    parser.add_argument(
+        "--log_outputs", action="store_true", help="If defined, write outputs to log file for analysis."
+    )
+    parser.add_argument(
+        "--device",
+        type=int,
+        default=None,
+        help="The device to run the pipeline on. -1 for CPU (default), 0 for the first GPU and so on.",
+    )
+    args = parser.parse_args()
+    main(args)

eval_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 279.87,
+    "eval_cer": 0.1099645928174001,
+    "eval_loss": 0.452116459608078,
+    "eval_runtime": 15.4676,
+    "eval_samples": 335,
+    "eval_samples_per_second": 21.658,
+    "eval_steps_per_second": 0.388,
+    "eval_wer": 0.5140515222482436
+}

preprocessor_config.json CHANGED Viewed

@@ -3,8 +3,8 @@
   "feature_extractor_type": "Wav2Vec2FeatureExtractor",
   "feature_size": 1,
   "padding_side": "right",
-  "padding_value": 0.0,
-  "processor_class": "Wav2Vec2ProcessorWithLM",
   "return_attention_mask": true,
-  "sampling_rate": 16000
 }

   "feature_extractor_type": "Wav2Vec2FeatureExtractor",
   "feature_size": 1,
   "padding_side": "right",
+  "padding_value": 0,
   "return_attention_mask": true,
+  "sampling_rate": 16000,
+  "processor_class": "Wav2Vec2ProcessorWithLM"
 }

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8f8978ee6447aa667cea589211c87f8fb8e06cc6854f68043d8ea9c89baaee13
+size 3850538161

run.sh CHANGED Viewed

@@ -4,6 +4,7 @@ python run_speech_recognition_ctc.py \
 	--model_name_or_path="facebook/wav2vec2-xls-r-1b" \
 	--tokenizer_name_or_path="./" \
 	--output_dir="./" \
     --max_steps 1400 \
 	--per_device_train_batch_size="16" \
 	--per_device_eval_batch_size="64" \
@@ -18,7 +19,6 @@ python run_speech_recognition_ctc.py \
 	--save_steps="100" \
 	--eval_steps="100" \
 	--logging_steps="100" \
-    --eval_metrics="wer cer" \
 	--save_total_limit="2" \
 	--freeze_feature_encoder \
 	--layerdrop="0.1" \
@@ -35,6 +35,6 @@ python run_speech_recognition_ctc.py \
 	--do_train --do_eval \
 	--load_best_model_at_end \
 	--report_to all \
-	--run_name xlsr-hy-cv-1b-1 \
-	--wandb_project xlsr-hy \
 	--bnb --tristage_sched

 	--model_name_or_path="facebook/wav2vec2-xls-r-1b" \
 	--tokenizer_name_or_path="./" \
 	--output_dir="./" \
+    --overwrite_output_dir \
     --max_steps 1400 \
 	--per_device_train_batch_size="16" \
 	--per_device_eval_batch_size="64" \
 	--save_steps="100" \
 	--eval_steps="100" \
 	--logging_steps="100" \
 	--save_total_limit="2" \
 	--freeze_feature_encoder \
 	--layerdrop="0.1" \
 	--do_train --do_eval \
 	--load_best_model_at_end \
 	--report_to all \
+	--run_name="xlsr-hy-cv-1b-1" \
+	--wandb_project="xlsr-hy" \
 	--bnb --tristage_sched

run_speech_recognition_ctc.py CHANGED Viewed

@@ -192,7 +192,7 @@ class DataTrainingArguments:
         metadata={"help": "A list of characters to remove from the transcripts."},
     )
     eval_metrics: List[str] = list_field(
-        default=["wer"],
         metadata={"help": "A list of metrics the model should be evaluated on. E.g. `'wer cer'`"},
     )
     max_duration_in_seconds: float = field(
@@ -521,9 +521,9 @@ def main():
         vocab_file = os.path.join(tokenizer_name_or_path, "vocab.json")
-        with training_args.main_process_first():
-            if training_args.overwrite_output_dir and os.path.isfile(vocab_file):
-                os.remove(vocab_file)
         with training_args.main_process_first(desc="dataset map vocabulary creation"):
             if not os.path.isfile(vocab_file):
@@ -685,8 +685,8 @@ def main():
     # Now save everything to be able to create a single processor later
     if is_main_process(training_args.local_rank):
         # save feature extractor, tokenizer and config
-        feature_extractor.save_pretrained(training_args.output_dir)
-        tokenizer.save_pretrained(training_args.output_dir)
         config.save_pretrained(training_args.output_dir)
     try:

         metadata={"help": "A list of characters to remove from the transcripts."},
     )
     eval_metrics: List[str] = list_field(
+        default=["wer", "cer"],
         metadata={"help": "A list of metrics the model should be evaluated on. E.g. `'wer cer'`"},
     )
     max_duration_in_seconds: float = field(
         vocab_file = os.path.join(tokenizer_name_or_path, "vocab.json")
+#         with training_args.main_process_first():
+#             if training_args.overwrite_output_dir and os.path.isfile(vocab_file):
+#                 os.remove(vocab_file)
         with training_args.main_process_first(desc="dataset map vocabulary creation"):
             if not os.path.isfile(vocab_file):
     # Now save everything to be able to create a single processor later
     if is_main_process(training_args.local_rank):
         # save feature extractor, tokenizer and config
+#         feature_extractor.save_pretrained(training_args.output_dir)
+#         tokenizer.save_pretrained(training_args.output_dir)
         config.save_pretrained(training_args.output_dir)
     try:

runs/Jan29_18-11-09_job-b1f4681b-d20d-47f2-af64-0c1734f4ff64/1643479909.8714664/events.out.tfevents.1643479909.job-b1f4681b-d20d-47f2-af64-0c1734f4ff64.6189.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dc84b6b9c7e039a23d8ea0de837aed93d5a56a472944aae8a0a5513d579eb0d1
+size 4772

runs/Jan29_18-11-09_job-b1f4681b-d20d-47f2-af64-0c1734f4ff64/events.out.tfevents.1643479909.job-b1f4681b-d20d-47f2-af64-0c1734f4ff64.6189.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:76b421bd9dff985180762874b1d03e350411b7d1d329716b241946a206fbdddd
+size 12354

runs/Jan29_18-11-09_job-b1f4681b-d20d-47f2-af64-0c1734f4ff64/events.out.tfevents.1643497112.job-b1f4681b-d20d-47f2-af64-0c1734f4ff64.6189.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fad62cf8a733fcb9bcef04edf23c64c03b02fe5fb12fd25b4744b660931c8729
+size 405

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 279.87,
+    "train_loss": 1.2697014454432896,
+    "train_runtime": 17182.2968,
+    "train_samples": 728,
+    "train_samples_per_second": 10.429,
+    "train_steps_per_second": 0.081
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,249 @@

+{
+  "best_metric": 0.452116459608078,
+  "best_model_checkpoint": "./checkpoint-500",
+  "epoch": 279.8695652173913,
+  "global_step": 1400,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 19.87,
+      "learning_rate": 5.6240000000000004e-05,
+      "loss": 6.1298,
+      "step": 100
+    },
+    {
+      "epoch": 19.87,
+      "eval_cer": 1.0,
+      "eval_loss": 3.120361804962158,
+      "eval_runtime": 16.2509,
+      "eval_samples_per_second": 20.614,
+      "eval_steps_per_second": 0.369,
+      "eval_wer": 1.0,
+      "step": 100
+    },
+    {
+      "epoch": 39.87,
+      "learning_rate": 8e-05,
+      "loss": 2.7269,
+      "step": 200
+    },
+    {
+      "epoch": 39.87,
+      "eval_cer": 0.17546788062721294,
+      "eval_loss": 0.6199544668197632,
+      "eval_runtime": 17.4782,
+      "eval_samples_per_second": 19.167,
+      "eval_steps_per_second": 0.343,
+      "eval_wer": 0.7591725214676034,
+      "step": 200
+    },
+    {
+      "epoch": 59.87,
+      "learning_rate": 8e-05,
+      "loss": 1.4643,
+      "step": 300
+    },
+    {
+      "epoch": 59.87,
+      "eval_cer": 0.12771876580677793,
+      "eval_loss": 0.4795631468296051,
+      "eval_runtime": 15.5884,
+      "eval_samples_per_second": 21.49,
+      "eval_steps_per_second": 0.385,
+      "eval_wer": 0.5921155347384855,
+      "step": 300
+    },
+    {
+      "epoch": 79.87,
+      "learning_rate": 8e-05,
+      "loss": 1.1242,
+      "step": 400
+    },
+    {
+      "epoch": 79.87,
+      "eval_cer": 0.11451694486595852,
+      "eval_loss": 0.463740736246109,
+      "eval_runtime": 15.4298,
+      "eval_samples_per_second": 21.711,
+      "eval_steps_per_second": 0.389,
+      "eval_wer": 0.5359094457455114,
+      "step": 400
+    },
+    {
+      "epoch": 99.87,
+      "learning_rate": 8e-05,
+      "loss": 0.9592,
+      "step": 500
+    },
+    {
+      "epoch": 99.87,
+      "eval_cer": 0.1099645928174001,
+      "eval_loss": 0.452116459608078,
+      "eval_runtime": 15.3829,
+      "eval_samples_per_second": 21.777,
+      "eval_steps_per_second": 0.39,
+      "eval_wer": 0.5140515222482436,
+      "step": 500
+    },
+    {
+      "epoch": 119.87,
+      "learning_rate": 8e-05,
+      "loss": 0.8704,
+      "step": 600
+    },
+    {
+      "epoch": 119.87,
+      "eval_cer": 0.10450177035913,
+      "eval_loss": 0.4736480712890625,
+      "eval_runtime": 15.4613,
+      "eval_samples_per_second": 21.667,
+      "eval_steps_per_second": 0.388,
+      "eval_wer": 0.49141295862607337,
+      "step": 600
+    },
+    {
+      "epoch": 139.87,
+      "learning_rate": 8e-05,
+      "loss": 0.7908,
+      "step": 700
+    },
+    {
+      "epoch": 139.87,
+      "eval_cer": 0.11244309559939301,
+      "eval_loss": 0.539383053779602,
+      "eval_runtime": 15.4463,
+      "eval_samples_per_second": 21.688,
+      "eval_steps_per_second": 0.388,
+      "eval_wer": 0.5249804839968775,
+      "step": 700
+    },
+    {
+      "epoch": 159.87,
+      "learning_rate": 6.936e-05,
+      "loss": 0.7049,
+      "step": 800
+    },
+    {
+      "epoch": 159.87,
+      "eval_cer": 0.09848254931714719,
+      "eval_loss": 0.48218029737472534,
+      "eval_runtime": 15.323,
+      "eval_samples_per_second": 21.863,
+      "eval_steps_per_second": 0.392,
+      "eval_wer": 0.47540983606557374,
+      "step": 800
+    },
+    {
+      "epoch": 179.87,
+      "learning_rate": 5.850285714285715e-05,
+      "loss": 0.6299,
+      "step": 900
+    },
+    {
+      "epoch": 179.87,
+      "eval_cer": 0.1028325746079919,
+      "eval_loss": 0.48903265595436096,
+      "eval_runtime": 15.3742,
+      "eval_samples_per_second": 21.79,
+      "eval_steps_per_second": 0.39,
+      "eval_wer": 0.4808743169398907,
+      "step": 900
+    },
+    {
+      "epoch": 199.87,
+      "learning_rate": 4.76457142857143e-05,
+      "loss": 0.5832,
+      "step": 1000
+    },
+    {
+      "epoch": 199.87,
+      "eval_cer": 0.10278199291856348,
+      "eval_loss": 0.5233051180839539,
+      "eval_runtime": 15.4506,
+      "eval_samples_per_second": 21.682,
+      "eval_steps_per_second": 0.388,
+      "eval_wer": 0.4812646370023419,
+      "step": 1000
+    },
+    {
+      "epoch": 219.87,
+      "learning_rate": 3.6788571428571434e-05,
+      "loss": 0.5145,
+      "step": 1100
+    },
+    {
+      "epoch": 219.87,
+      "eval_cer": 0.09939301972685888,
+      "eval_loss": 0.5349759459495544,
+      "eval_runtime": 15.4699,
+      "eval_samples_per_second": 21.655,
+      "eval_steps_per_second": 0.388,
+      "eval_wer": 0.4781420765027322,
+      "step": 1100
+    },
+    {
+      "epoch": 239.87,
+      "learning_rate": 2.5931428571428576e-05,
+      "loss": 0.4604,
+      "step": 1200
+    },
+    {
+      "epoch": 239.87,
+      "eval_cer": 0.09838138593829034,
+      "eval_loss": 0.5222976803779602,
+      "eval_runtime": 15.1676,
+      "eval_samples_per_second": 22.087,
+      "eval_steps_per_second": 0.396,
+      "eval_wer": 0.4715066354410617,
+      "step": 1200
+    },
+    {
+      "epoch": 259.87,
+      "learning_rate": 1.5074285714285721e-05,
+      "loss": 0.4226,
+      "step": 1300
+    },
+    {
+      "epoch": 259.87,
+      "eval_cer": 0.0952959028831563,
+      "eval_loss": 0.5167204737663269,
+      "eval_runtime": 15.5392,
+      "eval_samples_per_second": 21.558,
+      "eval_steps_per_second": 0.386,
+      "eval_wer": 0.46252927400468385,
+      "step": 1300
+    },
+    {
+      "epoch": 279.87,
+      "learning_rate": 4.217142857142858e-06,
+      "loss": 0.3946,
+      "step": 1400
+    },
+    {
+      "epoch": 279.87,
+      "eval_cer": 0.09504299443601416,
+      "eval_loss": 0.5248004794120789,
+      "eval_runtime": 15.5024,
+      "eval_samples_per_second": 21.61,
+      "eval_steps_per_second": 0.387,
+      "eval_wer": 0.4613583138173302,
+      "step": 1400
+    },
+    {
+      "epoch": 279.87,
+      "step": 1400,
+      "total_flos": 1.252060110838857e+20,
+      "train_loss": 1.2697014454432896,
+      "train_runtime": 17182.2968,
+      "train_samples_per_second": 10.429,
+      "train_steps_per_second": 0.081
+    }
+  ],
+  "max_steps": 1400,
+  "num_train_epochs": 280,
+  "total_flos": 1.252060110838857e+20,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:86c9d49bcd1768ee2043ea2c5e88a280c8d1fe28001131ac6b51202415414f57
+size 3055