Add checkpints

Browse files

Files changed (12) hide show

all_results.json +11 -0
config.json +84 -0
config_train.json +170 -0
eval_results.json +8 -0
preprocessor_config.json +9 -0
pytorch_model.bin +3 -0
special_tokens_map.json +1 -0
tokenizer_config.json +1 -0
train_results.json +6 -0
trainer_state.json +1331 -0
training_args.bin +3 -0
vocab.json +1 -0

all_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "epoch": 102.0,
+    "eval_loss": 0.5073719620704651,
+    "eval_runtime": 236.6641,
+    "eval_samples": 7066,
+    "eval_samples_per_second": 29.857,
+    "eval_wer": 0.3200079912096694,
+    "train_runtime": 110050.311,
+    "train_samples": 15408,
+    "train_samples_per_second": 0.102
+}

config.json ADDED Viewed

	@@ -0,0 +1,84 @@

+{
+  "_name_or_path": "facebook/wav2vec2-large-100k-voxpopuli",
+  "activation_dropout": 0.0,
+  "apply_spec_augment": true,
+  "architectures": [
+    "Wav2Vec2ForCTC"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 1,
+  "codevector_dim": 768,
+  "contrastive_logits_temperature": 0.1,
+  "conv_bias": true,
+  "conv_dim": [
+    512,
+    512,
+    512,
+    512,
+    512,
+    512,
+    512
+  ],
+  "conv_kernel": [
+    10,
+    3,
+    3,
+    3,
+    3,
+    2,
+    2
+  ],
+  "conv_stride": [
+    5,
+    2,
+    2,
+    2,
+    2,
+    2,
+    2
+  ],
+  "ctc_loss_reduction": "mean",
+  "ctc_zero_infinity": true,
+  "diversity_loss_weight": 0.1,
+  "do_stable_layer_norm": true,
+  "eos_token_id": 2,
+  "feat_extract_activation": "gelu",
+  "feat_extract_dropout": 0.0,
+  "feat_extract_norm": "layer",
+  "feat_proj_dropout": 0.1,
+  "feat_quantizer_dropout": 0.0,
+  "final_dropout": 0.0,
+  "gradient_checkpointing": true,
+  "hidden_act": "gelu",
+  "hidden_dropout": 0.1,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-05,
+  "layerdrop": 0.0,
+  "mask_channel_length": 10,
+  "mask_channel_min_space": 1,
+  "mask_channel_other": 0.0,
+  "mask_channel_prob": 0.0,
+  "mask_channel_selection": "static",
+  "mask_feature_length": 10,
+  "mask_feature_prob": 0.0,
+  "mask_time_length": 10,
+  "mask_time_min_space": 1,
+  "mask_time_other": 0.0,
+  "mask_time_prob": 0.05,
+  "mask_time_selection": "static",
+  "model_type": "wav2vec2",
+  "num_attention_heads": 16,
+  "num_codevector_groups": 2,
+  "num_codevectors_per_group": 320,
+  "num_conv_pos_embedding_groups": 16,
+  "num_conv_pos_embeddings": 128,
+  "num_feat_extract_layers": 7,
+  "num_hidden_layers": 24,
+  "num_negatives": 100,
+  "pad_token_id": 0,
+  "proj_codevector_dim": 768,
+  "transformers_version": "4.6.1",
+  "vocab_size": 45
+}

config_train.json ADDED Viewed

	@@ -0,0 +1,170 @@

+{
+    "run_name": "Wav2Vec-fine-tuning-TEDx",
+    "run_description": "Fine tuning TEDx",
+    "seed": 42,
+    // AUDIO PARAMS
+    "sampling_rate": 16000,
+    // VOCABULARY PARAMETERS
+    "vocab":{
+        "vocab_path": "example/vocab_example.json", // generic vocab for Portuguese
+        "blank": "<pad>", // blank token for padding
+        "silence": "|", // token between words
+        "unk": "<unk>" // unk token
+    },
+    // TRAINING
+    "batch_size": 8,       // Batch size for training.
+    "mixed_precision": true,     // level of optimization with NVIDIA's apex feature for automatic mixed FP16/FP32 precision (AMP), NOTE: currently only O1 is supported, and use "O1" to activate.
+    "early_stop_epochs": 10, // If 0 disabled else Number of epochs for stop training with validation loss dont decrease
+    "preprocess_dataset": false, // if true, the dataset will be pre-processed and saved in disk, otherwise the audio files will be loaded in each step. Preprocessing makes training faster, but requires much more disk space.
+    // OPTIMIZER
+    "epochs": 140,                // total number of epochs to train.
+    "lr": 0.00003,                  // Initial learning rate.
+    "gradient_accumulation_steps": 24,
+    // LOGGING
+    "logging_steps": 100,    // Number of steps to plot.
+    "load_best_model_at_end": true,
+    "save_total_limit": 3,
+    "warmup_ratio": 0.06666666667, // 0 disable Ratio of total training steps used for a linear warmup from 0 to learning_rate
+    "warmup_steps": 0, // 0 disable  Number of steps used for a linear warmup from 0 to learning_rate
+    // DATA LOADING
+    "num_loader_workers": 8,        // number of training data loader processes. Don't set it too big. 4-8 are goo
+    // MODEL
+    "freeze_feature_extractor": true, // Whether to freeze the feature extractor layers of the model.
+    "attention_dropout": 0.1, // The dropout ratio for the attention probabilities.
+    "activation_dropout": 0.1, // The dropout ratio for activations inside the fully connected layer.
+    "hidden_dropout": 0.1, // The dropout probabilitiy for all fully connected layers in the embeddings, encoder, and pooler.
+    "feat_proj_dropout": 0.1, // The dropout probabilitiy for all 1D convolutional layers in feature extractor.
+    "mask_time_prob": 0.05, //  Propability of each feature vector along the time axis to be chosen as the start of the vector span to be masked.
+    "layerdrop": 0.0,  // The LayerDrop probability.
+    "gradient_checkpointing": true,  // If True, use gradient checkpointing to save memory at the expense of slower backward pass.
+    // ToDo: Implement Time mask and Frequency Mask
+    "audio_augmentation":[
+        // additive noise and room impulse response (RIR) simulation similar to: https://arxiv.org/pdf/2009.14153.pdf
+        {
+            "name": "additive",
+            "sounds_path":"../../datasets/musan/speech/", // download: https://www.openslr.org/17/
+            "lru_cache_size": 32, // Maximum size of the LRU cache for storing noise files in memory
+            "min_snr_in_db": 13.0,
+            "max_snr_in_db": 20.0,
+            // "sample_rate": 16000,
+            "p": 0.25
+        },
+        {
+            "name": "additive",
+            "sounds_path":"../../datasets/musan/music/", // download: https://www.openslr.org/17/
+            "lru_cache_size": 32, // Maximum size of the LRU cache for storing noise files in memory
+            "min_snr_in_db": 5.0,
+            "max_snr_in_db": 15.0,
+            // "sample_rate": 16000,
+            "p": 0.25
+        },
+        {
+            "name": "additive",
+            "sounds_path":"../../datasets/musan/noise/", // download: https://www.openslr.org/17/
+            "lru_cache_size": 32, // Maximum size of the LRU cache for storing noise files in memory
+            "min_snr_in_db": 0.0,
+            "max_snr_in_db": 15.0,
+            // "sample_rate": 16000,
+            "p": 0.25
+        },
+        // rir filter proposed by: https://ieeexplore.ieee.org/document/7953152
+        {
+            "name": "rir",
+            "ir_path": "../../datasets/RIRS_NOISES/simulated_rirs/", // download: https://www.openslr.org/28/
+            "lru_cache_size": 128, // Maximum size of the LRU cache for storing noise files in memory
+            // "sample_rate": 16000,
+            "p": 0.25
+        }
+        ,
+        // {
+        //     "name": "gain",
+        //     "min_gain_in_db": -18.0,
+        //     "max_gain_in_db": 6,
+        //     "p": 0.25 // propability of apply this method, 0 is disable
+        // },
+        {
+            "name": "pitch_shift",
+            "min_semitones": -4,
+            "max_semitones": 4,
+            "p": 0.25 // propability of apply this method, 0 is disable
+        },
+        {
+            "name": "gaussian",
+            "min_amplitude": 0.0001,
+            "max_amplitude": 0.001,
+            "p": 0.25 // propability of apply this method, 0 is disable
+        }
+    ],
+    // PATHS
+    "output_path": "../checkpoints/Wav2Vec-voxpopuli/one-speaker/Final-paper/GT/PT/140-epoch/",
+    // CACHE
+    "dataset_cache": "../datasets/",
+    // DATASETS
+    "datasets":{
+        "files_path": "/workspace/edresson/datasets/Common_Voice/cv-corpus-7.0-2021-07-21/pt/", // relative path for audios It's will be join with the CS
+        "train":
+            [
+               // this dicts is pass directly for the load dataset see the documentation: https://huggingface.co/docs/datasets/package_reference/loading_methods.html#datasets.load_dataset
+            {
+                "name": "csv",
+                "path": "csv",
+                "data_files": ["/workspace/edresson/datasets/Common_Voice/cv-corpus-7.0-2021-07-21/pt/train_converted.csv"], // csv files
+                "text_column": "text",
+                "path_column": "file_path"
+            }
+            ,
+            {
+                "name": "csv",
+                "path": "csv",
+                "data_files": ["/workspace/edresson/datasets/TTS-Portuguese-Corpus_16khz/train_TTS-Portuguese_Corpus_metadata_converted_to_ASR.csv"], // csv files
+                "text_column": "text",
+                "path_column": "file_path"
+            }
+            ]
+        ,
+        "devel":
+            [
+                {
+                    "name": "csv",
+                    "path": "csv",
+                    "data_files": ["/workspace/edresson/datasets/Common_Voice/cv-corpus-7.0-2021-07-21/pt/dev_converted.csv"], // csv files
+                    "text_column": "text",
+                    "path_column": "file_path"
+                }
+            ]
+            ,
+        "test":
+            {
+                "name": "csv",
+                "path": "csv",
+                "data_files": ["/workspace/edresson/datasets/Common_Voice/cv-corpus-7.0-2021-07-21/pt/test_converted.csv"], // csv files
+                "text_column": "text",
+                "path_column": "file_path"
+            }
+    }//,
+    // used only for test
+    // "KenLM":{
+    // "kenlm_model_path": "../../kenLM/binaries/subtitle/4-gram/lm.binary", // Path for KenLM model
+    // "lexicon_path": "example/lexicon.lst", // file with all words for limit the decoder search
+    // "beam": 2048,
+    // "nbest": 1,
+    // "beam_threshold": 25,
+    // "lm_weight": 1,
+    // "word_score": -1,
+    // "sil_weight": 0
+    // }
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 102.0,
+    "eval_loss": 0.5073719620704651,
+    "eval_runtime": 236.6641,
+    "eval_samples": 7066,
+    "eval_samples_per_second": 29.857,
+    "eval_wer": 0.3200079912096694
+}

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "do_normalize": true,
+  "feature_extractor_type": "Wav2Vec2FeatureExtractor",
+  "feature_size": 1,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "return_attention_mask": true,
+  "sampling_rate": 16000
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f35ffb3f0c9e50d85d8001b0c638ec58939199a443de8500862dac6f4c7535b5
+size 1262114051

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "pad_token": "<pad>"}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"unk_token": "<unk>", "bos_token": "<s>", "eos_token": "</s>", "pad_token": "<pad>", "do_lower_case": false, "word_delimiter_token": "\|"}

train_results.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+    "epoch": 102.0,
+    "train_runtime": 110050.311,
+    "train_samples": 15408,
+    "train_samples_per_second": 0.102
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1331 @@

+{
+  "best_metric": 0.5058531761169434,
+  "best_model_checkpoint": "../checkpoints/Wav2Vec-voxpopuli/one-speaker/Final-paper/GT/PT/140-epoch/checkpoint-7360",
+  "epoch": 101.99688473520249,
+  "global_step": 8160,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "learning_rate": 4.016064257028112e-08,
+      "loss": 13.7434,
+      "step": 1
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 21.166763305664062,
+      "eval_runtime": 236.3766,
+      "eval_samples_per_second": 29.893,
+      "eval_wer": 1.0027969233842773,
+      "step": 80
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 4.016064257028113e-06,
+      "loss": 18.0487,
+      "step": 100
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 13.212292671203613,
+      "eval_runtime": 235.4679,
+      "eval_samples_per_second": 30.008,
+      "eval_wer": 1.0,
+      "step": 160
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 7.991967871485944e-06,
+      "loss": 13.4798,
+      "step": 200
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 8.697088241577148,
+      "eval_runtime": 235.1241,
+      "eval_samples_per_second": 30.052,
+      "eval_wer": 1.0,
+      "step": 240
+    },
+    {
+      "epoch": 3.75,
+      "learning_rate": 1.2008032128514056e-05,
+      "loss": 8.6518,
+      "step": 300
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 6.402597904205322,
+      "eval_runtime": 233.852,
+      "eval_samples_per_second": 30.216,
+      "eval_wer": 1.0,
+      "step": 320
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 1.6024096385542168e-05,
+      "loss": 6.2486,
+      "step": 400
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 5.096883296966553,
+      "eval_runtime": 235.426,
+      "eval_samples_per_second": 30.014,
+      "eval_wer": 1.0,
+      "step": 400
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 4.204596519470215,
+      "eval_runtime": 235.3347,
+      "eval_samples_per_second": 30.025,
+      "eval_wer": 1.0,
+      "step": 480
+    },
+    {
+      "epoch": 6.25,
+      "learning_rate": 2.0040160642570282e-05,
+      "loss": 4.7563,
+      "step": 500
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 3.5930964946746826,
+      "eval_runtime": 233.5038,
+      "eval_samples_per_second": 30.261,
+      "eval_wer": 1.0,
+      "step": 560
+    },
+    {
+      "epoch": 7.5,
+      "learning_rate": 2.4056224899598393e-05,
+      "loss": 3.756,
+      "step": 600
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 3.2295875549316406,
+      "eval_runtime": 235.3066,
+      "eval_samples_per_second": 30.029,
+      "eval_wer": 1.0,
+      "step": 640
+    },
+    {
+      "epoch": 8.75,
+      "learning_rate": 2.8072289156626508e-05,
+      "loss": 3.23,
+      "step": 700
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 3.0816433429718018,
+      "eval_runtime": 235.38,
+      "eval_samples_per_second": 30.02,
+      "eval_wer": 1.0,
+      "step": 720
+    },
+    {
+      "epoch": 10.0,
+      "learning_rate": 2.9850760547211327e-05,
+      "loss": 3.0413,
+      "step": 800
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 3.010103940963745,
+      "eval_runtime": 235.1911,
+      "eval_samples_per_second": 30.044,
+      "eval_wer": 1.0,
+      "step": 800
+    },
+    {
+      "epoch": 11.0,
+      "eval_loss": 2.9560742378234863,
+      "eval_runtime": 234.3165,
+      "eval_samples_per_second": 30.156,
+      "eval_wer": 1.0,
+      "step": 880
+    },
+    {
+      "epoch": 11.25,
+      "learning_rate": 2.9563761599540802e-05,
+      "loss": 2.9748,
+      "step": 900
+    },
+    {
+      "epoch": 12.0,
+      "eval_loss": 2.9139442443847656,
+      "eval_runtime": 235.2653,
+      "eval_samples_per_second": 30.034,
+      "eval_wer": 1.0,
+      "step": 960
+    },
+    {
+      "epoch": 12.5,
+      "learning_rate": 2.9276762651870278e-05,
+      "loss": 2.9122,
+      "step": 1000
+    },
+    {
+      "epoch": 13.0,
+      "eval_loss": 2.897088050842285,
+      "eval_runtime": 235.1263,
+      "eval_samples_per_second": 30.052,
+      "eval_wer": 1.0,
+      "step": 1040
+    },
+    {
+      "epoch": 13.75,
+      "learning_rate": 2.8989763704199754e-05,
+      "loss": 2.8791,
+      "step": 1100
+    },
+    {
+      "epoch": 14.0,
+      "eval_loss": 2.8461437225341797,
+      "eval_runtime": 237.2882,
+      "eval_samples_per_second": 29.778,
+      "eval_wer": 1.0,
+      "step": 1120
+    },
+    {
+      "epoch": 15.0,
+      "learning_rate": 2.8702764756529226e-05,
+      "loss": 2.8098,
+      "step": 1200
+    },
+    {
+      "epoch": 15.0,
+      "eval_loss": 2.71140718460083,
+      "eval_runtime": 236.1183,
+      "eval_samples_per_second": 29.926,
+      "eval_wer": 0.9989611427429828,
+      "step": 1200
+    },
+    {
+      "epoch": 16.0,
+      "eval_loss": 2.430983066558838,
+      "eval_runtime": 234.0852,
+      "eval_samples_per_second": 30.186,
+      "eval_wer": 0.9871341524323245,
+      "step": 1280
+    },
+    {
+      "epoch": 16.25,
+      "learning_rate": 2.84157658088587e-05,
+      "loss": 2.6134,
+      "step": 1300
+    },
+    {
+      "epoch": 17.0,
+      "eval_loss": 2.0400171279907227,
+      "eval_runtime": 236.1033,
+      "eval_samples_per_second": 29.928,
+      "eval_wer": 0.9695534911597243,
+      "step": 1360
+    },
+    {
+      "epoch": 17.5,
+      "learning_rate": 2.8128766861188177e-05,
+      "loss": 2.2164,
+      "step": 1400
+    },
+    {
+      "epoch": 18.0,
+      "eval_loss": 1.610411286354065,
+      "eval_runtime": 234.9978,
+      "eval_samples_per_second": 30.068,
+      "eval_wer": 0.8650484467086205,
+      "step": 1440
+    },
+    {
+      "epoch": 18.75,
+      "learning_rate": 2.784176791351765e-05,
+      "loss": 1.7608,
+      "step": 1500
+    },
+    {
+      "epoch": 19.0,
+      "eval_loss": 1.3267238140106201,
+      "eval_runtime": 236.1618,
+      "eval_samples_per_second": 29.92,
+      "eval_wer": 0.7361502347417841,
+      "step": 1520
+    },
+    {
+      "epoch": 20.0,
+      "learning_rate": 2.7554768965847124e-05,
+      "loss": 1.4269,
+      "step": 1600
+    },
+    {
+      "epoch": 20.0,
+      "eval_loss": 1.1435879468917847,
+      "eval_runtime": 235.9998,
+      "eval_samples_per_second": 29.941,
+      "eval_wer": 0.6568774348216961,
+      "step": 1600
+    },
+    {
+      "epoch": 21.0,
+      "eval_loss": 1.0661028623580933,
+      "eval_runtime": 235.7709,
+      "eval_samples_per_second": 29.97,
+      "eval_wer": 0.6220956947357906,
+      "step": 1680
+    },
+    {
+      "epoch": 21.25,
+      "learning_rate": 2.72677700181766e-05,
+      "loss": 1.2421,
+      "step": 1700
+    },
+    {
+      "epoch": 22.0,
+      "eval_loss": 0.9825426936149597,
+      "eval_runtime": 235.4357,
+      "eval_samples_per_second": 30.012,
+      "eval_wer": 0.5804015582858856,
+      "step": 1760
+    },
+    {
+      "epoch": 22.5,
+      "learning_rate": 2.6980771070506075e-05,
+      "loss": 1.1212,
+      "step": 1800
+    },
+    {
+      "epoch": 23.0,
+      "eval_loss": 0.9016405344009399,
+      "eval_runtime": 236.5199,
+      "eval_samples_per_second": 29.875,
+      "eval_wer": 0.5381680151832984,
+      "step": 1840
+    },
+    {
+      "epoch": 23.75,
+      "learning_rate": 2.669377212283555e-05,
+      "loss": 1.0251,
+      "step": 1900
+    },
+    {
+      "epoch": 24.0,
+      "eval_loss": 0.8733579516410828,
+      "eval_runtime": 236.0952,
+      "eval_samples_per_second": 29.929,
+      "eval_wer": 0.5140145839576465,
+      "step": 1920
+    },
+    {
+      "epoch": 25.0,
+      "learning_rate": 2.6406773175165027e-05,
+      "loss": 0.9619,
+      "step": 2000
+    },
+    {
+      "epoch": 25.0,
+      "eval_loss": 0.815034031867981,
+      "eval_runtime": 236.7344,
+      "eval_samples_per_second": 29.848,
+      "eval_wer": 0.48626510838078113,
+      "step": 2000
+    },
+    {
+      "epoch": 26.0,
+      "eval_loss": 0.8121696710586548,
+      "eval_runtime": 236.6854,
+      "eval_samples_per_second": 29.854,
+      "eval_wer": 0.47379882129657375,
+      "step": 2080
+    },
+    {
+      "epoch": 26.25,
+      "learning_rate": 2.6119774227494502e-05,
+      "loss": 0.9102,
+      "step": 2100
+    },
+    {
+      "epoch": 27.0,
+      "eval_loss": 0.7858432531356812,
+      "eval_runtime": 235.5249,
+      "eval_samples_per_second": 30.001,
+      "eval_wer": 0.4592348416741584,
+      "step": 2160
+    },
+    {
+      "epoch": 27.5,
+      "learning_rate": 2.5832775279823974e-05,
+      "loss": 0.8691,
+      "step": 2200
+    },
+    {
+      "epoch": 28.0,
+      "eval_loss": 0.7678278088569641,
+      "eval_runtime": 236.2494,
+      "eval_samples_per_second": 29.909,
+      "eval_wer": 0.4526820497452802,
+      "step": 2240
+    },
+    {
+      "epoch": 28.75,
+      "learning_rate": 2.554577633215345e-05,
+      "loss": 0.8358,
+      "step": 2300
+    },
+    {
+      "epoch": 29.0,
+      "eval_loss": 0.744153618812561,
+      "eval_runtime": 236.3798,
+      "eval_samples_per_second": 29.893,
+      "eval_wer": 0.4421736090300669,
+      "step": 2320
+    },
+    {
+      "epoch": 30.0,
+      "learning_rate": 2.5258777384482922e-05,
+      "loss": 0.8078,
+      "step": 2400
+    },
+    {
+      "epoch": 30.0,
+      "eval_loss": 0.7339251637458801,
+      "eval_runtime": 236.5399,
+      "eval_samples_per_second": 29.872,
+      "eval_wer": 0.4369793227449805,
+      "step": 2400
+    },
+    {
+      "epoch": 31.0,
+      "eval_loss": 0.6944392919540405,
+      "eval_runtime": 236.1263,
+      "eval_samples_per_second": 29.925,
+      "eval_wer": 0.4234542003795825,
+      "step": 2480
+    },
+    {
+      "epoch": 31.25,
+      "learning_rate": 2.4971778436812397e-05,
+      "loss": 0.7813,
+      "step": 2500
+    },
+    {
+      "epoch": 32.0,
+      "eval_loss": 0.7018499374389648,
+      "eval_runtime": 236.4001,
+      "eval_samples_per_second": 29.89,
+      "eval_wer": 0.42349415642792926,
+      "step": 2560
+    },
+    {
+      "epoch": 32.5,
+      "learning_rate": 2.4684779489141873e-05,
+      "loss": 0.7586,
+      "step": 2600
+    },
+    {
+      "epoch": 33.0,
+      "eval_loss": 0.691132664680481,
+      "eval_runtime": 236.4392,
+      "eval_samples_per_second": 29.885,
+      "eval_wer": 0.4159824193387274,
+      "step": 2640
+    },
+    {
+      "epoch": 33.75,
+      "learning_rate": 2.439778054147135e-05,
+      "loss": 0.7311,
+      "step": 2700
+    },
+    {
+      "epoch": 34.0,
+      "eval_loss": 0.6664403080940247,
+      "eval_runtime": 235.2837,
+      "eval_samples_per_second": 30.032,
+      "eval_wer": 0.4046748576565778,
+      "step": 2720
+    },
+    {
+      "epoch": 35.0,
+      "learning_rate": 2.4110781593800824e-05,
+      "loss": 0.7201,
+      "step": 2800
+    },
+    {
+      "epoch": 35.0,
+      "eval_loss": 0.6681694388389587,
+      "eval_runtime": 237.7483,
+      "eval_samples_per_second": 29.721,
+      "eval_wer": 0.4040755169313755,
+      "step": 2800
+    },
+    {
+      "epoch": 36.0,
+      "eval_loss": 0.6622908115386963,
+      "eval_runtime": 235.7553,
+      "eval_samples_per_second": 29.972,
+      "eval_wer": 0.40017980221756067,
+      "step": 2880
+    },
+    {
+      "epoch": 36.25,
+      "learning_rate": 2.38237826461303e-05,
+      "loss": 0.6993,
+      "step": 2900
+    },
+    {
+      "epoch": 37.0,
+      "eval_loss": 0.6478127241134644,
+      "eval_runtime": 236.8845,
+      "eval_samples_per_second": 29.829,
+      "eval_wer": 0.394825691739087,
+      "step": 2960
+    },
+    {
+      "epoch": 37.5,
+      "learning_rate": 2.3536783698459775e-05,
+      "loss": 0.6855,
+      "step": 3000
+    },
+    {
+      "epoch": 38.0,
+      "eval_loss": 0.6474733352661133,
+      "eval_runtime": 234.8758,
+      "eval_samples_per_second": 30.084,
+      "eval_wer": 0.39692338427729495,
+      "step": 3040
+    },
+    {
+      "epoch": 38.75,
+      "learning_rate": 2.324978475078925e-05,
+      "loss": 0.676,
+      "step": 3100
+    },
+    {
+      "epoch": 39.0,
+      "eval_loss": 0.6449029445648193,
+      "eval_runtime": 236.3414,
+      "eval_samples_per_second": 29.897,
+      "eval_wer": 0.3954250324642893,
+      "step": 3120
+    },
+    {
+      "epoch": 40.0,
+      "learning_rate": 2.296278580311872e-05,
+      "loss": 0.6623,
+      "step": 3200
+    },
+    {
+      "epoch": 40.0,
+      "eval_loss": 0.631065309047699,
+      "eval_runtime": 236.9217,
+      "eval_samples_per_second": 29.824,
+      "eval_wer": 0.38497652582159625,
+      "step": 3200
+    },
+    {
+      "epoch": 41.0,
+      "eval_loss": 0.6289655566215515,
+      "eval_runtime": 236.5702,
+      "eval_samples_per_second": 29.869,
+      "eval_wer": 0.3841574268304865,
+      "step": 3280
+    },
+    {
+      "epoch": 41.25,
+      "learning_rate": 2.2675786855448195e-05,
+      "loss": 0.6458,
+      "step": 3300
+    },
+    {
+      "epoch": 42.0,
+      "eval_loss": 0.6317856907844543,
+      "eval_runtime": 235.0808,
+      "eval_samples_per_second": 30.058,
+      "eval_wer": 0.3838178004195385,
+      "step": 3360
+    },
+    {
+      "epoch": 42.5,
+      "learning_rate": 2.238878790777767e-05,
+      "loss": 0.6327,
+      "step": 3400
+    },
+    {
+      "epoch": 43.0,
+      "eval_loss": 0.6043937802314758,
+      "eval_runtime": 236.0018,
+      "eval_samples_per_second": 29.94,
+      "eval_wer": 0.3680950953950654,
+      "step": 3440
+    },
+    {
+      "epoch": 43.75,
+      "learning_rate": 2.2101788960107146e-05,
+      "loss": 0.6317,
+      "step": 3500
+    },
+    {
+      "epoch": 44.0,
+      "eval_loss": 0.6136683821678162,
+      "eval_runtime": 236.7044,
+      "eval_samples_per_second": 29.852,
+      "eval_wer": 0.37600639296773547,
+      "step": 3520
+    },
+    {
+      "epoch": 45.0,
+      "learning_rate": 2.181479001243662e-05,
+      "loss": 0.6206,
+      "step": 3600
+    },
+    {
+      "epoch": 45.0,
+      "eval_loss": 0.6018360257148743,
+      "eval_runtime": 235.576,
+      "eval_samples_per_second": 29.995,
+      "eval_wer": 0.37245030466486867,
+      "step": 3600
+    },
+    {
+      "epoch": 46.0,
+      "eval_loss": 0.6160127520561218,
+      "eval_runtime": 236.4202,
+      "eval_samples_per_second": 29.887,
+      "eval_wer": 0.378423733892718,
+      "step": 3680
+    },
+    {
+      "epoch": 46.25,
+      "learning_rate": 2.1527791064766097e-05,
+      "loss": 0.6045,
+      "step": 3700
+    },
+    {
+      "epoch": 47.0,
+      "eval_loss": 0.6069476008415222,
+      "eval_runtime": 237.3738,
+      "eval_samples_per_second": 29.767,
+      "eval_wer": 0.36865448007192086,
+      "step": 3760
+    },
+    {
+      "epoch": 47.5,
+      "learning_rate": 2.1240792117095573e-05,
+      "loss": 0.6049,
+      "step": 3800
+    },
+    {
+      "epoch": 48.0,
+      "eval_loss": 0.5968321561813354,
+      "eval_runtime": 235.4281,
+      "eval_samples_per_second": 30.013,
+      "eval_wer": 0.36411946858455696,
+      "step": 3840
+    },
+    {
+      "epoch": 48.75,
+      "learning_rate": 2.0953793169425048e-05,
+      "loss": 0.5877,
+      "step": 3900
+    },
+    {
+      "epoch": 49.0,
+      "eval_loss": 0.6001846790313721,
+      "eval_runtime": 235.467,
+      "eval_samples_per_second": 30.008,
+      "eval_wer": 0.36515832584157426,
+      "step": 3920
+    },
+    {
+      "epoch": 50.0,
+      "learning_rate": 2.066679422175452e-05,
+      "loss": 0.5865,
+      "step": 4000
+    },
+    {
+      "epoch": 50.0,
+      "eval_loss": 0.5853711366653442,
+      "eval_runtime": 235.5406,
+      "eval_samples_per_second": 29.999,
+      "eval_wer": 0.3635001498351813,
+      "step": 4000
+    },
+    {
+      "epoch": 51.0,
+      "eval_loss": 0.5745455622673035,
+      "eval_runtime": 236.1025,
+      "eval_samples_per_second": 29.928,
+      "eval_wer": 0.35540905004495055,
+      "step": 4080
+    },
+    {
+      "epoch": 51.25,
+      "learning_rate": 2.0379795274083996e-05,
+      "loss": 0.5764,
+      "step": 4100
+    },
+    {
+      "epoch": 52.0,
+      "eval_loss": 0.5656818151473999,
+      "eval_runtime": 237.1421,
+      "eval_samples_per_second": 29.796,
+      "eval_wer": 0.35113375287184095,
+      "step": 4160
+    },
+    {
+      "epoch": 52.5,
+      "learning_rate": 2.0092796326413468e-05,
+      "loss": 0.5706,
+      "step": 4200
+    },
+    {
+      "epoch": 53.0,
+      "eval_loss": 0.5767672657966614,
+      "eval_runtime": 235.7491,
+      "eval_samples_per_second": 29.973,
+      "eval_wer": 0.355089401658176,
+      "step": 4240
+    },
+    {
+      "epoch": 53.75,
+      "learning_rate": 1.9805797378742943e-05,
+      "loss": 0.565,
+      "step": 4300
+    },
+    {
+      "epoch": 54.0,
+      "eval_loss": 0.5638183355331421,
+      "eval_runtime": 236.1669,
+      "eval_samples_per_second": 29.92,
+      "eval_wer": 0.3511936869443612,
+      "step": 4320
+    },
+    {
+      "epoch": 55.0,
+      "learning_rate": 1.951879843107242e-05,
+      "loss": 0.5499,
+      "step": 4400
+    },
+    {
+      "epoch": 55.0,
+      "eval_loss": 0.5843964219093323,
+      "eval_runtime": 237.455,
+      "eval_samples_per_second": 29.757,
+      "eval_wer": 0.3593047647587654,
+      "step": 4400
+    },
+    {
+      "epoch": 56.0,
+      "eval_loss": 0.5718104839324951,
+      "eval_runtime": 235.3494,
+      "eval_samples_per_second": 30.023,
+      "eval_wer": 0.35534911597243035,
+      "step": 4480
+    },
+    {
+      "epoch": 56.25,
+      "learning_rate": 1.9231799483401894e-05,
+      "loss": 0.5554,
+      "step": 4500
+    },
+    {
+      "epoch": 57.0,
+      "eval_loss": 0.5693724155426025,
+      "eval_runtime": 237.1158,
+      "eval_samples_per_second": 29.8,
+      "eval_wer": 0.3528718409749276,
+      "step": 4560
+    },
+    {
+      "epoch": 57.5,
+      "learning_rate": 1.894480053573137e-05,
+      "loss": 0.5464,
+      "step": 4600
+    },
+    {
+      "epoch": 58.0,
+      "eval_loss": 0.5594637989997864,
+      "eval_runtime": 237.4676,
+      "eval_samples_per_second": 29.756,
+      "eval_wer": 0.3494156427929278,
+      "step": 4640
+    },
+    {
+      "epoch": 58.75,
+      "learning_rate": 1.8657801588060845e-05,
+      "loss": 0.539,
+      "step": 4700
+    },
+    {
+      "epoch": 59.0,
+      "eval_loss": 0.5721908807754517,
+      "eval_runtime": 236.7283,
+      "eval_samples_per_second": 29.849,
+      "eval_wer": 0.35081410448506645,
+      "step": 4720
+    },
+    {
+      "epoch": 60.0,
+      "learning_rate": 1.837080264039032e-05,
+      "loss": 0.5359,
+      "step": 4800
+    },
+    {
+      "epoch": 60.0,
+      "eval_loss": 0.5462157130241394,
+      "eval_runtime": 235.957,
+      "eval_samples_per_second": 29.946,
+      "eval_wer": 0.3440015982419339,
+      "step": 4800
+    },
+    {
+      "epoch": 61.0,
+      "eval_loss": 0.5488569736480713,
+      "eval_runtime": 236.1407,
+      "eval_samples_per_second": 29.923,
+      "eval_wer": 0.34198381780041953,
+      "step": 4880
+    },
+    {
+      "epoch": 61.25,
+      "learning_rate": 1.8083803692719793e-05,
+      "loss": 0.5304,
+      "step": 4900
+    },
+    {
+      "epoch": 62.0,
+      "eval_loss": 0.5528755784034729,
+      "eval_runtime": 235.178,
+      "eval_samples_per_second": 30.045,
+      "eval_wer": 0.3452202577165118,
+      "step": 4960
+    },
+    {
+      "epoch": 62.5,
+      "learning_rate": 1.779680474504927e-05,
+      "loss": 0.52,
+      "step": 5000
+    },
+    {
+      "epoch": 63.0,
+      "eval_loss": 0.5493497252464294,
+      "eval_runtime": 234.848,
+      "eval_samples_per_second": 30.088,
+      "eval_wer": 0.34174408151033864,
+      "step": 5040
+    },
+    {
+      "epoch": 63.75,
+      "learning_rate": 1.7509805797378744e-05,
+      "loss": 0.5316,
+      "step": 5100
+    },
+    {
+      "epoch": 64.0,
+      "eval_loss": 0.5514699816703796,
+      "eval_runtime": 234.6944,
+      "eval_samples_per_second": 30.107,
+      "eval_wer": 0.34138447707521724,
+      "step": 5120
+    },
+    {
+      "epoch": 65.0,
+      "learning_rate": 1.7222806849708216e-05,
+      "loss": 0.5191,
+      "step": 5200
+    },
+    {
+      "epoch": 65.0,
+      "eval_loss": 0.5479201674461365,
+      "eval_runtime": 235.3908,
+      "eval_samples_per_second": 30.018,
+      "eval_wer": 0.3387273998601538,
+      "step": 5200
+    },
+    {
+      "epoch": 66.0,
+      "eval_loss": 0.5452239513397217,
+      "eval_runtime": 233.7285,
+      "eval_samples_per_second": 30.232,
+      "eval_wer": 0.34569973029667367,
+      "step": 5280
+    },
+    {
+      "epoch": 66.25,
+      "learning_rate": 1.6935807902037692e-05,
+      "loss": 0.5138,
+      "step": 5300
+    },
+    {
+      "epoch": 67.0,
+      "eval_loss": 0.5339746475219727,
+      "eval_runtime": 238.4195,
+      "eval_samples_per_second": 29.637,
+      "eval_wer": 0.3345120367595645,
+      "step": 5360
+    },
+    {
+      "epoch": 67.5,
+      "learning_rate": 1.6648808954367167e-05,
+      "loss": 0.5161,
+      "step": 5400
+    },
+    {
+      "epoch": 68.0,
+      "eval_loss": 0.529504120349884,
+      "eval_runtime": 235.3768,
+      "eval_samples_per_second": 30.02,
+      "eval_wer": 0.3316352012785935,
+      "step": 5440
+    },
+    {
+      "epoch": 68.75,
+      "learning_rate": 1.6361810006696643e-05,
+      "loss": 0.5038,
+      "step": 5500
+    },
+    {
+      "epoch": 69.0,
+      "eval_loss": 0.540134847164154,
+      "eval_runtime": 234.8619,
+      "eval_samples_per_second": 30.086,
+      "eval_wer": 0.3354310258715413,
+      "step": 5520
+    },
+    {
+      "epoch": 70.0,
+      "learning_rate": 1.607481105902612e-05,
+      "loss": 0.4976,
+      "step": 5600
+    },
+    {
+      "epoch": 70.0,
+      "eval_loss": 0.5468968749046326,
+      "eval_runtime": 234.2977,
+      "eval_samples_per_second": 30.158,
+      "eval_wer": 0.33575067425831584,
+      "step": 5600
+    },
+    {
+      "epoch": 71.0,
+      "eval_loss": 0.5490255951881409,
+      "eval_runtime": 235.056,
+      "eval_samples_per_second": 30.061,
+      "eval_wer": 0.33371291579262813,
+      "step": 5680
+    },
+    {
+      "epoch": 71.25,
+      "learning_rate": 1.578781211135559e-05,
+      "loss": 0.4983,
+      "step": 5700
+    },
+    {
+      "epoch": 72.0,
+      "eval_loss": 0.5308582782745361,
+      "eval_runtime": 240.9129,
+      "eval_samples_per_second": 29.33,
+      "eval_wer": 0.32967735490959943,
+      "step": 5760
+    },
+    {
+      "epoch": 72.5,
+      "learning_rate": 1.5500813163685066e-05,
+      "loss": 0.4893,
+      "step": 5800
+    },
+    {
+      "epoch": 73.0,
+      "eval_loss": 0.5336333513259888,
+      "eval_runtime": 234.8259,
+      "eval_samples_per_second": 30.09,
+      "eval_wer": 0.33373289381680155,
+      "step": 5840
+    },
+    {
+      "epoch": 73.75,
+      "learning_rate": 1.5213814216014542e-05,
+      "loss": 0.4926,
+      "step": 5900
+    },
+    {
+      "epoch": 74.0,
+      "eval_loss": 0.5315715074539185,
+      "eval_runtime": 233.7173,
+      "eval_samples_per_second": 30.233,
+      "eval_wer": 0.3309359704325242,
+      "step": 5920
+    },
+    {
+      "epoch": 75.0,
+      "learning_rate": 1.4926815268344016e-05,
+      "loss": 0.4844,
+      "step": 6000
+    },
+    {
+      "epoch": 75.0,
+      "eval_loss": 0.5397169589996338,
+      "eval_runtime": 233.3548,
+      "eval_samples_per_second": 30.28,
+      "eval_wer": 0.3329937069223854,
+      "step": 6000
+    },
+    {
+      "epoch": 76.0,
+      "eval_loss": 0.5310106873512268,
+      "eval_runtime": 234.4399,
+      "eval_samples_per_second": 30.14,
+      "eval_wer": 0.334292278493657,
+      "step": 6080
+    },
+    {
+      "epoch": 76.25,
+      "learning_rate": 1.4639816320673491e-05,
+      "loss": 0.4821,
+      "step": 6100
+    },
+    {
+      "epoch": 77.0,
+      "eval_loss": 0.5305867791175842,
+      "eval_runtime": 233.3613,
+      "eval_samples_per_second": 30.279,
+      "eval_wer": 0.3270402557187094,
+      "step": 6160
+    },
+    {
+      "epoch": 77.5,
+      "learning_rate": 1.4352817373002967e-05,
+      "loss": 0.4772,
+      "step": 6200
+    },
+    {
+      "epoch": 78.0,
+      "eval_loss": 0.5232115387916565,
+      "eval_runtime": 234.4045,
+      "eval_samples_per_second": 30.144,
+      "eval_wer": 0.32903805813605036,
+      "step": 6240
+    },
+    {
+      "epoch": 78.75,
+      "learning_rate": 1.406581842533244e-05,
+      "loss": 0.4876,
+      "step": 6300
+    },
+    {
+      "epoch": 79.0,
+      "eval_loss": 0.5481472015380859,
+      "eval_runtime": 235.1064,
+      "eval_samples_per_second": 30.054,
+      "eval_wer": 0.32951753071621215,
+      "step": 6320
+    },
+    {
+      "epoch": 80.0,
+      "learning_rate": 1.3778819477661916e-05,
+      "loss": 0.471,
+      "step": 6400
+    },
+    {
+      "epoch": 80.0,
+      "eval_loss": 0.5388906598091125,
+      "eval_runtime": 234.5017,
+      "eval_samples_per_second": 30.132,
+      "eval_wer": 0.3307761462391369,
+      "step": 6400
+    },
+    {
+      "epoch": 81.0,
+      "eval_loss": 0.5276188254356384,
+      "eval_runtime": 234.907,
+      "eval_samples_per_second": 30.08,
+      "eval_wer": 0.32865847567675555,
+      "step": 6480
+    },
+    {
+      "epoch": 81.25,
+      "learning_rate": 1.349182052999139e-05,
+      "loss": 0.4721,
+      "step": 6500
+    },
+    {
+      "epoch": 82.0,
+      "eval_loss": 0.5138600468635559,
+      "eval_runtime": 236.3966,
+      "eval_samples_per_second": 29.89,
+      "eval_wer": 0.32388372789931075,
+      "step": 6560
+    },
+    {
+      "epoch": 82.5,
+      "learning_rate": 1.3204821582320865e-05,
+      "loss": 0.4706,
+      "step": 6600
+    },
+    {
+      "epoch": 83.0,
+      "eval_loss": 0.5274313688278198,
+      "eval_runtime": 234.3438,
+      "eval_samples_per_second": 30.152,
+      "eval_wer": 0.32626111277594644,
+      "step": 6640
+    },
+    {
+      "epoch": 83.75,
+      "learning_rate": 1.2917822634650339e-05,
+      "loss": 0.4659,
+      "step": 6700
+    },
+    {
+      "epoch": 84.0,
+      "eval_loss": 0.5202988386154175,
+      "eval_runtime": 234.4209,
+      "eval_samples_per_second": 30.142,
+      "eval_wer": 0.3222255518929178,
+      "step": 6720
+    },
+    {
+      "epoch": 85.0,
+      "learning_rate": 1.2630823686979815e-05,
+      "loss": 0.4607,
+      "step": 6800
+    },
+    {
+      "epoch": 85.0,
+      "eval_loss": 0.5231702923774719,
+      "eval_runtime": 235.6072,
+      "eval_samples_per_second": 29.991,
+      "eval_wer": 0.320867046249126,
+      "step": 6800
+    },
+    {
+      "epoch": 86.0,
+      "eval_loss": 0.5206882953643799,
+      "eval_runtime": 235.3295,
+      "eval_samples_per_second": 30.026,
+      "eval_wer": 0.32252522225551894,
+      "step": 6880
+    },
+    {
+      "epoch": 86.25,
+      "learning_rate": 1.234382473930929e-05,
+      "loss": 0.4634,
+      "step": 6900
+    },
+    {
+      "epoch": 87.0,
+      "eval_loss": 0.522659182548523,
+      "eval_runtime": 235.3665,
+      "eval_samples_per_second": 30.021,
+      "eval_wer": 0.32252522225551894,
+      "step": 6960
+    },
+    {
+      "epoch": 87.5,
+      "learning_rate": 1.2056825791638764e-05,
+      "loss": 0.4546,
+      "step": 7000
+    },
+    {
+      "epoch": 88.0,
+      "eval_loss": 0.5252255201339722,
+      "eval_runtime": 234.3682,
+      "eval_samples_per_second": 30.149,
+      "eval_wer": 0.32510238737388875,
+      "step": 7040
+    },
+    {
+      "epoch": 88.75,
+      "learning_rate": 1.1769826843968238e-05,
+      "loss": 0.4606,
+      "step": 7100
+    },
+    {
+      "epoch": 89.0,
+      "eval_loss": 0.5120769739151001,
+      "eval_runtime": 236.0459,
+      "eval_samples_per_second": 29.935,
+      "eval_wer": 0.32012785935470983,
+      "step": 7120
+    },
+    {
+      "epoch": 90.0,
+      "learning_rate": 1.1482827896297713e-05,
+      "loss": 0.4565,
+      "step": 7200
+    },
+    {
+      "epoch": 90.0,
+      "eval_loss": 0.5241296291351318,
+      "eval_runtime": 233.918,
+      "eval_samples_per_second": 30.207,
+      "eval_wer": 0.32190590350614323,
+      "step": 7200
+    },
+    {
+      "epoch": 91.0,
+      "eval_loss": 0.5129281282424927,
+      "eval_runtime": 235.5104,
+      "eval_samples_per_second": 30.003,
+      "eval_wer": 0.3203675956447907,
+      "step": 7280
+    },
+    {
+      "epoch": 91.25,
+      "learning_rate": 1.1195828948627189e-05,
+      "loss": 0.4557,
+      "step": 7300
+    },
+    {
+      "epoch": 92.0,
+      "eval_loss": 0.5058531761169434,
+      "eval_runtime": 235.6964,
+      "eval_samples_per_second": 29.979,
+      "eval_wer": 0.3161522325442014,
+      "step": 7360
+    },
+    {
+      "epoch": 92.5,
+      "learning_rate": 1.0908830000956664e-05,
+      "loss": 0.4528,
+      "step": 7400
+    },
+    {
+      "epoch": 93.0,
+      "eval_loss": 0.5195637345314026,
+      "eval_runtime": 236.5815,
+      "eval_samples_per_second": 29.867,
+      "eval_wer": 0.32304465088402756,
+      "step": 7440
+    },
+    {
+      "epoch": 93.75,
+      "learning_rate": 1.0621831053286138e-05,
+      "loss": 0.4507,
+      "step": 7500
+    },
+    {
+      "epoch": 94.0,
+      "eval_loss": 0.5212134718894958,
+      "eval_runtime": 236.6887,
+      "eval_samples_per_second": 29.854,
+      "eval_wer": 0.3194286285086405,
+      "step": 7520
+    },
+    {
+      "epoch": 95.0,
+      "learning_rate": 1.0334832105615612e-05,
+      "loss": 0.4491,
+      "step": 7600
+    },
+    {
+      "epoch": 95.0,
+      "eval_loss": 0.5105758905410767,
+      "eval_runtime": 236.3704,
+      "eval_samples_per_second": 29.894,
+      "eval_wer": 0.31345519928079113,
+      "step": 7600
+    },
+    {
+      "epoch": 96.0,
+      "eval_loss": 0.5123084187507629,
+      "eval_runtime": 236.3046,
+      "eval_samples_per_second": 29.902,
+      "eval_wer": 0.31884926580761164,
+      "step": 7680
+    },
+    {
+      "epoch": 96.25,
+      "learning_rate": 1.0047833157945088e-05,
+      "loss": 0.446,
+      "step": 7700
+    },
+    {
+      "epoch": 97.0,
+      "eval_loss": 0.5163899660110474,
+      "eval_runtime": 236.0105,
+      "eval_samples_per_second": 29.939,
+      "eval_wer": 0.3189691339526521,
+      "step": 7760
+    },
+    {
+      "epoch": 97.5,
+      "learning_rate": 9.760834210274563e-06,
+      "loss": 0.4474,
+      "step": 7800
+    },
+    {
+      "epoch": 98.0,
+      "eval_loss": 0.5071632266044617,
+      "eval_runtime": 238.0944,
+      "eval_samples_per_second": 29.677,
+      "eval_wer": 0.3145340125861552,
+      "step": 7840
+    },
+    {
+      "epoch": 98.75,
+      "learning_rate": 9.473835262604039e-06,
+      "loss": 0.4389,
+      "step": 7900
+    },
+    {
+      "epoch": 99.0,
+      "eval_loss": 0.5162996649742126,
+      "eval_runtime": 234.5869,
+      "eval_samples_per_second": 30.121,
+      "eval_wer": 0.3179502547198082,
+      "step": 7920
+    },
+    {
+      "epoch": 100.0,
+      "learning_rate": 9.186836314933511e-06,
+      "loss": 0.4408,
+      "step": 8000
+    },
+    {
+      "epoch": 100.0,
+      "eval_loss": 0.511136531829834,
+      "eval_runtime": 235.2605,
+      "eval_samples_per_second": 30.035,
+      "eval_wer": 0.3154929577464789,
+      "step": 8000
+    },
+    {
+      "epoch": 101.0,
+      "eval_loss": 0.5172923803329468,
+      "eval_runtime": 237.12,
+      "eval_samples_per_second": 29.799,
+      "eval_wer": 0.3147937269004096,
+      "step": 8080
+    },
+    {
+      "epoch": 101.25,
+      "learning_rate": 8.899837367262986e-06,
+      "loss": 0.4399,
+      "step": 8100
+    },
+    {
+      "epoch": 102.0,
+      "eval_loss": 0.5145618915557861,
+      "eval_runtime": 236.8186,
+      "eval_samples_per_second": 29.837,
+      "eval_wer": 0.3172909799220857,
+      "step": 8160
+    },
+    {
+      "epoch": 102.0,
+      "step": 8160,
+      "total_flos": 0,
+      "train_runtime": 110050.311,
+      "train_samples_per_second": 0.102
+    }
+  ],
+  "max_steps": 11200,
+  "num_train_epochs": 140,
+  "total_flos": 0,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bb13c0c8ba6bf260fc4843ebf4559e1b46e3bd12a4dbc58046c3910ed733a5ff
+size 2543

vocab.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"<pad>": 0, "|": 1, "<unk>": 2, "a": 3, "b": 4, "c": 5, "d": 6, "e": 7, "f": 8, "g": 9, "h": 10, "i": 11, "j": 12, "k": 13, "l": 14, "m": 15, "n": 16, "o": 17, "p": 18, "q": 19, "r": 20, "s": 21, "t": 22, "u": 23, "v": 24, "w": 25, "x": 26, "y": 27, "z": 28, "ç": 29, "ã": 30, "à": 31, "á": 32, "â": 33, "ê": 34, "é": 35, "í": 36, "ó": 37, "ô": 38, "õ": 39, "ú": 40, "û": 41, "-": 42, "<s>": 43, "</s>": 44}