End of training

Browse files

Files changed (6) hide show

README.md +3 -1
all_results.json +11 -11
eval_results.json +6 -6
runs/Aug31_06-46-04_4b35055fdbcb/events.out.tfevents.1725100944.4b35055fdbcb.851.1 +3 -0
train_results.json +6 -6
trainer_state.json +491 -171

README.md CHANGED Viewed

@@ -2,6 +2,8 @@
 license: apache-2.0
 base_model: facebook/wav2vec2-large-xlsr-53
 tags:
 - generated_from_trainer
 metrics:
 - wer
@@ -15,7 +17,7 @@ should probably proofread and complete it, then remove this comment. -->
 # wav2vec2-xlsr-53-ft-btb-ccv-cy
-This model is a fine-tuned version of [facebook/wav2vec2-large-xlsr-53](https://huggingface.co/facebook/wav2vec2-large-xlsr-53) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: nan
 - Wer: 1.0

 license: apache-2.0
 base_model: facebook/wav2vec2-large-xlsr-53
 tags:
+- automatic-speech-recognition
+- DewiBrynJones/banc-trawsgrifiadau-bangor-clean-with-ccv
 - generated_from_trainer
 metrics:
 - wer
 # wav2vec2-xlsr-53-ft-btb-ccv-cy
+This model is a fine-tuned version of [facebook/wav2vec2-large-xlsr-53](https://huggingface.co/facebook/wav2vec2-large-xlsr-53) on the DEWIBRYNJONES/BANC-TRAWSGRIFIADAU-BANGOR-CLEAN-WITH-CCV - DEFAULT dataset.
 It achieves the following results on the evaluation set:
 - Loss: nan
 - Wer: 1.0

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 0.6412722842118763,
-    "eval_loss": 0.5226185917854309,
-    "eval_runtime": 188.9199,
     "eval_samples": 7022,
-    "eval_samples_per_second": 37.169,
-    "eval_steps_per_second": 0.582,
-    "eval_wer": 0.40009832711037885,
-    "total_flos": 1.1393778193380235e+19,
-    "train_loss": 0.7283544036865235,
-    "train_runtime": 7737.7643,
     "train_samples": 124748,
-    "train_samples_per_second": 10.339,
-    "train_steps_per_second": 1.292
 }

 {
+    "epoch": 1.2825445684237526,
+    "eval_loss": NaN,
+    "eval_runtime": 187.7207,
     "eval_samples": 7022,
+    "eval_samples_per_second": 37.407,
+    "eval_steps_per_second": 0.586,
+    "eval_wer": 1.0,
+    "total_flos": 2.2824984432894013e+19,
+    "train_loss": 0.38660173568725587,
+    "train_runtime": 15166.2226,
     "train_samples": 124748,
+    "train_samples_per_second": 10.55,
+    "train_steps_per_second": 1.319
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 0.6412722842118763,
-    "eval_loss": 0.5226185917854309,
-    "eval_runtime": 188.9199,
     "eval_samples": 7022,
-    "eval_samples_per_second": 37.169,
-    "eval_steps_per_second": 0.582,
-    "eval_wer": 0.40009832711037885
 }

 {
+    "epoch": 1.2825445684237526,
+    "eval_loss": NaN,
+    "eval_runtime": 187.7207,
     "eval_samples": 7022,
+    "eval_samples_per_second": 37.407,
+    "eval_steps_per_second": 0.586,
+    "eval_wer": 1.0
 }

runs/Aug31_06-46-04_4b35055fdbcb/events.out.tfevents.1725100944.4b35055fdbcb.851.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:376693a21f28e333a9b61edf0047d2850c4860dc71aef350782130ce733d6198
+size 412

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-    "epoch": 0.6412722842118763,
-    "total_flos": 1.1393778193380235e+19,
-    "train_loss": 0.7283544036865235,
-    "train_runtime": 7737.7643,
     "train_samples": 124748,
-    "train_samples_per_second": 10.339,
-    "train_steps_per_second": 1.292
 }

 {
+    "epoch": 1.2825445684237526,
+    "total_flos": 2.2824984432894013e+19,
+    "train_loss": 0.38660173568725587,
+    "train_runtime": 15166.2226,
     "train_samples": 124748,
+    "train_samples_per_second": 10.55,
+    "train_steps_per_second": 1.319
 }

trainer_state.json CHANGED Viewed

@@ -1,347 +1,667 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.6412722842118763,
   "eval_steps": 500,
-  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.03206361421059382,
-      "grad_norm": 11.533838272094727,
       "learning_rate": 0.0002465,
-      "loss": 4.6618,
       "step": 500
     },
     {
       "epoch": 0.03206361421059382,
-      "eval_loss": 1.5996026992797852,
-      "eval_runtime": 185.1067,
-      "eval_samples_per_second": 37.935,
-      "eval_steps_per_second": 0.594,
-      "eval_wer": 0.9161163448889834,
       "step": 500
     },
     {
       "epoch": 0.06412722842118763,
-      "grad_norm": 4.801280975341797,
-      "learning_rate": 0.0002874574468085106,
-      "loss": 1.0278,
       "step": 1000
     },
     {
       "epoch": 0.06412722842118763,
-      "eval_loss": 1.1463252305984497,
-      "eval_runtime": 184.8935,
-      "eval_samples_per_second": 37.979,
-      "eval_steps_per_second": 0.595,
-      "eval_wer": 0.7792157748574922,
       "step": 1000
     },
     {
       "epoch": 0.09619084263178146,
-      "grad_norm": 4.746730327606201,
-      "learning_rate": 0.0002715,
-      "loss": 0.8164,
       "step": 1500
     },
     {
       "epoch": 0.09619084263178146,
-      "eval_loss": 1.0590689182281494,
-      "eval_runtime": 185.3865,
-      "eval_samples_per_second": 37.878,
-      "eval_steps_per_second": 0.593,
-      "eval_wer": 0.7363238948165668,
       "step": 1500
     },
     {
       "epoch": 0.12825445684237527,
-      "grad_norm": 21.847057342529297,
-      "learning_rate": 0.00025554255319148935,
-      "loss": 0.7124,
       "step": 2000
     },
     {
       "epoch": 0.12825445684237527,
-      "eval_loss": 0.9373884797096252,
-      "eval_runtime": 186.5741,
-      "eval_samples_per_second": 37.637,
-      "eval_steps_per_second": 0.59,
-      "eval_wer": 0.6622596632960842,
       "step": 2000
     },
     {
       "epoch": 0.16031807105296908,
-      "grad_norm": 4.238761901855469,
-      "learning_rate": 0.0002395851063829787,
-      "loss": 0.6566,
       "step": 2500
     },
     {
       "epoch": 0.16031807105296908,
-      "eval_loss": 0.8721805810928345,
-      "eval_runtime": 187.0392,
-      "eval_samples_per_second": 37.543,
-      "eval_steps_per_second": 0.588,
-      "eval_wer": 0.615168949893036,
       "step": 2500
     },
     {
       "epoch": 0.19238168526356292,
-      "grad_norm": 5.65878963470459,
-      "learning_rate": 0.00022362765957446805,
-      "loss": 0.6101,
       "step": 3000
     },
     {
       "epoch": 0.19238168526356292,
-      "eval_loss": 0.8194323182106018,
-      "eval_runtime": 187.1888,
-      "eval_samples_per_second": 37.513,
-      "eval_steps_per_second": 0.588,
-      "eval_wer": 0.5927264513214366,
       "step": 3000
     },
     {
       "epoch": 0.22444529947415673,
-      "grad_norm": 6.294471740722656,
-      "learning_rate": 0.00020767021276595744,
-      "loss": 0.5777,
       "step": 3500
     },
     {
       "epoch": 0.22444529947415673,
-      "eval_loss": 0.7799355387687683,
-      "eval_runtime": 187.6349,
-      "eval_samples_per_second": 37.424,
-      "eval_steps_per_second": 0.586,
-      "eval_wer": 0.5707490134070343,
       "step": 3500
     },
     {
       "epoch": 0.25650891368475054,
-      "grad_norm": 3.848400115966797,
-      "learning_rate": 0.0001917446808510638,
-      "loss": 0.5431,
       "step": 4000
     },
     {
       "epoch": 0.25650891368475054,
-      "eval_loss": 0.7453157901763916,
-      "eval_runtime": 187.5991,
-      "eval_samples_per_second": 37.431,
-      "eval_steps_per_second": 0.586,
-      "eval_wer": 0.550233194700966,
       "step": 4000
     },
     {
       "epoch": 0.2885725278953444,
-      "grad_norm": 9.198270797729492,
-      "learning_rate": 0.00017585106382978722,
-      "loss": 0.512,
       "step": 4500
     },
     {
       "epoch": 0.2885725278953444,
-      "eval_loss": 0.7209311127662659,
-      "eval_runtime": 188.2502,
-      "eval_samples_per_second": 37.301,
-      "eval_steps_per_second": 0.584,
-      "eval_wer": 0.5346735938558843,
       "step": 4500
     },
     {
       "epoch": 0.32063614210593816,
-      "grad_norm": 7.854990482330322,
-      "learning_rate": 0.00015989361702127658,
-      "loss": 0.4953,
       "step": 5000
     },
     {
       "epoch": 0.32063614210593816,
-      "eval_loss": 0.6942155957221985,
-      "eval_runtime": 187.3133,
-      "eval_samples_per_second": 37.488,
-      "eval_steps_per_second": 0.587,
-      "eval_wer": 0.5225022920846676,
       "step": 5000
     },
     {
       "epoch": 0.352699756316532,
-      "grad_norm": 10.654298782348633,
-      "learning_rate": 0.00014393617021276595,
-      "loss": 0.4746,
       "step": 5500
     },
     {
       "epoch": 0.352699756316532,
-      "eval_loss": 0.6680377721786499,
-      "eval_runtime": 188.6546,
-      "eval_samples_per_second": 37.221,
-      "eval_steps_per_second": 0.583,
-      "eval_wer": 0.495714798230112,
       "step": 5500
     },
     {
       "epoch": 0.38476337052712584,
-      "grad_norm": 19.936861038208008,
-      "learning_rate": 0.00012801063829787234,
-      "loss": 0.4535,
       "step": 6000
     },
     {
       "epoch": 0.38476337052712584,
-      "eval_loss": 0.6434958577156067,
-      "eval_runtime": 188.0277,
-      "eval_samples_per_second": 37.346,
-      "eval_steps_per_second": 0.585,
-      "eval_wer": 0.47308627539563375,
       "step": 6000
     },
     {
       "epoch": 0.4168269847377196,
-      "grad_norm": 6.950649261474609,
-      "learning_rate": 0.0001120531914893617,
-      "loss": 0.4249,
       "step": 6500
     },
     {
       "epoch": 0.4168269847377196,
-      "eval_loss": 0.6293027400970459,
-      "eval_runtime": 187.8772,
-      "eval_samples_per_second": 37.375,
-      "eval_steps_per_second": 0.585,
-      "eval_wer": 0.4816832538301067,
       "step": 6500
     },
     {
       "epoch": 0.44889059894831346,
-      "grad_norm": 5.574142932891846,
-      "learning_rate": 9.612765957446806e-05,
-      "loss": 0.4065,
       "step": 7000
     },
     {
       "epoch": 0.44889059894831346,
-      "eval_loss": 0.5997486710548401,
-      "eval_runtime": 188.7633,
-      "eval_samples_per_second": 37.2,
-      "eval_steps_per_second": 0.583,
-      "eval_wer": 0.44947448145736724,
       "step": 7000
     },
     {
       "epoch": 0.4809542131589073,
-      "grad_norm": 5.602737903594971,
-      "learning_rate": 8.017021276595744e-05,
-      "loss": 0.393,
       "step": 7500
     },
     {
       "epoch": 0.4809542131589073,
-      "eval_loss": 0.5802670121192932,
-      "eval_runtime": 189.0166,
-      "eval_samples_per_second": 37.15,
-      "eval_steps_per_second": 0.582,
-      "eval_wer": 0.44260487117819797,
       "step": 7500
     },
     {
       "epoch": 0.5130178273695011,
-      "grad_norm": 15.019088745117188,
-      "learning_rate": 6.424468085106383e-05,
-      "loss": 0.3808,
       "step": 8000
     },
     {
       "epoch": 0.5130178273695011,
-      "eval_loss": 0.5661880970001221,
-      "eval_runtime": 189.1322,
-      "eval_samples_per_second": 37.127,
-      "eval_steps_per_second": 0.582,
-      "eval_wer": 0.4299153589603901,
       "step": 8000
     },
     {
       "epoch": 0.5450814415800949,
-      "grad_norm": 3.79109525680542,
-      "learning_rate": 4.8287234042553194e-05,
-      "loss": 0.3722,
       "step": 8500
     },
     {
       "epoch": 0.5450814415800949,
-      "eval_loss": 0.553141176700592,
-      "eval_runtime": 188.8506,
-      "eval_samples_per_second": 37.183,
-      "eval_steps_per_second": 0.582,
-      "eval_wer": 0.4194182755550831,
       "step": 8500
     },
     {
       "epoch": 0.5771450557906888,
-      "grad_norm": 12.16059398651123,
-      "learning_rate": 3.232978723404255e-05,
-      "loss": 0.3622,
       "step": 9000
     },
     {
       "epoch": 0.5771450557906888,
-      "eval_loss": 0.5399113297462463,
-      "eval_runtime": 188.6804,
-      "eval_samples_per_second": 37.216,
-      "eval_steps_per_second": 0.583,
-      "eval_wer": 0.40727354867856336,
       "step": 9000
     },
     {
       "epoch": 0.6092086700012825,
-      "grad_norm": 7.863190650939941,
-      "learning_rate": 1.6372340425531912e-05,
-      "loss": 0.3526,
       "step": 9500
     },
     {
       "epoch": 0.6092086700012825,
-      "eval_loss": 0.5277913808822632,
-      "eval_runtime": 188.1946,
-      "eval_samples_per_second": 37.312,
-      "eval_steps_per_second": 0.585,
-      "eval_wer": 0.40279567892212226,
       "step": 9500
     },
     {
       "epoch": 0.6412722842118763,
-      "grad_norm": 5.124056339263916,
-      "learning_rate": 4.1489361702127654e-07,
-      "loss": 0.3337,
       "step": 10000
     },
     {
       "epoch": 0.6412722842118763,
-      "eval_loss": 0.5226185917854309,
-      "eval_runtime": 188.4518,
-      "eval_samples_per_second": 37.262,
-      "eval_steps_per_second": 0.584,
-      "eval_wer": 0.40009832711037885,
       "step": 10000
     },
     {
-      "epoch": 0.6412722842118763,
-      "step": 10000,
-      "total_flos": 1.1393778193380235e+19,
-      "train_loss": 0.7283544036865235,
-      "train_runtime": 7737.7643,
-      "train_samples_per_second": 10.339,
-      "train_steps_per_second": 1.292
     }
   ],
   "logging_steps": 500,
-  "max_steps": 10000,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 1,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -355,7 +675,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.1393778193380235e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.2825445684237526,
   "eval_steps": 500,
+  "global_step": 20000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.03206361421059382,
+      "grad_norm": 9.577472686767578,
       "learning_rate": 0.0002465,
+      "loss": 4.7126,
       "step": 500
     },
     {
       "epoch": 0.03206361421059382,
+      "eval_loss": 1.7046922445297241,
+      "eval_runtime": 189.0412,
+      "eval_samples_per_second": 37.145,
+      "eval_steps_per_second": 0.582,
+      "eval_wer": 0.9345593218086873,
       "step": 500
     },
     {
       "epoch": 0.06412722842118763,
+      "grad_norm": 6.515851020812988,
+      "learning_rate": 0.0002939226804123711,
+      "loss": 1.0533,
       "step": 1000
     },
     {
       "epoch": 0.06412722842118763,
+      "eval_loss": 1.1487088203430176,
+      "eval_runtime": 189.0728,
+      "eval_samples_per_second": 37.139,
+      "eval_steps_per_second": 0.582,
+      "eval_wer": 0.7906695544718904,
       "step": 1000
     },
     {
       "epoch": 0.09619084263178146,
+      "grad_norm": 3.676572799682617,
+      "learning_rate": 0.0002861907216494845,
+      "loss": 0.8268,
       "step": 1500
     },
     {
       "epoch": 0.09619084263178146,
+      "eval_loss": 1.060188889503479,
+      "eval_runtime": 190.9733,
+      "eval_samples_per_second": 36.77,
+      "eval_steps_per_second": 0.576,
+      "eval_wer": 0.7815012158014324,
       "step": 1500
     },
     {
       "epoch": 0.12825445684237527,
+      "grad_norm": 9.430739402770996,
+      "learning_rate": 0.00027845876288659795,
+      "loss": 0.7188,
       "step": 2000
     },
     {
       "epoch": 0.12825445684237527,
+      "eval_loss": 0.9336337447166443,
+      "eval_runtime": 191.0896,
+      "eval_samples_per_second": 36.747,
+      "eval_steps_per_second": 0.576,
+      "eval_wer": 0.671746900702906,
       "step": 2000
     },
     {
       "epoch": 0.16031807105296908,
+      "grad_norm": 2.9828200340270996,
+      "learning_rate": 0.00027072680412371135,
+      "loss": 0.6725,
       "step": 2500
     },
     {
       "epoch": 0.16031807105296908,
+      "eval_loss": 0.9303568005561829,
+      "eval_runtime": 191.2157,
+      "eval_samples_per_second": 36.723,
+      "eval_steps_per_second": 0.575,
+      "eval_wer": 0.6560677128316879,
       "step": 2500
     },
     {
       "epoch": 0.19238168526356292,
+      "grad_norm": 4.710850238800049,
+      "learning_rate": 0.0002629948453608247,
+      "loss": 0.6295,
       "step": 3000
     },
     {
       "epoch": 0.19238168526356292,
+      "eval_loss": 0.8600214719772339,
+      "eval_runtime": 191.6797,
+      "eval_samples_per_second": 36.634,
+      "eval_steps_per_second": 0.574,
+      "eval_wer": 0.6257324705350855,
       "step": 3000
     },
     {
       "epoch": 0.22444529947415673,
+      "grad_norm": 4.912868976593018,
+      "learning_rate": 0.0002552628865979381,
+      "loss": 0.6003,
       "step": 3500
     },
     {
       "epoch": 0.22444529947415673,
+      "eval_loss": 0.8395254611968994,
+      "eval_runtime": 191.3108,
+      "eval_samples_per_second": 36.705,
+      "eval_steps_per_second": 0.575,
+      "eval_wer": 0.6113288776093224,
       "step": 3500
     },
     {
       "epoch": 0.25650891368475054,
+      "grad_norm": 4.513955116271973,
+      "learning_rate": 0.00024754639175257734,
+      "loss": 0.5847,
       "step": 4000
     },
     {
       "epoch": 0.25650891368475054,
+      "eval_loss": 0.7883865833282471,
+      "eval_runtime": 192.8783,
+      "eval_samples_per_second": 36.406,
+      "eval_steps_per_second": 0.57,
+      "eval_wer": 0.5861491648839341,
       "step": 4000
     },
     {
       "epoch": 0.2885725278953444,
+      "grad_norm": 16.630624771118164,
+      "learning_rate": 0.00023984536082474227,
+      "loss": 0.5521,
       "step": 4500
     },
     {
       "epoch": 0.2885725278953444,
+      "eval_loss": 0.7741186618804932,
+      "eval_runtime": 189.6516,
+      "eval_samples_per_second": 37.026,
+      "eval_steps_per_second": 0.58,
+      "eval_wer": 0.5686628841733214,
       "step": 4500
     },
     {
       "epoch": 0.32063614210593816,
+      "grad_norm": 7.58245325088501,
+      "learning_rate": 0.00023211340206185567,
+      "loss": 0.5477,
       "step": 5000
     },
     {
       "epoch": 0.32063614210593816,
+      "eval_loss": 0.7594121098518372,
+      "eval_runtime": 190.5466,
+      "eval_samples_per_second": 36.852,
+      "eval_steps_per_second": 0.577,
+      "eval_wer": 0.5535550565380885,
       "step": 5000
     },
     {
       "epoch": 0.352699756316532,
+      "grad_norm": 5.051167011260986,
+      "learning_rate": 0.00022438144329896904,
+      "loss": 0.5346,
       "step": 5500
     },
     {
       "epoch": 0.352699756316532,
+      "eval_loss": 0.7481973767280579,
+      "eval_runtime": 190.5699,
+      "eval_samples_per_second": 36.847,
+      "eval_steps_per_second": 0.577,
+      "eval_wer": 0.5394039251119468,
       "step": 5500
     },
     {
       "epoch": 0.38476337052712584,
+      "grad_norm": 4.212076187133789,
+      "learning_rate": 0.00021666494845360825,
+      "loss": 0.5154,
       "step": 6000
     },
     {
       "epoch": 0.38476337052712584,
+      "eval_loss": 0.7294158935546875,
+      "eval_runtime": 189.7232,
+      "eval_samples_per_second": 37.012,
+      "eval_steps_per_second": 0.58,
+      "eval_wer": 0.53515194196043,
       "step": 6000
     },
     {
       "epoch": 0.4168269847377196,
+      "grad_norm": 5.682095527648926,
+      "learning_rate": 0.00020893298969072165,
+      "loss": 0.492,
       "step": 6500
     },
     {
       "epoch": 0.4168269847377196,
+      "eval_loss": 0.7247592806816101,
+      "eval_runtime": 190.6553,
+      "eval_samples_per_second": 36.831,
+      "eval_steps_per_second": 0.577,
+      "eval_wer": 0.5492632110445262,
       "step": 6500
     },
     {
       "epoch": 0.44889059894831346,
+      "grad_norm": 8.364203453063965,
+      "learning_rate": 0.0002012164948453608,
+      "loss": 0.4759,
       "step": 7000
     },
     {
       "epoch": 0.44889059894831346,
+      "eval_loss": 0.7076719403266907,
+      "eval_runtime": 189.5572,
+      "eval_samples_per_second": 37.044,
+      "eval_steps_per_second": 0.58,
+      "eval_wer": 0.5134402529929976,
       "step": 7000
     },
     {
       "epoch": 0.4809542131589073,
+      "grad_norm": 4.447290897369385,
+      "learning_rate": 0.0001934845360824742,
+      "loss": 0.4655,
       "step": 7500
     },
     {
       "epoch": 0.4809542131589073,
+      "eval_loss": 0.673875629901886,
+      "eval_runtime": 190.3324,
+      "eval_samples_per_second": 36.893,
+      "eval_steps_per_second": 0.578,
+      "eval_wer": 0.5063979058982979,
       "step": 7500
     },
     {
       "epoch": 0.5130178273695011,
+      "grad_norm": 12.618865013122559,
+      "learning_rate": 0.0001857680412371134,
+      "loss": 0.4594,
       "step": 8000
     },
     {
       "epoch": 0.5130178273695011,
+      "eval_loss": 0.6574720144271851,
+      "eval_runtime": 190.8303,
+      "eval_samples_per_second": 36.797,
+      "eval_steps_per_second": 0.576,
+      "eval_wer": 0.5067300920820101,
       "step": 8000
     },
     {
       "epoch": 0.5450814415800949,
+      "grad_norm": 2.756011962890625,
+      "learning_rate": 0.0001780360824742268,
+      "loss": 0.4538,
       "step": 8500
     },
     {
       "epoch": 0.5450814415800949,
+      "eval_loss": 0.6492609977722168,
+      "eval_runtime": 189.5472,
+      "eval_samples_per_second": 37.046,
+      "eval_steps_per_second": 0.58,
+      "eval_wer": 0.500325542460038,
       "step": 8500
     },
     {
       "epoch": 0.5771450557906888,
+      "grad_norm": 7.6861491203308105,
+      "learning_rate": 0.0001703041237113402,
+      "loss": 0.4739,
       "step": 9000
     },
     {
       "epoch": 0.5771450557906888,
+      "eval_loss": 0.7676782608032227,
+      "eval_runtime": 189.9033,
+      "eval_samples_per_second": 36.977,
+      "eval_steps_per_second": 0.579,
+      "eval_wer": 0.5238576117142136,
       "step": 9000
     },
     {
       "epoch": 0.6092086700012825,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016787628865979378,
+      "loss": 0.695,
       "step": 9500
     },
     {
       "epoch": 0.6092086700012825,
+      "eval_loss": NaN,
+      "eval_runtime": 186.9158,
+      "eval_samples_per_second": 37.568,
+      "eval_steps_per_second": 0.589,
+      "eval_wer": 1.0,
       "step": 9500
     },
     {
       "epoch": 0.6412722842118763,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016787628865979378,
+      "loss": 0.0,
       "step": 10000
     },
     {
       "epoch": 0.6412722842118763,
+      "eval_loss": NaN,
+      "eval_runtime": 186.7613,
+      "eval_samples_per_second": 37.599,
+      "eval_steps_per_second": 0.589,
+      "eval_wer": 1.0,
       "step": 10000
     },
     {
+      "epoch": 0.6733358984224702,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016787628865979378,
+      "loss": 0.0,
+      "step": 10500
+    },
+    {
+      "epoch": 0.6733358984224702,
+      "eval_loss": NaN,
+      "eval_runtime": 185.9746,
+      "eval_samples_per_second": 37.758,
+      "eval_steps_per_second": 0.591,
+      "eval_wer": 1.0,
+      "step": 10500
+    },
+    {
+      "epoch": 0.705399512633064,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016787628865979378,
+      "loss": 0.0,
+      "step": 11000
+    },
+    {
+      "epoch": 0.705399512633064,
+      "eval_loss": NaN,
+      "eval_runtime": 186.0588,
+      "eval_samples_per_second": 37.741,
+      "eval_steps_per_second": 0.591,
+      "eval_wer": 1.0,
+      "step": 11000
+    },
+    {
+      "epoch": 0.7374631268436578,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016787628865979378,
+      "loss": 0.0,
+      "step": 11500
+    },
+    {
+      "epoch": 0.7374631268436578,
+      "eval_loss": NaN,
+      "eval_runtime": 187.0825,
+      "eval_samples_per_second": 37.534,
+      "eval_steps_per_second": 0.588,
+      "eval_wer": 1.0,
+      "step": 11500
+    },
+    {
+      "epoch": 0.7695267410542517,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016787628865979378,
+      "loss": 0.0,
+      "step": 12000
+    },
+    {
+      "epoch": 0.7695267410542517,
+      "eval_loss": NaN,
+      "eval_runtime": 186.5183,
+      "eval_samples_per_second": 37.648,
+      "eval_steps_per_second": 0.59,
+      "eval_wer": 1.0,
+      "step": 12000
+    },
+    {
+      "epoch": 0.8015903552648455,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016787628865979378,
+      "loss": 0.0,
+      "step": 12500
+    },
+    {
+      "epoch": 0.8015903552648455,
+      "eval_loss": NaN,
+      "eval_runtime": 186.3281,
+      "eval_samples_per_second": 37.686,
+      "eval_steps_per_second": 0.59,
+      "eval_wer": 1.0,
+      "step": 12500
+    },
+    {
+      "epoch": 0.8336539694754392,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016787628865979378,
+      "loss": 0.0,
+      "step": 13000
+    },
+    {
+      "epoch": 0.8336539694754392,
+      "eval_loss": NaN,
+      "eval_runtime": 185.5922,
+      "eval_samples_per_second": 37.836,
+      "eval_steps_per_second": 0.593,
+      "eval_wer": 1.0,
+      "step": 13000
+    },
+    {
+      "epoch": 0.8657175836860331,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016787628865979378,
+      "loss": 0.0,
+      "step": 13500
+    },
+    {
+      "epoch": 0.8657175836860331,
+      "eval_loss": NaN,
+      "eval_runtime": 185.7237,
+      "eval_samples_per_second": 37.809,
+      "eval_steps_per_second": 0.592,
+      "eval_wer": 1.0,
+      "step": 13500
+    },
+    {
+      "epoch": 0.8977811978966269,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016787628865979378,
+      "loss": 0.0,
+      "step": 14000
+    },
+    {
+      "epoch": 0.8977811978966269,
+      "eval_loss": NaN,
+      "eval_runtime": 186.6259,
+      "eval_samples_per_second": 37.626,
+      "eval_steps_per_second": 0.589,
+      "eval_wer": 1.0,
+      "step": 14000
+    },
+    {
+      "epoch": 0.9298448121072207,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016787628865979378,
+      "loss": 0.0,
+      "step": 14500
+    },
+    {
+      "epoch": 0.9298448121072207,
+      "eval_loss": NaN,
+      "eval_runtime": 186.1517,
+      "eval_samples_per_second": 37.722,
+      "eval_steps_per_second": 0.591,
+      "eval_wer": 1.0,
+      "step": 14500
+    },
+    {
+      "epoch": 0.9619084263178146,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016787628865979378,
+      "loss": 0.0,
+      "step": 15000
+    },
+    {
+      "epoch": 0.9619084263178146,
+      "eval_loss": NaN,
+      "eval_runtime": 186.7927,
+      "eval_samples_per_second": 37.592,
+      "eval_steps_per_second": 0.589,
+      "eval_wer": 1.0,
+      "step": 15000
+    },
+    {
+      "epoch": 0.9939720405284084,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016787628865979378,
+      "loss": 0.0,
+      "step": 15500
+    },
+    {
+      "epoch": 0.9939720405284084,
+      "eval_loss": NaN,
+      "eval_runtime": 186.1708,
+      "eval_samples_per_second": 37.718,
+      "eval_steps_per_second": 0.591,
+      "eval_wer": 1.0,
+      "step": 15500
+    },
+    {
+      "epoch": 1.0260356547390022,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016787628865979378,
+      "loss": 0.0,
+      "step": 16000
+    },
+    {
+      "epoch": 1.0260356547390022,
+      "eval_loss": NaN,
+      "eval_runtime": 186.1341,
+      "eval_samples_per_second": 37.725,
+      "eval_steps_per_second": 0.591,
+      "eval_wer": 1.0,
+      "step": 16000
+    },
+    {
+      "epoch": 1.058099268949596,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016787628865979378,
+      "loss": 0.0,
+      "step": 16500
+    },
+    {
+      "epoch": 1.058099268949596,
+      "eval_loss": NaN,
+      "eval_runtime": 186.4575,
+      "eval_samples_per_second": 37.66,
+      "eval_steps_per_second": 0.59,
+      "eval_wer": 1.0,
+      "step": 16500
+    },
+    {
+      "epoch": 1.0901628831601897,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016787628865979378,
+      "loss": 0.0,
+      "step": 17000
+    },
+    {
+      "epoch": 1.0901628831601897,
+      "eval_loss": NaN,
+      "eval_runtime": 185.4444,
+      "eval_samples_per_second": 37.866,
+      "eval_steps_per_second": 0.593,
+      "eval_wer": 1.0,
+      "step": 17000
+    },
+    {
+      "epoch": 1.1222264973707836,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016787628865979378,
+      "loss": 0.0,
+      "step": 17500
+    },
+    {
+      "epoch": 1.1222264973707836,
+      "eval_loss": NaN,
+      "eval_runtime": 186.15,
+      "eval_samples_per_second": 37.722,
+      "eval_steps_per_second": 0.591,
+      "eval_wer": 1.0,
+      "step": 17500
+    },
+    {
+      "epoch": 1.1542901115813775,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016787628865979378,
+      "loss": 0.0,
+      "step": 18000
+    },
+    {
+      "epoch": 1.1542901115813775,
+      "eval_loss": NaN,
+      "eval_runtime": 186.0027,
+      "eval_samples_per_second": 37.752,
+      "eval_steps_per_second": 0.591,
+      "eval_wer": 1.0,
+      "step": 18000
+    },
+    {
+      "epoch": 1.1863537257919712,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016787628865979378,
+      "loss": 0.0,
+      "step": 18500
+    },
+    {
+      "epoch": 1.1863537257919712,
+      "eval_loss": NaN,
+      "eval_runtime": 185.6149,
+      "eval_samples_per_second": 37.831,
+      "eval_steps_per_second": 0.593,
+      "eval_wer": 1.0,
+      "step": 18500
+    },
+    {
+      "epoch": 1.218417340002565,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016787628865979378,
+      "loss": 0.0,
+      "step": 19000
+    },
+    {
+      "epoch": 1.218417340002565,
+      "eval_loss": NaN,
+      "eval_runtime": 186.7557,
+      "eval_samples_per_second": 37.6,
+      "eval_steps_per_second": 0.589,
+      "eval_wer": 1.0,
+      "step": 19000
+    },
+    {
+      "epoch": 1.250480954213159,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016787628865979378,
+      "loss": 0.0,
+      "step": 19500
+    },
+    {
+      "epoch": 1.250480954213159,
+      "eval_loss": NaN,
+      "eval_runtime": 186.7166,
+      "eval_samples_per_second": 37.608,
+      "eval_steps_per_second": 0.589,
+      "eval_wer": 1.0,
+      "step": 19500
+    },
+    {
+      "epoch": 1.2825445684237526,
+      "grad_norm": NaN,
+      "learning_rate": 0.00016787628865979378,
+      "loss": 0.0,
+      "step": 20000
+    },
+    {
+      "epoch": 1.2825445684237526,
+      "eval_loss": NaN,
+      "eval_runtime": 186.0546,
+      "eval_samples_per_second": 37.742,
+      "eval_steps_per_second": 0.591,
+      "eval_wer": 1.0,
+      "step": 20000
+    },
+    {
+      "epoch": 1.2825445684237526,
+      "step": 20000,
+      "total_flos": 2.2824984432894013e+19,
+      "train_loss": 0.38660173568725587,
+      "train_runtime": 15166.2226,
+      "train_samples_per_second": 10.55,
+      "train_steps_per_second": 1.319
     }
   ],
   "logging_steps": 500,
+  "max_steps": 20000,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 2.2824984432894013e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null