Upload 12 files

Browse files

Files changed (7) hide show

optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +2 -2
scaler.pt +1 -1
scheduler.pt +1 -1
trainer_state.json +46 -166
training_args.bin +1 -1

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fd5ea1944603fdc43786885c6fad297352a4cfa88903c6e5e401a61afdb1ff69
 size 2490594117

 version https://git-lfs.github.com/spec/v1
+oid sha256:da38f3bc2fe6927f77f1e949dacaaa5c88d1ff1e7b5b630565b9bad55cdc8037
 size 2490594117

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8413826d343ca1a5a05286342dc463d0c96f14f6f5250d6663157cd0a22bfa14
 size 1262168365

 version https://git-lfs.github.com/spec/v1
+oid sha256:e0e93138c7536f15d081a2517332243e990720ea7e4c526912b3a5cff073cf49
 size 1262168365

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b4b28524c43613725eb2734e93e3c395b0e0263834fec5ee89fe1a89e4e55726
-size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:061193452a858228d1c66af4f1074191f8ac9e88dfc0f2e16c6ccd6079a33e18
+size 14639

scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dd0d7640fa100af1c436a6097e415e0c78c222c34fc3a4163201c7f7420d7659
 size 557

 version https://git-lfs.github.com/spec/v1
+oid sha256:7076cb3d5134abd5db45f65ae43a71e92139309531dd802207a13ea550dea80b
 size 557

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc7a186be3ea4a6d0305e7ea5e53d52b11c001b50c8a64d1a6c67ede89211232
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c024168d11f393cebc0d70778a05dbba26ed981c876446f516b34a4b4b7f2cc
 size 627

trainer_state.json CHANGED Viewed

@@ -1,223 +1,103 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 17.752260397830018,
-  "global_step": 2450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.72,
-      "learning_rate": 1e-05,
-      "loss": 0.0194,
-      "step": 100
-    },
-    {
-      "epoch": 1.45,
-      "learning_rate": 9.99927530980506e-06,
-      "loss": 0.0174,
-      "step": 200
     },
     {
       "epoch": 2.17,
       "learning_rate": 9.998550619610118e-06,
-      "loss": 0.0197,
       "step": 300
     },
     {
-      "epoch": 2.54,
-      "eval_loss": 0.2245764136314392,
-      "eval_runtime": 322.1745,
-      "eval_samples_per_second": 12.251,
-      "eval_steps_per_second": 1.533,
-      "eval_wer": 0.17368103101087395,
-      "step": 350
-    },
-    {
-      "epoch": 2.9,
-      "learning_rate": 9.997825929415176e-06,
-      "loss": 0.0205,
-      "step": 400
     },
     {
       "epoch": 3.62,
-      "learning_rate": 9.997108486122183e-06,
-      "loss": 0.0199,
       "step": 500
     },
     {
       "epoch": 4.35,
-      "learning_rate": 9.996383795927241e-06,
-      "loss": 0.0198,
       "step": 600
     },
     {
-      "epoch": 5.07,
-      "learning_rate": 9.9956591057323e-06,
-      "loss": 0.0193,
-      "step": 700
-    },
-    {
-      "epoch": 5.07,
-      "eval_loss": 0.23122623562812805,
-      "eval_runtime": 209.3421,
-      "eval_samples_per_second": 18.854,
-      "eval_steps_per_second": 2.36,
-      "eval_wer": 0.17217076117599678,
-      "step": 700
-    },
-    {
-      "epoch": 5.8,
-      "learning_rate": 9.994934415537358e-06,
-      "loss": 0.0186,
-      "step": 800
     },
     {
       "epoch": 6.52,
-      "learning_rate": 9.994209725342417e-06,
-      "loss": 0.0194,
       "step": 900
     },
     {
       "epoch": 7.25,
-      "learning_rate": 9.993485035147475e-06,
-      "loss": 0.0186,
       "step": 1000
     },
     {
       "epoch": 7.61,
-      "eval_loss": 0.2398330122232437,
-      "eval_runtime": 209.0,
-      "eval_samples_per_second": 18.885,
-      "eval_steps_per_second": 2.364,
-      "eval_wer": 0.17232178815948448,
       "step": 1050
     },
-    {
-      "epoch": 7.97,
-      "learning_rate": 9.992760344952534e-06,
-      "loss": 0.0186,
-      "step": 1100
-    },
     {
       "epoch": 8.69,
-      "learning_rate": 9.99203565475759e-06,
-      "loss": 0.0191,
       "step": 1200
     },
     {
-      "epoch": 9.42,
-      "learning_rate": 9.991310964562651e-06,
-      "loss": 0.0185,
-      "step": 1300
-    },
-    {
-      "epoch": 10.14,
-      "learning_rate": 9.990586274367708e-06,
-      "loss": 0.0171,
-      "step": 1400
-    },
-    {
-      "epoch": 10.14,
-      "eval_loss": 0.24630184471607208,
-      "eval_runtime": 212.2032,
-      "eval_samples_per_second": 18.6,
-      "eval_steps_per_second": 2.328,
-      "eval_wer": 0.17020741039065646,
-      "step": 1400
     },
     {
       "epoch": 10.87,
       "learning_rate": 9.989861584172766e-06,
-      "loss": 0.0176,
       "step": 1500
     },
     {
-      "epoch": 11.59,
-      "learning_rate": 9.989136893977825e-06,
-      "loss": 0.018,
-      "step": 1600
-    },
-    {
-      "epoch": 12.32,
-      "learning_rate": 9.988412203782883e-06,
-      "loss": 0.0172,
-      "step": 1700
-    },
-    {
-      "epoch": 12.68,
-      "eval_loss": 0.24790118634700775,
-      "eval_runtime": 215.9062,
-      "eval_samples_per_second": 18.281,
-      "eval_steps_per_second": 2.288,
-      "eval_wer": 0.17081151832460734,
-      "step": 1750
-    },
-    {
-      "epoch": 13.04,
-      "learning_rate": 9.987687513587942e-06,
-      "loss": 0.0172,
-      "step": 1800
-    },
-    {
-      "epoch": 13.77,
-      "learning_rate": 9.986962823393e-06,
-      "loss": 0.0165,
-      "step": 1900
-    },
-    {
-      "epoch": 14.49,
-      "learning_rate": 9.986238133198059e-06,
-      "loss": 0.0176,
-      "step": 2000
-    },
-    {
-      "epoch": 15.22,
-      "learning_rate": 9.985513443003117e-06,
-      "loss": 0.0173,
-      "step": 2100
-    },
-    {
-      "epoch": 15.22,
-      "eval_loss": 0.24780623614788055,
-      "eval_runtime": 215.4375,
-      "eval_samples_per_second": 18.321,
-      "eval_steps_per_second": 2.293,
-      "eval_wer": 0.17015706806282724,
-      "step": 2100
-    },
-    {
-      "epoch": 15.94,
-      "learning_rate": 9.984788752808176e-06,
-      "loss": 0.0168,
-      "step": 2200
-    },
-    {
-      "epoch": 16.67,
-      "learning_rate": 9.984064062613234e-06,
-      "loss": 0.0165,
-      "step": 2300
-    },
-    {
-      "epoch": 17.39,
-      "learning_rate": 9.983339372418293e-06,
-      "loss": 0.0169,
-      "step": 2400
-    },
-    {
-      "epoch": 17.75,
-      "eval_loss": 0.24955050647258759,
-      "eval_runtime": 224.6408,
-      "eval_samples_per_second": 17.57,
-      "eval_steps_per_second": 2.199,
-      "eval_wer": 0.1689488521949255,
-      "step": 2450
     }
   ],
   "max_steps": 1380000,
   "num_train_epochs": 10000,
-  "total_flos": 5.57531310441053e+19,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 10.867992766726944,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 1.09,
+      "learning_rate": 9.99963765490253e-06,
+      "loss": 0.0157,
+      "step": 150
     },
     {
       "epoch": 2.17,
       "learning_rate": 9.998550619610118e-06,
+      "loss": 0.0123,
       "step": 300
     },
     {
+      "epoch": 3.26,
+      "learning_rate": 9.997463584317706e-06,
+      "loss": 0.0152,
+      "step": 450
     },
     {
       "epoch": 3.62,
+      "eval_loss": 0.23832739889621735,
+      "eval_runtime": 297.425,
+      "eval_samples_per_second": 13.271,
+      "eval_steps_per_second": 1.661,
+      "eval_wer": 0.17043338199023506,
       "step": 500
     },
     {
       "epoch": 4.35,
+      "learning_rate": 9.996376549025293e-06,
+      "loss": 0.0167,
       "step": 600
     },
     {
+      "epoch": 5.43,
+      "learning_rate": 9.99528951373288e-06,
+      "loss": 0.0148,
+      "step": 750
     },
     {
       "epoch": 6.52,
+      "learning_rate": 9.994202478440467e-06,
+      "loss": 0.0153,
       "step": 900
     },
     {
       "epoch": 7.25,
+      "eval_loss": 0.24725446105003357,
+      "eval_runtime": 201.8594,
+      "eval_samples_per_second": 19.553,
+      "eval_steps_per_second": 2.447,
+      "eval_wer": 0.16867166658277546,
       "step": 1000
     },
     {
       "epoch": 7.61,
+      "learning_rate": 9.993115443148055e-06,
+      "loss": 0.0163,
       "step": 1050
     },
     {
       "epoch": 8.69,
+      "learning_rate": 9.992028407855643e-06,
+      "loss": 0.0158,
       "step": 1200
     },
     {
+      "epoch": 9.78,
+      "learning_rate": 9.99094861946518e-06,
+      "loss": 0.0146,
+      "step": 1350
     },
     {
       "epoch": 10.87,
       "learning_rate": 9.989861584172766e-06,
+      "loss": 0.0154,
       "step": 1500
     },
     {
+      "epoch": 10.87,
+      "eval_loss": 0.24820923805236816,
+      "eval_runtime": 211.4153,
+      "eval_samples_per_second": 18.669,
+      "eval_steps_per_second": 2.337,
+      "eval_wer": 0.1679669804197916,
+      "step": 1500
     }
   ],
   "max_steps": 1380000,
   "num_train_epochs": 10000,
+  "total_flos": 3.4217202294237536e+19,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3393125c7f14a291727a873967ef481f803e54d70aa9f3fcdf615773d38c2b19
 size 3323

 version https://git-lfs.github.com/spec/v1
+oid sha256:b8a48147752c3a8083ebf5cdd854e3c3535a7d951355ce96dd9e8d52de7d94ab
 size 3323