Training in progress, epoch 1

Browse files

Files changed (7) hide show

all_results.json +10 -10
config.json +1 -3
eval_results.json +6 -6
pytorch_model.bin +2 -2
train_results.json +5 -5
trainer_state.json +1357 -379
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "epoch": 29.98,
-    "eval_accuracy": 0.8514851485148515,
-    "eval_loss": 0.4320836663246155,
-    "eval_runtime": 4.0386,
-    "eval_samples_per_second": 50.017,
-    "eval_steps_per_second": 1.733,
-    "train_loss": 0.09398392010701909,
-    "train_runtime": 3242.9643,
-    "train_samples_per_second": 16.809,
-    "train_steps_per_second": 0.13
 }

 {
+    "epoch": 50.0,
+    "eval_accuracy": 0.8832997987927566,
+    "eval_loss": 0.2902894914150238,
+    "eval_runtime": 9.9967,
+    "eval_samples_per_second": 49.716,
+    "eval_steps_per_second": 1.601,
+    "train_loss": 0.044299079362735416,
+    "train_runtime": 9406.6232,
+    "train_samples_per_second": 23.755,
+    "train_steps_per_second": 0.186
 }

config.json CHANGED Viewed

@@ -19,14 +19,12 @@
   "id2label": {
     "0": "castravete",
     "1": "rosie",
-    "2": "salata",
-    "3": "ridiche"
   },
   "image_size": 224,
   "initializer_range": 0.02,
   "label2id": {
     "castravete": 0,
-    "ridiche": 3,
     "rosie": 1,
     "salata": 2
   },

   "id2label": {
     "0": "castravete",
     "1": "rosie",
+    "2": "salata"
   },
   "image_size": 224,
   "initializer_range": 0.02,
   "label2id": {
     "castravete": 0,
     "rosie": 1,
     "salata": 2
   },

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 29.98,
-    "eval_accuracy": 0.8514851485148515,
-    "eval_loss": 0.4320836663246155,
-    "eval_runtime": 4.0386,
-    "eval_samples_per_second": 50.017,
-    "eval_steps_per_second": 1.733
 }

 {
+    "epoch": 50.0,
+    "eval_accuracy": 0.8832997987927566,
+    "eval_loss": 0.2902894914150238,
+    "eval_runtime": 9.9967,
+    "eval_samples_per_second": 49.716,
+    "eval_steps_per_second": 1.601
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad877377b17c7f0a6115f97b56cfb8097e6d7bed3928e4fb0eda8d013b4fd61a
-size 110399023

 version https://git-lfs.github.com/spec/v1
+oid sha256:d58f9acf59892f6d432f6c6d3ebccd02a79cdd4a5573dec67a4c2050b04b5f3c
+size 110395951

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 29.98,
-    "train_loss": 0.09398392010701909,
-    "train_runtime": 3242.9643,
-    "train_samples_per_second": 16.809,
-    "train_steps_per_second": 0.13
 }

 {
+    "epoch": 50.0,
+    "train_loss": 0.044299079362735416,
+    "train_runtime": 9406.6232,
+    "train_samples_per_second": 23.755,
+    "train_steps_per_second": 0.186
 }

trainer_state.json CHANGED Viewed

@@ -1,547 +1,1525 @@
 {
-  "best_metric": 0.8514851485148515,
-  "best_model_checkpoint": "swin-tiny-patch4-window7-224-finetuned-agrivision/checkpoint-126",
-  "epoch": 29.982456140350877,
-  "global_step": 420,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.7,
-      "learning_rate": 1.1904761904761905e-05,
-      "loss": 1.3218,
       "step": 10
     },
     {
-      "epoch": 0.98,
-      "eval_accuracy": 0.5693069306930693,
-      "eval_loss": 1.0927058458328247,
-      "eval_runtime": 4.1559,
-      "eval_samples_per_second": 48.605,
-      "eval_steps_per_second": 1.684,
-      "step": 14
-    },
-    {
-      "epoch": 1.42,
-      "learning_rate": 2.380952380952381e-05,
-      "loss": 0.9466,
       "step": 20
     },
     {
-      "epoch": 1.98,
-      "eval_accuracy": 0.6089108910891089,
-      "eval_loss": 0.8049692511558533,
-      "eval_runtime": 4.2775,
-      "eval_samples_per_second": 47.224,
-      "eval_steps_per_second": 1.636,
-      "step": 28
-    },
-    {
-      "epoch": 2.14,
-      "learning_rate": 3.571428571428572e-05,
-      "loss": 0.5439,
       "step": 30
     },
     {
-      "epoch": 2.84,
-      "learning_rate": 4.761904761904762e-05,
-      "loss": 0.2734,
-      "step": 40
     },
     {
-      "epoch": 2.98,
-      "eval_accuracy": 0.599009900990099,
-      "eval_loss": 1.111769676208496,
-      "eval_runtime": 4.1147,
-      "eval_samples_per_second": 49.092,
-      "eval_steps_per_second": 1.701,
-      "step": 42
     },
     {
-      "epoch": 3.56,
-      "learning_rate": 4.894179894179895e-05,
-      "loss": 0.1621,
       "step": 50
     },
     {
-      "epoch": 3.98,
-      "eval_accuracy": 0.6881188118811881,
-      "eval_loss": 0.911102294921875,
-      "eval_runtime": 4.1151,
-      "eval_samples_per_second": 49.088,
-      "eval_steps_per_second": 1.701,
-      "step": 56
-    },
-    {
-      "epoch": 4.28,
-      "learning_rate": 4.761904761904762e-05,
-      "loss": 0.1359,
       "step": 60
     },
     {
-      "epoch": 4.98,
-      "learning_rate": 4.62962962962963e-05,
-      "loss": 0.0877,
       "step": 70
     },
     {
-      "epoch": 4.98,
-      "eval_accuracy": 0.7574257425742574,
-      "eval_loss": 0.7084511518478394,
-      "eval_runtime": 4.105,
-      "eval_samples_per_second": 49.209,
-      "eval_steps_per_second": 1.705,
       "step": 70
     },
     {
-      "epoch": 5.7,
-      "learning_rate": 4.4973544973544974e-05,
-      "loss": 0.066,
       "step": 80
     },
     {
-      "epoch": 5.98,
-      "eval_accuracy": 0.7772277227722773,
-      "eval_loss": 0.6216617226600647,
-      "eval_runtime": 4.093,
-      "eval_samples_per_second": 49.353,
-      "eval_steps_per_second": 1.71,
-      "step": 84
-    },
-    {
-      "epoch": 6.42,
-      "learning_rate": 4.3650793650793655e-05,
-      "loss": 0.044,
       "step": 90
     },
     {
-      "epoch": 6.98,
-      "eval_accuracy": 0.7772277227722773,
-      "eval_loss": 0.5960407257080078,
-      "eval_runtime": 4.0736,
-      "eval_samples_per_second": 49.587,
-      "eval_steps_per_second": 1.718,
-      "step": 98
-    },
-    {
-      "epoch": 7.14,
-      "learning_rate": 4.232804232804233e-05,
-      "loss": 0.0575,
       "step": 100
     },
     {
-      "epoch": 7.84,
-      "learning_rate": 4.100529100529101e-05,
-      "loss": 0.0299,
-      "step": 110
     },
     {
-      "epoch": 7.98,
-      "eval_accuracy": 0.7920792079207921,
-      "eval_loss": 0.6238640546798706,
-      "eval_runtime": 3.9864,
-      "eval_samples_per_second": 50.672,
-      "eval_steps_per_second": 1.756,
-      "step": 112
     },
     {
-      "epoch": 8.56,
-      "learning_rate": 3.968253968253968e-05,
-      "loss": 0.0346,
       "step": 120
     },
     {
-      "epoch": 8.98,
-      "eval_accuracy": 0.8514851485148515,
-      "eval_loss": 0.4320836663246155,
-      "eval_runtime": 4.0118,
-      "eval_samples_per_second": 50.352,
-      "eval_steps_per_second": 1.745,
-      "step": 126
-    },
-    {
-      "epoch": 9.28,
-      "learning_rate": 3.835978835978836e-05,
-      "loss": 0.0119,
       "step": 130
     },
     {
-      "epoch": 9.98,
-      "learning_rate": 3.7037037037037037e-05,
-      "loss": 0.0229,
       "step": 140
     },
     {
-      "epoch": 9.98,
-      "eval_accuracy": 0.7722772277227723,
-      "eval_loss": 0.754459798336029,
-      "eval_runtime": 3.9938,
-      "eval_samples_per_second": 50.579,
-      "eval_steps_per_second": 1.753,
       "step": 140
     },
     {
-      "epoch": 10.7,
-      "learning_rate": 3.571428571428572e-05,
-      "loss": 0.0164,
       "step": 150
     },
     {
-      "epoch": 10.98,
-      "eval_accuracy": 0.806930693069307,
-      "eval_loss": 0.6433340311050415,
-      "eval_runtime": 4.0847,
-      "eval_samples_per_second": 49.452,
-      "eval_steps_per_second": 1.714,
-      "step": 154
-    },
-    {
-      "epoch": 11.42,
-      "learning_rate": 3.439153439153439e-05,
-      "loss": 0.0182,
       "step": 160
     },
     {
-      "epoch": 11.98,
-      "eval_accuracy": 0.7673267326732673,
-      "eval_loss": 0.7890751957893372,
-      "eval_runtime": 3.9613,
-      "eval_samples_per_second": 50.994,
-      "eval_steps_per_second": 1.767,
-      "step": 168
-    },
-    {
-      "epoch": 12.14,
-      "learning_rate": 3.306878306878307e-05,
-      "loss": 0.0086,
       "step": 170
     },
     {
-      "epoch": 12.84,
-      "learning_rate": 3.1746031746031745e-05,
-      "loss": 0.0111,
-      "step": 180
     },
     {
-      "epoch": 12.98,
-      "eval_accuracy": 0.806930693069307,
-      "eval_loss": 0.683419406414032,
-      "eval_runtime": 4.0208,
-      "eval_samples_per_second": 50.239,
-      "eval_steps_per_second": 1.741,
-      "step": 182
     },
     {
-      "epoch": 13.56,
-      "learning_rate": 3.0423280423280425e-05,
-      "loss": 0.005,
       "step": 190
     },
     {
-      "epoch": 13.98,
-      "eval_accuracy": 0.7871287128712872,
-      "eval_loss": 0.8211981654167175,
-      "eval_runtime": 4.056,
-      "eval_samples_per_second": 49.803,
-      "eval_steps_per_second": 1.726,
-      "step": 196
-    },
-    {
-      "epoch": 14.28,
-      "learning_rate": 2.91005291005291e-05,
-      "loss": 0.0069,
       "step": 200
     },
     {
-      "epoch": 14.98,
-      "learning_rate": 2.777777777777778e-05,
-      "loss": 0.0322,
       "step": 210
     },
     {
-      "epoch": 14.98,
-      "eval_accuracy": 0.806930693069307,
-      "eval_loss": 0.6830398440361023,
-      "eval_runtime": 3.9974,
-      "eval_samples_per_second": 50.533,
-      "eval_steps_per_second": 1.751,
       "step": 210
     },
     {
-      "epoch": 15.7,
-      "learning_rate": 2.6455026455026456e-05,
-      "loss": 0.0082,
       "step": 220
     },
     {
-      "epoch": 15.98,
-      "eval_accuracy": 0.8267326732673267,
-      "eval_loss": 0.5520240068435669,
-      "eval_runtime": 4.059,
-      "eval_samples_per_second": 49.765,
-      "eval_steps_per_second": 1.725,
-      "step": 224
     },
     {
-      "epoch": 16.42,
-      "learning_rate": 2.5132275132275137e-05,
       "loss": 0.0052,
-      "step": 230
     },
     {
-      "epoch": 16.98,
-      "eval_accuracy": 0.7623762376237624,
-      "eval_loss": 0.9183316230773926,
-      "eval_runtime": 3.9373,
-      "eval_samples_per_second": 51.304,
-      "eval_steps_per_second": 1.778,
-      "step": 238
     },
     {
       "epoch": 17.14,
-      "learning_rate": 2.380952380952381e-05,
       "loss": 0.003,
-      "step": 240
     },
     {
-      "epoch": 17.84,
-      "learning_rate": 2.2486772486772487e-05,
-      "loss": 0.0179,
-      "step": 250
     },
     {
-      "epoch": 17.98,
-      "eval_accuracy": 0.7871287128712872,
-      "eval_loss": 0.8693751096725464,
-      "eval_runtime": 3.9995,
-      "eval_samples_per_second": 50.506,
-      "eval_steps_per_second": 1.75,
-      "step": 252
     },
     {
-      "epoch": 18.56,
-      "learning_rate": 2.1164021164021164e-05,
       "loss": 0.0058,
-      "step": 260
     },
     {
-      "epoch": 18.98,
-      "eval_accuracy": 0.7772277227722773,
-      "eval_loss": 0.7564345002174377,
-      "eval_runtime": 4.0223,
-      "eval_samples_per_second": 50.22,
-      "eval_steps_per_second": 1.74,
-      "step": 266
     },
     {
-      "epoch": 19.28,
-      "learning_rate": 1.984126984126984e-05,
-      "loss": 0.019,
-      "step": 270
     },
     {
-      "epoch": 19.98,
-      "learning_rate": 1.8518518518518518e-05,
-      "loss": 0.0057,
-      "step": 280
     },
     {
-      "epoch": 19.98,
-      "eval_accuracy": 0.801980198019802,
-      "eval_loss": 0.700922429561615,
-      "eval_runtime": 4.0292,
-      "eval_samples_per_second": 50.134,
-      "eval_steps_per_second": 1.737,
-      "step": 280
     },
     {
-      "epoch": 20.7,
-      "learning_rate": 1.7195767195767195e-05,
-      "loss": 0.0131,
-      "step": 290
     },
     {
-      "epoch": 20.98,
-      "eval_accuracy": 0.806930693069307,
-      "eval_loss": 0.6237114071846008,
-      "eval_runtime": 4.0595,
-      "eval_samples_per_second": 49.76,
-      "eval_steps_per_second": 1.724,
-      "step": 294
     },
     {
-      "epoch": 21.42,
-      "learning_rate": 1.5873015873015872e-05,
-      "loss": 0.0012,
-      "step": 300
     },
     {
-      "epoch": 21.98,
-      "eval_accuracy": 0.7623762376237624,
-      "eval_loss": 0.9211428165435791,
-      "eval_runtime": 3.9589,
-      "eval_samples_per_second": 51.025,
-      "eval_steps_per_second": 1.768,
-      "step": 308
     },
     {
-      "epoch": 22.14,
-      "learning_rate": 1.455026455026455e-05,
-      "loss": 0.0082,
-      "step": 310
     },
     {
-      "epoch": 22.84,
-      "learning_rate": 1.3227513227513228e-05,
-      "loss": 0.0022,
-      "step": 320
     },
     {
-      "epoch": 22.98,
-      "eval_accuracy": 0.7722772277227723,
-      "eval_loss": 0.8115820288658142,
-      "eval_runtime": 4.0446,
-      "eval_samples_per_second": 49.943,
-      "eval_steps_per_second": 1.731,
-      "step": 322
     },
     {
-      "epoch": 23.56,
-      "learning_rate": 1.1904761904761905e-05,
-      "loss": 0.0014,
-      "step": 330
     },
     {
-      "epoch": 23.98,
-      "eval_accuracy": 0.8168316831683168,
-      "eval_loss": 0.622162938117981,
-      "eval_runtime": 4.029,
-      "eval_samples_per_second": 50.137,
-      "eval_steps_per_second": 1.737,
-      "step": 336
     },
     {
-      "epoch": 24.28,
-      "learning_rate": 1.0582010582010582e-05,
-      "loss": 0.0047,
-      "step": 340
     },
     {
-      "epoch": 24.98,
-      "learning_rate": 9.259259259259259e-06,
       "loss": 0.0008,
-      "step": 350
     },
     {
-      "epoch": 24.98,
-      "eval_accuracy": 0.806930693069307,
-      "eval_loss": 0.677939772605896,
-      "eval_runtime": 4.05,
-      "eval_samples_per_second": 49.877,
-      "eval_steps_per_second": 1.728,
-      "step": 350
     },
     {
-      "epoch": 25.7,
-      "learning_rate": 7.936507936507936e-06,
       "loss": 0.0013,
-      "step": 360
     },
     {
-      "epoch": 25.98,
-      "eval_accuracy": 0.8118811881188119,
-      "eval_loss": 0.6966280937194824,
-      "eval_runtime": 4.0428,
-      "eval_samples_per_second": 49.965,
-      "eval_steps_per_second": 1.731,
-      "step": 364
     },
     {
-      "epoch": 26.42,
-      "learning_rate": 6.613756613756614e-06,
-      "loss": 0.0004,
-      "step": 370
     },
     {
-      "epoch": 26.98,
-      "eval_accuracy": 0.8118811881188119,
-      "eval_loss": 0.6778075098991394,
-      "eval_runtime": 3.9895,
-      "eval_samples_per_second": 50.633,
-      "eval_steps_per_second": 1.755,
-      "step": 378
     },
     {
-      "epoch": 27.14,
-      "learning_rate": 5.291005291005291e-06,
-      "loss": 0.0046,
-      "step": 380
     },
     {
-      "epoch": 27.84,
-      "learning_rate": 3.968253968253968e-06,
       "loss": 0.0019,
-      "step": 390
     },
     {
-      "epoch": 27.98,
-      "eval_accuracy": 0.8118811881188119,
-      "eval_loss": 0.6652674674987793,
-      "eval_runtime": 3.938,
-      "eval_samples_per_second": 51.295,
-      "eval_steps_per_second": 1.778,
-      "step": 392
     },
     {
-      "epoch": 28.56,
-      "learning_rate": 2.6455026455026455e-06,
-      "loss": 0.0026,
-      "step": 400
     },
     {
-      "epoch": 28.98,
-      "eval_accuracy": 0.806930693069307,
-      "eval_loss": 0.6773118376731873,
-      "eval_runtime": 3.9787,
-      "eval_samples_per_second": 50.771,
-      "eval_steps_per_second": 1.759,
-      "step": 406
     },
     {
-      "epoch": 29.28,
-      "learning_rate": 1.3227513227513228e-06,
       "loss": 0.0006,
-      "step": 410
     },
     {
-      "epoch": 29.98,
-      "learning_rate": 0.0,
-      "loss": 0.0029,
-      "step": 420
     },
     {
-      "epoch": 29.98,
-      "eval_accuracy": 0.806930693069307,
-      "eval_loss": 0.6751220226287842,
-      "eval_runtime": 4.0672,
       "eval_samples_per_second": 49.665,
-      "eval_steps_per_second": 1.721,
-      "step": 420
     },
     {
-      "epoch": 29.98,
-      "step": 420,
-      "total_flos": 1.3543542435032064e+18,
-      "train_loss": 0.09398392010701909,
-      "train_runtime": 3242.9643,
-      "train_samples_per_second": 16.809,
-      "train_steps_per_second": 0.13
     }
   ],
-  "max_steps": 420,
-  "num_train_epochs": 30,
-  "total_flos": 1.3543542435032064e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.8832997987927566,
+  "best_model_checkpoint": "swin-tiny-patch4-window7-224-finetuned-agrivision/checkpoint-175",
+  "epoch": 50.0,
+  "global_step": 1750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.29,
+      "learning_rate": 2.8571428571428573e-06,
+      "loss": 1.2366,
       "step": 10
     },
     {
+      "epoch": 0.57,
+      "learning_rate": 5.7142857142857145e-06,
+      "loss": 1.1495,
       "step": 20
     },
     {
+      "epoch": 0.86,
+      "learning_rate": 8.571428571428573e-06,
+      "loss": 0.9718,
       "step": 30
     },
     {
+      "epoch": 1.0,
+      "eval_accuracy": 0.6398390342052314,
+      "eval_loss": 0.979684591293335,
+      "eval_runtime": 10.215,
+      "eval_samples_per_second": 48.654,
+      "eval_steps_per_second": 1.566,
+      "step": 35
     },
     {
+      "epoch": 1.14,
+      "learning_rate": 1.1428571428571429e-05,
+      "loss": 0.7506,
+      "step": 40
     },
     {
+      "epoch": 1.43,
+      "learning_rate": 1.4285714285714285e-05,
+      "loss": 0.5116,
       "step": 50
     },
     {
+      "epoch": 1.71,
+      "learning_rate": 1.7142857142857145e-05,
+      "loss": 0.3792,
       "step": 60
     },
     {
+      "epoch": 2.0,
+      "learning_rate": 2e-05,
+      "loss": 0.2715,
       "step": 70
     },
     {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7484909456740443,
+      "eval_loss": 0.6352390646934509,
+      "eval_runtime": 10.1148,
+      "eval_samples_per_second": 49.136,
+      "eval_steps_per_second": 1.582,
       "step": 70
     },
     {
+      "epoch": 2.29,
+      "learning_rate": 2.2857142857142858e-05,
+      "loss": 0.1984,
       "step": 80
     },
     {
+      "epoch": 2.57,
+      "learning_rate": 2.5714285714285714e-05,
+      "loss": 0.1842,
       "step": 90
     },
     {
+      "epoch": 2.86,
+      "learning_rate": 2.857142857142857e-05,
+      "loss": 0.1615,
       "step": 100
     },
     {
+      "epoch": 3.0,
+      "eval_accuracy": 0.8128772635814889,
+      "eval_loss": 0.4673824608325958,
+      "eval_runtime": 10.0382,
+      "eval_samples_per_second": 49.511,
+      "eval_steps_per_second": 1.594,
+      "step": 105
     },
     {
+      "epoch": 3.14,
+      "learning_rate": 3.142857142857143e-05,
+      "loss": 0.1257,
+      "step": 110
     },
     {
+      "epoch": 3.43,
+      "learning_rate": 3.428571428571429e-05,
+      "loss": 0.103,
       "step": 120
     },
     {
+      "epoch": 3.71,
+      "learning_rate": 3.7142857142857143e-05,
+      "loss": 0.1008,
       "step": 130
     },
     {
+      "epoch": 4.0,
+      "learning_rate": 4e-05,
+      "loss": 0.0959,
       "step": 140
     },
     {
+      "epoch": 4.0,
+      "eval_accuracy": 0.7847082494969819,
+      "eval_loss": 0.5569615960121155,
+      "eval_runtime": 10.1607,
+      "eval_samples_per_second": 48.914,
+      "eval_steps_per_second": 1.575,
       "step": 140
     },
     {
+      "epoch": 4.29,
+      "learning_rate": 4.2857142857142856e-05,
+      "loss": 0.0909,
       "step": 150
     },
     {
+      "epoch": 4.57,
+      "learning_rate": 4.5714285714285716e-05,
+      "loss": 0.0678,
       "step": 160
     },
     {
+      "epoch": 4.86,
+      "learning_rate": 4.8571428571428576e-05,
+      "loss": 0.0563,
       "step": 170
     },
     {
+      "epoch": 5.0,
+      "eval_accuracy": 0.8832997987927566,
+      "eval_loss": 0.2902894914150238,
+      "eval_runtime": 10.0294,
+      "eval_samples_per_second": 49.554,
+      "eval_steps_per_second": 1.595,
+      "step": 175
     },
     {
+      "epoch": 5.14,
+      "learning_rate": 4.9841269841269845e-05,
+      "loss": 0.0465,
+      "step": 180
     },
     {
+      "epoch": 5.43,
+      "learning_rate": 4.9523809523809525e-05,
+      "loss": 0.0627,
       "step": 190
     },
     {
+      "epoch": 5.71,
+      "learning_rate": 4.9206349206349204e-05,
+      "loss": 0.0262,
       "step": 200
     },
     {
+      "epoch": 6.0,
+      "learning_rate": 4.888888888888889e-05,
+      "loss": 0.0824,
       "step": 210
     },
     {
+      "epoch": 6.0,
+      "eval_accuracy": 0.8450704225352113,
+      "eval_loss": 0.41077324748039246,
+      "eval_runtime": 10.186,
+      "eval_samples_per_second": 48.793,
+      "eval_steps_per_second": 1.571,
       "step": 210
     },
     {
+      "epoch": 6.29,
+      "learning_rate": 4.8571428571428576e-05,
+      "loss": 0.0562,
       "step": 220
     },
     {
+      "epoch": 6.57,
+      "learning_rate": 4.8253968253968255e-05,
+      "loss": 0.0414,
+      "step": 230
+    },
+    {
+      "epoch": 6.86,
+      "learning_rate": 4.793650793650794e-05,
+      "loss": 0.0441,
+      "step": 240
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.8209255533199196,
+      "eval_loss": 0.5062592029571533,
+      "eval_runtime": 10.1666,
+      "eval_samples_per_second": 48.886,
+      "eval_steps_per_second": 1.574,
+      "step": 245
+    },
+    {
+      "epoch": 7.14,
+      "learning_rate": 4.761904761904762e-05,
+      "loss": 0.0661,
+      "step": 250
+    },
+    {
+      "epoch": 7.43,
+      "learning_rate": 4.73015873015873e-05,
+      "loss": 0.0203,
+      "step": 260
+    },
+    {
+      "epoch": 7.71,
+      "learning_rate": 4.6984126984126986e-05,
+      "loss": 0.0342,
+      "step": 270
+    },
+    {
+      "epoch": 8.0,
+      "learning_rate": 4.666666666666667e-05,
+      "loss": 0.0306,
+      "step": 280
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.8752515090543259,
+      "eval_loss": 0.30527463555336,
+      "eval_runtime": 10.0743,
+      "eval_samples_per_second": 49.333,
+      "eval_steps_per_second": 1.588,
+      "step": 280
+    },
+    {
+      "epoch": 8.29,
+      "learning_rate": 4.634920634920635e-05,
+      "loss": 0.0496,
+      "step": 290
+    },
+    {
+      "epoch": 8.57,
+      "learning_rate": 4.603174603174603e-05,
+      "loss": 0.0253,
+      "step": 300
+    },
+    {
+      "epoch": 8.86,
+      "learning_rate": 4.5714285714285716e-05,
+      "loss": 0.0279,
+      "step": 310
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.8591549295774648,
+      "eval_loss": 0.44667041301727295,
+      "eval_runtime": 9.9268,
+      "eval_samples_per_second": 50.066,
+      "eval_steps_per_second": 1.612,
+      "step": 315
+    },
+    {
+      "epoch": 9.14,
+      "learning_rate": 4.5396825396825395e-05,
+      "loss": 0.0159,
+      "step": 320
+    },
+    {
+      "epoch": 9.43,
+      "learning_rate": 4.507936507936508e-05,
+      "loss": 0.0207,
+      "step": 330
+    },
+    {
+      "epoch": 9.71,
+      "learning_rate": 4.476190476190477e-05,
+      "loss": 0.0155,
+      "step": 340
+    },
+    {
+      "epoch": 10.0,
+      "learning_rate": 4.4444444444444447e-05,
+      "loss": 0.0223,
+      "step": 350
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.8551307847082495,
+      "eval_loss": 0.4208771884441376,
+      "eval_runtime": 10.2309,
+      "eval_samples_per_second": 48.578,
+      "eval_steps_per_second": 1.564,
+      "step": 350
+    },
+    {
+      "epoch": 10.29,
+      "learning_rate": 4.4126984126984126e-05,
+      "loss": 0.0152,
+      "step": 360
+    },
+    {
+      "epoch": 10.57,
+      "learning_rate": 4.380952380952381e-05,
+      "loss": 0.0172,
+      "step": 370
+    },
+    {
+      "epoch": 10.86,
+      "learning_rate": 4.34920634920635e-05,
+      "loss": 0.026,
+      "step": 380
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.8531187122736419,
+      "eval_loss": 0.5075467228889465,
+      "eval_runtime": 10.086,
+      "eval_samples_per_second": 49.276,
+      "eval_steps_per_second": 1.586,
+      "step": 385
+    },
+    {
+      "epoch": 11.14,
+      "learning_rate": 4.317460317460318e-05,
+      "loss": 0.0204,
+      "step": 390
+    },
+    {
+      "epoch": 11.43,
+      "learning_rate": 4.2857142857142856e-05,
+      "loss": 0.0267,
+      "step": 400
+    },
+    {
+      "epoch": 11.71,
+      "learning_rate": 4.253968253968254e-05,
+      "loss": 0.0227,
+      "step": 410
+    },
+    {
+      "epoch": 12.0,
+      "learning_rate": 4.222222222222222e-05,
+      "loss": 0.0344,
+      "step": 420
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.8551307847082495,
+      "eval_loss": 0.4921689033508301,
+      "eval_runtime": 10.1843,
+      "eval_samples_per_second": 48.801,
+      "eval_steps_per_second": 1.571,
+      "step": 420
+    },
+    {
+      "epoch": 12.29,
+      "learning_rate": 4.190476190476191e-05,
+      "loss": 0.0175,
+      "step": 430
+    },
+    {
+      "epoch": 12.57,
+      "learning_rate": 4.1587301587301594e-05,
+      "loss": 0.0194,
+      "step": 440
+    },
+    {
+      "epoch": 12.86,
+      "learning_rate": 4.126984126984127e-05,
+      "loss": 0.0079,
+      "step": 450
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.7806841046277666,
+      "eval_loss": 0.725607693195343,
+      "eval_runtime": 10.0703,
+      "eval_samples_per_second": 49.353,
+      "eval_steps_per_second": 1.589,
+      "step": 455
+    },
+    {
+      "epoch": 13.14,
+      "learning_rate": 4.095238095238095e-05,
+      "loss": 0.0169,
+      "step": 460
+    },
+    {
+      "epoch": 13.43,
+      "learning_rate": 4.063492063492064e-05,
+      "loss": 0.014,
+      "step": 470
+    },
+    {
+      "epoch": 13.71,
+      "learning_rate": 4.031746031746032e-05,
+      "loss": 0.0043,
+      "step": 480
+    },
+    {
+      "epoch": 14.0,
+      "learning_rate": 4e-05,
+      "loss": 0.0156,
+      "step": 490
     },
     {
+      "epoch": 14.0,
+      "eval_accuracy": 0.8370221327967807,
+      "eval_loss": 0.5176514387130737,
+      "eval_runtime": 9.8924,
+      "eval_samples_per_second": 50.241,
+      "eval_steps_per_second": 1.617,
+      "step": 490
+    },
+    {
+      "epoch": 14.29,
+      "learning_rate": 3.968253968253968e-05,
+      "loss": 0.0051,
+      "step": 500
+    },
+    {
+      "epoch": 14.57,
+      "learning_rate": 3.936507936507937e-05,
+      "loss": 0.012,
+      "step": 510
+    },
+    {
+      "epoch": 14.86,
+      "learning_rate": 3.904761904761905e-05,
+      "loss": 0.0184,
+      "step": 520
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.8350100603621731,
+      "eval_loss": 0.5857502222061157,
+      "eval_runtime": 10.2013,
+      "eval_samples_per_second": 48.719,
+      "eval_steps_per_second": 1.568,
+      "step": 525
+    },
+    {
+      "epoch": 15.14,
+      "learning_rate": 3.8730158730158734e-05,
+      "loss": 0.0045,
+      "step": 530
+    },
+    {
+      "epoch": 15.43,
+      "learning_rate": 3.841269841269842e-05,
       "loss": 0.0052,
+      "step": 540
     },
     {
+      "epoch": 15.71,
+      "learning_rate": 3.809523809523809e-05,
+      "loss": 0.0074,
+      "step": 550
+    },
+    {
+      "epoch": 16.0,
+      "learning_rate": 3.777777777777778e-05,
+      "loss": 0.0121,
+      "step": 560
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.8651911468812877,
+      "eval_loss": 0.4655379056930542,
+      "eval_runtime": 10.2086,
+      "eval_samples_per_second": 48.685,
+      "eval_steps_per_second": 1.567,
+      "step": 560
+    },
+    {
+      "epoch": 16.29,
+      "learning_rate": 3.7460317460317464e-05,
+      "loss": 0.0069,
+      "step": 570
+    },
+    {
+      "epoch": 16.57,
+      "learning_rate": 3.7142857142857143e-05,
+      "loss": 0.0215,
+      "step": 580
+    },
+    {
+      "epoch": 16.86,
+      "learning_rate": 3.682539682539683e-05,
+      "loss": 0.0089,
+      "step": 590
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.7585513078470825,
+      "eval_loss": 0.9852096438407898,
+      "eval_runtime": 10.1571,
+      "eval_samples_per_second": 48.931,
+      "eval_steps_per_second": 1.575,
+      "step": 595
     },
     {
       "epoch": 17.14,
+      "learning_rate": 3.650793650793651e-05,
+      "loss": 0.001,
+      "step": 600
+    },
+    {
+      "epoch": 17.43,
+      "learning_rate": 3.619047619047619e-05,
+      "loss": 0.0095,
+      "step": 610
+    },
+    {
+      "epoch": 17.71,
+      "learning_rate": 3.5873015873015874e-05,
+      "loss": 0.0028,
+      "step": 620
+    },
+    {
+      "epoch": 18.0,
+      "learning_rate": 3.555555555555556e-05,
+      "loss": 0.028,
+      "step": 630
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.8571428571428571,
+      "eval_loss": 0.508708655834198,
+      "eval_runtime": 10.2049,
+      "eval_samples_per_second": 48.702,
+      "eval_steps_per_second": 1.568,
+      "step": 630
+    },
+    {
+      "epoch": 18.29,
+      "learning_rate": 3.523809523809524e-05,
+      "loss": 0.0024,
+      "step": 640
+    },
+    {
+      "epoch": 18.57,
+      "learning_rate": 3.492063492063492e-05,
+      "loss": 0.0017,
+      "step": 650
+    },
+    {
+      "epoch": 18.86,
+      "learning_rate": 3.4603174603174604e-05,
       "loss": 0.003,
+      "step": 660
     },
     {
+      "epoch": 19.0,
+      "eval_accuracy": 0.8490945674044266,
+      "eval_loss": 0.544687807559967,
+      "eval_runtime": 9.9955,
+      "eval_samples_per_second": 49.722,
+      "eval_steps_per_second": 1.601,
+      "step": 665
+    },
+    {
+      "epoch": 19.14,
+      "learning_rate": 3.428571428571429e-05,
+      "loss": 0.0009,
+      "step": 670
+    },
+    {
+      "epoch": 19.43,
+      "learning_rate": 3.396825396825397e-05,
+      "loss": 0.0013,
+      "step": 680
+    },
+    {
+      "epoch": 19.71,
+      "learning_rate": 3.3650793650793656e-05,
+      "loss": 0.0011,
+      "step": 690
+    },
+    {
+      "epoch": 20.0,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 0.0015,
+      "step": 700
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.8390342052313883,
+      "eval_loss": 0.5609642863273621,
+      "eval_runtime": 9.9297,
+      "eval_samples_per_second": 50.052,
+      "eval_steps_per_second": 1.611,
+      "step": 700
+    },
+    {
+      "epoch": 20.29,
+      "learning_rate": 3.3015873015873014e-05,
+      "loss": 0.0045,
+      "step": 710
+    },
+    {
+      "epoch": 20.57,
+      "learning_rate": 3.26984126984127e-05,
+      "loss": 0.0001,
+      "step": 720
+    },
+    {
+      "epoch": 20.86,
+      "learning_rate": 3.2380952380952386e-05,
+      "loss": 0.008,
+      "step": 730
+    },
+    {
+      "epoch": 21.0,
+      "eval_accuracy": 0.8571428571428571,
+      "eval_loss": 0.5701542496681213,
+      "eval_runtime": 10.1334,
+      "eval_samples_per_second": 49.046,
+      "eval_steps_per_second": 1.579,
+      "step": 735
     },
     {
+      "epoch": 21.14,
+      "learning_rate": 3.2063492063492065e-05,
+      "loss": 0.0007,
+      "step": 740
+    },
+    {
+      "epoch": 21.43,
+      "learning_rate": 3.1746031746031745e-05,
+      "loss": 0.0013,
+      "step": 750
+    },
+    {
+      "epoch": 21.71,
+      "learning_rate": 3.142857142857143e-05,
+      "loss": 0.0008,
+      "step": 760
     },
     {
+      "epoch": 22.0,
+      "learning_rate": 3.111111111111111e-05,
+      "loss": 0.0071,
+      "step": 770
+    },
+    {
+      "epoch": 22.0,
+      "eval_accuracy": 0.8450704225352113,
+      "eval_loss": 0.6042529344558716,
+      "eval_runtime": 10.0579,
+      "eval_samples_per_second": 49.414,
+      "eval_steps_per_second": 1.591,
+      "step": 770
+    },
+    {
+      "epoch": 22.29,
+      "learning_rate": 3.0793650793650796e-05,
+      "loss": 0.003,
+      "step": 780
+    },
+    {
+      "epoch": 22.57,
+      "learning_rate": 3.0476190476190482e-05,
+      "loss": 0.0027,
+      "step": 790
+    },
+    {
+      "epoch": 22.86,
+      "learning_rate": 3.0158730158730158e-05,
+      "loss": 0.0006,
+      "step": 800
+    },
+    {
+      "epoch": 23.0,
+      "eval_accuracy": 0.8450704225352113,
+      "eval_loss": 0.5951006412506104,
+      "eval_runtime": 10.1254,
+      "eval_samples_per_second": 49.085,
+      "eval_steps_per_second": 1.58,
+      "step": 805
+    },
+    {
+      "epoch": 23.14,
+      "learning_rate": 2.9841269841269844e-05,
+      "loss": 0.0092,
+      "step": 810
+    },
+    {
+      "epoch": 23.43,
+      "learning_rate": 2.9523809523809526e-05,
       "loss": 0.0058,
+      "step": 820
     },
     {
+      "epoch": 23.71,
+      "learning_rate": 2.920634920634921e-05,
+      "loss": 0.0013,
+      "step": 830
     },
     {
+      "epoch": 24.0,
+      "learning_rate": 2.8888888888888888e-05,
+      "loss": 0.0077,
+      "step": 840
     },
     {
+      "epoch": 24.0,
+      "eval_accuracy": 0.8309859154929577,
+      "eval_loss": 0.6435739398002625,
+      "eval_runtime": 9.9406,
+      "eval_samples_per_second": 49.997,
+      "eval_steps_per_second": 1.61,
+      "step": 840
     },
     {
+      "epoch": 24.29,
+      "learning_rate": 2.857142857142857e-05,
+      "loss": 0.0025,
+      "step": 850
     },
     {
+      "epoch": 24.57,
+      "learning_rate": 2.8253968253968253e-05,
+      "loss": 0.0017,
+      "step": 860
     },
     {
+      "epoch": 24.86,
+      "learning_rate": 2.793650793650794e-05,
+      "loss": 0.0007,
+      "step": 870
     },
     {
+      "epoch": 25.0,
+      "eval_accuracy": 0.8792756539235412,
+      "eval_loss": 0.44388413429260254,
+      "eval_runtime": 10.0384,
+      "eval_samples_per_second": 49.51,
+      "eval_steps_per_second": 1.594,
+      "step": 875
     },
     {
+      "epoch": 25.14,
+      "learning_rate": 2.7619047619047622e-05,
+      "loss": 0.0016,
+      "step": 880
     },
     {
+      "epoch": 25.43,
+      "learning_rate": 2.73015873015873e-05,
+      "loss": 0.0066,
+      "step": 890
     },
     {
+      "epoch": 25.71,
+      "learning_rate": 2.6984126984126984e-05,
+      "loss": 0.0003,
+      "step": 900
     },
     {
+      "epoch": 26.0,
+      "learning_rate": 2.6666666666666667e-05,
+      "loss": 0.0081,
+      "step": 910
     },
     {
+      "epoch": 26.0,
+      "eval_accuracy": 0.8732394366197183,
+      "eval_loss": 0.46890053153038025,
+      "eval_runtime": 10.0258,
+      "eval_samples_per_second": 49.572,
+      "eval_steps_per_second": 1.596,
+      "step": 910
     },
     {
+      "epoch": 26.29,
+      "learning_rate": 2.6349206349206353e-05,
+      "loss": 0.0032,
+      "step": 920
     },
     {
+      "epoch": 26.57,
+      "learning_rate": 2.6031746031746035e-05,
+      "loss": 0.0019,
+      "step": 930
+    },
+    {
+      "epoch": 26.86,
+      "learning_rate": 2.5714285714285714e-05,
+      "loss": 0.0036,
+      "step": 940
+    },
+    {
+      "epoch": 27.0,
+      "eval_accuracy": 0.8712273641851107,
+      "eval_loss": 0.5057930946350098,
+      "eval_runtime": 9.9227,
+      "eval_samples_per_second": 50.087,
+      "eval_steps_per_second": 1.612,
+      "step": 945
+    },
+    {
+      "epoch": 27.14,
+      "learning_rate": 2.5396825396825397e-05,
+      "loss": 0.0037,
+      "step": 950
     },
     {
+      "epoch": 27.43,
+      "learning_rate": 2.507936507936508e-05,
       "loss": 0.0008,
+      "step": 960
     },
     {
+      "epoch": 27.71,
+      "learning_rate": 2.4761904761904762e-05,
+      "loss": 0.0003,
+      "step": 970
     },
     {
+      "epoch": 28.0,
+      "learning_rate": 2.4444444444444445e-05,
+      "loss": 0.0004,
+      "step": 980
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.8591549295774648,
+      "eval_loss": 0.5425885319709778,
+      "eval_runtime": 9.8796,
+      "eval_samples_per_second": 50.306,
+      "eval_steps_per_second": 1.62,
+      "step": 980
+    },
+    {
+      "epoch": 28.29,
+      "learning_rate": 2.4126984126984128e-05,
+      "loss": 0.0001,
+      "step": 990
+    },
+    {
+      "epoch": 28.57,
+      "learning_rate": 2.380952380952381e-05,
+      "loss": 0.0003,
+      "step": 1000
+    },
+    {
+      "epoch": 28.86,
+      "learning_rate": 2.3492063492063493e-05,
+      "loss": 0.0007,
+      "step": 1010
+    },
+    {
+      "epoch": 29.0,
+      "eval_accuracy": 0.8631790744466801,
+      "eval_loss": 0.483518123626709,
+      "eval_runtime": 9.9988,
+      "eval_samples_per_second": 49.706,
+      "eval_steps_per_second": 1.6,
+      "step": 1015
+    },
+    {
+      "epoch": 29.14,
+      "learning_rate": 2.3174603174603175e-05,
+      "loss": 0.0006,
+      "step": 1020
+    },
+    {
+      "epoch": 29.43,
+      "learning_rate": 2.2857142857142858e-05,
+      "loss": 0.0008,
+      "step": 1030
+    },
+    {
+      "epoch": 29.71,
+      "learning_rate": 2.253968253968254e-05,
+      "loss": 0.005,
+      "step": 1040
+    },
+    {
+      "epoch": 30.0,
+      "learning_rate": 2.2222222222222223e-05,
+      "loss": 0.005,
+      "step": 1050
+    },
+    {
+      "epoch": 30.0,
+      "eval_accuracy": 0.8651911468812877,
+      "eval_loss": 0.4958065152168274,
+      "eval_runtime": 10.0529,
+      "eval_samples_per_second": 49.438,
+      "eval_steps_per_second": 1.592,
+      "step": 1050
+    },
+    {
+      "epoch": 30.29,
+      "learning_rate": 2.1904761904761906e-05,
+      "loss": 0.0056,
+      "step": 1060
+    },
+    {
+      "epoch": 30.57,
+      "learning_rate": 2.158730158730159e-05,
+      "loss": 0.003,
+      "step": 1070
+    },
+    {
+      "epoch": 30.86,
+      "learning_rate": 2.126984126984127e-05,
+      "loss": 0.001,
+      "step": 1080
+    },
+    {
+      "epoch": 31.0,
+      "eval_accuracy": 0.8390342052313883,
+      "eval_loss": 0.7008472681045532,
+      "eval_runtime": 10.0335,
+      "eval_samples_per_second": 49.534,
+      "eval_steps_per_second": 1.595,
+      "step": 1085
+    },
+    {
+      "epoch": 31.14,
+      "learning_rate": 2.0952380952380954e-05,
+      "loss": 0.0007,
+      "step": 1090
+    },
+    {
+      "epoch": 31.43,
+      "learning_rate": 2.0634920634920636e-05,
+      "loss": 0.0005,
+      "step": 1100
+    },
+    {
+      "epoch": 31.71,
+      "learning_rate": 2.031746031746032e-05,
+      "loss": 0.0007,
+      "step": 1110
+    },
+    {
+      "epoch": 32.0,
+      "learning_rate": 2e-05,
+      "loss": 0.0022,
+      "step": 1120
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.8631790744466801,
+      "eval_loss": 0.6209988594055176,
+      "eval_runtime": 9.9187,
+      "eval_samples_per_second": 50.107,
+      "eval_steps_per_second": 1.613,
+      "step": 1120
+    },
+    {
+      "epoch": 32.29,
+      "learning_rate": 1.9682539682539684e-05,
+      "loss": 0.0023,
+      "step": 1130
+    },
+    {
+      "epoch": 32.57,
+      "learning_rate": 1.9365079365079367e-05,
       "loss": 0.0013,
+      "step": 1140
     },
     {
+      "epoch": 32.86,
+      "learning_rate": 1.9047619047619046e-05,
+      "loss": 0.0029,
+      "step": 1150
     },
     {
+      "epoch": 33.0,
+      "eval_accuracy": 0.8470824949698189,
+      "eval_loss": 0.6328206062316895,
+      "eval_runtime": 9.9469,
+      "eval_samples_per_second": 49.966,
+      "eval_steps_per_second": 1.609,
+      "step": 1155
     },
     {
+      "epoch": 33.14,
+      "learning_rate": 1.8730158730158732e-05,
+      "loss": 0.0007,
+      "step": 1160
     },
     {
+      "epoch": 33.43,
+      "learning_rate": 1.8412698412698415e-05,
+      "loss": 0.0121,
+      "step": 1170
     },
     {
+      "epoch": 33.71,
+      "learning_rate": 1.8095238095238094e-05,
+      "loss": 0.0006,
+      "step": 1180
+    },
+    {
+      "epoch": 34.0,
+      "learning_rate": 1.777777777777778e-05,
+      "loss": 0.0001,
+      "step": 1190
+    },
+    {
+      "epoch": 34.0,
+      "eval_accuracy": 0.8551307847082495,
+      "eval_loss": 0.5887029767036438,
+      "eval_runtime": 10.1735,
+      "eval_samples_per_second": 48.852,
+      "eval_steps_per_second": 1.573,
+      "step": 1190
+    },
+    {
+      "epoch": 34.29,
+      "learning_rate": 1.746031746031746e-05,
+      "loss": 0.0002,
+      "step": 1200
+    },
+    {
+      "epoch": 34.57,
+      "learning_rate": 1.7142857142857145e-05,
+      "loss": 0.0001,
+      "step": 1210
+    },
+    {
+      "epoch": 34.86,
+      "learning_rate": 1.6825396825396828e-05,
       "loss": 0.0019,
+      "step": 1220
     },
     {
+      "epoch": 35.0,
+      "eval_accuracy": 0.8390342052313883,
+      "eval_loss": 0.6666443943977356,
+      "eval_runtime": 9.9948,
+      "eval_samples_per_second": 49.726,
+      "eval_steps_per_second": 1.601,
+      "step": 1225
     },
     {
+      "epoch": 35.14,
+      "learning_rate": 1.6507936507936507e-05,
+      "loss": 0.0085,
+      "step": 1230
     },
     {
+      "epoch": 35.43,
+      "learning_rate": 1.6190476190476193e-05,
+      "loss": 0.0001,
+      "step": 1240
     },
     {
+      "epoch": 35.71,
+      "learning_rate": 1.5873015873015872e-05,
+      "loss": 0.0008,
+      "step": 1250
+    },
+    {
+      "epoch": 36.0,
+      "learning_rate": 1.5555555555555555e-05,
+      "loss": 0.0028,
+      "step": 1260
+    },
+    {
+      "epoch": 36.0,
+      "eval_accuracy": 0.8571428571428571,
+      "eval_loss": 0.6371855735778809,
+      "eval_runtime": 10.0695,
+      "eval_samples_per_second": 49.357,
+      "eval_steps_per_second": 1.589,
+      "step": 1260
+    },
+    {
+      "epoch": 36.29,
+      "learning_rate": 1.5238095238095241e-05,
+      "loss": 0.0003,
+      "step": 1270
+    },
+    {
+      "epoch": 36.57,
+      "learning_rate": 1.4920634920634922e-05,
+      "loss": 0.0001,
+      "step": 1280
+    },
+    {
+      "epoch": 36.86,
+      "learning_rate": 1.4603174603174605e-05,
+      "loss": 0.0077,
+      "step": 1290
+    },
+    {
+      "epoch": 37.0,
+      "eval_accuracy": 0.8631790744466801,
+      "eval_loss": 0.5971932411193848,
+      "eval_runtime": 9.9137,
+      "eval_samples_per_second": 50.132,
+      "eval_steps_per_second": 1.614,
+      "step": 1295
+    },
+    {
+      "epoch": 37.14,
+      "learning_rate": 1.4285714285714285e-05,
+      "loss": 0.0002,
+      "step": 1300
+    },
+    {
+      "epoch": 37.43,
+      "learning_rate": 1.396825396825397e-05,
+      "loss": 0.0007,
+      "step": 1310
+    },
+    {
+      "epoch": 37.71,
+      "learning_rate": 1.365079365079365e-05,
       "loss": 0.0006,
+      "step": 1320
     },
     {
+      "epoch": 38.0,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 0.0019,
+      "step": 1330
     },
     {
+      "epoch": 38.0,
+      "eval_accuracy": 0.8752515090543259,
+      "eval_loss": 0.5053229331970215,
+      "eval_runtime": 10.0433,
+      "eval_samples_per_second": 49.486,
+      "eval_steps_per_second": 1.593,
+      "step": 1330
+    },
+    {
+      "epoch": 38.29,
+      "learning_rate": 1.3015873015873018e-05,
+      "loss": 0.0024,
+      "step": 1340
+    },
+    {
+      "epoch": 38.57,
+      "learning_rate": 1.2698412698412699e-05,
+      "loss": 0.0019,
+      "step": 1350
+    },
+    {
+      "epoch": 38.86,
+      "learning_rate": 1.2380952380952381e-05,
+      "loss": 0.0042,
+      "step": 1360
+    },
+    {
+      "epoch": 39.0,
+      "eval_accuracy": 0.8249496981891348,
+      "eval_loss": 0.8244276642799377,
+      "eval_runtime": 10.1573,
+      "eval_samples_per_second": 48.93,
+      "eval_steps_per_second": 1.575,
+      "step": 1365
+    },
+    {
+      "epoch": 39.14,
+      "learning_rate": 1.2063492063492064e-05,
+      "loss": 0.0003,
+      "step": 1370
+    },
+    {
+      "epoch": 39.43,
+      "learning_rate": 1.1746031746031746e-05,
+      "loss": 0.004,
+      "step": 1380
+    },
+    {
+      "epoch": 39.71,
+      "learning_rate": 1.1428571428571429e-05,
+      "loss": 0.0002,
+      "step": 1390
+    },
+    {
+      "epoch": 40.0,
+      "learning_rate": 1.1111111111111112e-05,
+      "loss": 0.0022,
+      "step": 1400
+    },
+    {
+      "epoch": 40.0,
+      "eval_accuracy": 0.8410462776659959,
+      "eval_loss": 0.7625672221183777,
+      "eval_runtime": 10.1275,
+      "eval_samples_per_second": 49.074,
+      "eval_steps_per_second": 1.58,
+      "step": 1400
+    },
+    {
+      "epoch": 40.29,
+      "learning_rate": 1.0793650793650794e-05,
+      "loss": 0.0019,
+      "step": 1410
+    },
+    {
+      "epoch": 40.57,
+      "learning_rate": 1.0476190476190477e-05,
+      "loss": 0.0001,
+      "step": 1420
+    },
+    {
+      "epoch": 40.86,
+      "learning_rate": 1.015873015873016e-05,
+      "loss": 0.0036,
+      "step": 1430
+    },
+    {
+      "epoch": 41.0,
+      "eval_accuracy": 0.8410462776659959,
+      "eval_loss": 0.6884453296661377,
+      "eval_runtime": 9.9577,
+      "eval_samples_per_second": 49.911,
+      "eval_steps_per_second": 1.607,
+      "step": 1435
+    },
+    {
+      "epoch": 41.14,
+      "learning_rate": 9.841269841269842e-06,
+      "loss": 0.0001,
+      "step": 1440
+    },
+    {
+      "epoch": 41.43,
+      "learning_rate": 9.523809523809523e-06,
+      "loss": 0.0004,
+      "step": 1450
+    },
+    {
+      "epoch": 41.71,
+      "learning_rate": 9.206349206349207e-06,
+      "loss": 0.002,
+      "step": 1460
+    },
+    {
+      "epoch": 42.0,
+      "learning_rate": 8.88888888888889e-06,
+      "loss": 0.0016,
+      "step": 1470
+    },
+    {
+      "epoch": 42.0,
+      "eval_accuracy": 0.8410462776659959,
+      "eval_loss": 0.6704004406929016,
+      "eval_runtime": 10.0751,
+      "eval_samples_per_second": 49.33,
+      "eval_steps_per_second": 1.588,
+      "step": 1470
+    },
+    {
+      "epoch": 42.29,
+      "learning_rate": 8.571428571428573e-06,
+      "loss": 0.0003,
+      "step": 1480
+    },
+    {
+      "epoch": 42.57,
+      "learning_rate": 8.253968253968254e-06,
+      "loss": 0.0003,
+      "step": 1490
+    },
+    {
+      "epoch": 42.86,
+      "learning_rate": 7.936507936507936e-06,
+      "loss": 0.0011,
+      "step": 1500
+    },
+    {
+      "epoch": 43.0,
+      "eval_accuracy": 0.8531187122736419,
+      "eval_loss": 0.5821227431297302,
+      "eval_runtime": 9.9252,
+      "eval_samples_per_second": 50.074,
+      "eval_steps_per_second": 1.612,
+      "step": 1505
+    },
+    {
+      "epoch": 43.14,
+      "learning_rate": 7.6190476190476205e-06,
+      "loss": 0.0011,
+      "step": 1510
+    },
+    {
+      "epoch": 43.43,
+      "learning_rate": 7.301587301587302e-06,
+      "loss": 0.0002,
+      "step": 1520
+    },
+    {
+      "epoch": 43.71,
+      "learning_rate": 6.984126984126985e-06,
+      "loss": 0.0,
+      "step": 1530
+    },
+    {
+      "epoch": 44.0,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.0001,
+      "step": 1540
+    },
+    {
+      "epoch": 44.0,
+      "eval_accuracy": 0.8571428571428571,
+      "eval_loss": 0.5814576148986816,
+      "eval_runtime": 10.0565,
+      "eval_samples_per_second": 49.421,
+      "eval_steps_per_second": 1.591,
+      "step": 1540
+    },
+    {
+      "epoch": 44.29,
+      "learning_rate": 6.349206349206349e-06,
+      "loss": 0.0012,
+      "step": 1550
+    },
+    {
+      "epoch": 44.57,
+      "learning_rate": 6.031746031746032e-06,
+      "loss": 0.0006,
+      "step": 1560
+    },
+    {
+      "epoch": 44.86,
+      "learning_rate": 5.7142857142857145e-06,
+      "loss": 0.0003,
+      "step": 1570
+    },
+    {
+      "epoch": 45.0,
+      "eval_accuracy": 0.8430583501006036,
+      "eval_loss": 0.6694456934928894,
+      "eval_runtime": 10.1535,
+      "eval_samples_per_second": 48.949,
+      "eval_steps_per_second": 1.576,
+      "step": 1575
+    },
+    {
+      "epoch": 45.14,
+      "learning_rate": 5.396825396825397e-06,
+      "loss": 0.0001,
+      "step": 1580
+    },
+    {
+      "epoch": 45.43,
+      "learning_rate": 5.07936507936508e-06,
+      "loss": 0.0002,
+      "step": 1590
+    },
+    {
+      "epoch": 45.71,
+      "learning_rate": 4.7619047619047615e-06,
+      "loss": 0.0001,
+      "step": 1600
+    },
+    {
+      "epoch": 46.0,
+      "learning_rate": 4.444444444444445e-06,
+      "loss": 0.0007,
+      "step": 1610
+    },
+    {
+      "epoch": 46.0,
+      "eval_accuracy": 0.8430583501006036,
+      "eval_loss": 0.687676727771759,
+      "eval_runtime": 10.0071,
       "eval_samples_per_second": 49.665,
+      "eval_steps_per_second": 1.599,
+      "step": 1610
+    },
+    {
+      "epoch": 46.29,
+      "learning_rate": 4.126984126984127e-06,
+      "loss": 0.0024,
+      "step": 1620
+    },
+    {
+      "epoch": 46.57,
+      "learning_rate": 3.8095238095238102e-06,
+      "loss": 0.0001,
+      "step": 1630
+    },
+    {
+      "epoch": 46.86,
+      "learning_rate": 3.4920634920634924e-06,
+      "loss": 0.0,
+      "step": 1640
     },
     {
+      "epoch": 47.0,
+      "eval_accuracy": 0.8390342052313883,
+      "eval_loss": 0.6862754821777344,
+      "eval_runtime": 10.0393,
+      "eval_samples_per_second": 49.505,
+      "eval_steps_per_second": 1.594,
+      "step": 1645
+    },
+    {
+      "epoch": 47.14,
+      "learning_rate": 3.1746031746031746e-06,
+      "loss": 0.0,
+      "step": 1650
+    },
+    {
+      "epoch": 47.43,
+      "learning_rate": 2.8571428571428573e-06,
+      "loss": 0.0001,
+      "step": 1660
+    },
+    {
+      "epoch": 47.71,
+      "learning_rate": 2.53968253968254e-06,
+      "loss": 0.0,
+      "step": 1670
+    },
+    {
+      "epoch": 48.0,
+      "learning_rate": 2.2222222222222225e-06,
+      "loss": 0.0,
+      "step": 1680
+    },
+    {
+      "epoch": 48.0,
+      "eval_accuracy": 0.8430583501006036,
+      "eval_loss": 0.6967443823814392,
+      "eval_runtime": 9.9265,
+      "eval_samples_per_second": 50.068,
+      "eval_steps_per_second": 1.612,
+      "step": 1680
+    },
+    {
+      "epoch": 48.29,
+      "learning_rate": 1.9047619047619051e-06,
+      "loss": 0.0003,
+      "step": 1690
+    },
+    {
+      "epoch": 48.57,
+      "learning_rate": 1.5873015873015873e-06,
+      "loss": 0.0001,
+      "step": 1700
+    },
+    {
+      "epoch": 48.86,
+      "learning_rate": 1.26984126984127e-06,
+      "loss": 0.0001,
+      "step": 1710
+    },
+    {
+      "epoch": 49.0,
+      "eval_accuracy": 0.8410462776659959,
+      "eval_loss": 0.6850759387016296,
+      "eval_runtime": 10.186,
+      "eval_samples_per_second": 48.792,
+      "eval_steps_per_second": 1.571,
+      "step": 1715
+    },
+    {
+      "epoch": 49.14,
+      "learning_rate": 9.523809523809526e-07,
+      "loss": 0.0005,
+      "step": 1720
+    },
+    {
+      "epoch": 49.43,
+      "learning_rate": 6.34920634920635e-07,
+      "loss": 0.0001,
+      "step": 1730
+    },
+    {
+      "epoch": 49.71,
+      "learning_rate": 3.174603174603175e-07,
+      "loss": 0.0001,
+      "step": 1740
+    },
+    {
+      "epoch": 50.0,
+      "learning_rate": 0.0,
+      "loss": 0.0,
+      "step": 1750
+    },
+    {
+      "epoch": 50.0,
+      "eval_accuracy": 0.8410462776659959,
+      "eval_loss": 0.6828312277793884,
+      "eval_runtime": 9.963,
+      "eval_samples_per_second": 49.885,
+      "eval_steps_per_second": 1.606,
+      "step": 1750
+    },
+    {
+      "epoch": 50.0,
+      "step": 1750,
+      "total_flos": 5.554381127113728e+18,
+      "train_loss": 0.044299079362735416,
+      "train_runtime": 9406.6232,
+      "train_samples_per_second": 23.755,
+      "train_steps_per_second": 0.186
     }
   ],
+  "max_steps": 1750,
+  "num_train_epochs": 50,
+  "total_flos": 5.554381127113728e+18,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7120c2f71e02fdc065c4184b40b6ebfdbea36fbcc060a6b7780d0aab273fe4da
 size 3439

 version https://git-lfs.github.com/spec/v1
+oid sha256:4c59fb9d277b60c557b7f361b4f4771289f10e485ce9b8b242f8ca8c10071067
 size 3439