Training in progress, epoch 1

Browse files

Files changed (8) hide show

all_results.json +9 -9
eval_results.json +5 -5
model.safetensors +1 -1
runs/May01_15-13-06_d6eb9620a945/events.out.tfevents.1714577258.d6eb9620a945.304.7 +3 -0
runs/May01_15-28-52_d6eb9620a945/events.out.tfevents.1714577382.d6eb9620a945.304.8 +3 -0
train_results.json +4 -4
trainer_state.json +156 -156
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 20.0,
-    "eval_accuracy": 0.87,
-    "eval_loss": 0.40429016947746277,
-    "eval_runtime": 2.5766,
-    "eval_samples_per_second": 38.811,
-    "eval_steps_per_second": 1.552,
     "total_flos": 1.98847911886848e+17,
-    "train_loss": 0.30984322795501124,
-    "train_runtime": 343.6308,
-    "train_samples_per_second": 23.281,
-    "train_steps_per_second": 0.757
 }

 {
     "epoch": 20.0,
+    "eval_accuracy": 0.84,
+    "eval_loss": 0.7047725915908813,
+    "eval_runtime": 3.1923,
+    "eval_samples_per_second": 31.325,
+    "eval_steps_per_second": 1.253,
     "total_flos": 1.98847911886848e+17,
+    "train_loss": 0.40210363498100865,
+    "train_runtime": 345.8785,
+    "train_samples_per_second": 23.13,
+    "train_steps_per_second": 0.752
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 20.0,
-    "eval_accuracy": 0.87,
-    "eval_loss": 0.40429016947746277,
-    "eval_runtime": 2.5766,
-    "eval_samples_per_second": 38.811,
-    "eval_steps_per_second": 1.552
 }

 {
     "epoch": 20.0,
+    "eval_accuracy": 0.84,
+    "eval_loss": 0.7047725915908813,
+    "eval_runtime": 3.1923,
+    "eval_samples_per_second": 31.325,
+    "eval_steps_per_second": 1.253
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:327a1698bb22bcde61157dc1342240b6315f16a0435717d989809d3af5d8502b
 size 110342832

 version https://git-lfs.github.com/spec/v1
+oid sha256:64c181a6685b40fca78c6b85bc77336c22dab4e2b1b275ffb0d9a459e4370c7a
 size 110342832

runs/May01_15-13-06_d6eb9620a945/events.out.tfevents.1714577258.d6eb9620a945.304.7 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a9b65cd5b81a475ab83d1aacd11f33c81f6346365c8da06f94013a957e6622d5
+size 411

runs/May01_15-28-52_d6eb9620a945/events.out.tfevents.1714577382.d6eb9620a945.304.8 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:19d24b57d222e167895ef979aaf24e486ca766cb62e2b2d85a3858610f069741
+size 5776

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 20.0,
     "total_flos": 1.98847911886848e+17,
-    "train_loss": 0.30984322795501124,
-    "train_runtime": 343.6308,
-    "train_samples_per_second": 23.281,
-    "train_steps_per_second": 0.757
 }

 {
     "epoch": 20.0,
     "total_flos": 1.98847911886848e+17,
+    "train_loss": 0.40210363498100865,
+    "train_runtime": 345.8785,
+    "train_samples_per_second": 23.13,
+    "train_steps_per_second": 0.752
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.87,
-  "best_model_checkpoint": "swin-tiny-patch4-window7-224-finetuned-student_two_classes/checkpoint-117",
   "epoch": 20.0,
   "eval_steps": 500,
   "global_step": 260,
@@ -10,374 +10,374 @@
   "log_history": [
     {
       "epoch": 0.7692307692307693,
-      "grad_norm": 11.056398391723633,
       "learning_rate": 1.923076923076923e-05,
-      "loss": 0.6951,
       "step": 10
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.82,
-      "eval_loss": 0.4448259770870209,
-      "eval_runtime": 3.0273,
-      "eval_samples_per_second": 33.032,
-      "eval_steps_per_second": 1.321,
       "step": 13
     },
     {
       "epoch": 1.5384615384615383,
-      "grad_norm": 6.355745315551758,
       "learning_rate": 3.846153846153846e-05,
-      "loss": 0.4292,
       "step": 20
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.82,
-      "eval_loss": 0.44606465101242065,
-      "eval_runtime": 2.4722,
-      "eval_samples_per_second": 40.45,
-      "eval_steps_per_second": 1.618,
       "step": 26
     },
     {
       "epoch": 2.3076923076923075,
-      "grad_norm": 5.6881914138793945,
       "learning_rate": 4.9145299145299147e-05,
-      "loss": 0.4246,
       "step": 30
     },
     {
       "epoch": 3.0,
       "eval_accuracy": 0.82,
-      "eval_loss": 0.4553927481174469,
-      "eval_runtime": 2.5808,
-      "eval_samples_per_second": 38.748,
-      "eval_steps_per_second": 1.55,
       "step": 39
     },
     {
       "epoch": 3.076923076923077,
-      "grad_norm": 9.89670181274414,
       "learning_rate": 4.700854700854701e-05,
-      "loss": 0.4424,
       "step": 40
     },
     {
       "epoch": 3.8461538461538463,
-      "grad_norm": 6.457494258880615,
       "learning_rate": 4.4871794871794874e-05,
-      "loss": 0.3983,
       "step": 50
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.83,
-      "eval_loss": 0.4219551384449005,
-      "eval_runtime": 2.9766,
-      "eval_samples_per_second": 33.596,
-      "eval_steps_per_second": 1.344,
       "step": 52
     },
     {
       "epoch": 4.615384615384615,
-      "grad_norm": 5.4807610511779785,
       "learning_rate": 4.2735042735042735e-05,
-      "loss": 0.314,
       "step": 60
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.83,
-      "eval_loss": 0.44294700026512146,
-      "eval_runtime": 2.417,
-      "eval_samples_per_second": 41.374,
-      "eval_steps_per_second": 1.655,
       "step": 65
     },
     {
       "epoch": 5.384615384615385,
-      "grad_norm": 5.0344414710998535,
       "learning_rate": 4.05982905982906e-05,
-      "loss": 0.4176,
       "step": 70
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.82,
-      "eval_loss": 0.4005734324455261,
-      "eval_runtime": 3.0995,
-      "eval_samples_per_second": 32.264,
-      "eval_steps_per_second": 1.291,
       "step": 78
     },
     {
       "epoch": 6.153846153846154,
-      "grad_norm": 6.132039546966553,
       "learning_rate": 3.846153846153846e-05,
-      "loss": 0.3512,
       "step": 80
     },
     {
       "epoch": 6.923076923076923,
-      "grad_norm": 3.423215389251709,
       "learning_rate": 3.6324786324786323e-05,
-      "loss": 0.2862,
       "step": 90
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.84,
-      "eval_loss": 0.4145370423793793,
-      "eval_runtime": 2.5336,
-      "eval_samples_per_second": 39.47,
-      "eval_steps_per_second": 1.579,
       "step": 91
     },
     {
       "epoch": 7.6923076923076925,
-      "grad_norm": 4.900909423828125,
       "learning_rate": 3.418803418803419e-05,
-      "loss": 0.3072,
       "step": 100
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.83,
-      "eval_loss": 0.38473400473594666,
-      "eval_runtime": 2.5184,
-      "eval_samples_per_second": 39.708,
-      "eval_steps_per_second": 1.588,
       "step": 104
     },
     {
       "epoch": 8.461538461538462,
-      "grad_norm": 6.61647891998291,
       "learning_rate": 3.205128205128206e-05,
-      "loss": 0.3001,
       "step": 110
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.87,
-      "eval_loss": 0.40429016947746277,
-      "eval_runtime": 3.3603,
-      "eval_samples_per_second": 29.76,
-      "eval_steps_per_second": 1.19,
       "step": 117
     },
     {
       "epoch": 9.23076923076923,
-      "grad_norm": 9.093049049377441,
       "learning_rate": 2.9914529914529915e-05,
-      "loss": 0.3225,
       "step": 120
     },
     {
       "epoch": 10.0,
-      "grad_norm": 8.699834823608398,
       "learning_rate": 2.777777777777778e-05,
-      "loss": 0.2937,
       "step": 130
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.82,
-      "eval_loss": 0.40262600779533386,
-      "eval_runtime": 2.4958,
-      "eval_samples_per_second": 40.067,
-      "eval_steps_per_second": 1.603,
       "step": 130
     },
     {
       "epoch": 10.76923076923077,
-      "grad_norm": 3.0456953048706055,
       "learning_rate": 2.564102564102564e-05,
-      "loss": 0.2206,
       "step": 140
     },
     {
       "epoch": 11.0,
-      "eval_accuracy": 0.83,
-      "eval_loss": 0.3972433805465698,
-      "eval_runtime": 2.6788,
-      "eval_samples_per_second": 37.329,
-      "eval_steps_per_second": 1.493,
       "step": 143
     },
     {
       "epoch": 11.538461538461538,
-      "grad_norm": 6.638078689575195,
       "learning_rate": 2.3504273504273504e-05,
-      "loss": 0.2287,
       "step": 150
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.86,
-      "eval_loss": 0.38398703932762146,
-      "eval_runtime": 2.4563,
-      "eval_samples_per_second": 40.711,
       "eval_steps_per_second": 1.628,
       "step": 156
     },
     {
       "epoch": 12.307692307692308,
-      "grad_norm": 6.832516670227051,
       "learning_rate": 2.1367521367521368e-05,
-      "loss": 0.3318,
       "step": 160
     },
     {
       "epoch": 13.0,
-      "eval_accuracy": 0.84,
-      "eval_loss": 0.3740682899951935,
-      "eval_runtime": 2.6452,
-      "eval_samples_per_second": 37.805,
-      "eval_steps_per_second": 1.512,
       "step": 169
     },
     {
       "epoch": 13.076923076923077,
-      "grad_norm": 6.917372226715088,
       "learning_rate": 1.923076923076923e-05,
-      "loss": 0.2099,
       "step": 170
     },
     {
       "epoch": 13.846153846153847,
-      "grad_norm": 6.500430107116699,
       "learning_rate": 1.7094017094017095e-05,
-      "loss": 0.232,
       "step": 180
     },
     {
       "epoch": 14.0,
-      "eval_accuracy": 0.85,
-      "eval_loss": 0.38503700494766235,
-      "eval_runtime": 2.5332,
-      "eval_samples_per_second": 39.476,
-      "eval_steps_per_second": 1.579,
       "step": 182
     },
     {
       "epoch": 14.615384615384615,
-      "grad_norm": 7.342576503753662,
       "learning_rate": 1.4957264957264958e-05,
-      "loss": 0.2277,
       "step": 190
     },
     {
       "epoch": 15.0,
-      "eval_accuracy": 0.85,
-      "eval_loss": 0.3989230692386627,
-      "eval_runtime": 2.5166,
-      "eval_samples_per_second": 39.737,
-      "eval_steps_per_second": 1.589,
       "step": 195
     },
     {
       "epoch": 15.384615384615385,
-      "grad_norm": 6.8460235595703125,
       "learning_rate": 1.282051282051282e-05,
-      "loss": 0.2253,
       "step": 200
     },
     {
       "epoch": 16.0,
-      "eval_accuracy": 0.85,
-      "eval_loss": 0.4070873260498047,
-      "eval_runtime": 3.0059,
-      "eval_samples_per_second": 33.267,
-      "eval_steps_per_second": 1.331,
       "step": 208
     },
     {
       "epoch": 16.153846153846153,
-      "grad_norm": 3.827336311340332,
       "learning_rate": 1.0683760683760684e-05,
-      "loss": 0.2202,
       "step": 210
     },
     {
       "epoch": 16.923076923076923,
-      "grad_norm": 6.873669624328613,
       "learning_rate": 8.547008547008548e-06,
-      "loss": 0.2463,
       "step": 220
     },
     {
       "epoch": 17.0,
-      "eval_accuracy": 0.85,
-      "eval_loss": 0.40268489718437195,
-      "eval_runtime": 2.5105,
-      "eval_samples_per_second": 39.833,
-      "eval_steps_per_second": 1.593,
       "step": 221
     },
     {
       "epoch": 17.692307692307693,
-      "grad_norm": 8.530336380004883,
       "learning_rate": 6.41025641025641e-06,
-      "loss": 0.2496,
       "step": 230
     },
     {
       "epoch": 18.0,
-      "eval_accuracy": 0.83,
-      "eval_loss": 0.41463416814804077,
-      "eval_runtime": 2.5445,
-      "eval_samples_per_second": 39.301,
-      "eval_steps_per_second": 1.572,
       "step": 234
     },
     {
       "epoch": 18.46153846153846,
-      "grad_norm": 3.6479477882385254,
       "learning_rate": 4.273504273504274e-06,
-      "loss": 0.1969,
       "step": 240
     },
     {
       "epoch": 19.0,
-      "eval_accuracy": 0.83,
-      "eval_loss": 0.41043660044670105,
-      "eval_runtime": 3.1127,
-      "eval_samples_per_second": 32.127,
-      "eval_steps_per_second": 1.285,
       "step": 247
     },
     {
       "epoch": 19.23076923076923,
-      "grad_norm": 5.254897117614746,
       "learning_rate": 2.136752136752137e-06,
-      "loss": 0.257,
       "step": 250
     },
     {
       "epoch": 20.0,
-      "grad_norm": 8.73101806640625,
       "learning_rate": 0.0,
-      "loss": 0.2279,
       "step": 260
     },
     {
       "epoch": 20.0,
-      "eval_accuracy": 0.82,
-      "eval_loss": 0.41871729493141174,
-      "eval_runtime": 2.516,
-      "eval_samples_per_second": 39.746,
-      "eval_steps_per_second": 1.59,
       "step": 260
     },
     {
       "epoch": 20.0,
       "step": 260,
       "total_flos": 1.98847911886848e+17,
-      "train_loss": 0.30984322795501124,
-      "train_runtime": 343.6308,
-      "train_samples_per_second": 23.281,
-      "train_steps_per_second": 0.757
     }
   ],
   "logging_steps": 10,

 {
+  "best_metric": 0.84,
+  "best_model_checkpoint": "swin-tiny-patch4-window7-224-finetuned-student_two_classes/checkpoint-104",
   "epoch": 20.0,
   "eval_steps": 500,
   "global_step": 260,
   "log_history": [
     {
       "epoch": 0.7692307692307693,
+      "grad_norm": 7.759917736053467,
       "learning_rate": 1.923076923076923e-05,
+      "loss": 0.3845,
       "step": 10
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.7,
+      "eval_loss": 0.6474852561950684,
+      "eval_runtime": 2.509,
+      "eval_samples_per_second": 39.856,
+      "eval_steps_per_second": 1.594,
       "step": 13
     },
     {
       "epoch": 1.5384615384615383,
+      "grad_norm": 22.67352294921875,
       "learning_rate": 3.846153846153846e-05,
+      "loss": 0.3466,
       "step": 20
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.74,
+      "eval_loss": 0.6201274991035461,
+      "eval_runtime": 2.4483,
+      "eval_samples_per_second": 40.845,
+      "eval_steps_per_second": 1.634,
       "step": 26
     },
     {
       "epoch": 2.3076923076923075,
+      "grad_norm": 68.59841918945312,
       "learning_rate": 4.9145299145299147e-05,
+      "loss": 0.3832,
       "step": 30
     },
     {
       "epoch": 3.0,
       "eval_accuracy": 0.82,
+      "eval_loss": 0.8067967295646667,
+      "eval_runtime": 2.4397,
+      "eval_samples_per_second": 40.989,
+      "eval_steps_per_second": 1.64,
       "step": 39
     },
     {
       "epoch": 3.076923076923077,
+      "grad_norm": 16.920194625854492,
       "learning_rate": 4.700854700854701e-05,
+      "loss": 0.4694,
       "step": 40
     },
     {
       "epoch": 3.8461538461538463,
+      "grad_norm": 59.7691764831543,
       "learning_rate": 4.4871794871794874e-05,
+      "loss": 0.5344,
       "step": 50
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.81,
+      "eval_loss": 0.6339858770370483,
+      "eval_runtime": 2.4546,
+      "eval_samples_per_second": 40.74,
+      "eval_steps_per_second": 1.63,
       "step": 52
     },
     {
       "epoch": 4.615384615384615,
+      "grad_norm": 21.54722785949707,
       "learning_rate": 4.2735042735042735e-05,
+      "loss": 0.4912,
       "step": 60
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.8,
+      "eval_loss": 0.6879615187644958,
+      "eval_runtime": 2.8473,
+      "eval_samples_per_second": 35.121,
+      "eval_steps_per_second": 1.405,
       "step": 65
     },
     {
       "epoch": 5.384615384615385,
+      "grad_norm": 11.457103729248047,
       "learning_rate": 4.05982905982906e-05,
+      "loss": 0.5093,
       "step": 70
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.73,
+      "eval_loss": 0.699913501739502,
+      "eval_runtime": 2.4666,
+      "eval_samples_per_second": 40.541,
+      "eval_steps_per_second": 1.622,
       "step": 78
     },
     {
       "epoch": 6.153846153846154,
+      "grad_norm": 15.323335647583008,
       "learning_rate": 3.846153846153846e-05,
+      "loss": 0.5284,
       "step": 80
     },
     {
       "epoch": 6.923076923076923,
+      "grad_norm": 7.947178840637207,
       "learning_rate": 3.6324786324786323e-05,
+      "loss": 0.4109,
       "step": 90
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.83,
+      "eval_loss": 0.7294943928718567,
+      "eval_runtime": 2.4607,
+      "eval_samples_per_second": 40.638,
+      "eval_steps_per_second": 1.626,
       "step": 91
     },
     {
       "epoch": 7.6923076923076925,
+      "grad_norm": 9.474274635314941,
       "learning_rate": 3.418803418803419e-05,
+      "loss": 0.4383,
       "step": 100
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.84,
+      "eval_loss": 0.7047725915908813,
+      "eval_runtime": 2.8894,
+      "eval_samples_per_second": 34.609,
+      "eval_steps_per_second": 1.384,
       "step": 104
     },
     {
       "epoch": 8.461538461538462,
+      "grad_norm": 7.170910835266113,
       "learning_rate": 3.205128205128206e-05,
+      "loss": 0.4534,
       "step": 110
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.82,
+      "eval_loss": 0.609440803527832,
+      "eval_runtime": 2.4268,
+      "eval_samples_per_second": 41.206,
+      "eval_steps_per_second": 1.648,
       "step": 117
     },
     {
       "epoch": 9.23076923076923,
+      "grad_norm": 13.206290245056152,
       "learning_rate": 2.9914529914529915e-05,
+      "loss": 0.4504,
       "step": 120
     },
     {
       "epoch": 10.0,
+      "grad_norm": 15.387145042419434,
       "learning_rate": 2.777777777777778e-05,
+      "loss": 0.4684,
       "step": 130
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.74,
+      "eval_loss": 0.5788578987121582,
+      "eval_runtime": 2.5101,
+      "eval_samples_per_second": 39.839,
+      "eval_steps_per_second": 1.594,
       "step": 130
     },
     {
       "epoch": 10.76923076923077,
+      "grad_norm": 8.540888786315918,
       "learning_rate": 2.564102564102564e-05,
+      "loss": 0.3442,
       "step": 140
     },
     {
       "epoch": 11.0,
+      "eval_accuracy": 0.82,
+      "eval_loss": 0.7296608090400696,
+      "eval_runtime": 3.5919,
+      "eval_samples_per_second": 27.84,
+      "eval_steps_per_second": 1.114,
       "step": 143
     },
     {
       "epoch": 11.538461538461538,
+      "grad_norm": 7.705536842346191,
       "learning_rate": 2.3504273504273504e-05,
+      "loss": 0.3236,
       "step": 150
     },
     {
       "epoch": 12.0,
+      "eval_accuracy": 0.79,
+      "eval_loss": 0.7688478231430054,
+      "eval_runtime": 2.457,
+      "eval_samples_per_second": 40.7,
       "eval_steps_per_second": 1.628,
       "step": 156
     },
     {
       "epoch": 12.307692307692308,
+      "grad_norm": 4.703495502471924,
       "learning_rate": 2.1367521367521368e-05,
+      "loss": 0.4645,
       "step": 160
     },
     {
       "epoch": 13.0,
+      "eval_accuracy": 0.76,
+      "eval_loss": 0.6686670780181885,
+      "eval_runtime": 2.6242,
+      "eval_samples_per_second": 38.107,
+      "eval_steps_per_second": 1.524,
       "step": 169
     },
     {
       "epoch": 13.076923076923077,
+      "grad_norm": 12.792634010314941,
       "learning_rate": 1.923076923076923e-05,
+      "loss": 0.3457,
       "step": 170
     },
     {
       "epoch": 13.846153846153847,
+      "grad_norm": 8.466885566711426,
       "learning_rate": 1.7094017094017095e-05,
+      "loss": 0.3532,
       "step": 180
     },
     {
       "epoch": 14.0,
+      "eval_accuracy": 0.84,
+      "eval_loss": 0.787961483001709,
+      "eval_runtime": 2.4969,
+      "eval_samples_per_second": 40.05,
+      "eval_steps_per_second": 1.602,
       "step": 182
     },
     {
       "epoch": 14.615384615384615,
+      "grad_norm": 13.883042335510254,
       "learning_rate": 1.4957264957264958e-05,
+      "loss": 0.3394,
       "step": 190
     },
     {
       "epoch": 15.0,
+      "eval_accuracy": 0.79,
+      "eval_loss": 0.7216033935546875,
+      "eval_runtime": 2.5404,
+      "eval_samples_per_second": 39.364,
+      "eval_steps_per_second": 1.575,
       "step": 195
     },
     {
       "epoch": 15.384615384615385,
+      "grad_norm": 8.006115913391113,
       "learning_rate": 1.282051282051282e-05,
+      "loss": 0.3311,
       "step": 200
     },
     {
       "epoch": 16.0,
+      "eval_accuracy": 0.79,
+      "eval_loss": 0.7209141254425049,
+      "eval_runtime": 4.7912,
+      "eval_samples_per_second": 20.872,
+      "eval_steps_per_second": 0.835,
       "step": 208
     },
     {
       "epoch": 16.153846153846153,
+      "grad_norm": 5.578493118286133,
       "learning_rate": 1.0683760683760684e-05,
+      "loss": 0.3509,
       "step": 210
     },
     {
       "epoch": 16.923076923076923,
+      "grad_norm": 6.166889190673828,
       "learning_rate": 8.547008547008548e-06,
+      "loss": 0.3367,
       "step": 220
     },
     {
       "epoch": 17.0,
+      "eval_accuracy": 0.71,
+      "eval_loss": 0.6826711297035217,
+      "eval_runtime": 2.5244,
+      "eval_samples_per_second": 39.614,
+      "eval_steps_per_second": 1.585,
       "step": 221
     },
     {
       "epoch": 17.692307692307693,
+      "grad_norm": 10.269214630126953,
       "learning_rate": 6.41025641025641e-06,
+      "loss": 0.3673,
       "step": 230
     },
     {
       "epoch": 18.0,
+      "eval_accuracy": 0.76,
+      "eval_loss": 0.7472490072250366,
+      "eval_runtime": 3.2931,
+      "eval_samples_per_second": 30.367,
+      "eval_steps_per_second": 1.215,
       "step": 234
     },
     {
       "epoch": 18.46153846153846,
+      "grad_norm": 7.079315662384033,
       "learning_rate": 4.273504273504274e-06,
+      "loss": 0.3024,
       "step": 240
     },
     {
       "epoch": 19.0,
+      "eval_accuracy": 0.79,
+      "eval_loss": 0.7760630249977112,
+      "eval_runtime": 2.5705,
+      "eval_samples_per_second": 38.903,
+      "eval_steps_per_second": 1.556,
       "step": 247
     },
     {
       "epoch": 19.23076923076923,
+      "grad_norm": 7.1634039878845215,
       "learning_rate": 2.136752136752137e-06,
+      "loss": 0.3652,
       "step": 250
     },
     {
       "epoch": 20.0,
+      "grad_norm": 28.70159912109375,
       "learning_rate": 0.0,
+      "loss": 0.3624,
       "step": 260
     },
     {
       "epoch": 20.0,
+      "eval_accuracy": 0.76,
+      "eval_loss": 0.7436763048171997,
+      "eval_runtime": 2.484,
+      "eval_samples_per_second": 40.257,
+      "eval_steps_per_second": 1.61,
       "step": 260
     },
     {
       "epoch": 20.0,
       "step": 260,
       "total_flos": 1.98847911886848e+17,
+      "train_loss": 0.40210363498100865,
+      "train_runtime": 345.8785,
+      "train_samples_per_second": 23.13,
+      "train_steps_per_second": 0.752
     }
   ],
   "logging_steps": 10,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e52f74d254afa65d0442792843c29612d3340e5c4e9e5f971ddaf13443f39957
 size 5112

 version https://git-lfs.github.com/spec/v1
+oid sha256:d1a1315b4fab4894e88f79f64a4fee5ad9165a6ea5806aaa70fbbdcf4c474250
 size 5112