🍻 cheers

Browse files

Files changed (5) hide show

all_results.json +11 -11
eval_results.json +6 -6
runs/Aug01_01-04-29_eb351023ca0f/events.out.tfevents.1690852784.eb351023ca0f.2251.1 +3 -0
train_results.json +6 -6
trainer_state.json +332 -173

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 8.0,
-    "eval_accuracy": 0.6831683168316832,
-    "eval_loss": 0.8943801522254944,
-    "eval_runtime": 4.6419,
-    "eval_samples_per_second": 21.758,
-    "eval_steps_per_second": 2.801,
-    "total_flos": 5.6352679914450125e+17,
-    "train_loss": 0.3986694132745789,
-    "train_runtime": 506.3898,
-    "train_samples_per_second": 14.36,
-    "train_steps_per_second": 0.9
 }

 {
+    "epoch": 4.0,
+    "eval_accuracy": 0.6772727272727272,
+    "eval_loss": 0.7634429931640625,
+    "eval_runtime": 7.4362,
+    "eval_samples_per_second": 29.585,
+    "eval_steps_per_second": 3.765,
+    "total_flos": 6.137420584742093e+17,
+    "train_loss": 0.4632607804190728,
+    "train_runtime": 749.353,
+    "train_samples_per_second": 10.569,
+    "train_steps_per_second": 0.662
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 8.0,
-    "eval_accuracy": 0.6831683168316832,
-    "eval_loss": 0.8943801522254944,
-    "eval_runtime": 4.6419,
-    "eval_samples_per_second": 21.758,
-    "eval_steps_per_second": 2.801
 }

 {
+    "epoch": 4.0,
+    "eval_accuracy": 0.6772727272727272,
+    "eval_loss": 0.7634429931640625,
+    "eval_runtime": 7.4362,
+    "eval_samples_per_second": 29.585,
+    "eval_steps_per_second": 3.765
 }

runs/Aug01_01-04-29_eb351023ca0f/events.out.tfevents.1690852784.eb351023ca0f.2251.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:06d631550141fb84d75a37862311124ab83d7c4f4675c1cf95625ac14e0ad7c3
+size 411

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 8.0,
-    "total_flos": 5.6352679914450125e+17,
-    "train_loss": 0.3986694132745789,
-    "train_runtime": 506.3898,
-    "train_samples_per_second": 14.36,
-    "train_steps_per_second": 0.9
 }

 {
+    "epoch": 4.0,
+    "total_flos": 6.137420584742093e+17,
+    "train_loss": 0.4632607804190728,
+    "train_runtime": 749.353,
+    "train_samples_per_second": 10.569,
+    "train_steps_per_second": 0.662
 }

trainer_state.json CHANGED Viewed

@@ -1,331 +1,490 @@
 {
-  "best_metric": 0.8943801522254944,
-  "best_model_checkpoint": "./vit-base-renovation/checkpoint-200",
-  "epoch": 8.0,
-  "global_step": 456,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.18,
-      "learning_rate": 0.0001956140350877193,
-      "loss": 0.9993,
       "step": 10
     },
     {
-      "epoch": 0.35,
-      "learning_rate": 0.0001912280701754386,
-      "loss": 0.9628,
       "step": 20
     },
     {
-      "epoch": 0.53,
-      "learning_rate": 0.00018684210526315792,
-      "loss": 1.058,
       "step": 30
     },
     {
-      "epoch": 0.7,
-      "learning_rate": 0.0001824561403508772,
-      "loss": 0.9951,
       "step": 40
     },
     {
-      "epoch": 0.88,
-      "learning_rate": 0.0001780701754385965,
-      "loss": 1.0107,
       "step": 50
     },
     {
-      "epoch": 1.05,
-      "learning_rate": 0.0001736842105263158,
-      "loss": 1.0481,
       "step": 60
     },
     {
-      "epoch": 1.23,
-      "learning_rate": 0.0001692982456140351,
-      "loss": 0.9934,
       "step": 70
     },
     {
-      "epoch": 1.4,
-      "learning_rate": 0.0001649122807017544,
-      "loss": 0.9848,
       "step": 80
     },
     {
-      "epoch": 1.58,
-      "learning_rate": 0.0001605263157894737,
-      "loss": 0.8844,
       "step": 90
     },
     {
-      "epoch": 1.75,
-      "learning_rate": 0.00015614035087719297,
-      "loss": 0.8483,
       "step": 100
     },
     {
-      "epoch": 1.75,
-      "eval_accuracy": 0.5445544554455446,
-      "eval_loss": 0.9965408444404602,
-      "eval_runtime": 4.6358,
-      "eval_samples_per_second": 21.787,
-      "eval_steps_per_second": 2.804,
       "step": 100
     },
     {
-      "epoch": 1.93,
-      "learning_rate": 0.0001517543859649123,
-      "loss": 0.9321,
       "step": 110
     },
     {
-      "epoch": 2.11,
-      "learning_rate": 0.00014736842105263158,
-      "loss": 0.7607,
       "step": 120
     },
     {
-      "epoch": 2.28,
-      "learning_rate": 0.00014298245614035088,
-      "loss": 0.6632,
       "step": 130
     },
     {
-      "epoch": 2.46,
-      "learning_rate": 0.00013859649122807018,
-      "loss": 0.7359,
       "step": 140
     },
     {
-      "epoch": 2.63,
-      "learning_rate": 0.00013421052631578948,
-      "loss": 0.7393,
       "step": 150
     },
     {
-      "epoch": 2.81,
-      "learning_rate": 0.0001298245614035088,
-      "loss": 0.6817,
       "step": 160
     },
     {
-      "epoch": 2.98,
-      "learning_rate": 0.00012543859649122806,
-      "loss": 0.6913,
       "step": 170
     },
     {
-      "epoch": 3.16,
-      "learning_rate": 0.00012149122807017544,
-      "loss": 0.5017,
       "step": 180
     },
     {
-      "epoch": 3.33,
-      "learning_rate": 0.00011710526315789474,
-      "loss": 0.3448,
       "step": 190
     },
     {
-      "epoch": 3.51,
-      "learning_rate": 0.00011271929824561404,
-      "loss": 0.3474,
       "step": 200
     },
     {
-      "epoch": 3.51,
-      "eval_accuracy": 0.6831683168316832,
-      "eval_loss": 0.8943801522254944,
-      "eval_runtime": 4.5642,
-      "eval_samples_per_second": 22.129,
-      "eval_steps_per_second": 2.848,
       "step": 200
     },
     {
-      "epoch": 3.68,
-      "learning_rate": 0.00010833333333333333,
-      "loss": 0.3598,
       "step": 210
     },
     {
-      "epoch": 3.86,
-      "learning_rate": 0.00010394736842105264,
-      "loss": 0.3214,
       "step": 220
     },
     {
-      "epoch": 4.04,
-      "learning_rate": 9.956140350877193e-05,
-      "loss": 0.2831,
       "step": 230
     },
     {
-      "epoch": 4.21,
-      "learning_rate": 9.517543859649123e-05,
-      "loss": 0.1586,
       "step": 240
     },
     {
-      "epoch": 4.39,
-      "learning_rate": 9.078947368421054e-05,
-      "loss": 0.0929,
       "step": 250
     },
     {
-      "epoch": 4.56,
-      "learning_rate": 8.640350877192982e-05,
-      "loss": 0.1087,
       "step": 260
     },
     {
-      "epoch": 4.74,
-      "learning_rate": 8.201754385964913e-05,
-      "loss": 0.1019,
       "step": 270
     },
     {
-      "epoch": 4.91,
-      "learning_rate": 7.763157894736843e-05,
-      "loss": 0.0528,
       "step": 280
     },
     {
-      "epoch": 5.09,
-      "learning_rate": 7.324561403508772e-05,
-      "loss": 0.1051,
       "step": 290
     },
     {
-      "epoch": 5.26,
-      "learning_rate": 6.885964912280702e-05,
-      "loss": 0.0328,
       "step": 300
     },
     {
-      "epoch": 5.26,
-      "eval_accuracy": 0.6633663366336634,
-      "eval_loss": 1.158254861831665,
-      "eval_runtime": 4.4598,
-      "eval_samples_per_second": 22.647,
-      "eval_steps_per_second": 2.915,
       "step": 300
     },
     {
-      "epoch": 5.44,
-      "learning_rate": 6.447368421052632e-05,
-      "loss": 0.0686,
       "step": 310
     },
     {
-      "epoch": 5.61,
-      "learning_rate": 6.0087719298245616e-05,
-      "loss": 0.0358,
       "step": 320
     },
     {
-      "epoch": 5.79,
-      "learning_rate": 5.570175438596491e-05,
-      "loss": 0.0255,
       "step": 330
     },
     {
-      "epoch": 5.96,
-      "learning_rate": 5.131578947368422e-05,
-      "loss": 0.0401,
       "step": 340
     },
     {
-      "epoch": 6.14,
-      "learning_rate": 4.6929824561403515e-05,
-      "loss": 0.0217,
       "step": 350
     },
     {
-      "epoch": 6.32,
-      "learning_rate": 4.254385964912281e-05,
-      "loss": 0.0208,
       "step": 360
     },
     {
-      "epoch": 6.49,
-      "learning_rate": 3.815789473684211e-05,
-      "loss": 0.0203,
       "step": 370
     },
     {
-      "epoch": 6.67,
-      "learning_rate": 3.377192982456141e-05,
-      "loss": 0.0196,
       "step": 380
     },
     {
-      "epoch": 6.84,
-      "learning_rate": 2.9385964912280706e-05,
-      "loss": 0.0176,
       "step": 390
     },
     {
-      "epoch": 7.02,
-      "learning_rate": 2.5e-05,
-      "loss": 0.0176,
       "step": 400
     },
     {
-      "epoch": 7.02,
-      "eval_accuracy": 0.6831683168316832,
-      "eval_loss": 1.0844857692718506,
-      "eval_runtime": 4.6632,
-      "eval_samples_per_second": 21.659,
-      "eval_steps_per_second": 2.788,
       "step": 400
     },
     {
-      "epoch": 7.19,
-      "learning_rate": 2.06140350877193e-05,
-      "loss": 0.0168,
       "step": 410
     },
     {
-      "epoch": 7.37,
-      "learning_rate": 1.62280701754386e-05,
-      "loss": 0.0165,
       "step": 420
     },
     {
-      "epoch": 7.54,
-      "learning_rate": 1.1842105263157895e-05,
-      "loss": 0.0161,
       "step": 430
     },
     {
-      "epoch": 7.72,
-      "learning_rate": 7.456140350877193e-06,
-      "loss": 0.0163,
       "step": 440
     },
     {
-      "epoch": 7.89,
-      "learning_rate": 3.070175438596491e-06,
-      "loss": 0.0162,
       "step": 450
     },
     {
-      "epoch": 8.0,
-      "step": 456,
-      "total_flos": 5.6352679914450125e+17,
-      "train_loss": 0.3986694132745789,
-      "train_runtime": 506.3898,
-      "train_samples_per_second": 14.36,
-      "train_steps_per_second": 0.9
     }
   ],
-  "max_steps": 456,
-  "num_train_epochs": 8,
-  "total_flos": 5.6352679914450125e+17,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.7634429931640625,
+  "best_model_checkpoint": "./vit-base-renovation/checkpoint-175",
+  "epoch": 4.0,
+  "global_step": 496,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.08,
+      "learning_rate": 0.00019596774193548388,
+      "loss": 0.9826,
       "step": 10
     },
     {
+      "epoch": 0.16,
+      "learning_rate": 0.00019193548387096775,
+      "loss": 0.9741,
       "step": 20
     },
     {
+      "epoch": 0.2,
+      "eval_accuracy": 0.4818181818181818,
+      "eval_loss": 0.9574973583221436,
+      "eval_runtime": 7.5527,
+      "eval_samples_per_second": 29.129,
+      "eval_steps_per_second": 3.707,
+      "step": 25
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00018790322580645164,
+      "loss": 1.0046,
       "step": 30
     },
     {
+      "epoch": 0.32,
+      "learning_rate": 0.00018387096774193548,
+      "loss": 0.9326,
       "step": 40
     },
     {
+      "epoch": 0.4,
+      "learning_rate": 0.00017983870967741935,
+      "loss": 0.9827,
       "step": 50
     },
     {
+      "epoch": 0.4,
+      "eval_accuracy": 0.5181818181818182,
+      "eval_loss": 0.9343744516372681,
+      "eval_runtime": 7.6495,
+      "eval_samples_per_second": 28.76,
+      "eval_steps_per_second": 3.66,
+      "step": 50
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00017580645161290325,
+      "loss": 0.91,
       "step": 60
     },
     {
+      "epoch": 0.56,
+      "learning_rate": 0.00017177419354838711,
+      "loss": 0.8578,
       "step": 70
     },
     {
+      "epoch": 0.6,
+      "eval_accuracy": 0.6181818181818182,
+      "eval_loss": 0.8342534899711609,
+      "eval_runtime": 7.5132,
+      "eval_samples_per_second": 29.282,
+      "eval_steps_per_second": 3.727,
+      "step": 75
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00016774193548387098,
+      "loss": 0.9354,
       "step": 80
     },
     {
+      "epoch": 0.73,
+      "learning_rate": 0.00016370967741935485,
+      "loss": 0.8993,
       "step": 90
     },
     {
+      "epoch": 0.81,
+      "learning_rate": 0.00015967741935483872,
+      "loss": 0.9373,
       "step": 100
     },
     {
+      "epoch": 0.81,
+      "eval_accuracy": 0.5909090909090909,
+      "eval_loss": 0.8896223306655884,
+      "eval_runtime": 8.4017,
+      "eval_samples_per_second": 26.185,
+      "eval_steps_per_second": 3.333,
       "step": 100
     },
     {
+      "epoch": 0.89,
+      "learning_rate": 0.0001556451612903226,
+      "loss": 0.8373,
       "step": 110
     },
     {
+      "epoch": 0.97,
+      "learning_rate": 0.00015161290322580646,
+      "loss": 0.7462,
       "step": 120
     },
     {
+      "epoch": 1.01,
+      "eval_accuracy": 0.6363636363636364,
+      "eval_loss": 0.7968847155570984,
+      "eval_runtime": 7.5692,
+      "eval_samples_per_second": 29.065,
+      "eval_steps_per_second": 3.699,
+      "step": 125
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.00014758064516129032,
+      "loss": 0.8443,
       "step": 130
     },
     {
+      "epoch": 1.13,
+      "learning_rate": 0.00014354838709677422,
+      "loss": 0.5794,
       "step": 140
     },
     {
+      "epoch": 1.21,
+      "learning_rate": 0.0001395161290322581,
+      "loss": 0.6953,
       "step": 150
     },
     {
+      "epoch": 1.21,
+      "eval_accuracy": 0.6363636363636364,
+      "eval_loss": 0.8157215714454651,
+      "eval_runtime": 7.5224,
+      "eval_samples_per_second": 29.246,
+      "eval_steps_per_second": 3.722,
+      "step": 150
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.00013548387096774193,
+      "loss": 0.6258,
       "step": 160
     },
     {
+      "epoch": 1.37,
+      "learning_rate": 0.0001314516129032258,
+      "loss": 0.5461,
       "step": 170
     },
     {
+      "epoch": 1.41,
+      "eval_accuracy": 0.6772727272727272,
+      "eval_loss": 0.7634429931640625,
+      "eval_runtime": 7.4134,
+      "eval_samples_per_second": 29.676,
+      "eval_steps_per_second": 3.777,
+      "step": 175
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.0001274193548387097,
+      "loss": 0.6182,
       "step": 180
     },
     {
+      "epoch": 1.53,
+      "learning_rate": 0.00012338709677419356,
+      "loss": 0.6352,
       "step": 190
     },
     {
+      "epoch": 1.61,
+      "learning_rate": 0.00011935483870967743,
+      "loss": 0.6445,
       "step": 200
     },
     {
+      "epoch": 1.61,
+      "eval_accuracy": 0.6545454545454545,
+      "eval_loss": 0.7743316888809204,
+      "eval_runtime": 7.6503,
+      "eval_samples_per_second": 28.757,
+      "eval_steps_per_second": 3.66,
       "step": 200
     },
     {
+      "epoch": 1.69,
+      "learning_rate": 0.00011532258064516131,
+      "loss": 0.5757,
       "step": 210
     },
     {
+      "epoch": 1.77,
+      "learning_rate": 0.00011129032258064515,
+      "loss": 0.5437,
       "step": 220
     },
     {
+      "epoch": 1.81,
+      "eval_accuracy": 0.65,
+      "eval_loss": 0.7716971635818481,
+      "eval_runtime": 7.5883,
+      "eval_samples_per_second": 28.992,
+      "eval_steps_per_second": 3.69,
+      "step": 225
+    },
+    {
+      "epoch": 1.85,
+      "learning_rate": 0.00010725806451612903,
+      "loss": 0.4878,
       "step": 230
     },
     {
+      "epoch": 1.94,
+      "learning_rate": 0.0001032258064516129,
+      "loss": 0.5527,
       "step": 240
     },
     {
+      "epoch": 2.02,
+      "learning_rate": 9.919354838709678e-05,
+      "loss": 0.5911,
       "step": 250
     },
     {
+      "epoch": 2.02,
+      "eval_accuracy": 0.6363636363636364,
+      "eval_loss": 0.8338578939437866,
+      "eval_runtime": 8.4178,
+      "eval_samples_per_second": 26.135,
+      "eval_steps_per_second": 3.326,
+      "step": 250
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 9.516129032258065e-05,
+      "loss": 0.3191,
       "step": 260
     },
     {
+      "epoch": 2.18,
+      "learning_rate": 9.112903225806452e-05,
+      "loss": 0.2483,
       "step": 270
     },
     {
+      "epoch": 2.22,
+      "eval_accuracy": 0.6318181818181818,
+      "eval_loss": 0.8596317768096924,
+      "eval_runtime": 7.3913,
+      "eval_samples_per_second": 29.765,
+      "eval_steps_per_second": 3.788,
+      "step": 275
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 8.709677419354839e-05,
+      "loss": 0.3026,
       "step": 280
     },
     {
+      "epoch": 2.34,
+      "learning_rate": 8.306451612903227e-05,
+      "loss": 0.229,
       "step": 290
     },
     {
+      "epoch": 2.42,
+      "learning_rate": 7.903225806451613e-05,
+      "loss": 0.378,
       "step": 300
     },
     {
+      "epoch": 2.42,
+      "eval_accuracy": 0.6181818181818182,
+      "eval_loss": 0.9896994829177856,
+      "eval_runtime": 7.5826,
+      "eval_samples_per_second": 29.014,
+      "eval_steps_per_second": 3.693,
       "step": 300
     },
     {
+      "epoch": 2.5,
+      "learning_rate": 7.500000000000001e-05,
+      "loss": 0.2432,
       "step": 310
     },
     {
+      "epoch": 2.58,
+      "learning_rate": 7.096774193548388e-05,
+      "loss": 0.2742,
       "step": 320
     },
     {
+      "epoch": 2.62,
+      "eval_accuracy": 0.6909090909090909,
+      "eval_loss": 0.8965399861335754,
+      "eval_runtime": 7.3219,
+      "eval_samples_per_second": 30.047,
+      "eval_steps_per_second": 3.824,
+      "step": 325
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 6.693548387096774e-05,
+      "loss": 0.1942,
       "step": 330
     },
     {
+      "epoch": 2.74,
+      "learning_rate": 6.290322580645161e-05,
+      "loss": 0.179,
       "step": 340
     },
     {
+      "epoch": 2.82,
+      "learning_rate": 5.887096774193549e-05,
+      "loss": 0.1898,
+      "step": 350
+    },
+    {
+      "epoch": 2.82,
+      "eval_accuracy": 0.6681818181818182,
+      "eval_loss": 1.026204228401184,
+      "eval_runtime": 7.7003,
+      "eval_samples_per_second": 28.57,
+      "eval_steps_per_second": 3.636,
       "step": 350
     },
     {
+      "epoch": 2.9,
+      "learning_rate": 5.4838709677419355e-05,
+      "loss": 0.3122,
       "step": 360
     },
     {
+      "epoch": 2.98,
+      "learning_rate": 5.080645161290323e-05,
+      "loss": 0.2116,
       "step": 370
     },
     {
+      "epoch": 3.02,
+      "eval_accuracy": 0.6409090909090909,
+      "eval_loss": 1.1058470010757446,
+      "eval_runtime": 7.4881,
+      "eval_samples_per_second": 29.38,
+      "eval_steps_per_second": 3.739,
+      "step": 375
+    },
+    {
+      "epoch": 3.06,
+      "learning_rate": 4.67741935483871e-05,
+      "loss": 0.2225,
       "step": 380
     },
     {
+      "epoch": 3.15,
+      "learning_rate": 4.2741935483870973e-05,
+      "loss": 0.076,
       "step": 390
     },
     {
+      "epoch": 3.23,
+      "learning_rate": 3.870967741935484e-05,
+      "loss": 0.0702,
       "step": 400
     },
     {
+      "epoch": 3.23,
+      "eval_accuracy": 0.6545454545454545,
+      "eval_loss": 1.0472766160964966,
+      "eval_runtime": 7.6075,
+      "eval_samples_per_second": 28.919,
+      "eval_steps_per_second": 3.681,
       "step": 400
     },
     {
+      "epoch": 3.31,
+      "learning_rate": 3.467741935483872e-05,
+      "loss": 0.0637,
       "step": 410
     },
     {
+      "epoch": 3.39,
+      "learning_rate": 3.0645161290322585e-05,
+      "loss": 0.0566,
       "step": 420
     },
     {
+      "epoch": 3.43,
+      "eval_accuracy": 0.6681818181818182,
+      "eval_loss": 1.0961891412734985,
+      "eval_runtime": 8.2248,
+      "eval_samples_per_second": 26.748,
+      "eval_steps_per_second": 3.404,
+      "step": 425
+    },
+    {
+      "epoch": 3.47,
+      "learning_rate": 2.661290322580645e-05,
+      "loss": 0.0421,
       "step": 430
     },
     {
+      "epoch": 3.55,
+      "learning_rate": 2.258064516129032e-05,
+      "loss": 0.1011,
       "step": 440
     },
     {
+      "epoch": 3.63,
+      "learning_rate": 1.8951612903225807e-05,
+      "loss": 0.0775,
+      "step": 450
+    },
+    {
+      "epoch": 3.63,
+      "eval_accuracy": 0.65,
+      "eval_loss": 1.1501661539077759,
+      "eval_runtime": 7.3146,
+      "eval_samples_per_second": 30.077,
+      "eval_steps_per_second": 3.828,
       "step": 450
     },
     {
+      "epoch": 3.71,
+      "learning_rate": 1.4919354838709679e-05,
+      "loss": 0.0519,
+      "step": 460
+    },
+    {
+      "epoch": 3.79,
+      "learning_rate": 1.0887096774193549e-05,
+      "loss": 0.0485,
+      "step": 470
+    },
+    {
+      "epoch": 3.83,
+      "eval_accuracy": 0.6454545454545455,
+      "eval_loss": 1.1838457584381104,
+      "eval_runtime": 7.191,
+      "eval_samples_per_second": 30.594,
+      "eval_steps_per_second": 3.894,
+      "step": 475
+    },
+    {
+      "epoch": 3.87,
+      "learning_rate": 6.854838709677419e-06,
+      "loss": 0.0686,
+      "step": 480
+    },
+    {
+      "epoch": 3.95,
+      "learning_rate": 2.82258064516129e-06,
+      "loss": 0.0616,
+      "step": 490
+    },
+    {
+      "epoch": 4.0,
+      "step": 496,
+      "total_flos": 6.137420584742093e+17,
+      "train_loss": 0.4632607804190728,
+      "train_runtime": 749.353,
+      "train_samples_per_second": 10.569,
+      "train_steps_per_second": 0.662
     }
   ],
+  "max_steps": 496,
+  "num_train_epochs": 4,
+  "total_flos": 6.137420584742093e+17,
   "trial_name": null,
   "trial_params": null
 }