Training in progress, epoch 1

Browse files

Files changed (8) hide show

all_results.json +11 -11
eval_results.json +6 -6
model.safetensors +1 -1
runs/Nov18_12-36-05_fac6bf2076b2/events.out.tfevents.1731936395.fac6bf2076b2.31.2 +3 -0
runs/Nov18_13-26-46_fac6bf2076b2/events.out.tfevents.1731936413.fac6bf2076b2.31.3 +3 -0
train_results.json +6 -6
trainer_state.json +376 -263
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
-    "epoch": 26.666666666666668,
-    "eval_accuracy": 0.8709677419354839,
-    "eval_loss": 0.39681780338287354,
-    "eval_runtime": 5.4761,
-    "eval_samples_per_second": 5.661,
-    "eval_steps_per_second": 0.183,
-    "total_flos": 3.811843351809884e+17,
-    "train_loss": 0.6624618768692017,
-    "train_runtime": 3041.8152,
-    "train_samples_per_second": 5.671,
-    "train_steps_per_second": 0.02
 }

 {
+    "epoch": 10.0,
+    "eval_accuracy": 0.8257839721254355,
+    "eval_loss": 0.4613528847694397,
+    "eval_runtime": 5.98,
+    "eval_samples_per_second": 143.98,
+    "eval_steps_per_second": 2.341,
+    "total_flos": 4.064614037073838e+18,
+    "train_loss": 0.8882290616631507,
+    "train_runtime": 1944.8842,
+    "train_samples_per_second": 84.062,
+    "train_steps_per_second": 0.329
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 26.666666666666668,
-    "eval_accuracy": 0.8709677419354839,
-    "eval_loss": 0.39681780338287354,
-    "eval_runtime": 5.4761,
-    "eval_samples_per_second": 5.661,
-    "eval_steps_per_second": 0.183
 }

 {
+    "epoch": 10.0,
+    "eval_accuracy": 0.8257839721254355,
+    "eval_loss": 0.4613528847694397,
+    "eval_runtime": 5.98,
+    "eval_samples_per_second": 143.98,
+    "eval_steps_per_second": 2.341
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:40e356463ace1b530cc5958dab5e98777750902d65fc59d145a092749fab1bca
 size 110367448

 version https://git-lfs.github.com/spec/v1
+oid sha256:9816ed93b4eec04bf23e2baa39a074364eb3de0c2e6133c698f1a52544d9b6f7
 size 110367448

runs/Nov18_12-36-05_fac6bf2076b2/events.out.tfevents.1731936395.fac6bf2076b2.31.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:654bcb90f6650830fd65aa4a2217c94bbb71c57e2dd1c5d3c90a646e94a1dd88
+size 411

runs/Nov18_13-26-46_fac6bf2076b2/events.out.tfevents.1731936413.fac6bf2076b2.31.3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4915d5ee1f7f08b36ecd656375c4e53252763f404642e3c3cb96d9406f3ee4b4
+size 7157

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 26.666666666666668,
-    "total_flos": 3.811843351809884e+17,
-    "train_loss": 0.6624618768692017,
-    "train_runtime": 3041.8152,
-    "train_samples_per_second": 5.671,
-    "train_steps_per_second": 0.02
 }

 {
+    "epoch": 10.0,
+    "total_flos": 4.064614037073838e+18,
+    "train_loss": 0.8882290616631507,
+    "train_runtime": 1944.8842,
+    "train_samples_per_second": 84.062,
+    "train_steps_per_second": 0.329
 }

trainer_state.json CHANGED Viewed

@@ -1,298 +1,411 @@
 {
-  "best_metric": 0.8709677419354839,
-  "best_model_checkpoint": "swin-tiny-patch4-window7-224-finetuned-mobile-eye-tracking-dataset-v2/checkpoint-45",
-  "epoch": 26.666666666666668,
   "eval_steps": 500,
-  "global_step": 60,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.8888888888888888,
-      "eval_accuracy": 0.22580645161290322,
-      "eval_loss": 1.775622844696045,
-      "eval_runtime": 7.2696,
-      "eval_samples_per_second": 4.264,
-      "eval_steps_per_second": 0.138,
-      "step": 2
     },
     {
-      "epoch": 1.7777777777777777,
-      "eval_accuracy": 0.25806451612903225,
-      "eval_loss": 1.6783900260925293,
-      "eval_runtime": 5.963,
-      "eval_samples_per_second": 5.199,
-      "eval_steps_per_second": 0.168,
-      "step": 4
     },
     {
-      "epoch": 2.6666666666666665,
-      "eval_accuracy": 0.3225806451612903,
-      "eval_loss": 1.5861129760742188,
-      "eval_runtime": 5.4576,
-      "eval_samples_per_second": 5.68,
-      "eval_steps_per_second": 0.183,
-      "step": 6
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.41935483870967744,
-      "eval_loss": 1.3571434020996094,
-      "eval_runtime": 5.4352,
-      "eval_samples_per_second": 5.704,
-      "eval_steps_per_second": 0.184,
-      "step": 9
-    },
-    {
-      "epoch": 4.888888888888889,
-      "eval_accuracy": 0.5483870967741935,
-      "eval_loss": 1.099271535873413,
-      "eval_runtime": 5.4311,
-      "eval_samples_per_second": 5.708,
-      "eval_steps_per_second": 0.184,
-      "step": 11
-    },
-    {
-      "epoch": 5.777777777777778,
-      "eval_accuracy": 0.6451612903225806,
-      "eval_loss": 0.9241538047790527,
-      "eval_runtime": 5.4175,
-      "eval_samples_per_second": 5.722,
-      "eval_steps_per_second": 0.185,
-      "step": 13
-    },
-    {
-      "epoch": 6.666666666666667,
-      "grad_norm": 4.35577917098999,
-      "learning_rate": 4.166666666666667e-05,
-      "loss": 1.4667,
-      "step": 15
     },
     {
-      "epoch": 6.666666666666667,
-      "eval_accuracy": 0.7096774193548387,
-      "eval_loss": 0.7538339495658875,
-      "eval_runtime": 5.4027,
-      "eval_samples_per_second": 5.738,
-      "eval_steps_per_second": 0.185,
-      "step": 15
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.7741935483870968,
-      "eval_loss": 0.6294359564781189,
-      "eval_runtime": 5.4179,
-      "eval_samples_per_second": 5.722,
-      "eval_steps_per_second": 0.185,
-      "step": 18
-    },
-    {
-      "epoch": 8.88888888888889,
-      "eval_accuracy": 0.7096774193548387,
-      "eval_loss": 0.5325695872306824,
-      "eval_runtime": 5.4264,
-      "eval_samples_per_second": 5.713,
-      "eval_steps_per_second": 0.184,
-      "step": 20
-    },
-    {
-      "epoch": 9.777777777777779,
-      "eval_accuracy": 0.7419354838709677,
-      "eval_loss": 0.48480212688446045,
-      "eval_runtime": 5.432,
-      "eval_samples_per_second": 5.707,
-      "eval_steps_per_second": 0.184,
-      "step": 22
-    },
-    {
-      "epoch": 10.666666666666666,
-      "eval_accuracy": 0.7741935483870968,
-      "eval_loss": 0.4832201302051544,
-      "eval_runtime": 5.482,
-      "eval_samples_per_second": 5.655,
-      "eval_steps_per_second": 0.182,
-      "step": 24
-    },
-    {
-      "epoch": 12.0,
-      "eval_accuracy": 0.7741935483870968,
-      "eval_loss": 0.44829437136650085,
-      "eval_runtime": 5.3703,
-      "eval_samples_per_second": 5.772,
-      "eval_steps_per_second": 0.186,
-      "step": 27
-    },
-    {
-      "epoch": 12.88888888888889,
-      "eval_accuracy": 0.7741935483870968,
-      "eval_loss": 0.4296128451824188,
-      "eval_runtime": 5.4565,
-      "eval_samples_per_second": 5.681,
-      "eval_steps_per_second": 0.183,
-      "step": 29
-    },
-    {
-      "epoch": 13.333333333333334,
-      "grad_norm": 5.256907939910889,
-      "learning_rate": 2.777777777777778e-05,
-      "loss": 0.5925,
-      "step": 30
     },
     {
-      "epoch": 13.777777777777779,
-      "eval_accuracy": 0.7741935483870968,
-      "eval_loss": 0.40228280425071716,
-      "eval_runtime": 5.3947,
-      "eval_samples_per_second": 5.746,
-      "eval_steps_per_second": 0.185,
-      "step": 31
-    },
-    {
-      "epoch": 14.666666666666666,
-      "eval_accuracy": 0.8387096774193549,
-      "eval_loss": 0.4110867977142334,
-      "eval_runtime": 5.4946,
-      "eval_samples_per_second": 5.642,
-      "eval_steps_per_second": 0.182,
-      "step": 33
-    },
-    {
-      "epoch": 16.0,
-      "eval_accuracy": 0.8064516129032258,
-      "eval_loss": 0.387315571308136,
-      "eval_runtime": 5.4222,
-      "eval_samples_per_second": 5.717,
-      "eval_steps_per_second": 0.184,
-      "step": 36
-    },
-    {
-      "epoch": 16.88888888888889,
-      "eval_accuracy": 0.8064516129032258,
-      "eval_loss": 0.4028545618057251,
-      "eval_runtime": 5.4659,
-      "eval_samples_per_second": 5.672,
-      "eval_steps_per_second": 0.183,
-      "step": 38
-    },
-    {
-      "epoch": 17.77777777777778,
-      "eval_accuracy": 0.8064516129032258,
-      "eval_loss": 0.4065493047237396,
-      "eval_runtime": 5.394,
-      "eval_samples_per_second": 5.747,
-      "eval_steps_per_second": 0.185,
-      "step": 40
-    },
-    {
-      "epoch": 18.666666666666668,
-      "eval_accuracy": 0.8064516129032258,
-      "eval_loss": 0.38641268014907837,
-      "eval_runtime": 5.4499,
-      "eval_samples_per_second": 5.688,
-      "eval_steps_per_second": 0.183,
-      "step": 42
-    },
-    {
-      "epoch": 20.0,
-      "grad_norm": 5.7712812423706055,
-      "learning_rate": 1.388888888888889e-05,
-      "loss": 0.3285,
-      "step": 45
     },
     {
-      "epoch": 20.0,
-      "eval_accuracy": 0.8709677419354839,
-      "eval_loss": 0.39681780338287354,
-      "eval_runtime": 5.3981,
-      "eval_samples_per_second": 5.743,
-      "eval_steps_per_second": 0.185,
-      "step": 45
     },
     {
-      "epoch": 20.88888888888889,
-      "eval_accuracy": 0.8709677419354839,
-      "eval_loss": 0.3929939270019531,
-      "eval_runtime": 5.3507,
-      "eval_samples_per_second": 5.794,
-      "eval_steps_per_second": 0.187,
-      "step": 47
-    },
-    {
-      "epoch": 21.77777777777778,
-      "eval_accuracy": 0.8709677419354839,
-      "eval_loss": 0.3871462643146515,
-      "eval_runtime": 5.3376,
-      "eval_samples_per_second": 5.808,
-      "eval_steps_per_second": 0.187,
-      "step": 49
-    },
-    {
-      "epoch": 22.666666666666668,
-      "eval_accuracy": 0.8064516129032258,
-      "eval_loss": 0.3779211640357971,
-      "eval_runtime": 5.365,
-      "eval_samples_per_second": 5.778,
-      "eval_steps_per_second": 0.186,
-      "step": 51
-    },
-    {
-      "epoch": 24.0,
-      "eval_accuracy": 0.8064516129032258,
-      "eval_loss": 0.36982351541519165,
-      "eval_runtime": 5.3833,
-      "eval_samples_per_second": 5.759,
-      "eval_steps_per_second": 0.186,
-      "step": 54
-    },
-    {
-      "epoch": 24.88888888888889,
-      "eval_accuracy": 0.8387096774193549,
-      "eval_loss": 0.37262630462646484,
-      "eval_runtime": 5.3782,
-      "eval_samples_per_second": 5.764,
-      "eval_steps_per_second": 0.186,
-      "step": 56
-    },
-    {
-      "epoch": 25.77777777777778,
-      "eval_accuracy": 0.8387096774193549,
-      "eval_loss": 0.3732232451438904,
-      "eval_runtime": 5.4396,
-      "eval_samples_per_second": 5.699,
-      "eval_steps_per_second": 0.184,
-      "step": 58
-    },
-    {
-      "epoch": 26.666666666666668,
-      "grad_norm": 3.0856940746307373,
-      "learning_rate": 0.0,
-      "loss": 0.2621,
-      "step": 60
     },
     {
-      "epoch": 26.666666666666668,
-      "eval_accuracy": 0.8387096774193549,
-      "eval_loss": 0.3731651306152344,
-      "eval_runtime": 6.0663,
-      "eval_samples_per_second": 5.11,
-      "eval_steps_per_second": 0.165,
-      "step": 60
     },
     {
-      "epoch": 26.666666666666668,
-      "step": 60,
-      "total_flos": 3.811843351809884e+17,
-      "train_loss": 0.6624618768692017,
-      "train_runtime": 3041.8152,
-      "train_samples_per_second": 5.671,
-      "train_steps_per_second": 0.02
     }
   ],
   "logging_steps": 15,
-  "max_steps": 60,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 30,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -306,7 +419,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.811843351809884e+17,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.8257839721254355,
+  "best_model_checkpoint": "swin-tiny-patch4-window7-224-finetuned-mobile-eye-tracking-dataset-v2/checkpoint-640",
+  "epoch": 10.0,
   "eval_steps": 500,
+  "global_step": 640,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.234375,
+      "grad_norm": 5.875625133514404,
+      "learning_rate": 2.3437500000000002e-06,
+      "loss": 2.3858,
+      "step": 15
+    },
+    {
+      "epoch": 0.46875,
+      "grad_norm": 4.278784275054932,
+      "learning_rate": 4.6875000000000004e-06,
+      "loss": 2.2837,
+      "step": 30
+    },
+    {
+      "epoch": 0.703125,
+      "grad_norm": 4.786104679107666,
+      "learning_rate": 7.031250000000001e-06,
+      "loss": 2.1191,
+      "step": 45
+    },
+    {
+      "epoch": 0.9375,
+      "grad_norm": 4.474501132965088,
+      "learning_rate": 9.375000000000001e-06,
+      "loss": 1.8826,
+      "step": 60
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.46689895470383275,
+      "eval_loss": 1.5673099756240845,
+      "eval_runtime": 9.0893,
+      "eval_samples_per_second": 94.727,
+      "eval_steps_per_second": 1.54,
+      "step": 64
+    },
+    {
+      "epoch": 1.171875,
+      "grad_norm": 4.6485514640808105,
+      "learning_rate": 9.80902777777778e-06,
+      "loss": 1.596,
+      "step": 75
+    },
+    {
+      "epoch": 1.40625,
+      "grad_norm": 5.915872573852539,
+      "learning_rate": 9.548611111111113e-06,
+      "loss": 1.3478,
+      "step": 90
+    },
+    {
+      "epoch": 1.640625,
+      "grad_norm": 11.166051864624023,
+      "learning_rate": 9.288194444444444e-06,
+      "loss": 1.1995,
+      "step": 105
+    },
+    {
+      "epoch": 1.875,
+      "grad_norm": 8.33702564239502,
+      "learning_rate": 9.027777777777779e-06,
+      "loss": 1.1123,
+      "step": 120
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7154471544715447,
+      "eval_loss": 0.9031155705451965,
+      "eval_runtime": 6.0626,
+      "eval_samples_per_second": 142.018,
+      "eval_steps_per_second": 2.309,
+      "step": 128
+    },
+    {
+      "epoch": 2.109375,
+      "grad_norm": 9.904069900512695,
+      "learning_rate": 8.767361111111112e-06,
+      "loss": 1.0379,
+      "step": 135
     },
     {
+      "epoch": 2.34375,
+      "grad_norm": 6.573493957519531,
+      "learning_rate": 8.506944444444445e-06,
+      "loss": 0.9758,
+      "step": 150
     },
     {
+      "epoch": 2.578125,
+      "grad_norm": 7.493569374084473,
+      "learning_rate": 8.246527777777779e-06,
+      "loss": 0.9458,
+      "step": 165
+    },
+    {
+      "epoch": 2.8125,
+      "grad_norm": 8.070711135864258,
+      "learning_rate": 7.986111111111112e-06,
+      "loss": 0.8883,
+      "step": 180
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.7572590011614402,
+      "eval_loss": 0.7254553437232971,
+      "eval_runtime": 5.0,
+      "eval_samples_per_second": 172.198,
+      "eval_steps_per_second": 2.8,
+      "step": 192
+    },
+    {
+      "epoch": 3.046875,
+      "grad_norm": 6.530824661254883,
+      "learning_rate": 7.725694444444445e-06,
+      "loss": 0.8797,
+      "step": 195
+    },
+    {
+      "epoch": 3.28125,
+      "grad_norm": 4.865982532501221,
+      "learning_rate": 7.465277777777778e-06,
+      "loss": 0.8543,
+      "step": 210
+    },
+    {
+      "epoch": 3.515625,
+      "grad_norm": 8.852520942687988,
+      "learning_rate": 7.204861111111112e-06,
+      "loss": 0.8026,
+      "step": 225
+    },
+    {
+      "epoch": 3.75,
+      "grad_norm": 10.359617233276367,
+      "learning_rate": 6.944444444444445e-06,
+      "loss": 0.7792,
+      "step": 240
+    },
+    {
+      "epoch": 3.984375,
+      "grad_norm": 8.156173706054688,
+      "learning_rate": 6.684027777777779e-06,
+      "loss": 0.7778,
+      "step": 255
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.7793263646922184,
+      "eval_loss": 0.621900737285614,
+      "eval_runtime": 4.9966,
+      "eval_samples_per_second": 172.316,
+      "eval_steps_per_second": 2.802,
+      "step": 256
     },
     {
+      "epoch": 4.21875,
+      "grad_norm": 7.673396587371826,
+      "learning_rate": 6.423611111111112e-06,
+      "loss": 0.7533,
+      "step": 270
+    },
+    {
+      "epoch": 4.453125,
+      "grad_norm": 7.9218645095825195,
+      "learning_rate": 6.163194444444444e-06,
+      "loss": 0.7165,
+      "step": 285
+    },
+    {
+      "epoch": 4.6875,
+      "grad_norm": 5.629858493804932,
+      "learning_rate": 5.9027777777777785e-06,
+      "loss": 0.7092,
+      "step": 300
+    },
+    {
+      "epoch": 4.921875,
+      "grad_norm": 9.611222267150879,
+      "learning_rate": 5.642361111111112e-06,
+      "loss": 0.708,
+      "step": 315
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.8002322880371661,
+      "eval_loss": 0.5520657896995544,
+      "eval_runtime": 4.9527,
+      "eval_samples_per_second": 173.845,
+      "eval_steps_per_second": 2.827,
+      "step": 320
+    },
+    {
+      "epoch": 5.15625,
+      "grad_norm": 8.07551383972168,
+      "learning_rate": 5.381944444444445e-06,
+      "loss": 0.6842,
+      "step": 330
+    },
+    {
+      "epoch": 5.390625,
+      "grad_norm": 7.263919830322266,
+      "learning_rate": 5.121527777777778e-06,
+      "loss": 0.6724,
+      "step": 345
+    },
+    {
+      "epoch": 5.625,
+      "grad_norm": 6.807614326477051,
+      "learning_rate": 4.861111111111111e-06,
+      "loss": 0.6703,
+      "step": 360
+    },
+    {
+      "epoch": 5.859375,
+      "grad_norm": 6.808135509490967,
+      "learning_rate": 4.6006944444444446e-06,
+      "loss": 0.6308,
+      "step": 375
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.8130081300813008,
+      "eval_loss": 0.5193033218383789,
+      "eval_runtime": 5.1321,
+      "eval_samples_per_second": 167.766,
+      "eval_steps_per_second": 2.728,
+      "step": 384
+    },
+    {
+      "epoch": 6.09375,
+      "grad_norm": 6.225130081176758,
+      "learning_rate": 4.340277777777779e-06,
+      "loss": 0.6442,
+      "step": 390
+    },
+    {
+      "epoch": 6.328125,
+      "grad_norm": 9.285326957702637,
+      "learning_rate": 4.079861111111111e-06,
+      "loss": 0.6139,
+      "step": 405
+    },
+    {
+      "epoch": 6.5625,
+      "grad_norm": 7.4434356689453125,
+      "learning_rate": 3.819444444444444e-06,
+      "loss": 0.6164,
+      "step": 420
+    },
+    {
+      "epoch": 6.796875,
+      "grad_norm": 7.437946796417236,
+      "learning_rate": 3.5590277777777783e-06,
+      "loss": 0.6142,
+      "step": 435
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.8234610917537747,
+      "eval_loss": 0.4853927195072174,
+      "eval_runtime": 5.3739,
+      "eval_samples_per_second": 160.219,
+      "eval_steps_per_second": 2.605,
+      "step": 448
+    },
+    {
+      "epoch": 7.03125,
+      "grad_norm": 8.036016464233398,
+      "learning_rate": 3.2986111111111115e-06,
+      "loss": 0.6178,
+      "step": 450
+    },
+    {
+      "epoch": 7.265625,
+      "grad_norm": 6.326539039611816,
+      "learning_rate": 3.0381944444444443e-06,
+      "loss": 0.6076,
+      "step": 465
+    },
+    {
+      "epoch": 7.5,
+      "grad_norm": 6.9872236251831055,
+      "learning_rate": 2.7777777777777783e-06,
+      "loss": 0.5688,
+      "step": 480
+    },
+    {
+      "epoch": 7.734375,
+      "grad_norm": 7.621065139770508,
+      "learning_rate": 2.517361111111111e-06,
+      "loss": 0.6034,
+      "step": 495
+    },
+    {
+      "epoch": 7.96875,
+      "grad_norm": 7.739367485046387,
+      "learning_rate": 2.2569444444444448e-06,
+      "loss": 0.5817,
+      "step": 510
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.8199767711962834,
+      "eval_loss": 0.472567081451416,
+      "eval_runtime": 5.1622,
+      "eval_samples_per_second": 166.788,
+      "eval_steps_per_second": 2.712,
+      "step": 512
     },
     {
+      "epoch": 8.203125,
+      "grad_norm": 7.276366710662842,
+      "learning_rate": 1.996527777777778e-06,
+      "loss": 0.5682,
+      "step": 525
     },
     {
+      "epoch": 8.4375,
+      "grad_norm": 9.095114707946777,
+      "learning_rate": 1.7361111111111112e-06,
+      "loss": 0.5797,
+      "step": 540
     },
     {
+      "epoch": 8.671875,
+      "grad_norm": 7.369579792022705,
+      "learning_rate": 1.4756944444444446e-06,
+      "loss": 0.5732,
+      "step": 555
     },
     {
+      "epoch": 8.90625,
+      "grad_norm": 6.826248645782471,
+      "learning_rate": 1.2152777777777778e-06,
+      "loss": 0.5952,
+      "step": 570
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.8211382113821138,
+      "eval_loss": 0.46478894352912903,
+      "eval_runtime": 5.0463,
+      "eval_samples_per_second": 170.621,
+      "eval_steps_per_second": 2.774,
+      "step": 576
+    },
+    {
+      "epoch": 9.140625,
+      "grad_norm": 12.532827377319336,
+      "learning_rate": 9.54861111111111e-07,
+      "loss": 0.5849,
+      "step": 585
+    },
+    {
+      "epoch": 9.375,
+      "grad_norm": 8.84656047821045,
+      "learning_rate": 6.944444444444446e-07,
+      "loss": 0.583,
+      "step": 600
+    },
+    {
+      "epoch": 9.609375,
+      "grad_norm": 9.143095970153809,
+      "learning_rate": 4.340277777777778e-07,
+      "loss": 0.5599,
+      "step": 615
+    },
+    {
+      "epoch": 9.84375,
+      "grad_norm": 7.61570930480957,
+      "learning_rate": 1.7361111111111115e-07,
+      "loss": 0.5915,
+      "step": 630
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.8257839721254355,
+      "eval_loss": 0.4613528847694397,
+      "eval_runtime": 5.2149,
+      "eval_samples_per_second": 165.103,
+      "eval_steps_per_second": 2.685,
+      "step": 640
     },
     {
+      "epoch": 10.0,
+      "step": 640,
+      "total_flos": 4.064614037073838e+18,
+      "train_loss": 0.8882290616631507,
+      "train_runtime": 1944.8842,
+      "train_samples_per_second": 84.062,
+      "train_steps_per_second": 0.329
     }
   ],
   "logging_steps": 15,
+  "max_steps": 640,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 4.064614037073838e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cbb0109880a2498c03f2d417f14abb40ba113e6fea09d08d99c53204fcd580aa
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:e757de8f4fdb59c52b6ad3219481d0b6bb84b344ae9ca28d91a978cac817f0ea
 size 5304