End of training

Browse files

Files changed (6) hide show

README.md +15 -15
all_results.json +14 -14
config.json +1 -0
eval_results.json +9 -9
train_results.json +6 -6
trainer_state.json +873 -399

README.md CHANGED Viewed

@@ -6,10 +6,10 @@ tags:
 datasets:
 - imagefolder
 metrics:
-- accuracy
-- f1
 - precision
 - recall
 model-index:
 - name: resnet-50-finetuned-FBark
   results:
@@ -23,18 +23,18 @@ model-index:
       split: train
       args: default
     metrics:
-    - name: Accuracy
-      type: accuracy
-      value: 0.9906542056074766
-    - name: F1
-      type: f1
-      value: 0.9922719141323793
     - name: Precision
       type: precision
-      value: 0.990909090909091
     - name: Recall
       type: recall
-      value: 0.9939393939393939
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -44,11 +44,11 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [microsoft/resnet-50](https://huggingface.co/microsoft/resnet-50) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Accuracy: 0.9907
-- F1: 0.9923
-- Loss: 0.0579
-- Precision: 0.9909
-- Recall: 0.9939
 ## Model description

 datasets:
 - imagefolder
 metrics:
 - precision
 - recall
+- f1
+- accuracy
 model-index:
 - name: resnet-50-finetuned-FBark
   results:
       split: train
       args: default
     metrics:
     - name: Precision
       type: precision
+      value: 0.9699498746867168
     - name: Recall
       type: recall
+      value: 0.9778787878787879
+    - name: F1
+      type: f1
+      value: 0.9734665458141067
+    - name: Accuracy
+      type: accuracy
+      value: 0.9719626168224299
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 This model is a fine-tuned version of [microsoft/resnet-50](https://huggingface.co/microsoft/resnet-50) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.1079
+- Precision: 0.9699
+- Recall: 0.9779
+- F1: 0.9735
+- Accuracy: 0.9720
 ## Model description

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "epoch": 19.85,
-    "eval_accuracy": 0.9906542056074766,
-    "eval_f1": 0.9922719141323793,
-    "eval_loss": 0.07943902164697647,
-    "eval_precision": 0.990909090909091,
-    "eval_recall": 0.9939393939393939,
-    "eval_runtime": 36.1652,
-    "eval_samples_per_second": 2.959,
-    "eval_steps_per_second": 0.387,
-    "total_flos": 1.7791424076806554e+17,
-    "train_loss": 0.16752889706538274,
-    "train_runtime": 3044.6611,
-    "train_samples_per_second": 2.785,
-    "train_steps_per_second": 0.085
 }

 {
+    "epoch": 34.34,
+    "eval_accuracy": 0.9719626168224299,
+    "eval_f1": 0.9734665458141067,
+    "eval_loss": 0.10789879411458969,
+    "eval_precision": 0.9699498746867168,
+    "eval_recall": 0.9778787878787879,
+    "eval_runtime": 41.2024,
+    "eval_samples_per_second": 2.597,
+    "eval_steps_per_second": 0.34,
+    "total_flos": 3.0926830773436416e+17,
+    "train_loss": 0.0,
+    "train_runtime": 0.0155,
+    "train_samples_per_second": 955313.811,
+    "train_steps_per_second": 29290.282
 }

config.json CHANGED Viewed

@@ -42,6 +42,7 @@
   "out_indices": [
     4
   ],
   "stage_names": [
     "stem",
     "stage1",

   "out_indices": [
     4
   ],
+  "problem_type": "single_label_classification",
   "stage_names": [
     "stem",
     "stage1",

eval_results.json CHANGED Viewed

@@ -1,11 +1,11 @@
 {
-    "epoch": 19.85,
-    "eval_accuracy": 0.9906542056074766,
-    "eval_f1": 0.9922719141323793,
-    "eval_loss": 0.07943902164697647,
-    "eval_precision": 0.990909090909091,
-    "eval_recall": 0.9939393939393939,
-    "eval_runtime": 36.1652,
-    "eval_samples_per_second": 2.959,
-    "eval_steps_per_second": 0.387
 }

 {
+    "epoch": 34.34,
+    "eval_accuracy": 0.9719626168224299,
+    "eval_f1": 0.9734665458141067,
+    "eval_loss": 0.10789879411458969,
+    "eval_precision": 0.9699498746867168,
+    "eval_recall": 0.9778787878787879,
+    "eval_runtime": 41.2024,
+    "eval_samples_per_second": 2.597,
+    "eval_steps_per_second": 0.34
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 19.85,
-    "total_flos": 1.7791424076806554e+17,
-    "train_loss": 0.16752889706538274,
-    "train_runtime": 3044.6611,
-    "train_samples_per_second": 2.785,
-    "train_steps_per_second": 0.085
 }

 {
+    "epoch": 34.34,
+    "total_flos": 3.0926830773436416e+17,
+    "train_loss": 0.0,
+    "train_runtime": 0.0155,
+    "train_samples_per_second": 955313.811,
+    "train_steps_per_second": 29290.282
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.9906542056074766,
-  "best_model_checkpoint": "resnet-50-finetuned-FBark\\checkpoint-182",
-  "epoch": 19.849056603773583,
   "eval_steps": 500,
-  "global_step": 260,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11,639 +11,1113 @@
     {
       "epoch": 0.98,
       "step": 13,
-      "train_accuracy": 0.44339622641509435,
-      "train_f1": 0.30273443406045597,
-      "train_loss": 1.3222538232803345,
-      "train_precision": 0.4409161713465874,
-      "train_recall": 0.40814882032667876,
-      "train_runtime": 131.484,
-      "train_samples_per_second": 3.225,
-      "train_steps_per_second": 0.403
     },
     {
       "epoch": 0.98,
-      "grad_norm": 2.9973506927490234,
-      "learning_rate": 2.9999999999999997e-05,
-      "loss": 1.4155,
       "step": 13
     },
     {
       "epoch": 0.98,
-      "eval_accuracy": 0.38317757009345793,
-      "eval_f1": 0.2502374169040836,
-      "eval_loss": 1.2673313617706299,
-      "eval_precision": 0.3522222222222222,
-      "eval_recall": 0.3991341991341991,
-      "eval_runtime": 47.8505,
-      "eval_samples_per_second": 2.236,
-      "eval_steps_per_second": 0.293,
       "step": 13
     },
     {
       "epoch": 1.96,
       "step": 26,
-      "train_accuracy": 0.5094339622641509,
-      "train_f1": 0.3768708281840832,
-      "train_loss": 1.2979044914245605,
-      "train_precision": 0.5660861330698287,
-      "train_recall": 0.4677431408134941,
-      "train_runtime": 148.3187,
-      "train_samples_per_second": 2.859,
-      "train_steps_per_second": 0.357
     },
     {
       "epoch": 1.96,
-      "grad_norm": 1.2892597913742065,
-      "learning_rate": 5.9999999999999995e-05,
-      "loss": 1.389,
       "step": 26
     },
     {
       "epoch": 1.96,
-      "eval_accuracy": 0.42990654205607476,
-      "eval_f1": 0.31675399012689665,
-      "eval_loss": 1.2493001222610474,
-      "eval_precision": 0.3496434937611408,
-      "eval_recall": 0.4454545454545455,
-      "eval_runtime": 46.5066,
-      "eval_samples_per_second": 2.301,
-      "eval_steps_per_second": 0.301,
       "step": 26
     },
     {
       "epoch": 2.94,
       "step": 39,
-      "train_accuracy": 0.4811320754716981,
-      "train_f1": 0.3565462103231007,
-      "train_loss": 1.2638133764266968,
-      "train_precision": 0.35321937321937324,
-      "train_recall": 0.44614604462474644,
-      "train_runtime": 133.803,
-      "train_samples_per_second": 3.169,
-      "train_steps_per_second": 0.396
     },
     {
       "epoch": 2.94,
-      "grad_norm": 1.521682620048523,
-      "learning_rate": 8.999999999999999e-05,
-      "loss": 1.3742,
       "step": 39
     },
     {
       "epoch": 2.94,
-      "eval_accuracy": 0.4392523364485981,
-      "eval_f1": 0.33554006968641115,
-      "eval_loss": 1.223555326461792,
-      "eval_precision": 0.3334061930783242,
-      "eval_recall": 0.4536796536796537,
-      "eval_runtime": 47.089,
-      "eval_samples_per_second": 2.272,
-      "eval_steps_per_second": 0.297,
       "step": 39
     },
     {
       "epoch": 4.0,
       "step": 53,
-      "train_accuracy": 0.5683962264150944,
-      "train_f1": 0.4573118754465906,
-      "train_loss": 1.220451831817627,
-      "train_precision": 0.6263221242541064,
-      "train_recall": 0.5256962525336195,
-      "train_runtime": 123.6293,
-      "train_samples_per_second": 3.43,
-      "train_steps_per_second": 0.429
     },
     {
       "epoch": 4.0,
-      "grad_norm": 1.533220648765564,
-      "learning_rate": 0.0001223076923076923,
-      "loss": 1.2592,
       "step": 53
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.5233644859813084,
-      "eval_f1": 0.459322365844105,
-      "eval_loss": 1.1768313646316528,
-      "eval_precision": 0.6458215962441315,
-      "eval_recall": 0.5359683794466403,
-      "eval_runtime": 52.0476,
-      "eval_samples_per_second": 2.056,
-      "eval_steps_per_second": 0.269,
       "step": 53
     },
     {
       "epoch": 4.98,
       "step": 66,
-      "train_accuracy": 0.5990566037735849,
-      "train_f1": 0.49108922737322597,
-      "train_loss": 1.1574139595031738,
-      "train_precision": 0.6493666135599222,
-      "train_recall": 0.55391404130241,
-      "train_runtime": 122.643,
-      "train_samples_per_second": 3.457,
-      "train_steps_per_second": 0.432
     },
     {
       "epoch": 4.98,
-      "grad_norm": 1.2271511554718018,
-      "learning_rate": 0.00015230769230769228,
-      "loss": 1.287,
       "step": 66
     },
     {
       "epoch": 4.98,
-      "eval_accuracy": 0.5607476635514018,
-      "eval_f1": 0.48464696223316917,
-      "eval_loss": 1.1236993074417114,
-      "eval_precision": 0.6436363636363637,
-      "eval_recall": 0.5723320158102767,
-      "eval_runtime": 41.452,
-      "eval_samples_per_second": 2.581,
-      "eval_steps_per_second": 0.338,
       "step": 66
     },
     {
       "epoch": 5.96,
       "step": 79,
-      "train_accuracy": 0.6226415094339622,
-      "train_f1": 0.5420012941762071,
-      "train_loss": 1.0438413619995117,
-      "train_precision": 0.8243247706573527,
-      "train_recall": 0.5806628230445157,
-      "train_runtime": 120.0289,
-      "train_samples_per_second": 3.532,
-      "train_steps_per_second": 0.442
     },
     {
       "epoch": 5.96,
-      "grad_norm": 1.7175101041793823,
-      "learning_rate": 0.00018230769230769228,
-      "loss": 1.2337,
       "step": 79
     },
     {
       "epoch": 5.96,
-      "eval_accuracy": 0.5981308411214953,
-      "eval_f1": 0.5485250474059656,
-      "eval_loss": 1.0242024660110474,
-      "eval_precision": 0.865625,
-      "eval_recall": 0.6083380387728214,
-      "eval_runtime": 45.0579,
-      "eval_samples_per_second": 2.375,
-      "eval_steps_per_second": 0.311,
       "step": 79
     },
     {
       "epoch": 6.94,
       "step": 92,
-      "train_accuracy": 0.6745283018867925,
-      "train_f1": 0.6334819902275806,
-      "train_loss": 0.935691237449646,
-      "train_precision": 0.8151341081504686,
-      "train_recall": 0.6419837529777849,
-      "train_runtime": 130.3177,
-      "train_samples_per_second": 3.254,
       "train_steps_per_second": 0.407
     },
     {
       "epoch": 6.94,
-      "grad_norm": 1.9299957752227783,
-      "learning_rate": 0.0002123076923076923,
-      "loss": 1.1327,
       "step": 92
     },
     {
       "epoch": 6.94,
-      "eval_accuracy": 0.7102803738317757,
-      "eval_f1": 0.7062065516379095,
-      "eval_loss": 0.9071274995803833,
-      "eval_precision": 0.8466666666666667,
-      "eval_recall": 0.7193111236589498,
-      "eval_runtime": 42.5223,
-      "eval_samples_per_second": 2.516,
-      "eval_steps_per_second": 0.329,
       "step": 92
     },
     {
       "epoch": 8.0,
       "step": 106,
-      "train_accuracy": 0.7971698113207547,
-      "train_f1": 0.7766198391591397,
-      "train_loss": 0.7271670699119568,
-      "train_precision": 0.8651733397747755,
-      "train_recall": 0.7787121922468249,
-      "train_runtime": 114.2154,
-      "train_samples_per_second": 3.712,
-      "train_steps_per_second": 0.464
     },
     {
       "epoch": 8.0,
-      "grad_norm": 2.2226734161376953,
-      "learning_rate": 0.0002446153846153846,
-      "loss": 0.9421,
       "step": 106
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.7757009345794392,
-      "eval_f1": 0.7750786554065242,
-      "eval_loss": 0.7316702008247375,
-      "eval_precision": 0.8393822843822842,
-      "eval_recall": 0.78223226049313,
-      "eval_runtime": 37.8971,
-      "eval_samples_per_second": 2.823,
-      "eval_steps_per_second": 0.369,
       "step": 106
     },
     {
       "epoch": 8.98,
       "step": 119,
-      "train_accuracy": 0.8867924528301887,
-      "train_f1": 0.8861109763599291,
-      "train_loss": 0.5811343193054199,
-      "train_precision": 0.9043399022853599,
-      "train_recall": 0.8790563087733421,
-      "train_runtime": 114.7718,
-      "train_samples_per_second": 3.694,
-      "train_steps_per_second": 0.462
     },
     {
       "epoch": 8.98,
-      "grad_norm": 2.4611976146698,
-      "learning_rate": 0.0002746153846153846,
-      "loss": 0.8662,
       "step": 119
     },
     {
       "epoch": 8.98,
-      "eval_accuracy": 0.8785046728971962,
-      "eval_f1": 0.8814210982815635,
-      "eval_loss": 0.5671026110649109,
-      "eval_precision": 0.8899470899470898,
-      "eval_recall": 0.880764163372859,
-      "eval_runtime": 36.298,
-      "eval_samples_per_second": 2.948,
-      "eval_steps_per_second": 0.386,
       "step": 119
     },
     {
       "epoch": 9.96,
       "step": 132,
-      "train_accuracy": 0.9316037735849056,
-      "train_f1": 0.9311136538837689,
-      "train_loss": 0.40401148796081543,
-      "train_precision": 0.9336201141469944,
-      "train_recall": 0.9344224750671604,
-      "train_runtime": 117.7535,
-      "train_samples_per_second": 3.601,
-      "train_steps_per_second": 0.45
     },
     {
       "epoch": 9.96,
-      "grad_norm": 2.956929922103882,
-      "learning_rate": 0.0002994871794871795,
-      "loss": 0.7054,
       "step": 132
     },
     {
       "epoch": 9.96,
-      "eval_accuracy": 0.9158878504672897,
-      "eval_f1": 0.9176957026713124,
-      "eval_loss": 0.3391460180282593,
-      "eval_precision": 0.922962962962963,
-      "eval_recall": 0.9159796725014117,
-      "eval_runtime": 36.2906,
-      "eval_samples_per_second": 2.948,
-      "eval_steps_per_second": 0.386,
       "step": 132
     },
     {
       "epoch": 10.94,
       "step": 145,
-      "train_accuracy": 0.9410377358490566,
-      "train_f1": 0.9417046133414193,
-      "train_loss": 0.2951917350292206,
-      "train_precision": 0.9450684559692762,
-      "train_recall": 0.9400955207310657,
-      "train_runtime": 119.8783,
-      "train_samples_per_second": 3.537,
-      "train_steps_per_second": 0.442
     },
     {
       "epoch": 10.94,
-      "grad_norm": 2.339923143386841,
-      "learning_rate": 0.00029615384615384616,
-      "loss": 0.595,
       "step": 145
     },
     {
       "epoch": 10.94,
-      "eval_accuracy": 0.9626168224299065,
-      "eval_f1": 0.9627651607231869,
-      "eval_loss": 0.24373753368854523,
-      "eval_precision": 0.9635610766045548,
-      "eval_recall": 0.9639939770374552,
-      "eval_runtime": 38.7327,
-      "eval_samples_per_second": 2.763,
-      "eval_steps_per_second": 0.361,
       "step": 145
     },
     {
       "epoch": 12.0,
       "step": 159,
-      "train_accuracy": 0.9127358490566038,
-      "train_f1": 0.9180456649072474,
-      "train_loss": 0.27252715826034546,
-      "train_precision": 0.933049846444602,
-      "train_recall": 0.9085866769706422,
-      "train_runtime": 116.9422,
-      "train_samples_per_second": 3.626,
-      "train_steps_per_second": 0.453
     },
     {
       "epoch": 12.0,
-      "grad_norm": 4.72435188293457,
-      "learning_rate": 0.00029256410256410254,
-      "loss": 0.4509,
       "step": 159
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.9252336448598131,
-      "eval_f1": 0.9260400996325433,
-      "eval_loss": 0.22485339641571045,
-      "eval_precision": 0.9322943722943723,
-      "eval_recall": 0.9283832109919066,
-      "eval_runtime": 35.9322,
-      "eval_samples_per_second": 2.978,
-      "eval_steps_per_second": 0.39,
       "step": 159
     },
     {
       "epoch": 12.98,
-      "step": 169,
-      "train_accuracy": 0.9363207547169812,
-      "train_f1": 0.9364699926202164,
-      "train_loss": 0.23557166755199432,
-      "train_precision": 0.9409715380405036,
-      "train_recall": 0.9348327849415139,
-      "train_runtime": 133.051,
-      "train_samples_per_second": 3.187,
-      "train_steps_per_second": 0.398
     },
     {
       "epoch": 12.98,
-      "grad_norm": 4.02577543258667,
-      "learning_rate": 0.00011666666666666665,
-      "loss": 0.4954,
-      "step": 169
     },
     {
       "epoch": 12.98,
-      "eval_accuracy": 0.9813084112149533,
-      "eval_f1": 0.9844101823682084,
-      "eval_loss": 0.09772800654172897,
-      "eval_precision": 0.9848484848484848,
-      "eval_recall": 0.9844155844155844,
-      "eval_runtime": 46.2598,
-      "eval_samples_per_second": 2.313,
-      "eval_steps_per_second": 0.303,
-      "step": 169
     },
     {
       "epoch": 13.96,
-      "step": 182,
-      "train_accuracy": 0.9693396226415094,
-      "train_f1": 0.9713518400105837,
-      "train_loss": 0.16475237905979156,
-      "train_precision": 0.9745377270610154,
-      "train_recall": 0.9693937925419673,
-      "train_runtime": 138.0499,
-      "train_samples_per_second": 3.071,
-      "train_steps_per_second": 0.384
     },
     {
       "epoch": 13.96,
-      "grad_norm": 2.480182647705078,
-      "learning_rate": 9.999999999999999e-05,
-      "loss": 0.4842,
-      "step": 182
     },
     {
       "epoch": 13.96,
-      "eval_accuracy": 0.9906542056074766,
-      "eval_f1": 0.9922719141323793,
-      "eval_loss": 0.07943902164697647,
-      "eval_precision": 0.990909090909091,
-      "eval_recall": 0.9939393939393939,
-      "eval_runtime": 60.5689,
-      "eval_samples_per_second": 1.767,
-      "eval_steps_per_second": 0.231,
-      "step": 182
     },
     {
       "epoch": 14.94,
-      "step": 195,
       "train_accuracy": 0.9716981132075472,
-      "train_f1": 0.9719681475881605,
-      "train_loss": 0.1421472579240799,
-      "train_precision": 0.9732013799086496,
-      "train_recall": 0.9717206659817743,
-      "train_runtime": 161.6921,
-      "train_samples_per_second": 2.622,
-      "train_steps_per_second": 0.328
     },
     {
       "epoch": 14.94,
-      "grad_norm": 3.177818775177002,
-      "learning_rate": 8.333333333333333e-05,
-      "loss": 0.4194,
-      "step": 195
     },
     {
       "epoch": 14.94,
       "eval_accuracy": 0.9906542056074766,
       "eval_f1": 0.9922719141323793,
-      "eval_loss": 0.08730577677488327,
       "eval_precision": 0.990909090909091,
       "eval_recall": 0.9939393939393939,
-      "eval_runtime": 47.0651,
-      "eval_samples_per_second": 2.273,
-      "eval_steps_per_second": 0.297,
-      "step": 195
     },
     {
       "epoch": 16.0,
-      "step": 209,
-      "train_accuracy": 0.964622641509434,
-      "train_f1": 0.9654786147790538,
-      "train_loss": 0.170837864279747,
-      "train_precision": 0.9662175617420704,
-      "train_recall": 0.9652730803864843,
-      "train_runtime": 122.9869,
-      "train_samples_per_second": 3.448,
-      "train_steps_per_second": 0.431
     },
     {
       "epoch": 16.0,
-      "grad_norm": 2.836935520172119,
-      "learning_rate": 6.538461538461539e-05,
-      "loss": 0.4353,
-      "step": 209
     },
     {
       "epoch": 16.0,
       "eval_accuracy": 0.9906542056074766,
       "eval_f1": 0.9922719141323793,
-      "eval_loss": 0.07477138936519623,
       "eval_precision": 0.990909090909091,
       "eval_recall": 0.9939393939393939,
-      "eval_runtime": 45.8048,
-      "eval_samples_per_second": 2.336,
-      "eval_steps_per_second": 0.306,
-      "step": 209
     },
     {
       "epoch": 16.98,
-      "step": 222,
-      "train_accuracy": 0.9693396226415094,
-      "train_f1": 0.9698753879001953,
-      "train_loss": 0.13738253712654114,
-      "train_precision": 0.9698721656123299,
-      "train_recall": 0.9699632431180802,
-      "train_runtime": 120.4492,
-      "train_samples_per_second": 3.52,
-      "train_steps_per_second": 0.44
     },
     {
       "epoch": 16.98,
-      "grad_norm": 2.6075973510742188,
-      "learning_rate": 4.871794871794872e-05,
-      "loss": 0.3996,
-      "step": 222
     },
     {
       "epoch": 16.98,
       "eval_accuracy": 0.9906542056074766,
       "eval_f1": 0.9922719141323793,
-      "eval_loss": 0.06090036779642105,
       "eval_precision": 0.990909090909091,
       "eval_recall": 0.9939393939393939,
-      "eval_runtime": 46.0048,
-      "eval_samples_per_second": 2.326,
-      "eval_steps_per_second": 0.304,
-      "step": 222
     },
     {
       "epoch": 17.96,
-      "step": 235,
-      "train_accuracy": 0.9669811320754716,
-      "train_f1": 0.9669883931291977,
-      "train_loss": 0.15114478766918182,
-      "train_precision": 0.9689529722559259,
-      "train_recall": 0.9654587281320716,
-      "train_runtime": 117.4904,
-      "train_samples_per_second": 3.609,
-      "train_steps_per_second": 0.451
     },
     {
       "epoch": 17.96,
-      "grad_norm": 3.3314599990844727,
-      "learning_rate": 3.2051282051282044e-05,
-      "loss": 0.4445,
-      "step": 235
     },
     {
       "epoch": 17.96,
       "eval_accuracy": 0.9906542056074766,
       "eval_f1": 0.9922719141323793,
-      "eval_loss": 0.06219491362571716,
       "eval_precision": 0.990909090909091,
       "eval_recall": 0.9939393939393939,
-      "eval_runtime": 44.1393,
-      "eval_samples_per_second": 2.424,
-      "eval_steps_per_second": 0.317,
-      "step": 235
     },
     {
       "epoch": 18.94,
-      "step": 248,
-      "train_accuracy": 0.9740566037735849,
-      "train_f1": 0.973824007234904,
-      "train_loss": 0.13619276881217957,
-      "train_precision": 0.9751913290746111,
-      "train_recall": 0.9728311732620997,
-      "train_runtime": 116.7219,
-      "train_samples_per_second": 3.633,
-      "train_steps_per_second": 0.454
     },
     {
       "epoch": 18.94,
-      "grad_norm": 3.210602045059204,
-      "learning_rate": 1.5384615384615384e-05,
-      "loss": 0.3838,
-      "step": 248
     },
     {
       "epoch": 18.94,
       "eval_accuracy": 0.9906542056074766,
       "eval_f1": 0.9922719141323793,
-      "eval_loss": 0.0594821497797966,
       "eval_precision": 0.990909090909091,
       "eval_recall": 0.9939393939393939,
-      "eval_runtime": 36.336,
-      "eval_samples_per_second": 2.945,
-      "eval_steps_per_second": 0.385,
-      "step": 248
-    },
-    {
-      "epoch": 19.85,
-      "step": 260,
-      "train_accuracy": 0.9599056603773585,
-      "train_f1": 0.9607465386599348,
-      "train_loss": 0.16524513065814972,
-      "train_precision": 0.9620981874857844,
-      "train_recall": 0.9597895488701212,
-      "train_runtime": 115.5845,
-      "train_samples_per_second": 3.668,
-      "train_steps_per_second": 0.459
-    },
-    {
-      "epoch": 19.85,
-      "grad_norm": 4.980319976806641,
       "learning_rate": 0.0,
-      "loss": 0.4,
-      "step": 260
     },
     {
-      "epoch": 19.85,
       "eval_accuracy": 0.9906542056074766,
       "eval_f1": 0.9922719141323793,
-      "eval_loss": 0.06939452886581421,
       "eval_precision": 0.990909090909091,
       "eval_recall": 0.9939393939393939,
-      "eval_runtime": 35.1775,
-      "eval_samples_per_second": 3.042,
-      "eval_steps_per_second": 0.398,
-      "step": 260
-    },
-    {
-      "epoch": 19.85,
-      "step": 260,
-      "total_flos": 1.7791424076806554e+17,
-      "train_loss": 0.16752889706538274,
-      "train_runtime": 3044.6611,
-      "train_samples_per_second": 2.785,
-      "train_steps_per_second": 0.085
     }
   ],
   "logging_steps": 50,
-  "max_steps": 260,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 20,
   "save_steps": 500,
-  "total_flos": 1.7791424076806554e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.9906542056074766,
+  "best_model_checkpoint": "resnet-50-finetuned-FBark\\checkpoint-198",
+  "epoch": 34.339622641509436,
   "eval_steps": 500,
+  "global_step": 455,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
     {
       "epoch": 0.98,
       "step": 13,
+      "train_accuracy": 0.18867924528301888,
+      "train_f1": 0.07866239279216843,
+      "train_loss": 1.6040071249008179,
+      "train_precision": 0.10334148329258355,
+      "train_recall": 0.20698380566801616,
+      "train_runtime": 132.5495,
+      "train_samples_per_second": 3.199,
+      "train_steps_per_second": 0.4
     },
     {
       "epoch": 0.98,
+      "grad_norm": 0.8319346904754639,
+      "learning_rate": 8.478260869565217e-05,
+      "loss": 1.6424,
       "step": 13
     },
     {
       "epoch": 0.98,
+      "eval_accuracy": 0.2336448598130841,
+      "eval_f1": 0.10987810004203447,
+      "eval_loss": 1.5959796905517578,
+      "eval_precision": 0.1749174917491749,
+      "eval_recall": 0.22424242424242422,
+      "eval_runtime": 39.1296,
+      "eval_samples_per_second": 2.735,
+      "eval_steps_per_second": 0.358,
       "step": 13
     },
     {
       "epoch": 1.96,
       "step": 26,
+      "train_accuracy": 0.33962264150943394,
+      "train_f1": 0.24495658674026793,
+      "train_loss": 1.5701098442077637,
+      "train_precision": 0.3021095248242063,
+      "train_recall": 0.3113901059286784,
+      "train_runtime": 127.6225,
+      "train_samples_per_second": 3.322,
+      "train_steps_per_second": 0.415
     },
     {
       "epoch": 1.96,
+      "grad_norm": 1.3721247911453247,
+      "learning_rate": 0.00016956521739130433,
+      "loss": 1.621,
       "step": 26
     },
     {
       "epoch": 1.96,
+      "eval_accuracy": 0.411214953271028,
+      "eval_f1": 0.26165216896924215,
+      "eval_loss": 1.546158790588379,
+      "eval_precision": 0.3088888888888889,
+      "eval_recall": 0.3116883116883117,
+      "eval_runtime": 39.3684,
+      "eval_samples_per_second": 2.718,
+      "eval_steps_per_second": 0.356,
       "step": 26
     },
     {
       "epoch": 2.94,
       "step": 39,
+      "train_accuracy": 0.37264150943396224,
+      "train_f1": 0.2637971738836966,
+      "train_loss": 1.5183203220367432,
+      "train_precision": 0.35881109762129587,
+      "train_recall": 0.34996256447229773,
+      "train_runtime": 132.7347,
+      "train_samples_per_second": 3.194,
+      "train_steps_per_second": 0.399
     },
     {
       "epoch": 2.94,
+      "grad_norm": 1.4928213357925415,
+      "learning_rate": 0.00025434782608695647,
+      "loss": 1.567,
       "step": 39
     },
     {
       "epoch": 2.94,
+      "eval_accuracy": 0.4766355140186916,
+      "eval_f1": 0.30495432955791013,
+      "eval_loss": 1.4607292413711548,
+      "eval_precision": 0.3638922888616891,
+      "eval_recall": 0.3748917748917749,
+      "eval_runtime": 41.5534,
+      "eval_samples_per_second": 2.575,
+      "eval_steps_per_second": 0.337,
       "step": 39
     },
     {
       "epoch": 4.0,
       "step": 53,
+      "train_accuracy": 0.4386792452830189,
+      "train_f1": 0.3491466500711846,
+      "train_loss": 1.346737027168274,
+      "train_precision": 0.7565600797484855,
+      "train_recall": 0.41960074270933767,
+      "train_runtime": 137.4133,
+      "train_samples_per_second": 3.086,
+      "train_steps_per_second": 0.386
     },
     {
       "epoch": 4.0,
+      "grad_norm": 1.9480384588241577,
+      "learning_rate": 0.00029486552567237163,
+      "loss": 1.357,
       "step": 53
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.514018691588785,
+      "eval_f1": 0.38211575211575216,
+      "eval_loss": 1.2584657669067383,
+      "eval_precision": 0.8378205128205127,
+      "eval_recall": 0.4251082251082251,
+      "eval_runtime": 43.051,
+      "eval_samples_per_second": 2.485,
+      "eval_steps_per_second": 0.325,
       "step": 53
     },
     {
       "epoch": 4.98,
       "step": 66,
+      "train_accuracy": 0.6957547169811321,
+      "train_f1": 0.6891574214359025,
+      "train_loss": 1.138260841369629,
+      "train_precision": 0.8253012477718361,
+      "train_recall": 0.6805251227537071,
+      "train_runtime": 126.2306,
+      "train_samples_per_second": 3.359,
+      "train_steps_per_second": 0.42
     },
     {
       "epoch": 4.98,
+      "grad_norm": 1.9529035091400146,
+      "learning_rate": 0.0002853300733496332,
+      "loss": 1.3203,
       "step": 66
     },
     {
       "epoch": 4.98,
+      "eval_accuracy": 0.7476635514018691,
+      "eval_f1": 0.7225305110805734,
+      "eval_loss": 1.0523829460144043,
+      "eval_precision": 0.8176507936507935,
+      "eval_recall": 0.7064935064935065,
+      "eval_runtime": 39.1299,
+      "eval_samples_per_second": 2.734,
+      "eval_steps_per_second": 0.358,
       "step": 66
     },
     {
       "epoch": 5.96,
       "step": 79,
+      "train_accuracy": 0.7594339622641509,
+      "train_f1": 0.7384580979394952,
+      "train_loss": 0.8829485774040222,
+      "train_precision": 0.86050056869729,
+      "train_recall": 0.7432874367985035,
+      "train_runtime": 133.9565,
+      "train_samples_per_second": 3.165,
+      "train_steps_per_second": 0.396
     },
     {
       "epoch": 5.96,
+      "grad_norm": 2.4536993503570557,
+      "learning_rate": 0.00027579462102689484,
+      "loss": 1.1706,
       "step": 79
     },
     {
       "epoch": 5.96,
+      "eval_accuracy": 0.794392523364486,
+      "eval_f1": 0.7846877954646693,
+      "eval_loss": 0.8008124828338623,
+      "eval_precision": 0.8854145854145855,
+      "eval_recall": 0.767965367965368,
+      "eval_runtime": 40.731,
+      "eval_samples_per_second": 2.627,
+      "eval_steps_per_second": 0.344,
       "step": 79
     },
     {
       "epoch": 6.94,
       "step": 92,
+      "train_accuracy": 0.8632075471698113,
+      "train_f1": 0.8590685733770105,
+      "train_loss": 0.7464644312858582,
+      "train_precision": 0.892835269329224,
+      "train_recall": 0.8548507199297516,
+      "train_runtime": 130.0886,
+      "train_samples_per_second": 3.259,
       "train_steps_per_second": 0.407
     },
     {
       "epoch": 6.94,
+      "grad_norm": 2.5925121307373047,
+      "learning_rate": 0.00026625916870415647,
+      "loss": 0.9929,
       "step": 92
     },
     {
       "epoch": 6.94,
+      "eval_accuracy": 0.9158878504672897,
+      "eval_f1": 0.9236075036075035,
+      "eval_loss": 0.6253050565719604,
+      "eval_precision": 0.9368429298864083,
+      "eval_recall": 0.9212121212121211,
+      "eval_runtime": 38.4775,
+      "eval_samples_per_second": 2.781,
+      "eval_steps_per_second": 0.364,
       "step": 92
     },
     {
       "epoch": 8.0,
       "step": 106,
+      "train_accuracy": 0.9080188679245284,
+      "train_f1": 0.9066600370668294,
+      "train_loss": 0.5274814963340759,
+      "train_precision": 0.9124982372811825,
+      "train_recall": 0.9042126570890489,
+      "train_runtime": 129.4721,
+      "train_samples_per_second": 3.275,
+      "train_steps_per_second": 0.409
     },
     {
       "epoch": 8.0,
+      "grad_norm": 2.86348032951355,
+      "learning_rate": 0.0002559902200488997,
+      "loss": 0.7633,
       "step": 106
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.9345794392523364,
+      "eval_f1": 0.9342456932845948,
+      "eval_loss": 0.46806150674819946,
+      "eval_precision": 0.9339420289855072,
+      "eval_recall": 0.9437229437229437,
+      "eval_runtime": 39.4048,
+      "eval_samples_per_second": 2.715,
+      "eval_steps_per_second": 0.355,
       "step": 106
     },
     {
       "epoch": 8.98,
       "step": 119,
+      "train_accuracy": 0.9363207547169812,
+      "train_f1": 0.9358357324202157,
+      "train_loss": 0.46290820837020874,
+      "train_precision": 0.938202392067757,
+      "train_recall": 0.9342575372358033,
+      "train_runtime": 133.0687,
+      "train_samples_per_second": 3.186,
+      "train_steps_per_second": 0.398
     },
     {
       "epoch": 8.98,
+      "grad_norm": 3.642646074295044,
+      "learning_rate": 0.00024645476772616135,
+      "loss": 0.6367,
       "step": 119
     },
     {
       "epoch": 8.98,
+      "eval_accuracy": 0.9158878504672897,
+      "eval_f1": 0.9145165945165944,
+      "eval_loss": 0.3800387382507324,
+      "eval_precision": 0.912056277056277,
+      "eval_recall": 0.9194805194805195,
+      "eval_runtime": 48.5414,
+      "eval_samples_per_second": 2.204,
+      "eval_steps_per_second": 0.288,
       "step": 119
     },
     {
       "epoch": 9.96,
       "step": 132,
+      "train_accuracy": 0.9410377358490566,
+      "train_f1": 0.9413105716667156,
+      "train_loss": 0.36001139879226685,
+      "train_precision": 0.941837807815579,
+      "train_recall": 0.9410602738360391,
+      "train_runtime": 133.0768,
+      "train_samples_per_second": 3.186,
+      "train_steps_per_second": 0.398
     },
     {
       "epoch": 9.96,
+      "grad_norm": 2.934262275695801,
+      "learning_rate": 0.00023691931540342298,
+      "loss": 0.5834,
       "step": 132
     },
     {
       "epoch": 9.96,
+      "eval_accuracy": 0.9532710280373832,
+      "eval_f1": 0.9551136455716718,
+      "eval_loss": 0.26904991269111633,
+      "eval_precision": 0.959457478005865,
+      "eval_recall": 0.9541125541125541,
+      "eval_runtime": 42.7878,
+      "eval_samples_per_second": 2.501,
+      "eval_steps_per_second": 0.327,
       "step": 132
     },
     {
       "epoch": 10.94,
       "step": 145,
+      "train_accuracy": 0.9504716981132075,
+      "train_f1": 0.9503020748526174,
+      "train_loss": 0.25279200077056885,
+      "train_precision": 0.9508748114630468,
+      "train_recall": 0.9503638914618925,
+      "train_runtime": 134.3359,
+      "train_samples_per_second": 3.156,
+      "train_steps_per_second": 0.395
     },
     {
       "epoch": 10.94,
+      "grad_norm": 3.635103464126587,
+      "learning_rate": 0.00022738386308068459,
+      "loss": 0.4842,
       "step": 145
     },
     {
       "epoch": 10.94,
+      "eval_accuracy": 0.9813084112149533,
+      "eval_f1": 0.984659090909091,
+      "eval_loss": 0.16999471187591553,
+      "eval_precision": 0.9826086956521738,
+      "eval_recall": 0.9878787878787879,
+      "eval_runtime": 49.1618,
+      "eval_samples_per_second": 2.176,
+      "eval_steps_per_second": 0.285,
       "step": 145
     },
     {
       "epoch": 12.0,
       "step": 159,
+      "train_accuracy": 0.9693396226415094,
+      "train_f1": 0.9695757850179305,
+      "train_loss": 0.1881800889968872,
+      "train_precision": 0.9693384564611929,
+      "train_recall": 0.9709818221559601,
+      "train_runtime": 128.8721,
+      "train_samples_per_second": 3.29,
+      "train_steps_per_second": 0.411
     },
     {
       "epoch": 12.0,
+      "grad_norm": 2.419642925262451,
+      "learning_rate": 0.00021711491442542784,
+      "loss": 0.4302,
       "step": 159
     },
     {
       "epoch": 12.0,
+      "eval_accuracy": 0.9626168224299065,
+      "eval_f1": 0.9676432095036744,
+      "eval_loss": 0.17427879571914673,
+      "eval_precision": 0.9648221343873518,
+      "eval_recall": 0.9722943722943723,
+      "eval_runtime": 41.3417,
+      "eval_samples_per_second": 2.588,
+      "eval_steps_per_second": 0.339,
       "step": 159
     },
     {
       "epoch": 12.98,
+      "step": 172,
+      "train_accuracy": 0.964622641509434,
+      "train_f1": 0.9651368628644732,
+      "train_loss": 0.1646902710199356,
+      "train_precision": 0.9645891898165841,
+      "train_recall": 0.9665469535253202,
+      "train_runtime": 134.1065,
+      "train_samples_per_second": 3.162,
+      "train_steps_per_second": 0.395
     },
     {
       "epoch": 12.98,
+      "grad_norm": 4.919209003448486,
+      "learning_rate": 0.00020757946210268947,
+      "loss": 0.4422,
+      "step": 172
     },
     {
       "epoch": 12.98,
+      "eval_accuracy": 0.9719626168224299,
+      "eval_f1": 0.9771428571428572,
+      "eval_loss": 0.13857078552246094,
+      "eval_precision": 0.975,
+      "eval_recall": 0.9818181818181818,
+      "eval_runtime": 39.4778,
+      "eval_samples_per_second": 2.71,
+      "eval_steps_per_second": 0.355,
+      "step": 172
     },
     {
       "epoch": 13.96,
+      "step": 185,
+      "train_accuracy": 0.9716981132075472,
+      "train_f1": 0.9709900945487153,
+      "train_loss": 0.13838660717010498,
+      "train_precision": 0.9710717151425976,
+      "train_recall": 0.9710504067284639,
+      "train_runtime": 130.0755,
+      "train_samples_per_second": 3.26,
+      "train_steps_per_second": 0.407
     },
     {
       "epoch": 13.96,
+      "grad_norm": 4.021721839904785,
+      "learning_rate": 0.0001980440097799511,
+      "loss": 0.4237,
+      "step": 185
     },
     {
       "epoch": 13.96,
+      "eval_accuracy": 0.9626168224299065,
+      "eval_f1": 0.9697054698457223,
+      "eval_loss": 0.12292856723070145,
+      "eval_precision": 0.968,
+      "eval_recall": 0.9757575757575758,
+      "eval_runtime": 39.3533,
+      "eval_samples_per_second": 2.719,
+      "eval_steps_per_second": 0.356,
+      "step": 185
     },
     {
       "epoch": 14.94,
+      "step": 198,
       "train_accuracy": 0.9716981132075472,
+      "train_f1": 0.9707363445629333,
+      "train_loss": 0.15636524558067322,
+      "train_precision": 0.9719248605013513,
+      "train_recall": 0.9701030873944789,
+      "train_runtime": 128.9206,
+      "train_samples_per_second": 3.289,
+      "train_steps_per_second": 0.411
     },
     {
       "epoch": 14.94,
+      "grad_norm": 2.6144134998321533,
+      "learning_rate": 0.00018850855745721268,
+      "loss": 0.367,
+      "step": 198
     },
     {
       "epoch": 14.94,
       "eval_accuracy": 0.9906542056074766,
       "eval_f1": 0.9922719141323793,
+      "eval_loss": 0.1049351617693901,
       "eval_precision": 0.990909090909091,
       "eval_recall": 0.9939393939393939,
+      "eval_runtime": 39.5629,
+      "eval_samples_per_second": 2.705,
+      "eval_steps_per_second": 0.354,
+      "step": 198
     },
     {
       "epoch": 16.0,
+      "step": 212,
+      "train_accuracy": 0.9858490566037735,
+      "train_f1": 0.9859794210341276,
+      "train_loss": 0.11216574162244797,
+      "train_precision": 0.9859128049064834,
+      "train_recall": 0.986104018607261,
+      "train_runtime": 132.2515,
+      "train_samples_per_second": 3.206,
+      "train_steps_per_second": 0.401
     },
     {
       "epoch": 16.0,
+      "grad_norm": 2.7048161029815674,
+      "learning_rate": 0.000178239608801956,
+      "loss": 0.4376,
+      "step": 212
     },
     {
       "epoch": 16.0,
       "eval_accuracy": 0.9906542056074766,
       "eval_f1": 0.9922719141323793,
+      "eval_loss": 0.08710027486085892,
       "eval_precision": 0.990909090909091,
       "eval_recall": 0.9939393939393939,
+      "eval_runtime": 42.0413,
+      "eval_samples_per_second": 2.545,
+      "eval_steps_per_second": 0.333,
+      "step": 212
     },
     {
       "epoch": 16.98,
+      "step": 225,
+      "train_accuracy": 0.9787735849056604,
+      "train_f1": 0.978423027691737,
+      "train_loss": 0.10880015045404434,
+      "train_precision": 0.9783562367864693,
+      "train_recall": 0.9791313538827833,
+      "train_runtime": 131.0592,
+      "train_samples_per_second": 3.235,
+      "train_steps_per_second": 0.404
     },
     {
       "epoch": 16.98,
+      "grad_norm": 2.9348771572113037,
+      "learning_rate": 0.0001687041564792176,
+      "loss": 0.3638,
+      "step": 225
     },
     {
       "epoch": 16.98,
       "eval_accuracy": 0.9906542056074766,
       "eval_f1": 0.9922719141323793,
+      "eval_loss": 0.07979033887386322,
       "eval_precision": 0.990909090909091,
       "eval_recall": 0.9939393939393939,
+      "eval_runtime": 38.9013,
+      "eval_samples_per_second": 2.751,
+      "eval_steps_per_second": 0.36,
+      "step": 225
     },
     {
       "epoch": 17.96,
+      "step": 238,
+      "train_accuracy": 0.9811320754716981,
+      "train_f1": 0.9813568397733909,
+      "train_loss": 0.12247739732265472,
+      "train_precision": 0.9824647159390165,
+      "train_recall": 0.9805006998510924,
+      "train_runtime": 135.9878,
+      "train_samples_per_second": 3.118,
+      "train_steps_per_second": 0.39
     },
     {
       "epoch": 17.96,
+      "grad_norm": 2.9127988815307617,
+      "learning_rate": 0.0001591687041564792,
+      "loss": 0.3758,
+      "step": 238
     },
     {
       "epoch": 17.96,
       "eval_accuracy": 0.9906542056074766,
       "eval_f1": 0.9922719141323793,
+      "eval_loss": 0.05758798122406006,
       "eval_precision": 0.990909090909091,
       "eval_recall": 0.9939393939393939,
+      "eval_runtime": 40.1837,
+      "eval_samples_per_second": 2.663,
+      "eval_steps_per_second": 0.348,
+      "step": 238
     },
     {
       "epoch": 18.94,
+      "step": 251,
+      "train_accuracy": 0.9858490566037735,
+      "train_f1": 0.9849505768779323,
+      "train_loss": 0.08141080290079117,
+      "train_precision": 0.9856198097123687,
+      "train_recall": 0.9845945870999945,
+      "train_runtime": 131.3411,
+      "train_samples_per_second": 3.228,
+      "train_steps_per_second": 0.404
     },
     {
       "epoch": 18.94,
+      "grad_norm": 2.887089252471924,
+      "learning_rate": 0.00014963325183374083,
+      "loss": 0.2759,
+      "step": 251
     },
     {
       "epoch": 18.94,
       "eval_accuracy": 0.9906542056074766,
       "eval_f1": 0.9922719141323793,
+      "eval_loss": 0.06044730544090271,
+      "eval_precision": 0.990909090909091,
+      "eval_recall": 0.9939393939393939,
+      "eval_runtime": 56.9665,
+      "eval_samples_per_second": 1.878,
+      "eval_steps_per_second": 0.246,
+      "step": 251
+    },
+    {
+      "epoch": 20.0,
+      "step": 265,
+      "train_accuracy": 0.9834905660377359,
+      "train_f1": 0.9841577997732367,
+      "train_loss": 0.09728587418794632,
+      "train_precision": 0.9841397108638489,
+      "train_recall": 0.9842617289830912,
+      "train_runtime": 131.2678,
+      "train_samples_per_second": 3.23,
+      "train_steps_per_second": 0.404
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 2.2641186714172363,
+      "learning_rate": 0.00013936430317848408,
+      "loss": 0.3212,
+      "step": 265
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.9813084112149533,
+      "eval_f1": 0.984659090909091,
+      "eval_loss": 0.09081904590129852,
+      "eval_precision": 0.9826086956521738,
+      "eval_recall": 0.9878787878787879,
+      "eval_runtime": 39.7053,
+      "eval_samples_per_second": 2.695,
+      "eval_steps_per_second": 0.353,
+      "step": 265
+    },
+    {
+      "epoch": 20.98,
+      "step": 278,
+      "train_accuracy": 0.9740566037735849,
+      "train_f1": 0.9730482239763667,
+      "train_loss": 0.12885905802249908,
+      "train_precision": 0.9755676794807229,
+      "train_recall": 0.9715263957551142,
+      "train_runtime": 129.4684,
+      "train_samples_per_second": 3.275,
+      "train_steps_per_second": 0.409
+    },
+    {
+      "epoch": 20.98,
+      "grad_norm": 3.7218384742736816,
+      "learning_rate": 0.00012982885085574571,
+      "loss": 0.3215,
+      "step": 278
+    },
+    {
+      "epoch": 20.98,
+      "eval_accuracy": 0.9906542056074766,
+      "eval_f1": 0.9922719141323793,
+      "eval_loss": 0.08540945500135422,
       "eval_precision": 0.990909090909091,
       "eval_recall": 0.9939393939393939,
+      "eval_runtime": 39.1648,
+      "eval_samples_per_second": 2.732,
+      "eval_steps_per_second": 0.357,
+      "step": 278
+    },
+    {
+      "epoch": 21.96,
+      "step": 291,
+      "train_accuracy": 0.9882075471698113,
+      "train_f1": 0.987640276713749,
+      "train_loss": 0.08325836062431335,
+      "train_precision": 0.9890280836661814,
+      "train_recall": 0.9866258111031001,
+      "train_runtime": 124.9541,
+      "train_samples_per_second": 3.393,
+      "train_steps_per_second": 0.424
+    },
+    {
+      "epoch": 21.96,
+      "grad_norm": 5.685765743255615,
+      "learning_rate": 0.00012029339853300733,
+      "loss": 0.3545,
+      "step": 291
+    },
+    {
+      "epoch": 21.96,
+      "eval_accuracy": 0.9906542056074766,
+      "eval_f1": 0.9922719141323793,
+      "eval_loss": 0.07166730612516403,
+      "eval_precision": 0.990909090909091,
+      "eval_recall": 0.9939393939393939,
+      "eval_runtime": 39.2775,
+      "eval_samples_per_second": 2.724,
+      "eval_steps_per_second": 0.356,
+      "step": 291
+    },
+    {
+      "epoch": 22.94,
+      "step": 304,
+      "train_accuracy": 0.9834905660377359,
+      "train_f1": 0.9840178843462146,
+      "train_loss": 0.09864702820777893,
+      "train_precision": 0.9840027079631041,
+      "train_recall": 0.9844752990764272,
+      "train_runtime": 132.2941,
+      "train_samples_per_second": 3.205,
+      "train_steps_per_second": 0.401
+    },
+    {
+      "epoch": 22.94,
+      "grad_norm": 4.6724138259887695,
+      "learning_rate": 0.00011075794621026893,
+      "loss": 0.3085,
+      "step": 304
+    },
+    {
+      "epoch": 22.94,
+      "eval_accuracy": 0.9906542056074766,
+      "eval_f1": 0.9922719141323793,
+      "eval_loss": 0.08209435641765594,
+      "eval_precision": 0.990909090909091,
+      "eval_recall": 0.9939393939393939,
+      "eval_runtime": 39.8399,
+      "eval_samples_per_second": 2.686,
+      "eval_steps_per_second": 0.351,
+      "step": 304
+    },
+    {
+      "epoch": 24.0,
+      "step": 318,
+      "train_accuracy": 0.9858490566037735,
+      "train_f1": 0.9856773749159446,
+      "train_loss": 0.08332642912864685,
+      "train_precision": 0.9871632432676922,
+      "train_recall": 0.9844707203986204,
+      "train_runtime": 130.1118,
+      "train_samples_per_second": 3.259,
+      "train_steps_per_second": 0.407
+    },
+    {
+      "epoch": 24.0,
+      "grad_norm": 4.654536724090576,
+      "learning_rate": 0.00010048899755501222,
+      "loss": 0.2637,
+      "step": 318
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.9906542056074766,
+      "eval_f1": 0.9922719141323793,
+      "eval_loss": 0.0654672160744667,
+      "eval_precision": 0.990909090909091,
+      "eval_recall": 0.9939393939393939,
+      "eval_runtime": 39.6356,
+      "eval_samples_per_second": 2.7,
+      "eval_steps_per_second": 0.353,
+      "step": 318
+    },
+    {
+      "epoch": 24.98,
+      "step": 331,
+      "train_accuracy": 0.9858490566037735,
+      "train_f1": 0.986589461820231,
+      "train_loss": 0.07109413295984268,
+      "train_precision": 0.9871650821089023,
+      "train_recall": 0.98621216568729,
+      "train_runtime": 128.7284,
+      "train_samples_per_second": 3.294,
+      "train_steps_per_second": 0.412
+    },
+    {
+      "epoch": 24.98,
+      "grad_norm": 4.322335243225098,
+      "learning_rate": 9.095354523227383e-05,
+      "loss": 0.2723,
+      "step": 331
+    },
+    {
+      "epoch": 24.98,
+      "eval_accuracy": 0.9906542056074766,
+      "eval_f1": 0.9922719141323793,
+      "eval_loss": 0.06855478882789612,
+      "eval_precision": 0.990909090909091,
+      "eval_recall": 0.9939393939393939,
+      "eval_runtime": 38.4718,
+      "eval_samples_per_second": 2.781,
+      "eval_steps_per_second": 0.364,
+      "step": 331
+    },
+    {
+      "epoch": 25.96,
+      "step": 344,
+      "train_accuracy": 0.9764150943396226,
+      "train_f1": 0.9756975326292678,
+      "train_loss": 0.09106432646512985,
+      "train_precision": 0.9760480054398313,
+      "train_recall": 0.9753730488175062,
+      "train_runtime": 132.4151,
+      "train_samples_per_second": 3.202,
+      "train_steps_per_second": 0.4
+    },
+    {
+      "epoch": 25.96,
+      "grad_norm": 4.0115766525268555,
+      "learning_rate": 8.141809290953544e-05,
+      "loss": 0.36,
+      "step": 344
+    },
+    {
+      "epoch": 25.96,
+      "eval_accuracy": 0.9906542056074766,
+      "eval_f1": 0.9922719141323793,
+      "eval_loss": 0.0726209431886673,
+      "eval_precision": 0.990909090909091,
+      "eval_recall": 0.9939393939393939,
+      "eval_runtime": 40.7509,
+      "eval_samples_per_second": 2.626,
+      "eval_steps_per_second": 0.344,
+      "step": 344
+    },
+    {
+      "epoch": 26.94,
+      "step": 357,
+      "train_accuracy": 0.9740566037735849,
+      "train_f1": 0.9741101148833959,
+      "train_loss": 0.08721727132797241,
+      "train_precision": 0.9743783993783992,
+      "train_recall": 0.9741037543564772,
+      "train_runtime": 133.2307,
+      "train_samples_per_second": 3.182,
+      "train_steps_per_second": 0.398
+    },
+    {
+      "epoch": 26.94,
+      "grad_norm": 2.0709145069122314,
+      "learning_rate": 7.188264058679705e-05,
+      "loss": 0.2535,
+      "step": 357
+    },
+    {
+      "epoch": 26.94,
+      "eval_accuracy": 0.9906542056074766,
+      "eval_f1": 0.9922719141323793,
+      "eval_loss": 0.06701695173978806,
+      "eval_precision": 0.990909090909091,
+      "eval_recall": 0.9939393939393939,
+      "eval_runtime": 39.1128,
+      "eval_samples_per_second": 2.736,
+      "eval_steps_per_second": 0.358,
+      "step": 357
+    },
+    {
+      "epoch": 28.0,
+      "step": 371,
+      "train_accuracy": 0.9811320754716981,
+      "train_f1": 0.9811807715855693,
+      "train_loss": 0.08411888033151627,
+      "train_precision": 0.9816060153438795,
+      "train_recall": 0.9810544308058603,
+      "train_runtime": 138.1723,
+      "train_samples_per_second": 3.069,
+      "train_steps_per_second": 0.384
+    },
+    {
+      "epoch": 28.0,
+      "grad_norm": 2.612853527069092,
+      "learning_rate": 6.161369193154034e-05,
+      "loss": 0.2551,
+      "step": 371
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.9906542056074766,
+      "eval_f1": 0.9922719141323793,
+      "eval_loss": 0.0589648000895977,
+      "eval_precision": 0.990909090909091,
+      "eval_recall": 0.9939393939393939,
+      "eval_runtime": 39.9978,
+      "eval_samples_per_second": 2.675,
+      "eval_steps_per_second": 0.35,
+      "step": 371
+    },
+    {
+      "epoch": 28.98,
+      "step": 384,
+      "train_accuracy": 0.9764150943396226,
+      "train_f1": 0.9760814191422504,
+      "train_loss": 0.08149362355470657,
+      "train_precision": 0.9773233573176615,
+      "train_recall": 0.9755777028177874,
+      "train_runtime": 158.8587,
+      "train_samples_per_second": 2.669,
+      "train_steps_per_second": 0.334
+    },
+    {
+      "epoch": 28.98,
+      "grad_norm": 3.303999662399292,
+      "learning_rate": 5.207823960880195e-05,
+      "loss": 0.3202,
+      "step": 384
+    },
+    {
+      "epoch": 28.98,
+      "eval_accuracy": 0.9906542056074766,
+      "eval_f1": 0.9922719141323793,
+      "eval_loss": 0.05450604483485222,
+      "eval_precision": 0.990909090909091,
+      "eval_recall": 0.9939393939393939,
+      "eval_runtime": 40.1368,
+      "eval_samples_per_second": 2.666,
+      "eval_steps_per_second": 0.349,
+      "step": 384
+    },
+    {
+      "epoch": 29.96,
+      "step": 397,
+      "train_accuracy": 0.9976415094339622,
+      "train_f1": 0.9975194273245798,
+      "train_loss": 0.05407993122935295,
+      "train_precision": 0.9977011494252874,
+      "train_recall": 0.9973684210526315,
+      "train_runtime": 137.913,
+      "train_samples_per_second": 3.074,
+      "train_steps_per_second": 0.384
+    },
+    {
+      "epoch": 29.96,
+      "grad_norm": 2.247615098953247,
+      "learning_rate": 4.2542787286063565e-05,
+      "loss": 0.2714,
+      "step": 397
+    },
+    {
+      "epoch": 29.96,
+      "eval_accuracy": 0.9906542056074766,
+      "eval_f1": 0.9922719141323793,
+      "eval_loss": 0.04375358670949936,
+      "eval_precision": 0.990909090909091,
+      "eval_recall": 0.9939393939393939,
+      "eval_runtime": 40.7987,
+      "eval_samples_per_second": 2.623,
+      "eval_steps_per_second": 0.343,
+      "step": 397
+    },
+    {
+      "epoch": 30.94,
+      "step": 410,
+      "train_accuracy": 0.9834905660377359,
+      "train_f1": 0.9834196702554923,
+      "train_loss": 0.06718786805868149,
+      "train_precision": 0.9847436600428245,
+      "train_recall": 0.9826715101769175,
+      "train_runtime": 130.6854,
+      "train_samples_per_second": 3.244,
+      "train_steps_per_second": 0.406
+    },
+    {
+      "epoch": 30.94,
+      "grad_norm": 4.1858415603637695,
+      "learning_rate": 3.300733496332518e-05,
+      "loss": 0.2362,
+      "step": 410
+    },
+    {
+      "epoch": 30.94,
+      "eval_accuracy": 0.9906542056074766,
+      "eval_f1": 0.9922719141323793,
+      "eval_loss": 0.05211889371275902,
+      "eval_precision": 0.990909090909091,
+      "eval_recall": 0.9939393939393939,
+      "eval_runtime": 39.7771,
+      "eval_samples_per_second": 2.69,
+      "eval_steps_per_second": 0.352,
+      "step": 410
+    },
+    {
+      "epoch": 32.0,
+      "step": 424,
+      "train_accuracy": 0.9834905660377359,
+      "train_f1": 0.9831986473322998,
+      "train_loss": 0.09282960742712021,
+      "train_precision": 0.9842538190364276,
+      "train_recall": 0.9827365778544793,
+      "train_runtime": 128.6901,
+      "train_samples_per_second": 3.295,
+      "train_steps_per_second": 0.412
+    },
+    {
+      "epoch": 32.0,
+      "grad_norm": 3.333651542663574,
+      "learning_rate": 2.273838630806846e-05,
+      "loss": 0.2693,
+      "step": 424
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.9906542056074766,
+      "eval_f1": 0.9922719141323793,
+      "eval_loss": 0.03920552134513855,
+      "eval_precision": 0.990909090909091,
+      "eval_recall": 0.9939393939393939,
+      "eval_runtime": 39.2034,
+      "eval_samples_per_second": 2.729,
+      "eval_steps_per_second": 0.357,
+      "step": 424
+    },
+    {
+      "epoch": 32.98,
+      "step": 437,
+      "train_accuracy": 0.9834905660377359,
+      "train_f1": 0.9830305559415786,
+      "train_loss": 0.06464195251464844,
+      "train_precision": 0.9849462365591398,
+      "train_recall": 0.9821793023126837,
+      "train_runtime": 132.3464,
+      "train_samples_per_second": 3.204,
+      "train_steps_per_second": 0.4
+    },
+    {
+      "epoch": 32.98,
+      "grad_norm": 4.870348930358887,
+      "learning_rate": 1.3202933985330072e-05,
+      "loss": 0.2644,
+      "step": 437
+    },
+    {
+      "epoch": 32.98,
+      "eval_accuracy": 0.9906542056074766,
+      "eval_f1": 0.9922719141323793,
+      "eval_loss": 0.06383071094751358,
+      "eval_precision": 0.990909090909091,
+      "eval_recall": 0.9939393939393939,
+      "eval_runtime": 39.8229,
+      "eval_samples_per_second": 2.687,
+      "eval_steps_per_second": 0.352,
+      "step": 437
+    },
+    {
+      "epoch": 33.96,
+      "step": 450,
+      "train_accuracy": 0.9834905660377359,
+      "train_f1": 0.983306080394328,
+      "train_loss": 0.09585532546043396,
+      "train_precision": 0.9838161838161839,
+      "train_recall": 0.983380012201209,
+      "train_runtime": 133.1315,
+      "train_samples_per_second": 3.185,
+      "train_steps_per_second": 0.398
+    },
+    {
+      "epoch": 33.96,
+      "grad_norm": 3.289733409881592,
+      "learning_rate": 3.667481662591687e-06,
+      "loss": 0.2516,
+      "step": 450
+    },
+    {
+      "epoch": 33.96,
+      "eval_accuracy": 0.9906542056074766,
+      "eval_f1": 0.9922719141323793,
+      "eval_loss": 0.04781457036733627,
+      "eval_precision": 0.990909090909091,
+      "eval_recall": 0.9939393939393939,
+      "eval_runtime": 40.0245,
+      "eval_samples_per_second": 2.673,
+      "eval_steps_per_second": 0.35,
+      "step": 450
+    },
+    {
+      "epoch": 34.34,
+      "step": 455,
+      "train_accuracy": 0.9740566037735849,
+      "train_f1": 0.9731839886499556,
+      "train_loss": 0.0982045829296112,
+      "train_precision": 0.9733410852713178,
+      "train_recall": 0.9733575444357457,
+      "train_runtime": 130.0436,
+      "train_samples_per_second": 3.26,
+      "train_steps_per_second": 0.408
+    },
+    {
+      "epoch": 34.34,
+      "grad_norm": 2.205134630203247,
       "learning_rate": 0.0,
+      "loss": 0.2652,
+      "step": 455
     },
     {
+      "epoch": 34.34,
       "eval_accuracy": 0.9906542056074766,
       "eval_f1": 0.9922719141323793,
+      "eval_loss": 0.0579226091504097,
       "eval_precision": 0.990909090909091,
       "eval_recall": 0.9939393939393939,
+      "eval_runtime": 39.7063,
+      "eval_samples_per_second": 2.695,
+      "eval_steps_per_second": 0.353,
+      "step": 455
+    },
+    {
+      "epoch": 34.34,
+      "step": 455,
+      "total_flos": 3.0926830773436416e+17,
+      "train_loss": 0.571298942723117,
+      "train_runtime": 12111.8963,
+      "train_samples_per_second": 1.225,
+      "train_steps_per_second": 0.038
+    },
+    {
+      "epoch": 34.34,
+      "step": 455,
+      "total_flos": 3.0926830773436416e+17,
+      "train_loss": 0.0,
+      "train_runtime": 0.0155,
+      "train_samples_per_second": 955313.811,
+      "train_steps_per_second": 29290.282
     }
   ],
   "logging_steps": 50,
+  "max_steps": 455,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 35,
   "save_steps": 500,
+  "total_flos": 3.0926830773436416e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null