End of training

Browse files

Files changed (5) hide show

README.md +5 -5
all_results.json +14 -14
test_results.json +9 -9
train_results.json +6 -6
trainer_state.json +502 -312

README.md CHANGED Viewed

@@ -18,11 +18,11 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [vinai/phobert-base-v2](https://huggingface.co/vinai/phobert-base-v2) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.4654
-- Accuracy: 0.9402
-- F1 Score: 0.9310
-- Recall: 0.9300
-- Precision: 0.9325
 ## Model description

 This model is a fine-tuned version of [vinai/phobert-base-v2](https://huggingface.co/vinai/phobert-base-v2) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.4657
+- Accuracy: 0.9407
+- F1 Score: 0.9319
+- Recall: 0.9326
+- Precision: 0.9319
 ## Model description

all_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "epoch": 26.08695652173913,
-    "eval_accuracy": 0.9323185648273987,
-    "eval_f1_score": 0.9261695691084951,
-    "eval_loss": 0.2873239815235138,
-    "eval_precision": 0.9319834922740233,
-    "eval_recall": 0.9216726996777184,
-    "eval_runtime": 6.6463,
-    "eval_samples_per_second": 553.538,
-    "eval_steps_per_second": 8.727,
-    "total_flos": 6579999363349350.0,
-    "train_loss": 0.31640464369455973,
-    "train_runtime": 3238.6183,
-    "train_samples_per_second": 158.092,
-    "train_steps_per_second": 1.235
 }

 {
+    "epoch": 34.78260869565217,
+    "eval_accuracy": 0.9407286568787384,
+    "eval_f1_score": 0.9319305111443131,
+    "eval_loss": 0.46566537022590637,
+    "eval_precision": 0.9319435555053062,
+    "eval_recall": 0.9325682397024007,
+    "eval_runtime": 6.6584,
+    "eval_samples_per_second": 552.385,
+    "eval_steps_per_second": 8.711,
+    "total_flos": 8662131210539100.0,
+    "train_loss": 0.4411096167564392,
+    "train_runtime": 3432.8242,
+    "train_samples_per_second": 149.148,
+    "train_steps_per_second": 1.165
 }

test_results.json CHANGED Viewed

@@ -1,11 +1,11 @@
 {
-    "epoch": 26.08695652173913,
-    "eval_accuracy": 0.9323185648273987,
-    "eval_f1_score": 0.9261695691084951,
-    "eval_loss": 0.2873239815235138,
-    "eval_precision": 0.9319834922740233,
-    "eval_recall": 0.9216726996777184,
-    "eval_runtime": 6.6463,
-    "eval_samples_per_second": 553.538,
-    "eval_steps_per_second": 8.727
 }

 {
+    "epoch": 34.78260869565217,
+    "eval_accuracy": 0.9407286568787384,
+    "eval_f1_score": 0.9319305111443131,
+    "eval_loss": 0.46566537022590637,
+    "eval_precision": 0.9319435555053062,
+    "eval_recall": 0.9325682397024007,
+    "eval_runtime": 6.6584,
+    "eval_samples_per_second": 552.385,
+    "eval_steps_per_second": 8.711
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 26.08695652173913,
-    "total_flos": 6579999363349350.0,
-    "train_loss": 0.31640464369455973,
-    "train_runtime": 3238.6183,
-    "train_samples_per_second": 158.092,
-    "train_steps_per_second": 1.235
 }

 {
+    "epoch": 34.78260869565217,
+    "total_flos": 8662131210539100.0,
+    "train_loss": 0.4411096167564392,
+    "train_runtime": 3432.8242,
+    "train_samples_per_second": 149.148,
+    "train_steps_per_second": 1.165
 }

trainer_state.json CHANGED Viewed

@@ -1,591 +1,781 @@
 {
-  "best_metric": 0.9261695691084951,
-  "best_model_checkpoint": "cls_comment-phobert-base-v2-v3.2.1/checkpoint-2000",
-  "epoch": 26.08695652173913,
   "eval_steps": 100,
-  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.8695652173913043,
-      "grad_norm": 2.4986989498138428,
       "learning_rate": 2.5e-06,
-      "loss": 1.8947,
       "step": 100
     },
     {
       "epoch": 0.8695652173913043,
-      "eval_accuracy": 0.4001087251970644,
-      "eval_f1_score": 0.08320411950694513,
-      "eval_loss": 1.68748140335083,
-      "eval_precision": 0.14637409036074248,
-      "eval_recall": 0.14367816091954025,
-      "eval_runtime": 6.6876,
-      "eval_samples_per_second": 550.125,
-      "eval_steps_per_second": 8.673,
       "step": 100
     },
     {
       "epoch": 1.7391304347826086,
-      "grad_norm": 1.596021294593811,
       "learning_rate": 5e-06,
-      "loss": 1.5395,
       "step": 200
     },
     {
       "epoch": 1.7391304347826086,
-      "eval_accuracy": 0.5849415602065778,
-      "eval_f1_score": 0.2355807809182458,
-      "eval_loss": 1.2897096872329712,
-      "eval_precision": 0.27516139357553443,
-      "eval_recall": 0.26320585050663253,
-      "eval_runtime": 6.7112,
-      "eval_samples_per_second": 548.189,
-      "eval_steps_per_second": 8.642,
       "step": 200
     },
     {
       "epoch": 2.608695652173913,
-      "grad_norm": 5.161496162414551,
       "learning_rate": 7.500000000000001e-06,
-      "loss": 1.1205,
       "step": 300
     },
     {
       "epoch": 2.608695652173913,
-      "eval_accuracy": 0.7999456374014677,
-      "eval_f1_score": 0.5833178086765388,
-      "eval_loss": 0.8468331098556519,
-      "eval_precision": 0.5889764394952819,
-      "eval_recall": 0.5810488238671468,
-      "eval_runtime": 6.6686,
-      "eval_samples_per_second": 551.694,
-      "eval_steps_per_second": 8.698,
       "step": 300
     },
     {
       "epoch": 3.4782608695652173,
-      "grad_norm": 5.227330207824707,
       "learning_rate": 1e-05,
-      "loss": 0.82,
       "step": 400
     },
     {
       "epoch": 3.4782608695652173,
-      "eval_accuracy": 0.8369122044033704,
-      "eval_f1_score": 0.6179371343772609,
-      "eval_loss": 0.6537477374076843,
-      "eval_precision": 0.6062100200393906,
-      "eval_recall": 0.6355302315827523,
-      "eval_runtime": 6.728,
-      "eval_samples_per_second": 546.823,
-      "eval_steps_per_second": 8.621,
       "step": 400
     },
     {
       "epoch": 4.3478260869565215,
-      "grad_norm": 5.6816534996032715,
       "learning_rate": 9.722222222222223e-06,
-      "loss": 0.6232,
       "step": 500
     },
     {
       "epoch": 4.3478260869565215,
-      "eval_accuracy": 0.8537646099483556,
-      "eval_f1_score": 0.633743239294036,
-      "eval_loss": 0.537100613117218,
-      "eval_precision": 0.7525070200257705,
-      "eval_recall": 0.6518017678843925,
-      "eval_runtime": 6.7932,
-      "eval_samples_per_second": 541.573,
-      "eval_steps_per_second": 8.538,
       "step": 500
     },
     {
       "epoch": 5.217391304347826,
-      "grad_norm": 5.096814155578613,
       "learning_rate": 9.444444444444445e-06,
-      "loss": 0.5148,
       "step": 600
     },
     {
       "epoch": 5.217391304347826,
-      "eval_accuracy": 0.872791519434629,
-      "eval_f1_score": 0.7299293979398146,
-      "eval_loss": 0.46505650877952576,
-      "eval_precision": 0.7548552896750885,
-      "eval_recall": 0.7210618976649555,
-      "eval_runtime": 6.7028,
-      "eval_samples_per_second": 548.875,
-      "eval_steps_per_second": 8.653,
       "step": 600
     },
     {
       "epoch": 6.086956521739131,
-      "grad_norm": 5.458530902862549,
       "learning_rate": 9.166666666666666e-06,
-      "loss": 0.4204,
       "step": 700
     },
     {
       "epoch": 6.086956521739131,
-      "eval_accuracy": 0.8869257950530035,
-      "eval_f1_score": 0.7654329783869755,
-      "eval_loss": 0.40097591280937195,
-      "eval_precision": 0.8914471413846636,
-      "eval_recall": 0.7712133932759179,
-      "eval_runtime": 6.7443,
-      "eval_samples_per_second": 545.497,
-      "eval_steps_per_second": 8.6,
       "step": 700
     },
     {
       "epoch": 6.956521739130435,
-      "grad_norm": 6.144416809082031,
       "learning_rate": 8.888888888888888e-06,
-      "loss": 0.3421,
       "step": 800
     },
     {
       "epoch": 6.956521739130435,
-      "eval_accuracy": 0.9051372655612938,
-      "eval_f1_score": 0.8713582894968701,
-      "eval_loss": 0.3648029565811157,
-      "eval_precision": 0.8940734807154502,
-      "eval_recall": 0.8588405388993653,
-      "eval_runtime": 6.7352,
-      "eval_samples_per_second": 546.232,
-      "eval_steps_per_second": 8.611,
       "step": 800
     },
     {
       "epoch": 7.826086956521739,
-      "grad_norm": 9.907292366027832,
       "learning_rate": 8.611111111111112e-06,
-      "loss": 0.2841,
       "step": 900
     },
     {
       "epoch": 7.826086956521739,
-      "eval_accuracy": 0.9181842892090242,
-      "eval_f1_score": 0.9006880118200489,
-      "eval_loss": 0.3239505887031555,
-      "eval_precision": 0.8978148514278343,
-      "eval_recall": 0.9038252102525616,
-      "eval_runtime": 6.7315,
-      "eval_samples_per_second": 546.532,
-      "eval_steps_per_second": 8.616,
       "step": 900
     },
     {
       "epoch": 8.695652173913043,
-      "grad_norm": 6.941843032836914,
       "learning_rate": 8.333333333333334e-06,
-      "loss": 0.2319,
       "step": 1000
     },
     {
       "epoch": 8.695652173913043,
-      "eval_accuracy": 0.9203587931503125,
-      "eval_f1_score": 0.9060754755748909,
-      "eval_loss": 0.3025033473968506,
-      "eval_precision": 0.9175362378163865,
-      "eval_recall": 0.8975903509513042,
-      "eval_runtime": 6.6908,
-      "eval_samples_per_second": 549.861,
-      "eval_steps_per_second": 8.669,
       "step": 1000
     },
     {
       "epoch": 9.565217391304348,
-      "grad_norm": 4.255012035369873,
       "learning_rate": 8.055555555555557e-06,
-      "loss": 0.205,
       "step": 1100
     },
     {
       "epoch": 9.565217391304348,
-      "eval_accuracy": 0.9209024191356346,
-      "eval_f1_score": 0.9098640550303895,
-      "eval_loss": 0.29862046241760254,
-      "eval_precision": 0.9123097696068861,
-      "eval_recall": 0.9086287269577242,
-      "eval_runtime": 6.7134,
-      "eval_samples_per_second": 548.01,
-      "eval_steps_per_second": 8.639,
       "step": 1100
     },
     {
       "epoch": 10.434782608695652,
-      "grad_norm": 5.848569393157959,
       "learning_rate": 7.77777777777778e-06,
-      "loss": 0.1783,
       "step": 1200
     },
     {
       "epoch": 10.434782608695652,
-      "eval_accuracy": 0.9206306061429737,
-      "eval_f1_score": 0.9104384776037051,
-      "eval_loss": 0.3047122657299042,
-      "eval_precision": 0.9024848857165658,
-      "eval_recall": 0.9207396220750284,
-      "eval_runtime": 6.6561,
-      "eval_samples_per_second": 552.726,
-      "eval_steps_per_second": 8.714,
       "step": 1200
     },
     {
       "epoch": 11.304347826086957,
-      "grad_norm": 7.340043544769287,
       "learning_rate": 7.500000000000001e-06,
-      "loss": 0.1587,
       "step": 1300
     },
     {
       "epoch": 11.304347826086957,
-      "eval_accuracy": 0.9296004349007883,
-      "eval_f1_score": 0.9202832724978299,
-      "eval_loss": 0.2757803201675415,
-      "eval_precision": 0.9233347498988893,
-      "eval_recall": 0.917658614989255,
-      "eval_runtime": 6.6787,
-      "eval_samples_per_second": 550.859,
-      "eval_steps_per_second": 8.684,
       "step": 1300
     },
     {
       "epoch": 12.173913043478262,
-      "grad_norm": 5.315700054168701,
       "learning_rate": 7.222222222222223e-06,
-      "loss": 0.1286,
       "step": 1400
     },
     {
       "epoch": 12.173913043478262,
-      "eval_accuracy": 0.9266104919815167,
-      "eval_f1_score": 0.9144278995332229,
-      "eval_loss": 0.29267847537994385,
-      "eval_precision": 0.9100638576136009,
-      "eval_recall": 0.9198715425139269,
-      "eval_runtime": 6.7676,
-      "eval_samples_per_second": 543.619,
-      "eval_steps_per_second": 8.57,
       "step": 1400
     },
     {
       "epoch": 13.043478260869565,
-      "grad_norm": 5.173799514770508,
       "learning_rate": 6.944444444444445e-06,
-      "loss": 0.1221,
       "step": 1500
     },
     {
       "epoch": 13.043478260869565,
-      "eval_accuracy": 0.9317749388420766,
-      "eval_f1_score": 0.9245023460604546,
-      "eval_loss": 0.28211963176727295,
-      "eval_precision": 0.9309417300478454,
-      "eval_recall": 0.9193579289135766,
-      "eval_runtime": 6.7091,
-      "eval_samples_per_second": 548.359,
-      "eval_steps_per_second": 8.645,
       "step": 1500
     },
     {
       "epoch": 13.91304347826087,
-      "grad_norm": 8.639619827270508,
       "learning_rate": 6.666666666666667e-06,
-      "loss": 0.1087,
       "step": 1600
     },
     {
       "epoch": 13.91304347826087,
-      "eval_accuracy": 0.9293286219081273,
-      "eval_f1_score": 0.9159607873769989,
-      "eval_loss": 0.27890825271606445,
-      "eval_precision": 0.9090390134661626,
-      "eval_recall": 0.9236924050215896,
-      "eval_runtime": 6.7017,
-      "eval_samples_per_second": 548.966,
-      "eval_steps_per_second": 8.655,
       "step": 1600
     },
     {
       "epoch": 14.782608695652174,
-      "grad_norm": 6.424872398376465,
       "learning_rate": 6.3888888888888885e-06,
-      "loss": 0.0982,
       "step": 1700
     },
     {
       "epoch": 14.782608695652174,
-      "eval_accuracy": 0.9290568089154662,
-      "eval_f1_score": 0.9196461825352048,
-      "eval_loss": 0.2833573520183563,
-      "eval_precision": 0.9187836187318232,
-      "eval_recall": 0.9213402050339831,
-      "eval_runtime": 6.7096,
-      "eval_samples_per_second": 548.32,
-      "eval_steps_per_second": 8.644,
       "step": 1700
     },
     {
       "epoch": 15.652173913043478,
-      "grad_norm": 4.618613243103027,
       "learning_rate": 6.111111111111112e-06,
-      "loss": 0.089,
       "step": 1800
     },
     {
       "epoch": 15.652173913043478,
-      "eval_accuracy": 0.9298722478934494,
-      "eval_f1_score": 0.9202166850732406,
-      "eval_loss": 0.28280356526374817,
-      "eval_precision": 0.9151663252588741,
-      "eval_recall": 0.9260674008256092,
-      "eval_runtime": 6.7345,
-      "eval_samples_per_second": 546.292,
-      "eval_steps_per_second": 8.612,
       "step": 1800
     },
     {
       "epoch": 16.52173913043478,
-      "grad_norm": 1.9568698406219482,
       "learning_rate": 5.833333333333334e-06,
-      "loss": 0.0795,
       "step": 1900
     },
     {
       "epoch": 16.52173913043478,
-      "eval_accuracy": 0.9331340038053819,
-      "eval_f1_score": 0.9244095368032713,
-      "eval_loss": 0.273701936006546,
-      "eval_precision": 0.925343846727414,
-      "eval_recall": 0.9238732382441093,
-      "eval_runtime": 6.7425,
-      "eval_samples_per_second": 545.641,
-      "eval_steps_per_second": 8.602,
       "step": 1900
     },
     {
       "epoch": 17.391304347826086,
-      "grad_norm": 2.161759614944458,
       "learning_rate": 5.555555555555557e-06,
-      "loss": 0.0684,
       "step": 2000
     },
     {
       "epoch": 17.391304347826086,
-      "eval_accuracy": 0.9323185648273987,
-      "eval_f1_score": 0.9261695691084951,
-      "eval_loss": 0.2873239815235138,
-      "eval_precision": 0.9319834922740233,
-      "eval_recall": 0.9216726996777184,
-      "eval_runtime": 6.7577,
-      "eval_samples_per_second": 544.415,
-      "eval_steps_per_second": 8.583,
       "step": 2000
     },
     {
       "epoch": 18.26086956521739,
-      "grad_norm": 4.607916355133057,
       "learning_rate": 5.2777777777777785e-06,
-      "loss": 0.0673,
       "step": 2100
     },
     {
       "epoch": 18.26086956521739,
-      "eval_accuracy": 0.9320467518347377,
-      "eval_f1_score": 0.925184613434992,
-      "eval_loss": 0.2904324531555176,
-      "eval_precision": 0.9332741752610002,
-      "eval_recall": 0.9184445089519725,
-      "eval_runtime": 6.7294,
-      "eval_samples_per_second": 546.702,
-      "eval_steps_per_second": 8.619,
       "step": 2100
     },
     {
       "epoch": 19.130434782608695,
-      "grad_norm": 6.327251434326172,
       "learning_rate": 5e-06,
-      "loss": 0.0571,
       "step": 2200
     },
     {
       "epoch": 19.130434782608695,
-      "eval_accuracy": 0.9293286219081273,
-      "eval_f1_score": 0.9221668516434853,
-      "eval_loss": 0.3166205883026123,
-      "eval_precision": 0.925137476734381,
-      "eval_recall": 0.920952609526737,
-      "eval_runtime": 6.7037,
-      "eval_samples_per_second": 548.799,
-      "eval_steps_per_second": 8.652,
       "step": 2200
     },
     {
       "epoch": 20.0,
-      "grad_norm": 9.082805633544922,
       "learning_rate": 4.722222222222222e-06,
-      "loss": 0.0561,
       "step": 2300
     },
     {
       "epoch": 20.0,
-      "eval_accuracy": 0.9317749388420766,
-      "eval_f1_score": 0.9221280725480369,
-      "eval_loss": 0.2922111749649048,
-      "eval_precision": 0.9150274852978553,
-      "eval_recall": 0.9297539237688469,
-      "eval_runtime": 6.7503,
-      "eval_samples_per_second": 545.017,
-      "eval_steps_per_second": 8.592,
       "step": 2300
     },
     {
       "epoch": 20.869565217391305,
-      "grad_norm": 5.283856391906738,
       "learning_rate": 4.444444444444444e-06,
-      "loss": 0.0511,
       "step": 2400
     },
     {
       "epoch": 20.869565217391305,
-      "eval_accuracy": 0.9315031258494156,
-      "eval_f1_score": 0.9190655007648246,
-      "eval_loss": 0.29927295446395874,
-      "eval_precision": 0.9088064828335735,
-      "eval_recall": 0.9303236730969998,
-      "eval_runtime": 6.7281,
-      "eval_samples_per_second": 546.809,
-      "eval_steps_per_second": 8.621,
       "step": 2400
     },
     {
       "epoch": 21.73913043478261,
-      "grad_norm": 6.0074896812438965,
       "learning_rate": 4.166666666666667e-06,
-      "loss": 0.0442,
       "step": 2500
     },
     {
       "epoch": 21.73913043478261,
-      "eval_accuracy": 0.9266104919815167,
-      "eval_f1_score": 0.9161795338292905,
-      "eval_loss": 0.32011494040489197,
-      "eval_precision": 0.9060451440252857,
-      "eval_recall": 0.9280493422296427,
-      "eval_runtime": 6.7127,
-      "eval_samples_per_second": 548.067,
-      "eval_steps_per_second": 8.64,
       "step": 2500
     },
     {
       "epoch": 22.608695652173914,
-      "grad_norm": 3.1078407764434814,
       "learning_rate": 3.88888888888889e-06,
-      "loss": 0.0447,
       "step": 2600
     },
     {
       "epoch": 22.608695652173914,
-      "eval_accuracy": 0.928241369937483,
-      "eval_f1_score": 0.9137497551284842,
-      "eval_loss": 0.3155056834220886,
-      "eval_precision": 0.9009580466238951,
-      "eval_recall": 0.9281730038314259,
-      "eval_runtime": 6.7337,
-      "eval_samples_per_second": 546.354,
-      "eval_steps_per_second": 8.613,
       "step": 2600
     },
     {
       "epoch": 23.47826086956522,
-      "grad_norm": 2.9584195613861084,
       "learning_rate": 3.6111111111111115e-06,
-      "loss": 0.0415,
       "step": 2700
     },
     {
       "epoch": 23.47826086956522,
-      "eval_accuracy": 0.9334058167980429,
-      "eval_f1_score": 0.9226018260362496,
-      "eval_loss": 0.30177852511405945,
-      "eval_precision": 0.9185179495480513,
-      "eval_recall": 0.9269833265460256,
-      "eval_runtime": 6.7411,
-      "eval_samples_per_second": 545.757,
-      "eval_steps_per_second": 8.604,
       "step": 2700
     },
     {
       "epoch": 24.347826086956523,
-      "grad_norm": 12.190321922302246,
       "learning_rate": 3.3333333333333333e-06,
-      "loss": 0.0359,
       "step": 2800
     },
     {
       "epoch": 24.347826086956523,
-      "eval_accuracy": 0.9298722478934494,
-      "eval_f1_score": 0.9177278989948806,
-      "eval_loss": 0.31918126344680786,
-      "eval_precision": 0.9062664068560837,
-      "eval_recall": 0.9308234663752396,
-      "eval_runtime": 6.7802,
-      "eval_samples_per_second": 542.606,
-      "eval_steps_per_second": 8.554,
       "step": 2800
     },
     {
       "epoch": 25.217391304347824,
-      "grad_norm": 0.2598835527896881,
       "learning_rate": 3.055555555555556e-06,
-      "loss": 0.0369,
       "step": 2900
     },
     {
       "epoch": 25.217391304347824,
-      "eval_accuracy": 0.933677629790704,
-      "eval_f1_score": 0.9210521238209074,
-      "eval_loss": 0.3063570559024811,
-      "eval_precision": 0.9140578271273506,
-      "eval_recall": 0.9285610502121662,
-      "eval_runtime": 6.7729,
-      "eval_samples_per_second": 543.197,
-      "eval_steps_per_second": 8.564,
       "step": 2900
     },
     {
       "epoch": 26.08695652173913,
-      "grad_norm": 0.24433408677577972,
       "learning_rate": 2.7777777777777783e-06,
-      "loss": 0.0296,
       "step": 3000
     },
     {
       "epoch": 26.08695652173913,
-      "eval_accuracy": 0.9328621908127208,
-      "eval_f1_score": 0.9237047805131925,
-      "eval_loss": 0.311038613319397,
-      "eval_precision": 0.9198460229141495,
-      "eval_recall": 0.9279424126946928,
-      "eval_runtime": 6.8161,
-      "eval_samples_per_second": 539.754,
-      "eval_steps_per_second": 8.509,
       "step": 3000
     },
     {
-      "epoch": 26.08695652173913,
-      "step": 3000,
-      "total_flos": 6579999363349350.0,
-      "train_loss": 0.31640464369455973,
-      "train_runtime": 3238.6183,
-      "train_samples_per_second": 158.092,
-      "train_steps_per_second": 1.235
     }
   ],
   "logging_steps": 100,
@@ -593,7 +783,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 35,
   "save_steps": 100,
-  "total_flos": 6579999363349350.0,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.9319305111443131,
+  "best_model_checkpoint": "cls_comment-phobert-base-v2-v3.2.1/checkpoint-3700",
+  "epoch": 34.78260869565217,
   "eval_steps": 100,
+  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.8695652173913043,
+      "grad_norm": 1.2353936433792114,
       "learning_rate": 2.5e-06,
+      "loss": 1.8571,
       "step": 100
     },
     {
       "epoch": 0.8695652173913043,
+      "eval_accuracy": 0.3985861881457314,
+      "eval_f1_score": 0.08142634970006665,
+      "eval_loss": 1.6996082067489624,
+      "eval_precision": 0.05694088402081877,
+      "eval_recall": 0.14285714285714285,
+      "eval_runtime": 6.7198,
+      "eval_samples_per_second": 547.337,
+      "eval_steps_per_second": 8.631,
       "step": 100
     },
     {
       "epoch": 1.7391304347826086,
+      "grad_norm": 2.164222240447998,
       "learning_rate": 5e-06,
+      "loss": 1.552,
       "step": 200
     },
     {
       "epoch": 1.7391304347826086,
+      "eval_accuracy": 0.6150081566068516,
+      "eval_f1_score": 0.25519317041574235,
+      "eval_loss": 1.287759780883789,
+      "eval_precision": 0.27379414130499563,
+      "eval_recall": 0.28595668999910956,
+      "eval_runtime": 6.6372,
+      "eval_samples_per_second": 554.145,
+      "eval_steps_per_second": 8.739,
       "step": 200
     },
     {
       "epoch": 2.608695652173913,
+      "grad_norm": 5.309168815612793,
       "learning_rate": 7.500000000000001e-06,
+      "loss": 1.1701,
       "step": 300
     },
     {
       "epoch": 2.608695652173913,
+      "eval_accuracy": 0.7746057640021751,
+      "eval_f1_score": 0.5380183437718388,
+      "eval_loss": 0.9308958649635315,
+      "eval_precision": 0.5797370934127978,
+      "eval_recall": 0.5249138773909011,
+      "eval_runtime": 6.5583,
+      "eval_samples_per_second": 560.819,
+      "eval_steps_per_second": 8.844,
       "step": 300
     },
     {
       "epoch": 3.4782608695652173,
+      "grad_norm": 6.065152645111084,
       "learning_rate": 1e-05,
+      "loss": 0.8958,
       "step": 400
     },
     {
       "epoch": 3.4782608695652173,
+      "eval_accuracy": 0.8371397498640566,
+      "eval_f1_score": 0.6099241108684058,
+      "eval_loss": 0.7467954754829407,
+      "eval_precision": 0.6113332602554015,
+      "eval_recall": 0.6120619930302185,
+      "eval_runtime": 6.7113,
+      "eval_samples_per_second": 548.029,
+      "eval_steps_per_second": 8.642,
       "step": 400
     },
     {
       "epoch": 4.3478260869565215,
+      "grad_norm": 6.0916032791137695,
       "learning_rate": 9.722222222222223e-06,
+      "loss": 0.7463,
       "step": 500
     },
     {
       "epoch": 4.3478260869565215,
+      "eval_accuracy": 0.8640565524741708,
+      "eval_f1_score": 0.6758460592010713,
+      "eval_loss": 0.6539974808692932,
+      "eval_precision": 0.7556366523817865,
+      "eval_recall": 0.6741270736536388,
+      "eval_runtime": 6.6507,
+      "eval_samples_per_second": 553.021,
+      "eval_steps_per_second": 8.721,
       "step": 500
     },
     {
       "epoch": 5.217391304347826,
+      "grad_norm": 5.243598461151123,
       "learning_rate": 9.444444444444445e-06,
+      "loss": 0.6489,
       "step": 600
     },
     {
       "epoch": 5.217391304347826,
+      "eval_accuracy": 0.8866231647634584,
+      "eval_f1_score": 0.7501544920720539,
+      "eval_loss": 0.5884435772895813,
+      "eval_precision": 0.7611116878989773,
+      "eval_recall": 0.7443224665881154,
+      "eval_runtime": 6.5994,
+      "eval_samples_per_second": 557.321,
+      "eval_steps_per_second": 8.789,
       "step": 600
     },
     {
       "epoch": 6.086956521739131,
+      "grad_norm": 4.099198341369629,
       "learning_rate": 9.166666666666666e-06,
+      "loss": 0.5604,
       "step": 700
     },
     {
       "epoch": 6.086956521739131,
+      "eval_accuracy": 0.9010331702011963,
+      "eval_f1_score": 0.8349576474350455,
+      "eval_loss": 0.5296739339828491,
+      "eval_precision": 0.906039613501241,
+      "eval_recall": 0.8195735271786126,
+      "eval_runtime": 6.5841,
+      "eval_samples_per_second": 558.615,
+      "eval_steps_per_second": 8.809,
       "step": 700
     },
     {
       "epoch": 6.956521739130435,
+      "grad_norm": 7.3427557945251465,
       "learning_rate": 8.888888888888888e-06,
+      "loss": 0.4907,
       "step": 800
     },
     {
       "epoch": 6.956521739130435,
+      "eval_accuracy": 0.9170744970092441,
+      "eval_f1_score": 0.8961939258721013,
+      "eval_loss": 0.4928275942802429,
+      "eval_precision": 0.9189847475576503,
+      "eval_recall": 0.8769461858418355,
+      "eval_runtime": 6.5949,
+      "eval_samples_per_second": 557.707,
+      "eval_steps_per_second": 8.795,
       "step": 800
     },
     {
       "epoch": 7.826086956521739,
+      "grad_norm": 5.116893768310547,
       "learning_rate": 8.611111111111112e-06,
+      "loss": 0.4428,
       "step": 900
     },
     {
       "epoch": 7.826086956521739,
+      "eval_accuracy": 0.921968461120174,
+      "eval_f1_score": 0.9048377528141078,
+      "eval_loss": 0.46924909949302673,
+      "eval_precision": 0.9169978450568272,
+      "eval_recall": 0.8957923531168384,
+      "eval_runtime": 6.6744,
+      "eval_samples_per_second": 551.061,
+      "eval_steps_per_second": 8.69,
       "step": 900
     },
     {
       "epoch": 8.695652173913043,
+      "grad_norm": 3.862825393676758,
       "learning_rate": 8.333333333333334e-06,
+      "loss": 0.4086,
       "step": 1000
     },
     {
       "epoch": 8.695652173913043,
+      "eval_accuracy": 0.9235997824904839,
+      "eval_f1_score": 0.9073197371323319,
+      "eval_loss": 0.4600367546081543,
+      "eval_precision": 0.8977722877003532,
+      "eval_recall": 0.9183169396463787,
+      "eval_runtime": 6.5594,
+      "eval_samples_per_second": 560.722,
+      "eval_steps_per_second": 8.842,
       "step": 1000
     },
     {
       "epoch": 9.565217391304348,
+      "grad_norm": 3.6134090423583984,
       "learning_rate": 8.055555555555557e-06,
+      "loss": 0.3892,
       "step": 1100
     },
     {
       "epoch": 9.565217391304348,
+      "eval_accuracy": 0.9293094072865687,
+      "eval_f1_score": 0.9155883832712851,
+      "eval_loss": 0.45303475856781006,
+      "eval_precision": 0.9155788758247504,
+      "eval_recall": 0.9158764039642001,
+      "eval_runtime": 6.5742,
+      "eval_samples_per_second": 559.46,
+      "eval_steps_per_second": 8.822,
       "step": 1100
     },
     {
       "epoch": 10.434782608695652,
+      "grad_norm": 6.361451148986816,
       "learning_rate": 7.77777777777778e-06,
+      "loss": 0.3659,
       "step": 1200
     },
     {
       "epoch": 10.434782608695652,
+      "eval_accuracy": 0.9257748776508973,
+      "eval_f1_score": 0.915368183730898,
+      "eval_loss": 0.4573982357978821,
+      "eval_precision": 0.9071440635058929,
+      "eval_recall": 0.9257672878056209,
+      "eval_runtime": 6.6383,
+      "eval_samples_per_second": 554.054,
+      "eval_steps_per_second": 8.737,
       "step": 1200
     },
     {
       "epoch": 11.304347826086957,
+      "grad_norm": 6.6150312423706055,
       "learning_rate": 7.500000000000001e-06,
+      "loss": 0.3577,
       "step": 1300
     },
     {
       "epoch": 11.304347826086957,
+      "eval_accuracy": 0.9287656334964655,
+      "eval_f1_score": 0.9158955580622885,
+      "eval_loss": 0.45325955748558044,
+      "eval_precision": 0.9151528325914676,
+      "eval_recall": 0.9176855536409609,
+      "eval_runtime": 6.6572,
+      "eval_samples_per_second": 552.485,
+      "eval_steps_per_second": 8.712,
       "step": 1300
     },
     {
       "epoch": 12.173913043478262,
+      "grad_norm": 5.580691814422607,
       "learning_rate": 7.222222222222223e-06,
+      "loss": 0.338,
       "step": 1400
     },
     {
       "epoch": 12.173913043478262,
+      "eval_accuracy": 0.933931484502447,
+      "eval_f1_score": 0.9203137031893097,
+      "eval_loss": 0.44535157084465027,
+      "eval_precision": 0.9127875535751154,
+      "eval_recall": 0.9284587781330601,
+      "eval_runtime": 6.607,
+      "eval_samples_per_second": 556.686,
+      "eval_steps_per_second": 8.779,
       "step": 1400
     },
     {
       "epoch": 13.043478260869565,
+      "grad_norm": 3.8554763793945312,
       "learning_rate": 6.944444444444445e-06,
+      "loss": 0.3302,
       "step": 1500
     },
     {
       "epoch": 13.043478260869565,
+      "eval_accuracy": 0.9312126155519304,
+      "eval_f1_score": 0.9179345627885324,
+      "eval_loss": 0.4539467692375183,
+      "eval_precision": 0.919620307390688,
+      "eval_recall": 0.9172409654840804,
+      "eval_runtime": 6.6136,
+      "eval_samples_per_second": 556.129,
+      "eval_steps_per_second": 8.77,
       "step": 1500
     },
     {
       "epoch": 13.91304347826087,
+      "grad_norm": 11.763055801391602,
       "learning_rate": 6.666666666666667e-06,
+      "loss": 0.3186,
       "step": 1600
     },
     {
       "epoch": 13.91304347826087,
+      "eval_accuracy": 0.9320282762370854,
+      "eval_f1_score": 0.9219566242363927,
+      "eval_loss": 0.4532802700996399,
+      "eval_precision": 0.9298453666516142,
+      "eval_recall": 0.914622870958479,
+      "eval_runtime": 6.6786,
+      "eval_samples_per_second": 550.714,
+      "eval_steps_per_second": 8.684,
       "step": 1600
     },
     {
       "epoch": 14.782608695652174,
+      "grad_norm": 4.790759563446045,
       "learning_rate": 6.3888888888888885e-06,
+      "loss": 0.3146,
       "step": 1700
     },
     {
       "epoch": 14.782608695652174,
+      "eval_accuracy": 0.935562805872757,
+      "eval_f1_score": 0.9245866574233509,
+      "eval_loss": 0.4484989047050476,
+      "eval_precision": 0.9280507721712984,
+      "eval_recall": 0.9224481039362212,
+      "eval_runtime": 6.5869,
+      "eval_samples_per_second": 558.384,
+      "eval_steps_per_second": 8.805,
       "step": 1700
     },
     {
       "epoch": 15.652173913043478,
+      "grad_norm": 5.715475559234619,
       "learning_rate": 6.111111111111112e-06,
+      "loss": 0.3093,
       "step": 1800
     },
     {
       "epoch": 15.652173913043478,
+      "eval_accuracy": 0.9325720500271887,
+      "eval_f1_score": 0.9193696012739166,
+      "eval_loss": 0.45573264360427856,
+      "eval_precision": 0.9290964969084188,
+      "eval_recall": 0.9124598145426113,
+      "eval_runtime": 6.6184,
+      "eval_samples_per_second": 555.721,
+      "eval_steps_per_second": 8.763,
       "step": 1800
     },
     {
       "epoch": 16.52173913043478,
+      "grad_norm": 7.8289079666137695,
       "learning_rate": 5.833333333333334e-06,
+      "loss": 0.3019,
       "step": 1900
     },
     {
       "epoch": 16.52173913043478,
+      "eval_accuracy": 0.9290375203915171,
+      "eval_f1_score": 0.9169347716468026,
+      "eval_loss": 0.46843111515045166,
+      "eval_precision": 0.9128246753731022,
+      "eval_recall": 0.923370474591805,
+      "eval_runtime": 6.6032,
+      "eval_samples_per_second": 557.0,
+      "eval_steps_per_second": 8.784,
       "step": 1900
     },
     {
       "epoch": 17.391304347826086,
+      "grad_norm": 5.883206844329834,
       "learning_rate": 5.555555555555557e-06,
+      "loss": 0.2985,
       "step": 2000
     },
     {
       "epoch": 17.391304347826086,
+      "eval_accuracy": 0.9347471451876019,
+      "eval_f1_score": 0.92475047525614,
+      "eval_loss": 0.4544869661331177,
+      "eval_precision": 0.9259386916015938,
+      "eval_recall": 0.9237552045152712,
+      "eval_runtime": 6.6237,
+      "eval_samples_per_second": 555.275,
+      "eval_steps_per_second": 8.756,
       "step": 2000
     },
     {
       "epoch": 18.26086956521739,
+      "grad_norm": 8.993196487426758,
       "learning_rate": 5.2777777777777785e-06,
+      "loss": 0.2959,
       "step": 2100
     },
     {
       "epoch": 18.26086956521739,
+      "eval_accuracy": 0.9333877107123436,
+      "eval_f1_score": 0.9219602449474701,
+      "eval_loss": 0.46893206238746643,
+      "eval_precision": 0.92490748541024,
+      "eval_recall": 0.9208243882860574,
+      "eval_runtime": 6.7132,
+      "eval_samples_per_second": 547.875,
+      "eval_steps_per_second": 8.64,
       "step": 2100
     },
     {
       "epoch": 19.130434782608695,
+      "grad_norm": 6.87612771987915,
       "learning_rate": 5e-06,
+      "loss": 0.2891,
       "step": 2200
     },
     {
       "epoch": 19.130434782608695,
+      "eval_accuracy": 0.9385535617183252,
+      "eval_f1_score": 0.9262085591552154,
+      "eval_loss": 0.4558440148830414,
+      "eval_precision": 0.9360271609767613,
+      "eval_recall": 0.9180112460726695,
+      "eval_runtime": 6.5974,
+      "eval_samples_per_second": 557.491,
+      "eval_steps_per_second": 8.791,
       "step": 2200
     },
     {
       "epoch": 20.0,
+      "grad_norm": 8.078782081604004,
       "learning_rate": 4.722222222222222e-06,
+      "loss": 0.2905,
       "step": 2300
     },
     {
       "epoch": 20.0,
+      "eval_accuracy": 0.9358346927678086,
+      "eval_f1_score": 0.9227437963525783,
+      "eval_loss": 0.45897340774536133,
+      "eval_precision": 0.9307760201675803,
+      "eval_recall": 0.9162662496043394,
+      "eval_runtime": 6.6433,
+      "eval_samples_per_second": 553.643,
+      "eval_steps_per_second": 8.731,
       "step": 2300
     },
     {
       "epoch": 20.869565217391305,
+      "grad_norm": 6.95852518081665,
       "learning_rate": 4.444444444444444e-06,
+      "loss": 0.2875,
       "step": 2400
     },
     {
       "epoch": 20.869565217391305,
+      "eval_accuracy": 0.9306688417618271,
+      "eval_f1_score": 0.9192946959387055,
+      "eval_loss": 0.4796580672264099,
+      "eval_precision": 0.9267958791034487,
+      "eval_recall": 0.9145913486548557,
+      "eval_runtime": 6.5982,
+      "eval_samples_per_second": 557.426,
+      "eval_steps_per_second": 8.79,
       "step": 2400
     },
     {
       "epoch": 21.73913043478261,
+      "grad_norm": 5.104602336883545,
       "learning_rate": 4.166666666666667e-06,
+      "loss": 0.2812,
       "step": 2500
     },
     {
       "epoch": 21.73913043478261,
+      "eval_accuracy": 0.935562805872757,
+      "eval_f1_score": 0.9246927415584684,
+      "eval_loss": 0.46965479850769043,
+      "eval_precision": 0.9241768322453005,
+      "eval_recall": 0.9257346798390873,
+      "eval_runtime": 6.6685,
+      "eval_samples_per_second": 551.547,
+      "eval_steps_per_second": 8.698,
       "step": 2500
     },
     {
       "epoch": 22.608695652173914,
+      "grad_norm": 1.9872806072235107,
       "learning_rate": 3.88888888888889e-06,
+      "loss": 0.2789,
       "step": 2600
     },
     {
       "epoch": 22.608695652173914,
+      "eval_accuracy": 0.9380097879282219,
+      "eval_f1_score": 0.9255376836601789,
+      "eval_loss": 0.46675482392311096,
+      "eval_precision": 0.9271185300366118,
+      "eval_recall": 0.9250032647695392,
+      "eval_runtime": 6.6231,
+      "eval_samples_per_second": 555.328,
+      "eval_steps_per_second": 8.757,
       "step": 2600
     },
     {
       "epoch": 23.47826086956522,
+      "grad_norm": 4.836044788360596,
       "learning_rate": 3.6111111111111115e-06,
+      "loss": 0.2785,
       "step": 2700
     },
     {
       "epoch": 23.47826086956522,
+      "eval_accuracy": 0.9382816748232735,
+      "eval_f1_score": 0.9293325929996209,
+      "eval_loss": 0.4671032130718231,
+      "eval_precision": 0.9288859327813286,
+      "eval_recall": 0.9301070328166979,
+      "eval_runtime": 6.6888,
+      "eval_samples_per_second": 549.877,
+      "eval_steps_per_second": 8.671,
       "step": 2700
     },
     {
       "epoch": 24.347826086956523,
+      "grad_norm": 2.3744585514068604,
       "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.2773,
       "step": 2800
     },
     {
       "epoch": 24.347826086956523,
+      "eval_accuracy": 0.9390973355084284,
+      "eval_f1_score": 0.9293323313487988,
+      "eval_loss": 0.46571776270866394,
+      "eval_precision": 0.9327721009515447,
+      "eval_recall": 0.927360363082818,
+      "eval_runtime": 6.6343,
+      "eval_samples_per_second": 554.389,
+      "eval_steps_per_second": 8.742,
       "step": 2800
     },
     {
       "epoch": 25.217391304347824,
+      "grad_norm": 4.463809490203857,
       "learning_rate": 3.055555555555556e-06,
+      "loss": 0.2814,
       "step": 2900
     },
     {
       "epoch": 25.217391304347824,
+      "eval_accuracy": 0.9361065796628603,
+      "eval_f1_score": 0.9259199302104238,
+      "eval_loss": 0.47015631198883057,
+      "eval_precision": 0.924434133110186,
+      "eval_recall": 0.9285494955527653,
+      "eval_runtime": 6.6115,
+      "eval_samples_per_second": 556.303,
+      "eval_steps_per_second": 8.773,
       "step": 2900
     },
     {
       "epoch": 26.08695652173913,
+      "grad_norm": 11.97252082824707,
       "learning_rate": 2.7777777777777783e-06,
+      "loss": 0.2744,
       "step": 3000
     },
     {
       "epoch": 26.08695652173913,
+      "eval_accuracy": 0.9352909189777052,
+      "eval_f1_score": 0.9273773946315609,
+      "eval_loss": 0.4731716811656952,
+      "eval_precision": 0.9272954212892072,
+      "eval_recall": 0.929014459015713,
+      "eval_runtime": 6.6523,
+      "eval_samples_per_second": 552.888,
+      "eval_steps_per_second": 8.719,
       "step": 3000
     },
     {
+      "epoch": 26.956521739130434,
+      "grad_norm": 8.698735237121582,
+      "learning_rate": 2.5e-06,
+      "loss": 0.2772,
+      "step": 3100
+    },
+    {
+      "epoch": 26.956521739130434,
+      "eval_accuracy": 0.9388254486133768,
+      "eval_f1_score": 0.9280828388852939,
+      "eval_loss": 0.46764281392097473,
+      "eval_precision": 0.9264283970809257,
+      "eval_recall": 0.9301128430609281,
+      "eval_runtime": 6.6577,
+      "eval_samples_per_second": 552.441,
+      "eval_steps_per_second": 8.712,
+      "step": 3100
+    },
+    {
+      "epoch": 27.82608695652174,
+      "grad_norm": 9.868401527404785,
+      "learning_rate": 2.222222222222222e-06,
+      "loss": 0.2736,
+      "step": 3200
+    },
+    {
+      "epoch": 27.82608695652174,
+      "eval_accuracy": 0.9393692224034802,
+      "eval_f1_score": 0.9280880031444269,
+      "eval_loss": 0.46609246730804443,
+      "eval_precision": 0.9325449452470522,
+      "eval_recall": 0.9241991833476634,
+      "eval_runtime": 6.6629,
+      "eval_samples_per_second": 552.016,
+      "eval_steps_per_second": 8.705,
+      "step": 3200
+    },
+    {
+      "epoch": 28.695652173913043,
+      "grad_norm": 13.52723217010498,
+      "learning_rate": 1.944444444444445e-06,
+      "loss": 0.2754,
+      "step": 3300
+    },
+    {
+      "epoch": 28.695652173913043,
+      "eval_accuracy": 0.9366503534529635,
+      "eval_f1_score": 0.925681100132558,
+      "eval_loss": 0.4745844602584839,
+      "eval_precision": 0.9287802003680891,
+      "eval_recall": 0.9233293953593443,
+      "eval_runtime": 6.6962,
+      "eval_samples_per_second": 549.264,
+      "eval_steps_per_second": 8.662,
+      "step": 3300
+    },
+    {
+      "epoch": 29.565217391304348,
+      "grad_norm": 0.09545432776212692,
+      "learning_rate": 1.6666666666666667e-06,
+      "loss": 0.2717,
+      "step": 3400
+    },
+    {
+      "epoch": 29.565217391304348,
+      "eval_accuracy": 0.9380097879282219,
+      "eval_f1_score": 0.9283345025534331,
+      "eval_loss": 0.46884092688560486,
+      "eval_precision": 0.9315263692536144,
+      "eval_recall": 0.925530596287616,
+      "eval_runtime": 6.6275,
+      "eval_samples_per_second": 554.958,
+      "eval_steps_per_second": 8.751,
+      "step": 3400
+    },
+    {
+      "epoch": 30.434782608695652,
+      "grad_norm": 1.8131216764450073,
+      "learning_rate": 1.3888888888888892e-06,
+      "loss": 0.27,
+      "step": 3500
+    },
+    {
+      "epoch": 30.434782608695652,
+      "eval_accuracy": 0.9388254486133768,
+      "eval_f1_score": 0.9303895468552515,
+      "eval_loss": 0.4696621894836426,
+      "eval_precision": 0.9308188528131611,
+      "eval_recall": 0.9307349860958422,
+      "eval_runtime": 6.6391,
+      "eval_samples_per_second": 553.987,
+      "eval_steps_per_second": 8.736,
+      "step": 3500
+    },
+    {
+      "epoch": 31.304347826086957,
+      "grad_norm": 1.2362151145935059,
+      "learning_rate": 1.111111111111111e-06,
+      "loss": 0.2674,
+      "step": 3600
+    },
+    {
+      "epoch": 31.304347826086957,
+      "eval_accuracy": 0.9390973355084284,
+      "eval_f1_score": 0.9273897248556044,
+      "eval_loss": 0.466818243265152,
+      "eval_precision": 0.9240182135116143,
+      "eval_recall": 0.9311490745870729,
+      "eval_runtime": 6.6874,
+      "eval_samples_per_second": 549.992,
+      "eval_steps_per_second": 8.673,
+      "step": 3600
+    },
+    {
+      "epoch": 32.17391304347826,
+      "grad_norm": 6.612317085266113,
+      "learning_rate": 8.333333333333333e-07,
+      "loss": 0.2693,
+      "step": 3700
+    },
+    {
+      "epoch": 32.17391304347826,
+      "eval_accuracy": 0.9407286568787384,
+      "eval_f1_score": 0.9319305111443131,
+      "eval_loss": 0.46566537022590637,
+      "eval_precision": 0.9319435555053062,
+      "eval_recall": 0.9325682397024007,
+      "eval_runtime": 6.6594,
+      "eval_samples_per_second": 552.298,
+      "eval_steps_per_second": 8.709,
+      "step": 3700
+    },
+    {
+      "epoch": 33.04347826086956,
+      "grad_norm": 3.6944832801818848,
+      "learning_rate": 5.555555555555555e-07,
+      "loss": 0.2685,
+      "step": 3800
+    },
+    {
+      "epoch": 33.04347826086956,
+      "eval_accuracy": 0.9401848830886351,
+      "eval_f1_score": 0.9298408543588726,
+      "eval_loss": 0.46719253063201904,
+      "eval_precision": 0.9297325884730158,
+      "eval_recall": 0.9303720415200172,
+      "eval_runtime": 6.6751,
+      "eval_samples_per_second": 551.006,
+      "eval_steps_per_second": 8.689,
+      "step": 3800
+    },
+    {
+      "epoch": 33.91304347826087,
+      "grad_norm": 0.5045357346534729,
+      "learning_rate": 2.7777777777777776e-07,
+      "loss": 0.268,
+      "step": 3900
+    },
+    {
+      "epoch": 33.91304347826087,
+      "eval_accuracy": 0.94100054377379,
+      "eval_f1_score": 0.9316787163771599,
+      "eval_loss": 0.46683618426322937,
+      "eval_precision": 0.9328330606111085,
+      "eval_recall": 0.9311209947261558,
+      "eval_runtime": 6.6584,
+      "eval_samples_per_second": 552.388,
+      "eval_steps_per_second": 8.711,
+      "step": 3900
+    },
+    {
+      "epoch": 34.78260869565217,
+      "grad_norm": 0.15777729451656342,
+      "learning_rate": 0.0,
+      "loss": 0.272,
+      "step": 4000
+    },
+    {
+      "epoch": 34.78260869565217,
+      "eval_accuracy": 0.9401848830886351,
+      "eval_f1_score": 0.9309979115269789,
+      "eval_loss": 0.46536290645599365,
+      "eval_precision": 0.9324573806162856,
+      "eval_recall": 0.9300452091014509,
+      "eval_runtime": 6.6565,
+      "eval_samples_per_second": 552.546,
+      "eval_steps_per_second": 8.713,
+      "step": 4000
+    },
+    {
+      "epoch": 34.78260869565217,
+      "step": 4000,
+      "total_flos": 8662131210539100.0,
+      "train_loss": 0.4411096167564392,
+      "train_runtime": 3432.8242,
+      "train_samples_per_second": 149.148,
+      "train_steps_per_second": 1.165
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 35,
   "save_steps": 100,
+  "total_flos": 8662131210539100.0,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null