End of training

Browse files

Files changed (5) hide show

README.md +5 -5
all_results.json +16 -0
test_results.json +11 -0
train_results.json +8 -0
trainer_state.json +600 -0

README.md CHANGED Viewed

@@ -18,11 +18,11 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [vinai/phobert-base-v2](https://huggingface.co/vinai/phobert-base-v2) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.3110
-- Accuracy: 0.9329
-- F1 Score: 0.9237
-- Recall: 0.9279
-- Precision: 0.9198
 ## Model description

 This model is a fine-tuned version of [vinai/phobert-base-v2](https://huggingface.co/vinai/phobert-base-v2) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.2873
+- Accuracy: 0.9323
+- F1 Score: 0.9262
+- Recall: 0.9217
+- Precision: 0.9320
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "epoch": 26.08695652173913,
+    "eval_accuracy": 0.9323185648273987,
+    "eval_f1_score": 0.9261695691084951,
+    "eval_loss": 0.2873239815235138,
+    "eval_precision": 0.9319834922740233,
+    "eval_recall": 0.9216726996777184,
+    "eval_runtime": 6.6463,
+    "eval_samples_per_second": 553.538,
+    "eval_steps_per_second": 8.727,
+    "total_flos": 6579999363349350.0,
+    "train_loss": 0.31640464369455973,
+    "train_runtime": 3238.6183,
+    "train_samples_per_second": 158.092,
+    "train_steps_per_second": 1.235
+}

test_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "epoch": 26.08695652173913,
+    "eval_accuracy": 0.9323185648273987,
+    "eval_f1_score": 0.9261695691084951,
+    "eval_loss": 0.2873239815235138,
+    "eval_precision": 0.9319834922740233,
+    "eval_recall": 0.9216726996777184,
+    "eval_runtime": 6.6463,
+    "eval_samples_per_second": 553.538,
+    "eval_steps_per_second": 8.727
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 26.08695652173913,
+    "total_flos": 6579999363349350.0,
+    "train_loss": 0.31640464369455973,
+    "train_runtime": 3238.6183,
+    "train_samples_per_second": 158.092,
+    "train_steps_per_second": 1.235
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,600 @@

+{
+  "best_metric": 0.9261695691084951,
+  "best_model_checkpoint": "cls_comment-phobert-base-v2-v3.2.1/checkpoint-2000",
+  "epoch": 26.08695652173913,
+  "eval_steps": 100,
+  "global_step": 3000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.8695652173913043,
+      "grad_norm": 2.4986989498138428,
+      "learning_rate": 2.5e-06,
+      "loss": 1.8947,
+      "step": 100
+    },
+    {
+      "epoch": 0.8695652173913043,
+      "eval_accuracy": 0.4001087251970644,
+      "eval_f1_score": 0.08320411950694513,
+      "eval_loss": 1.68748140335083,
+      "eval_precision": 0.14637409036074248,
+      "eval_recall": 0.14367816091954025,
+      "eval_runtime": 6.6876,
+      "eval_samples_per_second": 550.125,
+      "eval_steps_per_second": 8.673,
+      "step": 100
+    },
+    {
+      "epoch": 1.7391304347826086,
+      "grad_norm": 1.596021294593811,
+      "learning_rate": 5e-06,
+      "loss": 1.5395,
+      "step": 200
+    },
+    {
+      "epoch": 1.7391304347826086,
+      "eval_accuracy": 0.5849415602065778,
+      "eval_f1_score": 0.2355807809182458,
+      "eval_loss": 1.2897096872329712,
+      "eval_precision": 0.27516139357553443,
+      "eval_recall": 0.26320585050663253,
+      "eval_runtime": 6.7112,
+      "eval_samples_per_second": 548.189,
+      "eval_steps_per_second": 8.642,
+      "step": 200
+    },
+    {
+      "epoch": 2.608695652173913,
+      "grad_norm": 5.161496162414551,
+      "learning_rate": 7.500000000000001e-06,
+      "loss": 1.1205,
+      "step": 300
+    },
+    {
+      "epoch": 2.608695652173913,
+      "eval_accuracy": 0.7999456374014677,
+      "eval_f1_score": 0.5833178086765388,
+      "eval_loss": 0.8468331098556519,
+      "eval_precision": 0.5889764394952819,
+      "eval_recall": 0.5810488238671468,
+      "eval_runtime": 6.6686,
+      "eval_samples_per_second": 551.694,
+      "eval_steps_per_second": 8.698,
+      "step": 300
+    },
+    {
+      "epoch": 3.4782608695652173,
+      "grad_norm": 5.227330207824707,
+      "learning_rate": 1e-05,
+      "loss": 0.82,
+      "step": 400
+    },
+    {
+      "epoch": 3.4782608695652173,
+      "eval_accuracy": 0.8369122044033704,
+      "eval_f1_score": 0.6179371343772609,
+      "eval_loss": 0.6537477374076843,
+      "eval_precision": 0.6062100200393906,
+      "eval_recall": 0.6355302315827523,
+      "eval_runtime": 6.728,
+      "eval_samples_per_second": 546.823,
+      "eval_steps_per_second": 8.621,
+      "step": 400
+    },
+    {
+      "epoch": 4.3478260869565215,
+      "grad_norm": 5.6816534996032715,
+      "learning_rate": 9.722222222222223e-06,
+      "loss": 0.6232,
+      "step": 500
+    },
+    {
+      "epoch": 4.3478260869565215,
+      "eval_accuracy": 0.8537646099483556,
+      "eval_f1_score": 0.633743239294036,
+      "eval_loss": 0.537100613117218,
+      "eval_precision": 0.7525070200257705,
+      "eval_recall": 0.6518017678843925,
+      "eval_runtime": 6.7932,
+      "eval_samples_per_second": 541.573,
+      "eval_steps_per_second": 8.538,
+      "step": 500
+    },
+    {
+      "epoch": 5.217391304347826,
+      "grad_norm": 5.096814155578613,
+      "learning_rate": 9.444444444444445e-06,
+      "loss": 0.5148,
+      "step": 600
+    },
+    {
+      "epoch": 5.217391304347826,
+      "eval_accuracy": 0.872791519434629,
+      "eval_f1_score": 0.7299293979398146,
+      "eval_loss": 0.46505650877952576,
+      "eval_precision": 0.7548552896750885,
+      "eval_recall": 0.7210618976649555,
+      "eval_runtime": 6.7028,
+      "eval_samples_per_second": 548.875,
+      "eval_steps_per_second": 8.653,
+      "step": 600
+    },
+    {
+      "epoch": 6.086956521739131,
+      "grad_norm": 5.458530902862549,
+      "learning_rate": 9.166666666666666e-06,
+      "loss": 0.4204,
+      "step": 700
+    },
+    {
+      "epoch": 6.086956521739131,
+      "eval_accuracy": 0.8869257950530035,
+      "eval_f1_score": 0.7654329783869755,
+      "eval_loss": 0.40097591280937195,
+      "eval_precision": 0.8914471413846636,
+      "eval_recall": 0.7712133932759179,
+      "eval_runtime": 6.7443,
+      "eval_samples_per_second": 545.497,
+      "eval_steps_per_second": 8.6,
+      "step": 700
+    },
+    {
+      "epoch": 6.956521739130435,
+      "grad_norm": 6.144416809082031,
+      "learning_rate": 8.888888888888888e-06,
+      "loss": 0.3421,
+      "step": 800
+    },
+    {
+      "epoch": 6.956521739130435,
+      "eval_accuracy": 0.9051372655612938,
+      "eval_f1_score": 0.8713582894968701,
+      "eval_loss": 0.3648029565811157,
+      "eval_precision": 0.8940734807154502,
+      "eval_recall": 0.8588405388993653,
+      "eval_runtime": 6.7352,
+      "eval_samples_per_second": 546.232,
+      "eval_steps_per_second": 8.611,
+      "step": 800
+    },
+    {
+      "epoch": 7.826086956521739,
+      "grad_norm": 9.907292366027832,
+      "learning_rate": 8.611111111111112e-06,
+      "loss": 0.2841,
+      "step": 900
+    },
+    {
+      "epoch": 7.826086956521739,
+      "eval_accuracy": 0.9181842892090242,
+      "eval_f1_score": 0.9006880118200489,
+      "eval_loss": 0.3239505887031555,
+      "eval_precision": 0.8978148514278343,
+      "eval_recall": 0.9038252102525616,
+      "eval_runtime": 6.7315,
+      "eval_samples_per_second": 546.532,
+      "eval_steps_per_second": 8.616,
+      "step": 900
+    },
+    {
+      "epoch": 8.695652173913043,
+      "grad_norm": 6.941843032836914,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 0.2319,
+      "step": 1000
+    },
+    {
+      "epoch": 8.695652173913043,
+      "eval_accuracy": 0.9203587931503125,
+      "eval_f1_score": 0.9060754755748909,
+      "eval_loss": 0.3025033473968506,
+      "eval_precision": 0.9175362378163865,
+      "eval_recall": 0.8975903509513042,
+      "eval_runtime": 6.6908,
+      "eval_samples_per_second": 549.861,
+      "eval_steps_per_second": 8.669,
+      "step": 1000
+    },
+    {
+      "epoch": 9.565217391304348,
+      "grad_norm": 4.255012035369873,
+      "learning_rate": 8.055555555555557e-06,
+      "loss": 0.205,
+      "step": 1100
+    },
+    {
+      "epoch": 9.565217391304348,
+      "eval_accuracy": 0.9209024191356346,
+      "eval_f1_score": 0.9098640550303895,
+      "eval_loss": 0.29862046241760254,
+      "eval_precision": 0.9123097696068861,
+      "eval_recall": 0.9086287269577242,
+      "eval_runtime": 6.7134,
+      "eval_samples_per_second": 548.01,
+      "eval_steps_per_second": 8.639,
+      "step": 1100
+    },
+    {
+      "epoch": 10.434782608695652,
+      "grad_norm": 5.848569393157959,
+      "learning_rate": 7.77777777777778e-06,
+      "loss": 0.1783,
+      "step": 1200
+    },
+    {
+      "epoch": 10.434782608695652,
+      "eval_accuracy": 0.9206306061429737,
+      "eval_f1_score": 0.9104384776037051,
+      "eval_loss": 0.3047122657299042,
+      "eval_precision": 0.9024848857165658,
+      "eval_recall": 0.9207396220750284,
+      "eval_runtime": 6.6561,
+      "eval_samples_per_second": 552.726,
+      "eval_steps_per_second": 8.714,
+      "step": 1200
+    },
+    {
+      "epoch": 11.304347826086957,
+      "grad_norm": 7.340043544769287,
+      "learning_rate": 7.500000000000001e-06,
+      "loss": 0.1587,
+      "step": 1300
+    },
+    {
+      "epoch": 11.304347826086957,
+      "eval_accuracy": 0.9296004349007883,
+      "eval_f1_score": 0.9202832724978299,
+      "eval_loss": 0.2757803201675415,
+      "eval_precision": 0.9233347498988893,
+      "eval_recall": 0.917658614989255,
+      "eval_runtime": 6.6787,
+      "eval_samples_per_second": 550.859,
+      "eval_steps_per_second": 8.684,
+      "step": 1300
+    },
+    {
+      "epoch": 12.173913043478262,
+      "grad_norm": 5.315700054168701,
+      "learning_rate": 7.222222222222223e-06,
+      "loss": 0.1286,
+      "step": 1400
+    },
+    {
+      "epoch": 12.173913043478262,
+      "eval_accuracy": 0.9266104919815167,
+      "eval_f1_score": 0.9144278995332229,
+      "eval_loss": 0.29267847537994385,
+      "eval_precision": 0.9100638576136009,
+      "eval_recall": 0.9198715425139269,
+      "eval_runtime": 6.7676,
+      "eval_samples_per_second": 543.619,
+      "eval_steps_per_second": 8.57,
+      "step": 1400
+    },
+    {
+      "epoch": 13.043478260869565,
+      "grad_norm": 5.173799514770508,
+      "learning_rate": 6.944444444444445e-06,
+      "loss": 0.1221,
+      "step": 1500
+    },
+    {
+      "epoch": 13.043478260869565,
+      "eval_accuracy": 0.9317749388420766,
+      "eval_f1_score": 0.9245023460604546,
+      "eval_loss": 0.28211963176727295,
+      "eval_precision": 0.9309417300478454,
+      "eval_recall": 0.9193579289135766,
+      "eval_runtime": 6.7091,
+      "eval_samples_per_second": 548.359,
+      "eval_steps_per_second": 8.645,
+      "step": 1500
+    },
+    {
+      "epoch": 13.91304347826087,
+      "grad_norm": 8.639619827270508,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.1087,
+      "step": 1600
+    },
+    {
+      "epoch": 13.91304347826087,
+      "eval_accuracy": 0.9293286219081273,
+      "eval_f1_score": 0.9159607873769989,
+      "eval_loss": 0.27890825271606445,
+      "eval_precision": 0.9090390134661626,
+      "eval_recall": 0.9236924050215896,
+      "eval_runtime": 6.7017,
+      "eval_samples_per_second": 548.966,
+      "eval_steps_per_second": 8.655,
+      "step": 1600
+    },
+    {
+      "epoch": 14.782608695652174,
+      "grad_norm": 6.424872398376465,
+      "learning_rate": 6.3888888888888885e-06,
+      "loss": 0.0982,
+      "step": 1700
+    },
+    {
+      "epoch": 14.782608695652174,
+      "eval_accuracy": 0.9290568089154662,
+      "eval_f1_score": 0.9196461825352048,
+      "eval_loss": 0.2833573520183563,
+      "eval_precision": 0.9187836187318232,
+      "eval_recall": 0.9213402050339831,
+      "eval_runtime": 6.7096,
+      "eval_samples_per_second": 548.32,
+      "eval_steps_per_second": 8.644,
+      "step": 1700
+    },
+    {
+      "epoch": 15.652173913043478,
+      "grad_norm": 4.618613243103027,
+      "learning_rate": 6.111111111111112e-06,
+      "loss": 0.089,
+      "step": 1800
+    },
+    {
+      "epoch": 15.652173913043478,
+      "eval_accuracy": 0.9298722478934494,
+      "eval_f1_score": 0.9202166850732406,
+      "eval_loss": 0.28280356526374817,
+      "eval_precision": 0.9151663252588741,
+      "eval_recall": 0.9260674008256092,
+      "eval_runtime": 6.7345,
+      "eval_samples_per_second": 546.292,
+      "eval_steps_per_second": 8.612,
+      "step": 1800
+    },
+    {
+      "epoch": 16.52173913043478,
+      "grad_norm": 1.9568698406219482,
+      "learning_rate": 5.833333333333334e-06,
+      "loss": 0.0795,
+      "step": 1900
+    },
+    {
+      "epoch": 16.52173913043478,
+      "eval_accuracy": 0.9331340038053819,
+      "eval_f1_score": 0.9244095368032713,
+      "eval_loss": 0.273701936006546,
+      "eval_precision": 0.925343846727414,
+      "eval_recall": 0.9238732382441093,
+      "eval_runtime": 6.7425,
+      "eval_samples_per_second": 545.641,
+      "eval_steps_per_second": 8.602,
+      "step": 1900
+    },
+    {
+      "epoch": 17.391304347826086,
+      "grad_norm": 2.161759614944458,
+      "learning_rate": 5.555555555555557e-06,
+      "loss": 0.0684,
+      "step": 2000
+    },
+    {
+      "epoch": 17.391304347826086,
+      "eval_accuracy": 0.9323185648273987,
+      "eval_f1_score": 0.9261695691084951,
+      "eval_loss": 0.2873239815235138,
+      "eval_precision": 0.9319834922740233,
+      "eval_recall": 0.9216726996777184,
+      "eval_runtime": 6.7577,
+      "eval_samples_per_second": 544.415,
+      "eval_steps_per_second": 8.583,
+      "step": 2000
+    },
+    {
+      "epoch": 18.26086956521739,
+      "grad_norm": 4.607916355133057,
+      "learning_rate": 5.2777777777777785e-06,
+      "loss": 0.0673,
+      "step": 2100
+    },
+    {
+      "epoch": 18.26086956521739,
+      "eval_accuracy": 0.9320467518347377,
+      "eval_f1_score": 0.925184613434992,
+      "eval_loss": 0.2904324531555176,
+      "eval_precision": 0.9332741752610002,
+      "eval_recall": 0.9184445089519725,
+      "eval_runtime": 6.7294,
+      "eval_samples_per_second": 546.702,
+      "eval_steps_per_second": 8.619,
+      "step": 2100
+    },
+    {
+      "epoch": 19.130434782608695,
+      "grad_norm": 6.327251434326172,
+      "learning_rate": 5e-06,
+      "loss": 0.0571,
+      "step": 2200
+    },
+    {
+      "epoch": 19.130434782608695,
+      "eval_accuracy": 0.9293286219081273,
+      "eval_f1_score": 0.9221668516434853,
+      "eval_loss": 0.3166205883026123,
+      "eval_precision": 0.925137476734381,
+      "eval_recall": 0.920952609526737,
+      "eval_runtime": 6.7037,
+      "eval_samples_per_second": 548.799,
+      "eval_steps_per_second": 8.652,
+      "step": 2200
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 9.082805633544922,
+      "learning_rate": 4.722222222222222e-06,
+      "loss": 0.0561,
+      "step": 2300
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.9317749388420766,
+      "eval_f1_score": 0.9221280725480369,
+      "eval_loss": 0.2922111749649048,
+      "eval_precision": 0.9150274852978553,
+      "eval_recall": 0.9297539237688469,
+      "eval_runtime": 6.7503,
+      "eval_samples_per_second": 545.017,
+      "eval_steps_per_second": 8.592,
+      "step": 2300
+    },
+    {
+      "epoch": 20.869565217391305,
+      "grad_norm": 5.283856391906738,
+      "learning_rate": 4.444444444444444e-06,
+      "loss": 0.0511,
+      "step": 2400
+    },
+    {
+      "epoch": 20.869565217391305,
+      "eval_accuracy": 0.9315031258494156,
+      "eval_f1_score": 0.9190655007648246,
+      "eval_loss": 0.29927295446395874,
+      "eval_precision": 0.9088064828335735,
+      "eval_recall": 0.9303236730969998,
+      "eval_runtime": 6.7281,
+      "eval_samples_per_second": 546.809,
+      "eval_steps_per_second": 8.621,
+      "step": 2400
+    },
+    {
+      "epoch": 21.73913043478261,
+      "grad_norm": 6.0074896812438965,
+      "learning_rate": 4.166666666666667e-06,
+      "loss": 0.0442,
+      "step": 2500
+    },
+    {
+      "epoch": 21.73913043478261,
+      "eval_accuracy": 0.9266104919815167,
+      "eval_f1_score": 0.9161795338292905,
+      "eval_loss": 0.32011494040489197,
+      "eval_precision": 0.9060451440252857,
+      "eval_recall": 0.9280493422296427,
+      "eval_runtime": 6.7127,
+      "eval_samples_per_second": 548.067,
+      "eval_steps_per_second": 8.64,
+      "step": 2500
+    },
+    {
+      "epoch": 22.608695652173914,
+      "grad_norm": 3.1078407764434814,
+      "learning_rate": 3.88888888888889e-06,
+      "loss": 0.0447,
+      "step": 2600
+    },
+    {
+      "epoch": 22.608695652173914,
+      "eval_accuracy": 0.928241369937483,
+      "eval_f1_score": 0.9137497551284842,
+      "eval_loss": 0.3155056834220886,
+      "eval_precision": 0.9009580466238951,
+      "eval_recall": 0.9281730038314259,
+      "eval_runtime": 6.7337,
+      "eval_samples_per_second": 546.354,
+      "eval_steps_per_second": 8.613,
+      "step": 2600
+    },
+    {
+      "epoch": 23.47826086956522,
+      "grad_norm": 2.9584195613861084,
+      "learning_rate": 3.6111111111111115e-06,
+      "loss": 0.0415,
+      "step": 2700
+    },
+    {
+      "epoch": 23.47826086956522,
+      "eval_accuracy": 0.9334058167980429,
+      "eval_f1_score": 0.9226018260362496,
+      "eval_loss": 0.30177852511405945,
+      "eval_precision": 0.9185179495480513,
+      "eval_recall": 0.9269833265460256,
+      "eval_runtime": 6.7411,
+      "eval_samples_per_second": 545.757,
+      "eval_steps_per_second": 8.604,
+      "step": 2700
+    },
+    {
+      "epoch": 24.347826086956523,
+      "grad_norm": 12.190321922302246,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.0359,
+      "step": 2800
+    },
+    {
+      "epoch": 24.347826086956523,
+      "eval_accuracy": 0.9298722478934494,
+      "eval_f1_score": 0.9177278989948806,
+      "eval_loss": 0.31918126344680786,
+      "eval_precision": 0.9062664068560837,
+      "eval_recall": 0.9308234663752396,
+      "eval_runtime": 6.7802,
+      "eval_samples_per_second": 542.606,
+      "eval_steps_per_second": 8.554,
+      "step": 2800
+    },
+    {
+      "epoch": 25.217391304347824,
+      "grad_norm": 0.2598835527896881,
+      "learning_rate": 3.055555555555556e-06,
+      "loss": 0.0369,
+      "step": 2900
+    },
+    {
+      "epoch": 25.217391304347824,
+      "eval_accuracy": 0.933677629790704,
+      "eval_f1_score": 0.9210521238209074,
+      "eval_loss": 0.3063570559024811,
+      "eval_precision": 0.9140578271273506,
+      "eval_recall": 0.9285610502121662,
+      "eval_runtime": 6.7729,
+      "eval_samples_per_second": 543.197,
+      "eval_steps_per_second": 8.564,
+      "step": 2900
+    },
+    {
+      "epoch": 26.08695652173913,
+      "grad_norm": 0.24433408677577972,
+      "learning_rate": 2.7777777777777783e-06,
+      "loss": 0.0296,
+      "step": 3000
+    },
+    {
+      "epoch": 26.08695652173913,
+      "eval_accuracy": 0.9328621908127208,
+      "eval_f1_score": 0.9237047805131925,
+      "eval_loss": 0.311038613319397,
+      "eval_precision": 0.9198460229141495,
+      "eval_recall": 0.9279424126946928,
+      "eval_runtime": 6.8161,
+      "eval_samples_per_second": 539.754,
+      "eval_steps_per_second": 8.509,
+      "step": 3000
+    },
+    {
+      "epoch": 26.08695652173913,
+      "step": 3000,
+      "total_flos": 6579999363349350.0,
+      "train_loss": 0.31640464369455973,
+      "train_runtime": 3238.6183,
+      "train_samples_per_second": 158.092,
+      "train_steps_per_second": 1.235
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 4000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 35,
+  "save_steps": 100,
+  "total_flos": 6579999363349350.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}