Update model with 10 epochs training instead of 5

Browse files

Files changed (6) hide show

optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +93 -36
training_args.bin +2 -2

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4ec84c2f0f952550b58c77f24e7a9e2e22f0f65c93eee46c1e0f74e464dc8138
 size 535701061

 version https://git-lfs.github.com/spec/v1
+oid sha256:c6c0959ac08c4fdfbb1a577f3b4842153ff8bdaec08671db6971d10057890ba8
 size 535701061

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f199e4fdffce5c83e85e08698509f156311a62cfba2f350b7f220bf7bf720ed
 size 267855533

 version https://git-lfs.github.com/spec/v1
+oid sha256:982a429bea27cf57937ff13a0a06b0bdcd583103106f091c13b374ff4a8befe8
 size 267855533

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:86f0404e212b33c54e2d7fa17e310613dcbdc6e02640ff6dbe0e6e7bd9ec52e3
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:c24ded61278d3bdb501c4e495dd10ddf01fa15e0368e52de2a102c5edb6db5a3
 size 14575

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:480847c63183681bd2c27f7e8f3e7a7b7833a9deb49302dac82b9eeedcbee11c
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:e71dec5fad31471bb08f1e33f5fe0414a42f69c80b949819391dcaab38f181f3
 size 627

trainer_state.json CHANGED Viewed

@@ -1,73 +1,130 @@
 {
-  "best_metric": 0.20286166667938232,
-  "best_model_checkpoint": "model1/checkpoint-205",
-  "epoch": 5.0,
-  "global_step": 1025,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.931129476584022,
-      "eval_loss": 0.20286166667938232,
-      "eval_runtime": 7.2605,
-      "eval_samples_per_second": 149.99,
-      "eval_steps_per_second": 9.503,
       "step": 205
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.9357208448117539,
-      "eval_loss": 0.22182105481624603,
-      "eval_runtime": 7.6337,
-      "eval_samples_per_second": 142.657,
-      "eval_steps_per_second": 9.039,
       "step": 410
     },
     {
       "epoch": 2.44,
-      "learning_rate": 1.024390243902439e-05,
-      "loss": 0.1905,
       "step": 500
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.9357208448117539,
-      "eval_loss": 0.2710420787334442,
-      "eval_runtime": 7.705,
-      "eval_samples_per_second": 141.337,
-      "eval_steps_per_second": 8.955,
       "step": 615
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9366391184573003,
-      "eval_loss": 0.29000386595726013,
-      "eval_runtime": 7.7216,
-      "eval_samples_per_second": 141.034,
-      "eval_steps_per_second": 8.936,
       "step": 820
     },
     {
       "epoch": 4.88,
-      "learning_rate": 4.878048780487805e-07,
-      "loss": 0.0358,
       "step": 1000
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.9366391184573003,
-      "eval_loss": 0.30663052201271057,
-      "eval_runtime": 7.6339,
-      "eval_samples_per_second": 142.652,
-      "eval_steps_per_second": 9.039,
       "step": 1025
     }
   ],
-  "max_steps": 1025,
-  "num_train_epochs": 5,
-  "total_flos": 939897589526400.0,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.20570282638072968,
+  "best_model_checkpoint": "DistilBERT1/checkpoint-205",
+  "epoch": 10.0,
+  "global_step": 2050,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.921028466483012,
+      "eval_loss": 0.20570282638072968,
+      "eval_runtime": 6.0089,
+      "eval_samples_per_second": 181.232,
+      "eval_steps_per_second": 11.483,
       "step": 205
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.9302112029384757,
+      "eval_loss": 0.2391415685415268,
+      "eval_runtime": 6.3171,
+      "eval_samples_per_second": 172.388,
+      "eval_steps_per_second": 10.923,
       "step": 410
     },
     {
       "epoch": 2.44,
+      "learning_rate": 1.5121951219512196e-05,
+      "loss": 0.2164,
       "step": 500
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.9320477502295684,
+      "eval_loss": 0.2756326496601105,
+      "eval_runtime": 6.7274,
+      "eval_samples_per_second": 161.875,
+      "eval_steps_per_second": 10.257,
       "step": 615
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.9274563820018366,
+      "eval_loss": 0.322733998298645,
+      "eval_runtime": 6.7541,
+      "eval_samples_per_second": 161.235,
+      "eval_steps_per_second": 10.216,
       "step": 820
     },
     {
       "epoch": 4.88,
+      "learning_rate": 1.024390243902439e-05,
+      "loss": 0.0376,
       "step": 1000
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.9329660238751147,
+      "eval_loss": 0.3475565016269684,
+      "eval_runtime": 6.7958,
+      "eval_samples_per_second": 160.245,
+      "eval_steps_per_second": 10.153,
       "step": 1025
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.9320477502295684,
+      "eval_loss": 0.38214486837387085,
+      "eval_runtime": 6.7413,
+      "eval_samples_per_second": 161.542,
+      "eval_steps_per_second": 10.235,
+      "step": 1230
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.9338842975206612,
+      "eval_loss": 0.39508363604545593,
+      "eval_runtime": 6.7438,
+      "eval_samples_per_second": 161.481,
+      "eval_steps_per_second": 10.232,
+      "step": 1435
+    },
+    {
+      "epoch": 7.32,
+      "learning_rate": 5.365853658536586e-06,
+      "loss": 0.0087,
+      "step": 1500
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.9357208448117539,
+      "eval_loss": 0.412009596824646,
+      "eval_runtime": 6.7147,
+      "eval_samples_per_second": 162.181,
+      "eval_steps_per_second": 10.276,
+      "step": 1640
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.9338842975206612,
+      "eval_loss": 0.407277911901474,
+      "eval_runtime": 5.9717,
+      "eval_samples_per_second": 182.361,
+      "eval_steps_per_second": 11.555,
+      "step": 1845
+    },
+    {
+      "epoch": 9.76,
+      "learning_rate": 4.878048780487805e-07,
+      "loss": 0.0017,
+      "step": 2000
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.9338842975206612,
+      "eval_loss": 0.41211310029029846,
+      "eval_runtime": 5.9224,
+      "eval_samples_per_second": 183.878,
+      "eval_steps_per_second": 11.651,
+      "step": 2050
     }
   ],
+  "max_steps": 2050,
+  "num_train_epochs": 10,
+  "total_flos": 1609911482519136.0,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b118a921ab6ca0db093022ec7285078dbf750a2d7daa95ef6f8cf5250ea0b49c
-size 3579

 version https://git-lfs.github.com/spec/v1
+oid sha256:e108b219da858c66c223a83efa615970a4bb54079a81bb38dd212ad549dbcb46
+size 3515