Training in progress, step 1000000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb4cd9e789adbd1802119018bcfc4f0b6dba2541ced8918776537c19936d2aa3
 size 893439185

 version https://git-lfs.github.com/spec/v1
+oid sha256:3934f519240d590552d43746648c081056a7995bf6c44310ab67246f6ef8ad67
 size 893439185

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:21e636c80ed6aaf4e2b5d21598685c1a08b0a8d8edf7041e56552898357162ca
 size 449471589

 version https://git-lfs.github.com/spec/v1
+oid sha256:619263ccd39f733619bbbf55e178f9282f2d9680aa9481a120d8cd9e41fe0f1b
 size 449471589

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c1caabd63b797b525c8b3557d0ed6bdcb32c060e6354cffd8a2f88412a58c50
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f12e8f0b7966c04954bff8e89ed067117d335fd21dca824245f60b5603214287
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c1caabd63b797b525c8b3557d0ed6bdcb32c060e6354cffd8a2f88412a58c50
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f12e8f0b7966c04954bff8e89ed067117d335fd21dca824245f60b5603214287
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c1caabd63b797b525c8b3557d0ed6bdcb32c060e6354cffd8a2f88412a58c50
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f12e8f0b7966c04954bff8e89ed067117d335fd21dca824245f60b5603214287
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c1caabd63b797b525c8b3557d0ed6bdcb32c060e6354cffd8a2f88412a58c50
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f12e8f0b7966c04954bff8e89ed067117d335fd21dca824245f60b5603214287
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c1caabd63b797b525c8b3557d0ed6bdcb32c060e6354cffd8a2f88412a58c50
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f12e8f0b7966c04954bff8e89ed067117d335fd21dca824245f60b5603214287
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c1caabd63b797b525c8b3557d0ed6bdcb32c060e6354cffd8a2f88412a58c50
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f12e8f0b7966c04954bff8e89ed067117d335fd21dca824245f60b5603214287
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c1caabd63b797b525c8b3557d0ed6bdcb32c060e6354cffd8a2f88412a58c50
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f12e8f0b7966c04954bff8e89ed067117d335fd21dca824245f60b5603214287
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c1caabd63b797b525c8b3557d0ed6bdcb32c060e6354cffd8a2f88412a58c50
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f12e8f0b7966c04954bff8e89ed067117d335fd21dca824245f60b5603214287
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b2358905887cd0ce80c53b6e8a0174e039c4c5bd62c6c91c86f0312f9b46fcf7
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:d806e9f9f09813043b95cbeda18b18cdfb60c100fbde3239bf79ee81c659dc36
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 11.041343698069438,
-  "global_step": 990000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -19806,11 +19806,211 @@
       "eval_samples_per_second": 878.327,
       "eval_steps_per_second": 13.766,
       "step": 990000
     }
   ],
   "max_steps": 1000000,
   "num_train_epochs": 12,
-  "total_flos": 6.9398656010816955e+22,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 11.152872422292361,
+  "global_step": 1000000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 878.327,
       "eval_steps_per_second": 13.766,
       "step": 990000
+    },
+    {
+      "epoch": 11.05,
+      "learning_rate": 1.003454077439879e-05,
+      "loss": 0.1795,
+      "step": 990500
+    },
+    {
+      "epoch": 11.05,
+      "learning_rate": 1.0031000845556304e-05,
+      "loss": 0.1792,
+      "step": 991000
+    },
+    {
+      "epoch": 11.05,
+      "eval_loss": 0.17132483422756195,
+      "eval_runtime": 2.6196,
+      "eval_samples_per_second": 876.851,
+      "eval_steps_per_second": 13.743,
+      "step": 991000
+    },
+    {
+      "epoch": 11.06,
+      "learning_rate": 1.0027652209285743e-05,
+      "loss": 0.1795,
+      "step": 991500
+    },
+    {
+      "epoch": 11.06,
+      "learning_rate": 1.0024494874742152e-05,
+      "loss": 0.1794,
+      "step": 992000
+    },
+    {
+      "epoch": 11.06,
+      "eval_loss": 0.1712769716978073,
+      "eval_runtime": 2.602,
+      "eval_samples_per_second": 882.772,
+      "eval_steps_per_second": 13.835,
+      "step": 992000
+    },
+    {
+      "epoch": 11.07,
+      "learning_rate": 1.0021528850557572e-05,
+      "loss": 0.1793,
+      "step": 992500
+    },
+    {
+      "epoch": 11.07,
+      "learning_rate": 1.0018754144840986e-05,
+      "loss": 0.1794,
+      "step": 993000
+    },
+    {
+      "epoch": 11.07,
+      "eval_loss": 0.17019130289554596,
+      "eval_runtime": 2.6352,
+      "eval_samples_per_second": 871.66,
+      "eval_steps_per_second": 13.661,
+      "step": 993000
+    },
+    {
+      "epoch": 11.08,
+      "learning_rate": 1.0016170765178345e-05,
+      "loss": 0.1796,
+      "step": 993500
+    },
+    {
+      "epoch": 11.09,
+      "learning_rate": 1.0013778718632507e-05,
+      "loss": 0.1795,
+      "step": 994000
+    },
+    {
+      "epoch": 11.09,
+      "eval_loss": 0.16902120411396027,
+      "eval_runtime": 2.6744,
+      "eval_samples_per_second": 858.899,
+      "eval_steps_per_second": 13.461,
+      "step": 994000
+    },
+    {
+      "epoch": 11.09,
+      "learning_rate": 1.0011578011743233e-05,
+      "loss": 0.1794,
+      "step": 994500
+    },
+    {
+      "epoch": 11.1,
+      "learning_rate": 1.000956865052717e-05,
+      "loss": 0.1795,
+      "step": 995000
+    },
+    {
+      "epoch": 11.1,
+      "eval_loss": 0.17112106084823608,
+      "eval_runtime": 2.6298,
+      "eval_samples_per_second": 873.44,
+      "eval_steps_per_second": 13.689,
+      "step": 995000
+    },
+    {
+      "epoch": 11.1,
+      "learning_rate": 1.0007750640477843e-05,
+      "loss": 0.1797,
+      "step": 995500
+    },
+    {
+      "epoch": 11.11,
+      "learning_rate": 1.0006123986565623e-05,
+      "loss": 0.1797,
+      "step": 996000
+    },
+    {
+      "epoch": 11.11,
+      "eval_loss": 0.17197231948375702,
+      "eval_runtime": 2.6674,
+      "eval_samples_per_second": 861.138,
+      "eval_steps_per_second": 13.496,
+      "step": 996000
+    },
+    {
+      "epoch": 11.11,
+      "learning_rate": 1.0004688693237708e-05,
+      "loss": 0.179,
+      "step": 996500
+    },
+    {
+      "epoch": 11.12,
+      "learning_rate": 1.0003444764418138e-05,
+      "loss": 0.1795,
+      "step": 997000
+    },
+    {
+      "epoch": 11.12,
+      "eval_loss": 0.16935667395591736,
+      "eval_runtime": 2.6744,
+      "eval_samples_per_second": 858.882,
+      "eval_steps_per_second": 13.461,
+      "step": 997000
+    },
+    {
+      "epoch": 11.12,
+      "learning_rate": 1.0002392203507781e-05,
+      "loss": 0.1796,
+      "step": 997500
+    },
+    {
+      "epoch": 11.13,
+      "learning_rate": 1.000153101338428e-05,
+      "loss": 0.1794,
+      "step": 998000
+    },
+    {
+      "epoch": 11.13,
+      "eval_loss": 0.16944564878940582,
+      "eval_runtime": 2.6058,
+      "eval_samples_per_second": 881.508,
+      "eval_steps_per_second": 13.816,
+      "step": 998000
+    },
+    {
+      "epoch": 11.14,
+      "learning_rate": 1.00008611964021e-05,
+      "loss": 0.1795,
+      "step": 998500
+    },
+    {
+      "epoch": 11.14,
+      "learning_rate": 1.00003827543925e-05,
+      "loss": 0.1797,
+      "step": 999000
+    },
+    {
+      "epoch": 11.14,
+      "eval_loss": 0.1695910096168518,
+      "eval_runtime": 2.6979,
+      "eval_samples_per_second": 851.388,
+      "eval_steps_per_second": 13.343,
+      "step": 999000
+    },
+    {
+      "epoch": 11.15,
+      "learning_rate": 1.0000095688663532e-05,
+      "loss": 0.1796,
+      "step": 999500
+    },
+    {
+      "epoch": 11.15,
+      "learning_rate": 1e-05,
+      "loss": 0.1796,
+      "step": 1000000
+    },
+    {
+      "epoch": 11.15,
+      "eval_loss": 0.16828955709934235,
+      "eval_runtime": 2.6549,
+      "eval_samples_per_second": 865.189,
+      "eval_steps_per_second": 13.56,
+      "step": 1000000
     }
   ],
   "max_steps": 1000000,
   "num_train_epochs": 12,
+  "total_flos": 7.009965862112043e+22,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:21e636c80ed6aaf4e2b5d21598685c1a08b0a8d8edf7041e56552898357162ca
 size 449471589

 version https://git-lfs.github.com/spec/v1
+oid sha256:619263ccd39f733619bbbf55e178f9282f2d9680aa9481a120d8cd9e41fe0f1b
 size 449471589