Training in progress, step 360000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7fe20f9a7048e778f6f933d7208f0d74ea50740d5e42b03ab00e70891186e444
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:c017dc7aa51a43ed67b54be4391afb3209331a95386c7a0f1faefbfda3688b82
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b416d6314d39e9369d9492ca6e3f40f06cfe57d4e4160d5311194f08695a8e6
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:86d6df4782178506acacd0c83df02e5b041758e0dad6be6ff1fb20dae19c22b2
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb525c3a5a5b20b39f1725d61547b357ecdab21b75b423ee22380919a8bde5bb
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b9e7aa2b8e2ccb71915d50d53e92b984c37ae39fd879c08b1e03ec5f916c1ce
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb525c3a5a5b20b39f1725d61547b357ecdab21b75b423ee22380919a8bde5bb
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b9e7aa2b8e2ccb71915d50d53e92b984c37ae39fd879c08b1e03ec5f916c1ce
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb525c3a5a5b20b39f1725d61547b357ecdab21b75b423ee22380919a8bde5bb
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b9e7aa2b8e2ccb71915d50d53e92b984c37ae39fd879c08b1e03ec5f916c1ce
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb525c3a5a5b20b39f1725d61547b357ecdab21b75b423ee22380919a8bde5bb
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b9e7aa2b8e2ccb71915d50d53e92b984c37ae39fd879c08b1e03ec5f916c1ce
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb525c3a5a5b20b39f1725d61547b357ecdab21b75b423ee22380919a8bde5bb
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b9e7aa2b8e2ccb71915d50d53e92b984c37ae39fd879c08b1e03ec5f916c1ce
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb525c3a5a5b20b39f1725d61547b357ecdab21b75b423ee22380919a8bde5bb
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b9e7aa2b8e2ccb71915d50d53e92b984c37ae39fd879c08b1e03ec5f916c1ce
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb525c3a5a5b20b39f1725d61547b357ecdab21b75b423ee22380919a8bde5bb
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b9e7aa2b8e2ccb71915d50d53e92b984c37ae39fd879c08b1e03ec5f916c1ce
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb525c3a5a5b20b39f1725d61547b357ecdab21b75b423ee22380919a8bde5bb
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b9e7aa2b8e2ccb71915d50d53e92b984c37ae39fd879c08b1e03ec5f916c1ce
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3aecc6465a886ff601ea303358a61f89a30e07c965e206675258095a3d963058
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:d6e54422706a010aa16b679660182e5a0c0f546c43656852cb88a82c1d45dccf
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 8.919924562923697,
-  "global_step": 350000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -7006,11 +7006,211 @@
       "eval_samples_per_second": 791.502,
       "eval_steps_per_second": 12.664,
       "step": 350000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 13,
-  "total_flos": 1.118194202580314e+22,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 9.174779550435803,
+  "global_step": 360000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 791.502,
       "eval_steps_per_second": 12.664,
       "step": 350000
+    },
+    {
+      "epoch": 8.93,
+      "learning_rate": 7.529152489465592e-05,
+      "loss": 0.277,
+      "step": 350500
+    },
+    {
+      "epoch": 8.95,
+      "learning_rate": 7.489140439617708e-05,
+      "loss": 0.2766,
+      "step": 351000
+    },
+    {
+      "epoch": 8.95,
+      "eval_loss": 0.8036056160926819,
+      "eval_runtime": 1.2298,
+      "eval_samples_per_second": 813.125,
+      "eval_steps_per_second": 13.01,
+      "step": 351000
+    },
+    {
+      "epoch": 8.96,
+      "learning_rate": 7.449215995246522e-05,
+      "loss": 0.2765,
+      "step": 351500
+    },
+    {
+      "epoch": 8.97,
+      "learning_rate": 7.409379592959367e-05,
+      "loss": 0.2765,
+      "step": 352000
+    },
+    {
+      "epoch": 8.97,
+      "eval_loss": 0.8099916577339172,
+      "eval_runtime": 1.258,
+      "eval_samples_per_second": 794.9,
+      "eval_steps_per_second": 12.718,
+      "step": 352000
+    },
+    {
+      "epoch": 8.98,
+      "learning_rate": 7.369631668400746e-05,
+      "loss": 0.2763,
+      "step": 352500
+    },
+    {
+      "epoch": 9.0,
+      "learning_rate": 7.3299726562476e-05,
+      "loss": 0.2762,
+      "step": 353000
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 0.8091428279876709,
+      "eval_runtime": 1.2439,
+      "eval_samples_per_second": 803.907,
+      "eval_steps_per_second": 12.863,
+      "step": 353000
+    },
+    {
+      "epoch": 9.01,
+      "learning_rate": 7.290402990204531e-05,
+      "loss": 0.2763,
+      "step": 353500
+    },
+    {
+      "epoch": 9.02,
+      "learning_rate": 7.250923102999073e-05,
+      "loss": 0.2765,
+      "step": 354000
+    },
+    {
+      "epoch": 9.02,
+      "eval_loss": 0.8080966472625732,
+      "eval_runtime": 1.3706,
+      "eval_samples_per_second": 729.606,
+      "eval_steps_per_second": 11.674,
+      "step": 354000
+    },
+    {
+      "epoch": 9.03,
+      "learning_rate": 7.211533426376934e-05,
+      "loss": 0.2762,
+      "step": 354500
+    },
+    {
+      "epoch": 9.05,
+      "learning_rate": 7.172234391097317e-05,
+      "loss": 0.2763,
+      "step": 355000
+    },
+    {
+      "epoch": 9.05,
+      "eval_loss": 0.8072100877761841,
+      "eval_runtime": 1.3323,
+      "eval_samples_per_second": 750.572,
+      "eval_steps_per_second": 12.009,
+      "step": 355000
+    },
+    {
+      "epoch": 9.06,
+      "learning_rate": 7.133026426928173e-05,
+      "loss": 0.2764,
+      "step": 355500
+    },
+    {
+      "epoch": 9.07,
+      "learning_rate": 7.093909962641514e-05,
+      "loss": 0.2763,
+      "step": 356000
+    },
+    {
+      "epoch": 9.07,
+      "eval_loss": 0.8050107359886169,
+      "eval_runtime": 1.3391,
+      "eval_samples_per_second": 746.746,
+      "eval_steps_per_second": 11.948,
+      "step": 356000
+    },
+    {
+      "epoch": 9.09,
+      "learning_rate": 7.054885426008737e-05,
+      "loss": 0.276,
+      "step": 356500
+    },
+    {
+      "epoch": 9.1,
+      "learning_rate": 7.015953243795907e-05,
+      "loss": 0.2763,
+      "step": 357000
+    },
+    {
+      "epoch": 9.1,
+      "eval_loss": 0.8131558299064636,
+      "eval_runtime": 1.3479,
+      "eval_samples_per_second": 741.911,
+      "eval_steps_per_second": 11.871,
+      "step": 357000
+    },
+    {
+      "epoch": 9.11,
+      "learning_rate": 6.97711384175914e-05,
+      "loss": 0.2762,
+      "step": 357500
+    },
+    {
+      "epoch": 9.12,
+      "learning_rate": 6.938367644639911e-05,
+      "loss": 0.2758,
+      "step": 358000
+    },
+    {
+      "epoch": 9.12,
+      "eval_loss": 0.8091667294502258,
+      "eval_runtime": 1.3351,
+      "eval_samples_per_second": 749.026,
+      "eval_steps_per_second": 11.984,
+      "step": 358000
+    },
+    {
+      "epoch": 9.14,
+      "learning_rate": 6.899715076160425e-05,
+      "loss": 0.2757,
+      "step": 358500
+    },
+    {
+      "epoch": 9.15,
+      "learning_rate": 6.861156559018986e-05,
+      "loss": 0.2758,
+      "step": 359000
+    },
+    {
+      "epoch": 9.15,
+      "eval_loss": 0.8032931685447693,
+      "eval_runtime": 1.2963,
+      "eval_samples_per_second": 771.398,
+      "eval_steps_per_second": 12.342,
+      "step": 359000
+    },
+    {
+      "epoch": 9.16,
+      "learning_rate": 6.822692514885346e-05,
+      "loss": 0.2757,
+      "step": 359500
+    },
+    {
+      "epoch": 9.17,
+      "learning_rate": 6.784323364396135e-05,
+      "loss": 0.2757,
+      "step": 360000
+    },
+    {
+      "epoch": 9.17,
+      "eval_loss": 0.8121919631958008,
+      "eval_runtime": 1.3627,
+      "eval_samples_per_second": 733.817,
+      "eval_steps_per_second": 11.741,
+      "step": 360000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 13,
+  "total_flos": 1.1501415685664595e+22,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9b416d6314d39e9369d9492ca6e3f40f06cfe57d4e4160d5311194f08695a8e6
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:86d6df4782178506acacd0c83df02e5b041758e0dad6be6ff1fb20dae19c22b2
 size 102501541