Training in progress, step 260000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d3ab9dc056c74cdf5d65dc3a03d7bd30aade58ae1e720539569500f125901ec6
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:2a6cf8e52153476c0d24566862211ae73b151847958bccb312e482641f34fe2f
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b912672be50d1a4d1c80a97a69c79548a9895fd6edfdbc5e52d33a97a1f00535
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:20d31269cc8100e5fc218adcef1522ff7b0dd07e50b44819d9df2a65286c8129
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:80275ad90d449cfcd19f9c9b9d842c8c524989912548b0b01f19b4b413629488
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:27a5987a387bd5d5448f919b8fbc047d2f79f2d23737fd4d602720c8f9c95204
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:80275ad90d449cfcd19f9c9b9d842c8c524989912548b0b01f19b4b413629488
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:27a5987a387bd5d5448f919b8fbc047d2f79f2d23737fd4d602720c8f9c95204
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:80275ad90d449cfcd19f9c9b9d842c8c524989912548b0b01f19b4b413629488
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:27a5987a387bd5d5448f919b8fbc047d2f79f2d23737fd4d602720c8f9c95204
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:80275ad90d449cfcd19f9c9b9d842c8c524989912548b0b01f19b4b413629488
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:27a5987a387bd5d5448f919b8fbc047d2f79f2d23737fd4d602720c8f9c95204
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:80275ad90d449cfcd19f9c9b9d842c8c524989912548b0b01f19b4b413629488
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:27a5987a387bd5d5448f919b8fbc047d2f79f2d23737fd4d602720c8f9c95204
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:80275ad90d449cfcd19f9c9b9d842c8c524989912548b0b01f19b4b413629488
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:27a5987a387bd5d5448f919b8fbc047d2f79f2d23737fd4d602720c8f9c95204
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:80275ad90d449cfcd19f9c9b9d842c8c524989912548b0b01f19b4b413629488
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:27a5987a387bd5d5448f919b8fbc047d2f79f2d23737fd4d602720c8f9c95204
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:80275ad90d449cfcd19f9c9b9d842c8c524989912548b0b01f19b4b413629488
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:27a5987a387bd5d5448f919b8fbc047d2f79f2d23737fd4d602720c8f9c95204
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:438f3db980ad0547f739432602e1f85cc46b6fbef312b9261fd3b355ceeb97af
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b7fe86b6bf62db9f7989d6e264b9b70447a29a8d4bbea419af77ab1989ca356
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 6.37137468780264,
-  "global_step": 250000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5006,11 +5006,211 @@
       "eval_samples_per_second": 788.807,
       "eval_steps_per_second": 12.621,
       "step": 250000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 13,
-  "total_flos": 7.98709759588423e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 6.626229675314746,
+  "global_step": 260000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 788.807,
       "eval_steps_per_second": 12.621,
       "step": 250000
+    },
+    {
+      "epoch": 6.38,
+      "learning_rate": 0.00016649607200138356,
+      "loss": 0.2877,
+      "step": 250500
+    },
+    {
+      "epoch": 6.4,
+      "learning_rate": 0.00016601801319007743,
+      "loss": 0.2877,
+      "step": 251000
+    },
+    {
+      "epoch": 6.4,
+      "eval_loss": 0.810385525226593,
+      "eval_runtime": 1.2931,
+      "eval_samples_per_second": 773.361,
+      "eval_steps_per_second": 12.374,
+      "step": 251000
+    },
+    {
+      "epoch": 6.41,
+      "learning_rate": 0.00016553983388754428,
+      "loss": 0.2872,
+      "step": 251500
+    },
+    {
+      "epoch": 6.42,
+      "learning_rate": 0.00016506153932307636,
+      "loss": 0.2872,
+      "step": 252000
+    },
+    {
+      "epoch": 6.42,
+      "eval_loss": 0.8114423155784607,
+      "eval_runtime": 1.2618,
+      "eval_samples_per_second": 792.538,
+      "eval_steps_per_second": 12.681,
+      "step": 252000
+    },
+    {
+      "epoch": 6.44,
+      "learning_rate": 0.00016458313472722638,
+      "loss": 0.2874,
+      "step": 252500
+    },
+    {
+      "epoch": 6.45,
+      "learning_rate": 0.00016410462533175045,
+      "loss": 0.2871,
+      "step": 253000
+    },
+    {
+      "epoch": 6.45,
+      "eval_loss": 0.814827024936676,
+      "eval_runtime": 1.3254,
+      "eval_samples_per_second": 754.465,
+      "eval_steps_per_second": 12.071,
+      "step": 253000
+    },
+    {
+      "epoch": 6.46,
+      "learning_rate": 0.00016362601636955049,
+      "loss": 0.288,
+      "step": 253500
+    },
+    {
+      "epoch": 6.47,
+      "learning_rate": 0.00016314731307461754,
+      "loss": 0.2875,
+      "step": 254000
+    },
+    {
+      "epoch": 6.47,
+      "eval_loss": 0.812713623046875,
+      "eval_runtime": 1.2619,
+      "eval_samples_per_second": 792.485,
+      "eval_steps_per_second": 12.68,
+      "step": 254000
+    },
+    {
+      "epoch": 6.49,
+      "learning_rate": 0.0001626685206819742,
+      "loss": 0.2874,
+      "step": 254500
+    },
+    {
+      "epoch": 6.5,
+      "learning_rate": 0.0001621896444276172,
+      "loss": 0.287,
+      "step": 255000
+    },
+    {
+      "epoch": 6.5,
+      "eval_loss": 0.820074200630188,
+      "eval_runtime": 1.2181,
+      "eval_samples_per_second": 820.971,
+      "eval_steps_per_second": 13.136,
+      "step": 255000
+    },
+    {
+      "epoch": 6.51,
+      "learning_rate": 0.00016171068954846067,
+      "loss": 0.2865,
+      "step": 255500
+    },
+    {
+      "epoch": 6.52,
+      "learning_rate": 0.00016123166128227835,
+      "loss": 0.2869,
+      "step": 256000
+    },
+    {
+      "epoch": 6.52,
+      "eval_loss": 0.8100768327713013,
+      "eval_runtime": 1.2652,
+      "eval_samples_per_second": 790.379,
+      "eval_steps_per_second": 12.646,
+      "step": 256000
+    },
+    {
+      "epoch": 6.54,
+      "learning_rate": 0.0001607525648676467,
+      "loss": 0.2868,
+      "step": 256500
+    },
+    {
+      "epoch": 6.55,
+      "learning_rate": 0.0001602734055438873,
+      "loss": 0.2868,
+      "step": 257000
+    },
+    {
+      "epoch": 6.55,
+      "eval_loss": 0.814249575138092,
+      "eval_runtime": 1.2757,
+      "eval_samples_per_second": 783.912,
+      "eval_steps_per_second": 12.543,
+      "step": 257000
+    },
+    {
+      "epoch": 6.56,
+      "learning_rate": 0.00015979418855100963,
+      "loss": 0.2869,
+      "step": 257500
+    },
+    {
+      "epoch": 6.58,
+      "learning_rate": 0.00015931491912965417,
+      "loss": 0.2869,
+      "step": 258000
+    },
+    {
+      "epoch": 6.58,
+      "eval_loss": 0.815778374671936,
+      "eval_runtime": 1.2351,
+      "eval_samples_per_second": 809.649,
+      "eval_steps_per_second": 12.954,
+      "step": 258000
+    },
+    {
+      "epoch": 6.59,
+      "learning_rate": 0.0001588356025210344,
+      "loss": 0.2866,
+      "step": 258500
+    },
+    {
+      "epoch": 6.6,
+      "learning_rate": 0.00015835624396688,
+      "loss": 0.2868,
+      "step": 259000
+    },
+    {
+      "epoch": 6.6,
+      "eval_loss": 0.81247878074646,
+      "eval_runtime": 1.3012,
+      "eval_samples_per_second": 768.517,
+      "eval_steps_per_second": 12.296,
+      "step": 259000
+    },
+    {
+      "epoch": 6.61,
+      "learning_rate": 0.00015787684870937924,
+      "loss": 0.2862,
+      "step": 259500
+    },
+    {
+      "epoch": 6.63,
+      "learning_rate": 0.00015739742199112196,
+      "loss": 0.2865,
+      "step": 260000
+    },
+    {
+      "epoch": 6.63,
+      "eval_loss": 0.816739559173584,
+      "eval_runtime": 1.3361,
+      "eval_samples_per_second": 748.473,
+      "eval_steps_per_second": 11.976,
+      "step": 260000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 13,
+  "total_flos": 8.30658473465873e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b912672be50d1a4d1c80a97a69c79548a9895fd6edfdbc5e52d33a97a1f00535
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:20d31269cc8100e5fc218adcef1522ff7b0dd07e50b44819d9df2a65286c8129
 size 102501541