Training in progress, step 190000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c252e94704b7a7c1ede22c27b6ef39fca3801557bccc58914230d05284a2fc8f
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:9ce00af67b32f5031634448ef59d59c554d1e00a55c8b464f822021954d2f458
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2cf77efb61849887c31eb27074736092c24c74904d823d7c3253ad56e6671aad
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:26f449ea92715ca64c5aa73950f43c9ea9816a4a5ad265403dda147f77444d50
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d40d94dc7bd499834f4880f664b6b9f079b31c0f8fd8c132e11901a67089a9c7
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:45496c46423f623843268f065bb3004f921eb295069e4d4e3f3d7236dcb94f89
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d40d94dc7bd499834f4880f664b6b9f079b31c0f8fd8c132e11901a67089a9c7
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:45496c46423f623843268f065bb3004f921eb295069e4d4e3f3d7236dcb94f89
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d40d94dc7bd499834f4880f664b6b9f079b31c0f8fd8c132e11901a67089a9c7
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:45496c46423f623843268f065bb3004f921eb295069e4d4e3f3d7236dcb94f89
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d40d94dc7bd499834f4880f664b6b9f079b31c0f8fd8c132e11901a67089a9c7
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:45496c46423f623843268f065bb3004f921eb295069e4d4e3f3d7236dcb94f89
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d40d94dc7bd499834f4880f664b6b9f079b31c0f8fd8c132e11901a67089a9c7
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:45496c46423f623843268f065bb3004f921eb295069e4d4e3f3d7236dcb94f89
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d40d94dc7bd499834f4880f664b6b9f079b31c0f8fd8c132e11901a67089a9c7
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:45496c46423f623843268f065bb3004f921eb295069e4d4e3f3d7236dcb94f89
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d40d94dc7bd499834f4880f664b6b9f079b31c0f8fd8c132e11901a67089a9c7
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:45496c46423f623843268f065bb3004f921eb295069e4d4e3f3d7236dcb94f89
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d40d94dc7bd499834f4880f664b6b9f079b31c0f8fd8c132e11901a67089a9c7
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:45496c46423f623843268f065bb3004f921eb295069e4d4e3f3d7236dcb94f89
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7a265c146087c7b525f93e19ac9e51ad44bfb6af09ebd3ea4e38ee99de52c725
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:a0439027dd6f55adc764cb1317d963df8ccf36442066dafecce10b3f538efa8e
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.587389775217901,
-  "global_step": 180000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3606,11 +3606,211 @@
       "eval_samples_per_second": 808.182,
       "eval_steps_per_second": 12.931,
       "step": 180000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 13,
-  "total_flos": 5.75071458228882e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.842244762730006,
+  "global_step": 190000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 808.182,
       "eval_steps_per_second": 12.931,
       "step": 180000
+    },
+    {
+      "epoch": 4.6,
+      "learning_rate": 0.00022984029903546578,
+      "loss": 0.2967,
+      "step": 180500
+    },
+    {
+      "epoch": 4.61,
+      "learning_rate": 0.00022942919143113572,
+      "loss": 0.2962,
+      "step": 181000
+    },
+    {
+      "epoch": 4.61,
+      "eval_loss": 0.8312578201293945,
+      "eval_runtime": 1.2492,
+      "eval_samples_per_second": 800.5,
+      "eval_steps_per_second": 12.808,
+      "step": 181000
+    },
+    {
+      "epoch": 4.63,
+      "learning_rate": 0.0002290172698810927,
+      "loss": 0.2971,
+      "step": 181500
+    },
+    {
+      "epoch": 4.64,
+      "learning_rate": 0.00022860453889004493,
+      "loss": 0.2968,
+      "step": 182000
+    },
+    {
+      "epoch": 4.64,
+      "eval_loss": 0.8232109546661377,
+      "eval_runtime": 1.3244,
+      "eval_samples_per_second": 755.053,
+      "eval_steps_per_second": 12.081,
+      "step": 182000
+    },
+    {
+      "epoch": 4.65,
+      "learning_rate": 0.00022819100297155235,
+      "loss": 0.2974,
+      "step": 182500
+    },
+    {
+      "epoch": 4.66,
+      "learning_rate": 0.0002277766666479774,
+      "loss": 0.2967,
+      "step": 183000
+    },
+    {
+      "epoch": 4.66,
+      "eval_loss": 0.8215346932411194,
+      "eval_runtime": 1.2987,
+      "eval_samples_per_second": 769.992,
+      "eval_steps_per_second": 12.32,
+      "step": 183000
+    },
+    {
+      "epoch": 4.68,
+      "learning_rate": 0.00022736153445043595,
+      "loss": 0.2962,
+      "step": 183500
+    },
+    {
+      "epoch": 4.69,
+      "learning_rate": 0.00022694561091874706,
+      "loss": 0.2958,
+      "step": 184000
+    },
+    {
+      "epoch": 4.69,
+      "eval_loss": 0.8170773983001709,
+      "eval_runtime": 1.2678,
+      "eval_samples_per_second": 788.789,
+      "eval_steps_per_second": 12.621,
+      "step": 184000
+    },
+    {
+      "epoch": 4.7,
+      "learning_rate": 0.00022652890060138387,
+      "loss": 0.296,
+      "step": 184500
+    },
+    {
+      "epoch": 4.71,
+      "learning_rate": 0.00022611140805542366,
+      "loss": 0.2958,
+      "step": 185000
+    },
+    {
+      "epoch": 4.71,
+      "eval_loss": 0.8280390501022339,
+      "eval_runtime": 1.2658,
+      "eval_samples_per_second": 789.997,
+      "eval_steps_per_second": 12.64,
+      "step": 185000
+    },
+    {
+      "epoch": 4.73,
+      "learning_rate": 0.00022569313784649798,
+      "loss": 0.2974,
+      "step": 185500
+    },
+    {
+      "epoch": 4.74,
+      "learning_rate": 0.0002252740945487429,
+      "loss": 0.2958,
+      "step": 186000
+    },
+    {
+      "epoch": 4.74,
+      "eval_loss": 0.8221661448478699,
+      "eval_runtime": 1.2826,
+      "eval_samples_per_second": 779.639,
+      "eval_steps_per_second": 12.474,
+      "step": 186000
+    },
+    {
+      "epoch": 4.75,
+      "learning_rate": 0.00022485428274474867,
+      "loss": 0.2961,
+      "step": 186500
+    },
+    {
+      "epoch": 4.77,
+      "learning_rate": 0.00022443370702551,
+      "loss": 0.2958,
+      "step": 187000
+    },
+    {
+      "epoch": 4.77,
+      "eval_loss": 0.8302921056747437,
+      "eval_runtime": 1.3594,
+      "eval_samples_per_second": 735.615,
+      "eval_steps_per_second": 11.77,
+      "step": 187000
+    },
+    {
+      "epoch": 4.78,
+      "learning_rate": 0.00022401237199037565,
+      "loss": 0.2964,
+      "step": 187500
+    },
+    {
+      "epoch": 4.79,
+      "learning_rate": 0.0002235902822469979,
+      "loss": 0.2965,
+      "step": 188000
+    },
+    {
+      "epoch": 4.79,
+      "eval_loss": 0.8213106393814087,
+      "eval_runtime": 1.2353,
+      "eval_samples_per_second": 809.533,
+      "eval_steps_per_second": 12.953,
+      "step": 188000
+    },
+    {
+      "epoch": 4.8,
+      "learning_rate": 0.00022316744241128268,
+      "loss": 0.2957,
+      "step": 188500
+    },
+    {
+      "epoch": 4.82,
+      "learning_rate": 0.00022274385710733855,
+      "loss": 0.2958,
+      "step": 189000
+    },
+    {
+      "epoch": 4.82,
+      "eval_loss": 0.8167091012001038,
+      "eval_runtime": 1.2465,
+      "eval_samples_per_second": 802.259,
+      "eval_steps_per_second": 12.836,
+      "step": 189000
+    },
+    {
+      "epoch": 4.83,
+      "learning_rate": 0.00022231953096742672,
+      "loss": 0.2974,
+      "step": 189500
+    },
+    {
+      "epoch": 4.84,
+      "learning_rate": 0.00022189446863190974,
+      "loss": 0.297,
+      "step": 190000
+    },
+    {
+      "epoch": 4.84,
+      "eval_loss": 0.8272013068199158,
+      "eval_runtime": 1.2813,
+      "eval_samples_per_second": 780.471,
+      "eval_steps_per_second": 12.488,
+      "step": 190000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 13,
+  "total_flos": 6.07020172106332e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2cf77efb61849887c31eb27074736092c24c74904d823d7c3253ad56e6671aad
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:26f449ea92715ca64c5aa73950f43c9ea9816a4a5ad265403dda147f77444d50
 size 102501541