Training in progress, step 90000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a30131a362734b1f942b271b7aca1732aab5c321492d56bcb252385a39f1b68d
 size 50044689

 version https://git-lfs.github.com/spec/v1
+oid sha256:e24722d3d71d5dada97b20d5f2001082a254811eb675e34eb93438f0ea062fd3
 size 50044689

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bcbde3d756560955fbfc66085573e8eef27e478ece9f50dd82562f9061c96fc6
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:f8c6c3bb299aca29d8267ff6984670047e5650cb7a903f6095214235ebc45d18
 size 25761253

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79323be1553d545e96629f1619fb64d1cbed0d647260d3d32b2ad240f882494f
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:057898351285142abb8c9f32929ef0d1d3ad74103ddc4be712f92726450c3465
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79323be1553d545e96629f1619fb64d1cbed0d647260d3d32b2ad240f882494f
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:057898351285142abb8c9f32929ef0d1d3ad74103ddc4be712f92726450c3465
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79323be1553d545e96629f1619fb64d1cbed0d647260d3d32b2ad240f882494f
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:057898351285142abb8c9f32929ef0d1d3ad74103ddc4be712f92726450c3465
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79323be1553d545e96629f1619fb64d1cbed0d647260d3d32b2ad240f882494f
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:057898351285142abb8c9f32929ef0d1d3ad74103ddc4be712f92726450c3465
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79323be1553d545e96629f1619fb64d1cbed0d647260d3d32b2ad240f882494f
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:057898351285142abb8c9f32929ef0d1d3ad74103ddc4be712f92726450c3465
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79323be1553d545e96629f1619fb64d1cbed0d647260d3d32b2ad240f882494f
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:057898351285142abb8c9f32929ef0d1d3ad74103ddc4be712f92726450c3465
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79323be1553d545e96629f1619fb64d1cbed0d647260d3d32b2ad240f882494f
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:057898351285142abb8c9f32929ef0d1d3ad74103ddc4be712f92726450c3465
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79323be1553d545e96629f1619fb64d1cbed0d647260d3d32b2ad240f882494f
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:057898351285142abb8c9f32929ef0d1d3ad74103ddc4be712f92726450c3465
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0a3f000e1c939912bb1fea4c3fda9ca6e80fe563342ccf4a59cb3d0b46d78187
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:36f11c380127c9b2248f3452b83eb7e7a6efc224b0b84b63651e3db0e819c91c
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.5688793718772307,
-  "global_step": 80000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1606,11 +1606,211 @@
       "eval_samples_per_second": 1032.02,
       "eval_steps_per_second": 16.174,
       "step": 80000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 12,
-  "total_flos": 1.281322626979912e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.014989293361884,
+  "global_step": 90000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1032.02,
       "eval_steps_per_second": 16.174,
       "step": 80000
+    },
+    {
+      "epoch": 3.59,
+      "learning_rate": 0.0004884933271217461,
+      "loss": 0.4229,
+      "step": 80500
+    },
+    {
+      "epoch": 3.61,
+      "learning_rate": 0.0004869616019012347,
+      "loss": 0.4218,
+      "step": 81000
+    },
+    {
+      "epoch": 3.61,
+      "eval_loss": 0.3948546051979065,
+      "eval_runtime": 2.2856,
+      "eval_samples_per_second": 1005.007,
+      "eval_steps_per_second": 15.751,
+      "step": 81000
+    },
+    {
+      "epoch": 3.64,
+      "learning_rate": 0.00048542191709078226,
+      "loss": 0.4209,
+      "step": 81500
+    },
+    {
+      "epoch": 3.66,
+      "learning_rate": 0.00048387434004119027,
+      "loss": 0.4201,
+      "step": 82000
+    },
+    {
+      "epoch": 3.66,
+      "eval_loss": 0.39345651865005493,
+      "eval_runtime": 2.2871,
+      "eval_samples_per_second": 1004.335,
+      "eval_steps_per_second": 15.741,
+      "step": 82000
+    },
+    {
+      "epoch": 3.68,
+      "learning_rate": 0.0004823189384484924,
+      "loss": 0.4206,
+      "step": 82500
+    },
+    {
+      "epoch": 3.7,
+      "learning_rate": 0.000480755780350993,
+      "loss": 0.4182,
+      "step": 83000
+    },
+    {
+      "epoch": 3.7,
+      "eval_loss": 0.39259859919548035,
+      "eval_runtime": 2.2778,
+      "eval_samples_per_second": 1008.432,
+      "eval_steps_per_second": 15.805,
+      "step": 83000
+    },
+    {
+      "epoch": 3.73,
+      "learning_rate": 0.0004791849341262914,
+      "loss": 0.4176,
+      "step": 83500
+    },
+    {
+      "epoch": 3.75,
+      "learning_rate": 0.0004776064684882901,
+      "loss": 0.4168,
+      "step": 84000
+    },
+    {
+      "epoch": 3.75,
+      "eval_loss": 0.38789093494415283,
+      "eval_runtime": 2.2568,
+      "eval_samples_per_second": 1017.832,
+      "eval_steps_per_second": 15.952,
+      "step": 84000
+    },
+    {
+      "epoch": 3.77,
+      "learning_rate": 0.0004760204524841897,
+      "loss": 0.416,
+      "step": 84500
+    },
+    {
+      "epoch": 3.79,
+      "learning_rate": 0.0004744269554914683,
+      "loss": 0.4155,
+      "step": 85000
+    },
+    {
+      "epoch": 3.79,
+      "eval_loss": 0.3885124921798706,
+      "eval_runtime": 2.2513,
+      "eval_samples_per_second": 1020.282,
+      "eval_steps_per_second": 15.99,
+      "step": 85000
+    },
+    {
+      "epoch": 3.81,
+      "learning_rate": 0.00047282604721484643,
+      "loss": 0.4144,
+      "step": 85500
+    },
+    {
+      "epoch": 3.84,
+      "learning_rate": 0.0004712177976832385,
+      "loss": 0.4136,
+      "step": 86000
+    },
+    {
+      "epoch": 3.84,
+      "eval_loss": 0.38439127802848816,
+      "eval_runtime": 2.2526,
+      "eval_samples_per_second": 1019.704,
+      "eval_steps_per_second": 15.981,
+      "step": 86000
+    },
+    {
+      "epoch": 3.86,
+      "learning_rate": 0.0004696022772466888,
+      "loss": 0.413,
+      "step": 86500
+    },
+    {
+      "epoch": 3.88,
+      "learning_rate": 0.00046797955657329487,
+      "loss": 0.4124,
+      "step": 87000
+    },
+    {
+      "epoch": 3.88,
+      "eval_loss": 0.3855268955230713,
+      "eval_runtime": 2.2218,
+      "eval_samples_per_second": 1033.851,
+      "eval_steps_per_second": 16.203,
+      "step": 87000
+    },
+    {
+      "epoch": 3.9,
+      "learning_rate": 0.000466349706646116,
+      "loss": 0.4118,
+      "step": 87500
+    },
+    {
+      "epoch": 3.93,
+      "learning_rate": 0.00046471279876006763,
+      "loss": 0.4116,
+      "step": 88000
+    },
+    {
+      "epoch": 3.93,
+      "eval_loss": 0.3830411732196808,
+      "eval_runtime": 2.2947,
+      "eval_samples_per_second": 1001.012,
+      "eval_steps_per_second": 15.688,
+      "step": 88000
+    },
+    {
+      "epoch": 3.95,
+      "learning_rate": 0.00046306890451880395,
+      "loss": 0.4107,
+      "step": 88500
+    },
+    {
+      "epoch": 3.97,
+      "learning_rate": 0.0004614180958315844,
+      "loss": 0.4098,
+      "step": 89000
+    },
+    {
+      "epoch": 3.97,
+      "eval_loss": 0.38374021649360657,
+      "eval_runtime": 2.1424,
+      "eval_samples_per_second": 1072.163,
+      "eval_steps_per_second": 16.804,
+      "step": 89000
+    },
+    {
+      "epoch": 3.99,
+      "learning_rate": 0.00045976044491012884,
+      "loss": 0.4094,
+      "step": 89500
+    },
+    {
+      "epoch": 4.01,
+      "learning_rate": 0.00045809602426545847,
+      "loss": 0.4087,
+      "step": 90000
+    },
+    {
+      "epoch": 4.01,
+      "eval_loss": 0.3802391290664673,
+      "eval_runtime": 2.1802,
+      "eval_samples_per_second": 1053.586,
+      "eval_steps_per_second": 16.512,
+      "step": 90000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 12,
+  "total_flos": 1.4414834978635425e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bcbde3d756560955fbfc66085573e8eef27e478ece9f50dd82562f9061c96fc6
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:f8c6c3bb299aca29d8267ff6984670047e5650cb7a903f6095214235ebc45d18
 size 25761253