Training in progress, step 100000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e24722d3d71d5dada97b20d5f2001082a254811eb675e34eb93438f0ea062fd3
 size 50044689

 version https://git-lfs.github.com/spec/v1
+oid sha256:2756bd704606cd6c5c35ea5f45a21e975a94f7ac54bd0802ebe8750dfbd1eba8
 size 50044689

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f8c6c3bb299aca29d8267ff6984670047e5650cb7a903f6095214235ebc45d18
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:0fc703713a0fad50a78f7cc73423f660e122486f1451ea9412d49c8df9646af6
 size 25761253

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:057898351285142abb8c9f32929ef0d1d3ad74103ddc4be712f92726450c3465
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f94f403b594a29ecb6816cee93c65f5e3a0566d5747151b3697716adac4e9951
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:057898351285142abb8c9f32929ef0d1d3ad74103ddc4be712f92726450c3465
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f94f403b594a29ecb6816cee93c65f5e3a0566d5747151b3697716adac4e9951
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:057898351285142abb8c9f32929ef0d1d3ad74103ddc4be712f92726450c3465
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f94f403b594a29ecb6816cee93c65f5e3a0566d5747151b3697716adac4e9951
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:057898351285142abb8c9f32929ef0d1d3ad74103ddc4be712f92726450c3465
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f94f403b594a29ecb6816cee93c65f5e3a0566d5747151b3697716adac4e9951
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:057898351285142abb8c9f32929ef0d1d3ad74103ddc4be712f92726450c3465
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f94f403b594a29ecb6816cee93c65f5e3a0566d5747151b3697716adac4e9951
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:057898351285142abb8c9f32929ef0d1d3ad74103ddc4be712f92726450c3465
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f94f403b594a29ecb6816cee93c65f5e3a0566d5747151b3697716adac4e9951
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:057898351285142abb8c9f32929ef0d1d3ad74103ddc4be712f92726450c3465
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f94f403b594a29ecb6816cee93c65f5e3a0566d5747151b3697716adac4e9951
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:057898351285142abb8c9f32929ef0d1d3ad74103ddc4be712f92726450c3465
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:f94f403b594a29ecb6816cee93c65f5e3a0566d5747151b3697716adac4e9951
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:36f11c380127c9b2248f3452b83eb7e7a6efc224b0b84b63651e3db0e819c91c
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:0d85ea74361bfabc4dca40ed2a4dec24f25124d91f625a1176acad7044d70175
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.014989293361884,
-  "global_step": 90000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1806,11 +1806,211 @@
       "eval_samples_per_second": 1053.586,
       "eval_steps_per_second": 16.512,
       "step": 90000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 12,
-  "total_flos": 1.4414834978635425e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.461099214846538,
+  "global_step": 100000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1053.586,
       "eval_steps_per_second": 16.512,
       "step": 90000
+    },
+    {
+      "epoch": 4.04,
+      "learning_rate": 0.00045642490670472436,
+      "loss": 0.4084,
+      "step": 90500
+    },
+    {
+      "epoch": 4.06,
+      "learning_rate": 0.0004547471653280225,
+      "loss": 0.4078,
+      "step": 91000
+    },
+    {
+      "epoch": 4.06,
+      "eval_loss": 0.37994059920310974,
+      "eval_runtime": 2.2046,
+      "eval_samples_per_second": 1041.911,
+      "eval_steps_per_second": 16.329,
+      "step": 91000
+    },
+    {
+      "epoch": 4.08,
+      "learning_rate": 0.00045306287352519543,
+      "loss": 0.407,
+      "step": 91500
+    },
+    {
+      "epoch": 4.1,
+      "learning_rate": 0.00045137210497262333,
+      "loss": 0.4068,
+      "step": 92000
+    },
+    {
+      "epoch": 4.1,
+      "eval_loss": 0.3793868124485016,
+      "eval_runtime": 2.2708,
+      "eval_samples_per_second": 1011.534,
+      "eval_steps_per_second": 15.853,
+      "step": 92000
+    },
+    {
+      "epoch": 4.13,
+      "learning_rate": 0.0004496749336299999,
+      "loss": 0.4063,
+      "step": 92500
+    },
+    {
+      "epoch": 4.15,
+      "learning_rate": 0.0004479714337370977,
+      "loss": 0.4057,
+      "step": 93000
+    },
+    {
+      "epoch": 4.15,
+      "eval_loss": 0.37835967540740967,
+      "eval_runtime": 2.237,
+      "eval_samples_per_second": 1026.834,
+      "eval_steps_per_second": 16.093,
+      "step": 93000
+    },
+    {
+      "epoch": 4.17,
+      "learning_rate": 0.00044626167981052036,
+      "loss": 0.4052,
+      "step": 93500
+    },
+    {
+      "epoch": 4.19,
+      "learning_rate": 0.00044454574664044404,
+      "loss": 0.4047,
+      "step": 94000
+    },
+    {
+      "epoch": 4.19,
+      "eval_loss": 0.37884432077407837,
+      "eval_runtime": 2.2678,
+      "eval_samples_per_second": 1012.88,
+      "eval_steps_per_second": 15.874,
+      "step": 94000
+    },
+    {
+      "epoch": 4.22,
+      "learning_rate": 0.000442823709287344,
+      "loss": 0.4044,
+      "step": 94500
+    },
+    {
+      "epoch": 4.24,
+      "learning_rate": 0.0004410956430787129,
+      "loss": 0.4047,
+      "step": 95000
+    },
+    {
+      "epoch": 4.24,
+      "eval_loss": 0.37695789337158203,
+      "eval_runtime": 2.1458,
+      "eval_samples_per_second": 1070.466,
+      "eval_steps_per_second": 16.777,
+      "step": 95000
+    },
+    {
+      "epoch": 4.26,
+      "learning_rate": 0.0004393616236057647,
+      "loss": 0.4036,
+      "step": 95500
+    },
+    {
+      "epoch": 4.28,
+      "learning_rate": 0.00043762172672012875,
+      "loss": 0.4029,
+      "step": 96000
+    },
+    {
+      "epoch": 4.28,
+      "eval_loss": 0.37500157952308655,
+      "eval_runtime": 2.2301,
+      "eval_samples_per_second": 1029.999,
+      "eval_steps_per_second": 16.143,
+      "step": 96000
+    },
+    {
+      "epoch": 4.3,
+      "learning_rate": 0.0004358760285305312,
+      "loss": 0.4025,
+      "step": 96500
+    },
+    {
+      "epoch": 4.33,
+      "learning_rate": 0.0004341246053994663,
+      "loss": 0.4022,
+      "step": 97000
+    },
+    {
+      "epoch": 4.33,
+      "eval_loss": 0.37471264600753784,
+      "eval_runtime": 2.2149,
+      "eval_samples_per_second": 1037.069,
+      "eval_steps_per_second": 16.254,
+      "step": 97000
+    },
+    {
+      "epoch": 4.35,
+      "learning_rate": 0.00043236753393985534,
+      "loss": 0.4019,
+      "step": 97500
+    },
+    {
+      "epoch": 4.37,
+      "learning_rate": 0.0004306048910116964,
+      "loss": 0.4015,
+      "step": 98000
+    },
+    {
+      "epoch": 4.37,
+      "eval_loss": 0.3735538125038147,
+      "eval_runtime": 2.2361,
+      "eval_samples_per_second": 1027.233,
+      "eval_steps_per_second": 16.099,
+      "step": 98000
+    },
+    {
+      "epoch": 4.39,
+      "learning_rate": 0.0004288367537187012,
+      "loss": 0.4011,
+      "step": 98500
+    },
+    {
+      "epoch": 4.42,
+      "learning_rate": 0.00042706319940492284,
+      "loss": 0.4007,
+      "step": 99000
+    },
+    {
+      "epoch": 4.42,
+      "eval_loss": 0.3751888573169708,
+      "eval_runtime": 2.2595,
+      "eval_samples_per_second": 1016.613,
+      "eval_steps_per_second": 15.933,
+      "step": 99000
+    },
+    {
+      "epoch": 4.44,
+      "learning_rate": 0.00042528430565137254,
+      "loss": 0.4003,
+      "step": 99500
+    },
+    {
+      "epoch": 4.46,
+      "learning_rate": 0.00042350015027262593,
+      "loss": 0.4,
+      "step": 100000
+    },
+    {
+      "epoch": 4.46,
+      "eval_loss": 0.37434616684913635,
+      "eval_runtime": 2.2061,
+      "eval_samples_per_second": 1041.22,
+      "eval_steps_per_second": 16.319,
+      "step": 100000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 12,
+  "total_flos": 1.6016515007293466e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f8c6c3bb299aca29d8267ff6984670047e5650cb7a903f6095214235ebc45d18
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:0fc703713a0fad50a78f7cc73423f660e122486f1451ea9412d49c8df9646af6
 size 25761253