Training in progress, step 120000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:49758088a73ffa86cfa7391b8520727f0e91c812a8d23680b3ffbf53509abe86
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:c1e0bc201a48037c117cf182b1af5c6f4d1de81608cab594dcb7b0df89e16d70
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2d6b8966d1cc83e4388837c4e32ca9b57abfb21fb0d307bbaed74f29719988a7
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:23090dda99868abea6a7796871fd763d22a4e00fff59d8a65d78e70f06487cae
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a623d5977f2ffdfbfa35a1493256efb0eabb662e5c36d8f15402dd8b77d8717
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca5bc32c00ec3a14d611f2862ea85a2017db3bf307d1ec3917eebae34f57b515
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a623d5977f2ffdfbfa35a1493256efb0eabb662e5c36d8f15402dd8b77d8717
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca5bc32c00ec3a14d611f2862ea85a2017db3bf307d1ec3917eebae34f57b515
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a623d5977f2ffdfbfa35a1493256efb0eabb662e5c36d8f15402dd8b77d8717
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca5bc32c00ec3a14d611f2862ea85a2017db3bf307d1ec3917eebae34f57b515
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a623d5977f2ffdfbfa35a1493256efb0eabb662e5c36d8f15402dd8b77d8717
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca5bc32c00ec3a14d611f2862ea85a2017db3bf307d1ec3917eebae34f57b515
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a623d5977f2ffdfbfa35a1493256efb0eabb662e5c36d8f15402dd8b77d8717
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca5bc32c00ec3a14d611f2862ea85a2017db3bf307d1ec3917eebae34f57b515
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a623d5977f2ffdfbfa35a1493256efb0eabb662e5c36d8f15402dd8b77d8717
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca5bc32c00ec3a14d611f2862ea85a2017db3bf307d1ec3917eebae34f57b515
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a623d5977f2ffdfbfa35a1493256efb0eabb662e5c36d8f15402dd8b77d8717
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca5bc32c00ec3a14d611f2862ea85a2017db3bf307d1ec3917eebae34f57b515
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a623d5977f2ffdfbfa35a1493256efb0eabb662e5c36d8f15402dd8b77d8717
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca5bc32c00ec3a14d611f2862ea85a2017db3bf307d1ec3917eebae34f57b515
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a36392859753540b5ff28a6690e0fb35c1157de322529d1ae210898db91ddda7
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:60ddf5c33f60196860027b40e8443017b8ed479cc5dfb73f8a076fe07f546fd4
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.803404862633162,
-  "global_step": 110000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2206,11 +2206,211 @@
       "eval_samples_per_second": 824.682,
       "eval_steps_per_second": 13.195,
       "step": 110000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 13,
-  "total_flos": 3.51433156869341e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.058259850145267,
+  "global_step": 120000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 824.682,
       "eval_steps_per_second": 13.195,
       "step": 110000
+    },
+    {
+      "epoch": 2.82,
+      "learning_rate": 0.0002774275491977922,
+      "loss": 0.3111,
+      "step": 110500
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 0.0002771699479464853,
+      "loss": 0.3089,
+      "step": 111000
+    },
+    {
+      "epoch": 2.83,
+      "eval_loss": 0.8333858847618103,
+      "eval_runtime": 1.2664,
+      "eval_samples_per_second": 789.664,
+      "eval_steps_per_second": 12.635,
+      "step": 111000
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 0.00027691101066420104,
+      "loss": 0.3091,
+      "step": 111500
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 0.0002766507401826361,
+      "loss": 0.3089,
+      "step": 112000
+    },
+    {
+      "epoch": 2.85,
+      "eval_loss": 0.8437691330909729,
+      "eval_runtime": 1.2859,
+      "eval_samples_per_second": 777.686,
+      "eval_steps_per_second": 12.443,
+      "step": 112000
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 0.0002763891393480666,
+      "loss": 0.3086,
+      "step": 112500
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 0.0002761262110213175,
+      "loss": 0.3088,
+      "step": 113000
+    },
+    {
+      "epoch": 2.88,
+      "eval_loss": 0.8328044414520264,
+      "eval_runtime": 1.2617,
+      "eval_samples_per_second": 792.564,
+      "eval_steps_per_second": 12.681,
+      "step": 113000
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 0.00027586195807773083,
+      "loss": 0.308,
+      "step": 113500
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 0.00027559638340713435,
+      "loss": 0.3085,
+      "step": 114000
+    },
+    {
+      "epoch": 2.91,
+      "eval_loss": 0.831738293170929,
+      "eval_runtime": 1.2398,
+      "eval_samples_per_second": 806.55,
+      "eval_steps_per_second": 12.905,
+      "step": 114000
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 0.00027532948991381025,
+      "loss": 0.3079,
+      "step": 114500
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 0.00027506128051646287,
+      "loss": 0.3097,
+      "step": 115000
+    },
+    {
+      "epoch": 2.93,
+      "eval_loss": 0.8462249636650085,
+      "eval_runtime": 1.2264,
+      "eval_samples_per_second": 815.428,
+      "eval_steps_per_second": 13.047,
+      "step": 115000
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 0.00027479175814818733,
+      "loss": 0.3082,
+      "step": 115500
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 0.000274520925756437,
+      "loss": 0.3082,
+      "step": 116000
+    },
+    {
+      "epoch": 2.96,
+      "eval_loss": 0.8435738682746887,
+      "eval_runtime": 1.3152,
+      "eval_samples_per_second": 760.322,
+      "eval_steps_per_second": 12.165,
+      "step": 116000
+    },
+    {
+      "epoch": 2.97,
+      "learning_rate": 0.00027424878630299157,
+      "loss": 0.3074,
+      "step": 116500
+    },
+    {
+      "epoch": 2.98,
+      "learning_rate": 0.0002739753427639244,
+      "loss": 0.3077,
+      "step": 117000
+    },
+    {
+      "epoch": 2.98,
+      "eval_loss": 0.8435785174369812,
+      "eval_runtime": 1.2302,
+      "eval_samples_per_second": 812.844,
+      "eval_steps_per_second": 13.006,
+      "step": 117000
+    },
+    {
+      "epoch": 2.99,
+      "learning_rate": 0.0002737005981295704,
+      "loss": 0.3078,
+      "step": 117500
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 0.0002734245554044927,
+      "loss": 0.3086,
+      "step": 118000
+    },
+    {
+      "epoch": 3.01,
+      "eval_loss": 0.8482502698898315,
+      "eval_runtime": 1.3338,
+      "eval_samples_per_second": 749.745,
+      "eval_steps_per_second": 11.996,
+      "step": 118000
+    },
+    {
+      "epoch": 3.02,
+      "learning_rate": 0.0002731472176074504,
+      "loss": 0.307,
+      "step": 118500
+    },
+    {
+      "epoch": 3.03,
+      "learning_rate": 0.0002728685877713653,
+      "loss": 0.3072,
+      "step": 119000
+    },
+    {
+      "epoch": 3.03,
+      "eval_loss": 0.8354719281196594,
+      "eval_runtime": 1.4002,
+      "eval_samples_per_second": 714.17,
+      "eval_steps_per_second": 11.427,
+      "step": 119000
+    },
+    {
+      "epoch": 3.05,
+      "learning_rate": 0.0002725886689432884,
+      "loss": 0.3075,
+      "step": 119500
+    },
+    {
+      "epoch": 3.06,
+      "learning_rate": 0.0002723074641843674,
+      "loss": 0.3066,
+      "step": 120000
+    },
+    {
+      "epoch": 3.06,
+      "eval_loss": 0.8281124234199524,
+      "eval_runtime": 1.3099,
+      "eval_samples_per_second": 763.433,
+      "eval_steps_per_second": 12.215,
+      "step": 120000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 13,
+  "total_flos": 3.833805228554865e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2d6b8966d1cc83e4388837c4e32ca9b57abfb21fb0d307bbaed74f29719988a7
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:23090dda99868abea6a7796871fd763d22a4e00fff59d8a65d78e70f06487cae
 size 102501541