Training in progress, step 130000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c1e0bc201a48037c117cf182b1af5c6f4d1de81608cab594dcb7b0df89e16d70
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:16b5536ca8a6e377f81e58375b1a7ad0f81c77249b2b140bbeb9ba4baedae79d
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:23090dda99868abea6a7796871fd763d22a4e00fff59d8a65d78e70f06487cae
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba517ef097f30eafaab51fcd07596ea1dc064b2e4ffa07b172ca6b443b8d5c50
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca5bc32c00ec3a14d611f2862ea85a2017db3bf307d1ec3917eebae34f57b515
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6905d0008e40eff2d80ae3e67e781129af6c787e6082983c24f27be53737707
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca5bc32c00ec3a14d611f2862ea85a2017db3bf307d1ec3917eebae34f57b515
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6905d0008e40eff2d80ae3e67e781129af6c787e6082983c24f27be53737707
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca5bc32c00ec3a14d611f2862ea85a2017db3bf307d1ec3917eebae34f57b515
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6905d0008e40eff2d80ae3e67e781129af6c787e6082983c24f27be53737707
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca5bc32c00ec3a14d611f2862ea85a2017db3bf307d1ec3917eebae34f57b515
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6905d0008e40eff2d80ae3e67e781129af6c787e6082983c24f27be53737707
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca5bc32c00ec3a14d611f2862ea85a2017db3bf307d1ec3917eebae34f57b515
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6905d0008e40eff2d80ae3e67e781129af6c787e6082983c24f27be53737707
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca5bc32c00ec3a14d611f2862ea85a2017db3bf307d1ec3917eebae34f57b515
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6905d0008e40eff2d80ae3e67e781129af6c787e6082983c24f27be53737707
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca5bc32c00ec3a14d611f2862ea85a2017db3bf307d1ec3917eebae34f57b515
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6905d0008e40eff2d80ae3e67e781129af6c787e6082983c24f27be53737707
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca5bc32c00ec3a14d611f2862ea85a2017db3bf307d1ec3917eebae34f57b515
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6905d0008e40eff2d80ae3e67e781129af6c787e6082983c24f27be53737707
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:60ddf5c33f60196860027b40e8443017b8ed479cc5dfb73f8a076fe07f546fd4
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:f1c3de3c2d66025eca4b56b8d5efacb781ba1e9b4daae40acd9c92c0f7cbe98c
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.058259850145267,
-  "global_step": 120000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2406,11 +2406,211 @@
       "eval_samples_per_second": 763.433,
       "eval_steps_per_second": 12.215,
       "step": 120000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 13,
-  "total_flos": 3.833805228554865e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.313114837657373,
+  "global_step": 130000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 763.433,
       "eval_steps_per_second": 12.215,
       "step": 120000
+    },
+    {
+      "epoch": 3.07,
+      "learning_rate": 0.0002720249765698123,
+      "loss": 0.3066,
+      "step": 120500
+    },
+    {
+      "epoch": 3.08,
+      "learning_rate": 0.0002717412091888626,
+      "loss": 0.3072,
+      "step": 121000
+    },
+    {
+      "epoch": 3.08,
+      "eval_loss": 0.8392689824104309,
+      "eval_runtime": 1.2716,
+      "eval_samples_per_second": 786.397,
+      "eval_steps_per_second": 12.582,
+      "step": 121000
+    },
+    {
+      "epoch": 3.1,
+      "learning_rate": 0.00027145616514475274,
+      "loss": 0.3067,
+      "step": 121500
+    },
+    {
+      "epoch": 3.11,
+      "learning_rate": 0.0002711698475546788,
+      "loss": 0.3063,
+      "step": 122000
+    },
+    {
+      "epoch": 3.11,
+      "eval_loss": 0.8436251282691956,
+      "eval_runtime": 1.2483,
+      "eval_samples_per_second": 801.08,
+      "eval_steps_per_second": 12.817,
+      "step": 122000
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 0.00027088225954976407,
+      "loss": 0.3067,
+      "step": 122500
+    },
+    {
+      "epoch": 3.13,
+      "learning_rate": 0.0002705934042750249,
+      "loss": 0.3061,
+      "step": 123000
+    },
+    {
+      "epoch": 3.13,
+      "eval_loss": 0.8345765471458435,
+      "eval_runtime": 1.2507,
+      "eval_samples_per_second": 799.522,
+      "eval_steps_per_second": 12.792,
+      "step": 123000
+    },
+    {
+      "epoch": 3.15,
+      "learning_rate": 0.00027030328488933625,
+      "loss": 0.3071,
+      "step": 123500
+    },
+    {
+      "epoch": 3.16,
+      "learning_rate": 0.00027001190456539726,
+      "loss": 0.3059,
+      "step": 124000
+    },
+    {
+      "epoch": 3.16,
+      "eval_loss": 0.8408392071723938,
+      "eval_runtime": 1.3349,
+      "eval_samples_per_second": 749.093,
+      "eval_steps_per_second": 11.985,
+      "step": 124000
+    },
+    {
+      "epoch": 3.17,
+      "learning_rate": 0.0002697192664896965,
+      "loss": 0.3062,
+      "step": 124500
+    },
+    {
+      "epoch": 3.19,
+      "learning_rate": 0.00026942537386247706,
+      "loss": 0.3062,
+      "step": 125000
+    },
+    {
+      "epoch": 3.19,
+      "eval_loss": 0.8384091854095459,
+      "eval_runtime": 1.3159,
+      "eval_samples_per_second": 759.918,
+      "eval_steps_per_second": 12.159,
+      "step": 125000
+    },
+    {
+      "epoch": 3.2,
+      "learning_rate": 0.0002691302298977016,
+      "loss": 0.3058,
+      "step": 125500
+    },
+    {
+      "epoch": 3.21,
+      "learning_rate": 0.0002688338378230173,
+      "loss": 0.307,
+      "step": 126000
+    },
+    {
+      "epoch": 3.21,
+      "eval_loss": 0.837376594543457,
+      "eval_runtime": 1.3811,
+      "eval_samples_per_second": 724.072,
+      "eval_steps_per_second": 11.585,
+      "step": 126000
+    },
+    {
+      "epoch": 3.22,
+      "learning_rate": 0.00026853620087972035,
+      "loss": 0.3067,
+      "step": 126500
+    },
+    {
+      "epoch": 3.24,
+      "learning_rate": 0.00026823732232272065,
+      "loss": 0.3056,
+      "step": 127000
+    },
+    {
+      "epoch": 3.24,
+      "eval_loss": 0.8240262269973755,
+      "eval_runtime": 1.3027,
+      "eval_samples_per_second": 767.62,
+      "eval_steps_per_second": 12.282,
+      "step": 127000
+    },
+    {
+      "epoch": 3.25,
+      "learning_rate": 0.0002679372054205063,
+      "loss": 0.305,
+      "step": 127500
+    },
+    {
+      "epoch": 3.26,
+      "learning_rate": 0.0002676358534551076,
+      "loss": 0.3049,
+      "step": 128000
+    },
+    {
+      "epoch": 3.26,
+      "eval_loss": 0.8262757658958435,
+      "eval_runtime": 1.3606,
+      "eval_samples_per_second": 734.996,
+      "eval_steps_per_second": 11.76,
+      "step": 128000
+    },
+    {
+      "epoch": 3.27,
+      "learning_rate": 0.00026733326972206133,
+      "loss": 0.306,
+      "step": 128500
+    },
+    {
+      "epoch": 3.29,
+      "learning_rate": 0.0002670294575303748,
+      "loss": 0.3068,
+      "step": 129000
+    },
+    {
+      "epoch": 3.29,
+      "eval_loss": 0.8301039934158325,
+      "eval_runtime": 1.2964,
+      "eval_samples_per_second": 771.396,
+      "eval_steps_per_second": 12.342,
+      "step": 129000
+    },
+    {
+      "epoch": 3.3,
+      "learning_rate": 0.0002667244202024894,
+      "loss": 0.305,
+      "step": 129500
+    },
+    {
+      "epoch": 3.31,
+      "learning_rate": 0.00026641816107424453,
+      "loss": 0.3053,
+      "step": 130000
+    },
+    {
+      "epoch": 3.31,
+      "eval_loss": 0.8349767923355103,
+      "eval_runtime": 1.3045,
+      "eval_samples_per_second": 766.596,
+      "eval_steps_per_second": 12.266,
+      "step": 130000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 13,
+  "total_flos": 4.153292367329365e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:23090dda99868abea6a7796871fd763d22a4e00fff59d8a65d78e70f06487cae
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba517ef097f30eafaab51fcd07596ea1dc064b2e4ffa07b172ca6b443b8d5c50
 size 102501541