Training in progress, step 210000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1fdc18a3a07dc1829b889359b7e8a5532af1f5ff31ef1547a2371fed9f04234c
 size 50044689

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c47fd257138231eccea9626dd76bb4ab2f6eee094f257f7969484457f4c3632
 size 50044689

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f6f1a20ef47ec44509fdf200456c5d0dab5065c5747882695a1fa6a6507e69b1
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:f74dd22a753cfe967920b7b8fddb7217b98b0a2e0b5df67c64a45188f75eb97d
 size 25761253

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d06e0985627e05f775a3ba05c980d5f591b2564a72af07a844dfcb127f862fb
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:fab5fd582b22aec7ddbfa8fbc28c9b95ffec56fdf6ffdaedfc3579c4046380d3
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d06e0985627e05f775a3ba05c980d5f591b2564a72af07a844dfcb127f862fb
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:fab5fd582b22aec7ddbfa8fbc28c9b95ffec56fdf6ffdaedfc3579c4046380d3
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d06e0985627e05f775a3ba05c980d5f591b2564a72af07a844dfcb127f862fb
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:fab5fd582b22aec7ddbfa8fbc28c9b95ffec56fdf6ffdaedfc3579c4046380d3
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d06e0985627e05f775a3ba05c980d5f591b2564a72af07a844dfcb127f862fb
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:fab5fd582b22aec7ddbfa8fbc28c9b95ffec56fdf6ffdaedfc3579c4046380d3
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d06e0985627e05f775a3ba05c980d5f591b2564a72af07a844dfcb127f862fb
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:fab5fd582b22aec7ddbfa8fbc28c9b95ffec56fdf6ffdaedfc3579c4046380d3
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d06e0985627e05f775a3ba05c980d5f591b2564a72af07a844dfcb127f862fb
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:fab5fd582b22aec7ddbfa8fbc28c9b95ffec56fdf6ffdaedfc3579c4046380d3
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d06e0985627e05f775a3ba05c980d5f591b2564a72af07a844dfcb127f862fb
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:fab5fd582b22aec7ddbfa8fbc28c9b95ffec56fdf6ffdaedfc3579c4046380d3
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d06e0985627e05f775a3ba05c980d5f591b2564a72af07a844dfcb127f862fb
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:fab5fd582b22aec7ddbfa8fbc28c9b95ffec56fdf6ffdaedfc3579c4046380d3
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c550723a62ae0c4012004470c1ebd8187b99ec43cbd02d108f19a1f1901da5d8
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:64e266918cfc5cefb1731026fc3b803b3fe8a8f730b53e3407c9a310dee0fdb3
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 8.922198429693076,
-  "global_step": 200000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4006,11 +4006,211 @@
       "eval_samples_per_second": 1007.437,
       "eval_steps_per_second": 15.789,
       "step": 200000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 12,
-  "total_flos": 3.203303001458693e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 9.36830835117773,
+  "global_step": 210000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1007.437,
       "eval_steps_per_second": 15.789,
       "step": 200000
+    },
+    {
+      "epoch": 8.94,
+      "learning_rate": 7.101026312557103e-05,
+      "loss": 0.3672,
+      "step": 200500
+    },
+    {
+      "epoch": 8.97,
+      "learning_rate": 6.982721199219075e-05,
+      "loss": 0.3673,
+      "step": 201000
+    },
+    {
+      "epoch": 8.97,
+      "eval_loss": 0.3403836786746979,
+      "eval_runtime": 2.153,
+      "eval_samples_per_second": 1066.9,
+      "eval_steps_per_second": 16.721,
+      "step": 201000
+    },
+    {
+      "epoch": 8.99,
+      "learning_rate": 6.865444807841203e-05,
+      "loss": 0.3671,
+      "step": 201500
+    },
+    {
+      "epoch": 9.01,
+      "learning_rate": 6.749202268472787e-05,
+      "loss": 0.3671,
+      "step": 202000
+    },
+    {
+      "epoch": 9.01,
+      "eval_loss": 0.3397007882595062,
+      "eval_runtime": 2.2258,
+      "eval_samples_per_second": 1032.002,
+      "eval_steps_per_second": 16.174,
+      "step": 202000
+    },
+    {
+      "epoch": 9.03,
+      "learning_rate": 6.633998665939053e-05,
+      "loss": 0.3672,
+      "step": 202500
+    },
+    {
+      "epoch": 9.06,
+      "learning_rate": 6.519839039618793e-05,
+      "loss": 0.3669,
+      "step": 203000
+    },
+    {
+      "epoch": 9.06,
+      "eval_loss": 0.3417140245437622,
+      "eval_runtime": 2.2137,
+      "eval_samples_per_second": 1037.631,
+      "eval_steps_per_second": 16.262,
+      "step": 203000
+    },
+    {
+      "epoch": 9.08,
+      "learning_rate": 6.406728383223897e-05,
+      "loss": 0.3669,
+      "step": 203500
+    },
+    {
+      "epoch": 9.1,
+      "learning_rate": 6.294671644580888e-05,
+      "loss": 0.3669,
+      "step": 204000
+    },
+    {
+      "epoch": 9.1,
+      "eval_loss": 0.3413463830947876,
+      "eval_runtime": 2.179,
+      "eval_samples_per_second": 1054.147,
+      "eval_steps_per_second": 16.521,
+      "step": 204000
+    },
+    {
+      "epoch": 9.12,
+      "learning_rate": 6.18367372541454e-05,
+      "loss": 0.3668,
+      "step": 204500
+    },
+    {
+      "epoch": 9.15,
+      "learning_rate": 6.073739481133408e-05,
+      "loss": 0.3666,
+      "step": 205000
+    },
+    {
+      "epoch": 9.15,
+      "eval_loss": 0.33860939741134644,
+      "eval_runtime": 2.2027,
+      "eval_samples_per_second": 1042.794,
+      "eval_steps_per_second": 16.343,
+      "step": 205000
+    },
+    {
+      "epoch": 9.17,
+      "learning_rate": 5.96487372061749e-05,
+      "loss": 0.3667,
+      "step": 205500
+    },
+    {
+      "epoch": 9.19,
+      "learning_rate": 5.857081206007811e-05,
+      "loss": 0.3666,
+      "step": 206000
+    },
+    {
+      "epoch": 9.19,
+      "eval_loss": 0.3413560390472412,
+      "eval_runtime": 2.2133,
+      "eval_samples_per_second": 1037.836,
+      "eval_steps_per_second": 16.266,
+      "step": 206000
+    },
+    {
+      "epoch": 9.21,
+      "learning_rate": 5.750366652498169e-05,
+      "loss": 0.3663,
+      "step": 206500
+    },
+    {
+      "epoch": 9.23,
+      "learning_rate": 5.6447347281288474e-05,
+      "loss": 0.3664,
+      "step": 207000
+    },
+    {
+      "epoch": 9.23,
+      "eval_loss": 0.3407277464866638,
+      "eval_runtime": 2.2449,
+      "eval_samples_per_second": 1023.218,
+      "eval_steps_per_second": 16.037,
+      "step": 207000
+    },
+    {
+      "epoch": 9.26,
+      "learning_rate": 5.540190053582401e-05,
+      "loss": 0.3665,
+      "step": 207500
+    },
+    {
+      "epoch": 9.28,
+      "learning_rate": 5.43673720198159e-05,
+      "loss": 0.3662,
+      "step": 208000
+    },
+    {
+      "epoch": 9.28,
+      "eval_loss": 0.3401471674442291,
+      "eval_runtime": 2.2056,
+      "eval_samples_per_second": 1041.45,
+      "eval_steps_per_second": 16.322,
+      "step": 208000
+    },
+    {
+      "epoch": 9.3,
+      "learning_rate": 5.33438069868928e-05,
+      "loss": 0.3662,
+      "step": 208500
+    },
+    {
+      "epoch": 9.32,
+      "learning_rate": 5.2331250211105e-05,
+      "loss": 0.3661,
+      "step": 209000
+    },
+    {
+      "epoch": 9.32,
+      "eval_loss": 0.34120145440101624,
+      "eval_runtime": 2.1294,
+      "eval_samples_per_second": 1078.699,
+      "eval_steps_per_second": 16.906,
+      "step": 209000
+    },
+    {
+      "epoch": 9.35,
+      "learning_rate": 5.13297459849662e-05,
+      "loss": 0.366,
+      "step": 209500
+    },
+    {
+      "epoch": 9.37,
+      "learning_rate": 5.0339338117515696e-05,
+      "loss": 0.366,
+      "step": 210000
+    },
+    {
+      "epoch": 9.37,
+      "eval_loss": 0.3374158442020416,
+      "eval_runtime": 2.1871,
+      "eval_samples_per_second": 1050.236,
+      "eval_steps_per_second": 16.46,
+      "step": 210000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 12,
+  "total_flos": 3.3634638723423236e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f6f1a20ef47ec44509fdf200456c5d0dab5065c5747882695a1fa6a6507e69b1
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:f74dd22a753cfe967920b7b8fddb7217b98b0a2e0b5df67c64a45188f75eb97d
 size 25761253