Training in progress, step 350000

Browse files

Files changed (4) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +131 -3

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:40fe0403207cad2dc3e39d3c817503e5448a77df290f57cccfb2e64288c41acd
 size 995605445

 version https://git-lfs.github.com/spec/v1
+oid sha256:c89ba467d9f15e7532272ecaf0ccadb771ab579cd44d7321fc1ad8b066ae1525
 size 995605445

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e08a500181a834c33953e56c8723ea880cc02afa481dcf62ae8634373aca3933
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:d51593bf5f22eb880085627e2794b144f3f333b26c86dcfc3ce4c512cf0ec47e
 size 14575

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a4e01eb4a07664003103c8d71136270f0f89ab5c55108a56ff916a5b2e06d40
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:d5e8328bc686039137ad7f1d537dc750264b54ac42c8dd2a22d6dbf651312dee
 size 627

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 8.050004735296904,
-  "global_step": 340000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4364,11 +4364,139 @@
       "eval_samples_per_second": 166.22,
       "eval_steps_per_second": 20.782,
       "step": 340000
     }
   ],
   "max_steps": 633540,
   "num_train_epochs": 15,
-  "total_flos": 7.1815677126912e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 8.286769580452695,
+  "global_step": 350000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 166.22,
       "eval_steps_per_second": 20.782,
       "step": 340000
+    },
+    {
+      "epoch": 8.06,
+      "learning_rate": 0.0,
+      "loss": 2.4242,
+      "step": 340500
+    },
+    {
+      "epoch": 8.07,
+      "learning_rate": 0.0,
+      "loss": 2.4302,
+      "step": 341000
+    },
+    {
+      "epoch": 8.09,
+      "learning_rate": 0.0,
+      "loss": 2.4193,
+      "step": 341500
+    },
+    {
+      "epoch": 8.1,
+      "learning_rate": 0.0,
+      "loss": 2.4164,
+      "step": 342000
+    },
+    {
+      "epoch": 8.11,
+      "learning_rate": 0.0,
+      "loss": 2.4209,
+      "step": 342500
+    },
+    {
+      "epoch": 8.12,
+      "learning_rate": 0.0,
+      "loss": 2.4416,
+      "step": 343000
+    },
+    {
+      "epoch": 8.13,
+      "learning_rate": 0.0,
+      "loss": 2.4181,
+      "step": 343500
+    },
+    {
+      "epoch": 8.14,
+      "learning_rate": 0.0,
+      "loss": 2.4254,
+      "step": 344000
+    },
+    {
+      "epoch": 8.16,
+      "learning_rate": 0.0,
+      "loss": 2.4127,
+      "step": 344500
+    },
+    {
+      "epoch": 8.17,
+      "learning_rate": 0.0,
+      "loss": 2.4414,
+      "step": 345000
+    },
+    {
+      "epoch": 8.18,
+      "learning_rate": 0.0,
+      "loss": 2.4366,
+      "step": 345500
+    },
+    {
+      "epoch": 8.19,
+      "learning_rate": 0.0,
+      "loss": 2.433,
+      "step": 346000
+    },
+    {
+      "epoch": 8.2,
+      "learning_rate": 0.0,
+      "loss": 2.4206,
+      "step": 346500
+    },
+    {
+      "epoch": 8.22,
+      "learning_rate": 0.0,
+      "loss": 2.4424,
+      "step": 347000
+    },
+    {
+      "epoch": 8.23,
+      "learning_rate": 0.0,
+      "loss": 2.4264,
+      "step": 347500
+    },
+    {
+      "epoch": 8.24,
+      "learning_rate": 0.0,
+      "loss": 2.433,
+      "step": 348000
+    },
+    {
+      "epoch": 8.25,
+      "learning_rate": 0.0,
+      "loss": 2.4261,
+      "step": 348500
+    },
+    {
+      "epoch": 8.26,
+      "learning_rate": 0.0,
+      "loss": 2.4225,
+      "step": 349000
+    },
+    {
+      "epoch": 8.27,
+      "learning_rate": 0.0,
+      "loss": 2.4319,
+      "step": 349500
+    },
+    {
+      "epoch": 8.29,
+      "learning_rate": 0.0,
+      "loss": 2.4333,
+      "step": 350000
+    },
+    {
+      "epoch": 8.29,
+      "eval_loss": 3.1522228717803955,
+      "eval_runtime": 113.0119,
+      "eval_samples_per_second": 166.106,
+      "eval_steps_per_second": 20.768,
+      "step": 350000
     }
   ],
   "max_steps": 633540,
   "num_train_epochs": 15,
+  "total_flos": 7.3929090776832e+16,
   "trial_name": null,
   "trial_params": null
 }