Training in progress, step 140000

Browse files

Files changed (6) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +131 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:07da6cc3c2d68014088f1ee4c711e070435309050076d3a9ba72efaf28904ab8
 size 995605445

 version https://git-lfs.github.com/spec/v1
+oid sha256:cc3812042d03721dd2e98c646d7fbd591edd7e67355f2c23bb6e310d353ffb03
 size 995605445

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f4b57e2e58483c18b5fe4ec5dd79a83877c71aff1fbb8a57d6941745f468c5e
 size 510398013

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff3b25c771db1e8a7cb96a6b9fafacb9b63e8e354d25fc6a16953bbd07d49a3d
 size 510398013

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d1f521d7e7b3b42bd4187999b7a8ee4e48ff2037dbac9d1aa8bcc52060f7db7c
 size 14575

 version https://git-lfs.github.com/spec/v1
+oid sha256:bde063ad0d958c0faa5d30fe45bd49a698856b439891ac3f26a2ccce7067870e
 size 14575

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bf3296949d51d37aba3f66b6faa847888a811e29459c0dd69332f32f91246e0e
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:16b6acd039c0b1a39efd4c1d0dea49b043256ea2b380aaca2afa9c769cbd843b
 size 627

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.0779429870252866,
-  "global_step": 130000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1676,11 +1676,139 @@
       "eval_samples_per_second": 165.289,
       "eval_steps_per_second": 20.666,
       "step": 130000
     }
   ],
   "max_steps": 633540,
   "num_train_epochs": 15,
-  "total_flos": 2.7542948235264e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.3147078321810777,
+  "global_step": 140000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 165.289,
       "eval_steps_per_second": 20.666,
       "step": 130000
+    },
+    {
+      "epoch": 3.09,
+      "learning_rate": 2.265530195409919e-05,
+      "loss": 2.7526,
+      "step": 130500
+    },
+    {
+      "epoch": 3.1,
+      "learning_rate": 2.2592164662057647e-05,
+      "loss": 2.7588,
+      "step": 131000
+    },
+    {
+      "epoch": 3.11,
+      "learning_rate": 2.2529027370016102e-05,
+      "loss": 2.7342,
+      "step": 131500
+    },
+    {
+      "epoch": 3.13,
+      "learning_rate": 2.246589007797456e-05,
+      "loss": 2.7385,
+      "step": 132000
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 2.2402752785933015e-05,
+      "loss": 2.7368,
+      "step": 132500
+    },
+    {
+      "epoch": 3.15,
+      "learning_rate": 2.2339615493891467e-05,
+      "loss": 2.7504,
+      "step": 133000
+    },
+    {
+      "epoch": 3.16,
+      "learning_rate": 2.2276478201849922e-05,
+      "loss": 2.7547,
+      "step": 133500
+    },
+    {
+      "epoch": 3.17,
+      "learning_rate": 2.2213340909808377e-05,
+      "loss": 2.7647,
+      "step": 134000
+    },
+    {
+      "epoch": 3.18,
+      "learning_rate": 2.2150203617766836e-05,
+      "loss": 2.7666,
+      "step": 134500
+    },
+    {
+      "epoch": 3.2,
+      "learning_rate": 2.208706632572529e-05,
+      "loss": 2.7559,
+      "step": 135000
+    },
+    {
+      "epoch": 3.21,
+      "learning_rate": 2.2023929033683746e-05,
+      "loss": 2.7673,
+      "step": 135500
+    },
+    {
+      "epoch": 3.22,
+      "learning_rate": 2.19607917416422e-05,
+      "loss": 2.76,
+      "step": 136000
+    },
+    {
+      "epoch": 3.23,
+      "learning_rate": 2.189765444960066e-05,
+      "loss": 2.7574,
+      "step": 136500
+    },
+    {
+      "epoch": 3.24,
+      "learning_rate": 2.1834517157559115e-05,
+      "loss": 2.7698,
+      "step": 137000
+    },
+    {
+      "epoch": 3.26,
+      "learning_rate": 2.177137986551757e-05,
+      "loss": 2.7619,
+      "step": 137500
+    },
+    {
+      "epoch": 3.27,
+      "learning_rate": 2.1708242573476025e-05,
+      "loss": 2.7511,
+      "step": 138000
+    },
+    {
+      "epoch": 3.28,
+      "learning_rate": 2.1645105281434484e-05,
+      "loss": 2.7578,
+      "step": 138500
+    },
+    {
+      "epoch": 3.29,
+      "learning_rate": 2.158196798939294e-05,
+      "loss": 2.7699,
+      "step": 139000
+    },
+    {
+      "epoch": 3.3,
+      "learning_rate": 2.1518830697351394e-05,
+      "loss": 2.7586,
+      "step": 139500
+    },
+    {
+      "epoch": 3.31,
+      "learning_rate": 2.145569340530985e-05,
+      "loss": 2.761,
+      "step": 140000
+    },
+    {
+      "epoch": 3.31,
+      "eval_loss": 3.1274259090423584,
+      "eval_runtime": 113.556,
+      "eval_samples_per_second": 165.31,
+      "eval_steps_per_second": 20.668,
+      "step": 140000
     }
   ],
   "max_steps": 633540,
   "num_train_epochs": 15,
+  "total_flos": 2.9651152375296e+16,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f4b57e2e58483c18b5fe4ec5dd79a83877c71aff1fbb8a57d6941745f468c5e
 size 510398013

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff3b25c771db1e8a7cb96a6b9fafacb9b63e8e354d25fc6a16953bbd07d49a3d
 size 510398013