Training in progress, step 170000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:46bff3dba845cd7e7f19ae9dbbe463bda3e2fa6806365056b512226d84f8fe42
 size 50044689

 version https://git-lfs.github.com/spec/v1
+oid sha256:890dc581163da8ac34698455aef8e08af0d03b6c31e289a5752b729c1a6eb8ad
 size 50044689

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8fd59d7cfb5049e46570c40bfa98b1ab6951678f21e1e8ee02bf24082eee2565
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:478382e1e4afce83db55490eec55f2c2cc88645b07b91562f7bf2468273abbf0
 size 25761253

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dd053fb6d27885aadc27c02a534d4a05640e7e350d6bb076a775c2584889f6ac
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:b8bf8ede2357b1086ec56810178a0bcfed2f59612fe08e69399b2d94840600f1
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dd053fb6d27885aadc27c02a534d4a05640e7e350d6bb076a775c2584889f6ac
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:b8bf8ede2357b1086ec56810178a0bcfed2f59612fe08e69399b2d94840600f1
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dd053fb6d27885aadc27c02a534d4a05640e7e350d6bb076a775c2584889f6ac
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:b8bf8ede2357b1086ec56810178a0bcfed2f59612fe08e69399b2d94840600f1
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dd053fb6d27885aadc27c02a534d4a05640e7e350d6bb076a775c2584889f6ac
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:b8bf8ede2357b1086ec56810178a0bcfed2f59612fe08e69399b2d94840600f1
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dd053fb6d27885aadc27c02a534d4a05640e7e350d6bb076a775c2584889f6ac
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:b8bf8ede2357b1086ec56810178a0bcfed2f59612fe08e69399b2d94840600f1
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dd053fb6d27885aadc27c02a534d4a05640e7e350d6bb076a775c2584889f6ac
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:b8bf8ede2357b1086ec56810178a0bcfed2f59612fe08e69399b2d94840600f1
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dd053fb6d27885aadc27c02a534d4a05640e7e350d6bb076a775c2584889f6ac
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:b8bf8ede2357b1086ec56810178a0bcfed2f59612fe08e69399b2d94840600f1
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dd053fb6d27885aadc27c02a534d4a05640e7e350d6bb076a775c2584889f6ac
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:b8bf8ede2357b1086ec56810178a0bcfed2f59612fe08e69399b2d94840600f1
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc071f88617eb6afe60581ffbadbc2441a73aeec527e5556ce742e0646660ab9
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:1470898ecdc6550560113c5e2cfd1e79edea6b27c0b7d35814645546c1b5bff0
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 7.137758743754461,
-  "global_step": 160000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3206,11 +3206,211 @@
       "eval_samples_per_second": 1000.637,
       "eval_steps_per_second": 15.683,
       "step": 160000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 12,
-  "total_flos": 2.5626381219776503e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 7.583868665239115,
+  "global_step": 170000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1000.637,
       "eval_steps_per_second": 15.683,
       "step": 160000
+    },
+    {
+      "epoch": 7.16,
+      "learning_rate": 0.00019368752321895452,
+      "loss": 0.3758,
+      "step": 160500
+    },
+    {
+      "epoch": 7.18,
+      "learning_rate": 0.00019188310403712105,
+      "loss": 0.3756,
+      "step": 161000
+    },
+    {
+      "epoch": 7.18,
+      "eval_loss": 0.3490326702594757,
+      "eval_runtime": 2.2155,
+      "eval_samples_per_second": 1036.763,
+      "eval_steps_per_second": 16.249,
+      "step": 161000
+    },
+    {
+      "epoch": 7.2,
+      "learning_rate": 0.00019008363295476495,
+      "loss": 0.3756,
+      "step": 161500
+    },
+    {
+      "epoch": 7.23,
+      "learning_rate": 0.0001882891886865808,
+      "loss": 0.3753,
+      "step": 162000
+    },
+    {
+      "epoch": 7.23,
+      "eval_loss": 0.3482523560523987,
+      "eval_runtime": 2.2246,
+      "eval_samples_per_second": 1032.556,
+      "eval_steps_per_second": 16.183,
+      "step": 162000
+    },
+    {
+      "epoch": 7.25,
+      "learning_rate": 0.00018649984972737404,
+      "loss": 0.3757,
+      "step": 162500
+    },
+    {
+      "epoch": 7.27,
+      "learning_rate": 0.00018471569434862749,
+      "loss": 0.3749,
+      "step": 163000
+    },
+    {
+      "epoch": 7.27,
+      "eval_loss": 0.3480832874774933,
+      "eval_runtime": 2.1706,
+      "eval_samples_per_second": 1058.217,
+      "eval_steps_per_second": 16.585,
+      "step": 163000
+    },
+    {
+      "epoch": 7.29,
+      "learning_rate": 0.00018293680059507713,
+      "loss": 0.3753,
+      "step": 163500
+    },
+    {
+      "epoch": 7.32,
+      "learning_rate": 0.00018116324628129882,
+      "loss": 0.3747,
+      "step": 164000
+    },
+    {
+      "epoch": 7.32,
+      "eval_loss": 0.3469808101654053,
+      "eval_runtime": 2.1769,
+      "eval_samples_per_second": 1055.189,
+      "eval_steps_per_second": 16.538,
+      "step": 164000
+    },
+    {
+      "epoch": 7.34,
+      "learning_rate": 0.00017939510898830357,
+      "loss": 0.3746,
+      "step": 164500
+    },
+    {
+      "epoch": 7.36,
+      "learning_rate": 0.0001776324660601446,
+      "loss": 0.375,
+      "step": 165000
+    },
+    {
+      "epoch": 7.36,
+      "eval_loss": 0.3475760519504547,
+      "eval_runtime": 2.1442,
+      "eval_samples_per_second": 1071.239,
+      "eval_steps_per_second": 16.789,
+      "step": 165000
+    },
+    {
+      "epoch": 7.38,
+      "learning_rate": 0.00017587539460053368,
+      "loss": 0.3743,
+      "step": 165500
+    },
+    {
+      "epoch": 7.41,
+      "learning_rate": 0.0001741239714694688,
+      "loss": 0.3742,
+      "step": 166000
+    },
+    {
+      "epoch": 7.41,
+      "eval_loss": 0.34710729122161865,
+      "eval_runtime": 2.2456,
+      "eval_samples_per_second": 1022.894,
+      "eval_steps_per_second": 16.031,
+      "step": 166000
+    },
+    {
+      "epoch": 7.43,
+      "learning_rate": 0.0001723782732798713,
+      "loss": 0.3741,
+      "step": 166500
+    },
+    {
+      "epoch": 7.45,
+      "learning_rate": 0.00017063837639423517,
+      "loss": 0.3741,
+      "step": 167000
+    },
+    {
+      "epoch": 7.45,
+      "eval_loss": 0.3461616337299347,
+      "eval_runtime": 2.2634,
+      "eval_samples_per_second": 1014.851,
+      "eval_steps_per_second": 15.905,
+      "step": 167000
+    },
+    {
+      "epoch": 7.47,
+      "learning_rate": 0.00016890435692128712,
+      "loss": 0.3738,
+      "step": 167500
+    },
+    {
+      "epoch": 7.49,
+      "learning_rate": 0.0001671762907126559,
+      "loss": 0.3738,
+      "step": 168000
+    },
+    {
+      "epoch": 7.49,
+      "eval_loss": 0.3469841480255127,
+      "eval_runtime": 2.2202,
+      "eval_samples_per_second": 1034.588,
+      "eval_steps_per_second": 16.215,
+      "step": 168000
+    },
+    {
+      "epoch": 7.52,
+      "learning_rate": 0.00016545425335955596,
+      "loss": 0.3735,
+      "step": 168500
+    },
+    {
+      "epoch": 7.54,
+      "learning_rate": 0.00016373832018947945,
+      "loss": 0.3735,
+      "step": 169000
+    },
+    {
+      "epoch": 7.54,
+      "eval_loss": 0.3462463617324829,
+      "eval_runtime": 2.2185,
+      "eval_samples_per_second": 1035.373,
+      "eval_steps_per_second": 16.227,
+      "step": 169000
+    },
+    {
+      "epoch": 7.56,
+      "learning_rate": 0.0001620285662629024,
+      "loss": 0.3735,
+      "step": 169500
+    },
+    {
+      "epoch": 7.58,
+      "learning_rate": 0.0001603250663700002,
+      "loss": 0.3736,
+      "step": 170000
+    },
+    {
+      "epoch": 7.58,
+      "eval_loss": 0.3466815948486328,
+      "eval_runtime": 2.223,
+      "eval_samples_per_second": 1033.305,
+      "eval_steps_per_second": 16.195,
+      "step": 170000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 12,
+  "total_flos": 2.7228061248434544e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8fd59d7cfb5049e46570c40bfa98b1ab6951678f21e1e8ee02bf24082eee2565
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:478382e1e4afce83db55490eec55f2c2cc88645b07b91562f7bf2468273abbf0
 size 25761253