Training in progress, step 440000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:485576f1d48c6a4e3bf5c2faeabd28b10bf14e54c686faf5ee4b916aae291248
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:38e96dc800b8071588a25548ce196afd6691c407f883f1ee47078f41d437f6cc
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:402c24544f87635066120a062e0f54ba50aad454021fed3207324dcff5633224
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:5997fc3c43be6a9667fa07314f7e899550168c519b5f1cc4e4addad00b4f02db
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0132b64d8716021d47991e50e22003dfc788052c2c88a7966cf5395f369a4260
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7888d98a0e63278076119528e69fae749a8a6dd4d788341bc14abb08d306def4
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0132b64d8716021d47991e50e22003dfc788052c2c88a7966cf5395f369a4260
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7888d98a0e63278076119528e69fae749a8a6dd4d788341bc14abb08d306def4
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0132b64d8716021d47991e50e22003dfc788052c2c88a7966cf5395f369a4260
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7888d98a0e63278076119528e69fae749a8a6dd4d788341bc14abb08d306def4
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0132b64d8716021d47991e50e22003dfc788052c2c88a7966cf5395f369a4260
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7888d98a0e63278076119528e69fae749a8a6dd4d788341bc14abb08d306def4
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0132b64d8716021d47991e50e22003dfc788052c2c88a7966cf5395f369a4260
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7888d98a0e63278076119528e69fae749a8a6dd4d788341bc14abb08d306def4
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0132b64d8716021d47991e50e22003dfc788052c2c88a7966cf5395f369a4260
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7888d98a0e63278076119528e69fae749a8a6dd4d788341bc14abb08d306def4
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0132b64d8716021d47991e50e22003dfc788052c2c88a7966cf5395f369a4260
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7888d98a0e63278076119528e69fae749a8a6dd4d788341bc14abb08d306def4
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0132b64d8716021d47991e50e22003dfc788052c2c88a7966cf5395f369a4260
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7888d98a0e63278076119528e69fae749a8a6dd4d788341bc14abb08d306def4
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f427c751ea4b109969727e0c5f2ef9ef6fd7587de8192ab50fc2201ab4ba3ed9
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:1894f32b2441ea8820978bbb44f8f2d9ce0a579e669301efbd1655378591798a
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 10.958764463020541,
-  "global_step": 430000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8606,11 +8606,211 @@
       "eval_samples_per_second": 757.744,
       "eval_steps_per_second": 12.124,
       "step": 430000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 13,
-  "total_flos": 1.373781217817305e+22,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 11.213619450532647,
+  "global_step": 440000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 757.744,
       "eval_steps_per_second": 12.124,
       "step": 430000
+    },
+    {
+      "epoch": 10.97,
+      "learning_rate": 2.5050805238106804e-05,
+      "loss": 0.2692,
+      "step": 430500
+    },
+    {
+      "epoch": 10.98,
+      "learning_rate": 2.4838784403798542e-05,
+      "loss": 0.2695,
+      "step": 431000
+    },
+    {
+      "epoch": 10.98,
+      "eval_loss": 0.8141555190086365,
+      "eval_runtime": 1.4076,
+      "eval_samples_per_second": 710.446,
+      "eval_steps_per_second": 11.367,
+      "step": 431000
+    },
+    {
+      "epoch": 11.0,
+      "learning_rate": 2.4628186991690346e-05,
+      "loss": 0.2696,
+      "step": 431500
+    },
+    {
+      "epoch": 11.01,
+      "learning_rate": 2.4419015304841797e-05,
+      "loss": 0.2693,
+      "step": 432000
+    },
+    {
+      "epoch": 11.01,
+      "eval_loss": 0.8079712986946106,
+      "eval_runtime": 1.249,
+      "eval_samples_per_second": 800.662,
+      "eval_steps_per_second": 12.811,
+      "step": 432000
+    },
+    {
+      "epoch": 11.02,
+      "learning_rate": 2.4211271630720957e-05,
+      "loss": 0.2694,
+      "step": 432500
+    },
+    {
+      "epoch": 11.04,
+      "learning_rate": 2.4004958241179347e-05,
+      "loss": 0.2695,
+      "step": 433000
+    },
+    {
+      "epoch": 11.04,
+      "eval_loss": 0.8100965619087219,
+      "eval_runtime": 1.3521,
+      "eval_samples_per_second": 739.569,
+      "eval_steps_per_second": 11.833,
+      "step": 433000
+    },
+    {
+      "epoch": 11.05,
+      "learning_rate": 2.3800077392427193e-05,
+      "loss": 0.2693,
+      "step": 433500
+    },
+    {
+      "epoch": 11.06,
+      "learning_rate": 2.3596631325008536e-05,
+      "loss": 0.2692,
+      "step": 434000
+    },
+    {
+      "epoch": 11.06,
+      "eval_loss": 0.8111158609390259,
+      "eval_runtime": 1.2947,
+      "eval_samples_per_second": 772.383,
+      "eval_steps_per_second": 12.358,
+      "step": 434000
+    },
+    {
+      "epoch": 11.07,
+      "learning_rate": 2.3394622263777042e-05,
+      "loss": 0.2691,
+      "step": 434500
+    },
+    {
+      "epoch": 11.09,
+      "learning_rate": 2.3194052417871433e-05,
+      "loss": 0.2693,
+      "step": 435000
+    },
+    {
+      "epoch": 11.09,
+      "eval_loss": 0.8063649535179138,
+      "eval_runtime": 1.2815,
+      "eval_samples_per_second": 780.354,
+      "eval_steps_per_second": 12.486,
+      "step": 435000
+    },
+    {
+      "epoch": 11.1,
+      "learning_rate": 2.2994923980691425e-05,
+      "loss": 0.269,
+      "step": 435500
+    },
+    {
+      "epoch": 11.11,
+      "learning_rate": 2.279723912987365e-05,
+      "loss": 0.2689,
+      "step": 436000
+    },
+    {
+      "epoch": 11.11,
+      "eval_loss": 0.8065616488456726,
+      "eval_runtime": 1.347,
+      "eval_samples_per_second": 742.376,
+      "eval_steps_per_second": 11.878,
+      "step": 436000
+    },
+    {
+      "epoch": 11.12,
+      "learning_rate": 2.2601000027268006e-05,
+      "loss": 0.269,
+      "step": 436500
+    },
+    {
+      "epoch": 11.14,
+      "learning_rate": 2.2406208818913857e-05,
+      "loss": 0.2688,
+      "step": 437000
+    },
+    {
+      "epoch": 11.14,
+      "eval_loss": 0.8145356178283691,
+      "eval_runtime": 1.3131,
+      "eval_samples_per_second": 761.584,
+      "eval_steps_per_second": 12.185,
+      "step": 437000
+    },
+    {
+      "epoch": 11.15,
+      "learning_rate": 2.221286763501666e-05,
+      "loss": 0.2687,
+      "step": 437500
+    },
+    {
+      "epoch": 11.16,
+      "learning_rate": 2.2020978589924673e-05,
+      "loss": 0.2691,
+      "step": 438000
+    },
+    {
+      "epoch": 11.16,
+      "eval_loss": 0.8088080883026123,
+      "eval_runtime": 1.3003,
+      "eval_samples_per_second": 769.026,
+      "eval_steps_per_second": 12.304,
+      "step": 438000
+    },
+    {
+      "epoch": 11.18,
+      "learning_rate": 2.1830543782105647e-05,
+      "loss": 0.2689,
+      "step": 438500
+    },
+    {
+      "epoch": 11.19,
+      "learning_rate": 2.1641565294124206e-05,
+      "loss": 0.2689,
+      "step": 439000
+    },
+    {
+      "epoch": 11.19,
+      "eval_loss": 0.8115460872650146,
+      "eval_runtime": 1.3182,
+      "eval_samples_per_second": 758.583,
+      "eval_steps_per_second": 12.137,
+      "step": 439000
+    },
+    {
+      "epoch": 11.2,
+      "learning_rate": 2.1454045192618794e-05,
+      "loss": 0.2685,
+      "step": 439500
+    },
+    {
+      "epoch": 11.21,
+      "learning_rate": 2.1267985528279212e-05,
+      "loss": 0.2688,
+      "step": 440000
+    },
+    {
+      "epoch": 11.21,
+      "eval_loss": 0.8065956830978394,
+      "eval_runtime": 1.2152,
+      "eval_samples_per_second": 822.887,
+      "eval_steps_per_second": 13.166,
+      "step": 440000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 13,
+  "total_flos": 1.4057285838034505e+22,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:402c24544f87635066120a062e0f54ba50aad454021fed3207324dcff5633224
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:5997fc3c43be6a9667fa07314f7e899550168c519b5f1cc4e4addad00b4f02db
 size 102501541