Training in progress, epoch 5, checkpoint

Browse files

Files changed (12) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +637 -3

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c4862ebcdc8d2768d6132069a64ba7dfa94cdbf6455d4d4560f35f71fcc32dfb
 size 272138666

 version https://git-lfs.github.com/spec/v1
+oid sha256:c448104ce2d154398926b10f5da1a068cc005b858ff145e388bffd773d180f87
 size 272138666

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:094d5e98b1a3b1417249f16f63b4282afd3829ec4a31dbc2bc00df331ba5faf1
 size 136067312

 version https://git-lfs.github.com/spec/v1
+oid sha256:d522f48035551cde94f250a105d3f95296a4bbeab93d5b3d3564c104aecb6596
 size 136067312

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:67b5b6dd9206c42165f5188e8effb6be1e40ed13cd768d8b7a1b17575bf03d9e
 size 21687

 version https://git-lfs.github.com/spec/v1
+oid sha256:d46f7c0ba4feb2125c13deda1ba0b721e0efe91bcba4140ca17136cad45c48a3
 size 21687

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6828f225fa32178c33ef119d710f22e24b0bc0c656e9d474379f8495e0908384
 size 21687

 version https://git-lfs.github.com/spec/v1
+oid sha256:85312c5143eb72e5e61ba4a319c997e347a39a399dd2227831e2d75a9642adec
 size 21687

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:35c188ece0af9a1c1c070d68232ff9e3dc42d760df0f2e5e280f4c2013a3e538
 size 21687

 version https://git-lfs.github.com/spec/v1
+oid sha256:d6a8352611a4312779c3a8d7ccc5cd6742e36dab552d14e699adf613271f5c02
 size 21687

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f1f9da3ceb24bed58a42dc4e81d0a1e02d0fbd589dd70fb982262e3a3a271213
 size 21687

 version https://git-lfs.github.com/spec/v1
+oid sha256:8b37613fe778cfe2e6f052607845b13507fca8d228aab57a081250d0579c8f0c
 size 21687

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:05f3bf8804c8e87d47beaafc30681cc2d8abc53f079c3ec27b8405f27eafb62e
 size 21687

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe1719e13a0f31b2a8346b234c197bedeb66d5e3a9ca796b9296180e2a5acd65
 size 21687

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c4a3224faf90dcc36243bfcd086fe8dbeb1b17d0f25a5e2b7d1d315effde3250
 size 21687

 version https://git-lfs.github.com/spec/v1
+oid sha256:ee6061d4eb9c4722da13bb14acdbd266fcc9780b11acf895ab0612c1b31f5a61
 size 21687

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4feb4ed70cfe7ab739f8d7012e2560e686d994777ba7aa8513abce68d4c42d9a
 size 21687

 version https://git-lfs.github.com/spec/v1
+oid sha256:f111ad4c6d15bd49b5db0a3a88b93cea27f4f9c389fa8e486ed9639c4a3d613c
 size 21687

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1934f6a0f7b05c9571484b9dbea2c6fb5ae573367912d95f0629f9b4ebdf3aa7
 size 21687

 version https://git-lfs.github.com/spec/v1
+oid sha256:111c33490270e9bb9e95ce9eed65ea10f26f937a0aec179323d14088fa7d6a98
 size 21687

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f1d49d9630e070befda78ef6b64c8fdc0bb6b5103c4e1c8f4b6fa80c9bcbdbb4
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed29c8a99623c2a97230e7e5a3a6a12bd70f67f1cb68462fbad60d321f9a3ce3
 size 627

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.0,
   "eval_steps": 25,
-  "global_step": 618,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -937,13 +937,647 @@
       "learning_rate": 1.7493335291185675e-05,
       "loss": 0.0324,
       "step": 615
     }
   ],
   "logging_steps": 5,
   "max_steps": 1030,
   "num_train_epochs": 5,
   "save_steps": 500,
-  "total_flos": 275559470923776.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 5.0,
   "eval_steps": 25,
+  "global_step": 1030,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.7493335291185675e-05,
       "loss": 0.0324,
       "step": 615
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 1.7130543699071327e-05,
+      "loss": 0.0459,
+      "step": 620
+    },
+    {
+      "epoch": 3.03,
+      "learning_rate": 1.67695824264883e-05,
+      "loss": 0.0365,
+      "step": 625
+    },
+    {
+      "epoch": 3.03,
+      "eval_loss": 0.04022263363003731,
+      "eval_runtime": 0.1169,
+      "eval_samples_per_second": 3516.3,
+      "eval_steps_per_second": 111.221,
+      "step": 625
+    },
+    {
+      "epoch": 3.06,
+      "learning_rate": 1.6410535427707634e-05,
+      "loss": 0.0307,
+      "step": 630
+    },
+    {
+      "epoch": 3.08,
+      "learning_rate": 1.6053486211768503e-05,
+      "loss": 0.0316,
+      "step": 635
+    },
+    {
+      "epoch": 3.11,
+      "learning_rate": 1.5698517823055242e-05,
+      "loss": 0.0236,
+      "step": 640
+    },
+    {
+      "epoch": 3.13,
+      "learning_rate": 1.5345712821982443e-05,
+      "loss": 0.0187,
+      "step": 645
+    },
+    {
+      "epoch": 3.16,
+      "learning_rate": 1.4995153265792642e-05,
+      "loss": 0.0282,
+      "step": 650
+    },
+    {
+      "epoch": 3.16,
+      "eval_loss": 0.04607125371694565,
+      "eval_runtime": 0.1202,
+      "eval_samples_per_second": 3419.582,
+      "eval_steps_per_second": 108.162,
+      "step": 650
+    },
+    {
+      "epoch": 3.18,
+      "learning_rate": 1.4646920689470967e-05,
+      "loss": 0.013,
+      "step": 655
+    },
+    {
+      "epoch": 3.2,
+      "learning_rate": 1.4301096086781363e-05,
+      "loss": 0.0035,
+      "step": 660
+    },
+    {
+      "epoch": 3.23,
+      "learning_rate": 1.3957759891428568e-05,
+      "loss": 0.0043,
+      "step": 665
+    },
+    {
+      "epoch": 3.25,
+      "learning_rate": 1.3616991958350494e-05,
+      "loss": 0.0072,
+      "step": 670
+    },
+    {
+      "epoch": 3.28,
+      "learning_rate": 1.3278871545145084e-05,
+      "loss": 0.0391,
+      "step": 675
+    },
+    {
+      "epoch": 3.28,
+      "eval_loss": 0.04361347481608391,
+      "eval_runtime": 0.1163,
+      "eval_samples_per_second": 3535.033,
+      "eval_steps_per_second": 111.814,
+      "step": 675
+    },
+    {
+      "epoch": 3.3,
+      "learning_rate": 1.294347729363618e-05,
+      "loss": 0.0266,
+      "step": 680
+    },
+    {
+      "epoch": 3.33,
+      "learning_rate": 1.2610887211582612e-05,
+      "loss": 0.0256,
+      "step": 685
+    },
+    {
+      "epoch": 3.35,
+      "learning_rate": 1.2281178654534734e-05,
+      "loss": 0.0311,
+      "step": 690
+    },
+    {
+      "epoch": 3.37,
+      "learning_rate": 1.1954428307842646e-05,
+      "loss": 0.0054,
+      "step": 695
+    },
+    {
+      "epoch": 3.4,
+      "learning_rate": 1.1630712168820351e-05,
+      "loss": 0.0282,
+      "step": 700
+    },
+    {
+      "epoch": 3.4,
+      "eval_loss": 0.04334261640906334,
+      "eval_runtime": 0.1164,
+      "eval_samples_per_second": 3530.458,
+      "eval_steps_per_second": 111.669,
+      "step": 700
+    },
+    {
+      "epoch": 3.42,
+      "learning_rate": 1.1310105529069844e-05,
+      "loss": 0.0409,
+      "step": 705
+    },
+    {
+      "epoch": 3.45,
+      "learning_rate": 1.0992682956969458e-05,
+      "loss": 0.0331,
+      "step": 710
+    },
+    {
+      "epoch": 3.47,
+      "learning_rate": 1.0678518280330296e-05,
+      "loss": 0.0116,
+      "step": 715
+    },
+    {
+      "epoch": 3.5,
+      "learning_rate": 1.0367684569225028e-05,
+      "loss": 0.0037,
+      "step": 720
+    },
+    {
+      "epoch": 3.52,
+      "learning_rate": 1.0060254118992837e-05,
+      "loss": 0.0465,
+      "step": 725
+    },
+    {
+      "epoch": 3.52,
+      "eval_loss": 0.048130132257938385,
+      "eval_runtime": 0.1194,
+      "eval_samples_per_second": 3441.283,
+      "eval_steps_per_second": 108.848,
+      "step": 725
+    },
+    {
+      "epoch": 3.54,
+      "learning_rate": 9.756298433424587e-06,
+      "loss": 0.1006,
+      "step": 730
+    },
+    {
+      "epoch": 3.57,
+      "learning_rate": 9.455888208132102e-06,
+      "loss": 0.0071,
+      "step": 735
+    },
+    {
+      "epoch": 3.59,
+      "learning_rate": 9.159093314105405e-06,
+      "loss": 0.0139,
+      "step": 740
+    },
+    {
+      "epoch": 3.62,
+      "learning_rate": 8.865982781461791e-06,
+      "loss": 0.004,
+      "step": 745
+    },
+    {
+      "epoch": 3.64,
+      "learning_rate": 8.576624783390367e-06,
+      "loss": 0.0557,
+      "step": 750
+    },
+    {
+      "epoch": 3.64,
+      "eval_loss": 0.04551706090569496,
+      "eval_runtime": 0.1186,
+      "eval_samples_per_second": 3464.82,
+      "eval_steps_per_second": 109.593,
+      "step": 750
+    },
+    {
+      "epoch": 3.67,
+      "learning_rate": 8.291086620296052e-06,
+      "loss": 0.0347,
+      "step": 755
+    },
+    {
+      "epoch": 3.69,
+      "learning_rate": 8.009434704146424e-06,
+      "loss": 0.0413,
+      "step": 760
+    },
+    {
+      "epoch": 3.71,
+      "learning_rate": 7.731734543025345e-06,
+      "loss": 0.0147,
+      "step": 765
+    },
+    {
+      "epoch": 3.74,
+      "learning_rate": 7.458050725896673e-06,
+      "loss": 0.0502,
+      "step": 770
+    },
+    {
+      "epoch": 3.76,
+      "learning_rate": 7.188446907581894e-06,
+      "loss": 0.058,
+      "step": 775
+    },
+    {
+      "epoch": 3.76,
+      "eval_loss": 0.04955735430121422,
+      "eval_runtime": 0.1466,
+      "eval_samples_per_second": 2802.9,
+      "eval_steps_per_second": 88.656,
+      "step": 775
+    },
+    {
+      "epoch": 3.79,
+      "learning_rate": 6.922985793954881e-06,
+      "loss": 0.0127,
+      "step": 780
+    },
+    {
+      "epoch": 3.81,
+      "learning_rate": 6.661729127357494e-06,
+      "loss": 0.0335,
+      "step": 785
+    },
+    {
+      "epoch": 3.83,
+      "learning_rate": 6.404737672239173e-06,
+      "loss": 0.0271,
+      "step": 790
+    },
+    {
+      "epoch": 3.86,
+      "learning_rate": 6.1520712010240455e-06,
+      "loss": 0.0512,
+      "step": 795
+    },
+    {
+      "epoch": 3.88,
+      "learning_rate": 5.9037884802087325e-06,
+      "loss": 0.0057,
+      "step": 800
+    },
+    {
+      "epoch": 3.88,
+      "eval_loss": 0.051423329859972,
+      "eval_runtime": 0.1163,
+      "eval_samples_per_second": 3533.425,
+      "eval_steps_per_second": 111.763,
+      "step": 800
+    },
+    {
+      "epoch": 3.91,
+      "learning_rate": 5.659947256694156e-06,
+      "loss": 0.0029,
+      "step": 805
+    },
+    {
+      "epoch": 3.93,
+      "learning_rate": 5.420604244354408e-06,
+      "loss": 0.0095,
+      "step": 810
+    },
+    {
+      "epoch": 3.96,
+      "learning_rate": 5.185815110845996e-06,
+      "loss": 0.0491,
+      "step": 815
+    },
+    {
+      "epoch": 3.98,
+      "learning_rate": 4.9556344646603165e-06,
+      "loss": 0.0251,
+      "step": 820
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 4.73011584242257e-06,
+      "loss": 0.032,
+      "step": 825
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.05062270909547806,
+      "eval_runtime": 0.1194,
+      "eval_samples_per_second": 3442.19,
+      "eval_steps_per_second": 108.877,
+      "step": 825
+    },
+    {
+      "epoch": 4.03,
+      "learning_rate": 4.509311696439903e-06,
+      "loss": 0.0354,
+      "step": 830
+    },
+    {
+      "epoch": 4.05,
+      "learning_rate": 4.293273382501775e-06,
+      "loss": 0.0737,
+      "step": 835
+    },
+    {
+      "epoch": 4.08,
+      "learning_rate": 4.082051147935373e-06,
+      "loss": 0.0198,
+      "step": 840
+    },
+    {
+      "epoch": 4.1,
+      "learning_rate": 3.875694119918805e-06,
+      "loss": 0.0266,
+      "step": 845
+    },
+    {
+      "epoch": 4.13,
+      "learning_rate": 3.6742502940548734e-06,
+      "loss": 0.0056,
+      "step": 850
+    },
+    {
+      "epoch": 4.13,
+      "eval_loss": 0.048265255987644196,
+      "eval_runtime": 0.1135,
+      "eval_samples_per_second": 3619.583,
+      "eval_steps_per_second": 114.488,
+      "step": 850
+    },
+    {
+      "epoch": 4.15,
+      "learning_rate": 3.477766523207965e-06,
+      "loss": 0.0017,
+      "step": 855
+    },
+    {
+      "epoch": 4.17,
+      "learning_rate": 3.286288506606805e-06,
+      "loss": 0.0009,
+      "step": 860
+    },
+    {
+      "epoch": 4.2,
+      "learning_rate": 3.0998607792154495e-06,
+      "loss": 0.0153,
+      "step": 865
+    },
+    {
+      "epoch": 4.22,
+      "learning_rate": 2.91852670137516e-06,
+      "loss": 0.0232,
+      "step": 870
+    },
+    {
+      "epoch": 4.25,
+      "learning_rate": 2.7423284487193697e-06,
+      "loss": 0.0104,
+      "step": 875
+    },
+    {
+      "epoch": 4.25,
+      "eval_loss": 0.048452552407979965,
+      "eval_runtime": 0.1158,
+      "eval_samples_per_second": 3550.622,
+      "eval_steps_per_second": 112.307,
+      "step": 875
+    },
+    {
+      "epoch": 4.27,
+      "learning_rate": 2.571307002364301e-06,
+      "loss": 0.0146,
+      "step": 880
+    },
+    {
+      "epoch": 4.3,
+      "learning_rate": 2.4055021393773277e-06,
+      "loss": 0.062,
+      "step": 885
+    },
+    {
+      "epoch": 4.32,
+      "learning_rate": 2.2449524235254484e-06,
+      "loss": 0.0415,
+      "step": 890
+    },
+    {
+      "epoch": 4.34,
+      "learning_rate": 2.089695196305888e-06,
+      "loss": 0.0037,
+      "step": 895
+    },
+    {
+      "epoch": 4.37,
+      "learning_rate": 1.939766568261037e-06,
+      "loss": 0.0353,
+      "step": 900
+    },
+    {
+      "epoch": 4.37,
+      "eval_loss": 0.04834846034646034,
+      "eval_runtime": 0.1173,
+      "eval_samples_per_second": 3503.757,
+      "eval_steps_per_second": 110.824,
+      "step": 900
+    },
+    {
+      "epoch": 4.39,
+      "learning_rate": 1.7952014105796666e-06,
+      "loss": 0.0316,
+      "step": 905
+    },
+    {
+      "epoch": 4.42,
+      "learning_rate": 1.656033346986416e-06,
+      "loss": 0.0238,
+      "step": 910
+    },
+    {
+      "epoch": 4.44,
+      "learning_rate": 1.5222947459213793e-06,
+      "loss": 0.025,
+      "step": 915
+    },
+    {
+      "epoch": 4.47,
+      "learning_rate": 1.3940167130117226e-06,
+      "loss": 0.0076,
+      "step": 920
+    },
+    {
+      "epoch": 4.49,
+      "learning_rate": 1.2712290838369363e-06,
+      "loss": 0.0044,
+      "step": 925
+    },
+    {
+      "epoch": 4.49,
+      "eval_loss": 0.0482080839574337,
+      "eval_runtime": 0.1126,
+      "eval_samples_per_second": 3651.3,
+      "eval_steps_per_second": 115.491,
+      "step": 925
+    },
+    {
+      "epoch": 4.51,
+      "learning_rate": 1.1539604169895497e-06,
+      "loss": 0.0038,
+      "step": 930
+    },
+    {
+      "epoch": 4.54,
+      "learning_rate": 1.0422379874328008e-06,
+      "loss": 0.0038,
+      "step": 935
+    },
+    {
+      "epoch": 4.56,
+      "learning_rate": 9.360877801568968e-07,
+      "loss": 0.0463,
+      "step": 940
+    },
+    {
+      "epoch": 4.59,
+      "learning_rate": 8.355344841352836e-07,
+      "loss": 0.001,
+      "step": 945
+    },
+    {
+      "epoch": 4.61,
+      "learning_rate": 7.406014865823513e-07,
+      "loss": 0.0449,
+      "step": 950
+    },
+    {
+      "epoch": 4.61,
+      "eval_loss": 0.04827665537595749,
+      "eval_runtime": 0.1168,
+      "eval_samples_per_second": 3519.71,
+      "eval_steps_per_second": 111.329,
+      "step": 950
+    },
+    {
+      "epoch": 4.64,
+      "learning_rate": 6.513108675139101e-07,
+      "loss": 0.0138,
+      "step": 955
+    },
+    {
+      "epoch": 4.66,
+      "learning_rate": 5.676833946117205e-07,
+      "loss": 0.0407,
+      "step": 960
+    },
+    {
+      "epoch": 4.68,
+      "learning_rate": 4.897385183932179e-07,
+      "loss": 0.0392,
+      "step": 965
+    },
+    {
+      "epoch": 4.71,
+      "learning_rate": 4.1749436768762084e-07,
+      "loss": 0.0358,
+      "step": 970
+    },
+    {
+      "epoch": 4.73,
+      "learning_rate": 3.509677454194282e-07,
+      "loss": 0.0626,
+      "step": 975
+    },
+    {
+      "epoch": 4.73,
+      "eval_loss": 0.04846416041254997,
+      "eval_runtime": 0.116,
+      "eval_samples_per_second": 3543.615,
+      "eval_steps_per_second": 112.085,
+      "step": 975
+    },
+    {
+      "epoch": 4.76,
+      "learning_rate": 2.901741247002987e-07,
+      "loss": 0.0069,
+      "step": 980
+    },
+    {
+      "epoch": 4.78,
+      "learning_rate": 2.3512764523025698e-07,
+      "loss": 0.0697,
+      "step": 985
+    },
+    {
+      "epoch": 4.81,
+      "learning_rate": 1.8584111000897464e-07,
+      "loss": 0.03,
+      "step": 990
+    },
+    {
+      "epoch": 4.83,
+      "learning_rate": 1.423259823580131e-07,
+      "loss": 0.0007,
+      "step": 995
+    },
+    {
+      "epoch": 4.85,
+      "learning_rate": 1.0459238325460363e-07,
+      "loss": 0.0631,
+      "step": 1000
+    },
+    {
+      "epoch": 4.85,
+      "eval_loss": 0.0483647957444191,
+      "eval_runtime": 0.146,
+      "eval_samples_per_second": 2815.962,
+      "eval_steps_per_second": 89.069,
+      "step": 1000
+    },
+    {
+      "epoch": 4.88,
+      "learning_rate": 7.264908897766098e-08,
+      "loss": 0.0569,
+      "step": 1005
+    },
+    {
+      "epoch": 4.9,
+      "learning_rate": 4.650352906655775e-08,
+      "loss": 0.0304,
+      "step": 1010
+    },
+    {
+      "epoch": 4.93,
+      "learning_rate": 2.616178459311225e-08,
+      "loss": 0.0101,
+      "step": 1015
+    },
+    {
+      "epoch": 4.95,
+      "learning_rate": 1.1628586747233772e-08,
+      "loss": 0.0035,
+      "step": 1020
+    },
+    {
+      "epoch": 4.98,
+      "learning_rate": 2.9073157365056002e-09,
+      "loss": 0.0054,
+      "step": 1025
+    },
+    {
+      "epoch": 4.98,
+      "eval_loss": 0.04826511815190315,
+      "eval_runtime": 0.1121,
+      "eval_samples_per_second": 3664.947,
+      "eval_steps_per_second": 115.923,
+      "step": 1025
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 0.0,
+      "loss": 0.003,
+      "step": 1030
     }
   ],
   "logging_steps": 5,
   "max_steps": 1030,
   "num_train_epochs": 5,
   "save_steps": 500,
+  "total_flos": 459260224208896.0,
   "trial_name": null,
   "trial_params": null
 }