Model save

Browse files

Files changed (6) hide show

README.md +26 -27
adapter_model.safetensors +1 -1
all_results.json +4 -9
runs/Apr11_22-49-38_deep-diver-main-rare-husky-1-0-0/events.out.tfevents.1712890281.deep-diver-main-rare-husky-1-0-0.520.0 +2 -2
train_results.json +4 -4
trainer_state.json +148 -148

README.md CHANGED Viewed

@@ -2,13 +2,12 @@
 license: gemma
 library_name: peft
 tags:
-- alignment-handbook
 - trl
 - sft
 - generated_from_trainer
 base_model: google/gemma-7b
 datasets:
-- chansung/no_robots_only_coding
 model-index:
 - name: gemma-7b-sft-qlora-1
   results: []
@@ -19,9 +18,9 @@ should probably proofread and complete it, then remove this comment. -->
 # gemma-7b-sft-qlora-1
-This model is a fine-tuned version of [google/gemma-7b](https://huggingface.co/google/gemma-7b) on the chansung/no_robots_only_coding dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.2095
 ## Model description
@@ -58,29 +57,29 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 23.6212       | 0.91  | 5    | 8.0020          |
-| 14.6688       | 2.0   | 11   | 6.8099          |
-| 10.8277       | 2.91  | 16   | 6.4585          |
-| 10.965        | 4.0   | 22   | 5.2759          |
-| 8.3233        | 4.91  | 27   | 1.6939          |
-| 2.2795        | 6.0   | 33   | 1.4540          |
-| 1.5047        | 6.91  | 38   | 1.3612          |
-| 1.3243        | 8.0   | 44   | 1.2886          |
-| 1.1264        | 8.91  | 49   | 1.2783          |
-| 0.9122        | 10.0  | 55   | 1.2740          |
-| 0.8184        | 10.91 | 60   | 1.2854          |
-| 0.6918        | 12.0  | 66   | 1.3135          |
-| 0.6194        | 12.91 | 71   | 1.3431          |
-| 0.5176        | 14.0  | 77   | 1.4737          |
-| 0.4514        | 14.91 | 82   | 1.7112          |
-| 0.3759        | 16.0  | 88   | 1.8429          |
-| 0.3464        | 16.91 | 93   | 1.8994          |
-| 0.2681        | 18.0  | 99   | 1.9583          |
-| 0.2487        | 18.91 | 104  | 2.1623          |
-| 0.2122        | 20.0  | 110  | 2.2136          |
-| 0.2036        | 20.91 | 115  | 2.2150          |
-| 0.2098        | 22.0  | 121  | 2.2189          |
-| 0.1955        | 22.73 | 125  | 2.2095          |
 ### Framework versions

 license: gemma
 library_name: peft
 tags:
 - trl
 - sft
 - generated_from_trainer
 base_model: google/gemma-7b
 datasets:
+- generator
 model-index:
 - name: gemma-7b-sft-qlora-1
   results: []
 # gemma-7b-sft-qlora-1
+This model is a fine-tuned version of [google/gemma-7b](https://huggingface.co/google/gemma-7b) on the generator dataset.
 It achieves the following results on the evaluation set:
+- Loss: 2.1615
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 23.7344       | 0.91  | 5    | 7.9584          |
+| 14.6026       | 2.0   | 11   | 6.8289          |
+| 10.8118       | 2.91  | 16   | 6.4185          |
+| 10.8598       | 4.0   | 22   | 5.1061          |
+| 7.9354        | 4.91  | 27   | 1.7011          |
+| 2.0354        | 6.0   | 33   | 1.4461          |
+| 1.4855        | 6.91  | 38   | 1.3565          |
+| 1.326         | 8.0   | 44   | 1.2935          |
+| 1.1375        | 8.91  | 49   | 1.2696          |
+| 0.9091        | 10.0  | 55   | 1.2716          |
+| 0.8111        | 10.91 | 60   | 1.2861          |
+| 0.689         | 12.0  | 66   | 1.3148          |
+| 0.6341        | 12.91 | 71   | 1.3391          |
+| 0.5359        | 14.0  | 77   | 1.4232          |
+| 0.4664        | 14.91 | 82   | 1.5107          |
+| 0.3951        | 16.0  | 88   | 1.6597          |
+| 0.3593        | 16.91 | 93   | 1.9377          |
+| 0.2802        | 18.0  | 99   | 1.9024          |
+| 0.2613        | 18.91 | 104  | 2.0981          |
+| 0.2262        | 20.0  | 110  | 2.1472          |
+| 0.2169        | 20.91 | 115  | 2.1633          |
+| 0.2232        | 22.0  | 121  | 2.1595          |
+| 0.2096        | 22.73 | 125  | 2.1615          |
 ### Framework versions

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d3f3e71a4da3a39a6cf7fdcb8dd60e4b87c3164ba403028d7d427b1b50a08331
 size 200068904

 version https://git-lfs.github.com/spec/v1
+oid sha256:4214980a9ececfd4df813d29a61cd992cbd3f80251df558e237efd88cd5a3d15
 size 200068904

all_results.json CHANGED Viewed

@@ -1,13 +1,8 @@
 {
     "epoch": 22.73,
-    "eval_loss": 2.209489345550537,
-    "eval_runtime": 0.6001,
-    "eval_samples": 16,
-    "eval_samples_per_second": 3.333,
-    "eval_steps_per_second": 1.667,
-    "train_loss": 3.2900945229530336,
-    "train_runtime": 472.0874,
     "train_samples": 926,
-    "train_samples_per_second": 4.66,
-    "train_steps_per_second": 0.265
 }

 {
     "epoch": 22.73,
+    "train_loss": 3.26698664855957,
+    "train_runtime": 470.6237,
     "train_samples": 926,
+    "train_samples_per_second": 4.675,
+    "train_steps_per_second": 0.266
 }

runs/Apr11_22-49-38_deep-diver-main-rare-husky-1-0-0/events.out.tfevents.1712890281.deep-diver-main-rare-husky-1-0-0.520.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9533a1e5b09043cf2b202b59d59cf89a93c9b47849c11735a807e0c6b99d65d
-size 14482

 version https://git-lfs.github.com/spec/v1
+oid sha256:98dd6fb036556bf6cfa6a7991cb4a6cea6a01d3353d76e98ff8c87e2de6ee7e7
+size 17195

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 22.73,
-    "train_loss": 3.2900945229530336,
-    "train_runtime": 472.0874,
     "train_samples": 926,
-    "train_samples_per_second": 4.66,
-    "train_steps_per_second": 0.265
 }

 {
     "epoch": 22.73,
+    "train_loss": 3.26698664855957,
+    "train_runtime": 470.6237,
     "train_samples": 926,
+    "train_samples_per_second": 4.675,
+    "train_steps_per_second": 0.266
 }

trainer_state.json CHANGED Viewed

@@ -10,378 +10,378 @@
   "log_history": [
     {
       "epoch": 0.18,
-      "grad_norm": 220.0,
       "learning_rate": 1.5384615384615387e-05,
       "loss": 24.9691,
       "step": 1
     },
     {
       "epoch": 0.91,
-      "grad_norm": 90.0,
       "learning_rate": 7.692307692307693e-05,
-      "loss": 23.6212,
       "step": 5
     },
     {
       "epoch": 0.91,
-      "eval_loss": 8.00199031829834,
-      "eval_runtime": 0.5608,
-      "eval_samples_per_second": 3.566,
-      "eval_steps_per_second": 1.783,
       "step": 5
     },
     {
       "epoch": 1.82,
-      "grad_norm": 14.8125,
       "learning_rate": 0.00015384615384615385,
-      "loss": 14.6688,
       "step": 10
     },
     {
       "epoch": 2.0,
-      "eval_loss": 6.809861183166504,
-      "eval_runtime": 0.5624,
-      "eval_samples_per_second": 3.556,
-      "eval_steps_per_second": 1.778,
       "step": 11
     },
     {
       "epoch": 2.73,
-      "grad_norm": 5.625,
       "learning_rate": 0.00019984268150178167,
-      "loss": 10.8277,
       "step": 15
     },
     {
       "epoch": 2.91,
-      "eval_loss": 6.458514213562012,
-      "eval_runtime": 0.5773,
-      "eval_samples_per_second": 3.465,
       "eval_steps_per_second": 1.732,
       "step": 16
     },
     {
       "epoch": 3.64,
-      "grad_norm": 7.65625,
       "learning_rate": 0.00019807852804032305,
-      "loss": 10.965,
       "step": 20
     },
     {
       "epoch": 4.0,
-      "eval_loss": 5.275852203369141,
-      "eval_runtime": 0.5667,
-      "eval_samples_per_second": 3.529,
-      "eval_steps_per_second": 1.765,
       "step": 22
     },
     {
       "epoch": 4.55,
-      "grad_norm": 32.75,
       "learning_rate": 0.00019438833303083678,
-      "loss": 8.3233,
       "step": 25
     },
     {
       "epoch": 4.91,
-      "eval_loss": 1.6938855648040771,
-      "eval_runtime": 0.5862,
-      "eval_samples_per_second": 3.412,
-      "eval_steps_per_second": 1.706,
       "step": 27
     },
     {
       "epoch": 5.45,
-      "grad_norm": 2.890625,
       "learning_rate": 0.00018884456359788724,
-      "loss": 2.2795,
       "step": 30
     },
     {
       "epoch": 6.0,
-      "eval_loss": 1.4539892673492432,
-      "eval_runtime": 0.5675,
-      "eval_samples_per_second": 3.524,
-      "eval_steps_per_second": 1.762,
       "step": 33
     },
     {
       "epoch": 6.36,
-      "grad_norm": 35.25,
       "learning_rate": 0.00018155608689592604,
-      "loss": 1.5047,
       "step": 35
     },
     {
       "epoch": 6.91,
-      "eval_loss": 1.3612087965011597,
-      "eval_runtime": 0.5882,
-      "eval_samples_per_second": 3.4,
-      "eval_steps_per_second": 1.7,
       "step": 38
     },
     {
       "epoch": 7.27,
-      "grad_norm": 1.65625,
       "learning_rate": 0.0001726660322034027,
-      "loss": 1.3243,
       "step": 40
     },
     {
       "epoch": 8.0,
-      "eval_loss": 1.288640022277832,
-      "eval_runtime": 0.5698,
-      "eval_samples_per_second": 3.51,
-      "eval_steps_per_second": 1.755,
       "step": 44
     },
     {
       "epoch": 8.18,
-      "grad_norm": 1.015625,
       "learning_rate": 0.00016234898018587337,
-      "loss": 1.1264,
       "step": 45
     },
     {
       "epoch": 8.91,
-      "eval_loss": 1.2782788276672363,
-      "eval_runtime": 0.59,
-      "eval_samples_per_second": 3.39,
-      "eval_steps_per_second": 1.695,
       "step": 49
     },
     {
       "epoch": 9.09,
-      "grad_norm": 2.1875,
       "learning_rate": 0.00015080753452465296,
-      "loss": 1.0387,
       "step": 50
     },
     {
       "epoch": 10.0,
-      "grad_norm": 0.9765625,
       "learning_rate": 0.000138268343236509,
-      "loss": 0.9122,
       "step": 55
     },
     {
       "epoch": 10.0,
-      "eval_loss": 1.2739648818969727,
-      "eval_runtime": 0.5659,
-      "eval_samples_per_second": 3.534,
-      "eval_steps_per_second": 1.767,
       "step": 55
     },
     {
       "epoch": 10.91,
-      "grad_norm": 0.6953125,
       "learning_rate": 0.0001249776478167227,
-      "loss": 0.8184,
       "step": 60
     },
     {
       "epoch": 10.91,
-      "eval_loss": 1.2853541374206543,
-      "eval_runtime": 0.5892,
-      "eval_samples_per_second": 3.395,
-      "eval_steps_per_second": 1.697,
       "step": 60
     },
     {
       "epoch": 11.82,
-      "grad_norm": 0.96875,
       "learning_rate": 0.00011119644761033078,
-      "loss": 0.6918,
       "step": 65
     },
     {
       "epoch": 12.0,
-      "eval_loss": 1.31352698802948,
-      "eval_runtime": 0.5674,
-      "eval_samples_per_second": 3.525,
-      "eval_steps_per_second": 1.762,
       "step": 66
     },
     {
       "epoch": 12.73,
-      "grad_norm": 0.92578125,
       "learning_rate": 9.719537437241312e-05,
-      "loss": 0.6194,
       "step": 70
     },
     {
       "epoch": 12.91,
-      "eval_loss": 1.343058705329895,
-      "eval_runtime": 0.7364,
-      "eval_samples_per_second": 2.716,
-      "eval_steps_per_second": 1.358,
       "step": 71
     },
     {
       "epoch": 13.64,
-      "grad_norm": 1.1875,
       "learning_rate": 8.324937766952638e-05,
-      "loss": 0.5176,
       "step": 75
     },
     {
       "epoch": 14.0,
-      "eval_loss": 1.4736580848693848,
-      "eval_runtime": 0.5693,
-      "eval_samples_per_second": 3.513,
-      "eval_steps_per_second": 1.757,
       "step": 77
     },
     {
       "epoch": 14.55,
-      "grad_norm": 0.9296875,
       "learning_rate": 6.963232548903853e-05,
-      "loss": 0.4514,
       "step": 80
     },
     {
       "epoch": 14.91,
-      "eval_loss": 1.7112184762954712,
-      "eval_runtime": 0.6242,
-      "eval_samples_per_second": 3.204,
-      "eval_steps_per_second": 1.602,
       "step": 82
     },
     {
       "epoch": 15.45,
-      "grad_norm": 1.34375,
       "learning_rate": 5.6611626088244194e-05,
-      "loss": 0.3759,
       "step": 85
     },
     {
       "epoch": 16.0,
-      "eval_loss": 1.8429330587387085,
-      "eval_runtime": 0.5694,
-      "eval_samples_per_second": 3.513,
-      "eval_steps_per_second": 1.756,
       "step": 88
     },
     {
       "epoch": 16.36,
-      "grad_norm": 0.84375,
       "learning_rate": 4.444297669803981e-05,
-      "loss": 0.3464,
       "step": 90
     },
     {
       "epoch": 16.91,
-      "eval_loss": 1.899384617805481,
-      "eval_runtime": 0.5863,
-      "eval_samples_per_second": 3.411,
-      "eval_steps_per_second": 1.706,
       "step": 93
     },
     {
       "epoch": 17.27,
-      "grad_norm": 0.8203125,
       "learning_rate": 3.336534220479961e-05,
-      "loss": 0.2681,
       "step": 95
     },
     {
       "epoch": 18.0,
-      "eval_loss": 1.9583137035369873,
-      "eval_runtime": 0.5683,
-      "eval_samples_per_second": 3.519,
-      "eval_steps_per_second": 1.76,
       "step": 99
     },
     {
       "epoch": 18.18,
-      "grad_norm": 0.73828125,
       "learning_rate": 2.3596262417839255e-05,
-      "loss": 0.2487,
       "step": 100
     },
     {
       "epoch": 18.91,
-      "eval_loss": 2.162316083908081,
-      "eval_runtime": 0.5845,
-      "eval_samples_per_second": 3.422,
-      "eval_steps_per_second": 1.711,
       "step": 104
     },
     {
       "epoch": 19.09,
-      "grad_norm": 0.875,
       "learning_rate": 1.5327580077171587e-05,
-      "loss": 0.2322,
       "step": 105
     },
     {
       "epoch": 20.0,
-      "grad_norm": 0.6484375,
       "learning_rate": 8.72167349386811e-06,
-      "loss": 0.2122,
       "step": 110
     },
     {
       "epoch": 20.0,
-      "eval_loss": 2.213620901107788,
-      "eval_runtime": 0.5651,
-      "eval_samples_per_second": 3.539,
-      "eval_steps_per_second": 1.769,
       "step": 110
     },
     {
       "epoch": 20.91,
-      "grad_norm": 0.50390625,
       "learning_rate": 3.908267805490051e-06,
-      "loss": 0.2036,
       "step": 115
     },
     {
       "epoch": 20.91,
-      "eval_loss": 2.2149863243103027,
-      "eval_runtime": 0.5812,
-      "eval_samples_per_second": 3.441,
-      "eval_steps_per_second": 1.721,
       "step": 115
     },
     {
       "epoch": 21.82,
-      "grad_norm": 0.458984375,
       "learning_rate": 9.818874663554357e-07,
-      "loss": 0.2098,
       "step": 120
     },
     {
       "epoch": 22.0,
-      "eval_loss": 2.2188880443573,
-      "eval_runtime": 0.5673,
-      "eval_samples_per_second": 3.525,
-      "eval_steps_per_second": 1.763,
       "step": 121
     },
     {
       "epoch": 22.73,
-      "grad_norm": 0.6171875,
       "learning_rate": 0.0,
-      "loss": 0.1955,
       "step": 125
     },
     {
       "epoch": 22.73,
-      "eval_loss": 2.209489345550537,
-      "eval_runtime": 0.5657,
-      "eval_samples_per_second": 3.536,
-      "eval_steps_per_second": 1.768,
       "step": 125
     },
     {
       "epoch": 22.73,
       "step": 125,
-      "total_flos": 1.917235948819579e+17,
-      "train_loss": 3.2900945229530336,
-      "train_runtime": 472.0874,
-      "train_samples_per_second": 4.66,
-      "train_steps_per_second": 0.265
     }
   ],
   "logging_steps": 5,
@@ -389,7 +389,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 25,
   "save_steps": 100,
-  "total_flos": 1.917235948819579e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "log_history": [
     {
       "epoch": 0.18,
+      "grad_norm": 159.0,
       "learning_rate": 1.5384615384615387e-05,
       "loss": 24.9691,
       "step": 1
     },
     {
       "epoch": 0.91,
+      "grad_norm": 70.5,
       "learning_rate": 7.692307692307693e-05,
+      "loss": 23.7344,
       "step": 5
     },
     {
       "epoch": 0.91,
+      "eval_loss": 7.958380222320557,
+      "eval_runtime": 0.5623,
+      "eval_samples_per_second": 3.557,
+      "eval_steps_per_second": 1.778,
       "step": 5
     },
     {
       "epoch": 1.82,
+      "grad_norm": 10.75,
       "learning_rate": 0.00015384615384615385,
+      "loss": 14.6026,
       "step": 10
     },
     {
       "epoch": 2.0,
+      "eval_loss": 6.82885217666626,
+      "eval_runtime": 0.5598,
+      "eval_samples_per_second": 3.573,
+      "eval_steps_per_second": 1.786,
       "step": 11
     },
     {
       "epoch": 2.73,
+      "grad_norm": 2.90625,
       "learning_rate": 0.00019984268150178167,
+      "loss": 10.8118,
       "step": 15
     },
     {
       "epoch": 2.91,
+      "eval_loss": 6.418484687805176,
+      "eval_runtime": 0.5774,
+      "eval_samples_per_second": 3.464,
       "eval_steps_per_second": 1.732,
       "step": 16
     },
     {
       "epoch": 3.64,
+      "grad_norm": 4.8125,
       "learning_rate": 0.00019807852804032305,
+      "loss": 10.8598,
       "step": 20
     },
     {
       "epoch": 4.0,
+      "eval_loss": 5.106105327606201,
+      "eval_runtime": 0.5656,
+      "eval_samples_per_second": 3.536,
+      "eval_steps_per_second": 1.768,
       "step": 22
     },
     {
       "epoch": 4.55,
+      "grad_norm": 16.625,
       "learning_rate": 0.00019438833303083678,
+      "loss": 7.9354,
       "step": 25
     },
     {
       "epoch": 4.91,
+      "eval_loss": 1.7010552883148193,
+      "eval_runtime": 0.5782,
+      "eval_samples_per_second": 3.459,
+      "eval_steps_per_second": 1.73,
       "step": 27
     },
     {
       "epoch": 5.45,
+      "grad_norm": 2.21875,
       "learning_rate": 0.00018884456359788724,
+      "loss": 2.0354,
       "step": 30
     },
     {
       "epoch": 6.0,
+      "eval_loss": 1.4460557699203491,
+      "eval_runtime": 0.5682,
+      "eval_samples_per_second": 3.52,
+      "eval_steps_per_second": 1.76,
       "step": 33
     },
     {
       "epoch": 6.36,
+      "grad_norm": 0.9140625,
       "learning_rate": 0.00018155608689592604,
+      "loss": 1.4855,
       "step": 35
     },
     {
       "epoch": 6.91,
+      "eval_loss": 1.3564677238464355,
+      "eval_runtime": 0.5812,
+      "eval_samples_per_second": 3.441,
+      "eval_steps_per_second": 1.721,
       "step": 38
     },
     {
       "epoch": 7.27,
+      "grad_norm": 1.203125,
       "learning_rate": 0.0001726660322034027,
+      "loss": 1.326,
       "step": 40
     },
     {
       "epoch": 8.0,
+      "eval_loss": 1.2935034036636353,
+      "eval_runtime": 0.5674,
+      "eval_samples_per_second": 3.525,
+      "eval_steps_per_second": 1.762,
       "step": 44
     },
     {
       "epoch": 8.18,
+      "grad_norm": 0.9296875,
       "learning_rate": 0.00016234898018587337,
+      "loss": 1.1375,
       "step": 45
     },
     {
       "epoch": 8.91,
+      "eval_loss": 1.269553542137146,
+      "eval_runtime": 0.5872,
+      "eval_samples_per_second": 3.406,
+      "eval_steps_per_second": 1.703,
       "step": 49
     },
     {
       "epoch": 9.09,
+      "grad_norm": 1.0625,
       "learning_rate": 0.00015080753452465296,
+      "loss": 1.0376,
       "step": 50
     },
     {
       "epoch": 10.0,
+      "grad_norm": 1.5390625,
       "learning_rate": 0.000138268343236509,
+      "loss": 0.9091,
       "step": 55
     },
     {
       "epoch": 10.0,
+      "eval_loss": 1.2716257572174072,
+      "eval_runtime": 0.5653,
+      "eval_samples_per_second": 3.538,
+      "eval_steps_per_second": 1.769,
       "step": 55
     },
     {
       "epoch": 10.91,
+      "grad_norm": 0.59375,
       "learning_rate": 0.0001249776478167227,
+      "loss": 0.8111,
       "step": 60
     },
     {
       "epoch": 10.91,
+      "eval_loss": 1.2860848903656006,
+      "eval_runtime": 0.5837,
+      "eval_samples_per_second": 3.427,
+      "eval_steps_per_second": 1.713,
       "step": 60
     },
     {
       "epoch": 11.82,
+      "grad_norm": 0.69140625,
       "learning_rate": 0.00011119644761033078,
+      "loss": 0.689,
       "step": 65
     },
     {
       "epoch": 12.0,
+      "eval_loss": 1.3148236274719238,
+      "eval_runtime": 0.5682,
+      "eval_samples_per_second": 3.52,
+      "eval_steps_per_second": 1.76,
       "step": 66
     },
     {
       "epoch": 12.73,
+      "grad_norm": 0.59375,
       "learning_rate": 9.719537437241312e-05,
+      "loss": 0.6341,
       "step": 70
     },
     {
       "epoch": 12.91,
+      "eval_loss": 1.3391039371490479,
+      "eval_runtime": 0.7408,
+      "eval_samples_per_second": 2.7,
+      "eval_steps_per_second": 1.35,
       "step": 71
     },
     {
       "epoch": 13.64,
+      "grad_norm": 0.8984375,
       "learning_rate": 8.324937766952638e-05,
+      "loss": 0.5359,
       "step": 75
     },
     {
       "epoch": 14.0,
+      "eval_loss": 1.4231812953948975,
+      "eval_runtime": 0.5681,
+      "eval_samples_per_second": 3.521,
+      "eval_steps_per_second": 1.76,
       "step": 77
     },
     {
       "epoch": 14.55,
+      "grad_norm": 1.0078125,
       "learning_rate": 6.963232548903853e-05,
+      "loss": 0.4664,
       "step": 80
     },
     {
       "epoch": 14.91,
+      "eval_loss": 1.510708212852478,
+      "eval_runtime": 0.6308,
+      "eval_samples_per_second": 3.171,
+      "eval_steps_per_second": 1.585,
       "step": 82
     },
     {
       "epoch": 15.45,
+      "grad_norm": 0.68359375,
       "learning_rate": 5.6611626088244194e-05,
+      "loss": 0.3951,
       "step": 85
     },
     {
       "epoch": 16.0,
+      "eval_loss": 1.6597082614898682,
+      "eval_runtime": 0.5686,
+      "eval_samples_per_second": 3.517,
+      "eval_steps_per_second": 1.759,
       "step": 88
     },
     {
       "epoch": 16.36,
+      "grad_norm": 0.67578125,
       "learning_rate": 4.444297669803981e-05,
+      "loss": 0.3593,
       "step": 90
     },
     {
       "epoch": 16.91,
+      "eval_loss": 1.9376537799835205,
+      "eval_runtime": 0.5859,
+      "eval_samples_per_second": 3.413,
+      "eval_steps_per_second": 1.707,
       "step": 93
     },
     {
       "epoch": 17.27,
+      "grad_norm": 0.53125,
       "learning_rate": 3.336534220479961e-05,
+      "loss": 0.2802,
       "step": 95
     },
     {
       "epoch": 18.0,
+      "eval_loss": 1.9024397134780884,
+      "eval_runtime": 0.5686,
+      "eval_samples_per_second": 3.518,
+      "eval_steps_per_second": 1.759,
       "step": 99
     },
     {
       "epoch": 18.18,
+      "grad_norm": 0.466796875,
       "learning_rate": 2.3596262417839255e-05,
+      "loss": 0.2613,
       "step": 100
     },
     {
       "epoch": 18.91,
+      "eval_loss": 2.098067283630371,
+      "eval_runtime": 0.5848,
+      "eval_samples_per_second": 3.42,
+      "eval_steps_per_second": 1.71,
       "step": 104
     },
     {
       "epoch": 19.09,
+      "grad_norm": 0.63671875,
       "learning_rate": 1.5327580077171587e-05,
+      "loss": 0.2442,
       "step": 105
     },
     {
       "epoch": 20.0,
+      "grad_norm": 0.51171875,
       "learning_rate": 8.72167349386811e-06,
+      "loss": 0.2262,
       "step": 110
     },
     {
       "epoch": 20.0,
+      "eval_loss": 2.1472132205963135,
+      "eval_runtime": 0.5636,
+      "eval_samples_per_second": 3.548,
+      "eval_steps_per_second": 1.774,
       "step": 110
     },
     {
       "epoch": 20.91,
+      "grad_norm": 0.34375,
       "learning_rate": 3.908267805490051e-06,
+      "loss": 0.2169,
       "step": 115
     },
     {
       "epoch": 20.91,
+      "eval_loss": 2.1632509231567383,
+      "eval_runtime": 0.5774,
+      "eval_samples_per_second": 3.464,
+      "eval_steps_per_second": 1.732,
       "step": 115
     },
     {
       "epoch": 21.82,
+      "grad_norm": 0.333984375,
       "learning_rate": 9.818874663554357e-07,
+      "loss": 0.2232,
       "step": 120
     },
     {
       "epoch": 22.0,
+      "eval_loss": 2.159508466720581,
+      "eval_runtime": 0.5656,
+      "eval_samples_per_second": 3.536,
+      "eval_steps_per_second": 1.768,
       "step": 121
     },
     {
       "epoch": 22.73,
+      "grad_norm": 0.46875,
       "learning_rate": 0.0,
+      "loss": 0.2096,
       "step": 125
     },
     {
       "epoch": 22.73,
+      "eval_loss": 2.161546468734741,
+      "eval_runtime": 0.563,
+      "eval_samples_per_second": 3.553,
+      "eval_steps_per_second": 1.776,
       "step": 125
     },
     {
       "epoch": 22.73,
       "step": 125,
+      "total_flos": 1.929524923995259e+17,
+      "train_loss": 3.26698664855957,
+      "train_runtime": 470.6237,
+      "train_samples_per_second": 4.675,
+      "train_steps_per_second": 0.266
     }
   ],
   "logging_steps": 5,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 25,
   "save_steps": 100,
+  "total_flos": 1.929524923995259e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null