Upload 8 files

Browse files

Files changed (8) hide show

README.md +202 -3
adapter_config.json +29 -0
adapter_model.bin +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +2541 -0
training_args.bin +3 -0

README.md CHANGED Viewed

@@ -1,3 +1,202 @@
----
-license: mit
----

+---
+library_name: peft
+base_model: mistralai/Mistral-7B-v0.1
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.10.0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "mistralai/Mistral-7B-v0.1",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "q_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_dora": false,
+  "use_rslora": false
+}

adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:487ec940d952ab9eb73a0af6515a281aa1b5ab2868a4f31a6bd882af20bb104d
+size 13677706

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:99642902a6c6cdfb54edc66c62e560ba50b2db2178e2b53cdabdff15cd21c143
+size 27370618

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:148d5811a306596d4860a81f1163da98642164f9c58a1b2fea6356d2efa3653d
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:434bac5769afccb9b0e51ae3c4e80a9e17ddd22536412f5531331862f3408294
+size 1064

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2541 @@

+{
+  "best_metric": 1.2408429384231567,
+  "best_model_checkpoint": "/scratch/czm5kz/NEW_finetuned_Mistral-7B32_1_0.0003_sequential_RANDOM_50_pct/checkpoint-1340",
+  "epoch": 0.9975062344139651,
+  "eval_steps": 20,
+  "global_step": 1400,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "grad_norm": 2.190748929977417,
+      "learning_rate": 0.0002989308624376336,
+      "loss": 2.6925,
+      "step": 5
+    },
+    {
+      "epoch": 0.01,
+      "grad_norm": 15.103973388671875,
+      "learning_rate": 0.00029786172487526725,
+      "loss": 2.2848,
+      "step": 10
+    },
+    {
+      "epoch": 0.01,
+      "grad_norm": 1.4951099157333374,
+      "learning_rate": 0.0002967925873129009,
+      "loss": 2.1336,
+      "step": 15
+    },
+    {
+      "epoch": 0.01,
+      "grad_norm": 1.7682154178619385,
+      "learning_rate": 0.00029572344975053457,
+      "loss": 2.0716,
+      "step": 20
+    },
+    {
+      "epoch": 0.01,
+      "eval_loss": 1.778781533241272,
+      "eval_runtime": 237.1945,
+      "eval_samples_per_second": 47.341,
+      "eval_steps_per_second": 5.919,
+      "step": 20
+    },
+    {
+      "epoch": 0.02,
+      "grad_norm": 1.562595248222351,
+      "learning_rate": 0.00029465431218816815,
+      "loss": 1.9213,
+      "step": 25
+    },
+    {
+      "epoch": 0.02,
+      "grad_norm": 1.492033839225769,
+      "learning_rate": 0.00029358517462580184,
+      "loss": 1.8724,
+      "step": 30
+    },
+    {
+      "epoch": 0.02,
+      "grad_norm": 1.5487476587295532,
+      "learning_rate": 0.0002925160370634355,
+      "loss": 1.8629,
+      "step": 35
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 1.7883455753326416,
+      "learning_rate": 0.0002914468995010691,
+      "loss": 1.8389,
+      "step": 40
+    },
+    {
+      "epoch": 0.03,
+      "eval_loss": 1.7103164196014404,
+      "eval_runtime": 237.2832,
+      "eval_samples_per_second": 47.323,
+      "eval_steps_per_second": 5.917,
+      "step": 40
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 1.5617667436599731,
+      "learning_rate": 0.00029037776193870275,
+      "loss": 1.8746,
+      "step": 45
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 1.2963486909866333,
+      "learning_rate": 0.0002893086243763364,
+      "loss": 1.8685,
+      "step": 50
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 0.965108335018158,
+      "learning_rate": 0.00028823948681397,
+      "loss": 1.8496,
+      "step": 55
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 1.1771740913391113,
+      "learning_rate": 0.0002871703492516037,
+      "loss": 1.875,
+      "step": 60
+    },
+    {
+      "epoch": 0.04,
+      "eval_loss": 1.671568512916565,
+      "eval_runtime": 236.9641,
+      "eval_samples_per_second": 47.387,
+      "eval_steps_per_second": 5.925,
+      "step": 60
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 1.077508807182312,
+      "learning_rate": 0.0002861012116892373,
+      "loss": 1.8798,
+      "step": 65
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 1.0114647150039673,
+      "learning_rate": 0.000285032074126871,
+      "loss": 1.9173,
+      "step": 70
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 1.0852574110031128,
+      "learning_rate": 0.0002839629365645046,
+      "loss": 1.8074,
+      "step": 75
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 1.3359036445617676,
+      "learning_rate": 0.00028289379900213826,
+      "loss": 1.841,
+      "step": 80
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 1.6593068838119507,
+      "eval_runtime": 237.8449,
+      "eval_samples_per_second": 47.211,
+      "eval_steps_per_second": 5.903,
+      "step": 80
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 0.8587427735328674,
+      "learning_rate": 0.0002818246614397719,
+      "loss": 1.8098,
+      "step": 85
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 1.0918787717819214,
+      "learning_rate": 0.00028075552387740553,
+      "loss": 1.8244,
+      "step": 90
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 1.0244836807250977,
+      "learning_rate": 0.00027968638631503917,
+      "loss": 1.816,
+      "step": 95
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 1.1695729494094849,
+      "learning_rate": 0.0002786172487526728,
+      "loss": 1.8292,
+      "step": 100
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 1.628184199333191,
+      "eval_runtime": 238.0862,
+      "eval_samples_per_second": 47.164,
+      "eval_steps_per_second": 5.897,
+      "step": 100
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 1.3541936874389648,
+      "learning_rate": 0.00027754811119030644,
+      "loss": 1.7861,
+      "step": 105
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 0.9082701206207275,
+      "learning_rate": 0.0002764789736279401,
+      "loss": 1.8406,
+      "step": 110
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 0.9547412395477295,
+      "learning_rate": 0.00027540983606557377,
+      "loss": 1.8095,
+      "step": 115
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 1.1829599142074585,
+      "learning_rate": 0.0002743406985032074,
+      "loss": 1.8365,
+      "step": 120
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 1.6293543577194214,
+      "eval_runtime": 237.8321,
+      "eval_samples_per_second": 47.214,
+      "eval_steps_per_second": 5.903,
+      "step": 120
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 1.019248366355896,
+      "learning_rate": 0.00027327156094084104,
+      "loss": 1.8326,
+      "step": 125
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 0.8451804518699646,
+      "learning_rate": 0.0002722024233784747,
+      "loss": 1.8719,
+      "step": 130
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 1.1695730686187744,
+      "learning_rate": 0.0002711332858161083,
+      "loss": 1.8541,
+      "step": 135
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 1.2597101926803589,
+      "learning_rate": 0.00027006414825374195,
+      "loss": 1.8387,
+      "step": 140
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 1.626194953918457,
+      "eval_runtime": 237.5008,
+      "eval_samples_per_second": 47.28,
+      "eval_steps_per_second": 5.912,
+      "step": 140
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 1.0361061096191406,
+      "learning_rate": 0.00026899501069137564,
+      "loss": 1.7864,
+      "step": 145
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 1.1482082605361938,
+      "learning_rate": 0.0002679258731290092,
+      "loss": 1.8259,
+      "step": 150
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 1.055063009262085,
+      "learning_rate": 0.0002668567355666429,
+      "loss": 1.8848,
+      "step": 155
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 1.4509915113449097,
+      "learning_rate": 0.00026578759800427654,
+      "loss": 1.7897,
+      "step": 160
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 1.5981006622314453,
+      "eval_runtime": 238.0475,
+      "eval_samples_per_second": 47.171,
+      "eval_steps_per_second": 5.898,
+      "step": 160
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 1.373598337173462,
+      "learning_rate": 0.0002647184604419102,
+      "loss": 1.7991,
+      "step": 165
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 1.3375146389007568,
+      "learning_rate": 0.0002636493228795438,
+      "loss": 1.7573,
+      "step": 170
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 1.0133017301559448,
+      "learning_rate": 0.00026258018531717745,
+      "loss": 1.7838,
+      "step": 175
+    },
+    {
+      "epoch": 0.13,
+      "grad_norm": 1.1293681859970093,
+      "learning_rate": 0.0002615110477548111,
+      "loss": 1.8422,
+      "step": 180
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 1.6028172969818115,
+      "eval_runtime": 237.6208,
+      "eval_samples_per_second": 47.256,
+      "eval_steps_per_second": 5.909,
+      "step": 180
+    },
+    {
+      "epoch": 0.13,
+      "grad_norm": 0.8690692782402039,
+      "learning_rate": 0.0002604419101924447,
+      "loss": 1.813,
+      "step": 185
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 0.9909704327583313,
+      "learning_rate": 0.00025937277263007836,
+      "loss": 1.7254,
+      "step": 190
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 1.5768414735794067,
+      "learning_rate": 0.000258303635067712,
+      "loss": 1.7682,
+      "step": 195
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 0.9148331880569458,
+      "learning_rate": 0.0002572344975053457,
+      "loss": 1.7412,
+      "step": 200
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 1.609471321105957,
+      "eval_runtime": 237.4724,
+      "eval_samples_per_second": 47.285,
+      "eval_steps_per_second": 5.912,
+      "step": 200
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 0.7861562967300415,
+      "learning_rate": 0.0002561653599429793,
+      "loss": 1.8016,
+      "step": 205
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 1.0590616464614868,
+      "learning_rate": 0.00025509622238061296,
+      "loss": 1.8473,
+      "step": 210
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 1.0250825881958008,
+      "learning_rate": 0.0002540270848182466,
+      "loss": 1.7763,
+      "step": 215
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 0.9059091210365295,
+      "learning_rate": 0.00025295794725588023,
+      "loss": 1.8012,
+      "step": 220
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 1.590165138244629,
+      "eval_runtime": 237.4439,
+      "eval_samples_per_second": 47.291,
+      "eval_steps_per_second": 5.913,
+      "step": 220
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 1.282448649406433,
+      "learning_rate": 0.00025188880969351387,
+      "loss": 1.8182,
+      "step": 225
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 1.0918220281600952,
+      "learning_rate": 0.00025081967213114756,
+      "loss": 1.7842,
+      "step": 230
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 1.2945507764816284,
+      "learning_rate": 0.00024975053456878114,
+      "loss": 1.811,
+      "step": 235
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": NaN,
+      "learning_rate": 0.0002488952245188881,
+      "loss": 1.8174,
+      "step": 240
+    },
+    {
+      "epoch": 0.17,
+      "eval_loss": 1.581870675086975,
+      "eval_runtime": 237.1447,
+      "eval_samples_per_second": 47.351,
+      "eval_steps_per_second": 5.92,
+      "step": 240
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 1.0598950386047363,
+      "learning_rate": 0.0002478260869565217,
+      "loss": 1.765,
+      "step": 245
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 1.6947129964828491,
+      "learning_rate": 0.00024675694939415535,
+      "loss": 1.7618,
+      "step": 250
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 1.1622700691223145,
+      "learning_rate": 0.000245687811831789,
+      "loss": 1.804,
+      "step": 255
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 1.3145084381103516,
+      "learning_rate": 0.0002446186742694226,
+      "loss": 1.7646,
+      "step": 260
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 1.5612010955810547,
+      "eval_runtime": 237.7493,
+      "eval_samples_per_second": 47.23,
+      "eval_steps_per_second": 5.905,
+      "step": 260
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 1.6166943311691284,
+      "learning_rate": 0.0002435495367070563,
+      "loss": 1.8443,
+      "step": 265
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 1.2542049884796143,
+      "learning_rate": 0.00024248039914468992,
+      "loss": 1.8191,
+      "step": 270
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 1.4048426151275635,
+      "learning_rate": 0.0002414112615823236,
+      "loss": 1.8536,
+      "step": 275
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 1.1894993782043457,
+      "learning_rate": 0.0002403421240199572,
+      "loss": 1.7577,
+      "step": 280
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 1.5731514692306519,
+      "eval_runtime": 237.2298,
+      "eval_samples_per_second": 47.334,
+      "eval_steps_per_second": 5.918,
+      "step": 280
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 1.2634881734848022,
+      "learning_rate": 0.00023927298645759086,
+      "loss": 1.784,
+      "step": 285
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 1.1545084714889526,
+      "learning_rate": 0.0002382038488952245,
+      "loss": 1.8138,
+      "step": 290
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 0.9268730282783508,
+      "learning_rate": 0.00023713471133285816,
+      "loss": 1.7449,
+      "step": 295
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 0.879952073097229,
+      "learning_rate": 0.00023606557377049177,
+      "loss": 1.8241,
+      "step": 300
+    },
+    {
+      "epoch": 0.21,
+      "eval_loss": 1.5430127382278442,
+      "eval_runtime": 237.714,
+      "eval_samples_per_second": 47.237,
+      "eval_steps_per_second": 5.906,
+      "step": 300
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 1.1646654605865479,
+      "learning_rate": 0.00023499643620812543,
+      "loss": 1.797,
+      "step": 305
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 1.760750412940979,
+      "learning_rate": 0.00023392729864575907,
+      "loss": 1.7831,
+      "step": 310
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 1.1991583108901978,
+      "learning_rate": 0.00023285816108339273,
+      "loss": 1.7406,
+      "step": 315
+    },
+    {
+      "epoch": 0.23,
+      "grad_norm": 1.5182950496673584,
+      "learning_rate": 0.00023178902352102634,
+      "loss": 1.7849,
+      "step": 320
+    },
+    {
+      "epoch": 0.23,
+      "eval_loss": 1.5583710670471191,
+      "eval_runtime": 237.3288,
+      "eval_samples_per_second": 47.314,
+      "eval_steps_per_second": 5.916,
+      "step": 320
+    },
+    {
+      "epoch": 0.23,
+      "grad_norm": 1.3009998798370361,
+      "learning_rate": 0.00023071988595865998,
+      "loss": 1.7654,
+      "step": 325
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 1.0810405015945435,
+      "learning_rate": 0.00022965074839629364,
+      "loss": 1.8054,
+      "step": 330
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 1.3199079036712646,
+      "learning_rate": 0.00022858161083392728,
+      "loss": 1.7773,
+      "step": 335
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 0.8425886631011963,
+      "learning_rate": 0.0002275124732715609,
+      "loss": 1.8062,
+      "step": 340
+    },
+    {
+      "epoch": 0.24,
+      "eval_loss": 1.5440458059310913,
+      "eval_runtime": 237.169,
+      "eval_samples_per_second": 47.346,
+      "eval_steps_per_second": 5.92,
+      "step": 340
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 0.9340199828147888,
+      "learning_rate": 0.00022644333570919455,
+      "loss": 1.7705,
+      "step": 345
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 0.9835169315338135,
+      "learning_rate": 0.0002253741981468282,
+      "loss": 1.7721,
+      "step": 350
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 1.0606967210769653,
+      "learning_rate": 0.00022430506058446185,
+      "loss": 1.7647,
+      "step": 355
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 0.9056866765022278,
+      "learning_rate": 0.0002232359230220955,
+      "loss": 1.7504,
+      "step": 360
+    },
+    {
+      "epoch": 0.26,
+      "eval_loss": 1.5209940671920776,
+      "eval_runtime": 238.2275,
+      "eval_samples_per_second": 47.136,
+      "eval_steps_per_second": 5.894,
+      "step": 360
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 1.0909144878387451,
+      "learning_rate": 0.00022216678545972912,
+      "loss": 1.7086,
+      "step": 365
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 1.2728279829025269,
+      "learning_rate": 0.00022109764789736278,
+      "loss": 1.7497,
+      "step": 370
+    },
+    {
+      "epoch": 0.27,
+      "grad_norm": 0.9353938102722168,
+      "learning_rate": 0.00022002851033499642,
+      "loss": 1.7713,
+      "step": 375
+    },
+    {
+      "epoch": 0.27,
+      "grad_norm": 1.0301333665847778,
+      "learning_rate": 0.00021895937277263008,
+      "loss": 1.758,
+      "step": 380
+    },
+    {
+      "epoch": 0.27,
+      "eval_loss": 1.5057827234268188,
+      "eval_runtime": 237.3077,
+      "eval_samples_per_second": 47.318,
+      "eval_steps_per_second": 5.916,
+      "step": 380
+    },
+    {
+      "epoch": 0.27,
+      "grad_norm": 1.6168383359909058,
+      "learning_rate": 0.0002178902352102637,
+      "loss": 1.7551,
+      "step": 385
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 0.8488287925720215,
+      "learning_rate": 0.00021682109764789735,
+      "loss": 1.7685,
+      "step": 390
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 1.255650281906128,
+      "learning_rate": 0.000215751960085531,
+      "loss": 1.8111,
+      "step": 395
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 0.9766170382499695,
+      "learning_rate": 0.00021468282252316465,
+      "loss": 1.7362,
+      "step": 400
+    },
+    {
+      "epoch": 0.29,
+      "eval_loss": 1.496960997581482,
+      "eval_runtime": 237.3381,
+      "eval_samples_per_second": 47.312,
+      "eval_steps_per_second": 5.916,
+      "step": 400
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 1.1346168518066406,
+      "learning_rate": 0.00021361368496079826,
+      "loss": 1.7286,
+      "step": 405
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 1.168265461921692,
+      "learning_rate": 0.0002125445473984319,
+      "loss": 1.7703,
+      "step": 410
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 1.6656196117401123,
+      "learning_rate": 0.00021147540983606556,
+      "loss": 1.7877,
+      "step": 415
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 2.6268227100372314,
+      "learning_rate": 0.0002104062722736992,
+      "loss": 1.7199,
+      "step": 420
+    },
+    {
+      "epoch": 0.3,
+      "eval_loss": 1.4993776082992554,
+      "eval_runtime": 238.217,
+      "eval_samples_per_second": 47.138,
+      "eval_steps_per_second": 5.894,
+      "step": 420
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 0.9855889081954956,
+      "learning_rate": 0.00020933713471133283,
+      "loss": 1.7494,
+      "step": 425
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 1.409048318862915,
+      "learning_rate": 0.00020826799714896647,
+      "loss": 1.7414,
+      "step": 430
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 1.175363540649414,
+      "learning_rate": 0.00020719885958660013,
+      "loss": 1.7259,
+      "step": 435
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 1.2530262470245361,
+      "learning_rate": 0.00020612972202423377,
+      "loss": 1.7837,
+      "step": 440
+    },
+    {
+      "epoch": 0.31,
+      "eval_loss": 1.476330280303955,
+      "eval_runtime": 237.4168,
+      "eval_samples_per_second": 47.297,
+      "eval_steps_per_second": 5.914,
+      "step": 440
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 1.6146230697631836,
+      "learning_rate": 0.0002050605844618674,
+      "loss": 1.7295,
+      "step": 445
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 0.9525929093360901,
+      "learning_rate": 0.00020399144689950104,
+      "loss": 1.7382,
+      "step": 450
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 1.5023664236068726,
+      "learning_rate": 0.0002029223093371347,
+      "loss": 1.734,
+      "step": 455
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 0.9941686987876892,
+      "learning_rate": 0.00020185317177476834,
+      "loss": 1.7352,
+      "step": 460
+    },
+    {
+      "epoch": 0.33,
+      "eval_loss": 1.4479156732559204,
+      "eval_runtime": 237.6495,
+      "eval_samples_per_second": 47.25,
+      "eval_steps_per_second": 5.908,
+      "step": 460
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 2.4582278728485107,
+      "learning_rate": 0.000200784034212402,
+      "loss": 1.7731,
+      "step": 465
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 2.1136322021484375,
+      "learning_rate": 0.0001997148966500356,
+      "loss": 1.7187,
+      "step": 470
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 2.247495651245117,
+      "learning_rate": 0.00019864575908766927,
+      "loss": 1.7428,
+      "step": 475
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 1.3668878078460693,
+      "learning_rate": 0.0001975766215253029,
+      "loss": 1.7412,
+      "step": 480
+    },
+    {
+      "epoch": 0.34,
+      "eval_loss": 1.4483822584152222,
+      "eval_runtime": 237.9938,
+      "eval_samples_per_second": 47.182,
+      "eval_steps_per_second": 5.899,
+      "step": 480
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 1.6463290452957153,
+      "learning_rate": 0.00019650748396293657,
+      "loss": 1.7524,
+      "step": 485
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 1.303629994392395,
+      "learning_rate": 0.00019543834640057018,
+      "loss": 1.7351,
+      "step": 490
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 1.1790457963943481,
+      "learning_rate": 0.00019436920883820382,
+      "loss": 1.7569,
+      "step": 495
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 2.203946113586426,
+      "learning_rate": 0.00019330007127583748,
+      "loss": 1.7209,
+      "step": 500
+    },
+    {
+      "epoch": 0.36,
+      "eval_loss": 1.4321825504302979,
+      "eval_runtime": 237.1868,
+      "eval_samples_per_second": 47.342,
+      "eval_steps_per_second": 5.919,
+      "step": 500
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 1.6916301250457764,
+      "learning_rate": 0.0001922309337134711,
+      "loss": 1.7656,
+      "step": 505
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 1.4558237791061401,
+      "learning_rate": 0.00019116179615110475,
+      "loss": 1.7743,
+      "step": 510
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 2.2227766513824463,
+      "learning_rate": 0.0001900926585887384,
+      "loss": 1.7132,
+      "step": 515
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 1.1007542610168457,
+      "learning_rate": 0.00018902352102637205,
+      "loss": 1.71,
+      "step": 520
+    },
+    {
+      "epoch": 0.37,
+      "eval_loss": 1.4139854907989502,
+      "eval_runtime": 237.305,
+      "eval_samples_per_second": 47.319,
+      "eval_steps_per_second": 5.916,
+      "step": 520
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 1.3151198625564575,
+      "learning_rate": 0.00018795438346400566,
+      "loss": 1.6676,
+      "step": 525
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 1.1999551057815552,
+      "learning_rate": 0.00018688524590163933,
+      "loss": 1.7555,
+      "step": 530
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 1.0026124715805054,
+      "learning_rate": 0.00018581610833927296,
+      "loss": 1.669,
+      "step": 535
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 1.346950888633728,
+      "learning_rate": 0.00018474697077690662,
+      "loss": 1.6971,
+      "step": 540
+    },
+    {
+      "epoch": 0.38,
+      "eval_loss": 1.4102412462234497,
+      "eval_runtime": 237.2985,
+      "eval_samples_per_second": 47.32,
+      "eval_steps_per_second": 5.917,
+      "step": 540
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 1.4132708311080933,
+      "learning_rate": 0.00018367783321454026,
+      "loss": 1.7482,
+      "step": 545
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 1.2932661771774292,
+      "learning_rate": 0.0001826086956521739,
+      "loss": 1.7089,
+      "step": 550
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 1.2161717414855957,
+      "learning_rate": 0.00018153955808980753,
+      "loss": 1.7561,
+      "step": 555
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 1.4118214845657349,
+      "learning_rate": 0.0001804704205274412,
+      "loss": 1.6834,
+      "step": 560
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 1.4086936712265015,
+      "eval_runtime": 237.3977,
+      "eval_samples_per_second": 47.3,
+      "eval_steps_per_second": 5.914,
+      "step": 560
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 1.2963422536849976,
+      "learning_rate": 0.00017940128296507483,
+      "loss": 1.7026,
+      "step": 565
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 1.1456208229064941,
+      "learning_rate": 0.00017833214540270847,
+      "loss": 1.6563,
+      "step": 570
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 1.3818365335464478,
+      "learning_rate": 0.0001772630078403421,
+      "loss": 1.6946,
+      "step": 575
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 1.653277039527893,
+      "learning_rate": 0.00017619387027797574,
+      "loss": 1.7272,
+      "step": 580
+    },
+    {
+      "epoch": 0.41,
+      "eval_loss": 1.4018863439559937,
+      "eval_runtime": 236.8682,
+      "eval_samples_per_second": 47.406,
+      "eval_steps_per_second": 5.927,
+      "step": 580
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 1.2226487398147583,
+      "learning_rate": 0.0001751247327156094,
+      "loss": 1.6896,
+      "step": 585
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 1.6051753759384155,
+      "learning_rate": 0.000174055595153243,
+      "loss": 1.7579,
+      "step": 590
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 2.1630523204803467,
+      "learning_rate": 0.00017298645759087668,
+      "loss": 1.6884,
+      "step": 595
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 2.191908359527588,
+      "learning_rate": 0.0001719173200285103,
+      "loss": 1.7338,
+      "step": 600
+    },
+    {
+      "epoch": 0.43,
+      "eval_loss": 1.3721007108688354,
+      "eval_runtime": 237.8905,
+      "eval_samples_per_second": 47.202,
+      "eval_steps_per_second": 5.902,
+      "step": 600
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 2.333613634109497,
+      "learning_rate": 0.00017084818246614398,
+      "loss": 1.7066,
+      "step": 605
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 1.668573260307312,
+      "learning_rate": 0.00016977904490377758,
+      "loss": 1.6712,
+      "step": 610
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 1.2055186033248901,
+      "learning_rate": 0.00016870990734141125,
+      "loss": 1.6833,
+      "step": 615
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 1.7567453384399414,
+      "learning_rate": 0.00016764076977904488,
+      "loss": 1.6613,
+      "step": 620
+    },
+    {
+      "epoch": 0.44,
+      "eval_loss": 1.3576875925064087,
+      "eval_runtime": 236.7547,
+      "eval_samples_per_second": 47.429,
+      "eval_steps_per_second": 5.93,
+      "step": 620
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 1.474454641342163,
+      "learning_rate": 0.00016657163221667855,
+      "loss": 1.7163,
+      "step": 625
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 1.6922773122787476,
+      "learning_rate": 0.00016550249465431216,
+      "loss": 1.6986,
+      "step": 630
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 1.9669511318206787,
+      "learning_rate": 0.00016443335709194582,
+      "loss": 1.6658,
+      "step": 635
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 1.4723912477493286,
+      "learning_rate": 0.00016336421952957945,
+      "loss": 1.7138,
+      "step": 640
+    },
+    {
+      "epoch": 0.46,
+      "eval_loss": 1.3508743047714233,
+      "eval_runtime": 237.1307,
+      "eval_samples_per_second": 47.354,
+      "eval_steps_per_second": 5.921,
+      "step": 640
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 1.6518818140029907,
+      "learning_rate": 0.00016229508196721312,
+      "loss": 1.6866,
+      "step": 645
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 1.0751705169677734,
+      "learning_rate": 0.00016122594440484675,
+      "loss": 1.7151,
+      "step": 650
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 1.2694231271743774,
+      "learning_rate": 0.0001601568068424804,
+      "loss": 1.699,
+      "step": 655
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 1.4163838624954224,
+      "learning_rate": 0.00015908766928011403,
+      "loss": 1.7158,
+      "step": 660
+    },
+    {
+      "epoch": 0.47,
+      "eval_loss": 1.3508288860321045,
+      "eval_runtime": 237.4748,
+      "eval_samples_per_second": 47.285,
+      "eval_steps_per_second": 5.912,
+      "step": 660
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 1.7522495985031128,
+      "learning_rate": 0.00015801853171774766,
+      "loss": 1.7476,
+      "step": 665
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 1.464408040046692,
+      "learning_rate": 0.00015694939415538133,
+      "loss": 1.6901,
+      "step": 670
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 2.6175899505615234,
+      "learning_rate": 0.00015588025659301493,
+      "loss": 1.6883,
+      "step": 675
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 1.4612988233566284,
+      "learning_rate": 0.0001548111190306486,
+      "loss": 1.6686,
+      "step": 680
+    },
+    {
+      "epoch": 0.48,
+      "eval_loss": 1.337722659111023,
+      "eval_runtime": 236.9377,
+      "eval_samples_per_second": 47.392,
+      "eval_steps_per_second": 5.926,
+      "step": 680
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 1.4566949605941772,
+      "learning_rate": 0.00015374198146828223,
+      "loss": 1.7034,
+      "step": 685
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 1.9562838077545166,
+      "learning_rate": 0.0001526728439059159,
+      "loss": 1.6906,
+      "step": 690
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 1.1360397338867188,
+      "learning_rate": 0.0001516037063435495,
+      "loss": 1.6886,
+      "step": 695
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 1.4155800342559814,
+      "learning_rate": 0.00015053456878118317,
+      "loss": 1.7775,
+      "step": 700
+    },
+    {
+      "epoch": 0.5,
+      "eval_loss": 1.3304619789123535,
+      "eval_runtime": 237.559,
+      "eval_samples_per_second": 47.268,
+      "eval_steps_per_second": 5.91,
+      "step": 700
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 1.4858545064926147,
+      "learning_rate": 0.0001494654312188168,
+      "loss": 1.6946,
+      "step": 705
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 2.8067774772644043,
+      "learning_rate": 0.00014839629365645044,
+      "loss": 1.6896,
+      "step": 710
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 1.3121719360351562,
+      "learning_rate": 0.00014732715609408408,
+      "loss": 1.6794,
+      "step": 715
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 1.7372912168502808,
+      "learning_rate": 0.00014625801853171774,
+      "loss": 1.6837,
+      "step": 720
+    },
+    {
+      "epoch": 0.51,
+      "eval_loss": 1.3276885747909546,
+      "eval_runtime": 237.5877,
+      "eval_samples_per_second": 47.263,
+      "eval_steps_per_second": 5.909,
+      "step": 720
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 2.936676025390625,
+      "learning_rate": 0.00014518888096935138,
+      "loss": 1.6712,
+      "step": 725
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 1.653266191482544,
+      "learning_rate": 0.000144119743406985,
+      "loss": 1.6735,
+      "step": 730
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 1.3349303007125854,
+      "learning_rate": 0.00014305060584461865,
+      "loss": 1.6596,
+      "step": 735
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 1.311098337173462,
+      "learning_rate": 0.0001419814682822523,
+      "loss": 1.6571,
+      "step": 740
+    },
+    {
+      "epoch": 0.53,
+      "eval_loss": 1.3113833665847778,
+      "eval_runtime": 237.1697,
+      "eval_samples_per_second": 47.346,
+      "eval_steps_per_second": 5.92,
+      "step": 740
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 1.561948537826538,
+      "learning_rate": 0.00014091233071988595,
+      "loss": 1.7177,
+      "step": 745
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 1.1469169855117798,
+      "learning_rate": 0.00013984319315751958,
+      "loss": 1.681,
+      "step": 750
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 1.177591323852539,
+      "learning_rate": 0.00013877405559515322,
+      "loss": 1.6658,
+      "step": 755
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 1.4718272686004639,
+      "learning_rate": 0.00013770491803278688,
+      "loss": 1.6848,
+      "step": 760
+    },
+    {
+      "epoch": 0.54,
+      "eval_loss": 1.3238967657089233,
+      "eval_runtime": 237.3312,
+      "eval_samples_per_second": 47.314,
+      "eval_steps_per_second": 5.916,
+      "step": 760
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 1.4231830835342407,
+      "learning_rate": 0.00013663578047042052,
+      "loss": 1.6482,
+      "step": 765
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 1.6225627660751343,
+      "learning_rate": 0.00013556664290805416,
+      "loss": 1.6506,
+      "step": 770
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 1.6353851556777954,
+      "learning_rate": 0.00013449750534568782,
+      "loss": 1.6635,
+      "step": 775
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 3.3187735080718994,
+      "learning_rate": 0.00013342836778332145,
+      "loss": 1.7059,
+      "step": 780
+    },
+    {
+      "epoch": 0.56,
+      "eval_loss": 1.3217962980270386,
+      "eval_runtime": 237.0702,
+      "eval_samples_per_second": 47.366,
+      "eval_steps_per_second": 5.922,
+      "step": 780
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 2.4410297870635986,
+      "learning_rate": 0.0001323592302209551,
+      "loss": 1.7079,
+      "step": 785
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 2.3580009937286377,
+      "learning_rate": 0.00013129009265858873,
+      "loss": 1.6649,
+      "step": 790
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 1.3245329856872559,
+      "learning_rate": 0.00013022095509622236,
+      "loss": 1.5993,
+      "step": 795
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 2.863292932510376,
+      "learning_rate": 0.000129151817533856,
+      "loss": 1.6678,
+      "step": 800
+    },
+    {
+      "epoch": 0.57,
+      "eval_loss": 1.2950116395950317,
+      "eval_runtime": 237.4608,
+      "eval_samples_per_second": 47.288,
+      "eval_steps_per_second": 5.913,
+      "step": 800
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 1.4481995105743408,
+      "learning_rate": 0.00012808267997148966,
+      "loss": 1.6943,
+      "step": 805
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 1.6385397911071777,
+      "learning_rate": 0.0001270135424091233,
+      "loss": 1.7454,
+      "step": 810
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 2.118191957473755,
+      "learning_rate": 0.00012594440484675693,
+      "loss": 1.6932,
+      "step": 815
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 1.3452422618865967,
+      "learning_rate": 0.00012487526728439057,
+      "loss": 1.6856,
+      "step": 820
+    },
+    {
+      "epoch": 0.58,
+      "eval_loss": 1.2989916801452637,
+      "eval_runtime": 237.7227,
+      "eval_samples_per_second": 47.236,
+      "eval_steps_per_second": 5.906,
+      "step": 820
+    },
+    {
+      "epoch": 0.59,
+      "grad_norm": 1.621726632118225,
+      "learning_rate": 0.00012380612972202423,
+      "loss": 1.6513,
+      "step": 825
+    },
+    {
+      "epoch": 0.59,
+      "grad_norm": 3.3222334384918213,
+      "learning_rate": 0.00012273699215965787,
+      "loss": 1.6795,
+      "step": 830
+    },
+    {
+      "epoch": 0.59,
+      "grad_norm": 2.4381096363067627,
+      "learning_rate": 0.0001216678545972915,
+      "loss": 1.7075,
+      "step": 835
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 1.3918037414550781,
+      "learning_rate": 0.00012059871703492515,
+      "loss": 1.7102,
+      "step": 840
+    },
+    {
+      "epoch": 0.6,
+      "eval_loss": 1.3068394660949707,
+      "eval_runtime": 237.5664,
+      "eval_samples_per_second": 47.267,
+      "eval_steps_per_second": 5.91,
+      "step": 840
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 1.771876335144043,
+      "learning_rate": 0.00011952957947255879,
+      "loss": 1.6887,
+      "step": 845
+    },
+    {
+      "epoch": 0.61,
+      "grad_norm": 2.0908024311065674,
+      "learning_rate": 0.00011846044191019244,
+      "loss": 1.6794,
+      "step": 850
+    },
+    {
+      "epoch": 0.61,
+      "grad_norm": 2.370900869369507,
+      "learning_rate": 0.00011739130434782608,
+      "loss": 1.6619,
+      "step": 855
+    },
+    {
+      "epoch": 0.61,
+      "grad_norm": 1.6325877904891968,
+      "learning_rate": 0.00011632216678545973,
+      "loss": 1.628,
+      "step": 860
+    },
+    {
+      "epoch": 0.61,
+      "eval_loss": 1.2903714179992676,
+      "eval_runtime": 237.282,
+      "eval_samples_per_second": 47.323,
+      "eval_steps_per_second": 5.917,
+      "step": 860
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 2.1905930042266846,
+      "learning_rate": 0.00011525302922309336,
+      "loss": 1.7065,
+      "step": 865
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 2.503816843032837,
+      "learning_rate": 0.00011418389166072701,
+      "loss": 1.691,
+      "step": 870
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 1.8475357294082642,
+      "learning_rate": 0.00011311475409836063,
+      "loss": 1.6789,
+      "step": 875
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 2.018526077270508,
+      "learning_rate": 0.00011204561653599428,
+      "loss": 1.6576,
+      "step": 880
+    },
+    {
+      "epoch": 0.63,
+      "eval_loss": 1.2902295589447021,
+      "eval_runtime": 236.8441,
+      "eval_samples_per_second": 47.411,
+      "eval_steps_per_second": 5.928,
+      "step": 880
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 2.840660572052002,
+      "learning_rate": 0.00011097647897362792,
+      "loss": 1.7153,
+      "step": 885
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 1.706276535987854,
+      "learning_rate": 0.00010990734141126157,
+      "loss": 1.6404,
+      "step": 890
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 1.981980800628662,
+      "learning_rate": 0.0001088382038488952,
+      "loss": 1.6386,
+      "step": 895
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 1.5755281448364258,
+      "learning_rate": 0.00010776906628652886,
+      "loss": 1.6348,
+      "step": 900
+    },
+    {
+      "epoch": 0.64,
+      "eval_loss": 1.2719453573226929,
+      "eval_runtime": 236.9767,
+      "eval_samples_per_second": 47.384,
+      "eval_steps_per_second": 5.925,
+      "step": 900
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 1.299353003501892,
+      "learning_rate": 0.00010669992872416249,
+      "loss": 1.6319,
+      "step": 905
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 1.4854965209960938,
+      "learning_rate": 0.00010563079116179614,
+      "loss": 1.6864,
+      "step": 910
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 1.292011022567749,
+      "learning_rate": 0.00010456165359942979,
+      "loss": 1.625,
+      "step": 915
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 2.284942150115967,
+      "learning_rate": 0.00010349251603706343,
+      "loss": 1.6794,
+      "step": 920
+    },
+    {
+      "epoch": 0.66,
+      "eval_loss": 1.2848047018051147,
+      "eval_runtime": 237.6997,
+      "eval_samples_per_second": 47.24,
+      "eval_steps_per_second": 5.907,
+      "step": 920
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010263720598717034,
+      "loss": 1.6885,
+      "step": 925
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 2.3528892993927,
+      "learning_rate": 0.00010156806842480399,
+      "loss": 1.6928,
+      "step": 930
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 2.1551194190979004,
+      "learning_rate": 0.00010049893086243763,
+      "loss": 1.6344,
+      "step": 935
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 1.4505212306976318,
+      "learning_rate": 9.942979330007128e-05,
+      "loss": 1.6535,
+      "step": 940
+    },
+    {
+      "epoch": 0.67,
+      "eval_loss": 1.269766092300415,
+      "eval_runtime": 237.3259,
+      "eval_samples_per_second": 47.315,
+      "eval_steps_per_second": 5.916,
+      "step": 940
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 1.3684877157211304,
+      "learning_rate": 9.83606557377049e-05,
+      "loss": 1.6581,
+      "step": 945
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 1.1488529443740845,
+      "learning_rate": 9.729151817533855e-05,
+      "loss": 1.6277,
+      "step": 950
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 1.4958571195602417,
+      "learning_rate": 9.622238061297218e-05,
+      "loss": 1.6855,
+      "step": 955
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 1.9430452585220337,
+      "learning_rate": 9.515324305060583e-05,
+      "loss": 1.648,
+      "step": 960
+    },
+    {
+      "epoch": 0.68,
+      "eval_loss": 1.2762110233306885,
+      "eval_runtime": 237.0765,
+      "eval_samples_per_second": 47.364,
+      "eval_steps_per_second": 5.922,
+      "step": 960
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 2.6092207431793213,
+      "learning_rate": 9.408410548823947e-05,
+      "loss": 1.6732,
+      "step": 965
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 1.3579429388046265,
+      "learning_rate": 9.301496792587312e-05,
+      "loss": 1.6843,
+      "step": 970
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 1.250372290611267,
+      "learning_rate": 9.194583036350676e-05,
+      "loss": 1.6653,
+      "step": 975
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 1.454920768737793,
+      "learning_rate": 9.08766928011404e-05,
+      "loss": 1.6879,
+      "step": 980
+    },
+    {
+      "epoch": 0.7,
+      "eval_loss": 1.2745379209518433,
+      "eval_runtime": 237.6347,
+      "eval_samples_per_second": 47.253,
+      "eval_steps_per_second": 5.908,
+      "step": 980
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 3.0796403884887695,
+      "learning_rate": 8.980755523877404e-05,
+      "loss": 1.6678,
+      "step": 985
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 1.3908714056015015,
+      "learning_rate": 8.873841767640769e-05,
+      "loss": 1.6442,
+      "step": 990
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 1.1390868425369263,
+      "learning_rate": 8.766928011404134e-05,
+      "loss": 1.6373,
+      "step": 995
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 1.8464094400405884,
+      "learning_rate": 8.660014255167498e-05,
+      "loss": 1.6522,
+      "step": 1000
+    },
+    {
+      "epoch": 0.71,
+      "eval_loss": 1.2633923292160034,
+      "eval_runtime": 237.4988,
+      "eval_samples_per_second": 47.28,
+      "eval_steps_per_second": 5.912,
+      "step": 1000
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 1.5598490238189697,
+      "learning_rate": 8.553100498930863e-05,
+      "loss": 1.6738,
+      "step": 1005
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 1.5598268508911133,
+      "learning_rate": 8.446186742694226e-05,
+      "loss": 1.6427,
+      "step": 1010
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 1.6364967823028564,
+      "learning_rate": 8.339272986457591e-05,
+      "loss": 1.6528,
+      "step": 1015
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 1.7311488389968872,
+      "learning_rate": 8.232359230220955e-05,
+      "loss": 1.6683,
+      "step": 1020
+    },
+    {
+      "epoch": 0.73,
+      "eval_loss": 1.2594304084777832,
+      "eval_runtime": 237.6172,
+      "eval_samples_per_second": 47.257,
+      "eval_steps_per_second": 5.909,
+      "step": 1020
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 1.2656534910202026,
+      "learning_rate": 8.125445473984318e-05,
+      "loss": 1.6647,
+      "step": 1025
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 1.304434895515442,
+      "learning_rate": 8.018531717747682e-05,
+      "loss": 1.611,
+      "step": 1030
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 1.6546164751052856,
+      "learning_rate": 7.911617961511047e-05,
+      "loss": 1.6626,
+      "step": 1035
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 1.8254518508911133,
+      "learning_rate": 7.80470420527441e-05,
+      "loss": 1.6828,
+      "step": 1040
+    },
+    {
+      "epoch": 0.74,
+      "eval_loss": 1.2584978342056274,
+      "eval_runtime": 237.7476,
+      "eval_samples_per_second": 47.231,
+      "eval_steps_per_second": 5.905,
+      "step": 1040
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 1.5411964654922485,
+      "learning_rate": 7.697790449037776e-05,
+      "loss": 1.6771,
+      "step": 1045
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 1.3817158937454224,
+      "learning_rate": 7.590876692801139e-05,
+      "loss": 1.6342,
+      "step": 1050
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 1.4406118392944336,
+      "learning_rate": 7.483962936564504e-05,
+      "loss": 1.6495,
+      "step": 1055
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 1.9365355968475342,
+      "learning_rate": 7.377049180327868e-05,
+      "loss": 1.6955,
+      "step": 1060
+    },
+    {
+      "epoch": 0.76,
+      "eval_loss": 1.2607555389404297,
+      "eval_runtime": 237.5888,
+      "eval_samples_per_second": 47.262,
+      "eval_steps_per_second": 5.909,
+      "step": 1060
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 1.6660151481628418,
+      "learning_rate": 7.270135424091233e-05,
+      "loss": 1.6331,
+      "step": 1065
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 2.8684914112091064,
+      "learning_rate": 7.163221667854596e-05,
+      "loss": 1.6254,
+      "step": 1070
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 2.0345418453216553,
+      "learning_rate": 7.056307911617961e-05,
+      "loss": 1.6929,
+      "step": 1075
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 1.8115726709365845,
+      "learning_rate": 6.949394155381325e-05,
+      "loss": 1.6628,
+      "step": 1080
+    },
+    {
+      "epoch": 0.77,
+      "eval_loss": 1.2651180028915405,
+      "eval_runtime": 237.6104,
+      "eval_samples_per_second": 47.258,
+      "eval_steps_per_second": 5.909,
+      "step": 1080
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 2.9587271213531494,
+      "learning_rate": 6.84248039914469e-05,
+      "loss": 1.7067,
+      "step": 1085
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 2.3222599029541016,
+      "learning_rate": 6.735566642908053e-05,
+      "loss": 1.7267,
+      "step": 1090
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 1.5707448720932007,
+      "learning_rate": 6.628652886671417e-05,
+      "loss": 1.6445,
+      "step": 1095
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 1.2282905578613281,
+      "learning_rate": 6.521739130434782e-05,
+      "loss": 1.6247,
+      "step": 1100
+    },
+    {
+      "epoch": 0.78,
+      "eval_loss": 1.2647217512130737,
+      "eval_runtime": 237.735,
+      "eval_samples_per_second": 47.233,
+      "eval_steps_per_second": 5.906,
+      "step": 1100
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 2.9114327430725098,
+      "learning_rate": 6.414825374198146e-05,
+      "loss": 1.6226,
+      "step": 1105
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 1.784305214881897,
+      "learning_rate": 6.30791161796151e-05,
+      "loss": 1.6823,
+      "step": 1110
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 1.4165910482406616,
+      "learning_rate": 6.200997861724874e-05,
+      "loss": 1.6769,
+      "step": 1115
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 1.1864384412765503,
+      "learning_rate": 6.094084105488239e-05,
+      "loss": 1.6466,
+      "step": 1120
+    },
+    {
+      "epoch": 0.8,
+      "eval_loss": 1.2580628395080566,
+      "eval_runtime": 237.4684,
+      "eval_samples_per_second": 47.286,
+      "eval_steps_per_second": 5.912,
+      "step": 1120
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 1.4124343395233154,
+      "learning_rate": 5.9871703492516035e-05,
+      "loss": 1.637,
+      "step": 1125
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 1.584891438484192,
+      "learning_rate": 5.880256593014968e-05,
+      "loss": 1.6428,
+      "step": 1130
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 1.7887587547302246,
+      "learning_rate": 5.7733428367783314e-05,
+      "loss": 1.6959,
+      "step": 1135
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 1.605533242225647,
+      "learning_rate": 5.6664290805416956e-05,
+      "loss": 1.62,
+      "step": 1140
+    },
+    {
+      "epoch": 0.81,
+      "eval_loss": 1.2606816291809082,
+      "eval_runtime": 237.486,
+      "eval_samples_per_second": 47.283,
+      "eval_steps_per_second": 5.912,
+      "step": 1140
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 2.726799964904785,
+      "learning_rate": 5.55951532430506e-05,
+      "loss": 1.7217,
+      "step": 1145
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 1.1726280450820923,
+      "learning_rate": 5.452601568068424e-05,
+      "loss": 1.6716,
+      "step": 1150
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 1.18500816822052,
+      "learning_rate": 5.3456878118317885e-05,
+      "loss": 1.679,
+      "step": 1155
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 1.3596868515014648,
+      "learning_rate": 5.238774055595153e-05,
+      "loss": 1.6391,
+      "step": 1160
+    },
+    {
+      "epoch": 0.83,
+      "eval_loss": 1.2475395202636719,
+      "eval_runtime": 237.1977,
+      "eval_samples_per_second": 47.34,
+      "eval_steps_per_second": 5.919,
+      "step": 1160
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 1.5853257179260254,
+      "learning_rate": 5.131860299358517e-05,
+      "loss": 1.6863,
+      "step": 1165
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 1.5124144554138184,
+      "learning_rate": 5.0249465431218813e-05,
+      "loss": 1.6162,
+      "step": 1170
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 1.797654390335083,
+      "learning_rate": 4.918032786885245e-05,
+      "loss": 1.6505,
+      "step": 1175
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 1.5953794717788696,
+      "learning_rate": 4.811119030648609e-05,
+      "loss": 1.6253,
+      "step": 1180
+    },
+    {
+      "epoch": 0.84,
+      "eval_loss": 1.2472820281982422,
+      "eval_runtime": 237.2862,
+      "eval_samples_per_second": 47.323,
+      "eval_steps_per_second": 5.917,
+      "step": 1180
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 2.156675100326538,
+      "learning_rate": 4.7042052744119735e-05,
+      "loss": 1.5945,
+      "step": 1185
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 2.3940718173980713,
+      "learning_rate": 4.597291518175338e-05,
+      "loss": 1.6715,
+      "step": 1190
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 1.8324792385101318,
+      "learning_rate": 4.490377761938702e-05,
+      "loss": 1.6581,
+      "step": 1195
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 1.1235905885696411,
+      "learning_rate": 4.383464005702067e-05,
+      "loss": 1.6586,
+      "step": 1200
+    },
+    {
+      "epoch": 0.86,
+      "eval_loss": 1.244868516921997,
+      "eval_runtime": 237.0011,
+      "eval_samples_per_second": 47.38,
+      "eval_steps_per_second": 5.924,
+      "step": 1200
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 1.4430639743804932,
+      "learning_rate": 4.276550249465431e-05,
+      "loss": 1.6832,
+      "step": 1205
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 1.4629080295562744,
+      "learning_rate": 4.1696364932287956e-05,
+      "loss": 1.6347,
+      "step": 1210
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 1.3907893896102905,
+      "learning_rate": 4.062722736992159e-05,
+      "loss": 1.6057,
+      "step": 1215
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 1.6857820749282837,
+      "learning_rate": 3.9558089807555235e-05,
+      "loss": 1.6414,
+      "step": 1220
+    },
+    {
+      "epoch": 0.87,
+      "eval_loss": 1.2542558908462524,
+      "eval_runtime": 237.057,
+      "eval_samples_per_second": 47.368,
+      "eval_steps_per_second": 5.923,
+      "step": 1220
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 1.3912655115127563,
+      "learning_rate": 3.848895224518888e-05,
+      "loss": 1.6234,
+      "step": 1225
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 1.5786914825439453,
+      "learning_rate": 3.741981468282252e-05,
+      "loss": 1.6837,
+      "step": 1230
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 1.259429931640625,
+      "learning_rate": 3.6350677120456164e-05,
+      "loss": 1.6332,
+      "step": 1235
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 1.5809203386306763,
+      "learning_rate": 3.5281539558089806e-05,
+      "loss": 1.6231,
+      "step": 1240
+    },
+    {
+      "epoch": 0.88,
+      "eval_loss": 1.252685308456421,
+      "eval_runtime": 237.5288,
+      "eval_samples_per_second": 47.274,
+      "eval_steps_per_second": 5.911,
+      "step": 1240
+    },
+    {
+      "epoch": 0.89,
+      "grad_norm": 2.1708436012268066,
+      "learning_rate": 3.421240199572345e-05,
+      "loss": 1.6321,
+      "step": 1245
+    },
+    {
+      "epoch": 0.89,
+      "grad_norm": 1.3058292865753174,
+      "learning_rate": 3.3143264433357085e-05,
+      "loss": 1.6343,
+      "step": 1250
+    },
+    {
+      "epoch": 0.89,
+      "grad_norm": 1.5193456411361694,
+      "learning_rate": 3.207412687099073e-05,
+      "loss": 1.598,
+      "step": 1255
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 1.2139922380447388,
+      "learning_rate": 3.100498930862437e-05,
+      "loss": 1.6441,
+      "step": 1260
+    },
+    {
+      "epoch": 0.9,
+      "eval_loss": 1.2429578304290771,
+      "eval_runtime": 237.406,
+      "eval_samples_per_second": 47.299,
+      "eval_steps_per_second": 5.914,
+      "step": 1260
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 2.8898677825927734,
+      "learning_rate": 2.9935851746258017e-05,
+      "loss": 1.6876,
+      "step": 1265
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 1.3859606981277466,
+      "learning_rate": 2.8866714183891657e-05,
+      "loss": 1.6769,
+      "step": 1270
+    },
+    {
+      "epoch": 0.91,
+      "grad_norm": 1.2599289417266846,
+      "learning_rate": 2.77975766215253e-05,
+      "loss": 1.6156,
+      "step": 1275
+    },
+    {
+      "epoch": 0.91,
+      "grad_norm": 2.7655632495880127,
+      "learning_rate": 2.6728439059158942e-05,
+      "loss": 1.6584,
+      "step": 1280
+    },
+    {
+      "epoch": 0.91,
+      "eval_loss": 1.2465507984161377,
+      "eval_runtime": 237.2302,
+      "eval_samples_per_second": 47.334,
+      "eval_steps_per_second": 5.918,
+      "step": 1280
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 1.3518465757369995,
+      "learning_rate": 2.5659301496792585e-05,
+      "loss": 1.6177,
+      "step": 1285
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 1.175217866897583,
+      "learning_rate": 2.4590163934426225e-05,
+      "loss": 1.5928,
+      "step": 1290
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 2.461881637573242,
+      "learning_rate": 2.3521026372059868e-05,
+      "loss": 1.6602,
+      "step": 1295
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 1.5131944417953491,
+      "learning_rate": 2.245188880969351e-05,
+      "loss": 1.6521,
+      "step": 1300
+    },
+    {
+      "epoch": 0.93,
+      "eval_loss": 1.2458560466766357,
+      "eval_runtime": 237.3534,
+      "eval_samples_per_second": 47.309,
+      "eval_steps_per_second": 5.915,
+      "step": 1300
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 1.4771963357925415,
+      "learning_rate": 2.1382751247327157e-05,
+      "loss": 1.6248,
+      "step": 1305
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 1.4222851991653442,
+      "learning_rate": 2.0313613684960796e-05,
+      "loss": 1.6542,
+      "step": 1310
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 1.657717227935791,
+      "learning_rate": 1.924447612259444e-05,
+      "loss": 1.6548,
+      "step": 1315
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 1.4609144926071167,
+      "learning_rate": 1.8175338560228082e-05,
+      "loss": 1.6206,
+      "step": 1320
+    },
+    {
+      "epoch": 0.94,
+      "eval_loss": 1.2414742708206177,
+      "eval_runtime": 237.8975,
+      "eval_samples_per_second": 47.201,
+      "eval_steps_per_second": 5.902,
+      "step": 1320
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 1.291811227798462,
+      "learning_rate": 1.7106200997861725e-05,
+      "loss": 1.646,
+      "step": 1325
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 1.8935266733169556,
+      "learning_rate": 1.6037063435495364e-05,
+      "loss": 1.6224,
+      "step": 1330
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 1.0670243501663208,
+      "learning_rate": 1.4967925873129009e-05,
+      "loss": 1.634,
+      "step": 1335
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 1.5593212842941284,
+      "learning_rate": 1.389878831076265e-05,
+      "loss": 1.6536,
+      "step": 1340
+    },
+    {
+      "epoch": 0.95,
+      "eval_loss": 1.2408429384231567,
+      "eval_runtime": 237.8213,
+      "eval_samples_per_second": 47.216,
+      "eval_steps_per_second": 5.904,
+      "step": 1340
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 1.4808356761932373,
+      "learning_rate": 1.2829650748396293e-05,
+      "loss": 1.6654,
+      "step": 1345
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 1.5403755903244019,
+      "learning_rate": 1.1760513186029934e-05,
+      "loss": 1.6473,
+      "step": 1350
+    },
+    {
+      "epoch": 0.97,
+      "grad_norm": 1.2651886940002441,
+      "learning_rate": 1.0691375623663578e-05,
+      "loss": 1.6144,
+      "step": 1355
+    },
+    {
+      "epoch": 0.97,
+      "grad_norm": 1.7176523208618164,
+      "learning_rate": 9.62223806129722e-06,
+      "loss": 1.7158,
+      "step": 1360
+    },
+    {
+      "epoch": 0.97,
+      "eval_loss": 1.243433952331543,
+      "eval_runtime": 237.8934,
+      "eval_samples_per_second": 47.202,
+      "eval_steps_per_second": 5.902,
+      "step": 1360
+    },
+    {
+      "epoch": 0.97,
+      "grad_norm": 1.2127710580825806,
+      "learning_rate": 8.553100498930862e-06,
+      "loss": 1.6906,
+      "step": 1365
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 1.91136634349823,
+      "learning_rate": 7.483962936564504e-06,
+      "loss": 1.641,
+      "step": 1370
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 1.7672760486602783,
+      "learning_rate": 6.414825374198146e-06,
+      "loss": 1.6516,
+      "step": 1375
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 1.6907399892807007,
+      "learning_rate": 5.345687811831789e-06,
+      "loss": 1.6173,
+      "step": 1380
+    },
+    {
+      "epoch": 0.98,
+      "eval_loss": 1.241072177886963,
+      "eval_runtime": 237.4549,
+      "eval_samples_per_second": 47.289,
+      "eval_steps_per_second": 5.913,
+      "step": 1380
+    },
+    {
+      "epoch": 0.99,
+      "grad_norm": 1.4764108657836914,
+      "learning_rate": 4.276550249465431e-06,
+      "loss": 1.6516,
+      "step": 1385
+    },
+    {
+      "epoch": 0.99,
+      "grad_norm": 1.2700923681259155,
+      "learning_rate": 3.207412687099073e-06,
+      "loss": 1.6161,
+      "step": 1390
+    },
+    {
+      "epoch": 0.99,
+      "grad_norm": 1.4711906909942627,
+      "learning_rate": 2.1382751247327156e-06,
+      "loss": 1.6371,
+      "step": 1395
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 2.10715651512146,
+      "learning_rate": 1.0691375623663578e-06,
+      "loss": 1.6597,
+      "step": 1400
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 1.2409383058547974,
+      "eval_runtime": 237.7962,
+      "eval_samples_per_second": 47.221,
+      "eval_steps_per_second": 5.904,
+      "step": 1400
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 1403,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 20,
+  "total_flos": 2.825489252721623e+17,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6517fc5bb62180deac6e44ad8cf081937ac6feeb764e3b08d8424bf62f35e3c2
+size 5112