Upload 8 files

Browse files

Files changed (8) hide show

README.md +202 -3
adapter_config.json +29 -0
adapter_model.bin +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +2541 -0
training_args.bin +3 -0

README.md CHANGED Viewed

@@ -1,3 +1,202 @@
----
-license: mit
----

+---
+library_name: peft
+base_model: mistralai/Mistral-7B-v0.1
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.10.0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "mistralai/Mistral-7B-v0.1",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_dora": false,
+  "use_rslora": false
+}

adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7da25c0c600556d42425569667a924446ef9bacf78746a3eb0e58b6fe80c605f
+size 13677706

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:16fa8a7e093c201ca3045fc559522dea9cbed94fa9761ae412304d5a4d22381b
+size 27370618

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ce6264e245a67e9314ee9f4900c35b4a54e95ae2527440419f5e4a05a5b77fa2
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6f84225cab3e231b21b05de0ee7aa5e41c9c470dedfab2654e351d429f6f6d14
+size 1064

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2541 @@

+{
+  "best_metric": 1.0893943309783936,
+  "best_model_checkpoint": "/scratch/czm5kz/NEW_finetuned_Mistral-7B32_1_0.0003_sequential_RANDOM_25_pct/checkpoint-1300",
+  "epoch": 0.9975062344139651,
+  "eval_steps": 20,
+  "global_step": 1400,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "grad_norm": 2.5305328369140625,
+      "learning_rate": 0.0002989308624376336,
+      "loss": 2.5404,
+      "step": 5
+    },
+    {
+      "epoch": 0.01,
+      "grad_norm": 8.884201049804688,
+      "learning_rate": 0.00029786172487526725,
+      "loss": 2.2709,
+      "step": 10
+    },
+    {
+      "epoch": 0.01,
+      "grad_norm": 1.424066424369812,
+      "learning_rate": 0.0002967925873129009,
+      "loss": 2.0244,
+      "step": 15
+    },
+    {
+      "epoch": 0.01,
+      "grad_norm": 1.8591228723526,
+      "learning_rate": 0.00029572344975053457,
+      "loss": 1.9223,
+      "step": 20
+    },
+    {
+      "epoch": 0.01,
+      "eval_loss": 1.7126901149749756,
+      "eval_runtime": 238.3086,
+      "eval_samples_per_second": 47.12,
+      "eval_steps_per_second": 5.892,
+      "step": 20
+    },
+    {
+      "epoch": 0.02,
+      "grad_norm": 1.454901099205017,
+      "learning_rate": 0.00029465431218816815,
+      "loss": 1.8624,
+      "step": 25
+    },
+    {
+      "epoch": 0.02,
+      "grad_norm": 1.3106104135513306,
+      "learning_rate": 0.00029358517462580184,
+      "loss": 1.8175,
+      "step": 30
+    },
+    {
+      "epoch": 0.02,
+      "grad_norm": 1.4106072187423706,
+      "learning_rate": 0.0002925160370634355,
+      "loss": 1.7454,
+      "step": 35
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": NaN,
+      "learning_rate": 0.00029187455452601567,
+      "loss": 1.852,
+      "step": 40
+    },
+    {
+      "epoch": 0.03,
+      "eval_loss": 1.6365197896957397,
+      "eval_runtime": 238.4936,
+      "eval_samples_per_second": 47.083,
+      "eval_steps_per_second": 5.887,
+      "step": 40
+    },
+    {
+      "epoch": 0.03,
+      "grad_norm": 3.4744393825531006,
+      "learning_rate": 0.00029101924447612256,
+      "loss": 1.8012,
+      "step": 45
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 3.8055899143218994,
+      "learning_rate": 0.0002899501069137562,
+      "loss": 1.7537,
+      "step": 50
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 1.8663300275802612,
+      "learning_rate": 0.00028888096935138983,
+      "loss": 1.8124,
+      "step": 55
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 1.0833299160003662,
+      "learning_rate": 0.00028781183178902347,
+      "loss": 1.713,
+      "step": 60
+    },
+    {
+      "epoch": 0.04,
+      "eval_loss": 1.6048307418823242,
+      "eval_runtime": 238.4453,
+      "eval_samples_per_second": 47.093,
+      "eval_steps_per_second": 5.888,
+      "step": 60
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 0.9201515316963196,
+      "learning_rate": 0.00028674269422665716,
+      "loss": 1.7014,
+      "step": 65
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 1.7547974586486816,
+      "learning_rate": 0.0002856735566642908,
+      "loss": 1.7648,
+      "step": 70
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 1.30294668674469,
+      "learning_rate": 0.00028460441910192443,
+      "loss": 1.7446,
+      "step": 75
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 1.5251281261444092,
+      "learning_rate": 0.00028353528153955807,
+      "loss": 1.7307,
+      "step": 80
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 1.5811455249786377,
+      "eval_runtime": 237.77,
+      "eval_samples_per_second": 47.226,
+      "eval_steps_per_second": 5.905,
+      "step": 80
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 1.2267578840255737,
+      "learning_rate": 0.0002824661439771917,
+      "loss": 1.7287,
+      "step": 85
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 1.3255064487457275,
+      "learning_rate": 0.00028139700641482534,
+      "loss": 1.7299,
+      "step": 90
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 1.1679853200912476,
+      "learning_rate": 0.00028032786885245903,
+      "loss": 1.703,
+      "step": 95
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 1.1068620681762695,
+      "learning_rate": 0.0002792587312900926,
+      "loss": 1.7692,
+      "step": 100
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 1.566367268562317,
+      "eval_runtime": 238.1294,
+      "eval_samples_per_second": 47.155,
+      "eval_steps_per_second": 5.896,
+      "step": 100
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 0.9951789975166321,
+      "learning_rate": 0.0002781895937277263,
+      "loss": 1.6876,
+      "step": 105
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 0.9663587808609009,
+      "learning_rate": 0.00027712045616535994,
+      "loss": 1.7166,
+      "step": 110
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 1.1911523342132568,
+      "learning_rate": 0.0002760513186029936,
+      "loss": 1.753,
+      "step": 115
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 1.2160937786102295,
+      "learning_rate": 0.0002749821810406272,
+      "loss": 1.7015,
+      "step": 120
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 1.5435091257095337,
+      "eval_runtime": 238.8875,
+      "eval_samples_per_second": 47.005,
+      "eval_steps_per_second": 5.877,
+      "step": 120
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 1.179223895072937,
+      "learning_rate": 0.00027391304347826085,
+      "loss": 1.6697,
+      "step": 125
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 1.2708353996276855,
+      "learning_rate": 0.0002728439059158945,
+      "loss": 1.65,
+      "step": 130
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 1.6866929531097412,
+      "learning_rate": 0.0002717747683535281,
+      "loss": 1.7095,
+      "step": 135
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 1.301787257194519,
+      "learning_rate": 0.00027070563079116175,
+      "loss": 1.6759,
+      "step": 140
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 1.5384844541549683,
+      "eval_runtime": 238.4127,
+      "eval_samples_per_second": 47.099,
+      "eval_steps_per_second": 5.889,
+      "step": 140
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 1.0458300113677979,
+      "learning_rate": 0.0002696364932287954,
+      "loss": 1.7143,
+      "step": 145
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 1.1566262245178223,
+      "learning_rate": 0.0002685673556664291,
+      "loss": 1.6853,
+      "step": 150
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 1.3296993970870972,
+      "learning_rate": 0.0002674982181040627,
+      "loss": 1.6258,
+      "step": 155
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 1.245419979095459,
+      "learning_rate": 0.00026642908054169635,
+      "loss": 1.6916,
+      "step": 160
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 1.5043162107467651,
+      "eval_runtime": 237.813,
+      "eval_samples_per_second": 47.218,
+      "eval_steps_per_second": 5.904,
+      "step": 160
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 1.2490720748901367,
+      "learning_rate": 0.00026535994297933,
+      "loss": 1.6981,
+      "step": 165
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 1.1684396266937256,
+      "learning_rate": 0.0002642908054169636,
+      "loss": 1.6837,
+      "step": 170
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 2.232602119445801,
+      "learning_rate": 0.00026322166785459726,
+      "loss": 1.6884,
+      "step": 175
+    },
+    {
+      "epoch": 0.13,
+      "grad_norm": 1.5718739032745361,
+      "learning_rate": 0.0002621525302922309,
+      "loss": 1.6779,
+      "step": 180
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 1.4751404523849487,
+      "eval_runtime": 238.079,
+      "eval_samples_per_second": 47.165,
+      "eval_steps_per_second": 5.897,
+      "step": 180
+    },
+    {
+      "epoch": 0.13,
+      "grad_norm": 1.9065372943878174,
+      "learning_rate": 0.00026108339272986453,
+      "loss": 1.7081,
+      "step": 185
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 1.5181498527526855,
+      "learning_rate": 0.0002600142551674982,
+      "loss": 1.6318,
+      "step": 190
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 1.2066547870635986,
+      "learning_rate": 0.00025894511760513186,
+      "loss": 1.648,
+      "step": 195
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 1.3450112342834473,
+      "learning_rate": 0.0002578759800427655,
+      "loss": 1.6004,
+      "step": 200
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 1.4146225452423096,
+      "eval_runtime": 237.8919,
+      "eval_samples_per_second": 47.202,
+      "eval_steps_per_second": 5.902,
+      "step": 200
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 1.5875608921051025,
+      "learning_rate": 0.00025680684248039913,
+      "loss": 1.5945,
+      "step": 205
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 1.4352872371673584,
+      "learning_rate": 0.00025573770491803277,
+      "loss": 1.6194,
+      "step": 210
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 1.441385269165039,
+      "learning_rate": 0.0002546685673556664,
+      "loss": 1.6449,
+      "step": 215
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 1.9610638618469238,
+      "learning_rate": 0.00025359942979330004,
+      "loss": 1.6419,
+      "step": 220
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 1.362566351890564,
+      "eval_runtime": 238.0513,
+      "eval_samples_per_second": 47.171,
+      "eval_steps_per_second": 5.898,
+      "step": 220
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 2.1078948974609375,
+      "learning_rate": 0.0002525302922309337,
+      "loss": 1.5805,
+      "step": 225
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 2.917722702026367,
+      "learning_rate": 0.0002514611546685673,
+      "loss": 1.5836,
+      "step": 230
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 1.5388745069503784,
+      "learning_rate": 0.000250392017106201,
+      "loss": 1.6412,
+      "step": 235
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 1.9960976839065552,
+      "learning_rate": 0.0002493228795438346,
+      "loss": 1.6656,
+      "step": 240
+    },
+    {
+      "epoch": 0.17,
+      "eval_loss": 1.3288618326187134,
+      "eval_runtime": 238.3602,
+      "eval_samples_per_second": 47.109,
+      "eval_steps_per_second": 5.89,
+      "step": 240
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 1.3369652032852173,
+      "learning_rate": 0.0002482537419814683,
+      "loss": 1.5918,
+      "step": 245
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 1.6278358697891235,
+      "learning_rate": 0.0002471846044191019,
+      "loss": 1.5873,
+      "step": 250
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 1.805247187614441,
+      "learning_rate": 0.00024611546685673555,
+      "loss": 1.5621,
+      "step": 255
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 1.9237500429153442,
+      "learning_rate": 0.0002450463292943692,
+      "loss": 1.5795,
+      "step": 260
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 1.300299882888794,
+      "eval_runtime": 237.9128,
+      "eval_samples_per_second": 47.198,
+      "eval_steps_per_second": 5.901,
+      "step": 260
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 2.196021795272827,
+      "learning_rate": 0.00024397719173200285,
+      "loss": 1.6059,
+      "step": 265
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 1.9136182069778442,
+      "learning_rate": 0.00024290805416963648,
+      "loss": 1.5526,
+      "step": 270
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 2.334906816482544,
+      "learning_rate": 0.00024183891660727012,
+      "loss": 1.5556,
+      "step": 275
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 1.3977327346801758,
+      "learning_rate": 0.00024076977904490375,
+      "loss": 1.5663,
+      "step": 280
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 1.2686673402786255,
+      "eval_runtime": 238.6022,
+      "eval_samples_per_second": 47.062,
+      "eval_steps_per_second": 5.884,
+      "step": 280
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 1.471798062324524,
+      "learning_rate": 0.00023970064148253742,
+      "loss": 1.5309,
+      "step": 285
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 1.7908943891525269,
+      "learning_rate": 0.00023863150392017105,
+      "loss": 1.5524,
+      "step": 290
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 1.7473280429840088,
+      "learning_rate": 0.00023756236635780466,
+      "loss": 1.4967,
+      "step": 295
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 1.7770216464996338,
+      "learning_rate": 0.00023649322879543832,
+      "loss": 1.5654,
+      "step": 300
+    },
+    {
+      "epoch": 0.21,
+      "eval_loss": 1.2424921989440918,
+      "eval_runtime": 238.7299,
+      "eval_samples_per_second": 47.036,
+      "eval_steps_per_second": 5.881,
+      "step": 300
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 1.5872327089309692,
+      "learning_rate": 0.00023542409123307196,
+      "loss": 1.5295,
+      "step": 305
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 1.5129801034927368,
+      "learning_rate": 0.00023435495367070562,
+      "loss": 1.5167,
+      "step": 310
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 1.584695816040039,
+      "learning_rate": 0.00023328581610833923,
+      "loss": 1.543,
+      "step": 315
+    },
+    {
+      "epoch": 0.23,
+      "grad_norm": 1.810746669769287,
+      "learning_rate": 0.0002322166785459729,
+      "loss": 1.5243,
+      "step": 320
+    },
+    {
+      "epoch": 0.23,
+      "eval_loss": 1.229398488998413,
+      "eval_runtime": 238.2208,
+      "eval_samples_per_second": 47.137,
+      "eval_steps_per_second": 5.894,
+      "step": 320
+    },
+    {
+      "epoch": 0.23,
+      "grad_norm": 1.9823890924453735,
+      "learning_rate": 0.00023114754098360653,
+      "loss": 1.515,
+      "step": 325
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 2.862882137298584,
+      "learning_rate": 0.0002300784034212402,
+      "loss": 1.5257,
+      "step": 330
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 2.001769781112671,
+      "learning_rate": 0.0002290092658588738,
+      "loss": 1.5352,
+      "step": 335
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 1.6244419813156128,
+      "learning_rate": 0.00022794012829650747,
+      "loss": 1.4889,
+      "step": 340
+    },
+    {
+      "epoch": 0.24,
+      "eval_loss": 1.2115129232406616,
+      "eval_runtime": 238.1695,
+      "eval_samples_per_second": 47.147,
+      "eval_steps_per_second": 5.895,
+      "step": 340
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 1.6255477666854858,
+      "learning_rate": 0.0002268709907341411,
+      "loss": 1.4824,
+      "step": 345
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 1.314682126045227,
+      "learning_rate": 0.00022580185317177477,
+      "loss": 1.4867,
+      "step": 350
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 1.427578091621399,
+      "learning_rate": 0.00022473271560940838,
+      "loss": 1.5167,
+      "step": 355
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 2.2880682945251465,
+      "learning_rate": 0.00022366357804704204,
+      "loss": 1.562,
+      "step": 360
+    },
+    {
+      "epoch": 0.26,
+      "eval_loss": 1.2003304958343506,
+      "eval_runtime": 238.515,
+      "eval_samples_per_second": 47.079,
+      "eval_steps_per_second": 5.886,
+      "step": 360
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 3.184788703918457,
+      "learning_rate": 0.00022259444048467567,
+      "loss": 1.5144,
+      "step": 365
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 1.8202059268951416,
+      "learning_rate": 0.00022152530292230934,
+      "loss": 1.4498,
+      "step": 370
+    },
+    {
+      "epoch": 0.27,
+      "grad_norm": 2.1078202724456787,
+      "learning_rate": 0.00022045616535994295,
+      "loss": 1.49,
+      "step": 375
+    },
+    {
+      "epoch": 0.27,
+      "grad_norm": 1.5043445825576782,
+      "learning_rate": 0.00021938702779757658,
+      "loss": 1.5094,
+      "step": 380
+    },
+    {
+      "epoch": 0.27,
+      "eval_loss": 1.1878150701522827,
+      "eval_runtime": 237.7341,
+      "eval_samples_per_second": 47.233,
+      "eval_steps_per_second": 5.906,
+      "step": 380
+    },
+    {
+      "epoch": 0.27,
+      "grad_norm": 1.6518882513046265,
+      "learning_rate": 0.00021831789023521025,
+      "loss": 1.4837,
+      "step": 385
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 2.754974126815796,
+      "learning_rate": 0.00021724875267284388,
+      "loss": 1.4807,
+      "step": 390
+    },
+    {
+      "epoch": 0.28,
+      "grad_norm": 1.2725212574005127,
+      "learning_rate": 0.00021617961511047755,
+      "loss": 1.501,
+      "step": 395
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 1.8287187814712524,
+      "learning_rate": 0.00021511047754811115,
+      "loss": 1.467,
+      "step": 400
+    },
+    {
+      "epoch": 0.29,
+      "eval_loss": 1.1874744892120361,
+      "eval_runtime": 237.6383,
+      "eval_samples_per_second": 47.252,
+      "eval_steps_per_second": 5.908,
+      "step": 400
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 2.3724262714385986,
+      "learning_rate": 0.00021404133998574482,
+      "loss": 1.4459,
+      "step": 405
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 1.6252632141113281,
+      "learning_rate": 0.00021297220242337845,
+      "loss": 1.4397,
+      "step": 410
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 2.6955440044403076,
+      "learning_rate": 0.00021190306486101212,
+      "loss": 1.4423,
+      "step": 415
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 1.810302495956421,
+      "learning_rate": 0.00021083392729864573,
+      "loss": 1.5075,
+      "step": 420
+    },
+    {
+      "epoch": 0.3,
+      "eval_loss": 1.183608055114746,
+      "eval_runtime": 238.5903,
+      "eval_samples_per_second": 47.064,
+      "eval_steps_per_second": 5.885,
+      "step": 420
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 1.1673238277435303,
+      "learning_rate": 0.0002097647897362794,
+      "loss": 1.4503,
+      "step": 425
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 1.688858985900879,
+      "learning_rate": 0.00020869565217391303,
+      "loss": 1.4669,
+      "step": 430
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 2.159193515777588,
+      "learning_rate": 0.0002076265146115467,
+      "loss": 1.456,
+      "step": 435
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 1.560471534729004,
+      "learning_rate": 0.0002065573770491803,
+      "loss": 1.4802,
+      "step": 440
+    },
+    {
+      "epoch": 0.31,
+      "eval_loss": 1.1662437915802002,
+      "eval_runtime": 238.359,
+      "eval_samples_per_second": 47.11,
+      "eval_steps_per_second": 5.89,
+      "step": 440
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 2.257326602935791,
+      "learning_rate": 0.00020548823948681396,
+      "loss": 1.5007,
+      "step": 445
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 1.513933777809143,
+      "learning_rate": 0.0002044191019244476,
+      "loss": 1.4712,
+      "step": 450
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 1.7575547695159912,
+      "learning_rate": 0.00020334996436208126,
+      "loss": 1.4661,
+      "step": 455
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 1.8957592248916626,
+      "learning_rate": 0.00020228082679971487,
+      "loss": 1.4293,
+      "step": 460
+    },
+    {
+      "epoch": 0.33,
+      "eval_loss": 1.1696981191635132,
+      "eval_runtime": 237.8417,
+      "eval_samples_per_second": 47.212,
+      "eval_steps_per_second": 5.903,
+      "step": 460
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 2.29695725440979,
+      "learning_rate": 0.0002012116892373485,
+      "loss": 1.5389,
+      "step": 465
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 1.433823823928833,
+      "learning_rate": 0.00020014255167498217,
+      "loss": 1.4185,
+      "step": 470
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 1.4663536548614502,
+      "learning_rate": 0.0001990734141126158,
+      "loss": 1.4569,
+      "step": 475
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 1.5247544050216675,
+      "learning_rate": 0.00019800427655024944,
+      "loss": 1.4351,
+      "step": 480
+    },
+    {
+      "epoch": 0.34,
+      "eval_loss": 1.1705231666564941,
+      "eval_runtime": 238.4455,
+      "eval_samples_per_second": 47.093,
+      "eval_steps_per_second": 5.888,
+      "step": 480
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 3.354548454284668,
+      "learning_rate": 0.00019693513898788308,
+      "loss": 1.4821,
+      "step": 485
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 1.844103455543518,
+      "learning_rate": 0.00019586600142551674,
+      "loss": 1.4526,
+      "step": 490
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 1.805258870124817,
+      "learning_rate": 0.00019479686386315038,
+      "loss": 1.4209,
+      "step": 495
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 1.624289870262146,
+      "learning_rate": 0.00019372772630078404,
+      "loss": 1.491,
+      "step": 500
+    },
+    {
+      "epoch": 0.36,
+      "eval_loss": 1.1433590650558472,
+      "eval_runtime": 237.7803,
+      "eval_samples_per_second": 47.224,
+      "eval_steps_per_second": 5.905,
+      "step": 500
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 1.956541657447815,
+      "learning_rate": 0.00019265858873841765,
+      "loss": 1.4583,
+      "step": 505
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 1.6117662191390991,
+      "learning_rate": 0.0001915894511760513,
+      "loss": 1.4603,
+      "step": 510
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 1.3517597913742065,
+      "learning_rate": 0.00019052031361368495,
+      "loss": 1.426,
+      "step": 515
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 3.2437233924865723,
+      "learning_rate": 0.0001894511760513186,
+      "loss": 1.4755,
+      "step": 520
+    },
+    {
+      "epoch": 0.37,
+      "eval_loss": 1.1568676233291626,
+      "eval_runtime": 238.1254,
+      "eval_samples_per_second": 47.156,
+      "eval_steps_per_second": 5.896,
+      "step": 520
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 1.2885761260986328,
+      "learning_rate": 0.00018838203848895222,
+      "loss": 1.4586,
+      "step": 525
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 1.4181665182113647,
+      "learning_rate": 0.00018731290092658588,
+      "loss": 1.4814,
+      "step": 530
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 1.4532644748687744,
+      "learning_rate": 0.00018624376336421952,
+      "loss": 1.4641,
+      "step": 535
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 2.511763334274292,
+      "learning_rate": 0.00018517462580185318,
+      "loss": 1.4357,
+      "step": 540
+    },
+    {
+      "epoch": 0.38,
+      "eval_loss": 1.1442022323608398,
+      "eval_runtime": 238.4832,
+      "eval_samples_per_second": 47.085,
+      "eval_steps_per_second": 5.887,
+      "step": 540
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 1.7152482271194458,
+      "learning_rate": 0.0001841054882394868,
+      "loss": 1.5018,
+      "step": 545
+    },
+    {
+      "epoch": 0.39,
+      "grad_norm": 2.036358594894409,
+      "learning_rate": 0.00018303635067712043,
+      "loss": 1.4037,
+      "step": 550
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 1.456223487854004,
+      "learning_rate": 0.0001819672131147541,
+      "loss": 1.4122,
+      "step": 555
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 1.4755457639694214,
+      "learning_rate": 0.0001808980755523877,
+      "loss": 1.4223,
+      "step": 560
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 1.151889443397522,
+      "eval_runtime": 237.9827,
+      "eval_samples_per_second": 47.184,
+      "eval_steps_per_second": 5.9,
+      "step": 560
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 2.273573875427246,
+      "learning_rate": 0.00017982893799002136,
+      "loss": 1.4849,
+      "step": 565
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 1.2610183954238892,
+      "learning_rate": 0.000178759800427655,
+      "loss": 1.4787,
+      "step": 570
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 1.673994541168213,
+      "learning_rate": 0.00017769066286528866,
+      "loss": 1.426,
+      "step": 575
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 1.4618579149246216,
+      "learning_rate": 0.0001766215253029223,
+      "loss": 1.4412,
+      "step": 580
+    },
+    {
+      "epoch": 0.41,
+      "eval_loss": 1.1363868713378906,
+      "eval_runtime": 238.1706,
+      "eval_samples_per_second": 47.147,
+      "eval_steps_per_second": 5.895,
+      "step": 580
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 1.896357774734497,
+      "learning_rate": 0.00017555238774055593,
+      "loss": 1.4409,
+      "step": 585
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 1.2631126642227173,
+      "learning_rate": 0.00017448325017818957,
+      "loss": 1.3848,
+      "step": 590
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 2.0685760974884033,
+      "learning_rate": 0.00017341411261582323,
+      "loss": 1.475,
+      "step": 595
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 1.4977691173553467,
+      "learning_rate": 0.00017234497505345687,
+      "loss": 1.401,
+      "step": 600
+    },
+    {
+      "epoch": 0.43,
+      "eval_loss": 1.1305118799209595,
+      "eval_runtime": 238.75,
+      "eval_samples_per_second": 47.032,
+      "eval_steps_per_second": 5.881,
+      "step": 600
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 1.2909740209579468,
+      "learning_rate": 0.0001712758374910905,
+      "loss": 1.4337,
+      "step": 605
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 1.7790991067886353,
+      "learning_rate": 0.00017020669992872414,
+      "loss": 1.4118,
+      "step": 610
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 2.613145589828491,
+      "learning_rate": 0.0001691375623663578,
+      "loss": 1.4603,
+      "step": 615
+    },
+    {
+      "epoch": 0.44,
+      "grad_norm": 1.5223807096481323,
+      "learning_rate": 0.00016806842480399144,
+      "loss": 1.427,
+      "step": 620
+    },
+    {
+      "epoch": 0.44,
+      "eval_loss": 1.1345040798187256,
+      "eval_runtime": 238.4279,
+      "eval_samples_per_second": 47.096,
+      "eval_steps_per_second": 5.889,
+      "step": 620
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 1.5729621648788452,
+      "learning_rate": 0.0001669992872416251,
+      "loss": 1.4155,
+      "step": 625
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 2.7493903636932373,
+      "learning_rate": 0.0001659301496792587,
+      "loss": 1.4397,
+      "step": 630
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 1.4627814292907715,
+      "learning_rate": 0.00016486101211689235,
+      "loss": 1.4191,
+      "step": 635
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 1.931848168373108,
+      "learning_rate": 0.000163791874554526,
+      "loss": 1.4563,
+      "step": 640
+    },
+    {
+      "epoch": 0.46,
+      "eval_loss": 1.1245797872543335,
+      "eval_runtime": 237.8198,
+      "eval_samples_per_second": 47.216,
+      "eval_steps_per_second": 5.904,
+      "step": 640
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 1.3084242343902588,
+      "learning_rate": 0.00016272273699215962,
+      "loss": 1.4986,
+      "step": 645
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 1.4890565872192383,
+      "learning_rate": 0.00016165359942979328,
+      "loss": 1.4142,
+      "step": 650
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 1.9650038480758667,
+      "learning_rate": 0.00016058446186742692,
+      "loss": 1.4388,
+      "step": 655
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 1.6054399013519287,
+      "learning_rate": 0.00015951532430506058,
+      "loss": 1.3803,
+      "step": 660
+    },
+    {
+      "epoch": 0.47,
+      "eval_loss": 1.1254459619522095,
+      "eval_runtime": 238.2223,
+      "eval_samples_per_second": 47.137,
+      "eval_steps_per_second": 5.894,
+      "step": 660
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 1.6913373470306396,
+      "learning_rate": 0.0001584461867426942,
+      "loss": 1.42,
+      "step": 665
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 1.473301887512207,
+      "learning_rate": 0.00015737704918032785,
+      "loss": 1.4263,
+      "step": 670
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 2.431945323944092,
+      "learning_rate": 0.0001563079116179615,
+      "loss": 1.427,
+      "step": 675
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 2.949690103530884,
+      "learning_rate": 0.00015523877405559515,
+      "loss": 1.4624,
+      "step": 680
+    },
+    {
+      "epoch": 0.48,
+      "eval_loss": 1.1228926181793213,
+      "eval_runtime": 237.9396,
+      "eval_samples_per_second": 47.193,
+      "eval_steps_per_second": 5.901,
+      "step": 680
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 1.9224356412887573,
+      "learning_rate": 0.0001541696364932288,
+      "loss": 1.4371,
+      "step": 685
+    },
+    {
+      "epoch": 0.49,
+      "grad_norm": 1.5406153202056885,
+      "learning_rate": 0.00015310049893086243,
+      "loss": 1.4604,
+      "step": 690
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 1.2256966829299927,
+      "learning_rate": 0.00015203136136849606,
+      "loss": 1.3828,
+      "step": 695
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 1.1220662593841553,
+      "learning_rate": 0.00015096222380612973,
+      "loss": 1.4117,
+      "step": 700
+    },
+    {
+      "epoch": 0.5,
+      "eval_loss": 1.1254080533981323,
+      "eval_runtime": 238.3641,
+      "eval_samples_per_second": 47.109,
+      "eval_steps_per_second": 5.89,
+      "step": 700
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 1.6177667379379272,
+      "learning_rate": 0.00014989308624376336,
+      "loss": 1.4791,
+      "step": 705
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 1.4307938814163208,
+      "learning_rate": 0.000148823948681397,
+      "loss": 1.4216,
+      "step": 710
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 1.5634862184524536,
+      "learning_rate": 0.00014775481111903063,
+      "loss": 1.4555,
+      "step": 715
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 1.4805843830108643,
+      "learning_rate": 0.00014668567355666427,
+      "loss": 1.4207,
+      "step": 720
+    },
+    {
+      "epoch": 0.51,
+      "eval_loss": 1.115963339805603,
+      "eval_runtime": 238.1419,
+      "eval_samples_per_second": 47.153,
+      "eval_steps_per_second": 5.896,
+      "step": 720
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 2.4637298583984375,
+      "learning_rate": 0.00014561653599429793,
+      "loss": 1.4284,
+      "step": 725
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 1.3485207557678223,
+      "learning_rate": 0.00014454739843193157,
+      "loss": 1.4111,
+      "step": 730
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 1.7138516902923584,
+      "learning_rate": 0.0001434782608695652,
+      "loss": 1.4199,
+      "step": 735
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 2.9742343425750732,
+      "learning_rate": 0.00014240912330719884,
+      "loss": 1.4069,
+      "step": 740
+    },
+    {
+      "epoch": 0.53,
+      "eval_loss": 1.1282981634140015,
+      "eval_runtime": 237.8954,
+      "eval_samples_per_second": 47.201,
+      "eval_steps_per_second": 5.902,
+      "step": 740
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 2.504227638244629,
+      "learning_rate": 0.0001413399857448325,
+      "loss": 1.4179,
+      "step": 745
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 2.8495771884918213,
+      "learning_rate": 0.00014027084818246614,
+      "loss": 1.3823,
+      "step": 750
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 1.8477506637573242,
+      "learning_rate": 0.00013920171062009978,
+      "loss": 1.4259,
+      "step": 755
+    },
+    {
+      "epoch": 0.54,
+      "grad_norm": 1.398998498916626,
+      "learning_rate": 0.0001381325730577334,
+      "loss": 1.4061,
+      "step": 760
+    },
+    {
+      "epoch": 0.54,
+      "eval_loss": 1.1164230108261108,
+      "eval_runtime": 238.2521,
+      "eval_samples_per_second": 47.131,
+      "eval_steps_per_second": 5.893,
+      "step": 760
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 1.2361387014389038,
+      "learning_rate": 0.00013706343549536705,
+      "loss": 1.4268,
+      "step": 765
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 1.4842902421951294,
+      "learning_rate": 0.00013599429793300068,
+      "loss": 1.3773,
+      "step": 770
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 1.644842267036438,
+      "learning_rate": 0.00013492516037063435,
+      "loss": 1.4149,
+      "step": 775
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 2.0066559314727783,
+      "learning_rate": 0.00013385602280826798,
+      "loss": 1.3728,
+      "step": 780
+    },
+    {
+      "epoch": 0.56,
+      "eval_loss": 1.1278431415557861,
+      "eval_runtime": 238.1957,
+      "eval_samples_per_second": 47.142,
+      "eval_steps_per_second": 5.894,
+      "step": 780
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 1.4875324964523315,
+      "learning_rate": 0.00013278688524590162,
+      "loss": 1.4164,
+      "step": 785
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 1.4329664707183838,
+      "learning_rate": 0.00013171774768353526,
+      "loss": 1.3775,
+      "step": 790
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 1.5377615690231323,
+      "learning_rate": 0.00013064861012116892,
+      "loss": 1.4107,
+      "step": 795
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 1.5003105401992798,
+      "learning_rate": 0.00012957947255880256,
+      "loss": 1.4361,
+      "step": 800
+    },
+    {
+      "epoch": 0.57,
+      "eval_loss": 1.1250982284545898,
+      "eval_runtime": 238.0469,
+      "eval_samples_per_second": 47.171,
+      "eval_steps_per_second": 5.898,
+      "step": 800
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 1.4371753931045532,
+      "learning_rate": 0.0001285103349964362,
+      "loss": 1.4622,
+      "step": 805
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 1.856016993522644,
+      "learning_rate": 0.00012744119743406985,
+      "loss": 1.4127,
+      "step": 810
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 1.2637684345245361,
+      "learning_rate": 0.0001263720598717035,
+      "loss": 1.4263,
+      "step": 815
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 1.2920516729354858,
+      "learning_rate": 0.00012530292230933713,
+      "loss": 1.4424,
+      "step": 820
+    },
+    {
+      "epoch": 0.58,
+      "eval_loss": 1.120445966720581,
+      "eval_runtime": 238.6985,
+      "eval_samples_per_second": 47.043,
+      "eval_steps_per_second": 5.882,
+      "step": 820
+    },
+    {
+      "epoch": 0.59,
+      "grad_norm": 2.0078747272491455,
+      "learning_rate": 0.00012423378474697076,
+      "loss": 1.4292,
+      "step": 825
+    },
+    {
+      "epoch": 0.59,
+      "grad_norm": 2.4504008293151855,
+      "learning_rate": 0.00012316464718460443,
+      "loss": 1.4304,
+      "step": 830
+    },
+    {
+      "epoch": 0.59,
+      "grad_norm": 1.7956339120864868,
+      "learning_rate": 0.00012209550962223806,
+      "loss": 1.4487,
+      "step": 835
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 1.5230929851531982,
+      "learning_rate": 0.00012102637205987168,
+      "loss": 1.4326,
+      "step": 840
+    },
+    {
+      "epoch": 0.6,
+      "eval_loss": 1.1124125719070435,
+      "eval_runtime": 238.5108,
+      "eval_samples_per_second": 47.08,
+      "eval_steps_per_second": 5.887,
+      "step": 840
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 1.3098657131195068,
+      "learning_rate": 0.00011995723449750533,
+      "loss": 1.4385,
+      "step": 845
+    },
+    {
+      "epoch": 0.61,
+      "grad_norm": 1.1858386993408203,
+      "learning_rate": 0.00011888809693513897,
+      "loss": 1.4316,
+      "step": 850
+    },
+    {
+      "epoch": 0.61,
+      "grad_norm": 2.3045928478240967,
+      "learning_rate": 0.00011781895937277262,
+      "loss": 1.3901,
+      "step": 855
+    },
+    {
+      "epoch": 0.61,
+      "grad_norm": 1.337033748626709,
+      "learning_rate": 0.00011674982181040626,
+      "loss": 1.4771,
+      "step": 860
+    },
+    {
+      "epoch": 0.61,
+      "eval_loss": 1.110884189605713,
+      "eval_runtime": 238.3923,
+      "eval_samples_per_second": 47.103,
+      "eval_steps_per_second": 5.889,
+      "step": 860
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 1.308563470840454,
+      "learning_rate": 0.0001156806842480399,
+      "loss": 1.4131,
+      "step": 865
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 1.2717790603637695,
+      "learning_rate": 0.00011461154668567354,
+      "loss": 1.3917,
+      "step": 870
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 1.1682937145233154,
+      "learning_rate": 0.00011354240912330719,
+      "loss": 1.3818,
+      "step": 875
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 1.5385247468948364,
+      "learning_rate": 0.00011247327156094083,
+      "loss": 1.4255,
+      "step": 880
+    },
+    {
+      "epoch": 0.63,
+      "eval_loss": 1.1035958528518677,
+      "eval_runtime": 238.3077,
+      "eval_samples_per_second": 47.12,
+      "eval_steps_per_second": 5.892,
+      "step": 880
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 2.0521018505096436,
+      "learning_rate": 0.00011140413399857448,
+      "loss": 1.4555,
+      "step": 885
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 1.4691181182861328,
+      "learning_rate": 0.00011033499643620811,
+      "loss": 1.3904,
+      "step": 890
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 2.002253293991089,
+      "learning_rate": 0.00010926585887384176,
+      "loss": 1.4113,
+      "step": 895
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 2.1029818058013916,
+      "learning_rate": 0.0001081967213114754,
+      "loss": 1.407,
+      "step": 900
+    },
+    {
+      "epoch": 0.64,
+      "eval_loss": 1.0955262184143066,
+      "eval_runtime": 238.3725,
+      "eval_samples_per_second": 47.107,
+      "eval_steps_per_second": 5.89,
+      "step": 900
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 1.898098111152649,
+      "learning_rate": 0.00010712758374910905,
+      "loss": 1.3694,
+      "step": 905
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 1.3520509004592896,
+      "learning_rate": 0.00010605844618674268,
+      "loss": 1.4129,
+      "step": 910
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 1.61276376247406,
+      "learning_rate": 0.00010498930862437633,
+      "loss": 1.4166,
+      "step": 915
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 1.445062518119812,
+      "learning_rate": 0.00010392017106200998,
+      "loss": 1.4273,
+      "step": 920
+    },
+    {
+      "epoch": 0.66,
+      "eval_loss": 1.1027941703796387,
+      "eval_runtime": 238.0096,
+      "eval_samples_per_second": 47.179,
+      "eval_steps_per_second": 5.899,
+      "step": 920
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 1.2762255668640137,
+      "learning_rate": 0.0001028510334996436,
+      "loss": 1.3589,
+      "step": 925
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 1.8751753568649292,
+      "learning_rate": 0.00010178189593727724,
+      "loss": 1.4351,
+      "step": 930
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 1.6003363132476807,
+      "learning_rate": 0.00010071275837491089,
+      "loss": 1.4217,
+      "step": 935
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 1.1718982458114624,
+      "learning_rate": 9.964362081254453e-05,
+      "loss": 1.3949,
+      "step": 940
+    },
+    {
+      "epoch": 0.67,
+      "eval_loss": 1.1058130264282227,
+      "eval_runtime": 238.044,
+      "eval_samples_per_second": 47.172,
+      "eval_steps_per_second": 5.898,
+      "step": 940
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 1.500303864479065,
+      "learning_rate": 9.857448325017818e-05,
+      "loss": 1.4204,
+      "step": 945
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 1.4212112426757812,
+      "learning_rate": 9.750534568781181e-05,
+      "loss": 1.4244,
+      "step": 950
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 2.1620020866394043,
+      "learning_rate": 9.643620812544546e-05,
+      "loss": 1.4002,
+      "step": 955
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 1.2620627880096436,
+      "learning_rate": 9.536707056307911e-05,
+      "loss": 1.344,
+      "step": 960
+    },
+    {
+      "epoch": 0.68,
+      "eval_loss": 1.100238561630249,
+      "eval_runtime": 238.3801,
+      "eval_samples_per_second": 47.105,
+      "eval_steps_per_second": 5.89,
+      "step": 960
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 1.6627460718154907,
+      "learning_rate": 9.429793300071275e-05,
+      "loss": 1.3717,
+      "step": 965
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 1.3089808225631714,
+      "learning_rate": 9.32287954383464e-05,
+      "loss": 1.3636,
+      "step": 970
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 1.4026496410369873,
+      "learning_rate": 9.215965787598003e-05,
+      "loss": 1.3589,
+      "step": 975
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 1.368951439857483,
+      "learning_rate": 9.109052031361368e-05,
+      "loss": 1.4082,
+      "step": 980
+    },
+    {
+      "epoch": 0.7,
+      "eval_loss": 1.101948618888855,
+      "eval_runtime": 238.0145,
+      "eval_samples_per_second": 47.178,
+      "eval_steps_per_second": 5.899,
+      "step": 980
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 1.5404202938079834,
+      "learning_rate": 9.002138275124732e-05,
+      "loss": 1.4247,
+      "step": 985
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 1.9112722873687744,
+      "learning_rate": 8.895224518888097e-05,
+      "loss": 1.3941,
+      "step": 990
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 1.5199103355407715,
+      "learning_rate": 8.78831076265146e-05,
+      "loss": 1.3993,
+      "step": 995
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 1.6405307054519653,
+      "learning_rate": 8.681397006414826e-05,
+      "loss": 1.3682,
+      "step": 1000
+    },
+    {
+      "epoch": 0.71,
+      "eval_loss": 1.1001256704330444,
+      "eval_runtime": 238.8631,
+      "eval_samples_per_second": 47.01,
+      "eval_steps_per_second": 5.878,
+      "step": 1000
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 2.077296733856201,
+      "learning_rate": 8.574483250178189e-05,
+      "loss": 1.3726,
+      "step": 1005
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 2.809959888458252,
+      "learning_rate": 8.467569493941553e-05,
+      "loss": 1.4295,
+      "step": 1010
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 1.7450059652328491,
+      "learning_rate": 8.360655737704916e-05,
+      "loss": 1.3984,
+      "step": 1015
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 1.0764541625976562,
+      "learning_rate": 8.253741981468281e-05,
+      "loss": 1.3906,
+      "step": 1020
+    },
+    {
+      "epoch": 0.73,
+      "eval_loss": 1.1043071746826172,
+      "eval_runtime": 238.6057,
+      "eval_samples_per_second": 47.061,
+      "eval_steps_per_second": 5.884,
+      "step": 1020
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 1.2224912643432617,
+      "learning_rate": 8.146828225231645e-05,
+      "loss": 1.4047,
+      "step": 1025
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 1.5567137002944946,
+      "learning_rate": 8.03991446899501e-05,
+      "loss": 1.4106,
+      "step": 1030
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 1.1357413530349731,
+      "learning_rate": 7.933000712758373e-05,
+      "loss": 1.4071,
+      "step": 1035
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 2.462421178817749,
+      "learning_rate": 7.826086956521738e-05,
+      "loss": 1.4273,
+      "step": 1040
+    },
+    {
+      "epoch": 0.74,
+      "eval_loss": 1.100298523902893,
+      "eval_runtime": 238.406,
+      "eval_samples_per_second": 47.1,
+      "eval_steps_per_second": 5.889,
+      "step": 1040
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 1.546798825263977,
+      "learning_rate": 7.719173200285102e-05,
+      "loss": 1.4104,
+      "step": 1045
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 2.145045042037964,
+      "learning_rate": 7.612259444048467e-05,
+      "loss": 1.3577,
+      "step": 1050
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 1.1746057271957397,
+      "learning_rate": 7.50534568781183e-05,
+      "loss": 1.4193,
+      "step": 1055
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 1.3313422203063965,
+      "learning_rate": 7.398431931575196e-05,
+      "loss": 1.4629,
+      "step": 1060
+    },
+    {
+      "epoch": 0.76,
+      "eval_loss": 1.0970900058746338,
+      "eval_runtime": 238.2209,
+      "eval_samples_per_second": 47.137,
+      "eval_steps_per_second": 5.894,
+      "step": 1060
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 1.304905891418457,
+      "learning_rate": 7.291518175338559e-05,
+      "loss": 1.3866,
+      "step": 1065
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 1.2993892431259155,
+      "learning_rate": 7.184604419101924e-05,
+      "loss": 1.4104,
+      "step": 1070
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 1.651577115058899,
+      "learning_rate": 7.077690662865288e-05,
+      "loss": 1.371,
+      "step": 1075
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 1.5432236194610596,
+      "learning_rate": 6.970776906628651e-05,
+      "loss": 1.4184,
+      "step": 1080
+    },
+    {
+      "epoch": 0.77,
+      "eval_loss": 1.0946106910705566,
+      "eval_runtime": 238.6571,
+      "eval_samples_per_second": 47.051,
+      "eval_steps_per_second": 5.883,
+      "step": 1080
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 1.216409683227539,
+      "learning_rate": 6.863863150392016e-05,
+      "loss": 1.3622,
+      "step": 1085
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 1.3998141288757324,
+      "learning_rate": 6.756949394155381e-05,
+      "loss": 1.3865,
+      "step": 1090
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 1.5742037296295166,
+      "learning_rate": 6.650035637918745e-05,
+      "loss": 1.4457,
+      "step": 1095
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 1.2873727083206177,
+      "learning_rate": 6.54312188168211e-05,
+      "loss": 1.3936,
+      "step": 1100
+    },
+    {
+      "epoch": 0.78,
+      "eval_loss": 1.1027004718780518,
+      "eval_runtime": 238.039,
+      "eval_samples_per_second": 47.173,
+      "eval_steps_per_second": 5.898,
+      "step": 1100
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 1.3920438289642334,
+      "learning_rate": 6.436208125445473e-05,
+      "loss": 1.3907,
+      "step": 1105
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 1.3611928224563599,
+      "learning_rate": 6.329294369208838e-05,
+      "loss": 1.3953,
+      "step": 1110
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 1.66701078414917,
+      "learning_rate": 6.222380612972202e-05,
+      "loss": 1.4341,
+      "step": 1115
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 1.4669792652130127,
+      "learning_rate": 6.115466856735566e-05,
+      "loss": 1.3828,
+      "step": 1120
+    },
+    {
+      "epoch": 0.8,
+      "eval_loss": 1.0992933511734009,
+      "eval_runtime": 238.6441,
+      "eval_samples_per_second": 47.053,
+      "eval_steps_per_second": 5.883,
+      "step": 1120
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 1.2852134704589844,
+      "learning_rate": 6.00855310049893e-05,
+      "loss": 1.4231,
+      "step": 1125
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 1.0834096670150757,
+      "learning_rate": 5.901639344262294e-05,
+      "loss": 1.4392,
+      "step": 1130
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 1.2631757259368896,
+      "learning_rate": 5.7947255880256585e-05,
+      "loss": 1.3964,
+      "step": 1135
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 1.2261242866516113,
+      "learning_rate": 5.687811831789023e-05,
+      "loss": 1.35,
+      "step": 1140
+    },
+    {
+      "epoch": 0.81,
+      "eval_loss": 1.091916799545288,
+      "eval_runtime": 238.2008,
+      "eval_samples_per_second": 47.141,
+      "eval_steps_per_second": 5.894,
+      "step": 1140
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 1.9985020160675049,
+      "learning_rate": 5.580898075552388e-05,
+      "loss": 1.3951,
+      "step": 1145
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 1.3700103759765625,
+      "learning_rate": 5.473984319315752e-05,
+      "loss": 1.3841,
+      "step": 1150
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 1.305738925933838,
+      "learning_rate": 5.367070563079116e-05,
+      "loss": 1.3787,
+      "step": 1155
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 1.1962898969650269,
+      "learning_rate": 5.26015680684248e-05,
+      "loss": 1.3953,
+      "step": 1160
+    },
+    {
+      "epoch": 0.83,
+      "eval_loss": 1.1065694093704224,
+      "eval_runtime": 238.4145,
+      "eval_samples_per_second": 47.099,
+      "eval_steps_per_second": 5.889,
+      "step": 1160
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 1.109692931175232,
+      "learning_rate": 5.153243050605844e-05,
+      "loss": 1.383,
+      "step": 1165
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 1.3601744174957275,
+      "learning_rate": 5.0463292943692085e-05,
+      "loss": 1.385,
+      "step": 1170
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 1.4006551504135132,
+      "learning_rate": 4.939415538132573e-05,
+      "loss": 1.3535,
+      "step": 1175
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 1.4687597751617432,
+      "learning_rate": 4.832501781895937e-05,
+      "loss": 1.4298,
+      "step": 1180
+    },
+    {
+      "epoch": 0.84,
+      "eval_loss": 1.089789628982544,
+      "eval_runtime": 238.659,
+      "eval_samples_per_second": 47.05,
+      "eval_steps_per_second": 5.883,
+      "step": 1180
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 1.4128488302230835,
+      "learning_rate": 4.725588025659301e-05,
+      "loss": 1.4041,
+      "step": 1185
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 1.2528212070465088,
+      "learning_rate": 4.6186742694226656e-05,
+      "loss": 1.406,
+      "step": 1190
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 1.9820700883865356,
+      "learning_rate": 4.51176051318603e-05,
+      "loss": 1.4369,
+      "step": 1195
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 1.1654261350631714,
+      "learning_rate": 4.4048467569493935e-05,
+      "loss": 1.4022,
+      "step": 1200
+    },
+    {
+      "epoch": 0.86,
+      "eval_loss": 1.0973706245422363,
+      "eval_runtime": 238.5577,
+      "eval_samples_per_second": 47.07,
+      "eval_steps_per_second": 5.885,
+      "step": 1200
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 1.3663030862808228,
+      "learning_rate": 4.297933000712758e-05,
+      "loss": 1.3854,
+      "step": 1205
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 1.7526624202728271,
+      "learning_rate": 4.191019244476122e-05,
+      "loss": 1.4125,
+      "step": 1210
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 1.420353889465332,
+      "learning_rate": 4.0841054882394864e-05,
+      "loss": 1.3743,
+      "step": 1215
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 1.6290240287780762,
+      "learning_rate": 3.9771917320028507e-05,
+      "loss": 1.3935,
+      "step": 1220
+    },
+    {
+      "epoch": 0.87,
+      "eval_loss": 1.0942466259002686,
+      "eval_runtime": 238.0682,
+      "eval_samples_per_second": 47.167,
+      "eval_steps_per_second": 5.897,
+      "step": 1220
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 1.6694273948669434,
+      "learning_rate": 3.870277975766215e-05,
+      "loss": 1.3674,
+      "step": 1225
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 1.0782274007797241,
+      "learning_rate": 3.763364219529579e-05,
+      "loss": 1.4322,
+      "step": 1230
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 1.4431970119476318,
+      "learning_rate": 3.6564504632929435e-05,
+      "loss": 1.5091,
+      "step": 1235
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 1.4200325012207031,
+      "learning_rate": 3.549536707056308e-05,
+      "loss": 1.3854,
+      "step": 1240
+    },
+    {
+      "epoch": 0.88,
+      "eval_loss": 1.096315860748291,
+      "eval_runtime": 238.2383,
+      "eval_samples_per_second": 47.133,
+      "eval_steps_per_second": 5.893,
+      "step": 1240
+    },
+    {
+      "epoch": 0.89,
+      "grad_norm": 1.275476098060608,
+      "learning_rate": 3.442622950819672e-05,
+      "loss": 1.3875,
+      "step": 1245
+    },
+    {
+      "epoch": 0.89,
+      "grad_norm": 1.523420810699463,
+      "learning_rate": 3.3357091945830364e-05,
+      "loss": 1.4004,
+      "step": 1250
+    },
+    {
+      "epoch": 0.89,
+      "grad_norm": 1.9142178297042847,
+      "learning_rate": 3.2287954383464e-05,
+      "loss": 1.3972,
+      "step": 1255
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 1.2410295009613037,
+      "learning_rate": 3.121881682109764e-05,
+      "loss": 1.4136,
+      "step": 1260
+    },
+    {
+      "epoch": 0.9,
+      "eval_loss": 1.093112826347351,
+      "eval_runtime": 238.3733,
+      "eval_samples_per_second": 47.107,
+      "eval_steps_per_second": 5.89,
+      "step": 1260
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 1.5688303709030151,
+      "learning_rate": 3.014967925873129e-05,
+      "loss": 1.3692,
+      "step": 1265
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 1.1975445747375488,
+      "learning_rate": 2.908054169636493e-05,
+      "loss": 1.3876,
+      "step": 1270
+    },
+    {
+      "epoch": 0.91,
+      "grad_norm": 1.3138302564620972,
+      "learning_rate": 2.801140413399857e-05,
+      "loss": 1.3978,
+      "step": 1275
+    },
+    {
+      "epoch": 0.91,
+      "grad_norm": 1.1110371351242065,
+      "learning_rate": 2.6942266571632214e-05,
+      "loss": 1.385,
+      "step": 1280
+    },
+    {
+      "epoch": 0.91,
+      "eval_loss": 1.0929086208343506,
+      "eval_runtime": 238.1266,
+      "eval_samples_per_second": 47.156,
+      "eval_steps_per_second": 5.896,
+      "step": 1280
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 1.288498044013977,
+      "learning_rate": 2.5873129009265857e-05,
+      "loss": 1.34,
+      "step": 1285
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 2.259294271469116,
+      "learning_rate": 2.48039914468995e-05,
+      "loss": 1.4354,
+      "step": 1290
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 1.4194239377975464,
+      "learning_rate": 2.373485388453314e-05,
+      "loss": 1.361,
+      "step": 1295
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 1.2409344911575317,
+      "learning_rate": 2.2665716322166782e-05,
+      "loss": 1.3495,
+      "step": 1300
+    },
+    {
+      "epoch": 0.93,
+      "eval_loss": 1.0893943309783936,
+      "eval_runtime": 238.2936,
+      "eval_samples_per_second": 47.123,
+      "eval_steps_per_second": 5.892,
+      "step": 1300
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 1.5296891927719116,
+      "learning_rate": 2.1596578759800425e-05,
+      "loss": 1.4302,
+      "step": 1305
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 1.3148484230041504,
+      "learning_rate": 2.0527441197434068e-05,
+      "loss": 1.3476,
+      "step": 1310
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 1.8259121179580688,
+      "learning_rate": 1.9458303635067714e-05,
+      "loss": 1.4206,
+      "step": 1315
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 1.384194016456604,
+      "learning_rate": 1.8389166072701353e-05,
+      "loss": 1.3353,
+      "step": 1320
+    },
+    {
+      "epoch": 0.94,
+      "eval_loss": 1.0956295728683472,
+      "eval_runtime": 238.1983,
+      "eval_samples_per_second": 47.141,
+      "eval_steps_per_second": 5.894,
+      "step": 1320
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 1.147903323173523,
+      "learning_rate": 1.7320028510334996e-05,
+      "loss": 1.403,
+      "step": 1325
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 1.2198010683059692,
+      "learning_rate": 1.625089094796864e-05,
+      "loss": 1.3694,
+      "step": 1330
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 1.379539132118225,
+      "learning_rate": 1.518175338560228e-05,
+      "loss": 1.4655,
+      "step": 1335
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 1.2761609554290771,
+      "learning_rate": 1.4112615823235923e-05,
+      "loss": 1.4263,
+      "step": 1340
+    },
+    {
+      "epoch": 0.95,
+      "eval_loss": 1.0896815061569214,
+      "eval_runtime": 238.0997,
+      "eval_samples_per_second": 47.161,
+      "eval_steps_per_second": 5.897,
+      "step": 1340
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 1.6645430326461792,
+      "learning_rate": 1.3043478260869564e-05,
+      "loss": 1.3955,
+      "step": 1345
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 1.4130152463912964,
+      "learning_rate": 1.1974340698503207e-05,
+      "loss": 1.4246,
+      "step": 1350
+    },
+    {
+      "epoch": 0.97,
+      "grad_norm": 1.3975178003311157,
+      "learning_rate": 1.0905203136136848e-05,
+      "loss": 1.3546,
+      "step": 1355
+    },
+    {
+      "epoch": 0.97,
+      "grad_norm": 1.116847038269043,
+      "learning_rate": 9.836065573770491e-06,
+      "loss": 1.3817,
+      "step": 1360
+    },
+    {
+      "epoch": 0.97,
+      "eval_loss": 1.0937434434890747,
+      "eval_runtime": 237.4707,
+      "eval_samples_per_second": 47.286,
+      "eval_steps_per_second": 5.912,
+      "step": 1360
+    },
+    {
+      "epoch": 0.97,
+      "grad_norm": 1.108174204826355,
+      "learning_rate": 8.766928011404134e-06,
+      "loss": 1.4145,
+      "step": 1365
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 1.4221737384796143,
+      "learning_rate": 7.697790449037777e-06,
+      "loss": 1.4139,
+      "step": 1370
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 1.2869999408721924,
+      "learning_rate": 6.628652886671418e-06,
+      "loss": 1.3954,
+      "step": 1375
+    },
+    {
+      "epoch": 0.98,
+      "grad_norm": 1.4776402711868286,
+      "learning_rate": 5.559515324305061e-06,
+      "loss": 1.426,
+      "step": 1380
+    },
+    {
+      "epoch": 0.98,
+      "eval_loss": 1.0926555395126343,
+      "eval_runtime": 237.5227,
+      "eval_samples_per_second": 47.275,
+      "eval_steps_per_second": 5.911,
+      "step": 1380
+    },
+    {
+      "epoch": 0.99,
+      "grad_norm": 1.4507919549942017,
+      "learning_rate": 4.490377761938703e-06,
+      "loss": 1.3807,
+      "step": 1385
+    },
+    {
+      "epoch": 0.99,
+      "grad_norm": 1.2029563188552856,
+      "learning_rate": 3.421240199572345e-06,
+      "loss": 1.3735,
+      "step": 1390
+    },
+    {
+      "epoch": 0.99,
+      "grad_norm": 1.170845866203308,
+      "learning_rate": 2.352102637205987e-06,
+      "loss": 1.3474,
+      "step": 1395
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 1.6338990926742554,
+      "learning_rate": 1.2829650748396292e-06,
+      "loss": 1.3996,
+      "step": 1400
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 1.0909614562988281,
+      "eval_runtime": 237.6501,
+      "eval_samples_per_second": 47.25,
+      "eval_steps_per_second": 5.908,
+      "step": 1400
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 1403,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 20,
+  "total_flos": 2.8403365971335578e+17,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:91ea7b34ec3066fdca37bdc3a2d83faebc87dd698339dc3eea8d253b922af6ef
+size 5112