End of training

Browse files

Files changed (9) hide show

README.md +196 -0
all_results.json +13 -0
config.json +67 -0
eval_results.json +8 -0
model.safetensors +3 -0
preprocessor_config.json +22 -0
train_results.json +8 -0
trainer_state.json +3465 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,196 @@

+---
+license: apache-2.0
+base_model: facebook/convnextv2-tiny-1k-224
+tags:
+- generated_from_trainer
+datasets:
+- imagefolder
+metrics:
+- accuracy
+model-index:
+- name: convnextv2-tiny-1k-224-finetuned-pattern-rgb
+  results:
+  - task:
+      name: Image Classification
+      type: image-classification
+    dataset:
+      name: imagefolder
+      type: imagefolder
+      config: default
+      split: train
+      args: default
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.875
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# convnextv2-tiny-1k-224-finetuned-pattern-rgb
+This model is a fine-tuned version of [facebook/convnextv2-tiny-1k-224](https://huggingface.co/facebook/convnextv2-tiny-1k-224) on the imagefolder dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.5797
+- Accuracy: 0.875
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 32
+- eval_batch_size: 32
+- seed: 42
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 128
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 120
+### Training results
+| Training Loss | Epoch    | Step | Validation Loss | Accuracy |
+|:-------------:|:--------:|:----:|:---------------:|:--------:|
+| 1.6954        | 0.9912   | 28   | 1.4482          | 0.58     |
+| 1.015         | 1.9823   | 56   | 0.9088          | 0.7175   |
+| 0.7953        | 2.9735   | 84   | 0.7266          | 0.7625   |
+| 0.627         | 4.0      | 113  | 0.5872          | 0.8      |
+| 0.4684        | 4.9912   | 141  | 0.5534          | 0.8175   |
+| 0.4301        | 5.9823   | 169  | 0.5053          | 0.8275   |
+| 0.3716        | 6.9735   | 197  | 0.4885          | 0.83     |
+| 0.3798        | 8.0      | 226  | 0.4639          | 0.8525   |
+| 0.3123        | 8.9912   | 254  | 0.5282          | 0.825    |
+| 0.3148        | 9.9823   | 282  | 0.4569          | 0.8475   |
+| 0.2427        | 10.9735  | 310  | 0.4206          | 0.865    |
+| 0.2198        | 12.0     | 339  | 0.4832          | 0.84     |
+| 0.1995        | 12.9912  | 367  | 0.4468          | 0.865    |
+| 0.1738        | 13.9823  | 395  | 0.5668          | 0.8425   |
+| 0.1683        | 14.9735  | 423  | 0.4454          | 0.8725   |
+| 0.1426        | 16.0     | 452  | 0.5118          | 0.8525   |
+| 0.133         | 16.9912  | 480  | 0.4713          | 0.865    |
+| 0.1148        | 17.9823  | 508  | 0.5226          | 0.855    |
+| 0.1147        | 18.9735  | 536  | 0.5333          | 0.8425   |
+| 0.1284        | 20.0     | 565  | 0.4399          | 0.8575   |
+| 0.1035        | 20.9912  | 593  | 0.5194          | 0.8525   |
+| 0.1054        | 21.9823  | 621  | 0.5140          | 0.845    |
+| 0.1056        | 22.9735  | 649  | 0.5183          | 0.87     |
+| 0.1224        | 24.0     | 678  | 0.5293          | 0.85     |
+| 0.0956        | 24.9912  | 706  | 0.4985          | 0.87     |
+| 0.0717        | 25.9823  | 734  | 0.5267          | 0.8625   |
+| 0.0858        | 26.9735  | 762  | 0.5525          | 0.8575   |
+| 0.097         | 28.0     | 791  | 0.5340          | 0.855    |
+| 0.0914        | 28.9912  | 819  | 0.4830          | 0.87     |
+| 0.0699        | 29.9823  | 847  | 0.4883          | 0.8725   |
+| 0.0932        | 30.9735  | 875  | 0.6106          | 0.8575   |
+| 0.0967        | 32.0     | 904  | 0.5614          | 0.855    |
+| 0.101         | 32.9912  | 932  | 0.5947          | 0.8525   |
+| 0.0734        | 33.9823  | 960  | 0.5388          | 0.87     |
+| 0.0742        | 34.9735  | 988  | 0.5110          | 0.8725   |
+| 0.0698        | 36.0     | 1017 | 0.5384          | 0.8525   |
+| 0.0785        | 36.9912  | 1045 | 0.5407          | 0.8475   |
+| 0.0718        | 37.9823  | 1073 | 0.5420          | 0.86     |
+| 0.061         | 38.9735  | 1101 | 0.5747          | 0.8675   |
+| 0.0695        | 40.0     | 1130 | 0.5829          | 0.8575   |
+| 0.0611        | 40.9912  | 1158 | 0.6212          | 0.8525   |
+| 0.0734        | 41.9823  | 1186 | 0.5035          | 0.875    |
+| 0.0643        | 42.9735  | 1214 | 0.5345          | 0.8775   |
+| 0.0625        | 44.0     | 1243 | 0.5208          | 0.8625   |
+| 0.047         | 44.9912  | 1271 | 0.5635          | 0.8675   |
+| 0.0612        | 45.9823  | 1299 | 0.4721          | 0.8775   |
+| 0.0582        | 46.9735  | 1327 | 0.5683          | 0.855    |
+| 0.0516        | 48.0     | 1356 | 0.5883          | 0.8625   |
+| 0.0427        | 48.9912  | 1384 | 0.5757          | 0.8575   |
+| 0.0601        | 49.9823  | 1412 | 0.5368          | 0.8625   |
+| 0.0645        | 50.9735  | 1440 | 0.5608          | 0.84     |
+| 0.054         | 52.0     | 1469 | 0.5380          | 0.87     |
+| 0.0647        | 52.9912  | 1497 | 0.5490          | 0.8625   |
+| 0.0539        | 53.9823  | 1525 | 0.5686          | 0.8625   |
+| 0.0485        | 54.9735  | 1553 | 0.5474          | 0.8725   |
+| 0.0649        | 56.0     | 1582 | 0.5938          | 0.86     |
+| 0.0486        | 56.9912  | 1610 | 0.5642          | 0.86     |
+| 0.0385        | 57.9823  | 1638 | 0.5390          | 0.8675   |
+| 0.0404        | 58.9735  | 1666 | 0.5735          | 0.8775   |
+| 0.0543        | 60.0     | 1695 | 0.5117          | 0.875    |
+| 0.0506        | 60.9912  | 1723 | 0.5422          | 0.8725   |
+| 0.0398        | 61.9823  | 1751 | 0.5473          | 0.87     |
+| 0.0494        | 62.9735  | 1779 | 0.5333          | 0.8675   |
+| 0.0472        | 64.0     | 1808 | 0.5650          | 0.8825   |
+| 0.0504        | 64.9912  | 1836 | 0.5771          | 0.8575   |
+| 0.044         | 65.9823  | 1864 | 0.5220          | 0.86     |
+| 0.061         | 66.9735  | 1892 | 0.5622          | 0.8725   |
+| 0.0459        | 68.0     | 1921 | 0.5864          | 0.8625   |
+| 0.0294        | 68.9912  | 1949 | 0.6341          | 0.8625   |
+| 0.0428        | 69.9823  | 1977 | 0.5696          | 0.8675   |
+| 0.0317        | 70.9735  | 2005 | 0.6313          | 0.845    |
+| 0.0453        | 72.0     | 2034 | 0.5955          | 0.875    |
+| 0.0592        | 72.9912  | 2062 | 0.5844          | 0.8675   |
+| 0.0408        | 73.9823  | 2090 | 0.5868          | 0.86     |
+| 0.0358        | 74.9735  | 2118 | 0.6115          | 0.85     |
+| 0.0412        | 76.0     | 2147 | 0.5940          | 0.865    |
+| 0.0323        | 76.9912  | 2175 | 0.5752          | 0.8625   |
+| 0.0378        | 77.9823  | 2203 | 0.5515          | 0.8725   |
+| 0.0359        | 78.9735  | 2231 | 0.5910          | 0.8775   |
+| 0.028         | 80.0     | 2260 | 0.6060          | 0.8725   |
+| 0.032         | 80.9912  | 2288 | 0.6054          | 0.8775   |
+| 0.032         | 81.9823  | 2316 | 0.6312          | 0.8725   |
+| 0.0228        | 82.9735  | 2344 | 0.6153          | 0.87     |
+| 0.0457        | 84.0     | 2373 | 0.6443          | 0.86     |
+| 0.0248        | 84.9912  | 2401 | 0.5726          | 0.875    |
+| 0.0405        | 85.9823  | 2429 | 0.6042          | 0.875    |
+| 0.0203        | 86.9735  | 2457 | 0.6107          | 0.87     |
+| 0.0557        | 88.0     | 2486 | 0.5890          | 0.88     |
+| 0.0302        | 88.9912  | 2514 | 0.5778          | 0.8625   |
+| 0.0268        | 89.9823  | 2542 | 0.6039          | 0.8625   |
+| 0.0313        | 90.9735  | 2570 | 0.5608          | 0.885    |
+| 0.0227        | 92.0     | 2599 | 0.6019          | 0.8625   |
+| 0.0277        | 92.9912  | 2627 | 0.5949          | 0.8675   |
+| 0.0378        | 93.9823  | 2655 | 0.5785          | 0.875    |
+| 0.0381        | 94.9735  | 2683 | 0.5646          | 0.8825   |
+| 0.0435        | 96.0     | 2712 | 0.5513          | 0.88     |
+| 0.0264        | 96.9912  | 2740 | 0.5257          | 0.875    |
+| 0.0362        | 97.9823  | 2768 | 0.5332          | 0.8825   |
+| 0.0209        | 98.9735  | 2796 | 0.5777          | 0.855    |
+| 0.0348        | 100.0    | 2825 | 0.5674          | 0.8675   |
+| 0.02          | 100.9912 | 2853 | 0.5744          | 0.8625   |
+| 0.0092        | 101.9823 | 2881 | 0.5852          | 0.8675   |
+| 0.0343        | 102.9735 | 2909 | 0.5856          | 0.8675   |
+| 0.0185        | 104.0    | 2938 | 0.5670          | 0.88     |
+| 0.0198        | 104.9912 | 2966 | 0.5612          | 0.8775   |
+| 0.016         | 105.9823 | 2994 | 0.5701          | 0.88     |
+| 0.0369        | 106.9735 | 3022 | 0.5791          | 0.8825   |
+| 0.0357        | 108.0    | 3051 | 0.5730          | 0.8725   |
+| 0.0361        | 108.9912 | 3079 | 0.5627          | 0.8725   |
+| 0.0438        | 109.9823 | 3107 | 0.5812          | 0.875    |
+| 0.0243        | 110.9735 | 3135 | 0.5922          | 0.8725   |
+| 0.0241        | 112.0    | 3164 | 0.5913          | 0.8775   |
+| 0.0256        | 112.9912 | 3192 | 0.5862          | 0.8675   |
+| 0.0247        | 113.9823 | 3220 | 0.5813          | 0.8675   |
+| 0.028         | 114.9735 | 3248 | 0.5752          | 0.87     |
+| 0.0177        | 116.0    | 3277 | 0.5742          | 0.87     |
+| 0.0255        | 116.9912 | 3305 | 0.5795          | 0.87     |
+| 0.0174        | 117.9823 | 3333 | 0.5803          | 0.875    |
+| 0.0225        | 118.9381 | 3360 | 0.5797          | 0.875    |
+### Framework versions
+- Transformers 4.44.0
+- Pytorch 2.4.0
+- Datasets 2.21.0
+- Tokenizers 0.19.1

all_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 118.93805309734513,
+    "eval_accuracy": 0.875,
+    "eval_loss": 0.5796830654144287,
+    "eval_runtime": 6.4807,
+    "eval_samples_per_second": 61.722,
+    "eval_steps_per_second": 2.006,
+    "total_flos": 1.0779764781475824e+19,
+    "train_loss": 0.10835168258996591,
+    "train_runtime": 10219.331,
+    "train_samples_per_second": 42.273,
+    "train_steps_per_second": 0.329
+}

config.json ADDED Viewed

	@@ -0,0 +1,67 @@

+{
+  "_name_or_path": "facebook/convnextv2-tiny-1k-224",
+  "architectures": [
+    "ConvNextV2ForImageClassification"
+  ],
+  "depths": [
+    3,
+    3,
+    9,
+    3
+  ],
+  "drop_path_rate": 0.0,
+  "hidden_act": "gelu",
+  "hidden_sizes": [
+    96,
+    192,
+    384,
+    768
+  ],
+  "id2label": {
+    "0": "Abstract_Pattern",
+    "1": "Check_Pattern",
+    "2": "Color_Block_Pattern",
+    "3": "Embellished_Pattern",
+    "4": "Embroider_Pattern",
+    "5": "Geometric_pattern",
+    "6": "Graphic_Pattern",
+    "7": "Lace_Pattern",
+    "8": "Polka_Dot_Pattern",
+    "9": "Stripes_Pattern"
+  },
+  "image_size": 224,
+  "initializer_range": 0.02,
+  "label2id": {
+    "Abstract_Pattern": 0,
+    "Check_Pattern": 1,
+    "Color_Block_Pattern": 2,
+    "Embellished_Pattern": 3,
+    "Embroider_Pattern": 4,
+    "Geometric_pattern": 5,
+    "Graphic_Pattern": 6,
+    "Lace_Pattern": 7,
+    "Polka_Dot_Pattern": 8,
+    "Stripes_Pattern": 9
+  },
+  "layer_norm_eps": 1e-12,
+  "model_type": "convnextv2",
+  "num_channels": 3,
+  "num_stages": 4,
+  "out_features": [
+    "stage4"
+  ],
+  "out_indices": [
+    4
+  ],
+  "patch_size": 4,
+  "problem_type": "single_label_classification",
+  "stage_names": [
+    "stem",
+    "stage1",
+    "stage2",
+    "stage3",
+    "stage4"
+  ],
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.0"
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 118.93805309734513,
+    "eval_accuracy": 0.875,
+    "eval_loss": 0.5796830654144287,
+    "eval_runtime": 6.4807,
+    "eval_samples_per_second": 61.722,
+    "eval_steps_per_second": 2.006
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9f7b9b0fd9beff1bfedf4c704237acd2522990e8dcd40a2d9d5f06a39844fc10
+size 111520440

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "crop_pct": 0.875,
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.485,
+    0.456,
+    0.406
+  ],
+  "image_processor_type": "ConvNextImageProcessor",
+  "image_std": [
+    0.229,
+    0.224,
+    0.225
+  ],
+  "resample": 3,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "shortest_edge": 224
+  }
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 118.93805309734513,
+    "total_flos": 1.0779764781475824e+19,
+    "train_loss": 0.10835168258996591,
+    "train_runtime": 10219.331,
+    "train_samples_per_second": 42.273,
+    "train_steps_per_second": 0.329
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,3465 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 118.93805309734513,
+  "eval_steps": 500,
+  "global_step": 3360,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.35398230088495575,
+      "grad_norm": 38.51472473144531,
+      "learning_rate": 1.4880952380952381e-06,
+      "loss": 1.7357,
+      "step": 10
+    },
+    {
+      "epoch": 0.7079646017699115,
+      "grad_norm": 38.40711212158203,
+      "learning_rate": 2.9761904761904763e-06,
+      "loss": 1.6954,
+      "step": 20
+    },
+    {
+      "epoch": 0.9911504424778761,
+      "eval_accuracy": 0.58,
+      "eval_loss": 1.4482159614562988,
+      "eval_runtime": 8.0113,
+      "eval_samples_per_second": 49.929,
+      "eval_steps_per_second": 1.623,
+      "step": 28
+    },
+    {
+      "epoch": 1.0619469026548674,
+      "grad_norm": 32.50920867919922,
+      "learning_rate": 4.464285714285715e-06,
+      "loss": 1.4138,
+      "step": 30
+    },
+    {
+      "epoch": 1.415929203539823,
+      "grad_norm": 39.59659957885742,
+      "learning_rate": 5.9523809523809525e-06,
+      "loss": 1.1465,
+      "step": 40
+    },
+    {
+      "epoch": 1.7699115044247788,
+      "grad_norm": 26.62055778503418,
+      "learning_rate": 7.4404761904761905e-06,
+      "loss": 1.015,
+      "step": 50
+    },
+    {
+      "epoch": 1.9823008849557522,
+      "eval_accuracy": 0.7175,
+      "eval_loss": 0.9088323712348938,
+      "eval_runtime": 6.5891,
+      "eval_samples_per_second": 60.707,
+      "eval_steps_per_second": 1.973,
+      "step": 56
+    },
+    {
+      "epoch": 2.1238938053097347,
+      "grad_norm": 29.730579376220703,
+      "learning_rate": 8.92857142857143e-06,
+      "loss": 0.9611,
+      "step": 60
+    },
+    {
+      "epoch": 2.47787610619469,
+      "grad_norm": 30.00710678100586,
+      "learning_rate": 1.0416666666666668e-05,
+      "loss": 0.8009,
+      "step": 70
+    },
+    {
+      "epoch": 2.831858407079646,
+      "grad_norm": 21.186767578125,
+      "learning_rate": 1.1904761904761905e-05,
+      "loss": 0.7953,
+      "step": 80
+    },
+    {
+      "epoch": 2.9734513274336285,
+      "eval_accuracy": 0.7625,
+      "eval_loss": 0.7266157269477844,
+      "eval_runtime": 6.5536,
+      "eval_samples_per_second": 61.035,
+      "eval_steps_per_second": 1.984,
+      "step": 84
+    },
+    {
+      "epoch": 3.185840707964602,
+      "grad_norm": 32.94711685180664,
+      "learning_rate": 1.3392857142857144e-05,
+      "loss": 0.6467,
+      "step": 90
+    },
+    {
+      "epoch": 3.5398230088495577,
+      "grad_norm": 19.001646041870117,
+      "learning_rate": 1.4880952380952381e-05,
+      "loss": 0.6282,
+      "step": 100
+    },
+    {
+      "epoch": 3.893805309734513,
+      "grad_norm": 36.843204498291016,
+      "learning_rate": 1.636904761904762e-05,
+      "loss": 0.627,
+      "step": 110
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.8,
+      "eval_loss": 0.5872101783752441,
+      "eval_runtime": 6.7124,
+      "eval_samples_per_second": 59.591,
+      "eval_steps_per_second": 1.937,
+      "step": 113
+    },
+    {
+      "epoch": 4.247787610619469,
+      "grad_norm": 16.53933334350586,
+      "learning_rate": 1.785714285714286e-05,
+      "loss": 0.5658,
+      "step": 120
+    },
+    {
+      "epoch": 4.601769911504425,
+      "grad_norm": 47.344696044921875,
+      "learning_rate": 1.9345238095238097e-05,
+      "loss": 0.5377,
+      "step": 130
+    },
+    {
+      "epoch": 4.95575221238938,
+      "grad_norm": 20.771940231323242,
+      "learning_rate": 2.0833333333333336e-05,
+      "loss": 0.4684,
+      "step": 140
+    },
+    {
+      "epoch": 4.991150442477876,
+      "eval_accuracy": 0.8175,
+      "eval_loss": 0.5533822774887085,
+      "eval_runtime": 6.5588,
+      "eval_samples_per_second": 60.987,
+      "eval_steps_per_second": 1.982,
+      "step": 141
+    },
+    {
+      "epoch": 5.3097345132743365,
+      "grad_norm": 21.18557357788086,
+      "learning_rate": 2.2321428571428575e-05,
+      "loss": 0.4512,
+      "step": 150
+    },
+    {
+      "epoch": 5.663716814159292,
+      "grad_norm": 23.0177059173584,
+      "learning_rate": 2.380952380952381e-05,
+      "loss": 0.4301,
+      "step": 160
+    },
+    {
+      "epoch": 5.982300884955752,
+      "eval_accuracy": 0.8275,
+      "eval_loss": 0.5052626132965088,
+      "eval_runtime": 6.4246,
+      "eval_samples_per_second": 62.261,
+      "eval_steps_per_second": 2.023,
+      "step": 169
+    },
+    {
+      "epoch": 6.017699115044247,
+      "grad_norm": 30.39218521118164,
+      "learning_rate": 2.529761904761905e-05,
+      "loss": 0.4105,
+      "step": 170
+    },
+    {
+      "epoch": 6.371681415929204,
+      "grad_norm": 19.97724723815918,
+      "learning_rate": 2.6785714285714288e-05,
+      "loss": 0.3878,
+      "step": 180
+    },
+    {
+      "epoch": 6.725663716814159,
+      "grad_norm": 29.496784210205078,
+      "learning_rate": 2.8273809523809523e-05,
+      "loss": 0.3716,
+      "step": 190
+    },
+    {
+      "epoch": 6.9734513274336285,
+      "eval_accuracy": 0.83,
+      "eval_loss": 0.4885025918483734,
+      "eval_runtime": 6.637,
+      "eval_samples_per_second": 60.268,
+      "eval_steps_per_second": 1.959,
+      "step": 197
+    },
+    {
+      "epoch": 7.079646017699115,
+      "grad_norm": 45.38138961791992,
+      "learning_rate": 2.9761904761904762e-05,
+      "loss": 0.3787,
+      "step": 200
+    },
+    {
+      "epoch": 7.433628318584071,
+      "grad_norm": 40.39886474609375,
+      "learning_rate": 3.125e-05,
+      "loss": 0.3277,
+      "step": 210
+    },
+    {
+      "epoch": 7.787610619469026,
+      "grad_norm": 16.372304916381836,
+      "learning_rate": 3.273809523809524e-05,
+      "loss": 0.3798,
+      "step": 220
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.8525,
+      "eval_loss": 0.46391868591308594,
+      "eval_runtime": 6.339,
+      "eval_samples_per_second": 63.102,
+      "eval_steps_per_second": 2.051,
+      "step": 226
+    },
+    {
+      "epoch": 8.141592920353983,
+      "grad_norm": 17.45707130432129,
+      "learning_rate": 3.422619047619048e-05,
+      "loss": 0.2878,
+      "step": 230
+    },
+    {
+      "epoch": 8.495575221238939,
+      "grad_norm": 18.687721252441406,
+      "learning_rate": 3.571428571428572e-05,
+      "loss": 0.3108,
+      "step": 240
+    },
+    {
+      "epoch": 8.849557522123893,
+      "grad_norm": 16.21880531311035,
+      "learning_rate": 3.7202380952380956e-05,
+      "loss": 0.3123,
+      "step": 250
+    },
+    {
+      "epoch": 8.991150442477876,
+      "eval_accuracy": 0.825,
+      "eval_loss": 0.5282442569732666,
+      "eval_runtime": 6.6933,
+      "eval_samples_per_second": 59.761,
+      "eval_steps_per_second": 1.942,
+      "step": 254
+    },
+    {
+      "epoch": 9.20353982300885,
+      "grad_norm": 15.07292366027832,
+      "learning_rate": 3.8690476190476195e-05,
+      "loss": 0.2495,
+      "step": 260
+    },
+    {
+      "epoch": 9.557522123893806,
+      "grad_norm": 20.118724822998047,
+      "learning_rate": 4.017857142857143e-05,
+      "loss": 0.2457,
+      "step": 270
+    },
+    {
+      "epoch": 9.91150442477876,
+      "grad_norm": 14.054291725158691,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 0.3148,
+      "step": 280
+    },
+    {
+      "epoch": 9.982300884955752,
+      "eval_accuracy": 0.8475,
+      "eval_loss": 0.456900417804718,
+      "eval_runtime": 6.5738,
+      "eval_samples_per_second": 60.847,
+      "eval_steps_per_second": 1.978,
+      "step": 282
+    },
+    {
+      "epoch": 10.265486725663717,
+      "grad_norm": 36.96604919433594,
+      "learning_rate": 4.315476190476191e-05,
+      "loss": 0.2527,
+      "step": 290
+    },
+    {
+      "epoch": 10.619469026548673,
+      "grad_norm": 17.349655151367188,
+      "learning_rate": 4.464285714285715e-05,
+      "loss": 0.2425,
+      "step": 300
+    },
+    {
+      "epoch": 10.973451327433628,
+      "grad_norm": 14.201617240905762,
+      "learning_rate": 4.613095238095239e-05,
+      "loss": 0.2427,
+      "step": 310
+    },
+    {
+      "epoch": 10.973451327433628,
+      "eval_accuracy": 0.865,
+      "eval_loss": 0.42058929800987244,
+      "eval_runtime": 6.3979,
+      "eval_samples_per_second": 62.521,
+      "eval_steps_per_second": 2.032,
+      "step": 310
+    },
+    {
+      "epoch": 11.327433628318584,
+      "grad_norm": 13.164992332458496,
+      "learning_rate": 4.761904761904762e-05,
+      "loss": 0.2011,
+      "step": 320
+    },
+    {
+      "epoch": 11.68141592920354,
+      "grad_norm": 23.505887985229492,
+      "learning_rate": 4.910714285714286e-05,
+      "loss": 0.2198,
+      "step": 330
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.84,
+      "eval_loss": 0.48323675990104675,
+      "eval_runtime": 6.7363,
+      "eval_samples_per_second": 59.38,
+      "eval_steps_per_second": 1.93,
+      "step": 339
+    },
+    {
+      "epoch": 12.035398230088495,
+      "grad_norm": 12.627903938293457,
+      "learning_rate": 4.993386243386244e-05,
+      "loss": 0.2127,
+      "step": 340
+    },
+    {
+      "epoch": 12.389380530973451,
+      "grad_norm": 10.761627197265625,
+      "learning_rate": 4.976851851851852e-05,
+      "loss": 0.2224,
+      "step": 350
+    },
+    {
+      "epoch": 12.743362831858407,
+      "grad_norm": 33.78993225097656,
+      "learning_rate": 4.960317460317461e-05,
+      "loss": 0.1995,
+      "step": 360
+    },
+    {
+      "epoch": 12.991150442477876,
+      "eval_accuracy": 0.865,
+      "eval_loss": 0.44683846831321716,
+      "eval_runtime": 6.6173,
+      "eval_samples_per_second": 60.448,
+      "eval_steps_per_second": 1.965,
+      "step": 367
+    },
+    {
+      "epoch": 13.097345132743364,
+      "grad_norm": 10.526817321777344,
+      "learning_rate": 4.943783068783069e-05,
+      "loss": 0.1715,
+      "step": 370
+    },
+    {
+      "epoch": 13.451327433628318,
+      "grad_norm": 15.434138298034668,
+      "learning_rate": 4.927248677248678e-05,
+      "loss": 0.1718,
+      "step": 380
+    },
+    {
+      "epoch": 13.805309734513274,
+      "grad_norm": 9.151437759399414,
+      "learning_rate": 4.910714285714286e-05,
+      "loss": 0.1738,
+      "step": 390
+    },
+    {
+      "epoch": 13.982300884955752,
+      "eval_accuracy": 0.8425,
+      "eval_loss": 0.5668337345123291,
+      "eval_runtime": 6.6205,
+      "eval_samples_per_second": 60.418,
+      "eval_steps_per_second": 1.964,
+      "step": 395
+    },
+    {
+      "epoch": 14.15929203539823,
+      "grad_norm": 11.179224014282227,
+      "learning_rate": 4.894179894179895e-05,
+      "loss": 0.1821,
+      "step": 400
+    },
+    {
+      "epoch": 14.513274336283185,
+      "grad_norm": 13.600383758544922,
+      "learning_rate": 4.8776455026455034e-05,
+      "loss": 0.1875,
+      "step": 410
+    },
+    {
+      "epoch": 14.867256637168142,
+      "grad_norm": 12.053109169006348,
+      "learning_rate": 4.8611111111111115e-05,
+      "loss": 0.1683,
+      "step": 420
+    },
+    {
+      "epoch": 14.973451327433628,
+      "eval_accuracy": 0.8725,
+      "eval_loss": 0.4454367756843567,
+      "eval_runtime": 6.5474,
+      "eval_samples_per_second": 61.093,
+      "eval_steps_per_second": 1.986,
+      "step": 423
+    },
+    {
+      "epoch": 15.221238938053098,
+      "grad_norm": 16.21660041809082,
+      "learning_rate": 4.84457671957672e-05,
+      "loss": 0.1299,
+      "step": 430
+    },
+    {
+      "epoch": 15.575221238938052,
+      "grad_norm": 14.533129692077637,
+      "learning_rate": 4.8280423280423284e-05,
+      "loss": 0.1353,
+      "step": 440
+    },
+    {
+      "epoch": 15.929203539823009,
+      "grad_norm": 24.27181625366211,
+      "learning_rate": 4.811507936507937e-05,
+      "loss": 0.1426,
+      "step": 450
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.8525,
+      "eval_loss": 0.5118055939674377,
+      "eval_runtime": 6.8317,
+      "eval_samples_per_second": 58.551,
+      "eval_steps_per_second": 1.903,
+      "step": 452
+    },
+    {
+      "epoch": 16.283185840707965,
+      "grad_norm": 18.932626724243164,
+      "learning_rate": 4.794973544973545e-05,
+      "loss": 0.1276,
+      "step": 460
+    },
+    {
+      "epoch": 16.63716814159292,
+      "grad_norm": 13.03187084197998,
+      "learning_rate": 4.778439153439154e-05,
+      "loss": 0.1468,
+      "step": 470
+    },
+    {
+      "epoch": 16.991150442477878,
+      "grad_norm": 42.71265411376953,
+      "learning_rate": 4.761904761904762e-05,
+      "loss": 0.133,
+      "step": 480
+    },
+    {
+      "epoch": 16.991150442477878,
+      "eval_accuracy": 0.865,
+      "eval_loss": 0.4713393449783325,
+      "eval_runtime": 6.4565,
+      "eval_samples_per_second": 61.953,
+      "eval_steps_per_second": 2.013,
+      "step": 480
+    },
+    {
+      "epoch": 17.345132743362832,
+      "grad_norm": 8.917379379272461,
+      "learning_rate": 4.745370370370371e-05,
+      "loss": 0.1541,
+      "step": 490
+    },
+    {
+      "epoch": 17.699115044247787,
+      "grad_norm": 16.360355377197266,
+      "learning_rate": 4.7288359788359796e-05,
+      "loss": 0.1148,
+      "step": 500
+    },
+    {
+      "epoch": 17.98230088495575,
+      "eval_accuracy": 0.855,
+      "eval_loss": 0.5225958824157715,
+      "eval_runtime": 7.0446,
+      "eval_samples_per_second": 56.781,
+      "eval_steps_per_second": 1.845,
+      "step": 508
+    },
+    {
+      "epoch": 18.053097345132745,
+      "grad_norm": 14.729361534118652,
+      "learning_rate": 4.7123015873015876e-05,
+      "loss": 0.1592,
+      "step": 510
+    },
+    {
+      "epoch": 18.4070796460177,
+      "grad_norm": 8.965171813964844,
+      "learning_rate": 4.6957671957671964e-05,
+      "loss": 0.137,
+      "step": 520
+    },
+    {
+      "epoch": 18.761061946902654,
+      "grad_norm": 13.508126258850098,
+      "learning_rate": 4.6792328042328045e-05,
+      "loss": 0.1147,
+      "step": 530
+    },
+    {
+      "epoch": 18.97345132743363,
+      "eval_accuracy": 0.8425,
+      "eval_loss": 0.5332815051078796,
+      "eval_runtime": 6.5741,
+      "eval_samples_per_second": 60.844,
+      "eval_steps_per_second": 1.977,
+      "step": 536
+    },
+    {
+      "epoch": 19.115044247787612,
+      "grad_norm": 14.787744522094727,
+      "learning_rate": 4.662698412698413e-05,
+      "loss": 0.125,
+      "step": 540
+    },
+    {
+      "epoch": 19.469026548672566,
+      "grad_norm": 16.165084838867188,
+      "learning_rate": 4.646164021164021e-05,
+      "loss": 0.1157,
+      "step": 550
+    },
+    {
+      "epoch": 19.82300884955752,
+      "grad_norm": 17.71279525756836,
+      "learning_rate": 4.62962962962963e-05,
+      "loss": 0.1284,
+      "step": 560
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.8575,
+      "eval_loss": 0.43993717432022095,
+      "eval_runtime": 6.5441,
+      "eval_samples_per_second": 61.123,
+      "eval_steps_per_second": 1.987,
+      "step": 565
+    },
+    {
+      "epoch": 20.17699115044248,
+      "grad_norm": 9.373887062072754,
+      "learning_rate": 4.613095238095239e-05,
+      "loss": 0.1113,
+      "step": 570
+    },
+    {
+      "epoch": 20.530973451327434,
+      "grad_norm": 21.481483459472656,
+      "learning_rate": 4.596560846560847e-05,
+      "loss": 0.1041,
+      "step": 580
+    },
+    {
+      "epoch": 20.884955752212388,
+      "grad_norm": 11.179847717285156,
+      "learning_rate": 4.580026455026456e-05,
+      "loss": 0.1035,
+      "step": 590
+    },
+    {
+      "epoch": 20.991150442477878,
+      "eval_accuracy": 0.8525,
+      "eval_loss": 0.5193604826927185,
+      "eval_runtime": 6.4413,
+      "eval_samples_per_second": 62.099,
+      "eval_steps_per_second": 2.018,
+      "step": 593
+    },
+    {
+      "epoch": 21.238938053097346,
+      "grad_norm": 11.193985939025879,
+      "learning_rate": 4.563492063492064e-05,
+      "loss": 0.0766,
+      "step": 600
+    },
+    {
+      "epoch": 21.5929203539823,
+      "grad_norm": 25.748003005981445,
+      "learning_rate": 4.5469576719576725e-05,
+      "loss": 0.1186,
+      "step": 610
+    },
+    {
+      "epoch": 21.946902654867255,
+      "grad_norm": 18.839889526367188,
+      "learning_rate": 4.5304232804232806e-05,
+      "loss": 0.1054,
+      "step": 620
+    },
+    {
+      "epoch": 21.98230088495575,
+      "eval_accuracy": 0.845,
+      "eval_loss": 0.5139681100845337,
+      "eval_runtime": 6.5429,
+      "eval_samples_per_second": 61.135,
+      "eval_steps_per_second": 1.987,
+      "step": 621
+    },
+    {
+      "epoch": 22.300884955752213,
+      "grad_norm": 23.48375701904297,
+      "learning_rate": 4.5138888888888894e-05,
+      "loss": 0.1108,
+      "step": 630
+    },
+    {
+      "epoch": 22.654867256637168,
+      "grad_norm": 14.143659591674805,
+      "learning_rate": 4.4973544973544974e-05,
+      "loss": 0.1056,
+      "step": 640
+    },
+    {
+      "epoch": 22.97345132743363,
+      "eval_accuracy": 0.87,
+      "eval_loss": 0.5183441638946533,
+      "eval_runtime": 6.505,
+      "eval_samples_per_second": 61.491,
+      "eval_steps_per_second": 1.998,
+      "step": 649
+    },
+    {
+      "epoch": 23.008849557522122,
+      "grad_norm": 18.987043380737305,
+      "learning_rate": 4.480820105820106e-05,
+      "loss": 0.1202,
+      "step": 650
+    },
+    {
+      "epoch": 23.36283185840708,
+      "grad_norm": 14.656883239746094,
+      "learning_rate": 4.464285714285715e-05,
+      "loss": 0.1047,
+      "step": 660
+    },
+    {
+      "epoch": 23.716814159292035,
+      "grad_norm": 9.784178733825684,
+      "learning_rate": 4.447751322751323e-05,
+      "loss": 0.1224,
+      "step": 670
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.85,
+      "eval_loss": 0.5292716026306152,
+      "eval_runtime": 6.5244,
+      "eval_samples_per_second": 61.309,
+      "eval_steps_per_second": 1.993,
+      "step": 678
+    },
+    {
+      "epoch": 24.07079646017699,
+      "grad_norm": 6.749938011169434,
+      "learning_rate": 4.431216931216932e-05,
+      "loss": 0.0946,
+      "step": 680
+    },
+    {
+      "epoch": 24.424778761061948,
+      "grad_norm": 8.656756401062012,
+      "learning_rate": 4.41468253968254e-05,
+      "loss": 0.1011,
+      "step": 690
+    },
+    {
+      "epoch": 24.778761061946902,
+      "grad_norm": 12.24336051940918,
+      "learning_rate": 4.3981481481481486e-05,
+      "loss": 0.0956,
+      "step": 700
+    },
+    {
+      "epoch": 24.991150442477878,
+      "eval_accuracy": 0.87,
+      "eval_loss": 0.4984818398952484,
+      "eval_runtime": 6.8382,
+      "eval_samples_per_second": 58.495,
+      "eval_steps_per_second": 1.901,
+      "step": 706
+    },
+    {
+      "epoch": 25.13274336283186,
+      "grad_norm": 11.6083345413208,
+      "learning_rate": 4.381613756613757e-05,
+      "loss": 0.1002,
+      "step": 710
+    },
+    {
+      "epoch": 25.486725663716815,
+      "grad_norm": 7.939414024353027,
+      "learning_rate": 4.3650793650793655e-05,
+      "loss": 0.0846,
+      "step": 720
+    },
+    {
+      "epoch": 25.84070796460177,
+      "grad_norm": 17.587238311767578,
+      "learning_rate": 4.3485449735449736e-05,
+      "loss": 0.0717,
+      "step": 730
+    },
+    {
+      "epoch": 25.98230088495575,
+      "eval_accuracy": 0.8625,
+      "eval_loss": 0.5267429351806641,
+      "eval_runtime": 6.7375,
+      "eval_samples_per_second": 59.369,
+      "eval_steps_per_second": 1.93,
+      "step": 734
+    },
+    {
+      "epoch": 26.194690265486727,
+      "grad_norm": 6.991844177246094,
+      "learning_rate": 4.332010582010582e-05,
+      "loss": 0.0992,
+      "step": 740
+    },
+    {
+      "epoch": 26.548672566371682,
+      "grad_norm": 9.317466735839844,
+      "learning_rate": 4.315476190476191e-05,
+      "loss": 0.1031,
+      "step": 750
+    },
+    {
+      "epoch": 26.902654867256636,
+      "grad_norm": 10.530389785766602,
+      "learning_rate": 4.298941798941799e-05,
+      "loss": 0.0858,
+      "step": 760
+    },
+    {
+      "epoch": 26.97345132743363,
+      "eval_accuracy": 0.8575,
+      "eval_loss": 0.5524987578392029,
+      "eval_runtime": 6.5345,
+      "eval_samples_per_second": 61.214,
+      "eval_steps_per_second": 1.989,
+      "step": 762
+    },
+    {
+      "epoch": 27.256637168141594,
+      "grad_norm": 8.615869522094727,
+      "learning_rate": 4.282407407407408e-05,
+      "loss": 0.0926,
+      "step": 770
+    },
+    {
+      "epoch": 27.61061946902655,
+      "grad_norm": 12.212360382080078,
+      "learning_rate": 4.265873015873016e-05,
+      "loss": 0.0722,
+      "step": 780
+    },
+    {
+      "epoch": 27.964601769911503,
+      "grad_norm": 5.2418084144592285,
+      "learning_rate": 4.249338624338625e-05,
+      "loss": 0.097,
+      "step": 790
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.855,
+      "eval_loss": 0.5340389609336853,
+      "eval_runtime": 6.686,
+      "eval_samples_per_second": 59.827,
+      "eval_steps_per_second": 1.944,
+      "step": 791
+    },
+    {
+      "epoch": 28.31858407079646,
+      "grad_norm": 14.163456916809082,
+      "learning_rate": 4.232804232804233e-05,
+      "loss": 0.0899,
+      "step": 800
+    },
+    {
+      "epoch": 28.672566371681416,
+      "grad_norm": 5.519562244415283,
+      "learning_rate": 4.2162698412698416e-05,
+      "loss": 0.0914,
+      "step": 810
+    },
+    {
+      "epoch": 28.991150442477878,
+      "eval_accuracy": 0.87,
+      "eval_loss": 0.4829975962638855,
+      "eval_runtime": 6.7064,
+      "eval_samples_per_second": 59.644,
+      "eval_steps_per_second": 1.938,
+      "step": 819
+    },
+    {
+      "epoch": 29.02654867256637,
+      "grad_norm": 9.859421730041504,
+      "learning_rate": 4.1997354497354504e-05,
+      "loss": 0.0763,
+      "step": 820
+    },
+    {
+      "epoch": 29.38053097345133,
+      "grad_norm": 8.416680335998535,
+      "learning_rate": 4.1832010582010584e-05,
+      "loss": 0.0776,
+      "step": 830
+    },
+    {
+      "epoch": 29.734513274336283,
+      "grad_norm": 7.984038829803467,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 0.0699,
+      "step": 840
+    },
+    {
+      "epoch": 29.98230088495575,
+      "eval_accuracy": 0.8725,
+      "eval_loss": 0.4882781207561493,
+      "eval_runtime": 6.8412,
+      "eval_samples_per_second": 58.47,
+      "eval_steps_per_second": 1.9,
+      "step": 847
+    },
+    {
+      "epoch": 30.088495575221238,
+      "grad_norm": 8.386868476867676,
+      "learning_rate": 4.150132275132275e-05,
+      "loss": 0.0715,
+      "step": 850
+    },
+    {
+      "epoch": 30.442477876106196,
+      "grad_norm": 9.529677391052246,
+      "learning_rate": 4.133597883597884e-05,
+      "loss": 0.0497,
+      "step": 860
+    },
+    {
+      "epoch": 30.79646017699115,
+      "grad_norm": 7.131481647491455,
+      "learning_rate": 4.117063492063492e-05,
+      "loss": 0.0932,
+      "step": 870
+    },
+    {
+      "epoch": 30.97345132743363,
+      "eval_accuracy": 0.8575,
+      "eval_loss": 0.6106424927711487,
+      "eval_runtime": 6.5389,
+      "eval_samples_per_second": 61.173,
+      "eval_steps_per_second": 1.988,
+      "step": 875
+    },
+    {
+      "epoch": 31.150442477876105,
+      "grad_norm": 8.48017692565918,
+      "learning_rate": 4.100529100529101e-05,
+      "loss": 0.0737,
+      "step": 880
+    },
+    {
+      "epoch": 31.504424778761063,
+      "grad_norm": 20.205638885498047,
+      "learning_rate": 4.083994708994709e-05,
+      "loss": 0.1046,
+      "step": 890
+    },
+    {
+      "epoch": 31.858407079646017,
+      "grad_norm": 7.488587856292725,
+      "learning_rate": 4.067460317460318e-05,
+      "loss": 0.0967,
+      "step": 900
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.855,
+      "eval_loss": 0.5614070296287537,
+      "eval_runtime": 6.637,
+      "eval_samples_per_second": 60.268,
+      "eval_steps_per_second": 1.959,
+      "step": 904
+    },
+    {
+      "epoch": 32.21238938053097,
+      "grad_norm": 15.713277816772461,
+      "learning_rate": 4.0509259259259265e-05,
+      "loss": 0.0824,
+      "step": 910
+    },
+    {
+      "epoch": 32.56637168141593,
+      "grad_norm": 14.559676170349121,
+      "learning_rate": 4.0343915343915346e-05,
+      "loss": 0.08,
+      "step": 920
+    },
+    {
+      "epoch": 32.92035398230089,
+      "grad_norm": 10.259367942810059,
+      "learning_rate": 4.017857142857143e-05,
+      "loss": 0.101,
+      "step": 930
+    },
+    {
+      "epoch": 32.991150442477874,
+      "eval_accuracy": 0.8525,
+      "eval_loss": 0.5946634411811829,
+      "eval_runtime": 6.419,
+      "eval_samples_per_second": 62.315,
+      "eval_steps_per_second": 2.025,
+      "step": 932
+    },
+    {
+      "epoch": 33.27433628318584,
+      "grad_norm": 12.391620635986328,
+      "learning_rate": 4.0013227513227514e-05,
+      "loss": 0.0685,
+      "step": 940
+    },
+    {
+      "epoch": 33.6283185840708,
+      "grad_norm": 8.084507942199707,
+      "learning_rate": 3.98478835978836e-05,
+      "loss": 0.0638,
+      "step": 950
+    },
+    {
+      "epoch": 33.982300884955755,
+      "grad_norm": 13.834248542785645,
+      "learning_rate": 3.968253968253968e-05,
+      "loss": 0.0734,
+      "step": 960
+    },
+    {
+      "epoch": 33.982300884955755,
+      "eval_accuracy": 0.87,
+      "eval_loss": 0.5388474464416504,
+      "eval_runtime": 6.7338,
+      "eval_samples_per_second": 59.402,
+      "eval_steps_per_second": 1.931,
+      "step": 960
+    },
+    {
+      "epoch": 34.336283185840706,
+      "grad_norm": 12.779220581054688,
+      "learning_rate": 3.951719576719577e-05,
+      "loss": 0.0652,
+      "step": 970
+    },
+    {
+      "epoch": 34.690265486725664,
+      "grad_norm": 11.898571968078613,
+      "learning_rate": 3.935185185185186e-05,
+      "loss": 0.0742,
+      "step": 980
+    },
+    {
+      "epoch": 34.97345132743363,
+      "eval_accuracy": 0.8725,
+      "eval_loss": 0.51104736328125,
+      "eval_runtime": 6.5062,
+      "eval_samples_per_second": 61.48,
+      "eval_steps_per_second": 1.998,
+      "step": 988
+    },
+    {
+      "epoch": 35.04424778761062,
+      "grad_norm": 3.3031704425811768,
+      "learning_rate": 3.918650793650794e-05,
+      "loss": 0.0663,
+      "step": 990
+    },
+    {
+      "epoch": 35.39823008849557,
+      "grad_norm": 15.559179306030273,
+      "learning_rate": 3.9021164021164026e-05,
+      "loss": 0.0798,
+      "step": 1000
+    },
+    {
+      "epoch": 35.75221238938053,
+      "grad_norm": 6.134705543518066,
+      "learning_rate": 3.885582010582011e-05,
+      "loss": 0.0698,
+      "step": 1010
+    },
+    {
+      "epoch": 36.0,
+      "eval_accuracy": 0.8525,
+      "eval_loss": 0.5383738875389099,
+      "eval_runtime": 6.546,
+      "eval_samples_per_second": 61.106,
+      "eval_steps_per_second": 1.986,
+      "step": 1017
+    },
+    {
+      "epoch": 36.10619469026549,
+      "grad_norm": 11.319952964782715,
+      "learning_rate": 3.8690476190476195e-05,
+      "loss": 0.0822,
+      "step": 1020
+    },
+    {
+      "epoch": 36.46017699115044,
+      "grad_norm": 10.789596557617188,
+      "learning_rate": 3.8525132275132275e-05,
+      "loss": 0.073,
+      "step": 1030
+    },
+    {
+      "epoch": 36.8141592920354,
+      "grad_norm": 8.706029891967773,
+      "learning_rate": 3.835978835978836e-05,
+      "loss": 0.0785,
+      "step": 1040
+    },
+    {
+      "epoch": 36.991150442477874,
+      "eval_accuracy": 0.8475,
+      "eval_loss": 0.5407121777534485,
+      "eval_runtime": 6.5706,
+      "eval_samples_per_second": 60.878,
+      "eval_steps_per_second": 1.979,
+      "step": 1045
+    },
+    {
+      "epoch": 37.16814159292036,
+      "grad_norm": 6.673099040985107,
+      "learning_rate": 3.8194444444444444e-05,
+      "loss": 0.0852,
+      "step": 1050
+    },
+    {
+      "epoch": 37.52212389380531,
+      "grad_norm": 7.36367654800415,
+      "learning_rate": 3.802910052910053e-05,
+      "loss": 0.0886,
+      "step": 1060
+    },
+    {
+      "epoch": 37.876106194690266,
+      "grad_norm": 3.059283971786499,
+      "learning_rate": 3.786375661375662e-05,
+      "loss": 0.0718,
+      "step": 1070
+    },
+    {
+      "epoch": 37.982300884955755,
+      "eval_accuracy": 0.86,
+      "eval_loss": 0.5420335531234741,
+      "eval_runtime": 6.4154,
+      "eval_samples_per_second": 62.35,
+      "eval_steps_per_second": 2.026,
+      "step": 1073
+    },
+    {
+      "epoch": 38.230088495575224,
+      "grad_norm": 7.506045818328857,
+      "learning_rate": 3.76984126984127e-05,
+      "loss": 0.076,
+      "step": 1080
+    },
+    {
+      "epoch": 38.584070796460175,
+      "grad_norm": 8.148099899291992,
+      "learning_rate": 3.753306878306879e-05,
+      "loss": 0.0803,
+      "step": 1090
+    },
+    {
+      "epoch": 38.93805309734513,
+      "grad_norm": 7.432723045349121,
+      "learning_rate": 3.736772486772487e-05,
+      "loss": 0.061,
+      "step": 1100
+    },
+    {
+      "epoch": 38.97345132743363,
+      "eval_accuracy": 0.8675,
+      "eval_loss": 0.574724018573761,
+      "eval_runtime": 6.7069,
+      "eval_samples_per_second": 59.64,
+      "eval_steps_per_second": 1.938,
+      "step": 1101
+    },
+    {
+      "epoch": 39.29203539823009,
+      "grad_norm": 14.355220794677734,
+      "learning_rate": 3.7202380952380956e-05,
+      "loss": 0.0548,
+      "step": 1110
+    },
+    {
+      "epoch": 39.64601769911504,
+      "grad_norm": 10.292501449584961,
+      "learning_rate": 3.7037037037037037e-05,
+      "loss": 0.0502,
+      "step": 1120
+    },
+    {
+      "epoch": 40.0,
+      "grad_norm": 14.376887321472168,
+      "learning_rate": 3.6871693121693124e-05,
+      "loss": 0.0695,
+      "step": 1130
+    },
+    {
+      "epoch": 40.0,
+      "eval_accuracy": 0.8575,
+      "eval_loss": 0.5829032063484192,
+      "eval_runtime": 6.5719,
+      "eval_samples_per_second": 60.865,
+      "eval_steps_per_second": 1.978,
+      "step": 1130
+    },
+    {
+      "epoch": 40.35398230088496,
+      "grad_norm": 18.114715576171875,
+      "learning_rate": 3.6706349206349205e-05,
+      "loss": 0.0797,
+      "step": 1140
+    },
+    {
+      "epoch": 40.70796460176991,
+      "grad_norm": 10.844046592712402,
+      "learning_rate": 3.654100529100529e-05,
+      "loss": 0.0611,
+      "step": 1150
+    },
+    {
+      "epoch": 40.991150442477874,
+      "eval_accuracy": 0.8525,
+      "eval_loss": 0.6212093830108643,
+      "eval_runtime": 6.8081,
+      "eval_samples_per_second": 58.754,
+      "eval_steps_per_second": 1.909,
+      "step": 1158
+    },
+    {
+      "epoch": 41.06194690265487,
+      "grad_norm": 12.924333572387695,
+      "learning_rate": 3.637566137566138e-05,
+      "loss": 0.0728,
+      "step": 1160
+    },
+    {
+      "epoch": 41.415929203539825,
+      "grad_norm": 3.6837644577026367,
+      "learning_rate": 3.621031746031746e-05,
+      "loss": 0.0573,
+      "step": 1170
+    },
+    {
+      "epoch": 41.769911504424776,
+      "grad_norm": 5.20457124710083,
+      "learning_rate": 3.604497354497355e-05,
+      "loss": 0.0734,
+      "step": 1180
+    },
+    {
+      "epoch": 41.982300884955755,
+      "eval_accuracy": 0.875,
+      "eval_loss": 0.5034931898117065,
+      "eval_runtime": 6.557,
+      "eval_samples_per_second": 61.003,
+      "eval_steps_per_second": 1.983,
+      "step": 1186
+    },
+    {
+      "epoch": 42.123893805309734,
+      "grad_norm": 7.184965133666992,
+      "learning_rate": 3.587962962962963e-05,
+      "loss": 0.0647,
+      "step": 1190
+    },
+    {
+      "epoch": 42.47787610619469,
+      "grad_norm": 7.6348066329956055,
+      "learning_rate": 3.571428571428572e-05,
+      "loss": 0.0603,
+      "step": 1200
+    },
+    {
+      "epoch": 42.83185840707964,
+      "grad_norm": 12.752991676330566,
+      "learning_rate": 3.55489417989418e-05,
+      "loss": 0.0643,
+      "step": 1210
+    },
+    {
+      "epoch": 42.97345132743363,
+      "eval_accuracy": 0.8775,
+      "eval_loss": 0.5344811677932739,
+      "eval_runtime": 6.6219,
+      "eval_samples_per_second": 60.405,
+      "eval_steps_per_second": 1.963,
+      "step": 1214
+    },
+    {
+      "epoch": 43.1858407079646,
+      "grad_norm": 5.510544776916504,
+      "learning_rate": 3.5383597883597885e-05,
+      "loss": 0.0662,
+      "step": 1220
+    },
+    {
+      "epoch": 43.53982300884956,
+      "grad_norm": 2.6528031826019287,
+      "learning_rate": 3.521825396825397e-05,
+      "loss": 0.0675,
+      "step": 1230
+    },
+    {
+      "epoch": 43.89380530973451,
+      "grad_norm": 6.398866653442383,
+      "learning_rate": 3.5052910052910054e-05,
+      "loss": 0.0625,
+      "step": 1240
+    },
+    {
+      "epoch": 44.0,
+      "eval_accuracy": 0.8625,
+      "eval_loss": 0.5208341479301453,
+      "eval_runtime": 6.5147,
+      "eval_samples_per_second": 61.4,
+      "eval_steps_per_second": 1.995,
+      "step": 1243
+    },
+    {
+      "epoch": 44.24778761061947,
+      "grad_norm": 6.792928695678711,
+      "learning_rate": 3.488756613756614e-05,
+      "loss": 0.0483,
+      "step": 1250
+    },
+    {
+      "epoch": 44.60176991150443,
+      "grad_norm": 14.822004318237305,
+      "learning_rate": 3.472222222222222e-05,
+      "loss": 0.0677,
+      "step": 1260
+    },
+    {
+      "epoch": 44.95575221238938,
+      "grad_norm": 11.953215599060059,
+      "learning_rate": 3.455687830687831e-05,
+      "loss": 0.047,
+      "step": 1270
+    },
+    {
+      "epoch": 44.991150442477874,
+      "eval_accuracy": 0.8675,
+      "eval_loss": 0.5635126233100891,
+      "eval_runtime": 6.9112,
+      "eval_samples_per_second": 57.877,
+      "eval_steps_per_second": 1.881,
+      "step": 1271
+    },
+    {
+      "epoch": 45.309734513274336,
+      "grad_norm": 3.814394950866699,
+      "learning_rate": 3.439153439153439e-05,
+      "loss": 0.0629,
+      "step": 1280
+    },
+    {
+      "epoch": 45.663716814159294,
+      "grad_norm": 11.087026596069336,
+      "learning_rate": 3.422619047619048e-05,
+      "loss": 0.0612,
+      "step": 1290
+    },
+    {
+      "epoch": 45.982300884955755,
+      "eval_accuracy": 0.8775,
+      "eval_loss": 0.4720584750175476,
+      "eval_runtime": 6.6138,
+      "eval_samples_per_second": 60.48,
+      "eval_steps_per_second": 1.966,
+      "step": 1299
+    },
+    {
+      "epoch": 46.017699115044245,
+      "grad_norm": 11.228111267089844,
+      "learning_rate": 3.406084656084656e-05,
+      "loss": 0.0503,
+      "step": 1300
+    },
+    {
+      "epoch": 46.3716814159292,
+      "grad_norm": 5.904040813446045,
+      "learning_rate": 3.3895502645502647e-05,
+      "loss": 0.0598,
+      "step": 1310
+    },
+    {
+      "epoch": 46.72566371681416,
+      "grad_norm": 4.406146049499512,
+      "learning_rate": 3.3730158730158734e-05,
+      "loss": 0.0582,
+      "step": 1320
+    },
+    {
+      "epoch": 46.97345132743363,
+      "eval_accuracy": 0.855,
+      "eval_loss": 0.5683026909828186,
+      "eval_runtime": 6.5041,
+      "eval_samples_per_second": 61.5,
+      "eval_steps_per_second": 1.999,
+      "step": 1327
+    },
+    {
+      "epoch": 47.07964601769911,
+      "grad_norm": 4.003131866455078,
+      "learning_rate": 3.3564814814814815e-05,
+      "loss": 0.0717,
+      "step": 1330
+    },
+    {
+      "epoch": 47.43362831858407,
+      "grad_norm": 4.299389839172363,
+      "learning_rate": 3.33994708994709e-05,
+      "loss": 0.0387,
+      "step": 1340
+    },
+    {
+      "epoch": 47.78761061946903,
+      "grad_norm": 2.899742364883423,
+      "learning_rate": 3.3234126984126983e-05,
+      "loss": 0.0516,
+      "step": 1350
+    },
+    {
+      "epoch": 48.0,
+      "eval_accuracy": 0.8625,
+      "eval_loss": 0.5882661938667297,
+      "eval_runtime": 6.5446,
+      "eval_samples_per_second": 61.119,
+      "eval_steps_per_second": 1.986,
+      "step": 1356
+    },
+    {
+      "epoch": 48.14159292035398,
+      "grad_norm": 13.842363357543945,
+      "learning_rate": 3.306878306878307e-05,
+      "loss": 0.0612,
+      "step": 1360
+    },
+    {
+      "epoch": 48.49557522123894,
+      "grad_norm": 8.8641939163208,
+      "learning_rate": 3.290343915343915e-05,
+      "loss": 0.0694,
+      "step": 1370
+    },
+    {
+      "epoch": 48.849557522123895,
+      "grad_norm": 1.9123202562332153,
+      "learning_rate": 3.273809523809524e-05,
+      "loss": 0.0427,
+      "step": 1380
+    },
+    {
+      "epoch": 48.991150442477874,
+      "eval_accuracy": 0.8575,
+      "eval_loss": 0.5756899118423462,
+      "eval_runtime": 6.7885,
+      "eval_samples_per_second": 58.923,
+      "eval_steps_per_second": 1.915,
+      "step": 1384
+    },
+    {
+      "epoch": 49.203539823008846,
+      "grad_norm": 8.457569122314453,
+      "learning_rate": 3.257275132275133e-05,
+      "loss": 0.0541,
+      "step": 1390
+    },
+    {
+      "epoch": 49.557522123893804,
+      "grad_norm": 10.296213150024414,
+      "learning_rate": 3.240740740740741e-05,
+      "loss": 0.0693,
+      "step": 1400
+    },
+    {
+      "epoch": 49.91150442477876,
+      "grad_norm": 7.295350551605225,
+      "learning_rate": 3.2242063492063495e-05,
+      "loss": 0.0601,
+      "step": 1410
+    },
+    {
+      "epoch": 49.982300884955755,
+      "eval_accuracy": 0.8625,
+      "eval_loss": 0.5367708802223206,
+      "eval_runtime": 6.5402,
+      "eval_samples_per_second": 61.16,
+      "eval_steps_per_second": 1.988,
+      "step": 1412
+    },
+    {
+      "epoch": 50.26548672566372,
+      "grad_norm": 10.658272743225098,
+      "learning_rate": 3.2076719576719576e-05,
+      "loss": 0.06,
+      "step": 1420
+    },
+    {
+      "epoch": 50.61946902654867,
+      "grad_norm": 8.091354370117188,
+      "learning_rate": 3.1911375661375664e-05,
+      "loss": 0.0653,
+      "step": 1430
+    },
+    {
+      "epoch": 50.97345132743363,
+      "grad_norm": 6.116772174835205,
+      "learning_rate": 3.1746031746031745e-05,
+      "loss": 0.0645,
+      "step": 1440
+    },
+    {
+      "epoch": 50.97345132743363,
+      "eval_accuracy": 0.84,
+      "eval_loss": 0.5608373284339905,
+      "eval_runtime": 6.6192,
+      "eval_samples_per_second": 60.43,
+      "eval_steps_per_second": 1.964,
+      "step": 1440
+    },
+    {
+      "epoch": 51.32743362831859,
+      "grad_norm": 10.381439208984375,
+      "learning_rate": 3.158068783068783e-05,
+      "loss": 0.0574,
+      "step": 1450
+    },
+    {
+      "epoch": 51.68141592920354,
+      "grad_norm": 4.16278076171875,
+      "learning_rate": 3.141534391534391e-05,
+      "loss": 0.054,
+      "step": 1460
+    },
+    {
+      "epoch": 52.0,
+      "eval_accuracy": 0.87,
+      "eval_loss": 0.5379666686058044,
+      "eval_runtime": 6.5723,
+      "eval_samples_per_second": 60.862,
+      "eval_steps_per_second": 1.978,
+      "step": 1469
+    },
+    {
+      "epoch": 52.0353982300885,
+      "grad_norm": 6.869332313537598,
+      "learning_rate": 3.125e-05,
+      "loss": 0.0516,
+      "step": 1470
+    },
+    {
+      "epoch": 52.389380530973455,
+      "grad_norm": 5.33891487121582,
+      "learning_rate": 3.108465608465609e-05,
+      "loss": 0.0548,
+      "step": 1480
+    },
+    {
+      "epoch": 52.743362831858406,
+      "grad_norm": 8.20958137512207,
+      "learning_rate": 3.091931216931217e-05,
+      "loss": 0.0647,
+      "step": 1490
+    },
+    {
+      "epoch": 52.991150442477874,
+      "eval_accuracy": 0.8625,
+      "eval_loss": 0.5490260124206543,
+      "eval_runtime": 6.4131,
+      "eval_samples_per_second": 62.372,
+      "eval_steps_per_second": 2.027,
+      "step": 1497
+    },
+    {
+      "epoch": 53.097345132743364,
+      "grad_norm": 4.3137617111206055,
+      "learning_rate": 3.075396825396826e-05,
+      "loss": 0.0574,
+      "step": 1500
+    },
+    {
+      "epoch": 53.45132743362832,
+      "grad_norm": 8.59358024597168,
+      "learning_rate": 3.058862433862434e-05,
+      "loss": 0.0553,
+      "step": 1510
+    },
+    {
+      "epoch": 53.80530973451327,
+      "grad_norm": 12.394618034362793,
+      "learning_rate": 3.0423280423280425e-05,
+      "loss": 0.0539,
+      "step": 1520
+    },
+    {
+      "epoch": 53.982300884955755,
+      "eval_accuracy": 0.8625,
+      "eval_loss": 0.5685680508613586,
+      "eval_runtime": 6.3501,
+      "eval_samples_per_second": 62.991,
+      "eval_steps_per_second": 2.047,
+      "step": 1525
+    },
+    {
+      "epoch": 54.15929203539823,
+      "grad_norm": 5.349567890167236,
+      "learning_rate": 3.0257936507936506e-05,
+      "loss": 0.0658,
+      "step": 1530
+    },
+    {
+      "epoch": 54.51327433628319,
+      "grad_norm": 9.836604118347168,
+      "learning_rate": 3.0092592592592593e-05,
+      "loss": 0.0587,
+      "step": 1540
+    },
+    {
+      "epoch": 54.86725663716814,
+      "grad_norm": 3.192077159881592,
+      "learning_rate": 2.9927248677248678e-05,
+      "loss": 0.0485,
+      "step": 1550
+    },
+    {
+      "epoch": 54.97345132743363,
+      "eval_accuracy": 0.8725,
+      "eval_loss": 0.5474461913108826,
+      "eval_runtime": 6.299,
+      "eval_samples_per_second": 63.502,
+      "eval_steps_per_second": 2.064,
+      "step": 1553
+    },
+    {
+      "epoch": 55.2212389380531,
+      "grad_norm": 12.98410415649414,
+      "learning_rate": 2.9761904761904762e-05,
+      "loss": 0.0585,
+      "step": 1560
+    },
+    {
+      "epoch": 55.575221238938056,
+      "grad_norm": 5.569449424743652,
+      "learning_rate": 2.959656084656085e-05,
+      "loss": 0.0528,
+      "step": 1570
+    },
+    {
+      "epoch": 55.92920353982301,
+      "grad_norm": 5.522889137268066,
+      "learning_rate": 2.943121693121693e-05,
+      "loss": 0.0649,
+      "step": 1580
+    },
+    {
+      "epoch": 56.0,
+      "eval_accuracy": 0.86,
+      "eval_loss": 0.5937778949737549,
+      "eval_runtime": 6.5642,
+      "eval_samples_per_second": 60.937,
+      "eval_steps_per_second": 1.98,
+      "step": 1582
+    },
+    {
+      "epoch": 56.283185840707965,
+      "grad_norm": 5.637914180755615,
+      "learning_rate": 2.9265873015873018e-05,
+      "loss": 0.0401,
+      "step": 1590
+    },
+    {
+      "epoch": 56.63716814159292,
+      "grad_norm": 9.390466690063477,
+      "learning_rate": 2.91005291005291e-05,
+      "loss": 0.0645,
+      "step": 1600
+    },
+    {
+      "epoch": 56.991150442477874,
+      "grad_norm": 1.8010101318359375,
+      "learning_rate": 2.8935185185185186e-05,
+      "loss": 0.0486,
+      "step": 1610
+    },
+    {
+      "epoch": 56.991150442477874,
+      "eval_accuracy": 0.86,
+      "eval_loss": 0.5641574263572693,
+      "eval_runtime": 6.3881,
+      "eval_samples_per_second": 62.617,
+      "eval_steps_per_second": 2.035,
+      "step": 1610
+    },
+    {
+      "epoch": 57.34513274336283,
+      "grad_norm": 4.3999924659729,
+      "learning_rate": 2.876984126984127e-05,
+      "loss": 0.0564,
+      "step": 1620
+    },
+    {
+      "epoch": 57.69911504424779,
+      "grad_norm": 4.902792930603027,
+      "learning_rate": 2.8604497354497355e-05,
+      "loss": 0.0385,
+      "step": 1630
+    },
+    {
+      "epoch": 57.982300884955755,
+      "eval_accuracy": 0.8675,
+      "eval_loss": 0.5389891266822815,
+      "eval_runtime": 6.5714,
+      "eval_samples_per_second": 60.87,
+      "eval_steps_per_second": 1.978,
+      "step": 1638
+    },
+    {
+      "epoch": 58.05309734513274,
+      "grad_norm": 2.268341541290283,
+      "learning_rate": 2.8439153439153442e-05,
+      "loss": 0.0307,
+      "step": 1640
+    },
+    {
+      "epoch": 58.4070796460177,
+      "grad_norm": 4.105015277862549,
+      "learning_rate": 2.8273809523809523e-05,
+      "loss": 0.0521,
+      "step": 1650
+    },
+    {
+      "epoch": 58.76106194690266,
+      "grad_norm": 10.11693000793457,
+      "learning_rate": 2.810846560846561e-05,
+      "loss": 0.0404,
+      "step": 1660
+    },
+    {
+      "epoch": 58.97345132743363,
+      "eval_accuracy": 0.8775,
+      "eval_loss": 0.5734975934028625,
+      "eval_runtime": 6.7005,
+      "eval_samples_per_second": 59.697,
+      "eval_steps_per_second": 1.94,
+      "step": 1666
+    },
+    {
+      "epoch": 59.11504424778761,
+      "grad_norm": 6.96762228012085,
+      "learning_rate": 2.7943121693121695e-05,
+      "loss": 0.0536,
+      "step": 1670
+    },
+    {
+      "epoch": 59.469026548672566,
+      "grad_norm": 5.11080265045166,
+      "learning_rate": 2.777777777777778e-05,
+      "loss": 0.0487,
+      "step": 1680
+    },
+    {
+      "epoch": 59.823008849557525,
+      "grad_norm": 14.329901695251465,
+      "learning_rate": 2.7612433862433863e-05,
+      "loss": 0.0543,
+      "step": 1690
+    },
+    {
+      "epoch": 60.0,
+      "eval_accuracy": 0.875,
+      "eval_loss": 0.5116520524024963,
+      "eval_runtime": 6.4229,
+      "eval_samples_per_second": 62.277,
+      "eval_steps_per_second": 2.024,
+      "step": 1695
+    },
+    {
+      "epoch": 60.176991150442475,
+      "grad_norm": 5.092159271240234,
+      "learning_rate": 2.7447089947089948e-05,
+      "loss": 0.0512,
+      "step": 1700
+    },
+    {
+      "epoch": 60.530973451327434,
+      "grad_norm": 7.392366409301758,
+      "learning_rate": 2.7281746031746032e-05,
+      "loss": 0.051,
+      "step": 1710
+    },
+    {
+      "epoch": 60.88495575221239,
+      "grad_norm": 5.99697732925415,
+      "learning_rate": 2.7116402116402116e-05,
+      "loss": 0.0506,
+      "step": 1720
+    },
+    {
+      "epoch": 60.991150442477874,
+      "eval_accuracy": 0.8725,
+      "eval_loss": 0.5422492027282715,
+      "eval_runtime": 6.5064,
+      "eval_samples_per_second": 61.478,
+      "eval_steps_per_second": 1.998,
+      "step": 1723
+    },
+    {
+      "epoch": 61.23893805309734,
+      "grad_norm": 7.004878044128418,
+      "learning_rate": 2.6951058201058204e-05,
+      "loss": 0.0435,
+      "step": 1730
+    },
+    {
+      "epoch": 61.5929203539823,
+      "grad_norm": 10.655908584594727,
+      "learning_rate": 2.6785714285714288e-05,
+      "loss": 0.0522,
+      "step": 1740
+    },
+    {
+      "epoch": 61.94690265486726,
+      "grad_norm": 2.694920778274536,
+      "learning_rate": 2.6620370370370372e-05,
+      "loss": 0.0398,
+      "step": 1750
+    },
+    {
+      "epoch": 61.982300884955755,
+      "eval_accuracy": 0.87,
+      "eval_loss": 0.5472509860992432,
+      "eval_runtime": 6.5285,
+      "eval_samples_per_second": 61.27,
+      "eval_steps_per_second": 1.991,
+      "step": 1751
+    },
+    {
+      "epoch": 62.30088495575221,
+      "grad_norm": 4.999312400817871,
+      "learning_rate": 2.6455026455026456e-05,
+      "loss": 0.0463,
+      "step": 1760
+    },
+    {
+      "epoch": 62.65486725663717,
+      "grad_norm": 5.696354389190674,
+      "learning_rate": 2.628968253968254e-05,
+      "loss": 0.0494,
+      "step": 1770
+    },
+    {
+      "epoch": 62.97345132743363,
+      "eval_accuracy": 0.8675,
+      "eval_loss": 0.5332581996917725,
+      "eval_runtime": 6.6059,
+      "eval_samples_per_second": 60.552,
+      "eval_steps_per_second": 1.968,
+      "step": 1779
+    },
+    {
+      "epoch": 63.008849557522126,
+      "grad_norm": 9.548038482666016,
+      "learning_rate": 2.6124338624338625e-05,
+      "loss": 0.0446,
+      "step": 1780
+    },
+    {
+      "epoch": 63.36283185840708,
+      "grad_norm": 7.306167125701904,
+      "learning_rate": 2.5958994708994712e-05,
+      "loss": 0.0541,
+      "step": 1790
+    },
+    {
+      "epoch": 63.716814159292035,
+      "grad_norm": 16.248004913330078,
+      "learning_rate": 2.5793650793650796e-05,
+      "loss": 0.0472,
+      "step": 1800
+    },
+    {
+      "epoch": 64.0,
+      "eval_accuracy": 0.8825,
+      "eval_loss": 0.5650449395179749,
+      "eval_runtime": 6.5122,
+      "eval_samples_per_second": 61.423,
+      "eval_steps_per_second": 1.996,
+      "step": 1808
+    },
+    {
+      "epoch": 64.070796460177,
+      "grad_norm": 4.15922212600708,
+      "learning_rate": 2.562830687830688e-05,
+      "loss": 0.0564,
+      "step": 1810
+    },
+    {
+      "epoch": 64.42477876106194,
+      "grad_norm": 4.988418102264404,
+      "learning_rate": 2.5462962962962965e-05,
+      "loss": 0.0426,
+      "step": 1820
+    },
+    {
+      "epoch": 64.77876106194691,
+      "grad_norm": 8.311708450317383,
+      "learning_rate": 2.529761904761905e-05,
+      "loss": 0.0504,
+      "step": 1830
+    },
+    {
+      "epoch": 64.99115044247787,
+      "eval_accuracy": 0.8575,
+      "eval_loss": 0.577080488204956,
+      "eval_runtime": 6.3693,
+      "eval_samples_per_second": 62.801,
+      "eval_steps_per_second": 2.041,
+      "step": 1836
+    },
+    {
+      "epoch": 65.13274336283186,
+      "grad_norm": 7.197911739349365,
+      "learning_rate": 2.5132275132275137e-05,
+      "loss": 0.0531,
+      "step": 1840
+    },
+    {
+      "epoch": 65.48672566371681,
+      "grad_norm": 3.72579026222229,
+      "learning_rate": 2.496693121693122e-05,
+      "loss": 0.052,
+      "step": 1850
+    },
+    {
+      "epoch": 65.84070796460178,
+      "grad_norm": 5.802933216094971,
+      "learning_rate": 2.4801587301587305e-05,
+      "loss": 0.044,
+      "step": 1860
+    },
+    {
+      "epoch": 65.98230088495575,
+      "eval_accuracy": 0.86,
+      "eval_loss": 0.5219700336456299,
+      "eval_runtime": 6.6071,
+      "eval_samples_per_second": 60.541,
+      "eval_steps_per_second": 1.968,
+      "step": 1864
+    },
+    {
+      "epoch": 66.19469026548673,
+      "grad_norm": 3.172950267791748,
+      "learning_rate": 2.463624338624339e-05,
+      "loss": 0.0526,
+      "step": 1870
+    },
+    {
+      "epoch": 66.54867256637168,
+      "grad_norm": 8.036627769470215,
+      "learning_rate": 2.4470899470899473e-05,
+      "loss": 0.0405,
+      "step": 1880
+    },
+    {
+      "epoch": 66.90265486725664,
+      "grad_norm": 1.321056604385376,
+      "learning_rate": 2.4305555555555558e-05,
+      "loss": 0.061,
+      "step": 1890
+    },
+    {
+      "epoch": 66.97345132743362,
+      "eval_accuracy": 0.8725,
+      "eval_loss": 0.562214195728302,
+      "eval_runtime": 6.4463,
+      "eval_samples_per_second": 62.051,
+      "eval_steps_per_second": 2.017,
+      "step": 1892
+    },
+    {
+      "epoch": 67.2566371681416,
+      "grad_norm": 5.427750110626221,
+      "learning_rate": 2.4140211640211642e-05,
+      "loss": 0.0476,
+      "step": 1900
+    },
+    {
+      "epoch": 67.61061946902655,
+      "grad_norm": 4.76095724105835,
+      "learning_rate": 2.3974867724867726e-05,
+      "loss": 0.0556,
+      "step": 1910
+    },
+    {
+      "epoch": 67.96460176991151,
+      "grad_norm": 9.611533164978027,
+      "learning_rate": 2.380952380952381e-05,
+      "loss": 0.0459,
+      "step": 1920
+    },
+    {
+      "epoch": 68.0,
+      "eval_accuracy": 0.8625,
+      "eval_loss": 0.5864116549491882,
+      "eval_runtime": 6.4617,
+      "eval_samples_per_second": 61.903,
+      "eval_steps_per_second": 2.012,
+      "step": 1921
+    },
+    {
+      "epoch": 68.31858407079646,
+      "grad_norm": 4.835655689239502,
+      "learning_rate": 2.3644179894179898e-05,
+      "loss": 0.0505,
+      "step": 1930
+    },
+    {
+      "epoch": 68.67256637168141,
+      "grad_norm": 2.6347382068634033,
+      "learning_rate": 2.3478835978835982e-05,
+      "loss": 0.0294,
+      "step": 1940
+    },
+    {
+      "epoch": 68.99115044247787,
+      "eval_accuracy": 0.8625,
+      "eval_loss": 0.6341035962104797,
+      "eval_runtime": 6.4243,
+      "eval_samples_per_second": 62.263,
+      "eval_steps_per_second": 2.024,
+      "step": 1949
+    },
+    {
+      "epoch": 69.02654867256638,
+      "grad_norm": 7.225272178649902,
+      "learning_rate": 2.3313492063492066e-05,
+      "loss": 0.0272,
+      "step": 1950
+    },
+    {
+      "epoch": 69.38053097345133,
+      "grad_norm": 5.250880718231201,
+      "learning_rate": 2.314814814814815e-05,
+      "loss": 0.0485,
+      "step": 1960
+    },
+    {
+      "epoch": 69.73451327433628,
+      "grad_norm": 7.59017276763916,
+      "learning_rate": 2.2982804232804235e-05,
+      "loss": 0.0428,
+      "step": 1970
+    },
+    {
+      "epoch": 69.98230088495575,
+      "eval_accuracy": 0.8675,
+      "eval_loss": 0.569638192653656,
+      "eval_runtime": 6.761,
+      "eval_samples_per_second": 59.163,
+      "eval_steps_per_second": 1.923,
+      "step": 1977
+    },
+    {
+      "epoch": 70.08849557522124,
+      "grad_norm": 0.30605605244636536,
+      "learning_rate": 2.281746031746032e-05,
+      "loss": 0.0364,
+      "step": 1980
+    },
+    {
+      "epoch": 70.4424778761062,
+      "grad_norm": 5.189797878265381,
+      "learning_rate": 2.2652116402116403e-05,
+      "loss": 0.0313,
+      "step": 1990
+    },
+    {
+      "epoch": 70.79646017699115,
+      "grad_norm": 6.693019866943359,
+      "learning_rate": 2.2486772486772487e-05,
+      "loss": 0.0317,
+      "step": 2000
+    },
+    {
+      "epoch": 70.97345132743362,
+      "eval_accuracy": 0.845,
+      "eval_loss": 0.6312776207923889,
+      "eval_runtime": 6.5012,
+      "eval_samples_per_second": 61.527,
+      "eval_steps_per_second": 2.0,
+      "step": 2005
+    },
+    {
+      "epoch": 71.15044247787611,
+      "grad_norm": 4.359290599822998,
+      "learning_rate": 2.2321428571428575e-05,
+      "loss": 0.0403,
+      "step": 2010
+    },
+    {
+      "epoch": 71.50442477876106,
+      "grad_norm": 4.60231351852417,
+      "learning_rate": 2.215608465608466e-05,
+      "loss": 0.0412,
+      "step": 2020
+    },
+    {
+      "epoch": 71.85840707964601,
+      "grad_norm": 1.765071988105774,
+      "learning_rate": 2.1990740740740743e-05,
+      "loss": 0.0453,
+      "step": 2030
+    },
+    {
+      "epoch": 72.0,
+      "eval_accuracy": 0.875,
+      "eval_loss": 0.5954553484916687,
+      "eval_runtime": 6.4648,
+      "eval_samples_per_second": 61.873,
+      "eval_steps_per_second": 2.011,
+      "step": 2034
+    },
+    {
+      "epoch": 72.21238938053098,
+      "grad_norm": 11.668362617492676,
+      "learning_rate": 2.1825396825396827e-05,
+      "loss": 0.0486,
+      "step": 2040
+    },
+    {
+      "epoch": 72.56637168141593,
+      "grad_norm": 7.9339704513549805,
+      "learning_rate": 2.166005291005291e-05,
+      "loss": 0.0439,
+      "step": 2050
+    },
+    {
+      "epoch": 72.92035398230088,
+      "grad_norm": 19.436279296875,
+      "learning_rate": 2.1494708994708996e-05,
+      "loss": 0.0592,
+      "step": 2060
+    },
+    {
+      "epoch": 72.99115044247787,
+      "eval_accuracy": 0.8675,
+      "eval_loss": 0.5844297409057617,
+      "eval_runtime": 6.4907,
+      "eval_samples_per_second": 61.627,
+      "eval_steps_per_second": 2.003,
+      "step": 2062
+    },
+    {
+      "epoch": 73.27433628318585,
+      "grad_norm": 8.772773742675781,
+      "learning_rate": 2.132936507936508e-05,
+      "loss": 0.0515,
+      "step": 2070
+    },
+    {
+      "epoch": 73.6283185840708,
+      "grad_norm": 5.5715651512146,
+      "learning_rate": 2.1164021164021164e-05,
+      "loss": 0.0381,
+      "step": 2080
+    },
+    {
+      "epoch": 73.98230088495575,
+      "grad_norm": 8.322794914245605,
+      "learning_rate": 2.0998677248677252e-05,
+      "loss": 0.0408,
+      "step": 2090
+    },
+    {
+      "epoch": 73.98230088495575,
+      "eval_accuracy": 0.86,
+      "eval_loss": 0.58680659532547,
+      "eval_runtime": 6.4145,
+      "eval_samples_per_second": 62.359,
+      "eval_steps_per_second": 2.027,
+      "step": 2090
+    },
+    {
+      "epoch": 74.33628318584071,
+      "grad_norm": 5.4705657958984375,
+      "learning_rate": 2.0833333333333336e-05,
+      "loss": 0.0469,
+      "step": 2100
+    },
+    {
+      "epoch": 74.69026548672566,
+      "grad_norm": 2.226810932159424,
+      "learning_rate": 2.066798941798942e-05,
+      "loss": 0.0358,
+      "step": 2110
+    },
+    {
+      "epoch": 74.97345132743362,
+      "eval_accuracy": 0.85,
+      "eval_loss": 0.6115119457244873,
+      "eval_runtime": 6.4287,
+      "eval_samples_per_second": 62.221,
+      "eval_steps_per_second": 2.022,
+      "step": 2118
+    },
+    {
+      "epoch": 75.04424778761062,
+      "grad_norm": 7.011991500854492,
+      "learning_rate": 2.0502645502645504e-05,
+      "loss": 0.0292,
+      "step": 2120
+    },
+    {
+      "epoch": 75.39823008849558,
+      "grad_norm": 1.7847497463226318,
+      "learning_rate": 2.033730158730159e-05,
+      "loss": 0.0262,
+      "step": 2130
+    },
+    {
+      "epoch": 75.75221238938053,
+      "grad_norm": 7.093685150146484,
+      "learning_rate": 2.0171957671957673e-05,
+      "loss": 0.0412,
+      "step": 2140
+    },
+    {
+      "epoch": 76.0,
+      "eval_accuracy": 0.865,
+      "eval_loss": 0.5940263271331787,
+      "eval_runtime": 6.4173,
+      "eval_samples_per_second": 62.331,
+      "eval_steps_per_second": 2.026,
+      "step": 2147
+    },
+    {
+      "epoch": 76.10619469026548,
+      "grad_norm": 6.225839138031006,
+      "learning_rate": 2.0006613756613757e-05,
+      "loss": 0.0417,
+      "step": 2150
+    },
+    {
+      "epoch": 76.46017699115045,
+      "grad_norm": 2.1384568214416504,
+      "learning_rate": 1.984126984126984e-05,
+      "loss": 0.0434,
+      "step": 2160
+    },
+    {
+      "epoch": 76.8141592920354,
+      "grad_norm": 5.255856037139893,
+      "learning_rate": 1.967592592592593e-05,
+      "loss": 0.0323,
+      "step": 2170
+    },
+    {
+      "epoch": 76.99115044247787,
+      "eval_accuracy": 0.8625,
+      "eval_loss": 0.5752249956130981,
+      "eval_runtime": 6.4807,
+      "eval_samples_per_second": 61.722,
+      "eval_steps_per_second": 2.006,
+      "step": 2175
+    },
+    {
+      "epoch": 77.16814159292035,
+      "grad_norm": 0.49754026532173157,
+      "learning_rate": 1.9510582010582013e-05,
+      "loss": 0.0221,
+      "step": 2180
+    },
+    {
+      "epoch": 77.52212389380531,
+      "grad_norm": 12.235739707946777,
+      "learning_rate": 1.9345238095238097e-05,
+      "loss": 0.0538,
+      "step": 2190
+    },
+    {
+      "epoch": 77.87610619469027,
+      "grad_norm": 2.086639404296875,
+      "learning_rate": 1.917989417989418e-05,
+      "loss": 0.0378,
+      "step": 2200
+    },
+    {
+      "epoch": 77.98230088495575,
+      "eval_accuracy": 0.8725,
+      "eval_loss": 0.5514724850654602,
+      "eval_runtime": 6.5626,
+      "eval_samples_per_second": 60.952,
+      "eval_steps_per_second": 1.981,
+      "step": 2203
+    },
+    {
+      "epoch": 78.23008849557522,
+      "grad_norm": 7.419439792633057,
+      "learning_rate": 1.9014550264550266e-05,
+      "loss": 0.0261,
+      "step": 2210
+    },
+    {
+      "epoch": 78.58407079646018,
+      "grad_norm": 10.227485656738281,
+      "learning_rate": 1.884920634920635e-05,
+      "loss": 0.036,
+      "step": 2220
+    },
+    {
+      "epoch": 78.93805309734513,
+      "grad_norm": 2.4315621852874756,
+      "learning_rate": 1.8683862433862434e-05,
+      "loss": 0.0359,
+      "step": 2230
+    },
+    {
+      "epoch": 78.97345132743362,
+      "eval_accuracy": 0.8775,
+      "eval_loss": 0.5909903049468994,
+      "eval_runtime": 6.4947,
+      "eval_samples_per_second": 61.589,
+      "eval_steps_per_second": 2.002,
+      "step": 2231
+    },
+    {
+      "epoch": 79.29203539823008,
+      "grad_norm": 4.286372184753418,
+      "learning_rate": 1.8518518518518518e-05,
+      "loss": 0.0325,
+      "step": 2240
+    },
+    {
+      "epoch": 79.64601769911505,
+      "grad_norm": 1.8956272602081299,
+      "learning_rate": 1.8353174603174602e-05,
+      "loss": 0.0374,
+      "step": 2250
+    },
+    {
+      "epoch": 80.0,
+      "grad_norm": 7.963189125061035,
+      "learning_rate": 1.818783068783069e-05,
+      "loss": 0.028,
+      "step": 2260
+    },
+    {
+      "epoch": 80.0,
+      "eval_accuracy": 0.8725,
+      "eval_loss": 0.6060264110565186,
+      "eval_runtime": 6.7895,
+      "eval_samples_per_second": 58.914,
+      "eval_steps_per_second": 1.915,
+      "step": 2260
+    },
+    {
+      "epoch": 80.35398230088495,
+      "grad_norm": 0.9016655683517456,
+      "learning_rate": 1.8022486772486774e-05,
+      "loss": 0.0256,
+      "step": 2270
+    },
+    {
+      "epoch": 80.70796460176992,
+      "grad_norm": 1.1370468139648438,
+      "learning_rate": 1.785714285714286e-05,
+      "loss": 0.032,
+      "step": 2280
+    },
+    {
+      "epoch": 80.99115044247787,
+      "eval_accuracy": 0.8775,
+      "eval_loss": 0.6053940057754517,
+      "eval_runtime": 6.5102,
+      "eval_samples_per_second": 61.442,
+      "eval_steps_per_second": 1.997,
+      "step": 2288
+    },
+    {
+      "epoch": 81.06194690265487,
+      "grad_norm": 1.3163762092590332,
+      "learning_rate": 1.7691798941798943e-05,
+      "loss": 0.0392,
+      "step": 2290
+    },
+    {
+      "epoch": 81.41592920353982,
+      "grad_norm": 5.895244598388672,
+      "learning_rate": 1.7526455026455027e-05,
+      "loss": 0.032,
+      "step": 2300
+    },
+    {
+      "epoch": 81.76991150442478,
+      "grad_norm": 2.7035818099975586,
+      "learning_rate": 1.736111111111111e-05,
+      "loss": 0.032,
+      "step": 2310
+    },
+    {
+      "epoch": 81.98230088495575,
+      "eval_accuracy": 0.8725,
+      "eval_loss": 0.6311793923377991,
+      "eval_runtime": 6.4019,
+      "eval_samples_per_second": 62.482,
+      "eval_steps_per_second": 2.031,
+      "step": 2316
+    },
+    {
+      "epoch": 82.12389380530973,
+      "grad_norm": 1.024576187133789,
+      "learning_rate": 1.7195767195767195e-05,
+      "loss": 0.0224,
+      "step": 2320
+    },
+    {
+      "epoch": 82.47787610619469,
+      "grad_norm": 5.964217662811279,
+      "learning_rate": 1.703042328042328e-05,
+      "loss": 0.0328,
+      "step": 2330
+    },
+    {
+      "epoch": 82.83185840707965,
+      "grad_norm": 1.945139765739441,
+      "learning_rate": 1.6865079365079367e-05,
+      "loss": 0.0228,
+      "step": 2340
+    },
+    {
+      "epoch": 82.97345132743362,
+      "eval_accuracy": 0.87,
+      "eval_loss": 0.6153484582901001,
+      "eval_runtime": 6.5056,
+      "eval_samples_per_second": 61.485,
+      "eval_steps_per_second": 1.998,
+      "step": 2344
+    },
+    {
+      "epoch": 83.1858407079646,
+      "grad_norm": 3.917052745819092,
+      "learning_rate": 1.669973544973545e-05,
+      "loss": 0.0274,
+      "step": 2350
+    },
+    {
+      "epoch": 83.53982300884955,
+      "grad_norm": 3.854186773300171,
+      "learning_rate": 1.6534391534391536e-05,
+      "loss": 0.0374,
+      "step": 2360
+    },
+    {
+      "epoch": 83.89380530973452,
+      "grad_norm": 5.1352152824401855,
+      "learning_rate": 1.636904761904762e-05,
+      "loss": 0.0457,
+      "step": 2370
+    },
+    {
+      "epoch": 84.0,
+      "eval_accuracy": 0.86,
+      "eval_loss": 0.6442777514457703,
+      "eval_runtime": 6.6007,
+      "eval_samples_per_second": 60.6,
+      "eval_steps_per_second": 1.969,
+      "step": 2373
+    },
+    {
+      "epoch": 84.24778761061947,
+      "grad_norm": 7.320106029510498,
+      "learning_rate": 1.6203703703703704e-05,
+      "loss": 0.046,
+      "step": 2380
+    },
+    {
+      "epoch": 84.60176991150442,
+      "grad_norm": 4.170300006866455,
+      "learning_rate": 1.6038359788359788e-05,
+      "loss": 0.0253,
+      "step": 2390
+    },
+    {
+      "epoch": 84.95575221238938,
+      "grad_norm": 4.205738544464111,
+      "learning_rate": 1.5873015873015872e-05,
+      "loss": 0.0248,
+      "step": 2400
+    },
+    {
+      "epoch": 84.99115044247787,
+      "eval_accuracy": 0.875,
+      "eval_loss": 0.5725922584533691,
+      "eval_runtime": 6.3567,
+      "eval_samples_per_second": 62.926,
+      "eval_steps_per_second": 2.045,
+      "step": 2401
+    },
+    {
+      "epoch": 85.30973451327434,
+      "grad_norm": 8.318975448608398,
+      "learning_rate": 1.5707671957671957e-05,
+      "loss": 0.0447,
+      "step": 2410
+    },
+    {
+      "epoch": 85.66371681415929,
+      "grad_norm": 4.4113311767578125,
+      "learning_rate": 1.5542328042328044e-05,
+      "loss": 0.0405,
+      "step": 2420
+    },
+    {
+      "epoch": 85.98230088495575,
+      "eval_accuracy": 0.875,
+      "eval_loss": 0.6042489409446716,
+      "eval_runtime": 6.4207,
+      "eval_samples_per_second": 62.298,
+      "eval_steps_per_second": 2.025,
+      "step": 2429
+    },
+    {
+      "epoch": 86.01769911504425,
+      "grad_norm": 5.3457159996032715,
+      "learning_rate": 1.537698412698413e-05,
+      "loss": 0.0326,
+      "step": 2430
+    },
+    {
+      "epoch": 86.3716814159292,
+      "grad_norm": 6.311764717102051,
+      "learning_rate": 1.5211640211640213e-05,
+      "loss": 0.0263,
+      "step": 2440
+    },
+    {
+      "epoch": 86.72566371681415,
+      "grad_norm": 5.146406650543213,
+      "learning_rate": 1.5046296296296297e-05,
+      "loss": 0.0203,
+      "step": 2450
+    },
+    {
+      "epoch": 86.97345132743362,
+      "eval_accuracy": 0.87,
+      "eval_loss": 0.6107016801834106,
+      "eval_runtime": 6.5468,
+      "eval_samples_per_second": 61.098,
+      "eval_steps_per_second": 1.986,
+      "step": 2457
+    },
+    {
+      "epoch": 87.07964601769912,
+      "grad_norm": 1.7579360008239746,
+      "learning_rate": 1.4880952380952381e-05,
+      "loss": 0.0358,
+      "step": 2460
+    },
+    {
+      "epoch": 87.43362831858407,
+      "grad_norm": 4.512058258056641,
+      "learning_rate": 1.4715608465608465e-05,
+      "loss": 0.0485,
+      "step": 2470
+    },
+    {
+      "epoch": 87.78761061946902,
+      "grad_norm": 11.72947883605957,
+      "learning_rate": 1.455026455026455e-05,
+      "loss": 0.0557,
+      "step": 2480
+    },
+    {
+      "epoch": 88.0,
+      "eval_accuracy": 0.88,
+      "eval_loss": 0.5889678001403809,
+      "eval_runtime": 6.3973,
+      "eval_samples_per_second": 62.527,
+      "eval_steps_per_second": 2.032,
+      "step": 2486
+    },
+    {
+      "epoch": 88.14159292035399,
+      "grad_norm": 15.040348052978516,
+      "learning_rate": 1.4384920634920635e-05,
+      "loss": 0.0306,
+      "step": 2490
+    },
+    {
+      "epoch": 88.49557522123894,
+      "grad_norm": 6.331680774688721,
+      "learning_rate": 1.4219576719576721e-05,
+      "loss": 0.0359,
+      "step": 2500
+    },
+    {
+      "epoch": 88.84955752212389,
+      "grad_norm": 5.7502827644348145,
+      "learning_rate": 1.4054232804232805e-05,
+      "loss": 0.0302,
+      "step": 2510
+    },
+    {
+      "epoch": 88.99115044247787,
+      "eval_accuracy": 0.8625,
+      "eval_loss": 0.5778038501739502,
+      "eval_runtime": 6.345,
+      "eval_samples_per_second": 63.042,
+      "eval_steps_per_second": 2.049,
+      "step": 2514
+    },
+    {
+      "epoch": 89.20353982300885,
+      "grad_norm": 8.19079303741455,
+      "learning_rate": 1.388888888888889e-05,
+      "loss": 0.0338,
+      "step": 2520
+    },
+    {
+      "epoch": 89.5575221238938,
+      "grad_norm": 3.228179693222046,
+      "learning_rate": 1.3723544973544974e-05,
+      "loss": 0.0292,
+      "step": 2530
+    },
+    {
+      "epoch": 89.91150442477876,
+      "grad_norm": 6.094960689544678,
+      "learning_rate": 1.3558201058201058e-05,
+      "loss": 0.0268,
+      "step": 2540
+    },
+    {
+      "epoch": 89.98230088495575,
+      "eval_accuracy": 0.8625,
+      "eval_loss": 0.6038649082183838,
+      "eval_runtime": 6.4685,
+      "eval_samples_per_second": 61.838,
+      "eval_steps_per_second": 2.01,
+      "step": 2542
+    },
+    {
+      "epoch": 90.26548672566372,
+      "grad_norm": 5.123661994934082,
+      "learning_rate": 1.3392857142857144e-05,
+      "loss": 0.0239,
+      "step": 2550
+    },
+    {
+      "epoch": 90.61946902654867,
+      "grad_norm": 6.286872386932373,
+      "learning_rate": 1.3227513227513228e-05,
+      "loss": 0.0295,
+      "step": 2560
+    },
+    {
+      "epoch": 90.97345132743362,
+      "grad_norm": 8.014678955078125,
+      "learning_rate": 1.3062169312169312e-05,
+      "loss": 0.0313,
+      "step": 2570
+    },
+    {
+      "epoch": 90.97345132743362,
+      "eval_accuracy": 0.885,
+      "eval_loss": 0.5608097314834595,
+      "eval_runtime": 6.3306,
+      "eval_samples_per_second": 63.185,
+      "eval_steps_per_second": 2.054,
+      "step": 2570
+    },
+    {
+      "epoch": 91.32743362831859,
+      "grad_norm": 8.690397262573242,
+      "learning_rate": 1.2896825396825398e-05,
+      "loss": 0.028,
+      "step": 2580
+    },
+    {
+      "epoch": 91.68141592920354,
+      "grad_norm": 4.610723972320557,
+      "learning_rate": 1.2731481481481482e-05,
+      "loss": 0.0227,
+      "step": 2590
+    },
+    {
+      "epoch": 92.0,
+      "eval_accuracy": 0.8625,
+      "eval_loss": 0.6019301414489746,
+      "eval_runtime": 6.3561,
+      "eval_samples_per_second": 62.931,
+      "eval_steps_per_second": 2.045,
+      "step": 2599
+    },
+    {
+      "epoch": 92.03539823008849,
+      "grad_norm": 33.1154899597168,
+      "learning_rate": 1.2566137566137568e-05,
+      "loss": 0.034,
+      "step": 2600
+    },
+    {
+      "epoch": 92.38938053097345,
+      "grad_norm": 5.2956013679504395,
+      "learning_rate": 1.2400793650793652e-05,
+      "loss": 0.0393,
+      "step": 2610
+    },
+    {
+      "epoch": 92.7433628318584,
+      "grad_norm": 3.9011313915252686,
+      "learning_rate": 1.2235449735449737e-05,
+      "loss": 0.0277,
+      "step": 2620
+    },
+    {
+      "epoch": 92.99115044247787,
+      "eval_accuracy": 0.8675,
+      "eval_loss": 0.5949091911315918,
+      "eval_runtime": 6.4133,
+      "eval_samples_per_second": 62.37,
+      "eval_steps_per_second": 2.027,
+      "step": 2627
+    },
+    {
+      "epoch": 93.09734513274336,
+      "grad_norm": 7.499249458312988,
+      "learning_rate": 1.2070105820105821e-05,
+      "loss": 0.0338,
+      "step": 2630
+    },
+    {
+      "epoch": 93.45132743362832,
+      "grad_norm": 10.214336395263672,
+      "learning_rate": 1.1904761904761905e-05,
+      "loss": 0.0219,
+      "step": 2640
+    },
+    {
+      "epoch": 93.80530973451327,
+      "grad_norm": 11.573188781738281,
+      "learning_rate": 1.1739417989417991e-05,
+      "loss": 0.0378,
+      "step": 2650
+    },
+    {
+      "epoch": 93.98230088495575,
+      "eval_accuracy": 0.875,
+      "eval_loss": 0.578478217124939,
+      "eval_runtime": 6.319,
+      "eval_samples_per_second": 63.301,
+      "eval_steps_per_second": 2.057,
+      "step": 2655
+    },
+    {
+      "epoch": 94.15929203539822,
+      "grad_norm": 4.489903926849365,
+      "learning_rate": 1.1574074074074075e-05,
+      "loss": 0.0254,
+      "step": 2660
+    },
+    {
+      "epoch": 94.51327433628319,
+      "grad_norm": 3.9934630393981934,
+      "learning_rate": 1.140873015873016e-05,
+      "loss": 0.0288,
+      "step": 2670
+    },
+    {
+      "epoch": 94.86725663716814,
+      "grad_norm": 7.336540699005127,
+      "learning_rate": 1.1243386243386244e-05,
+      "loss": 0.0381,
+      "step": 2680
+    },
+    {
+      "epoch": 94.97345132743362,
+      "eval_accuracy": 0.8825,
+      "eval_loss": 0.5645653009414673,
+      "eval_runtime": 6.4399,
+      "eval_samples_per_second": 62.113,
+      "eval_steps_per_second": 2.019,
+      "step": 2683
+    },
+    {
+      "epoch": 95.22123893805309,
+      "grad_norm": 5.17459774017334,
+      "learning_rate": 1.107804232804233e-05,
+      "loss": 0.0347,
+      "step": 2690
+    },
+    {
+      "epoch": 95.57522123893806,
+      "grad_norm": 10.617063522338867,
+      "learning_rate": 1.0912698412698414e-05,
+      "loss": 0.0338,
+      "step": 2700
+    },
+    {
+      "epoch": 95.929203539823,
+      "grad_norm": 8.908598899841309,
+      "learning_rate": 1.0747354497354498e-05,
+      "loss": 0.0435,
+      "step": 2710
+    },
+    {
+      "epoch": 96.0,
+      "eval_accuracy": 0.88,
+      "eval_loss": 0.5512508153915405,
+      "eval_runtime": 6.387,
+      "eval_samples_per_second": 62.627,
+      "eval_steps_per_second": 2.035,
+      "step": 2712
+    },
+    {
+      "epoch": 96.28318584070796,
+      "grad_norm": 3.1755924224853516,
+      "learning_rate": 1.0582010582010582e-05,
+      "loss": 0.0417,
+      "step": 2720
+    },
+    {
+      "epoch": 96.63716814159292,
+      "grad_norm": 6.078367233276367,
+      "learning_rate": 1.0416666666666668e-05,
+      "loss": 0.0268,
+      "step": 2730
+    },
+    {
+      "epoch": 96.99115044247787,
+      "grad_norm": 11.641453742980957,
+      "learning_rate": 1.0251322751322752e-05,
+      "loss": 0.0264,
+      "step": 2740
+    },
+    {
+      "epoch": 96.99115044247787,
+      "eval_accuracy": 0.875,
+      "eval_loss": 0.5257237553596497,
+      "eval_runtime": 6.678,
+      "eval_samples_per_second": 59.898,
+      "eval_steps_per_second": 1.947,
+      "step": 2740
+    },
+    {
+      "epoch": 97.34513274336283,
+      "grad_norm": 14.086902618408203,
+      "learning_rate": 1.0085978835978836e-05,
+      "loss": 0.0489,
+      "step": 2750
+    },
+    {
+      "epoch": 97.69911504424779,
+      "grad_norm": 2.605114698410034,
+      "learning_rate": 9.92063492063492e-06,
+      "loss": 0.0362,
+      "step": 2760
+    },
+    {
+      "epoch": 97.98230088495575,
+      "eval_accuracy": 0.8825,
+      "eval_loss": 0.5332143306732178,
+      "eval_runtime": 6.5062,
+      "eval_samples_per_second": 61.48,
+      "eval_steps_per_second": 1.998,
+      "step": 2768
+    },
+    {
+      "epoch": 98.05309734513274,
+      "grad_norm": 5.3540730476379395,
+      "learning_rate": 9.755291005291007e-06,
+      "loss": 0.0286,
+      "step": 2770
+    },
+    {
+      "epoch": 98.40707964601769,
+      "grad_norm": 8.65832233428955,
+      "learning_rate": 9.58994708994709e-06,
+      "loss": 0.0345,
+      "step": 2780
+    },
+    {
+      "epoch": 98.76106194690266,
+      "grad_norm": 1.0023494958877563,
+      "learning_rate": 9.424603174603175e-06,
+      "loss": 0.0209,
+      "step": 2790
+    },
+    {
+      "epoch": 98.97345132743362,
+      "eval_accuracy": 0.855,
+      "eval_loss": 0.577680766582489,
+      "eval_runtime": 6.6535,
+      "eval_samples_per_second": 60.119,
+      "eval_steps_per_second": 1.954,
+      "step": 2796
+    },
+    {
+      "epoch": 99.11504424778761,
+      "grad_norm": 5.147085666656494,
+      "learning_rate": 9.259259259259259e-06,
+      "loss": 0.0245,
+      "step": 2800
+    },
+    {
+      "epoch": 99.46902654867256,
+      "grad_norm": 14.565306663513184,
+      "learning_rate": 9.093915343915345e-06,
+      "loss": 0.0282,
+      "step": 2810
+    },
+    {
+      "epoch": 99.82300884955752,
+      "grad_norm": 4.94295072555542,
+      "learning_rate": 8.92857142857143e-06,
+      "loss": 0.0348,
+      "step": 2820
+    },
+    {
+      "epoch": 100.0,
+      "eval_accuracy": 0.8675,
+      "eval_loss": 0.5673981308937073,
+      "eval_runtime": 6.516,
+      "eval_samples_per_second": 61.388,
+      "eval_steps_per_second": 1.995,
+      "step": 2825
+    },
+    {
+      "epoch": 100.17699115044248,
+      "grad_norm": 3.3961915969848633,
+      "learning_rate": 8.763227513227513e-06,
+      "loss": 0.0287,
+      "step": 2830
+    },
+    {
+      "epoch": 100.53097345132744,
+      "grad_norm": 2.0917205810546875,
+      "learning_rate": 8.597883597883598e-06,
+      "loss": 0.0278,
+      "step": 2840
+    },
+    {
+      "epoch": 100.88495575221239,
+      "grad_norm": 6.237668991088867,
+      "learning_rate": 8.432539682539684e-06,
+      "loss": 0.02,
+      "step": 2850
+    },
+    {
+      "epoch": 100.99115044247787,
+      "eval_accuracy": 0.8625,
+      "eval_loss": 0.5743553638458252,
+      "eval_runtime": 6.4632,
+      "eval_samples_per_second": 61.889,
+      "eval_steps_per_second": 2.011,
+      "step": 2853
+    },
+    {
+      "epoch": 101.23893805309734,
+      "grad_norm": 3.717299222946167,
+      "learning_rate": 8.267195767195768e-06,
+      "loss": 0.0431,
+      "step": 2860
+    },
+    {
+      "epoch": 101.59292035398231,
+      "grad_norm": 4.616144180297852,
+      "learning_rate": 8.101851851851852e-06,
+      "loss": 0.0206,
+      "step": 2870
+    },
+    {
+      "epoch": 101.94690265486726,
+      "grad_norm": 3.6342599391937256,
+      "learning_rate": 7.936507936507936e-06,
+      "loss": 0.0092,
+      "step": 2880
+    },
+    {
+      "epoch": 101.98230088495575,
+      "eval_accuracy": 0.8675,
+      "eval_loss": 0.5852380990982056,
+      "eval_runtime": 6.5504,
+      "eval_samples_per_second": 61.065,
+      "eval_steps_per_second": 1.985,
+      "step": 2881
+    },
+    {
+      "epoch": 102.30088495575221,
+      "grad_norm": 3.989046573638916,
+      "learning_rate": 7.771164021164022e-06,
+      "loss": 0.0359,
+      "step": 2890
+    },
+    {
+      "epoch": 102.65486725663717,
+      "grad_norm": 5.654636859893799,
+      "learning_rate": 7.605820105820106e-06,
+      "loss": 0.0343,
+      "step": 2900
+    },
+    {
+      "epoch": 102.97345132743362,
+      "eval_accuracy": 0.8675,
+      "eval_loss": 0.5855699181556702,
+      "eval_runtime": 6.4985,
+      "eval_samples_per_second": 61.553,
+      "eval_steps_per_second": 2.0,
+      "step": 2909
+    },
+    {
+      "epoch": 103.00884955752213,
+      "grad_norm": 10.393845558166504,
+      "learning_rate": 7.4404761904761905e-06,
+      "loss": 0.0307,
+      "step": 2910
+    },
+    {
+      "epoch": 103.36283185840708,
+      "grad_norm": 12.575658798217773,
+      "learning_rate": 7.275132275132275e-06,
+      "loss": 0.0435,
+      "step": 2920
+    },
+    {
+      "epoch": 103.71681415929204,
+      "grad_norm": 2.3426296710968018,
+      "learning_rate": 7.1097883597883606e-06,
+      "loss": 0.0185,
+      "step": 2930
+    },
+    {
+      "epoch": 104.0,
+      "eval_accuracy": 0.88,
+      "eval_loss": 0.566969633102417,
+      "eval_runtime": 6.7641,
+      "eval_samples_per_second": 59.135,
+      "eval_steps_per_second": 1.922,
+      "step": 2938
+    },
+    {
+      "epoch": 104.070796460177,
+      "grad_norm": 1.3525067567825317,
+      "learning_rate": 6.944444444444445e-06,
+      "loss": 0.0287,
+      "step": 2940
+    },
+    {
+      "epoch": 104.42477876106194,
+      "grad_norm": 2.2476863861083984,
+      "learning_rate": 6.779100529100529e-06,
+      "loss": 0.021,
+      "step": 2950
+    },
+    {
+      "epoch": 104.77876106194691,
+      "grad_norm": 4.498152732849121,
+      "learning_rate": 6.613756613756614e-06,
+      "loss": 0.0198,
+      "step": 2960
+    },
+    {
+      "epoch": 104.99115044247787,
+      "eval_accuracy": 0.8775,
+      "eval_loss": 0.5611503720283508,
+      "eval_runtime": 6.4775,
+      "eval_samples_per_second": 61.752,
+      "eval_steps_per_second": 2.007,
+      "step": 2966
+    },
+    {
+      "epoch": 105.13274336283186,
+      "grad_norm": 9.938004493713379,
+      "learning_rate": 6.448412698412699e-06,
+      "loss": 0.0255,
+      "step": 2970
+    },
+    {
+      "epoch": 105.48672566371681,
+      "grad_norm": 1.6436090469360352,
+      "learning_rate": 6.283068783068784e-06,
+      "loss": 0.0218,
+      "step": 2980
+    },
+    {
+      "epoch": 105.84070796460178,
+      "grad_norm": 3.246063232421875,
+      "learning_rate": 6.117724867724868e-06,
+      "loss": 0.016,
+      "step": 2990
+    },
+    {
+      "epoch": 105.98230088495575,
+      "eval_accuracy": 0.88,
+      "eval_loss": 0.5701327323913574,
+      "eval_runtime": 6.4574,
+      "eval_samples_per_second": 61.944,
+      "eval_steps_per_second": 2.013,
+      "step": 2994
+    },
+    {
+      "epoch": 106.19469026548673,
+      "grad_norm": 0.46645891666412354,
+      "learning_rate": 5.9523809523809525e-06,
+      "loss": 0.0389,
+      "step": 3000
+    },
+    {
+      "epoch": 106.54867256637168,
+      "grad_norm": 4.597782135009766,
+      "learning_rate": 5.787037037037038e-06,
+      "loss": 0.0216,
+      "step": 3010
+    },
+    {
+      "epoch": 106.90265486725664,
+      "grad_norm": 9.084229469299316,
+      "learning_rate": 5.621693121693122e-06,
+      "loss": 0.0369,
+      "step": 3020
+    },
+    {
+      "epoch": 106.97345132743362,
+      "eval_accuracy": 0.8825,
+      "eval_loss": 0.5790844559669495,
+      "eval_runtime": 6.5374,
+      "eval_samples_per_second": 61.187,
+      "eval_steps_per_second": 1.989,
+      "step": 3022
+    },
+    {
+      "epoch": 107.2566371681416,
+      "grad_norm": 2.540560007095337,
+      "learning_rate": 5.456349206349207e-06,
+      "loss": 0.0371,
+      "step": 3030
+    },
+    {
+      "epoch": 107.61061946902655,
+      "grad_norm": 1.518036127090454,
+      "learning_rate": 5.291005291005291e-06,
+      "loss": 0.0263,
+      "step": 3040
+    },
+    {
+      "epoch": 107.96460176991151,
+      "grad_norm": 1.1195813417434692,
+      "learning_rate": 5.125661375661376e-06,
+      "loss": 0.0357,
+      "step": 3050
+    },
+    {
+      "epoch": 108.0,
+      "eval_accuracy": 0.8725,
+      "eval_loss": 0.5730476975440979,
+      "eval_runtime": 8.1599,
+      "eval_samples_per_second": 49.02,
+      "eval_steps_per_second": 1.593,
+      "step": 3051
+    },
+    {
+      "epoch": 108.31858407079646,
+      "grad_norm": 1.3580831289291382,
+      "learning_rate": 4.96031746031746e-06,
+      "loss": 0.0277,
+      "step": 3060
+    },
+    {
+      "epoch": 108.67256637168141,
+      "grad_norm": 7.92542839050293,
+      "learning_rate": 4.794973544973545e-06,
+      "loss": 0.0361,
+      "step": 3070
+    },
+    {
+      "epoch": 108.99115044247787,
+      "eval_accuracy": 0.8725,
+      "eval_loss": 0.5626590847969055,
+      "eval_runtime": 6.6363,
+      "eval_samples_per_second": 60.275,
+      "eval_steps_per_second": 1.959,
+      "step": 3079
+    },
+    {
+      "epoch": 109.02654867256638,
+      "grad_norm": 3.268057107925415,
+      "learning_rate": 4.6296296296296296e-06,
+      "loss": 0.0286,
+      "step": 3080
+    },
+    {
+      "epoch": 109.38053097345133,
+      "grad_norm": 2.402693510055542,
+      "learning_rate": 4.464285714285715e-06,
+      "loss": 0.0252,
+      "step": 3090
+    },
+    {
+      "epoch": 109.73451327433628,
+      "grad_norm": 2.8348002433776855,
+      "learning_rate": 4.298941798941799e-06,
+      "loss": 0.0438,
+      "step": 3100
+    },
+    {
+      "epoch": 109.98230088495575,
+      "eval_accuracy": 0.875,
+      "eval_loss": 0.5811652541160583,
+      "eval_runtime": 6.45,
+      "eval_samples_per_second": 62.016,
+      "eval_steps_per_second": 2.016,
+      "step": 3107
+    },
+    {
+      "epoch": 110.08849557522124,
+      "grad_norm": 1.9933407306671143,
+      "learning_rate": 4.133597883597884e-06,
+      "loss": 0.0369,
+      "step": 3110
+    },
+    {
+      "epoch": 110.4424778761062,
+      "grad_norm": 5.182060241699219,
+      "learning_rate": 3.968253968253968e-06,
+      "loss": 0.0297,
+      "step": 3120
+    },
+    {
+      "epoch": 110.79646017699115,
+      "grad_norm": 1.6837078332901,
+      "learning_rate": 3.802910052910053e-06,
+      "loss": 0.0243,
+      "step": 3130
+    },
+    {
+      "epoch": 110.97345132743362,
+      "eval_accuracy": 0.8725,
+      "eval_loss": 0.5921982526779175,
+      "eval_runtime": 6.5644,
+      "eval_samples_per_second": 60.935,
+      "eval_steps_per_second": 1.98,
+      "step": 3135
+    },
+    {
+      "epoch": 111.15044247787611,
+      "grad_norm": 8.855575561523438,
+      "learning_rate": 3.6375661375661373e-06,
+      "loss": 0.0231,
+      "step": 3140
+    },
+    {
+      "epoch": 111.50442477876106,
+      "grad_norm": 4.877293586730957,
+      "learning_rate": 3.4722222222222224e-06,
+      "loss": 0.0216,
+      "step": 3150
+    },
+    {
+      "epoch": 111.85840707964601,
+      "grad_norm": 0.5238684415817261,
+      "learning_rate": 3.306878306878307e-06,
+      "loss": 0.0241,
+      "step": 3160
+    },
+    {
+      "epoch": 112.0,
+      "eval_accuracy": 0.8775,
+      "eval_loss": 0.5913088917732239,
+      "eval_runtime": 6.441,
+      "eval_samples_per_second": 62.102,
+      "eval_steps_per_second": 2.018,
+      "step": 3164
+    },
+    {
+      "epoch": 112.21238938053098,
+      "grad_norm": 2.535374879837036,
+      "learning_rate": 3.141534391534392e-06,
+      "loss": 0.0211,
+      "step": 3170
+    },
+    {
+      "epoch": 112.56637168141593,
+      "grad_norm": 2.7834455966949463,
+      "learning_rate": 2.9761904761904763e-06,
+      "loss": 0.0262,
+      "step": 3180
+    },
+    {
+      "epoch": 112.92035398230088,
+      "grad_norm": 10.206039428710938,
+      "learning_rate": 2.810846560846561e-06,
+      "loss": 0.0256,
+      "step": 3190
+    },
+    {
+      "epoch": 112.99115044247787,
+      "eval_accuracy": 0.8675,
+      "eval_loss": 0.5861657857894897,
+      "eval_runtime": 6.5388,
+      "eval_samples_per_second": 61.173,
+      "eval_steps_per_second": 1.988,
+      "step": 3192
+    },
+    {
+      "epoch": 113.27433628318585,
+      "grad_norm": 1.7272131443023682,
+      "learning_rate": 2.6455026455026455e-06,
+      "loss": 0.0222,
+      "step": 3200
+    },
+    {
+      "epoch": 113.6283185840708,
+      "grad_norm": 0.809811532497406,
+      "learning_rate": 2.48015873015873e-06,
+      "loss": 0.0196,
+      "step": 3210
+    },
+    {
+      "epoch": 113.98230088495575,
+      "grad_norm": 2.7351064682006836,
+      "learning_rate": 2.3148148148148148e-06,
+      "loss": 0.0247,
+      "step": 3220
+    },
+    {
+      "epoch": 113.98230088495575,
+      "eval_accuracy": 0.8675,
+      "eval_loss": 0.5812863111495972,
+      "eval_runtime": 6.4622,
+      "eval_samples_per_second": 61.899,
+      "eval_steps_per_second": 2.012,
+      "step": 3220
+    },
+    {
+      "epoch": 114.33628318584071,
+      "grad_norm": 0.49953562021255493,
+      "learning_rate": 2.1494708994708994e-06,
+      "loss": 0.0193,
+      "step": 3230
+    },
+    {
+      "epoch": 114.69026548672566,
+      "grad_norm": 4.690150260925293,
+      "learning_rate": 1.984126984126984e-06,
+      "loss": 0.028,
+      "step": 3240
+    },
+    {
+      "epoch": 114.97345132743362,
+      "eval_accuracy": 0.87,
+      "eval_loss": 0.5752473473548889,
+      "eval_runtime": 6.3377,
+      "eval_samples_per_second": 63.114,
+      "eval_steps_per_second": 2.051,
+      "step": 3248
+    },
+    {
+      "epoch": 115.04424778761062,
+      "grad_norm": 3.4690709114074707,
+      "learning_rate": 1.8187830687830687e-06,
+      "loss": 0.039,
+      "step": 3250
+    },
+    {
+      "epoch": 115.39823008849558,
+      "grad_norm": 7.698827743530273,
+      "learning_rate": 1.6534391534391535e-06,
+      "loss": 0.0261,
+      "step": 3260
+    },
+    {
+      "epoch": 115.75221238938053,
+      "grad_norm": 2.016017198562622,
+      "learning_rate": 1.4880952380952381e-06,
+      "loss": 0.0177,
+      "step": 3270
+    },
+    {
+      "epoch": 116.0,
+      "eval_accuracy": 0.87,
+      "eval_loss": 0.574239194393158,
+      "eval_runtime": 6.3905,
+      "eval_samples_per_second": 62.593,
+      "eval_steps_per_second": 2.034,
+      "step": 3277
+    },
+    {
+      "epoch": 116.10619469026548,
+      "grad_norm": 5.834602355957031,
+      "learning_rate": 1.3227513227513228e-06,
+      "loss": 0.0129,
+      "step": 3280
+    },
+    {
+      "epoch": 116.46017699115045,
+      "grad_norm": 3.8041961193084717,
+      "learning_rate": 1.1574074074074074e-06,
+      "loss": 0.0336,
+      "step": 3290
+    },
+    {
+      "epoch": 116.8141592920354,
+      "grad_norm": 4.338891983032227,
+      "learning_rate": 9.92063492063492e-07,
+      "loss": 0.0255,
+      "step": 3300
+    },
+    {
+      "epoch": 116.99115044247787,
+      "eval_accuracy": 0.87,
+      "eval_loss": 0.5795088410377502,
+      "eval_runtime": 6.4316,
+      "eval_samples_per_second": 62.193,
+      "eval_steps_per_second": 2.021,
+      "step": 3305
+    },
+    {
+      "epoch": 117.16814159292035,
+      "grad_norm": 0.9658322930335999,
+      "learning_rate": 8.267195767195768e-07,
+      "loss": 0.0206,
+      "step": 3310
+    },
+    {
+      "epoch": 117.52212389380531,
+      "grad_norm": 2.4178810119628906,
+      "learning_rate": 6.613756613756614e-07,
+      "loss": 0.029,
+      "step": 3320
+    },
+    {
+      "epoch": 117.87610619469027,
+      "grad_norm": 0.15479572117328644,
+      "learning_rate": 4.96031746031746e-07,
+      "loss": 0.0174,
+      "step": 3330
+    },
+    {
+      "epoch": 117.98230088495575,
+      "eval_accuracy": 0.875,
+      "eval_loss": 0.5803083777427673,
+      "eval_runtime": 6.7884,
+      "eval_samples_per_second": 58.924,
+      "eval_steps_per_second": 1.915,
+      "step": 3333
+    },
+    {
+      "epoch": 118.23008849557522,
+      "grad_norm": 3.2203192710876465,
+      "learning_rate": 3.306878306878307e-07,
+      "loss": 0.0223,
+      "step": 3340
+    },
+    {
+      "epoch": 118.58407079646018,
+      "grad_norm": 1.2153400182724,
+      "learning_rate": 1.6534391534391535e-07,
+      "loss": 0.0236,
+      "step": 3350
+    },
+    {
+      "epoch": 118.93805309734513,
+      "grad_norm": 3.442626714706421,
+      "learning_rate": 0.0,
+      "loss": 0.0225,
+      "step": 3360
+    },
+    {
+      "epoch": 118.93805309734513,
+      "eval_accuracy": 0.875,
+      "eval_loss": 0.5796830654144287,
+      "eval_runtime": 6.4364,
+      "eval_samples_per_second": 62.147,
+      "eval_steps_per_second": 2.02,
+      "step": 3360
+    },
+    {
+      "epoch": 118.93805309734513,
+      "step": 3360,
+      "total_flos": 1.0779764781475824e+19,
+      "train_loss": 0.10835168258996591,
+      "train_runtime": 10219.331,
+      "train_samples_per_second": 42.273,
+      "train_steps_per_second": 0.329
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 3360,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 120,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": false,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.0779764781475824e+19,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:76963b8a9ccad918f481032b34fe88f03ead6ac29edf721aa097e20abeffa2e4
+size 5240