End of training

Browse files

Files changed (9) hide show

README.md +186 -0
all_results.json +15 -0
config.json +57 -0
eval_results.json +10 -0
model.safetensors +3 -0
preprocessor_config.json +22 -0
train_results.json +8 -0
trainer_state.json +2811 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,186 @@

+---
+license: apache-2.0
+base_model: facebook/convnextv2-tiny-1k-224
+tags:
+- generated_from_trainer
+datasets:
+- imagefolder
+metrics:
+- accuracy
+- precision
+- recall
+model-index:
+- name: convnextv2-tiny-1k-224-finetuned-neck-style
+  results:
+  - task:
+      name: Image Classification
+      type: image-classification
+    dataset:
+      name: imagefolder
+      type: imagefolder
+      config: default
+      split: train
+      args: default
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.8492753623188406
+    - name: Precision
+      type: precision
+      value: 0.8507158478342087
+    - name: Recall
+      type: recall
+      value: 0.8492753623188406
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# convnextv2-tiny-1k-224-finetuned-neck-style
+This model is a fine-tuned version of [facebook/convnextv2-tiny-1k-224](https://huggingface.co/facebook/convnextv2-tiny-1k-224) on the imagefolder dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.6084
+- Accuracy: 0.8493
+- Precision: 0.8507
+- Recall: 0.8493
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 32
+- eval_batch_size: 32
+- seed: 42
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 128
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 100
+### Training results
+| Training Loss | Epoch   | Step | Validation Loss | Accuracy | Precision | Recall |
+|:-------------:|:-------:|:----:|:---------------:|:--------:|:---------:|:------:|
+| 1.613         | 0.9897  | 24   | 1.5833          | 0.2928   | 0.3248    | 0.2928 |
+| 1.5494        | 1.9794  | 48   | 1.4944          | 0.3681   | 0.4410    | 0.3681 |
+| 1.3989        | 2.9691  | 72   | 1.3424          | 0.5159   | 0.5262    | 0.5159 |
+| 1.2238        | 4.0     | 97   | 1.1162          | 0.6261   | 0.6666    | 0.6261 |
+| 0.9585        | 4.9897  | 121  | 0.8966          | 0.6986   | 0.7014    | 0.6986 |
+| 0.8934        | 5.9794  | 145  | 0.7638          | 0.7507   | 0.7490    | 0.7507 |
+| 0.7589        | 6.9691  | 169  | 0.6776          | 0.7652   | 0.7719    | 0.7652 |
+| 0.6746        | 8.0     | 194  | 0.6127          | 0.7623   | 0.7628    | 0.7623 |
+| 0.6048        | 8.9897  | 218  | 0.5221          | 0.8203   | 0.8217    | 0.8203 |
+| 0.531         | 9.9794  | 242  | 0.4931          | 0.8116   | 0.8204    | 0.8116 |
+| 0.57          | 10.9691 | 266  | 0.4480          | 0.8319   | 0.8345    | 0.8319 |
+| 0.4624        | 12.0    | 291  | 0.4214          | 0.8464   | 0.8460    | 0.8464 |
+| 0.417         | 12.9897 | 315  | 0.4439          | 0.8493   | 0.8486    | 0.8493 |
+| 0.3814        | 13.9794 | 339  | 0.4138          | 0.8464   | 0.8478    | 0.8464 |
+| 0.3737        | 14.9691 | 363  | 0.4139          | 0.8464   | 0.8466    | 0.8464 |
+| 0.3971        | 16.0    | 388  | 0.4119          | 0.8638   | 0.8665    | 0.8638 |
+| 0.343         | 16.9897 | 412  | 0.4421          | 0.8609   | 0.8659    | 0.8609 |
+| 0.3311        | 17.9794 | 436  | 0.4581          | 0.8493   | 0.8504    | 0.8493 |
+| 0.2652        | 18.9691 | 460  | 0.4563          | 0.8406   | 0.8441    | 0.8406 |
+| 0.3026        | 20.0    | 485  | 0.4536          | 0.8522   | 0.8549    | 0.8522 |
+| 0.2562        | 20.9897 | 509  | 0.4409          | 0.8464   | 0.8493    | 0.8464 |
+| 0.2282        | 21.9794 | 533  | 0.4389          | 0.8435   | 0.8451    | 0.8435 |
+| 0.2374        | 22.9691 | 557  | 0.4452          | 0.8580   | 0.8589    | 0.8580 |
+| 0.216         | 24.0    | 582  | 0.4375          | 0.8580   | 0.8581    | 0.8580 |
+| 0.2127        | 24.9897 | 606  | 0.4422          | 0.8580   | 0.8588    | 0.8580 |
+| 0.2004        | 25.9794 | 630  | 0.4635          | 0.8522   | 0.8519    | 0.8522 |
+| 0.2029        | 26.9691 | 654  | 0.5215          | 0.8493   | 0.8546    | 0.8493 |
+| 0.1794        | 28.0    | 679  | 0.4756          | 0.8638   | 0.8669    | 0.8638 |
+| 0.1835        | 28.9897 | 703  | 0.4728          | 0.8609   | 0.8650    | 0.8609 |
+| 0.1781        | 29.9794 | 727  | 0.4637          | 0.8551   | 0.8568    | 0.8551 |
+| 0.1671        | 30.9691 | 751  | 0.4856          | 0.8580   | 0.8599    | 0.8580 |
+| 0.1762        | 32.0    | 776  | 0.5008          | 0.8667   | 0.8684    | 0.8667 |
+| 0.1867        | 32.9897 | 800  | 0.5058          | 0.8580   | 0.8585    | 0.8580 |
+| 0.1409        | 33.9794 | 824  | 0.5490          | 0.8406   | 0.8409    | 0.8406 |
+| 0.1315        | 34.9691 | 848  | 0.5284          | 0.8348   | 0.8356    | 0.8348 |
+| 0.1315        | 36.0    | 873  | 0.5415          | 0.8464   | 0.8488    | 0.8464 |
+| 0.1974        | 36.9897 | 897  | 0.5194          | 0.8493   | 0.8536    | 0.8493 |
+| 0.1337        | 37.9794 | 921  | 0.5088          | 0.8609   | 0.8603    | 0.8609 |
+| 0.173         | 38.9691 | 945  | 0.4912          | 0.8667   | 0.8680    | 0.8667 |
+| 0.1409        | 40.0    | 970  | 0.5223          | 0.8493   | 0.8502    | 0.8493 |
+| 0.1379        | 40.9897 | 994  | 0.5204          | 0.8493   | 0.8487    | 0.8493 |
+| 0.1437        | 41.9794 | 1018 | 0.5860          | 0.8522   | 0.8551    | 0.8522 |
+| 0.1022        | 42.9691 | 1042 | 0.5461          | 0.8464   | 0.8492    | 0.8464 |
+| 0.1181        | 44.0    | 1067 | 0.5411          | 0.8551   | 0.8566    | 0.8551 |
+| 0.1212        | 44.9897 | 1091 | 0.5294          | 0.8580   | 0.8580    | 0.8580 |
+| 0.1049        | 45.9794 | 1115 | 0.5667          | 0.8493   | 0.8492    | 0.8493 |
+| 0.1132        | 46.9691 | 1139 | 0.5908          | 0.8464   | 0.8491    | 0.8464 |
+| 0.1313        | 48.0    | 1164 | 0.5996          | 0.8522   | 0.8582    | 0.8522 |
+| 0.1312        | 48.9897 | 1188 | 0.5430          | 0.8580   | 0.8607    | 0.8580 |
+| 0.0996        | 49.9794 | 1212 | 0.5777          | 0.8522   | 0.8561    | 0.8522 |
+| 0.1389        | 50.9691 | 1236 | 0.5758          | 0.8435   | 0.8486    | 0.8435 |
+| 0.1079        | 52.0    | 1261 | 0.5540          | 0.8580   | 0.8611    | 0.8580 |
+| 0.0972        | 52.9897 | 1285 | 0.5600          | 0.8551   | 0.8559    | 0.8551 |
+| 0.0985        | 53.9794 | 1309 | 0.5392          | 0.8638   | 0.8656    | 0.8638 |
+| 0.1112        | 54.9691 | 1333 | 0.5411          | 0.8638   | 0.8656    | 0.8638 |
+| 0.1308        | 56.0    | 1358 | 0.5445          | 0.8638   | 0.8654    | 0.8638 |
+| 0.1005        | 56.9897 | 1382 | 0.5554          | 0.8551   | 0.8551    | 0.8551 |
+| 0.0871        | 57.9794 | 1406 | 0.5966          | 0.8406   | 0.8441    | 0.8406 |
+| 0.1102        | 58.9691 | 1430 | 0.5807          | 0.8522   | 0.8543    | 0.8522 |
+| 0.1028        | 60.0    | 1455 | 0.5654          | 0.8435   | 0.8491    | 0.8435 |
+| 0.107         | 60.9897 | 1479 | 0.5779          | 0.8435   | 0.8461    | 0.8435 |
+| 0.0848        | 61.9794 | 1503 | 0.5843          | 0.8551   | 0.8569    | 0.8551 |
+| 0.0976        | 62.9691 | 1527 | 0.6162          | 0.8435   | 0.8454    | 0.8435 |
+| 0.0977        | 64.0    | 1552 | 0.5822          | 0.8464   | 0.8469    | 0.8464 |
+| 0.1256        | 64.9897 | 1576 | 0.5757          | 0.8493   | 0.8514    | 0.8493 |
+| 0.0883        | 65.9794 | 1600 | 0.5716          | 0.8464   | 0.8467    | 0.8464 |
+| 0.0808        | 66.9691 | 1624 | 0.5726          | 0.8551   | 0.8562    | 0.8551 |
+| 0.1034        | 68.0    | 1649 | 0.5413          | 0.8551   | 0.8549    | 0.8551 |
+| 0.0845        | 68.9897 | 1673 | 0.5826          | 0.8435   | 0.8477    | 0.8435 |
+| 0.0916        | 69.9794 | 1697 | 0.5661          | 0.8522   | 0.8522    | 0.8522 |
+| 0.0912        | 70.9691 | 1721 | 0.5771          | 0.8493   | 0.8498    | 0.8493 |
+| 0.0863        | 72.0    | 1746 | 0.5769          | 0.8551   | 0.8550    | 0.8551 |
+| 0.083         | 72.9897 | 1770 | 0.5860          | 0.8493   | 0.8486    | 0.8493 |
+| 0.0839        | 73.9794 | 1794 | 0.5647          | 0.8551   | 0.8551    | 0.8551 |
+| 0.0903        | 74.9691 | 1818 | 0.6012          | 0.8551   | 0.8535    | 0.8551 |
+| 0.074         | 76.0    | 1843 | 0.6048          | 0.8464   | 0.8461    | 0.8464 |
+| 0.0907        | 76.9897 | 1867 | 0.5807          | 0.8493   | 0.8495    | 0.8493 |
+| 0.0613        | 77.9794 | 1891 | 0.5775          | 0.8377   | 0.8382    | 0.8377 |
+| 0.0964        | 78.9691 | 1915 | 0.5759          | 0.8667   | 0.8676    | 0.8667 |
+| 0.0735        | 80.0    | 1940 | 0.5962          | 0.8551   | 0.8566    | 0.8551 |
+| 0.0663        | 80.9897 | 1964 | 0.5769          | 0.8435   | 0.8441    | 0.8435 |
+| 0.0719        | 81.9794 | 1988 | 0.5826          | 0.8493   | 0.8507    | 0.8493 |
+| 0.0718        | 82.9691 | 2012 | 0.5880          | 0.8580   | 0.8590    | 0.8580 |
+| 0.0925        | 84.0    | 2037 | 0.5986          | 0.8493   | 0.8513    | 0.8493 |
+| 0.0621        | 84.9897 | 2061 | 0.5915          | 0.8493   | 0.8497    | 0.8493 |
+| 0.059         | 85.9794 | 2085 | 0.5779          | 0.8580   | 0.8577    | 0.8580 |
+| 0.0806        | 86.9691 | 2109 | 0.5928          | 0.8493   | 0.8501    | 0.8493 |
+| 0.0617        | 88.0    | 2134 | 0.6062          | 0.8522   | 0.8520    | 0.8522 |
+| 0.0651        | 88.9897 | 2158 | 0.6067          | 0.8522   | 0.8519    | 0.8522 |
+| 0.0754        | 89.9794 | 2182 | 0.6108          | 0.8551   | 0.8553    | 0.8551 |
+| 0.0682        | 90.9691 | 2206 | 0.6185          | 0.8493   | 0.8489    | 0.8493 |
+| 0.0763        | 92.0    | 2231 | 0.6168          | 0.8580   | 0.8575    | 0.8580 |
+| 0.0703        | 92.9897 | 2255 | 0.6259          | 0.8522   | 0.8521    | 0.8522 |
+| 0.0861        | 93.9794 | 2279 | 0.6128          | 0.8551   | 0.8553    | 0.8551 |
+| 0.0807        | 94.9691 | 2303 | 0.6140          | 0.8551   | 0.8547    | 0.8551 |
+| 0.0621        | 96.0    | 2328 | 0.6133          | 0.8522   | 0.8532    | 0.8522 |
+| 0.0831        | 96.9897 | 2352 | 0.6101          | 0.8493   | 0.8507    | 0.8493 |
+| 0.0625        | 97.9794 | 2376 | 0.6097          | 0.8493   | 0.8507    | 0.8493 |
+| 0.0571        | 98.9691 | 2400 | 0.6084          | 0.8493   | 0.8507    | 0.8493 |
+### Framework versions
+- Transformers 4.44.0
+- Pytorch 2.4.0
+- Datasets 2.21.0
+- Tokenizers 0.19.1

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 98.96907216494846,
+    "eval_accuracy": 0.8492753623188406,
+    "eval_loss": 0.6083797812461853,
+    "eval_precision": 0.8507158478342087,
+    "eval_recall": 0.8492753623188406,
+    "eval_runtime": 1.7897,
+    "eval_samples_per_second": 192.765,
+    "eval_steps_per_second": 6.146,
+    "total_flos": 7.732715563096474e+18,
+    "train_loss": 0.2344164727628231,
+    "train_runtime": 4723.8268,
+    "train_samples_per_second": 65.709,
+    "train_steps_per_second": 0.508
+}

config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "_name_or_path": "facebook/convnextv2-tiny-1k-224",
+  "architectures": [
+    "ConvNextV2ForImageClassification"
+  ],
+  "depths": [
+    3,
+    3,
+    9,
+    3
+  ],
+  "drop_path_rate": 0.0,
+  "hidden_act": "gelu",
+  "hidden_sizes": [
+    96,
+    192,
+    384,
+    768
+  ],
+  "id2label": {
+    "0": "mandarin neck",
+    "1": "notch neck",
+    "2": "round neck",
+    "3": "shirt collar",
+    "4": "v neck"
+  },
+  "image_size": 224,
+  "initializer_range": 0.02,
+  "label2id": {
+    "mandarin neck": 0,
+    "notch neck": 1,
+    "round neck": 2,
+    "shirt collar": 3,
+    "v neck": 4
+  },
+  "layer_norm_eps": 1e-12,
+  "model_type": "convnextv2",
+  "num_channels": 3,
+  "num_stages": 4,
+  "out_features": [
+    "stage4"
+  ],
+  "out_indices": [
+    4
+  ],
+  "patch_size": 4,
+  "problem_type": "single_label_classification",
+  "stage_names": [
+    "stem",
+    "stage1",
+    "stage2",
+    "stage3",
+    "stage4"
+  ],
+  "torch_dtype": "float32",
+  "transformers_version": "4.44.0"
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 98.96907216494846,
+    "eval_accuracy": 0.8492753623188406,
+    "eval_loss": 0.6083797812461853,
+    "eval_precision": 0.8507158478342087,
+    "eval_recall": 0.8492753623188406,
+    "eval_runtime": 1.7897,
+    "eval_samples_per_second": 192.765,
+    "eval_steps_per_second": 6.146
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fd531331fc29d04c342346e07e220f05b4ea254206e16c40e28e5a1524c30d57
+size 111505052

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "crop_pct": 0.875,
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.485,
+    0.456,
+    0.406
+  ],
+  "image_processor_type": "ConvNextImageProcessor",
+  "image_std": [
+    0.229,
+    0.224,
+    0.225
+  ],
+  "resample": 3,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "shortest_edge": 224
+  }
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 98.96907216494846,
+    "total_flos": 7.732715563096474e+18,
+    "train_loss": 0.2344164727628231,
+    "train_runtime": 4723.8268,
+    "train_samples_per_second": 65.709,
+    "train_steps_per_second": 0.508
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2811 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 98.96907216494846,
+  "eval_steps": 500,
+  "global_step": 2400,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.41237113402061853,
+      "grad_norm": 5.916716575622559,
+      "learning_rate": 2.0833333333333334e-06,
+      "loss": 1.6297,
+      "step": 10
+    },
+    {
+      "epoch": 0.8247422680412371,
+      "grad_norm": 5.051618576049805,
+      "learning_rate": 4.166666666666667e-06,
+      "loss": 1.613,
+      "step": 20
+    },
+    {
+      "epoch": 0.9896907216494846,
+      "eval_accuracy": 0.2927536231884058,
+      "eval_loss": 1.5833344459533691,
+      "eval_precision": 0.3247879943590829,
+      "eval_recall": 0.2927536231884058,
+      "eval_runtime": 2.9495,
+      "eval_samples_per_second": 116.97,
+      "eval_steps_per_second": 3.729,
+      "step": 24
+    },
+    {
+      "epoch": 1.2371134020618557,
+      "grad_norm": 4.8794169425964355,
+      "learning_rate": 6.25e-06,
+      "loss": 1.5792,
+      "step": 30
+    },
+    {
+      "epoch": 1.6494845360824741,
+      "grad_norm": 6.336801052093506,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 1.5494,
+      "step": 40
+    },
+    {
+      "epoch": 1.9793814432989691,
+      "eval_accuracy": 0.3681159420289855,
+      "eval_loss": 1.4944071769714355,
+      "eval_precision": 0.440954469667821,
+      "eval_recall": 0.3681159420289855,
+      "eval_runtime": 1.7863,
+      "eval_samples_per_second": 193.135,
+      "eval_steps_per_second": 6.158,
+      "step": 48
+    },
+    {
+      "epoch": 2.0618556701030926,
+      "grad_norm": 8.574434280395508,
+      "learning_rate": 1.0416666666666668e-05,
+      "loss": 1.5014,
+      "step": 50
+    },
+    {
+      "epoch": 2.4742268041237114,
+      "grad_norm": 6.564225673675537,
+      "learning_rate": 1.25e-05,
+      "loss": 1.4422,
+      "step": 60
+    },
+    {
+      "epoch": 2.88659793814433,
+      "grad_norm": 5.804593086242676,
+      "learning_rate": 1.4583333333333335e-05,
+      "loss": 1.3989,
+      "step": 70
+    },
+    {
+      "epoch": 2.9690721649484537,
+      "eval_accuracy": 0.5159420289855072,
+      "eval_loss": 1.3423842191696167,
+      "eval_precision": 0.52619860815513,
+      "eval_recall": 0.5159420289855072,
+      "eval_runtime": 1.8303,
+      "eval_samples_per_second": 188.493,
+      "eval_steps_per_second": 6.01,
+      "step": 72
+    },
+    {
+      "epoch": 3.2989690721649483,
+      "grad_norm": 6.893215656280518,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 1.2968,
+      "step": 80
+    },
+    {
+      "epoch": 3.711340206185567,
+      "grad_norm": 12.37126350402832,
+      "learning_rate": 1.8750000000000002e-05,
+      "loss": 1.2238,
+      "step": 90
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.6260869565217392,
+      "eval_loss": 1.1162269115447998,
+      "eval_precision": 0.6665610702002287,
+      "eval_recall": 0.6260869565217392,
+      "eval_runtime": 1.8634,
+      "eval_samples_per_second": 185.144,
+      "eval_steps_per_second": 5.903,
+      "step": 97
+    },
+    {
+      "epoch": 4.123711340206185,
+      "grad_norm": 6.501392841339111,
+      "learning_rate": 2.0833333333333336e-05,
+      "loss": 1.1194,
+      "step": 100
+    },
+    {
+      "epoch": 4.536082474226804,
+      "grad_norm": 14.653229713439941,
+      "learning_rate": 2.2916666666666667e-05,
+      "loss": 1.0499,
+      "step": 110
+    },
+    {
+      "epoch": 4.948453608247423,
+      "grad_norm": 15.2618408203125,
+      "learning_rate": 2.5e-05,
+      "loss": 0.9585,
+      "step": 120
+    },
+    {
+      "epoch": 4.989690721649485,
+      "eval_accuracy": 0.6985507246376812,
+      "eval_loss": 0.8966168761253357,
+      "eval_precision": 0.7013922738306568,
+      "eval_recall": 0.6985507246376812,
+      "eval_runtime": 1.8339,
+      "eval_samples_per_second": 188.12,
+      "eval_steps_per_second": 5.998,
+      "step": 121
+    },
+    {
+      "epoch": 5.360824742268041,
+      "grad_norm": 12.275806427001953,
+      "learning_rate": 2.7083333333333332e-05,
+      "loss": 0.8986,
+      "step": 130
+    },
+    {
+      "epoch": 5.77319587628866,
+      "grad_norm": 15.373220443725586,
+      "learning_rate": 2.916666666666667e-05,
+      "loss": 0.8934,
+      "step": 140
+    },
+    {
+      "epoch": 5.979381443298969,
+      "eval_accuracy": 0.7507246376811594,
+      "eval_loss": 0.763816773891449,
+      "eval_precision": 0.7489666881245252,
+      "eval_recall": 0.7507246376811594,
+      "eval_runtime": 1.9332,
+      "eval_samples_per_second": 178.459,
+      "eval_steps_per_second": 5.69,
+      "step": 145
+    },
+    {
+      "epoch": 6.185567010309279,
+      "grad_norm": 15.394486427307129,
+      "learning_rate": 3.125e-05,
+      "loss": 0.8326,
+      "step": 150
+    },
+    {
+      "epoch": 6.597938144329897,
+      "grad_norm": 14.27376937866211,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 0.7589,
+      "step": 160
+    },
+    {
+      "epoch": 6.969072164948454,
+      "eval_accuracy": 0.7652173913043478,
+      "eval_loss": 0.6776081919670105,
+      "eval_precision": 0.771906259033061,
+      "eval_recall": 0.7652173913043478,
+      "eval_runtime": 1.836,
+      "eval_samples_per_second": 187.91,
+      "eval_steps_per_second": 5.991,
+      "step": 169
+    },
+    {
+      "epoch": 7.010309278350515,
+      "grad_norm": 21.43760871887207,
+      "learning_rate": 3.541666666666667e-05,
+      "loss": 0.7404,
+      "step": 170
+    },
+    {
+      "epoch": 7.422680412371134,
+      "grad_norm": 15.207581520080566,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 0.653,
+      "step": 180
+    },
+    {
+      "epoch": 7.835051546391752,
+      "grad_norm": 25.153663635253906,
+      "learning_rate": 3.958333333333333e-05,
+      "loss": 0.6746,
+      "step": 190
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.7623188405797101,
+      "eval_loss": 0.6126735210418701,
+      "eval_precision": 0.7628428431334807,
+      "eval_recall": 0.7623188405797101,
+      "eval_runtime": 1.8501,
+      "eval_samples_per_second": 186.474,
+      "eval_steps_per_second": 5.946,
+      "step": 194
+    },
+    {
+      "epoch": 8.24742268041237,
+      "grad_norm": 23.2750301361084,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 0.6516,
+      "step": 200
+    },
+    {
+      "epoch": 8.65979381443299,
+      "grad_norm": 21.777841567993164,
+      "learning_rate": 4.375e-05,
+      "loss": 0.6048,
+      "step": 210
+    },
+    {
+      "epoch": 8.989690721649485,
+      "eval_accuracy": 0.8202898550724638,
+      "eval_loss": 0.5220813751220703,
+      "eval_precision": 0.8216835971752063,
+      "eval_recall": 0.8202898550724638,
+      "eval_runtime": 1.8243,
+      "eval_samples_per_second": 189.114,
+      "eval_steps_per_second": 6.03,
+      "step": 218
+    },
+    {
+      "epoch": 9.072164948453608,
+      "grad_norm": 15.630614280700684,
+      "learning_rate": 4.5833333333333334e-05,
+      "loss": 0.5723,
+      "step": 220
+    },
+    {
+      "epoch": 9.484536082474227,
+      "grad_norm": 13.571239471435547,
+      "learning_rate": 4.791666666666667e-05,
+      "loss": 0.5436,
+      "step": 230
+    },
+    {
+      "epoch": 9.896907216494846,
+      "grad_norm": 24.206087112426758,
+      "learning_rate": 5e-05,
+      "loss": 0.531,
+      "step": 240
+    },
+    {
+      "epoch": 9.97938144329897,
+      "eval_accuracy": 0.8115942028985508,
+      "eval_loss": 0.4930874705314636,
+      "eval_precision": 0.8203605371226137,
+      "eval_recall": 0.8115942028985508,
+      "eval_runtime": 1.788,
+      "eval_samples_per_second": 192.958,
+      "eval_steps_per_second": 6.152,
+      "step": 242
+    },
+    {
+      "epoch": 10.309278350515465,
+      "grad_norm": 17.16573715209961,
+      "learning_rate": 4.976851851851852e-05,
+      "loss": 0.5034,
+      "step": 250
+    },
+    {
+      "epoch": 10.721649484536082,
+      "grad_norm": 19.933942794799805,
+      "learning_rate": 4.9537037037037035e-05,
+      "loss": 0.57,
+      "step": 260
+    },
+    {
+      "epoch": 10.969072164948454,
+      "eval_accuracy": 0.8318840579710145,
+      "eval_loss": 0.44795188307762146,
+      "eval_precision": 0.8344579895060443,
+      "eval_recall": 0.8318840579710145,
+      "eval_runtime": 1.8183,
+      "eval_samples_per_second": 189.733,
+      "eval_steps_per_second": 6.049,
+      "step": 266
+    },
+    {
+      "epoch": 11.1340206185567,
+      "grad_norm": 25.91600799560547,
+      "learning_rate": 4.930555555555556e-05,
+      "loss": 0.4791,
+      "step": 270
+    },
+    {
+      "epoch": 11.54639175257732,
+      "grad_norm": 23.493484497070312,
+      "learning_rate": 4.9074074074074075e-05,
+      "loss": 0.4372,
+      "step": 280
+    },
+    {
+      "epoch": 11.958762886597938,
+      "grad_norm": 14.273780822753906,
+      "learning_rate": 4.8842592592592595e-05,
+      "loss": 0.4624,
+      "step": 290
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.8463768115942029,
+      "eval_loss": 0.42139920592308044,
+      "eval_precision": 0.846014277166443,
+      "eval_recall": 0.8463768115942029,
+      "eval_runtime": 1.7884,
+      "eval_samples_per_second": 192.914,
+      "eval_steps_per_second": 6.151,
+      "step": 291
+    },
+    {
+      "epoch": 12.371134020618557,
+      "grad_norm": 26.43771743774414,
+      "learning_rate": 4.8611111111111115e-05,
+      "loss": 0.4509,
+      "step": 300
+    },
+    {
+      "epoch": 12.783505154639176,
+      "grad_norm": 29.501718521118164,
+      "learning_rate": 4.837962962962963e-05,
+      "loss": 0.417,
+      "step": 310
+    },
+    {
+      "epoch": 12.989690721649485,
+      "eval_accuracy": 0.8492753623188406,
+      "eval_loss": 0.44392213225364685,
+      "eval_precision": 0.8485676738054103,
+      "eval_recall": 0.8492753623188406,
+      "eval_runtime": 1.762,
+      "eval_samples_per_second": 195.797,
+      "eval_steps_per_second": 6.243,
+      "step": 315
+    },
+    {
+      "epoch": 13.195876288659793,
+      "grad_norm": 16.380001068115234,
+      "learning_rate": 4.814814814814815e-05,
+      "loss": 0.4042,
+      "step": 320
+    },
+    {
+      "epoch": 13.608247422680412,
+      "grad_norm": 26.098731994628906,
+      "learning_rate": 4.791666666666667e-05,
+      "loss": 0.3814,
+      "step": 330
+    },
+    {
+      "epoch": 13.97938144329897,
+      "eval_accuracy": 0.8463768115942029,
+      "eval_loss": 0.41379421949386597,
+      "eval_precision": 0.8477774513274812,
+      "eval_recall": 0.8463768115942029,
+      "eval_runtime": 1.7998,
+      "eval_samples_per_second": 191.689,
+      "eval_steps_per_second": 6.112,
+      "step": 339
+    },
+    {
+      "epoch": 14.02061855670103,
+      "grad_norm": 13.136883735656738,
+      "learning_rate": 4.768518518518519e-05,
+      "loss": 0.4209,
+      "step": 340
+    },
+    {
+      "epoch": 14.43298969072165,
+      "grad_norm": 18.104930877685547,
+      "learning_rate": 4.745370370370371e-05,
+      "loss": 0.3817,
+      "step": 350
+    },
+    {
+      "epoch": 14.845360824742269,
+      "grad_norm": 27.79136848449707,
+      "learning_rate": 4.722222222222222e-05,
+      "loss": 0.3737,
+      "step": 360
+    },
+    {
+      "epoch": 14.969072164948454,
+      "eval_accuracy": 0.8463768115942029,
+      "eval_loss": 0.41388532519340515,
+      "eval_precision": 0.8466409143288909,
+      "eval_recall": 0.8463768115942029,
+      "eval_runtime": 1.8854,
+      "eval_samples_per_second": 182.983,
+      "eval_steps_per_second": 5.834,
+      "step": 363
+    },
+    {
+      "epoch": 15.257731958762886,
+      "grad_norm": 33.14027786254883,
+      "learning_rate": 4.699074074074074e-05,
+      "loss": 0.3782,
+      "step": 370
+    },
+    {
+      "epoch": 15.670103092783505,
+      "grad_norm": 10.574623107910156,
+      "learning_rate": 4.675925925925926e-05,
+      "loss": 0.3971,
+      "step": 380
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.863768115942029,
+      "eval_loss": 0.4119352400302887,
+      "eval_precision": 0.8664915871553495,
+      "eval_recall": 0.863768115942029,
+      "eval_runtime": 1.8638,
+      "eval_samples_per_second": 185.11,
+      "eval_steps_per_second": 5.902,
+      "step": 388
+    },
+    {
+      "epoch": 16.082474226804123,
+      "grad_norm": 14.796497344970703,
+      "learning_rate": 4.652777777777778e-05,
+      "loss": 0.3227,
+      "step": 390
+    },
+    {
+      "epoch": 16.49484536082474,
+      "grad_norm": 13.750545501708984,
+      "learning_rate": 4.62962962962963e-05,
+      "loss": 0.306,
+      "step": 400
+    },
+    {
+      "epoch": 16.90721649484536,
+      "grad_norm": 15.056818962097168,
+      "learning_rate": 4.6064814814814814e-05,
+      "loss": 0.343,
+      "step": 410
+    },
+    {
+      "epoch": 16.989690721649485,
+      "eval_accuracy": 0.8608695652173913,
+      "eval_loss": 0.4421471655368805,
+      "eval_precision": 0.8659298079116737,
+      "eval_recall": 0.8608695652173913,
+      "eval_runtime": 1.7876,
+      "eval_samples_per_second": 192.996,
+      "eval_steps_per_second": 6.154,
+      "step": 412
+    },
+    {
+      "epoch": 17.31958762886598,
+      "grad_norm": 19.41351318359375,
+      "learning_rate": 4.5833333333333334e-05,
+      "loss": 0.3383,
+      "step": 420
+    },
+    {
+      "epoch": 17.7319587628866,
+      "grad_norm": 22.833810806274414,
+      "learning_rate": 4.5601851851851854e-05,
+      "loss": 0.3311,
+      "step": 430
+    },
+    {
+      "epoch": 17.97938144329897,
+      "eval_accuracy": 0.8492753623188406,
+      "eval_loss": 0.45808833837509155,
+      "eval_precision": 0.8503668982654489,
+      "eval_recall": 0.8492753623188406,
+      "eval_runtime": 1.8173,
+      "eval_samples_per_second": 189.846,
+      "eval_steps_per_second": 6.053,
+      "step": 436
+    },
+    {
+      "epoch": 18.144329896907216,
+      "grad_norm": 9.80312442779541,
+      "learning_rate": 4.5370370370370374e-05,
+      "loss": 0.301,
+      "step": 440
+    },
+    {
+      "epoch": 18.556701030927837,
+      "grad_norm": 17.442903518676758,
+      "learning_rate": 4.5138888888888894e-05,
+      "loss": 0.2594,
+      "step": 450
+    },
+    {
+      "epoch": 18.969072164948454,
+      "grad_norm": 25.01900863647461,
+      "learning_rate": 4.490740740740741e-05,
+      "loss": 0.2652,
+      "step": 460
+    },
+    {
+      "epoch": 18.969072164948454,
+      "eval_accuracy": 0.8405797101449275,
+      "eval_loss": 0.4563068747520447,
+      "eval_precision": 0.8441116322796441,
+      "eval_recall": 0.8405797101449275,
+      "eval_runtime": 1.8121,
+      "eval_samples_per_second": 190.387,
+      "eval_steps_per_second": 6.07,
+      "step": 460
+    },
+    {
+      "epoch": 19.38144329896907,
+      "grad_norm": 22.951929092407227,
+      "learning_rate": 4.467592592592593e-05,
+      "loss": 0.2726,
+      "step": 470
+    },
+    {
+      "epoch": 19.79381443298969,
+      "grad_norm": 17.189971923828125,
+      "learning_rate": 4.4444444444444447e-05,
+      "loss": 0.3026,
+      "step": 480
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.8521739130434782,
+      "eval_loss": 0.4535578489303589,
+      "eval_precision": 0.8549145070160367,
+      "eval_recall": 0.8521739130434782,
+      "eval_runtime": 1.8156,
+      "eval_samples_per_second": 190.019,
+      "eval_steps_per_second": 6.059,
+      "step": 485
+    },
+    {
+      "epoch": 20.20618556701031,
+      "grad_norm": 19.29929542541504,
+      "learning_rate": 4.4212962962962966e-05,
+      "loss": 0.2808,
+      "step": 490
+    },
+    {
+      "epoch": 20.61855670103093,
+      "grad_norm": 23.201435089111328,
+      "learning_rate": 4.3981481481481486e-05,
+      "loss": 0.2562,
+      "step": 500
+    },
+    {
+      "epoch": 20.989690721649485,
+      "eval_accuracy": 0.8463768115942029,
+      "eval_loss": 0.44093257188796997,
+      "eval_precision": 0.8493084398986088,
+      "eval_recall": 0.8463768115942029,
+      "eval_runtime": 1.9468,
+      "eval_samples_per_second": 177.217,
+      "eval_steps_per_second": 5.65,
+      "step": 509
+    },
+    {
+      "epoch": 21.030927835051546,
+      "grad_norm": 12.947028160095215,
+      "learning_rate": 4.375e-05,
+      "loss": 0.2739,
+      "step": 510
+    },
+    {
+      "epoch": 21.443298969072163,
+      "grad_norm": 21.544536590576172,
+      "learning_rate": 4.351851851851852e-05,
+      "loss": 0.2383,
+      "step": 520
+    },
+    {
+      "epoch": 21.855670103092784,
+      "grad_norm": 12.224617958068848,
+      "learning_rate": 4.328703703703704e-05,
+      "loss": 0.2282,
+      "step": 530
+    },
+    {
+      "epoch": 21.97938144329897,
+      "eval_accuracy": 0.8434782608695652,
+      "eval_loss": 0.4388555884361267,
+      "eval_precision": 0.8451190974708183,
+      "eval_recall": 0.8434782608695652,
+      "eval_runtime": 1.7718,
+      "eval_samples_per_second": 194.721,
+      "eval_steps_per_second": 6.208,
+      "step": 533
+    },
+    {
+      "epoch": 22.2680412371134,
+      "grad_norm": 17.55919647216797,
+      "learning_rate": 4.305555555555556e-05,
+      "loss": 0.2505,
+      "step": 540
+    },
+    {
+      "epoch": 22.68041237113402,
+      "grad_norm": 10.570196151733398,
+      "learning_rate": 4.282407407407408e-05,
+      "loss": 0.2374,
+      "step": 550
+    },
+    {
+      "epoch": 22.969072164948454,
+      "eval_accuracy": 0.8579710144927536,
+      "eval_loss": 0.4452122747898102,
+      "eval_precision": 0.8589461524849866,
+      "eval_recall": 0.8579710144927536,
+      "eval_runtime": 1.8751,
+      "eval_samples_per_second": 183.989,
+      "eval_steps_per_second": 5.866,
+      "step": 557
+    },
+    {
+      "epoch": 23.09278350515464,
+      "grad_norm": 25.781587600708008,
+      "learning_rate": 4.259259259259259e-05,
+      "loss": 0.2355,
+      "step": 560
+    },
+    {
+      "epoch": 23.50515463917526,
+      "grad_norm": 22.854766845703125,
+      "learning_rate": 4.236111111111111e-05,
+      "loss": 0.2553,
+      "step": 570
+    },
+    {
+      "epoch": 23.917525773195877,
+      "grad_norm": 15.405595779418945,
+      "learning_rate": 4.212962962962963e-05,
+      "loss": 0.216,
+      "step": 580
+    },
+    {
+      "epoch": 24.0,
+      "eval_accuracy": 0.8579710144927536,
+      "eval_loss": 0.4375264048576355,
+      "eval_precision": 0.858123097800969,
+      "eval_recall": 0.8579710144927536,
+      "eval_runtime": 1.8051,
+      "eval_samples_per_second": 191.128,
+      "eval_steps_per_second": 6.094,
+      "step": 582
+    },
+    {
+      "epoch": 24.329896907216494,
+      "grad_norm": 15.453635215759277,
+      "learning_rate": 4.1898148148148145e-05,
+      "loss": 0.2019,
+      "step": 590
+    },
+    {
+      "epoch": 24.742268041237114,
+      "grad_norm": 12.363275527954102,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 0.2127,
+      "step": 600
+    },
+    {
+      "epoch": 24.989690721649485,
+      "eval_accuracy": 0.8579710144927536,
+      "eval_loss": 0.44218453764915466,
+      "eval_precision": 0.8587798835624924,
+      "eval_recall": 0.8579710144927536,
+      "eval_runtime": 1.9062,
+      "eval_samples_per_second": 180.991,
+      "eval_steps_per_second": 5.771,
+      "step": 606
+    },
+    {
+      "epoch": 25.15463917525773,
+      "grad_norm": 15.13847827911377,
+      "learning_rate": 4.1435185185185185e-05,
+      "loss": 0.2301,
+      "step": 610
+    },
+    {
+      "epoch": 25.567010309278352,
+      "grad_norm": 20.761062622070312,
+      "learning_rate": 4.1203703703703705e-05,
+      "loss": 0.1807,
+      "step": 620
+    },
+    {
+      "epoch": 25.97938144329897,
+      "grad_norm": 17.889150619506836,
+      "learning_rate": 4.0972222222222225e-05,
+      "loss": 0.2004,
+      "step": 630
+    },
+    {
+      "epoch": 25.97938144329897,
+      "eval_accuracy": 0.8521739130434782,
+      "eval_loss": 0.46348363161087036,
+      "eval_precision": 0.8519325944084339,
+      "eval_recall": 0.8521739130434782,
+      "eval_runtime": 1.7728,
+      "eval_samples_per_second": 194.609,
+      "eval_steps_per_second": 6.205,
+      "step": 630
+    },
+    {
+      "epoch": 26.391752577319586,
+      "grad_norm": 23.56374168395996,
+      "learning_rate": 4.074074074074074e-05,
+      "loss": 0.2427,
+      "step": 640
+    },
+    {
+      "epoch": 26.804123711340207,
+      "grad_norm": 9.772664070129395,
+      "learning_rate": 4.0509259259259265e-05,
+      "loss": 0.2029,
+      "step": 650
+    },
+    {
+      "epoch": 26.969072164948454,
+      "eval_accuracy": 0.8492753623188406,
+      "eval_loss": 0.5214529037475586,
+      "eval_precision": 0.8545500895204992,
+      "eval_recall": 0.8492753623188406,
+      "eval_runtime": 1.9291,
+      "eval_samples_per_second": 178.841,
+      "eval_steps_per_second": 5.702,
+      "step": 654
+    },
+    {
+      "epoch": 27.216494845360824,
+      "grad_norm": 14.480449676513672,
+      "learning_rate": 4.027777777777778e-05,
+      "loss": 0.1903,
+      "step": 660
+    },
+    {
+      "epoch": 27.628865979381445,
+      "grad_norm": 16.415973663330078,
+      "learning_rate": 4.00462962962963e-05,
+      "loss": 0.1794,
+      "step": 670
+    },
+    {
+      "epoch": 28.0,
+      "eval_accuracy": 0.863768115942029,
+      "eval_loss": 0.47563326358795166,
+      "eval_precision": 0.8669166767891824,
+      "eval_recall": 0.863768115942029,
+      "eval_runtime": 1.7555,
+      "eval_samples_per_second": 196.529,
+      "eval_steps_per_second": 6.266,
+      "step": 679
+    },
+    {
+      "epoch": 28.04123711340206,
+      "grad_norm": 8.689855575561523,
+      "learning_rate": 3.981481481481482e-05,
+      "loss": 0.1822,
+      "step": 680
+    },
+    {
+      "epoch": 28.45360824742268,
+      "grad_norm": 12.505402565002441,
+      "learning_rate": 3.958333333333333e-05,
+      "loss": 0.1828,
+      "step": 690
+    },
+    {
+      "epoch": 28.8659793814433,
+      "grad_norm": 15.491950988769531,
+      "learning_rate": 3.935185185185186e-05,
+      "loss": 0.1835,
+      "step": 700
+    },
+    {
+      "epoch": 28.989690721649485,
+      "eval_accuracy": 0.8608695652173913,
+      "eval_loss": 0.4727528393268585,
+      "eval_precision": 0.8649801117780185,
+      "eval_recall": 0.8608695652173913,
+      "eval_runtime": 1.8858,
+      "eval_samples_per_second": 182.95,
+      "eval_steps_per_second": 5.833,
+      "step": 703
+    },
+    {
+      "epoch": 29.278350515463917,
+      "grad_norm": 16.289226531982422,
+      "learning_rate": 3.912037037037037e-05,
+      "loss": 0.1907,
+      "step": 710
+    },
+    {
+      "epoch": 29.690721649484537,
+      "grad_norm": 13.304434776306152,
+      "learning_rate": 3.888888888888889e-05,
+      "loss": 0.1781,
+      "step": 720
+    },
+    {
+      "epoch": 29.97938144329897,
+      "eval_accuracy": 0.855072463768116,
+      "eval_loss": 0.4636934697628021,
+      "eval_precision": 0.8568131435327558,
+      "eval_recall": 0.855072463768116,
+      "eval_runtime": 1.8681,
+      "eval_samples_per_second": 184.683,
+      "eval_steps_per_second": 5.888,
+      "step": 727
+    },
+    {
+      "epoch": 30.103092783505154,
+      "grad_norm": 6.991786003112793,
+      "learning_rate": 3.865740740740741e-05,
+      "loss": 0.1829,
+      "step": 730
+    },
+    {
+      "epoch": 30.51546391752577,
+      "grad_norm": 10.514315605163574,
+      "learning_rate": 3.8425925925925924e-05,
+      "loss": 0.1627,
+      "step": 740
+    },
+    {
+      "epoch": 30.927835051546392,
+      "grad_norm": 9.121224403381348,
+      "learning_rate": 3.8194444444444444e-05,
+      "loss": 0.1671,
+      "step": 750
+    },
+    {
+      "epoch": 30.969072164948454,
+      "eval_accuracy": 0.8579710144927536,
+      "eval_loss": 0.485573947429657,
+      "eval_precision": 0.8599276434444294,
+      "eval_recall": 0.8579710144927536,
+      "eval_runtime": 1.9437,
+      "eval_samples_per_second": 177.497,
+      "eval_steps_per_second": 5.659,
+      "step": 751
+    },
+    {
+      "epoch": 31.34020618556701,
+      "grad_norm": 13.762226104736328,
+      "learning_rate": 3.7962962962962964e-05,
+      "loss": 0.1721,
+      "step": 760
+    },
+    {
+      "epoch": 31.75257731958763,
+      "grad_norm": 10.415836334228516,
+      "learning_rate": 3.7731481481481484e-05,
+      "loss": 0.1762,
+      "step": 770
+    },
+    {
+      "epoch": 32.0,
+      "eval_accuracy": 0.8666666666666667,
+      "eval_loss": 0.5007998943328857,
+      "eval_precision": 0.8684023473901008,
+      "eval_recall": 0.8666666666666667,
+      "eval_runtime": 1.769,
+      "eval_samples_per_second": 195.026,
+      "eval_steps_per_second": 6.218,
+      "step": 776
+    },
+    {
+      "epoch": 32.16494845360825,
+      "grad_norm": 10.8311767578125,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 0.1707,
+      "step": 780
+    },
+    {
+      "epoch": 32.577319587628864,
+      "grad_norm": 12.070932388305664,
+      "learning_rate": 3.726851851851852e-05,
+      "loss": 0.1673,
+      "step": 790
+    },
+    {
+      "epoch": 32.98969072164948,
+      "grad_norm": 8.654770851135254,
+      "learning_rate": 3.7037037037037037e-05,
+      "loss": 0.1867,
+      "step": 800
+    },
+    {
+      "epoch": 32.98969072164948,
+      "eval_accuracy": 0.8579710144927536,
+      "eval_loss": 0.5058211088180542,
+      "eval_precision": 0.8584843785997619,
+      "eval_recall": 0.8579710144927536,
+      "eval_runtime": 1.8394,
+      "eval_samples_per_second": 187.561,
+      "eval_steps_per_second": 5.98,
+      "step": 800
+    },
+    {
+      "epoch": 33.402061855670105,
+      "grad_norm": 8.323944091796875,
+      "learning_rate": 3.6805555555555556e-05,
+      "loss": 0.1553,
+      "step": 810
+    },
+    {
+      "epoch": 33.81443298969072,
+      "grad_norm": 14.134881973266602,
+      "learning_rate": 3.6574074074074076e-05,
+      "loss": 0.1409,
+      "step": 820
+    },
+    {
+      "epoch": 33.97938144329897,
+      "eval_accuracy": 0.8405797101449275,
+      "eval_loss": 0.5489646792411804,
+      "eval_precision": 0.8408524440704116,
+      "eval_recall": 0.8405797101449275,
+      "eval_runtime": 1.7738,
+      "eval_samples_per_second": 194.496,
+      "eval_steps_per_second": 6.201,
+      "step": 824
+    },
+    {
+      "epoch": 34.22680412371134,
+      "grad_norm": 17.74443244934082,
+      "learning_rate": 3.6342592592592596e-05,
+      "loss": 0.1498,
+      "step": 830
+    },
+    {
+      "epoch": 34.63917525773196,
+      "grad_norm": 14.35798454284668,
+      "learning_rate": 3.611111111111111e-05,
+      "loss": 0.1315,
+      "step": 840
+    },
+    {
+      "epoch": 34.96907216494845,
+      "eval_accuracy": 0.8347826086956521,
+      "eval_loss": 0.528394877910614,
+      "eval_precision": 0.8356368409524089,
+      "eval_recall": 0.8347826086956521,
+      "eval_runtime": 1.8034,
+      "eval_samples_per_second": 191.304,
+      "eval_steps_per_second": 6.1,
+      "step": 848
+    },
+    {
+      "epoch": 35.05154639175258,
+      "grad_norm": 15.67455005645752,
+      "learning_rate": 3.587962962962963e-05,
+      "loss": 0.163,
+      "step": 850
+    },
+    {
+      "epoch": 35.4639175257732,
+      "grad_norm": 6.1969828605651855,
+      "learning_rate": 3.564814814814815e-05,
+      "loss": 0.1406,
+      "step": 860
+    },
+    {
+      "epoch": 35.876288659793815,
+      "grad_norm": 14.651385307312012,
+      "learning_rate": 3.541666666666667e-05,
+      "loss": 0.1315,
+      "step": 870
+    },
+    {
+      "epoch": 36.0,
+      "eval_accuracy": 0.8463768115942029,
+      "eval_loss": 0.5415348410606384,
+      "eval_precision": 0.8487979974677805,
+      "eval_recall": 0.8463768115942029,
+      "eval_runtime": 1.7509,
+      "eval_samples_per_second": 197.042,
+      "eval_steps_per_second": 6.282,
+      "step": 873
+    },
+    {
+      "epoch": 36.28865979381443,
+      "grad_norm": 15.739358901977539,
+      "learning_rate": 3.518518518518519e-05,
+      "loss": 0.1944,
+      "step": 880
+    },
+    {
+      "epoch": 36.70103092783505,
+      "grad_norm": 16.889202117919922,
+      "learning_rate": 3.49537037037037e-05,
+      "loss": 0.1974,
+      "step": 890
+    },
+    {
+      "epoch": 36.98969072164948,
+      "eval_accuracy": 0.8492753623188406,
+      "eval_loss": 0.519416332244873,
+      "eval_precision": 0.8536148561469765,
+      "eval_recall": 0.8492753623188406,
+      "eval_runtime": 1.7833,
+      "eval_samples_per_second": 193.461,
+      "eval_steps_per_second": 6.168,
+      "step": 897
+    },
+    {
+      "epoch": 37.11340206185567,
+      "grad_norm": 10.011604309082031,
+      "learning_rate": 3.472222222222222e-05,
+      "loss": 0.1605,
+      "step": 900
+    },
+    {
+      "epoch": 37.52577319587629,
+      "grad_norm": 18.694128036499023,
+      "learning_rate": 3.449074074074074e-05,
+      "loss": 0.1515,
+      "step": 910
+    },
+    {
+      "epoch": 37.93814432989691,
+      "grad_norm": 9.140711784362793,
+      "learning_rate": 3.425925925925926e-05,
+      "loss": 0.1337,
+      "step": 920
+    },
+    {
+      "epoch": 37.97938144329897,
+      "eval_accuracy": 0.8608695652173913,
+      "eval_loss": 0.5088416337966919,
+      "eval_precision": 0.8602982452483552,
+      "eval_recall": 0.8608695652173913,
+      "eval_runtime": 1.7456,
+      "eval_samples_per_second": 197.634,
+      "eval_steps_per_second": 6.301,
+      "step": 921
+    },
+    {
+      "epoch": 38.350515463917525,
+      "grad_norm": 12.548330307006836,
+      "learning_rate": 3.402777777777778e-05,
+      "loss": 0.1439,
+      "step": 930
+    },
+    {
+      "epoch": 38.76288659793814,
+      "grad_norm": 12.762455940246582,
+      "learning_rate": 3.3796296296296295e-05,
+      "loss": 0.173,
+      "step": 940
+    },
+    {
+      "epoch": 38.96907216494845,
+      "eval_accuracy": 0.8666666666666667,
+      "eval_loss": 0.4912014305591583,
+      "eval_precision": 0.867978256170476,
+      "eval_recall": 0.8666666666666667,
+      "eval_runtime": 1.8067,
+      "eval_samples_per_second": 190.96,
+      "eval_steps_per_second": 6.089,
+      "step": 945
+    },
+    {
+      "epoch": 39.175257731958766,
+      "grad_norm": 12.083857536315918,
+      "learning_rate": 3.3564814814814815e-05,
+      "loss": 0.1477,
+      "step": 950
+    },
+    {
+      "epoch": 39.58762886597938,
+      "grad_norm": 17.14080238342285,
+      "learning_rate": 3.3333333333333335e-05,
+      "loss": 0.1285,
+      "step": 960
+    },
+    {
+      "epoch": 40.0,
+      "grad_norm": 13.190485000610352,
+      "learning_rate": 3.3101851851851855e-05,
+      "loss": 0.1409,
+      "step": 970
+    },
+    {
+      "epoch": 40.0,
+      "eval_accuracy": 0.8492753623188406,
+      "eval_loss": 0.5222660899162292,
+      "eval_precision": 0.8501727809182621,
+      "eval_recall": 0.8492753623188406,
+      "eval_runtime": 1.8482,
+      "eval_samples_per_second": 186.669,
+      "eval_steps_per_second": 5.952,
+      "step": 970
+    },
+    {
+      "epoch": 40.41237113402062,
+      "grad_norm": 8.88687801361084,
+      "learning_rate": 3.2870370370370375e-05,
+      "loss": 0.151,
+      "step": 980
+    },
+    {
+      "epoch": 40.824742268041234,
+      "grad_norm": 7.21800422668457,
+      "learning_rate": 3.263888888888889e-05,
+      "loss": 0.1379,
+      "step": 990
+    },
+    {
+      "epoch": 40.98969072164948,
+      "eval_accuracy": 0.8492753623188406,
+      "eval_loss": 0.5204349160194397,
+      "eval_precision": 0.8486749182344644,
+      "eval_recall": 0.8492753623188406,
+      "eval_runtime": 1.8062,
+      "eval_samples_per_second": 191.006,
+      "eval_steps_per_second": 6.09,
+      "step": 994
+    },
+    {
+      "epoch": 41.23711340206186,
+      "grad_norm": 10.057676315307617,
+      "learning_rate": 3.240740740740741e-05,
+      "loss": 0.1079,
+      "step": 1000
+    },
+    {
+      "epoch": 41.649484536082475,
+      "grad_norm": 13.667500495910645,
+      "learning_rate": 3.217592592592593e-05,
+      "loss": 0.1437,
+      "step": 1010
+    },
+    {
+      "epoch": 41.97938144329897,
+      "eval_accuracy": 0.8521739130434782,
+      "eval_loss": 0.5860036611557007,
+      "eval_precision": 0.8550665818648641,
+      "eval_recall": 0.8521739130434782,
+      "eval_runtime": 1.7468,
+      "eval_samples_per_second": 197.503,
+      "eval_steps_per_second": 6.297,
+      "step": 1018
+    },
+    {
+      "epoch": 42.06185567010309,
+      "grad_norm": 6.985457420349121,
+      "learning_rate": 3.194444444444444e-05,
+      "loss": 0.1521,
+      "step": 1020
+    },
+    {
+      "epoch": 42.47422680412371,
+      "grad_norm": 16.70668601989746,
+      "learning_rate": 3.171296296296297e-05,
+      "loss": 0.1393,
+      "step": 1030
+    },
+    {
+      "epoch": 42.88659793814433,
+      "grad_norm": 6.907033920288086,
+      "learning_rate": 3.148148148148148e-05,
+      "loss": 0.1022,
+      "step": 1040
+    },
+    {
+      "epoch": 42.96907216494845,
+      "eval_accuracy": 0.8463768115942029,
+      "eval_loss": 0.5460776686668396,
+      "eval_precision": 0.8491763964495722,
+      "eval_recall": 0.8463768115942029,
+      "eval_runtime": 1.7961,
+      "eval_samples_per_second": 192.078,
+      "eval_steps_per_second": 6.124,
+      "step": 1042
+    },
+    {
+      "epoch": 43.29896907216495,
+      "grad_norm": 9.046392440795898,
+      "learning_rate": 3.125e-05,
+      "loss": 0.1385,
+      "step": 1050
+    },
+    {
+      "epoch": 43.71134020618557,
+      "grad_norm": 10.188021659851074,
+      "learning_rate": 3.101851851851852e-05,
+      "loss": 0.1181,
+      "step": 1060
+    },
+    {
+      "epoch": 44.0,
+      "eval_accuracy": 0.855072463768116,
+      "eval_loss": 0.541079044342041,
+      "eval_precision": 0.856643419178803,
+      "eval_recall": 0.855072463768116,
+      "eval_runtime": 1.7664,
+      "eval_samples_per_second": 195.31,
+      "eval_steps_per_second": 6.227,
+      "step": 1067
+    },
+    {
+      "epoch": 44.123711340206185,
+      "grad_norm": 8.506319046020508,
+      "learning_rate": 3.0787037037037034e-05,
+      "loss": 0.1411,
+      "step": 1070
+    },
+    {
+      "epoch": 44.5360824742268,
+      "grad_norm": 15.423176765441895,
+      "learning_rate": 3.055555555555556e-05,
+      "loss": 0.1346,
+      "step": 1080
+    },
+    {
+      "epoch": 44.94845360824742,
+      "grad_norm": 6.524370193481445,
+      "learning_rate": 3.0324074074074077e-05,
+      "loss": 0.1212,
+      "step": 1090
+    },
+    {
+      "epoch": 44.98969072164948,
+      "eval_accuracy": 0.8579710144927536,
+      "eval_loss": 0.5293735861778259,
+      "eval_precision": 0.8580282602145957,
+      "eval_recall": 0.8579710144927536,
+      "eval_runtime": 1.8173,
+      "eval_samples_per_second": 189.843,
+      "eval_steps_per_second": 6.053,
+      "step": 1091
+    },
+    {
+      "epoch": 45.36082474226804,
+      "grad_norm": 12.142955780029297,
+      "learning_rate": 3.0092592592592593e-05,
+      "loss": 0.105,
+      "step": 1100
+    },
+    {
+      "epoch": 45.77319587628866,
+      "grad_norm": 11.581314086914062,
+      "learning_rate": 2.9861111111111113e-05,
+      "loss": 0.1049,
+      "step": 1110
+    },
+    {
+      "epoch": 45.97938144329897,
+      "eval_accuracy": 0.8492753623188406,
+      "eval_loss": 0.566691517829895,
+      "eval_precision": 0.8491712997027965,
+      "eval_recall": 0.8492753623188406,
+      "eval_runtime": 1.799,
+      "eval_samples_per_second": 191.772,
+      "eval_steps_per_second": 6.114,
+      "step": 1115
+    },
+    {
+      "epoch": 46.18556701030928,
+      "grad_norm": 15.353252410888672,
+      "learning_rate": 2.962962962962963e-05,
+      "loss": 0.1335,
+      "step": 1120
+    },
+    {
+      "epoch": 46.597938144329895,
+      "grad_norm": 11.990909576416016,
+      "learning_rate": 2.9398148148148146e-05,
+      "loss": 0.1132,
+      "step": 1130
+    },
+    {
+      "epoch": 46.96907216494845,
+      "eval_accuracy": 0.8463768115942029,
+      "eval_loss": 0.5908281207084656,
+      "eval_precision": 0.8491182494977805,
+      "eval_recall": 0.8463768115942029,
+      "eval_runtime": 1.8291,
+      "eval_samples_per_second": 188.615,
+      "eval_steps_per_second": 6.014,
+      "step": 1139
+    },
+    {
+      "epoch": 47.01030927835052,
+      "grad_norm": 7.466699600219727,
+      "learning_rate": 2.916666666666667e-05,
+      "loss": 0.1229,
+      "step": 1140
+    },
+    {
+      "epoch": 47.422680412371136,
+      "grad_norm": 4.299150466918945,
+      "learning_rate": 2.8935185185185186e-05,
+      "loss": 0.1181,
+      "step": 1150
+    },
+    {
+      "epoch": 47.83505154639175,
+      "grad_norm": 8.699248313903809,
+      "learning_rate": 2.8703703703703706e-05,
+      "loss": 0.1313,
+      "step": 1160
+    },
+    {
+      "epoch": 48.0,
+      "eval_accuracy": 0.8521739130434782,
+      "eval_loss": 0.5995594263076782,
+      "eval_precision": 0.8581686976058893,
+      "eval_recall": 0.8521739130434782,
+      "eval_runtime": 1.7851,
+      "eval_samples_per_second": 193.27,
+      "eval_steps_per_second": 6.162,
+      "step": 1164
+    },
+    {
+      "epoch": 48.24742268041237,
+      "grad_norm": 7.394286632537842,
+      "learning_rate": 2.8472222222222223e-05,
+      "loss": 0.1287,
+      "step": 1170
+    },
+    {
+      "epoch": 48.65979381443299,
+      "grad_norm": 10.575745582580566,
+      "learning_rate": 2.824074074074074e-05,
+      "loss": 0.1312,
+      "step": 1180
+    },
+    {
+      "epoch": 48.98969072164948,
+      "eval_accuracy": 0.8579710144927536,
+      "eval_loss": 0.542959451675415,
+      "eval_precision": 0.8607254186783246,
+      "eval_recall": 0.8579710144927536,
+      "eval_runtime": 1.7426,
+      "eval_samples_per_second": 197.985,
+      "eval_steps_per_second": 6.313,
+      "step": 1188
+    },
+    {
+      "epoch": 49.07216494845361,
+      "grad_norm": 14.257989883422852,
+      "learning_rate": 2.8009259259259263e-05,
+      "loss": 0.1341,
+      "step": 1190
+    },
+    {
+      "epoch": 49.48453608247423,
+      "grad_norm": 9.95071029663086,
+      "learning_rate": 2.777777777777778e-05,
+      "loss": 0.138,
+      "step": 1200
+    },
+    {
+      "epoch": 49.896907216494846,
+      "grad_norm": 10.54672622680664,
+      "learning_rate": 2.75462962962963e-05,
+      "loss": 0.0996,
+      "step": 1210
+    },
+    {
+      "epoch": 49.97938144329897,
+      "eval_accuracy": 0.8521739130434782,
+      "eval_loss": 0.5776570439338684,
+      "eval_precision": 0.8561151948364225,
+      "eval_recall": 0.8521739130434782,
+      "eval_runtime": 1.8283,
+      "eval_samples_per_second": 188.7,
+      "eval_steps_per_second": 6.017,
+      "step": 1212
+    },
+    {
+      "epoch": 50.30927835051546,
+      "grad_norm": 9.269867897033691,
+      "learning_rate": 2.7314814814814816e-05,
+      "loss": 0.1183,
+      "step": 1220
+    },
+    {
+      "epoch": 50.72164948453608,
+      "grad_norm": 3.963714361190796,
+      "learning_rate": 2.7083333333333332e-05,
+      "loss": 0.1389,
+      "step": 1230
+    },
+    {
+      "epoch": 50.96907216494845,
+      "eval_accuracy": 0.8434782608695652,
+      "eval_loss": 0.5757654905319214,
+      "eval_precision": 0.8486477905744771,
+      "eval_recall": 0.8434782608695652,
+      "eval_runtime": 1.8064,
+      "eval_samples_per_second": 190.984,
+      "eval_steps_per_second": 6.089,
+      "step": 1236
+    },
+    {
+      "epoch": 51.134020618556704,
+      "grad_norm": 24.62941551208496,
+      "learning_rate": 2.6851851851851855e-05,
+      "loss": 0.1188,
+      "step": 1240
+    },
+    {
+      "epoch": 51.54639175257732,
+      "grad_norm": 14.212287902832031,
+      "learning_rate": 2.6620370370370372e-05,
+      "loss": 0.1257,
+      "step": 1250
+    },
+    {
+      "epoch": 51.95876288659794,
+      "grad_norm": 10.230920791625977,
+      "learning_rate": 2.6388888888888892e-05,
+      "loss": 0.1079,
+      "step": 1260
+    },
+    {
+      "epoch": 52.0,
+      "eval_accuracy": 0.8579710144927536,
+      "eval_loss": 0.5540273785591125,
+      "eval_precision": 0.8611434608590304,
+      "eval_recall": 0.8579710144927536,
+      "eval_runtime": 1.7965,
+      "eval_samples_per_second": 192.043,
+      "eval_steps_per_second": 6.123,
+      "step": 1261
+    },
+    {
+      "epoch": 52.371134020618555,
+      "grad_norm": 12.681902885437012,
+      "learning_rate": 2.615740740740741e-05,
+      "loss": 0.0964,
+      "step": 1270
+    },
+    {
+      "epoch": 52.78350515463917,
+      "grad_norm": 14.907917022705078,
+      "learning_rate": 2.5925925925925925e-05,
+      "loss": 0.0972,
+      "step": 1280
+    },
+    {
+      "epoch": 52.98969072164948,
+      "eval_accuracy": 0.855072463768116,
+      "eval_loss": 0.5599762797355652,
+      "eval_precision": 0.8559313253403165,
+      "eval_recall": 0.855072463768116,
+      "eval_runtime": 1.8665,
+      "eval_samples_per_second": 184.836,
+      "eval_steps_per_second": 5.893,
+      "step": 1285
+    },
+    {
+      "epoch": 53.1958762886598,
+      "grad_norm": 13.571532249450684,
+      "learning_rate": 2.5694444444444445e-05,
+      "loss": 0.1164,
+      "step": 1290
+    },
+    {
+      "epoch": 53.608247422680414,
+      "grad_norm": 14.119112014770508,
+      "learning_rate": 2.5462962962962965e-05,
+      "loss": 0.0985,
+      "step": 1300
+    },
+    {
+      "epoch": 53.97938144329897,
+      "eval_accuracy": 0.863768115942029,
+      "eval_loss": 0.5391947627067566,
+      "eval_precision": 0.865555829019492,
+      "eval_recall": 0.863768115942029,
+      "eval_runtime": 1.8914,
+      "eval_samples_per_second": 182.408,
+      "eval_steps_per_second": 5.816,
+      "step": 1309
+    },
+    {
+      "epoch": 54.02061855670103,
+      "grad_norm": 11.18630599975586,
+      "learning_rate": 2.5231481481481485e-05,
+      "loss": 0.1139,
+      "step": 1310
+    },
+    {
+      "epoch": 54.43298969072165,
+      "grad_norm": 14.511212348937988,
+      "learning_rate": 2.5e-05,
+      "loss": 0.1117,
+      "step": 1320
+    },
+    {
+      "epoch": 54.845360824742265,
+      "grad_norm": 4.760071277618408,
+      "learning_rate": 2.4768518518518518e-05,
+      "loss": 0.1112,
+      "step": 1330
+    },
+    {
+      "epoch": 54.96907216494845,
+      "eval_accuracy": 0.863768115942029,
+      "eval_loss": 0.5410789847373962,
+      "eval_precision": 0.8655836794521399,
+      "eval_recall": 0.863768115942029,
+      "eval_runtime": 1.8766,
+      "eval_samples_per_second": 183.845,
+      "eval_steps_per_second": 5.862,
+      "step": 1333
+    },
+    {
+      "epoch": 55.25773195876289,
+      "grad_norm": 8.37569808959961,
+      "learning_rate": 2.4537037037037038e-05,
+      "loss": 0.1062,
+      "step": 1340
+    },
+    {
+      "epoch": 55.670103092783506,
+      "grad_norm": 10.700220108032227,
+      "learning_rate": 2.4305555555555558e-05,
+      "loss": 0.1308,
+      "step": 1350
+    },
+    {
+      "epoch": 56.0,
+      "eval_accuracy": 0.863768115942029,
+      "eval_loss": 0.5445396900177002,
+      "eval_precision": 0.8653666576853845,
+      "eval_recall": 0.863768115942029,
+      "eval_runtime": 1.8208,
+      "eval_samples_per_second": 189.479,
+      "eval_steps_per_second": 6.041,
+      "step": 1358
+    },
+    {
+      "epoch": 56.08247422680412,
+      "grad_norm": 19.0463924407959,
+      "learning_rate": 2.4074074074074074e-05,
+      "loss": 0.1081,
+      "step": 1360
+    },
+    {
+      "epoch": 56.49484536082474,
+      "grad_norm": 6.819794654846191,
+      "learning_rate": 2.3842592592592594e-05,
+      "loss": 0.1072,
+      "step": 1370
+    },
+    {
+      "epoch": 56.90721649484536,
+      "grad_norm": 6.308873176574707,
+      "learning_rate": 2.361111111111111e-05,
+      "loss": 0.1005,
+      "step": 1380
+    },
+    {
+      "epoch": 56.98969072164948,
+      "eval_accuracy": 0.855072463768116,
+      "eval_loss": 0.5554308891296387,
+      "eval_precision": 0.8551462662985753,
+      "eval_recall": 0.855072463768116,
+      "eval_runtime": 1.868,
+      "eval_samples_per_second": 184.69,
+      "eval_steps_per_second": 5.889,
+      "step": 1382
+    },
+    {
+      "epoch": 57.31958762886598,
+      "grad_norm": 5.025654315948486,
+      "learning_rate": 2.337962962962963e-05,
+      "loss": 0.088,
+      "step": 1390
+    },
+    {
+      "epoch": 57.7319587628866,
+      "grad_norm": 10.021939277648926,
+      "learning_rate": 2.314814814814815e-05,
+      "loss": 0.0871,
+      "step": 1400
+    },
+    {
+      "epoch": 57.97938144329897,
+      "eval_accuracy": 0.8405797101449275,
+      "eval_loss": 0.5966009497642517,
+      "eval_precision": 0.8440749450064067,
+      "eval_recall": 0.8405797101449275,
+      "eval_runtime": 1.7974,
+      "eval_samples_per_second": 191.939,
+      "eval_steps_per_second": 6.12,
+      "step": 1406
+    },
+    {
+      "epoch": 58.144329896907216,
+      "grad_norm": 16.077518463134766,
+      "learning_rate": 2.2916666666666667e-05,
+      "loss": 0.089,
+      "step": 1410
+    },
+    {
+      "epoch": 58.55670103092783,
+      "grad_norm": 14.556241035461426,
+      "learning_rate": 2.2685185185185187e-05,
+      "loss": 0.1072,
+      "step": 1420
+    },
+    {
+      "epoch": 58.96907216494845,
+      "grad_norm": 9.045204162597656,
+      "learning_rate": 2.2453703703703703e-05,
+      "loss": 0.1102,
+      "step": 1430
+    },
+    {
+      "epoch": 58.96907216494845,
+      "eval_accuracy": 0.8521739130434782,
+      "eval_loss": 0.5807223916053772,
+      "eval_precision": 0.8543040805400182,
+      "eval_recall": 0.8521739130434782,
+      "eval_runtime": 1.8412,
+      "eval_samples_per_second": 187.376,
+      "eval_steps_per_second": 5.974,
+      "step": 1430
+    },
+    {
+      "epoch": 59.381443298969074,
+      "grad_norm": 12.29312515258789,
+      "learning_rate": 2.2222222222222223e-05,
+      "loss": 0.1021,
+      "step": 1440
+    },
+    {
+      "epoch": 59.79381443298969,
+      "grad_norm": 13.808602333068848,
+      "learning_rate": 2.1990740740740743e-05,
+      "loss": 0.1028,
+      "step": 1450
+    },
+    {
+      "epoch": 60.0,
+      "eval_accuracy": 0.8434782608695652,
+      "eval_loss": 0.5653913021087646,
+      "eval_precision": 0.8490636359945823,
+      "eval_recall": 0.8434782608695652,
+      "eval_runtime": 1.8195,
+      "eval_samples_per_second": 189.615,
+      "eval_steps_per_second": 6.046,
+      "step": 1455
+    },
+    {
+      "epoch": 60.20618556701031,
+      "grad_norm": 8.929511070251465,
+      "learning_rate": 2.175925925925926e-05,
+      "loss": 0.1103,
+      "step": 1460
+    },
+    {
+      "epoch": 60.618556701030926,
+      "grad_norm": 14.425239562988281,
+      "learning_rate": 2.152777777777778e-05,
+      "loss": 0.107,
+      "step": 1470
+    },
+    {
+      "epoch": 60.98969072164948,
+      "eval_accuracy": 0.8434782608695652,
+      "eval_loss": 0.577854573726654,
+      "eval_precision": 0.8460752319344831,
+      "eval_recall": 0.8434782608695652,
+      "eval_runtime": 1.8265,
+      "eval_samples_per_second": 188.883,
+      "eval_steps_per_second": 6.022,
+      "step": 1479
+    },
+    {
+      "epoch": 61.03092783505155,
+      "grad_norm": 10.870781898498535,
+      "learning_rate": 2.1296296296296296e-05,
+      "loss": 0.0954,
+      "step": 1480
+    },
+    {
+      "epoch": 61.44329896907217,
+      "grad_norm": 10.188617706298828,
+      "learning_rate": 2.1064814814814816e-05,
+      "loss": 0.0942,
+      "step": 1490
+    },
+    {
+      "epoch": 61.855670103092784,
+      "grad_norm": 6.4580302238464355,
+      "learning_rate": 2.0833333333333336e-05,
+      "loss": 0.0848,
+      "step": 1500
+    },
+    {
+      "epoch": 61.97938144329897,
+      "eval_accuracy": 0.855072463768116,
+      "eval_loss": 0.5842954516410828,
+      "eval_precision": 0.8569219850916401,
+      "eval_recall": 0.855072463768116,
+      "eval_runtime": 1.8368,
+      "eval_samples_per_second": 187.828,
+      "eval_steps_per_second": 5.989,
+      "step": 1503
+    },
+    {
+      "epoch": 62.2680412371134,
+      "grad_norm": 13.236536979675293,
+      "learning_rate": 2.0601851851851853e-05,
+      "loss": 0.0993,
+      "step": 1510
+    },
+    {
+      "epoch": 62.68041237113402,
+      "grad_norm": 11.377030372619629,
+      "learning_rate": 2.037037037037037e-05,
+      "loss": 0.0976,
+      "step": 1520
+    },
+    {
+      "epoch": 62.96907216494845,
+      "eval_accuracy": 0.8434782608695652,
+      "eval_loss": 0.6161760687828064,
+      "eval_precision": 0.8454310204706964,
+      "eval_recall": 0.8434782608695652,
+      "eval_runtime": 1.7609,
+      "eval_samples_per_second": 195.923,
+      "eval_steps_per_second": 6.247,
+      "step": 1527
+    },
+    {
+      "epoch": 63.09278350515464,
+      "grad_norm": 9.68355655670166,
+      "learning_rate": 2.013888888888889e-05,
+      "loss": 0.0788,
+      "step": 1530
+    },
+    {
+      "epoch": 63.50515463917526,
+      "grad_norm": 6.282276153564453,
+      "learning_rate": 1.990740740740741e-05,
+      "loss": 0.103,
+      "step": 1540
+    },
+    {
+      "epoch": 63.91752577319588,
+      "grad_norm": 4.893520832061768,
+      "learning_rate": 1.967592592592593e-05,
+      "loss": 0.0977,
+      "step": 1550
+    },
+    {
+      "epoch": 64.0,
+      "eval_accuracy": 0.8463768115942029,
+      "eval_loss": 0.5822046995162964,
+      "eval_precision": 0.8468574730482583,
+      "eval_recall": 0.8463768115942029,
+      "eval_runtime": 1.8068,
+      "eval_samples_per_second": 190.942,
+      "eval_steps_per_second": 6.088,
+      "step": 1552
+    },
+    {
+      "epoch": 64.3298969072165,
+      "grad_norm": 10.216239929199219,
+      "learning_rate": 1.9444444444444445e-05,
+      "loss": 0.1112,
+      "step": 1560
+    },
+    {
+      "epoch": 64.74226804123711,
+      "grad_norm": 22.551631927490234,
+      "learning_rate": 1.9212962962962962e-05,
+      "loss": 0.1256,
+      "step": 1570
+    },
+    {
+      "epoch": 64.98969072164948,
+      "eval_accuracy": 0.8492753623188406,
+      "eval_loss": 0.575657308101654,
+      "eval_precision": 0.851359361697526,
+      "eval_recall": 0.8492753623188406,
+      "eval_runtime": 1.8317,
+      "eval_samples_per_second": 188.346,
+      "eval_steps_per_second": 6.005,
+      "step": 1576
+    },
+    {
+      "epoch": 65.15463917525773,
+      "grad_norm": 6.853829383850098,
+      "learning_rate": 1.8981481481481482e-05,
+      "loss": 0.096,
+      "step": 1580
+    },
+    {
+      "epoch": 65.56701030927834,
+      "grad_norm": 14.361750602722168,
+      "learning_rate": 1.8750000000000002e-05,
+      "loss": 0.0942,
+      "step": 1590
+    },
+    {
+      "epoch": 65.97938144329896,
+      "grad_norm": 9.966873168945312,
+      "learning_rate": 1.8518518518518518e-05,
+      "loss": 0.0883,
+      "step": 1600
+    },
+    {
+      "epoch": 65.97938144329896,
+      "eval_accuracy": 0.8463768115942029,
+      "eval_loss": 0.5716322660446167,
+      "eval_precision": 0.8466640969128532,
+      "eval_recall": 0.8463768115942029,
+      "eval_runtime": 1.7836,
+      "eval_samples_per_second": 193.433,
+      "eval_steps_per_second": 6.167,
+      "step": 1600
+    },
+    {
+      "epoch": 66.3917525773196,
+      "grad_norm": 9.780498504638672,
+      "learning_rate": 1.8287037037037038e-05,
+      "loss": 0.0791,
+      "step": 1610
+    },
+    {
+      "epoch": 66.80412371134021,
+      "grad_norm": 10.076851844787598,
+      "learning_rate": 1.8055555555555555e-05,
+      "loss": 0.0808,
+      "step": 1620
+    },
+    {
+      "epoch": 66.96907216494846,
+      "eval_accuracy": 0.855072463768116,
+      "eval_loss": 0.5726441144943237,
+      "eval_precision": 0.8562372477793413,
+      "eval_recall": 0.855072463768116,
+      "eval_runtime": 1.782,
+      "eval_samples_per_second": 193.608,
+      "eval_steps_per_second": 6.173,
+      "step": 1624
+    },
+    {
+      "epoch": 67.21649484536083,
+      "grad_norm": 10.814988136291504,
+      "learning_rate": 1.7824074074074075e-05,
+      "loss": 0.0604,
+      "step": 1630
+    },
+    {
+      "epoch": 67.62886597938144,
+      "grad_norm": 14.779629707336426,
+      "learning_rate": 1.7592592592592595e-05,
+      "loss": 0.1034,
+      "step": 1640
+    },
+    {
+      "epoch": 68.0,
+      "eval_accuracy": 0.855072463768116,
+      "eval_loss": 0.5412786602973938,
+      "eval_precision": 0.8548742107305042,
+      "eval_recall": 0.855072463768116,
+      "eval_runtime": 1.8607,
+      "eval_samples_per_second": 185.418,
+      "eval_steps_per_second": 5.912,
+      "step": 1649
+    },
+    {
+      "epoch": 68.04123711340206,
+      "grad_norm": 7.925902843475342,
+      "learning_rate": 1.736111111111111e-05,
+      "loss": 0.098,
+      "step": 1650
+    },
+    {
+      "epoch": 68.45360824742268,
+      "grad_norm": 8.179915428161621,
+      "learning_rate": 1.712962962962963e-05,
+      "loss": 0.0871,
+      "step": 1660
+    },
+    {
+      "epoch": 68.8659793814433,
+      "grad_norm": 8.375000953674316,
+      "learning_rate": 1.6898148148148148e-05,
+      "loss": 0.0845,
+      "step": 1670
+    },
+    {
+      "epoch": 68.98969072164948,
+      "eval_accuracy": 0.8434782608695652,
+      "eval_loss": 0.5826108455657959,
+      "eval_precision": 0.8476663926581475,
+      "eval_recall": 0.8434782608695652,
+      "eval_runtime": 1.8967,
+      "eval_samples_per_second": 181.896,
+      "eval_steps_per_second": 5.8,
+      "step": 1673
+    },
+    {
+      "epoch": 69.27835051546391,
+      "grad_norm": 8.613913536071777,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.0911,
+      "step": 1680
+    },
+    {
+      "epoch": 69.69072164948453,
+      "grad_norm": 9.535558700561523,
+      "learning_rate": 1.6435185185185187e-05,
+      "loss": 0.0916,
+      "step": 1690
+    },
+    {
+      "epoch": 69.97938144329896,
+      "eval_accuracy": 0.8521739130434782,
+      "eval_loss": 0.566058337688446,
+      "eval_precision": 0.8522049189345976,
+      "eval_recall": 0.8521739130434782,
+      "eval_runtime": 1.7731,
+      "eval_samples_per_second": 194.574,
+      "eval_steps_per_second": 6.204,
+      "step": 1697
+    },
+    {
+      "epoch": 70.10309278350516,
+      "grad_norm": 7.769627571105957,
+      "learning_rate": 1.6203703703703704e-05,
+      "loss": 0.1011,
+      "step": 1700
+    },
+    {
+      "epoch": 70.51546391752578,
+      "grad_norm": 9.350245475769043,
+      "learning_rate": 1.597222222222222e-05,
+      "loss": 0.0896,
+      "step": 1710
+    },
+    {
+      "epoch": 70.9278350515464,
+      "grad_norm": 11.536579132080078,
+      "learning_rate": 1.574074074074074e-05,
+      "loss": 0.0912,
+      "step": 1720
+    },
+    {
+      "epoch": 70.96907216494846,
+      "eval_accuracy": 0.8492753623188406,
+      "eval_loss": 0.5770707130432129,
+      "eval_precision": 0.84979303172866,
+      "eval_recall": 0.8492753623188406,
+      "eval_runtime": 1.817,
+      "eval_samples_per_second": 189.875,
+      "eval_steps_per_second": 6.054,
+      "step": 1721
+    },
+    {
+      "epoch": 71.34020618556701,
+      "grad_norm": 15.122323989868164,
+      "learning_rate": 1.550925925925926e-05,
+      "loss": 0.0995,
+      "step": 1730
+    },
+    {
+      "epoch": 71.75257731958763,
+      "grad_norm": 12.938358306884766,
+      "learning_rate": 1.527777777777778e-05,
+      "loss": 0.0863,
+      "step": 1740
+    },
+    {
+      "epoch": 72.0,
+      "eval_accuracy": 0.855072463768116,
+      "eval_loss": 0.5769326686859131,
+      "eval_precision": 0.8550354692908756,
+      "eval_recall": 0.855072463768116,
+      "eval_runtime": 1.8313,
+      "eval_samples_per_second": 188.386,
+      "eval_steps_per_second": 6.007,
+      "step": 1746
+    },
+    {
+      "epoch": 72.16494845360825,
+      "grad_norm": 6.935812950134277,
+      "learning_rate": 1.5046296296296297e-05,
+      "loss": 0.0731,
+      "step": 1750
+    },
+    {
+      "epoch": 72.57731958762886,
+      "grad_norm": 10.120232582092285,
+      "learning_rate": 1.4814814814814815e-05,
+      "loss": 0.1101,
+      "step": 1760
+    },
+    {
+      "epoch": 72.98969072164948,
+      "grad_norm": 5.746927738189697,
+      "learning_rate": 1.4583333333333335e-05,
+      "loss": 0.083,
+      "step": 1770
+    },
+    {
+      "epoch": 72.98969072164948,
+      "eval_accuracy": 0.8492753623188406,
+      "eval_loss": 0.5860167145729065,
+      "eval_precision": 0.8486187988428825,
+      "eval_recall": 0.8492753623188406,
+      "eval_runtime": 1.8602,
+      "eval_samples_per_second": 185.466,
+      "eval_steps_per_second": 5.913,
+      "step": 1770
+    },
+    {
+      "epoch": 73.4020618556701,
+      "grad_norm": 14.205853462219238,
+      "learning_rate": 1.4351851851851853e-05,
+      "loss": 0.1003,
+      "step": 1780
+    },
+    {
+      "epoch": 73.81443298969072,
+      "grad_norm": 6.671767711639404,
+      "learning_rate": 1.412037037037037e-05,
+      "loss": 0.0839,
+      "step": 1790
+    },
+    {
+      "epoch": 73.97938144329896,
+      "eval_accuracy": 0.855072463768116,
+      "eval_loss": 0.5647125244140625,
+      "eval_precision": 0.8550673486786019,
+      "eval_recall": 0.855072463768116,
+      "eval_runtime": 1.843,
+      "eval_samples_per_second": 187.195,
+      "eval_steps_per_second": 5.969,
+      "step": 1794
+    },
+    {
+      "epoch": 74.22680412371135,
+      "grad_norm": 6.19529914855957,
+      "learning_rate": 1.388888888888889e-05,
+      "loss": 0.0798,
+      "step": 1800
+    },
+    {
+      "epoch": 74.63917525773196,
+      "grad_norm": 13.039739608764648,
+      "learning_rate": 1.3657407407407408e-05,
+      "loss": 0.0903,
+      "step": 1810
+    },
+    {
+      "epoch": 74.96907216494846,
+      "eval_accuracy": 0.855072463768116,
+      "eval_loss": 0.601210355758667,
+      "eval_precision": 0.8534831427546733,
+      "eval_recall": 0.855072463768116,
+      "eval_runtime": 1.7476,
+      "eval_samples_per_second": 197.417,
+      "eval_steps_per_second": 6.294,
+      "step": 1818
+    },
+    {
+      "epoch": 75.05154639175258,
+      "grad_norm": 6.386416435241699,
+      "learning_rate": 1.3425925925925928e-05,
+      "loss": 0.0872,
+      "step": 1820
+    },
+    {
+      "epoch": 75.4639175257732,
+      "grad_norm": 7.484694957733154,
+      "learning_rate": 1.3194444444444446e-05,
+      "loss": 0.0751,
+      "step": 1830
+    },
+    {
+      "epoch": 75.87628865979381,
+      "grad_norm": 10.781839370727539,
+      "learning_rate": 1.2962962962962962e-05,
+      "loss": 0.074,
+      "step": 1840
+    },
+    {
+      "epoch": 76.0,
+      "eval_accuracy": 0.8463768115942029,
+      "eval_loss": 0.6048101186752319,
+      "eval_precision": 0.8461499789126601,
+      "eval_recall": 0.8463768115942029,
+      "eval_runtime": 1.7696,
+      "eval_samples_per_second": 194.962,
+      "eval_steps_per_second": 6.216,
+      "step": 1843
+    },
+    {
+      "epoch": 76.28865979381443,
+      "grad_norm": 17.32390022277832,
+      "learning_rate": 1.2731481481481482e-05,
+      "loss": 0.0943,
+      "step": 1850
+    },
+    {
+      "epoch": 76.70103092783505,
+      "grad_norm": 12.162288665771484,
+      "learning_rate": 1.25e-05,
+      "loss": 0.0907,
+      "step": 1860
+    },
+    {
+      "epoch": 76.98969072164948,
+      "eval_accuracy": 0.8492753623188406,
+      "eval_loss": 0.5806660056114197,
+      "eval_precision": 0.8495330403324792,
+      "eval_recall": 0.8492753623188406,
+      "eval_runtime": 1.7482,
+      "eval_samples_per_second": 197.35,
+      "eval_steps_per_second": 6.292,
+      "step": 1867
+    },
+    {
+      "epoch": 77.11340206185567,
+      "grad_norm": 6.960859298706055,
+      "learning_rate": 1.2268518518518519e-05,
+      "loss": 0.0748,
+      "step": 1870
+    },
+    {
+      "epoch": 77.52577319587628,
+      "grad_norm": 14.269356727600098,
+      "learning_rate": 1.2037037037037037e-05,
+      "loss": 0.0781,
+      "step": 1880
+    },
+    {
+      "epoch": 77.9381443298969,
+      "grad_norm": 6.466542720794678,
+      "learning_rate": 1.1805555555555555e-05,
+      "loss": 0.0613,
+      "step": 1890
+    },
+    {
+      "epoch": 77.97938144329896,
+      "eval_accuracy": 0.8376811594202899,
+      "eval_loss": 0.5774852633476257,
+      "eval_precision": 0.8381818122940702,
+      "eval_recall": 0.8376811594202899,
+      "eval_runtime": 1.7656,
+      "eval_samples_per_second": 195.404,
+      "eval_steps_per_second": 6.23,
+      "step": 1891
+    },
+    {
+      "epoch": 78.35051546391753,
+      "grad_norm": 16.949039459228516,
+      "learning_rate": 1.1574074074074075e-05,
+      "loss": 0.0783,
+      "step": 1900
+    },
+    {
+      "epoch": 78.76288659793815,
+      "grad_norm": 5.50955057144165,
+      "learning_rate": 1.1342592592592593e-05,
+      "loss": 0.0964,
+      "step": 1910
+    },
+    {
+      "epoch": 78.96907216494846,
+      "eval_accuracy": 0.8666666666666667,
+      "eval_loss": 0.5758916735649109,
+      "eval_precision": 0.8675733846947259,
+      "eval_recall": 0.8666666666666667,
+      "eval_runtime": 1.7818,
+      "eval_samples_per_second": 193.62,
+      "eval_steps_per_second": 6.173,
+      "step": 1915
+    },
+    {
+      "epoch": 79.17525773195877,
+      "grad_norm": 7.778840065002441,
+      "learning_rate": 1.1111111111111112e-05,
+      "loss": 0.0775,
+      "step": 1920
+    },
+    {
+      "epoch": 79.58762886597938,
+      "grad_norm": 10.63167667388916,
+      "learning_rate": 1.087962962962963e-05,
+      "loss": 0.0849,
+      "step": 1930
+    },
+    {
+      "epoch": 80.0,
+      "grad_norm": 10.529654502868652,
+      "learning_rate": 1.0648148148148148e-05,
+      "loss": 0.0735,
+      "step": 1940
+    },
+    {
+      "epoch": 80.0,
+      "eval_accuracy": 0.855072463768116,
+      "eval_loss": 0.5961835384368896,
+      "eval_precision": 0.8565539653910103,
+      "eval_recall": 0.855072463768116,
+      "eval_runtime": 1.7657,
+      "eval_samples_per_second": 195.391,
+      "eval_steps_per_second": 6.23,
+      "step": 1940
+    },
+    {
+      "epoch": 80.41237113402062,
+      "grad_norm": 10.91960334777832,
+      "learning_rate": 1.0416666666666668e-05,
+      "loss": 0.0803,
+      "step": 1950
+    },
+    {
+      "epoch": 80.82474226804123,
+      "grad_norm": 6.953213691711426,
+      "learning_rate": 1.0185185185185185e-05,
+      "loss": 0.0663,
+      "step": 1960
+    },
+    {
+      "epoch": 80.98969072164948,
+      "eval_accuracy": 0.8434782608695652,
+      "eval_loss": 0.5768997669219971,
+      "eval_precision": 0.8441240738989768,
+      "eval_recall": 0.8434782608695652,
+      "eval_runtime": 1.8615,
+      "eval_samples_per_second": 185.334,
+      "eval_steps_per_second": 5.909,
+      "step": 1964
+    },
+    {
+      "epoch": 81.23711340206185,
+      "grad_norm": 14.6912841796875,
+      "learning_rate": 9.953703703703704e-06,
+      "loss": 0.0756,
+      "step": 1970
+    },
+    {
+      "epoch": 81.64948453608247,
+      "grad_norm": 11.421167373657227,
+      "learning_rate": 9.722222222222223e-06,
+      "loss": 0.0719,
+      "step": 1980
+    },
+    {
+      "epoch": 81.97938144329896,
+      "eval_accuracy": 0.8492753623188406,
+      "eval_loss": 0.5826414823532104,
+      "eval_precision": 0.8506964547245877,
+      "eval_recall": 0.8492753623188406,
+      "eval_runtime": 1.8427,
+      "eval_samples_per_second": 187.221,
+      "eval_steps_per_second": 5.969,
+      "step": 1988
+    },
+    {
+      "epoch": 82.0618556701031,
+      "grad_norm": 16.955421447753906,
+      "learning_rate": 9.490740740740741e-06,
+      "loss": 0.0756,
+      "step": 1990
+    },
+    {
+      "epoch": 82.47422680412372,
+      "grad_norm": 13.900518417358398,
+      "learning_rate": 9.259259259259259e-06,
+      "loss": 0.0683,
+      "step": 2000
+    },
+    {
+      "epoch": 82.88659793814433,
+      "grad_norm": 9.04283618927002,
+      "learning_rate": 9.027777777777777e-06,
+      "loss": 0.0718,
+      "step": 2010
+    },
+    {
+      "epoch": 82.96907216494846,
+      "eval_accuracy": 0.8579710144927536,
+      "eval_loss": 0.5879714488983154,
+      "eval_precision": 0.8590052571684228,
+      "eval_recall": 0.8579710144927536,
+      "eval_runtime": 1.7802,
+      "eval_samples_per_second": 193.802,
+      "eval_steps_per_second": 6.179,
+      "step": 2012
+    },
+    {
+      "epoch": 83.29896907216495,
+      "grad_norm": 8.817221641540527,
+      "learning_rate": 8.796296296296297e-06,
+      "loss": 0.0699,
+      "step": 2020
+    },
+    {
+      "epoch": 83.71134020618557,
+      "grad_norm": 9.379308700561523,
+      "learning_rate": 8.564814814814816e-06,
+      "loss": 0.0925,
+      "step": 2030
+    },
+    {
+      "epoch": 84.0,
+      "eval_accuracy": 0.8492753623188406,
+      "eval_loss": 0.5986330509185791,
+      "eval_precision": 0.8512692229678578,
+      "eval_recall": 0.8492753623188406,
+      "eval_runtime": 1.7681,
+      "eval_samples_per_second": 195.129,
+      "eval_steps_per_second": 6.221,
+      "step": 2037
+    },
+    {
+      "epoch": 84.12371134020619,
+      "grad_norm": 8.215590476989746,
+      "learning_rate": 8.333333333333334e-06,
+      "loss": 0.0617,
+      "step": 2040
+    },
+    {
+      "epoch": 84.5360824742268,
+      "grad_norm": 5.024844169616699,
+      "learning_rate": 8.101851851851852e-06,
+      "loss": 0.0729,
+      "step": 2050
+    },
+    {
+      "epoch": 84.94845360824742,
+      "grad_norm": 9.782211303710938,
+      "learning_rate": 7.87037037037037e-06,
+      "loss": 0.0621,
+      "step": 2060
+    },
+    {
+      "epoch": 84.98969072164948,
+      "eval_accuracy": 0.8492753623188406,
+      "eval_loss": 0.5914923548698425,
+      "eval_precision": 0.8496762597563219,
+      "eval_recall": 0.8492753623188406,
+      "eval_runtime": 1.7614,
+      "eval_samples_per_second": 195.868,
+      "eval_steps_per_second": 6.245,
+      "step": 2061
+    },
+    {
+      "epoch": 85.36082474226804,
+      "grad_norm": 7.3921942710876465,
+      "learning_rate": 7.63888888888889e-06,
+      "loss": 0.0621,
+      "step": 2070
+    },
+    {
+      "epoch": 85.77319587628865,
+      "grad_norm": 10.206525802612305,
+      "learning_rate": 7.4074074074074075e-06,
+      "loss": 0.059,
+      "step": 2080
+    },
+    {
+      "epoch": 85.97938144329896,
+      "eval_accuracy": 0.8579710144927536,
+      "eval_loss": 0.577899694442749,
+      "eval_precision": 0.8577329472646936,
+      "eval_recall": 0.8579710144927536,
+      "eval_runtime": 1.8903,
+      "eval_samples_per_second": 182.511,
+      "eval_steps_per_second": 5.819,
+      "step": 2085
+    },
+    {
+      "epoch": 86.18556701030928,
+      "grad_norm": 18.180044174194336,
+      "learning_rate": 7.1759259259259266e-06,
+      "loss": 0.0663,
+      "step": 2090
+    },
+    {
+      "epoch": 86.5979381443299,
+      "grad_norm": 10.320213317871094,
+      "learning_rate": 6.944444444444445e-06,
+      "loss": 0.0806,
+      "step": 2100
+    },
+    {
+      "epoch": 86.96907216494846,
+      "eval_accuracy": 0.8492753623188406,
+      "eval_loss": 0.5928123593330383,
+      "eval_precision": 0.850145540799145,
+      "eval_recall": 0.8492753623188406,
+      "eval_runtime": 1.8068,
+      "eval_samples_per_second": 190.946,
+      "eval_steps_per_second": 6.088,
+      "step": 2109
+    },
+    {
+      "epoch": 87.01030927835052,
+      "grad_norm": 13.640397071838379,
+      "learning_rate": 6.712962962962964e-06,
+      "loss": 0.0581,
+      "step": 2110
+    },
+    {
+      "epoch": 87.42268041237114,
+      "grad_norm": 9.787714004516602,
+      "learning_rate": 6.481481481481481e-06,
+      "loss": 0.0641,
+      "step": 2120
+    },
+    {
+      "epoch": 87.83505154639175,
+      "grad_norm": 7.827996730804443,
+      "learning_rate": 6.25e-06,
+      "loss": 0.0617,
+      "step": 2130
+    },
+    {
+      "epoch": 88.0,
+      "eval_accuracy": 0.8521739130434782,
+      "eval_loss": 0.606200098991394,
+      "eval_precision": 0.8519519771693684,
+      "eval_recall": 0.8521739130434782,
+      "eval_runtime": 1.7968,
+      "eval_samples_per_second": 192.013,
+      "eval_steps_per_second": 6.122,
+      "step": 2134
+    },
+    {
+      "epoch": 88.24742268041237,
+      "grad_norm": 10.409219741821289,
+      "learning_rate": 6.0185185185185185e-06,
+      "loss": 0.0677,
+      "step": 2140
+    },
+    {
+      "epoch": 88.65979381443299,
+      "grad_norm": 13.120059967041016,
+      "learning_rate": 5.787037037037038e-06,
+      "loss": 0.0651,
+      "step": 2150
+    },
+    {
+      "epoch": 88.98969072164948,
+      "eval_accuracy": 0.8521739130434782,
+      "eval_loss": 0.6067116260528564,
+      "eval_precision": 0.8518690976003952,
+      "eval_recall": 0.8521739130434782,
+      "eval_runtime": 1.8144,
+      "eval_samples_per_second": 190.144,
+      "eval_steps_per_second": 6.063,
+      "step": 2158
+    },
+    {
+      "epoch": 89.0721649484536,
+      "grad_norm": 8.974705696105957,
+      "learning_rate": 5.555555555555556e-06,
+      "loss": 0.0672,
+      "step": 2160
+    },
+    {
+      "epoch": 89.48453608247422,
+      "grad_norm": 13.397907257080078,
+      "learning_rate": 5.324074074074074e-06,
+      "loss": 0.0727,
+      "step": 2170
+    },
+    {
+      "epoch": 89.89690721649484,
+      "grad_norm": 4.159496784210205,
+      "learning_rate": 5.092592592592592e-06,
+      "loss": 0.0754,
+      "step": 2180
+    },
+    {
+      "epoch": 89.97938144329896,
+      "eval_accuracy": 0.855072463768116,
+      "eval_loss": 0.6107772588729858,
+      "eval_precision": 0.8553431503660337,
+      "eval_recall": 0.855072463768116,
+      "eval_runtime": 1.7776,
+      "eval_samples_per_second": 194.084,
+      "eval_steps_per_second": 6.188,
+      "step": 2182
+    },
+    {
+      "epoch": 90.30927835051547,
+      "grad_norm": 11.130279541015625,
+      "learning_rate": 4.861111111111111e-06,
+      "loss": 0.079,
+      "step": 2190
+    },
+    {
+      "epoch": 90.72164948453609,
+      "grad_norm": 13.203577995300293,
+      "learning_rate": 4.6296296296296296e-06,
+      "loss": 0.0682,
+      "step": 2200
+    },
+    {
+      "epoch": 90.96907216494846,
+      "eval_accuracy": 0.8492753623188406,
+      "eval_loss": 0.618496298789978,
+      "eval_precision": 0.8488872700953353,
+      "eval_recall": 0.8492753623188406,
+      "eval_runtime": 1.7798,
+      "eval_samples_per_second": 193.847,
+      "eval_steps_per_second": 6.181,
+      "step": 2206
+    },
+    {
+      "epoch": 91.1340206185567,
+      "grad_norm": 10.04045581817627,
+      "learning_rate": 4.398148148148149e-06,
+      "loss": 0.0699,
+      "step": 2210
+    },
+    {
+      "epoch": 91.54639175257732,
+      "grad_norm": 2.500128984451294,
+      "learning_rate": 4.166666666666667e-06,
+      "loss": 0.0664,
+      "step": 2220
+    },
+    {
+      "epoch": 91.95876288659794,
+      "grad_norm": 9.432464599609375,
+      "learning_rate": 3.935185185185185e-06,
+      "loss": 0.0763,
+      "step": 2230
+    },
+    {
+      "epoch": 92.0,
+      "eval_accuracy": 0.8579710144927536,
+      "eval_loss": 0.6168191432952881,
+      "eval_precision": 0.8575139456543875,
+      "eval_recall": 0.8579710144927536,
+      "eval_runtime": 1.8002,
+      "eval_samples_per_second": 191.65,
+      "eval_steps_per_second": 6.111,
+      "step": 2231
+    },
+    {
+      "epoch": 92.37113402061856,
+      "grad_norm": 9.279271125793457,
+      "learning_rate": 3.7037037037037037e-06,
+      "loss": 0.0742,
+      "step": 2240
+    },
+    {
+      "epoch": 92.78350515463917,
+      "grad_norm": 19.246337890625,
+      "learning_rate": 3.4722222222222224e-06,
+      "loss": 0.0703,
+      "step": 2250
+    },
+    {
+      "epoch": 92.98969072164948,
+      "eval_accuracy": 0.8521739130434782,
+      "eval_loss": 0.6258795261383057,
+      "eval_precision": 0.8520768323971984,
+      "eval_recall": 0.8521739130434782,
+      "eval_runtime": 1.8416,
+      "eval_samples_per_second": 187.341,
+      "eval_steps_per_second": 5.973,
+      "step": 2255
+    },
+    {
+      "epoch": 93.19587628865979,
+      "grad_norm": 5.38301420211792,
+      "learning_rate": 3.2407407407407406e-06,
+      "loss": 0.0559,
+      "step": 2260
+    },
+    {
+      "epoch": 93.6082474226804,
+      "grad_norm": 7.105731964111328,
+      "learning_rate": 3.0092592592592593e-06,
+      "loss": 0.0861,
+      "step": 2270
+    },
+    {
+      "epoch": 93.97938144329896,
+      "eval_accuracy": 0.855072463768116,
+      "eval_loss": 0.6128158569335938,
+      "eval_precision": 0.8553431503660337,
+      "eval_recall": 0.855072463768116,
+      "eval_runtime": 1.776,
+      "eval_samples_per_second": 194.252,
+      "eval_steps_per_second": 6.194,
+      "step": 2279
+    },
+    {
+      "epoch": 94.02061855670104,
+      "grad_norm": 14.296255111694336,
+      "learning_rate": 2.777777777777778e-06,
+      "loss": 0.089,
+      "step": 2280
+    },
+    {
+      "epoch": 94.43298969072166,
+      "grad_norm": 11.694154739379883,
+      "learning_rate": 2.546296296296296e-06,
+      "loss": 0.07,
+      "step": 2290
+    },
+    {
+      "epoch": 94.84536082474227,
+      "grad_norm": 8.240065574645996,
+      "learning_rate": 2.3148148148148148e-06,
+      "loss": 0.0807,
+      "step": 2300
+    },
+    {
+      "epoch": 94.96907216494846,
+      "eval_accuracy": 0.855072463768116,
+      "eval_loss": 0.6139995455741882,
+      "eval_precision": 0.8546533219302098,
+      "eval_recall": 0.855072463768116,
+      "eval_runtime": 1.763,
+      "eval_samples_per_second": 195.691,
+      "eval_steps_per_second": 6.239,
+      "step": 2303
+    },
+    {
+      "epoch": 95.25773195876289,
+      "grad_norm": 6.740184307098389,
+      "learning_rate": 2.0833333333333334e-06,
+      "loss": 0.0814,
+      "step": 2310
+    },
+    {
+      "epoch": 95.6701030927835,
+      "grad_norm": 9.714829444885254,
+      "learning_rate": 1.8518518518518519e-06,
+      "loss": 0.0621,
+      "step": 2320
+    },
+    {
+      "epoch": 96.0,
+      "eval_accuracy": 0.8521739130434782,
+      "eval_loss": 0.6132925748825073,
+      "eval_precision": 0.8531657869027159,
+      "eval_recall": 0.8521739130434782,
+      "eval_runtime": 1.8081,
+      "eval_samples_per_second": 190.808,
+      "eval_steps_per_second": 6.084,
+      "step": 2328
+    },
+    {
+      "epoch": 96.08247422680412,
+      "grad_norm": 11.212587356567383,
+      "learning_rate": 1.6203703703703703e-06,
+      "loss": 0.065,
+      "step": 2330
+    },
+    {
+      "epoch": 96.49484536082474,
+      "grad_norm": 5.428162097930908,
+      "learning_rate": 1.388888888888889e-06,
+      "loss": 0.0621,
+      "step": 2340
+    },
+    {
+      "epoch": 96.90721649484536,
+      "grad_norm": 15.444799423217773,
+      "learning_rate": 1.1574074074074074e-06,
+      "loss": 0.0831,
+      "step": 2350
+    },
+    {
+      "epoch": 96.98969072164948,
+      "eval_accuracy": 0.8492753623188406,
+      "eval_loss": 0.6100958585739136,
+      "eval_precision": 0.8507158478342087,
+      "eval_recall": 0.8492753623188406,
+      "eval_runtime": 1.7991,
+      "eval_samples_per_second": 191.765,
+      "eval_steps_per_second": 6.114,
+      "step": 2352
+    },
+    {
+      "epoch": 97.31958762886597,
+      "grad_norm": 12.789685249328613,
+      "learning_rate": 9.259259259259259e-07,
+      "loss": 0.0584,
+      "step": 2360
+    },
+    {
+      "epoch": 97.73195876288659,
+      "grad_norm": 9.271283149719238,
+      "learning_rate": 6.944444444444445e-07,
+      "loss": 0.0625,
+      "step": 2370
+    },
+    {
+      "epoch": 97.97938144329896,
+      "eval_accuracy": 0.8492753623188406,
+      "eval_loss": 0.6096817851066589,
+      "eval_precision": 0.8507158478342087,
+      "eval_recall": 0.8492753623188406,
+      "eval_runtime": 1.8191,
+      "eval_samples_per_second": 189.651,
+      "eval_steps_per_second": 6.047,
+      "step": 2376
+    },
+    {
+      "epoch": 98.14432989690722,
+      "grad_norm": 10.486361503601074,
+      "learning_rate": 4.6296296296296297e-07,
+      "loss": 0.0563,
+      "step": 2380
+    },
+    {
+      "epoch": 98.55670103092784,
+      "grad_norm": 4.260477066040039,
+      "learning_rate": 2.3148148148148148e-07,
+      "loss": 0.0648,
+      "step": 2390
+    },
+    {
+      "epoch": 98.96907216494846,
+      "grad_norm": 8.932230949401855,
+      "learning_rate": 0.0,
+      "loss": 0.0571,
+      "step": 2400
+    },
+    {
+      "epoch": 98.96907216494846,
+      "eval_accuracy": 0.8492753623188406,
+      "eval_loss": 0.6083797812461853,
+      "eval_precision": 0.8507158478342087,
+      "eval_recall": 0.8492753623188406,
+      "eval_runtime": 1.7521,
+      "eval_samples_per_second": 196.912,
+      "eval_steps_per_second": 6.278,
+      "step": 2400
+    },
+    {
+      "epoch": 98.96907216494846,
+      "step": 2400,
+      "total_flos": 7.732715563096474e+18,
+      "train_loss": 0.2344164727628231,
+      "train_runtime": 4723.8268,
+      "train_samples_per_second": 65.709,
+      "train_steps_per_second": 0.508
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 2400,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 100,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": false,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 7.732715563096474e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:affda0a3859645c81fa7be0fd211a7d38fc953f748e483c1c67402ec6e11b968
+size 5240