update

Browse files

Files changed (9) hide show

README.md +36 -28
all_results.json +13 -13
config.json +4 -2
eval_results.json +6 -8
pytorch_model.bin +2 -2
tokenizer_config.json +1 -1
train_results.json +6 -6
trainer_state.json +998 -842
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -4,23 +4,19 @@ language:
 - he
 tags:
 - generated_from_trainer
-metrics:
-- bleu
 model-index:
-- name: output_base
   results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
-# output_base
-This model is a fine-tuned version of [/home/ec2-user/SageMaker/marian_base](https://huggingface.co//home/ec2-user/SageMaker/marian_base) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.6852
-- Bleu: 30.5903
-- Gen Len: 64.8182
 ## Model description
@@ -39,34 +35,46 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 5e-05
-- train_batch_size: 48
-- eval_batch_size: 16
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- num_epochs: 10.0
 - mixed_precision_training: Native AMP
 ### Training results
-| Training Loss | Epoch | Step    | Validation Loss | Bleu    | Gen Len |
-|:-------------:|:-----:|:-------:|:---------------:|:-------:|:-------:|
-| 1.9938        | 1.0   | 188563  | 2.0008          | 27.6169 | 66.0246 |
-| 1.8171        | 2.0   | 377126  | 1.8753          | 28.4709 | 65.8859 |
-| 1.7389        | 3.0   | 565689  | 1.8120          | 28.9724 | 65.8601 |
-| 1.6893        | 4.0   | 754252  | 1.7690          | 29.5248 | 65.8846 |
-| 1.6559        | 5.0   | 942815  | 1.7467          | 29.5757 | 65.8046 |
-| 1.6279        | 6.0   | 1131378 | 1.7236          | 29.7512 | 66.0482 |
-| 1.6053        | 7.0   | 1319941 | 1.7137          | 29.916  | 66.0031 |
-| 1.5871        | 8.0   | 1508504 | 1.7007          | 30.1671 | 65.8853 |
-| 1.5694        | 9.0   | 1697067 | 1.6921          | 30.3613 | 65.9506 |
-| 1.5539        | 10.0  | 1885630 | 1.6852          | 30.4049 | 66.0487 |
 ### Framework versions
-- Transformers 4.12.0.dev0
-- Pytorch 1.9.1+cu102
-- Datasets 1.12.1
-- Tokenizers 0.10.3

 - he
 tags:
 - generated_from_trainer
 model-index:
+- name: marian_base
   results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
+# marian_base
+This model is a fine-tuned version of [orendar/en_he_base](https://huggingface.co/orendar/en_he_base) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 1.6365
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 0.0001
+- train_batch_size: 160
+- eval_batch_size: 160
 - seed: 42
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 320
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- num_epochs: 20.0
 - mixed_precision_training: Native AMP
 ### Training results
+| Training Loss | Epoch | Step   | Validation Loss |
+|:-------------:|:-----:|:------:|:---------------:|
+| 2.125         | 1.0   | 30633  | 2.0720          |
+| 1.9288        | 2.0   | 61266  | 1.9033          |
+| 1.8387        | 3.0   | 91899  | 1.8330          |
+| 1.7832        | 4.0   | 122532 | 1.7864          |
+| 1.7445        | 5.0   | 153165 | 1.7592          |
+| 1.7152        | 6.0   | 183798 | 1.7404          |
+| 1.6933        | 7.0   | 214431 | 1.7208          |
+| 1.6743        | 8.0   | 245064 | 1.7005          |
+| 1.6561        | 9.0   | 275697 | 1.6907          |
+| 1.6431        | 10.0  | 306330 | 1.6903          |
+| 1.6282        | 11.0  | 336963 | 1.6801          |
+| 1.6173        | 12.0  | 367596 | 1.6714          |
+| 1.6061        | 13.0  | 398229 | 1.6634          |
+| 1.5971        | 14.0  | 428862 | 1.6543          |
+| 1.5867        | 15.0  | 459495 | 1.6488          |
+| 1.5781        | 16.0  | 490128 | 1.6447          |
+| 1.5684        | 17.0  | 520761 | 1.6388          |
+| 1.5597        | 18.0  | 551394 | 1.6416          |
+| 1.5521        | 19.0  | 582027 | 1.6370          |
+| 1.5438        | 20.0  | 612660 | 1.6365          |
 ### Framework versions
+- Transformers 4.18.0.dev0
+- Pytorch 1.11.0+cu102
+- Datasets 1.18.4
+- Tokenizers 0.11.6

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 10.0,
-    "eval_bleu": 30.5903,
-    "eval_gen_len": 64.8182,
-    "eval_loss": 1.6851532459259033,
-    "eval_runtime": 901.837,
-    "eval_samples": 17165,
-    "eval_samples_per_second": 19.033,
-    "eval_steps_per_second": 1.19,
-    "train_loss": 1.743612184965204,
-    "train_runtime": 420652.6588,
-    "train_samples": 9051022,
-    "train_samples_per_second": 215.166,
-    "train_steps_per_second": 4.483
 }

 {
+    "epoch": 20.0,
+    "eval_bleu": 8.4963,
+    "eval_gen_len": 21.6694,
+    "eval_loss": 1.636548638343811,
+    "eval_runtime": 19.1423,
+    "eval_samples": 29522,
+    "eval_samples_per_second": 1542.237,
+    "eval_steps_per_second": 9.664,
+    "train_loss": 1.7127611959194204,
+    "train_runtime": 370998.644,
+    "train_samples": 9802621,
+    "train_samples_per_second": 528.445,
+    "train_steps_per_second": 1.651
 }

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "/home/ec2-user/SageMaker/marian_base",
   "activation_dropout": 0.0,
   "activation_function": "swish",
   "add_bias_logits": false,
@@ -21,6 +21,7 @@
   "decoder_layerdrop": 0.0,
   "decoder_layers": 6,
   "decoder_start_token_id": 62954,
   "do_blenderbot_90_layernorm": false,
   "dropout": 0.1,
   "encoder_attention_heads": 8,
@@ -52,9 +53,10 @@
   "num_hidden_layers": 6,
   "pad_token_id": 62954,
   "scale_embedding": true,
   "static_position_embeddings": true,
   "torch_dtype": "float32",
-  "transformers_version": "4.12.0.dev0",
   "use_cache": true,
   "vocab_size": 62955
 }

 {
+  "_name_or_path": "orendar/en_he_base",
   "activation_dropout": 0.0,
   "activation_function": "swish",
   "add_bias_logits": false,
   "decoder_layerdrop": 0.0,
   "decoder_layers": 6,
   "decoder_start_token_id": 62954,
+  "decoder_vocab_size": 62955,
   "do_blenderbot_90_layernorm": false,
   "dropout": 0.1,
   "encoder_attention_heads": 8,
   "num_hidden_layers": 6,
   "pad_token_id": 62954,
   "scale_embedding": true,
+  "share_encoder_decoder_embeddings": true,
   "static_position_embeddings": true,
   "torch_dtype": "float32",
+  "transformers_version": "4.18.0.dev0",
   "use_cache": true,
   "vocab_size": 62955
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,8 @@
 {
-    "epoch": 10.0,
-    "eval_bleu": 30.5903,
-    "eval_gen_len": 64.8182,
-    "eval_loss": 1.6851532459259033,
-    "eval_runtime": 901.837,
-    "eval_samples": 17165,
-    "eval_samples_per_second": 19.033,
-    "eval_steps_per_second": 1.19
 }

 {
+    "epoch": 20.0,
+    "eval_loss": 1.636548638343811,
+    "eval_runtime": 19.1423,
+    "eval_samples": 29522,
+    "eval_samples_per_second": 1542.237,
+    "eval_steps_per_second": 9.664
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc4cbc6cfec26c88e60397f8e95fa4e1d36b41eb8cd25d1b0c118f9736d4fd02
-size 305822085

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4013281fcccc67400b2576d4279bb88811bc3449b0615b2c227e9cabe13249a
+size 305832709

tokenizer_config.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"source_lang": null, "target_lang": null, "unk_token": "<unk>", "eos_token": "</s>", "pad_token": "<pad>", "model_max_length": 512, "sp_model_kwargs": {}, "special_tokens_map_file": null, "tokenizer_file": null, "name_or_path": "/~~home/ec2-user/SageMaker/marian_base~~", "tokenizer_class": "MarianTokenizer"}


1	+ {"source_lang": null, "target_lang": null, "unk_token": "<unk>", "eos_token": "</s>", "pad_token": "<pad>", "model_max_length": 512, "sp_model_kwargs": {}, "separate_vocabs": false, "special_tokens_map_file": null, "tokenizer_file": null, "name_or_path": "orendar/en_he_base", "tokenizer_class": "MarianTokenizer"}

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 10.0,
-    "train_loss": 1.743612184965204,
-    "train_runtime": 420652.6588,
-    "train_samples": 9051022,
-    "train_samples_per_second": 215.166,
-    "train_steps_per_second": 4.483
 }

 {
+    "epoch": 20.0,
+    "train_loss": 1.7127611959194204,
+    "train_runtime": 370998.644,
+    "train_samples": 9802621,
+    "train_samples_per_second": 528.445,
+    "train_steps_per_second": 1.651
 }

trainer_state.json CHANGED Viewed

@@ -1,1253 +1,1409 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 10.0,
-  "global_step": 1885630,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.05,
-      "learning_rate": 4.9734863149186215e-05,
-      "loss": 5.3726,
-      "step": 10000
     },
     {
-      "epoch": 0.11,
-      "learning_rate": 4.946977933104586e-05,
-      "loss": 3.517,
-      "step": 20000
     },
     {
-      "epoch": 0.16,
-      "learning_rate": 4.920472202924222e-05,
-      "loss": 2.957,
       "step": 30000
     },
     {
-      "epoch": 0.21,
-      "learning_rate": 4.893963821110186e-05,
-      "loss": 2.7004,
-      "step": 40000
     },
     {
-      "epoch": 0.27,
-      "learning_rate": 4.867460742563494e-05,
-      "loss": 2.5453,
-      "step": 50000
     },
     {
-      "epoch": 0.32,
-      "learning_rate": 4.840955012383129e-05,
-      "loss": 2.4342,
       "step": 60000
     },
     {
-      "epoch": 0.37,
-      "learning_rate": 4.814446630569094e-05,
-      "loss": 2.3507,
-      "step": 70000
     },
     {
-      "epoch": 0.42,
-      "learning_rate": 4.787943552022401e-05,
-      "loss": 2.2903,
-      "step": 80000
     },
     {
-      "epoch": 0.48,
-      "learning_rate": 4.761437821842037e-05,
-      "loss": 2.2356,
       "step": 90000
     },
     {
-      "epoch": 0.53,
-      "learning_rate": 4.734934743295344e-05,
-      "loss": 2.1933,
-      "step": 100000
     },
     {
-      "epoch": 0.58,
-      "learning_rate": 4.70842901311498e-05,
-      "loss": 2.1565,
-      "step": 110000
     },
     {
-      "epoch": 0.64,
-      "learning_rate": 4.681923282934616e-05,
-      "loss": 2.1247,
-      "step": 120000
     },
     {
-      "epoch": 0.69,
-      "learning_rate": 4.655417552754252e-05,
-      "loss": 2.0947,
-      "step": 130000
     },
     {
-      "epoch": 0.74,
-      "learning_rate": 4.628909170940217e-05,
-      "loss": 2.0742,
-      "step": 140000
     },
     {
-      "epoch": 0.8,
-      "learning_rate": 4.602403440759853e-05,
-      "loss": 2.048,
-      "step": 150000
     },
     {
-      "epoch": 0.85,
-      "learning_rate": 4.575897710579488e-05,
-      "loss": 2.0292,
-      "step": 160000
     },
     {
-      "epoch": 0.9,
-      "learning_rate": 4.5493893287654526e-05,
-      "loss": 2.0091,
-      "step": 170000
     },
     {
-      "epoch": 0.95,
-      "learning_rate": 4.5228862502187606e-05,
-      "loss": 1.9938,
-      "step": 180000
     },
     {
-      "epoch": 1.0,
-      "eval_bleu": 27.6169,
-      "eval_gen_len": 66.0246,
-      "eval_loss": 2.0008087158203125,
-      "eval_runtime": 2487.0668,
-      "eval_samples_per_second": 6.902,
-      "eval_steps_per_second": 0.431,
-      "step": 188563
     },
     {
-      "epoch": 1.01,
-      "learning_rate": 4.496380520038396e-05,
-      "loss": 1.9756,
-      "step": 190000
     },
     {
-      "epoch": 1.06,
-      "learning_rate": 4.469874789858032e-05,
-      "loss": 1.9481,
-      "step": 200000
     },
     {
-      "epoch": 1.11,
-      "learning_rate": 4.443369059677668e-05,
-      "loss": 1.9385,
-      "step": 210000
     },
     {
-      "epoch": 1.17,
-      "learning_rate": 4.416865981130975e-05,
-      "loss": 1.9268,
-      "step": 220000
     },
     {
-      "epoch": 1.22,
-      "learning_rate": 4.3903575993169396e-05,
-      "loss": 1.9216,
-      "step": 230000
     },
     {
-      "epoch": 1.27,
-      "learning_rate": 4.363854520770247e-05,
-      "loss": 1.9097,
-      "step": 240000
     },
     {
-      "epoch": 1.33,
-      "learning_rate": 4.337348790589882e-05,
-      "loss": 1.8991,
-      "step": 250000
     },
     {
-      "epoch": 1.38,
-      "learning_rate": 4.31084571204319e-05,
-      "loss": 1.8921,
-      "step": 260000
     },
     {
-      "epoch": 1.43,
-      "learning_rate": 4.284339981862826e-05,
-      "loss": 1.8808,
-      "step": 270000
     },
     {
-      "epoch": 1.48,
-      "learning_rate": 4.2578342516824614e-05,
-      "loss": 1.8733,
-      "step": 280000
     },
     {
-      "epoch": 1.54,
-      "learning_rate": 4.231331173135769e-05,
-      "loss": 1.8671,
-      "step": 290000
     },
     {
-      "epoch": 1.59,
-      "learning_rate": 4.2048280945890766e-05,
-      "loss": 1.8612,
-      "step": 300000
     },
     {
-      "epoch": 1.64,
-      "learning_rate": 4.178325016042384e-05,
-      "loss": 1.8522,
-      "step": 310000
     },
     {
-      "epoch": 1.7,
-      "learning_rate": 4.151821937495691e-05,
-      "loss": 1.8443,
-      "step": 320000
     },
     {
-      "epoch": 1.75,
-      "learning_rate": 4.125313555681656e-05,
-      "loss": 1.8413,
-      "step": 330000
     },
     {
-      "epoch": 1.8,
-      "learning_rate": 4.098810477134963e-05,
-      "loss": 1.8361,
-      "step": 340000
     },
     {
-      "epoch": 1.86,
-      "learning_rate": 4.0723073985882704e-05,
-      "loss": 1.8276,
-      "step": 350000
     },
     {
-      "epoch": 1.91,
-      "learning_rate": 4.045801668407906e-05,
-      "loss": 1.824,
-      "step": 360000
     },
     {
-      "epoch": 1.96,
-      "learning_rate": 4.0192985898612136e-05,
-      "loss": 1.8171,
-      "step": 370000
     },
     {
-      "epoch": 2.0,
-      "eval_bleu": 28.4709,
-      "eval_gen_len": 65.8859,
-      "eval_loss": 1.8752530813217163,
-      "eval_runtime": 2537.4407,
-      "eval_samples_per_second": 6.765,
-      "eval_steps_per_second": 0.423,
-      "step": 377126
     },
     {
-      "epoch": 2.02,
-      "learning_rate": 3.9927928596808496e-05,
-      "loss": 1.8061,
-      "step": 380000
     },
     {
-      "epoch": 2.07,
-      "learning_rate": 3.966289781134157e-05,
-      "loss": 1.787,
-      "step": 390000
     },
     {
-      "epoch": 2.12,
-      "learning_rate": 3.939784050953793e-05,
-      "loss": 1.7839,
-      "step": 400000
     },
     {
-      "epoch": 2.17,
-      "learning_rate": 3.9132809724071e-05,
-      "loss": 1.7827,
-      "step": 410000
     },
     {
-      "epoch": 2.23,
-      "learning_rate": 3.886775242226736e-05,
-      "loss": 1.7787,
-      "step": 420000
     },
     {
-      "epoch": 2.28,
-      "learning_rate": 3.860269512046372e-05,
-      "loss": 1.776,
-      "step": 430000
     },
     {
-      "epoch": 2.33,
-      "learning_rate": 3.833763781866008e-05,
-      "loss": 1.773,
-      "step": 440000
     },
     {
-      "epoch": 2.39,
-      "learning_rate": 3.807258051685644e-05,
-      "loss": 1.7715,
-      "step": 450000
     },
     {
-      "epoch": 2.44,
-      "learning_rate": 3.78075232150528e-05,
-      "loss": 1.7672,
-      "step": 460000
     },
     {
-      "epoch": 2.49,
-      "learning_rate": 3.754246591324915e-05,
-      "loss": 1.764,
-      "step": 470000
     },
     {
-      "epoch": 2.55,
-      "learning_rate": 3.727740861144551e-05,
-      "loss": 1.7602,
-      "step": 480000
     },
     {
-      "epoch": 2.6,
-      "learning_rate": 3.701235130964188e-05,
-      "loss": 1.7608,
-      "step": 490000
     },
     {
-      "epoch": 2.65,
-      "learning_rate": 3.674729400783823e-05,
-      "loss": 1.7564,
-      "step": 500000
     },
     {
-      "epoch": 2.7,
-      "learning_rate": 3.648223670603459e-05,
-      "loss": 1.7532,
-      "step": 510000
     },
     {
-      "epoch": 2.76,
-      "learning_rate": 3.621720592056766e-05,
-      "loss": 1.7479,
-      "step": 520000
     },
     {
-      "epoch": 2.81,
-      "learning_rate": 3.595214861876402e-05,
-      "loss": 1.744,
-      "step": 530000
     },
     {
-      "epoch": 2.86,
-      "learning_rate": 3.568706480062367e-05,
-      "loss": 1.744,
-      "step": 540000
     },
     {
-      "epoch": 2.92,
-      "learning_rate": 3.542203401515674e-05,
-      "loss": 1.7409,
-      "step": 550000
     },
     {
-      "epoch": 2.97,
-      "learning_rate": 3.5156950197016386e-05,
-      "loss": 1.7389,
-      "step": 560000
     },
     {
-      "epoch": 3.0,
-      "eval_bleu": 28.9724,
-      "eval_gen_len": 65.8601,
-      "eval_loss": 1.8119513988494873,
-      "eval_runtime": 2571.172,
-      "eval_samples_per_second": 6.676,
-      "eval_steps_per_second": 0.417,
-      "step": 565689
-    },
-    {
-      "epoch": 3.02,
-      "learning_rate": 3.489191941154946e-05,
-      "loss": 1.7262,
-      "step": 570000
     },
     {
-      "epoch": 3.08,
-      "learning_rate": 3.462686210974582e-05,
-      "loss": 1.711,
-      "step": 580000
     },
     {
-      "epoch": 3.13,
-      "learning_rate": 3.436183132427889e-05,
-      "loss": 1.7129,
-      "step": 590000
     },
     {
-      "epoch": 3.18,
-      "learning_rate": 3.409674750613853e-05,
-      "loss": 1.7137,
-      "step": 600000
     },
     {
-      "epoch": 3.23,
-      "learning_rate": 3.383166368799818e-05,
-      "loss": 1.7105,
-      "step": 610000
     },
     {
-      "epoch": 3.29,
-      "learning_rate": 3.3566606386194536e-05,
-      "loss": 1.7114,
-      "step": 620000
     },
     {
-      "epoch": 3.34,
-      "learning_rate": 3.3301549084390896e-05,
-      "loss": 1.7078,
-      "step": 630000
     },
     {
-      "epoch": 3.39,
-      "learning_rate": 3.3036491782587255e-05,
-      "loss": 1.7074,
-      "step": 640000
     },
     {
-      "epoch": 3.45,
-      "learning_rate": 3.2771434480783615e-05,
-      "loss": 1.7052,
-      "step": 650000
     },
     {
-      "epoch": 3.5,
-      "learning_rate": 3.250637717897997e-05,
-      "loss": 1.7038,
-      "step": 660000
     },
     {
-      "epoch": 3.55,
-      "learning_rate": 3.224131987717633e-05,
-      "loss": 1.703,
-      "step": 670000
     },
     {
-      "epoch": 3.61,
-      "learning_rate": 3.1976262575372686e-05,
-      "loss": 1.7015,
-      "step": 680000
     },
     {
-      "epoch": 3.66,
-      "learning_rate": 3.171120527356905e-05,
-      "loss": 1.699,
-      "step": 690000
     },
     {
-      "epoch": 3.71,
-      "learning_rate": 3.144617448810212e-05,
-      "loss": 1.6991,
-      "step": 700000
     },
     {
-      "epoch": 3.77,
-      "learning_rate": 3.1181090669961765e-05,
-      "loss": 1.6956,
-      "step": 710000
     },
     {
-      "epoch": 3.82,
-      "learning_rate": 3.0916059884494844e-05,
-      "loss": 1.6951,
-      "step": 720000
     },
     {
-      "epoch": 3.87,
-      "learning_rate": 3.06510025826912e-05,
-      "loss": 1.6925,
-      "step": 730000
     },
     {
-      "epoch": 3.92,
-      "learning_rate": 3.0385918764550843e-05,
-      "loss": 1.6925,
-      "step": 740000
     },
     {
-      "epoch": 3.98,
-      "learning_rate": 3.0120887979083916e-05,
-      "loss": 1.6893,
-      "step": 750000
     },
     {
-      "epoch": 4.0,
-      "eval_bleu": 29.5248,
-      "eval_gen_len": 65.8846,
-      "eval_loss": 1.7690072059631348,
-      "eval_runtime": 2545.7813,
-      "eval_samples_per_second": 6.743,
-      "eval_steps_per_second": 0.421,
-      "step": 754252
     },
     {
-      "epoch": 4.03,
-      "learning_rate": 2.9855830677280272e-05,
-      "loss": 1.6732,
-      "step": 760000
     },
     {
-      "epoch": 4.08,
-      "learning_rate": 2.959077337547663e-05,
-      "loss": 1.6653,
-      "step": 770000
     },
     {
-      "epoch": 4.14,
-      "learning_rate": 2.9325716073672994e-05,
-      "loss": 1.6672,
-      "step": 780000
     },
     {
-      "epoch": 4.19,
-      "learning_rate": 2.9060658771869347e-05,
-      "loss": 1.667,
-      "step": 790000
     },
     {
-      "epoch": 4.24,
-      "learning_rate": 2.8795574953728993e-05,
-      "loss": 1.6665,
-      "step": 800000
     },
     {
-      "epoch": 4.3,
-      "learning_rate": 2.8530517651925353e-05,
-      "loss": 1.6661,
-      "step": 810000
     },
     {
-      "epoch": 4.35,
-      "learning_rate": 2.8265433833785e-05,
-      "loss": 1.6656,
-      "step": 820000
     },
     {
-      "epoch": 4.4,
-      "learning_rate": 2.8000403048318068e-05,
-      "loss": 1.666,
-      "step": 830000
     },
     {
-      "epoch": 4.45,
-      "learning_rate": 2.773534574651443e-05,
-      "loss": 1.6629,
-      "step": 840000
     },
     {
-      "epoch": 4.51,
-      "learning_rate": 2.747028844471079e-05,
-      "loss": 1.6648,
-      "step": 850000
     },
     {
-      "epoch": 4.56,
-      "learning_rate": 2.720520462657043e-05,
-      "loss": 1.6633,
-      "step": 860000
     },
     {
-      "epoch": 4.61,
-      "learning_rate": 2.694014732476679e-05,
-      "loss": 1.6631,
-      "step": 870000
     },
     {
-      "epoch": 4.67,
-      "learning_rate": 2.6675090022963152e-05,
-      "loss": 1.6616,
-      "step": 880000
     },
     {
-      "epoch": 4.72,
-      "learning_rate": 2.641000620482279e-05,
-      "loss": 1.6594,
-      "step": 890000
     },
     {
-      "epoch": 4.77,
-      "learning_rate": 2.614494890301915e-05,
-      "loss": 1.6588,
-      "step": 900000
     },
     {
-      "epoch": 4.83,
-      "learning_rate": 2.5879865084878797e-05,
-      "loss": 1.6582,
-      "step": 910000
     },
     {
-      "epoch": 4.88,
-      "learning_rate": 2.5614834299411866e-05,
-      "loss": 1.6569,
-      "step": 920000
     },
     {
-      "epoch": 4.93,
-      "learning_rate": 2.5349750481271512e-05,
-      "loss": 1.6539,
-      "step": 930000
     },
     {
-      "epoch": 4.99,
-      "learning_rate": 2.508471969580459e-05,
-      "loss": 1.6559,
-      "step": 940000
     },
     {
-      "epoch": 5.0,
-      "eval_bleu": 29.5757,
-      "eval_gen_len": 65.8046,
-      "eval_loss": 1.7467188835144043,
-      "eval_runtime": 2534.3035,
-      "eval_samples_per_second": 6.773,
-      "eval_steps_per_second": 0.423,
-      "step": 942815
     },
     {
-      "epoch": 5.04,
-      "learning_rate": 2.4819635877664228e-05,
-      "loss": 1.6372,
-      "step": 950000
     },
     {
-      "epoch": 5.09,
-      "learning_rate": 2.455457857586059e-05,
-      "loss": 1.6316,
-      "step": 960000
     },
     {
-      "epoch": 5.14,
-      "learning_rate": 2.4289494757720233e-05,
-      "loss": 1.6343,
-      "step": 970000
     },
     {
-      "epoch": 5.2,
-      "learning_rate": 2.4024463972253306e-05,
-      "loss": 1.6344,
-      "step": 980000
     },
     {
-      "epoch": 5.25,
-      "learning_rate": 2.3759406670449666e-05,
-      "loss": 1.6345,
-      "step": 990000
     },
     {
-      "epoch": 5.3,
-      "learning_rate": 2.3494349368646025e-05,
-      "loss": 1.6343,
-      "step": 1000000
     },
     {
-      "epoch": 5.36,
-      "learning_rate": 2.322929206684238e-05,
-      "loss": 1.6353,
-      "step": 1010000
     },
     {
-      "epoch": 5.41,
-      "learning_rate": 2.296423476503874e-05,
-      "loss": 1.6329,
-      "step": 1020000
     },
     {
-      "epoch": 5.46,
-      "learning_rate": 2.26991774632351e-05,
-      "loss": 1.6338,
-      "step": 1030000
     },
     {
-      "epoch": 5.52,
-      "learning_rate": 2.2434093645094746e-05,
-      "loss": 1.6341,
-      "step": 1040000
     },
     {
-      "epoch": 5.57,
-      "learning_rate": 2.216906285962782e-05,
-      "loss": 1.633,
-      "step": 1050000
     },
     {
-      "epoch": 5.62,
-      "learning_rate": 2.1904005557824175e-05,
-      "loss": 1.6322,
-      "step": 1060000
     },
     {
-      "epoch": 5.67,
-      "learning_rate": 2.163892173968382e-05,
-      "loss": 1.6314,
-      "step": 1070000
     },
     {
-      "epoch": 5.73,
-      "learning_rate": 2.1373864437880177e-05,
-      "loss": 1.6301,
-      "step": 1080000
     },
     {
-      "epoch": 5.78,
-      "learning_rate": 2.110880713607654e-05,
-      "loss": 1.6313,
-      "step": 1090000
     },
     {
-      "epoch": 5.83,
-      "learning_rate": 2.0843749834272896e-05,
-      "loss": 1.6313,
-      "step": 1100000
     },
     {
-      "epoch": 5.89,
-      "learning_rate": 2.057871904880597e-05,
-      "loss": 1.6291,
-      "step": 1110000
     },
     {
-      "epoch": 5.94,
-      "learning_rate": 2.0313635230665615e-05,
-      "loss": 1.627,
-      "step": 1120000
     },
     {
-      "epoch": 5.99,
-      "learning_rate": 2.0048604445198688e-05,
-      "loss": 1.6279,
-      "step": 1130000
     },
     {
-      "epoch": 6.0,
-      "eval_bleu": 29.7512,
-      "eval_gen_len": 66.0482,
-      "eval_loss": 1.7236360311508179,
-      "eval_runtime": 2786.837,
-      "eval_samples_per_second": 6.159,
-      "eval_steps_per_second": 0.385,
-      "step": 1131378
     },
     {
-      "epoch": 6.05,
-      "learning_rate": 1.9783520627058334e-05,
-      "loss": 1.6085,
-      "step": 1140000
     },
     {
-      "epoch": 6.1,
-      "learning_rate": 1.9518489841591407e-05,
-      "loss": 1.6066,
-      "step": 1150000
     },
     {
-      "epoch": 6.15,
-      "learning_rate": 1.9253432539787763e-05,
-      "loss": 1.6079,
-      "step": 1160000
     },
     {
-      "epoch": 6.2,
-      "learning_rate": 1.8988375237984123e-05,
-      "loss": 1.6108,
-      "step": 1170000
     },
     {
-      "epoch": 6.26,
-      "learning_rate": 1.8723317936180482e-05,
-      "loss": 1.6083,
-      "step": 1180000
     },
     {
-      "epoch": 6.31,
-      "learning_rate": 1.8458234118040125e-05,
-      "loss": 1.6082,
-      "step": 1190000
     },
     {
-      "epoch": 6.36,
-      "learning_rate": 1.8193176816236484e-05,
-      "loss": 1.61,
-      "step": 1200000
     },
     {
-      "epoch": 6.42,
-      "learning_rate": 1.7928119514432844e-05,
-      "loss": 1.6092,
-      "step": 1210000
     },
     {
-      "epoch": 6.47,
-      "learning_rate": 1.7663062212629203e-05,
-      "loss": 1.6093,
-      "step": 1220000
     },
     {
-      "epoch": 6.52,
-      "learning_rate": 1.7397978394488846e-05,
-      "loss": 1.6106,
-      "step": 1230000
     },
     {
-      "epoch": 6.58,
-      "learning_rate": 1.7132921092685202e-05,
-      "loss": 1.6084,
-      "step": 1240000
     },
     {
-      "epoch": 6.63,
-      "learning_rate": 1.6867863790881565e-05,
-      "loss": 1.6094,
-      "step": 1250000
     },
     {
-      "epoch": 6.68,
-      "learning_rate": 1.6602779972741207e-05,
-      "loss": 1.6069,
-      "step": 1260000
     },
     {
-      "epoch": 6.74,
-      "learning_rate": 1.633774918727428e-05,
-      "loss": 1.6069,
-      "step": 1270000
     },
     {
-      "epoch": 6.79,
-      "learning_rate": 1.6072665369133923e-05,
-      "loss": 1.6075,
-      "step": 1280000
     },
     {
-      "epoch": 6.84,
-      "learning_rate": 1.5807608067330283e-05,
-      "loss": 1.6051,
-      "step": 1290000
     },
     {
-      "epoch": 6.89,
-      "learning_rate": 1.5542550765526642e-05,
-      "loss": 1.6044,
-      "step": 1300000
     },
     {
-      "epoch": 6.95,
-      "learning_rate": 1.5277493463723e-05,
-      "loss": 1.6053,
-      "step": 1310000
     },
     {
-      "epoch": 7.0,
-      "eval_bleu": 29.916,
-      "eval_gen_len": 66.0031,
-      "eval_loss": 1.7136626243591309,
-      "eval_runtime": 2659.0199,
-      "eval_samples_per_second": 6.455,
-      "eval_steps_per_second": 0.404,
-      "step": 1319941
     },
     {
-      "epoch": 7.0,
-      "learning_rate": 1.5012436161919361e-05,
-      "loss": 1.6068,
-      "step": 1320000
     },
     {
-      "epoch": 7.05,
-      "learning_rate": 1.4747378860115719e-05,
-      "loss": 1.5851,
-      "step": 1330000
     },
     {
-      "epoch": 7.11,
-      "learning_rate": 1.4482321558312076e-05,
       "loss": 1.5864,
-      "step": 1340000
     },
     {
-      "epoch": 7.16,
-      "learning_rate": 1.4217264256508436e-05,
-      "loss": 1.5865,
-      "step": 1350000
     },
     {
-      "epoch": 7.21,
-      "learning_rate": 1.3952206954704794e-05,
-      "loss": 1.5866,
-      "step": 1360000
     },
     {
-      "epoch": 7.27,
-      "learning_rate": 1.3687149652901151e-05,
-      "loss": 1.589,
-      "step": 1370000
     },
     {
-      "epoch": 7.32,
-      "learning_rate": 1.3422092351097513e-05,
-      "loss": 1.5885,
-      "step": 1380000
     },
     {
-      "epoch": 7.37,
-      "learning_rate": 1.315703504929387e-05,
-      "loss": 1.589,
-      "step": 1390000
     },
     {
-      "epoch": 7.42,
-      "learning_rate": 1.2891951231153515e-05,
-      "loss": 1.5882,
-      "step": 1400000
     },
     {
-      "epoch": 7.48,
-      "learning_rate": 1.2626893929349873e-05,
-      "loss": 1.5897,
-      "step": 1410000
     },
     {
-      "epoch": 7.53,
-      "learning_rate": 1.2361836627546232e-05,
-      "loss": 1.5868,
-      "step": 1420000
     },
     {
-      "epoch": 7.58,
-      "learning_rate": 1.2096805842079307e-05,
-      "loss": 1.5884,
-      "step": 1430000
     },
     {
-      "epoch": 7.64,
-      "learning_rate": 1.1831748540275664e-05,
-      "loss": 1.5896,
-      "step": 1440000
     },
     {
-      "epoch": 7.69,
-      "learning_rate": 1.1566664722135307e-05,
-      "loss": 1.5874,
-      "step": 1450000
     },
     {
-      "epoch": 7.74,
-      "learning_rate": 1.1301633936668382e-05,
-      "loss": 1.5874,
-      "step": 1460000
     },
     {
-      "epoch": 7.8,
-      "learning_rate": 1.1036576634864741e-05,
-      "loss": 1.5878,
-      "step": 1470000
     },
     {
-      "epoch": 7.85,
-      "learning_rate": 1.0771492816724385e-05,
-      "loss": 1.5864,
-      "step": 1480000
     },
     {
-      "epoch": 7.9,
-      "learning_rate": 1.0506408998584028e-05,
-      "loss": 1.5848,
-      "step": 1490000
     },
     {
-      "epoch": 7.95,
-      "learning_rate": 1.0241351696780386e-05,
-      "loss": 1.5871,
-      "step": 1500000
     },
     {
-      "epoch": 8.0,
-      "eval_bleu": 30.1671,
-      "eval_gen_len": 65.8853,
-      "eval_loss": 1.7006529569625854,
-      "eval_runtime": 2553.3513,
-      "eval_samples_per_second": 6.723,
-      "eval_steps_per_second": 0.42,
-      "step": 1508504
     },
     {
-      "epoch": 8.01,
-      "learning_rate": 9.97626787864003e-06,
-      "loss": 1.582,
-      "step": 1510000
     },
     {
-      "epoch": 8.06,
-      "learning_rate": 9.711237093173105e-06,
-      "loss": 1.5691,
-      "step": 1520000
     },
     {
-      "epoch": 8.11,
-      "learning_rate": 9.446153275032749e-06,
-      "loss": 1.5695,
-      "step": 1530000
     },
     {
-      "epoch": 8.17,
-      "learning_rate": 9.181095973229107e-06,
-      "loss": 1.5702,
-      "step": 1540000
     },
     {
-      "epoch": 8.22,
-      "learning_rate": 8.91601215508875e-06,
-      "loss": 1.5701,
-      "step": 1550000
     },
     {
-      "epoch": 8.27,
-      "learning_rate": 8.650954853285109e-06,
-      "loss": 1.5711,
-      "step": 1560000
     },
     {
-      "epoch": 8.33,
-      "learning_rate": 8.385897551481469e-06,
-      "loss": 1.5693,
-      "step": 1570000
     },
     {
-      "epoch": 8.38,
-      "learning_rate": 8.120840249677828e-06,
-      "loss": 1.5703,
-      "step": 1580000
     },
     {
-      "epoch": 8.43,
-      "learning_rate": 7.855809464210901e-06,
-      "loss": 1.571,
-      "step": 1590000
     },
     {
-      "epoch": 8.49,
-      "learning_rate": 7.5907521624072595e-06,
-      "loss": 1.5709,
-      "step": 1600000
     },
     {
-      "epoch": 8.54,
-      "learning_rate": 7.325694860603618e-06,
-      "loss": 1.5698,
-      "step": 1610000
     },
     {
-      "epoch": 8.59,
-      "learning_rate": 7.0606110424632625e-06,
-      "loss": 1.5716,
-      "step": 1620000
     },
     {
-      "epoch": 8.64,
-      "learning_rate": 6.79555374065962e-06,
-      "loss": 1.5702,
-      "step": 1630000
     },
     {
-      "epoch": 8.7,
-      "learning_rate": 6.530496438855979e-06,
-      "loss": 1.5698,
-      "step": 1640000
     },
     {
-      "epoch": 8.75,
-      "learning_rate": 6.265439137052338e-06,
-      "loss": 1.5699,
-      "step": 1650000
     },
     {
-      "epoch": 8.8,
-      "learning_rate": 6.000381835248697e-06,
-      "loss": 1.5683,
-      "step": 1660000
     },
     {
-      "epoch": 8.86,
-      "learning_rate": 5.735351049781771e-06,
-      "loss": 1.5683,
-      "step": 1670000
     },
     {
-      "epoch": 8.91,
-      "learning_rate": 5.470267231641415e-06,
-      "loss": 1.5701,
-      "step": 1680000
     },
     {
-      "epoch": 8.96,
-      "learning_rate": 5.205236446174489e-06,
-      "loss": 1.5694,
-      "step": 1690000
     },
     {
-      "epoch": 9.0,
-      "eval_bleu": 30.3613,
-      "eval_gen_len": 65.9506,
-      "eval_loss": 1.692053198814392,
-      "eval_runtime": 2749.5168,
-      "eval_samples_per_second": 6.243,
-      "eval_steps_per_second": 0.39,
-      "step": 1697067
     },
     {
-      "epoch": 9.02,
-      "learning_rate": 4.940126111697417e-06,
-      "loss": 1.5631,
-      "step": 1700000
     },
     {
-      "epoch": 9.07,
-      "learning_rate": 4.675095326230491e-06,
-      "loss": 1.5545,
-      "step": 1710000
     },
     {
-      "epoch": 9.12,
-      "learning_rate": 4.4100380244268495e-06,
-      "loss": 1.554,
-      "step": 1720000
     },
     {
-      "epoch": 9.17,
-      "learning_rate": 4.144980722623208e-06,
-      "loss": 1.5572,
-      "step": 1730000
     },
     {
-      "epoch": 9.23,
-      "learning_rate": 3.879896904482852e-06,
-      "loss": 1.5576,
-      "step": 1740000
     },
     {
-      "epoch": 9.28,
-      "learning_rate": 3.614866119015926e-06,
-      "loss": 1.5542,
-      "step": 1750000
     },
     {
-      "epoch": 9.33,
-      "learning_rate": 3.3497823008755693e-06,
-      "loss": 1.5546,
-      "step": 1760000
     },
     {
-      "epoch": 9.39,
-      "learning_rate": 3.0847249990719284e-06,
-      "loss": 1.5557,
-      "step": 1770000
     },
     {
-      "epoch": 9.44,
-      "learning_rate": 2.819667697268287e-06,
-      "loss": 1.5561,
-      "step": 1780000
     },
     {
-      "epoch": 9.49,
-      "learning_rate": 2.554583879127931e-06,
-      "loss": 1.5553,
-      "step": 1790000
     },
     {
-      "epoch": 9.55,
-      "learning_rate": 2.2895530936610047e-06,
-      "loss": 1.5558,
-      "step": 1800000
     },
     {
-      "epoch": 9.6,
-      "learning_rate": 2.0244957918573637e-06,
-      "loss": 1.554,
-      "step": 1810000
     },
     {
-      "epoch": 9.65,
-      "learning_rate": 1.759411973717007e-06,
-      "loss": 1.5543,
-      "step": 1820000
     },
     {
-      "epoch": 9.7,
-      "learning_rate": 1.494381188250081e-06,
-      "loss": 1.5553,
-      "step": 1830000
     },
     {
-      "epoch": 9.76,
-      "learning_rate": 1.2292973701097247e-06,
-      "loss": 1.5543,
-      "step": 1840000
     },
     {
-      "epoch": 9.81,
-      "learning_rate": 9.642665846427986e-07,
-      "loss": 1.5546,
-      "step": 1850000
     },
     {
-      "epoch": 9.86,
-      "learning_rate": 6.992092828391572e-07,
-      "loss": 1.5534,
-      "step": 1860000
     },
     {
-      "epoch": 9.92,
-      "learning_rate": 4.3415198103551603e-07,
-      "loss": 1.5536,
-      "step": 1870000
     },
     {
-      "epoch": 9.97,
-      "learning_rate": 1.690681628951597e-07,
-      "loss": 1.5539,
-      "step": 1880000
     },
     {
-      "epoch": 10.0,
-      "eval_bleu": 30.4049,
-      "eval_gen_len": 66.0487,
-      "eval_loss": 1.6851532459259033,
-      "eval_runtime": 2548.9872,
-      "eval_samples_per_second": 6.734,
-      "eval_steps_per_second": 0.421,
-      "step": 1885630
     },
     {
-      "epoch": 10.0,
-      "step": 1885630,
-      "total_flos": 5.018247011089908e+18,
-      "train_loss": 1.743612184965204,
-      "train_runtime": 420652.6588,
-      "train_samples_per_second": 215.166,
-      "train_steps_per_second": 4.483
     }
   ],
-  "max_steps": 1885630,
-  "num_train_epochs": 10,
-  "total_flos": 5.018247011089908e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 19.999983677999577,
+  "global_step": 612660,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.1,
+      "learning_rate": 9.951082166291254e-05,
+      "loss": 4.9783,
+      "step": 3000
     },
     {
+      "epoch": 0.2,
+      "learning_rate": 9.902115365782e-05,
+      "loss": 3.1296,
+      "step": 6000
     },
     {
+      "epoch": 0.29,
+      "learning_rate": 9.853148565272745e-05,
+      "loss": 2.7383,
+      "step": 9000
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 9.804181764763491e-05,
+      "loss": 2.5447,
+      "step": 12000
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 9.755231286521073e-05,
+      "loss": 2.4175,
+      "step": 15000
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 9.706280808278654e-05,
+      "loss": 2.3285,
+      "step": 18000
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 9.657346652303072e-05,
+      "loss": 2.2597,
+      "step": 21000
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 9.608396174060654e-05,
+      "loss": 2.2072,
+      "step": 24000
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 9.559462018085072e-05,
+      "loss": 2.1601,
+      "step": 27000
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 9.510511539842654e-05,
+      "loss": 2.125,
       "step": 30000
     },
     {
+      "epoch": 1.0,
+      "eval_loss": 2.072047233581543,
+      "eval_runtime": 19.2095,
+      "eval_samples_per_second": 1536.842,
+      "eval_steps_per_second": 9.631,
+      "step": 30633
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 9.461577383867072e-05,
+      "loss": 2.0771,
+      "step": 33000
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 9.412626905624655e-05,
+      "loss": 2.0514,
+      "step": 36000
     },
     {
+      "epoch": 1.27,
+      "learning_rate": 9.363692749649071e-05,
+      "loss": 2.0297,
+      "step": 39000
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 9.314742271406653e-05,
+      "loss": 2.0123,
+      "step": 42000
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 9.265791793164235e-05,
+      "loss": 1.9955,
+      "step": 45000
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 9.216857637188653e-05,
+      "loss": 1.9803,
+      "step": 48000
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 9.167907158946235e-05,
+      "loss": 1.9667,
+      "step": 51000
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 9.118973002970654e-05,
+      "loss": 1.9505,
+      "step": 54000
     },
     {
+      "epoch": 1.86,
+      "learning_rate": 9.070022524728234e-05,
+      "loss": 1.9381,
+      "step": 57000
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 9.021088368752652e-05,
+      "loss": 1.9288,
       "step": 60000
     },
     {
+      "epoch": 2.0,
+      "eval_loss": 1.9032506942749023,
+      "eval_runtime": 19.1781,
+      "eval_samples_per_second": 1539.357,
+      "eval_steps_per_second": 9.646,
+      "step": 61266
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 8.972137890510235e-05,
+      "loss": 1.9011,
+      "step": 63000
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 8.923203734534653e-05,
+      "loss": 1.8834,
+      "step": 66000
     },
     {
+      "epoch": 2.25,
+      "learning_rate": 8.874253256292235e-05,
+      "loss": 1.8807,
+      "step": 69000
     },
     {
+      "epoch": 2.35,
+      "learning_rate": 8.825319100316653e-05,
+      "loss": 1.8737,
+      "step": 72000
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 8.776368622074233e-05,
+      "loss": 1.8686,
+      "step": 75000
+    },
+    {
+      "epoch": 2.55,
+      "learning_rate": 8.727434466098652e-05,
+      "loss": 1.861,
+      "step": 78000
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 8.678483987856234e-05,
+      "loss": 1.8549,
+      "step": 81000
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 8.629549831880652e-05,
+      "loss": 1.8503,
+      "step": 84000
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 8.580599353638234e-05,
+      "loss": 1.8446,
+      "step": 87000
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 8.531665197662652e-05,
+      "loss": 1.8387,
       "step": 90000
     },
     {
+      "epoch": 3.0,
+      "eval_loss": 1.833019733428955,
+      "eval_runtime": 19.0959,
+      "eval_samples_per_second": 1545.988,
+      "eval_steps_per_second": 9.688,
+      "step": 91899
     },
     {
+      "epoch": 3.04,
+      "learning_rate": 8.482714719420234e-05,
+      "loss": 1.8222,
+      "step": 93000
     },
     {
+      "epoch": 3.13,
+      "learning_rate": 8.433764241177815e-05,
+      "loss": 1.8037,
+      "step": 96000
     },
     {
+      "epoch": 3.23,
+      "learning_rate": 8.384830085202233e-05,
+      "loss": 1.8017,
+      "step": 99000
     },
     {
+      "epoch": 3.33,
+      "learning_rate": 8.335879606959815e-05,
+      "loss": 1.8018,
+      "step": 102000
     },
     {
+      "epoch": 3.43,
+      "learning_rate": 8.286945450984233e-05,
+      "loss": 1.7984,
+      "step": 105000
     },
     {
+      "epoch": 3.53,
+      "learning_rate": 8.237994972741815e-05,
+      "loss": 1.796,
+      "step": 108000
     },
     {
+      "epoch": 3.62,
+      "learning_rate": 8.189060816766233e-05,
+      "loss": 1.7942,
+      "step": 111000
     },
     {
+      "epoch": 3.72,
+      "learning_rate": 8.140110338523814e-05,
+      "loss": 1.7905,
+      "step": 114000
     },
     {
+      "epoch": 3.82,
+      "learning_rate": 8.091176182548232e-05,
+      "loss": 1.7885,
+      "step": 117000
     },
     {
+      "epoch": 3.92,
+      "learning_rate": 8.042225704305814e-05,
+      "loss": 1.7832,
+      "step": 120000
     },
     {
+      "epoch": 4.0,
+      "eval_loss": 1.7864413261413574,
+      "eval_runtime": 19.3546,
+      "eval_samples_per_second": 1525.321,
+      "eval_steps_per_second": 9.558,
+      "step": 122532
     },
     {
+      "epoch": 4.02,
+      "learning_rate": 7.993291548330233e-05,
+      "loss": 1.7754,
+      "step": 123000
     },
     {
+      "epoch": 4.11,
+      "learning_rate": 7.944341070087814e-05,
+      "loss": 1.7507,
+      "step": 126000
     },
     {
+      "epoch": 4.21,
+      "learning_rate": 7.895406914112233e-05,
+      "loss": 1.7526,
+      "step": 129000
     },
     {
+      "epoch": 4.31,
+      "learning_rate": 7.846456435869815e-05,
+      "loss": 1.7541,
+      "step": 132000
     },
     {
+      "epoch": 4.41,
+      "learning_rate": 7.797522279894231e-05,
+      "loss": 1.7537,
+      "step": 135000
     },
     {
+      "epoch": 4.5,
+      "learning_rate": 7.748571801651814e-05,
+      "loss": 1.7541,
+      "step": 138000
     },
     {
+      "epoch": 4.6,
+      "learning_rate": 7.699621323409395e-05,
+      "loss": 1.7505,
+      "step": 141000
     },
     {
+      "epoch": 4.7,
+      "learning_rate": 7.650687167433813e-05,
+      "loss": 1.7475,
+      "step": 144000
     },
     {
+      "epoch": 4.8,
+      "learning_rate": 7.601736689191396e-05,
+      "loss": 1.7477,
+      "step": 147000
     },
     {
+      "epoch": 4.9,
+      "learning_rate": 7.552802533215814e-05,
+      "loss": 1.7461,
+      "step": 150000
     },
     {
+      "epoch": 4.99,
+      "learning_rate": 7.503852054973394e-05,
+      "loss": 1.7445,
+      "step": 153000
     },
     {
+      "epoch": 5.0,
+      "eval_loss": 1.7591967582702637,
+      "eval_runtime": 19.1359,
+      "eval_samples_per_second": 1542.756,
+      "eval_steps_per_second": 9.668,
+      "step": 153165
     },
     {
+      "epoch": 5.09,
+      "learning_rate": 7.454917898997813e-05,
+      "loss": 1.7143,
+      "step": 156000
     },
     {
+      "epoch": 5.19,
+      "learning_rate": 7.405967420755395e-05,
+      "loss": 1.7177,
+      "step": 159000
     },
     {
+      "epoch": 5.29,
+      "learning_rate": 7.357033264779813e-05,
+      "loss": 1.7188,
+      "step": 162000
     },
     {
+      "epoch": 5.39,
+      "learning_rate": 7.308082786537395e-05,
+      "loss": 1.7198,
+      "step": 165000
     },
     {
+      "epoch": 5.48,
+      "learning_rate": 7.259148630561813e-05,
+      "loss": 1.7202,
+      "step": 168000
     },
     {
+      "epoch": 5.58,
+      "learning_rate": 7.210198152319395e-05,
+      "loss": 1.7184,
+      "step": 171000
     },
     {
+      "epoch": 5.68,
+      "learning_rate": 7.161247674076976e-05,
+      "loss": 1.719,
+      "step": 174000
     },
     {
+      "epoch": 5.78,
+      "learning_rate": 7.112313518101394e-05,
+      "loss": 1.7173,
+      "step": 177000
     },
     {
+      "epoch": 5.88,
+      "learning_rate": 7.063363039858976e-05,
+      "loss": 1.7176,
+      "step": 180000
     },
     {
+      "epoch": 5.97,
+      "learning_rate": 7.014428883883394e-05,
+      "loss": 1.7152,
+      "step": 183000
     },
     {
+      "epoch": 6.0,
+      "eval_loss": 1.740378975868225,
+      "eval_runtime": 19.1537,
+      "eval_samples_per_second": 1541.325,
+      "eval_steps_per_second": 9.659,
+      "step": 183798
     },
     {
+      "epoch": 6.07,
+      "learning_rate": 6.965478405640976e-05,
+      "loss": 1.6926,
+      "step": 186000
     },
     {
+      "epoch": 6.17,
+      "learning_rate": 6.916544249665395e-05,
+      "loss": 1.6889,
+      "step": 189000
     },
     {
+      "epoch": 6.27,
+      "learning_rate": 6.867593771422975e-05,
+      "loss": 1.6923,
+      "step": 192000
     },
     {
+      "epoch": 6.37,
+      "learning_rate": 6.818659615447393e-05,
+      "loss": 1.693,
+      "step": 195000
     },
     {
+      "epoch": 6.46,
+      "learning_rate": 6.769709137204976e-05,
+      "loss": 1.694,
+      "step": 198000
     },
     {
+      "epoch": 6.56,
+      "learning_rate": 6.720774981229393e-05,
+      "loss": 1.6948,
+      "step": 201000
     },
     {
+      "epoch": 6.66,
+      "learning_rate": 6.671824502986975e-05,
+      "loss": 1.6944,
+      "step": 204000
     },
     {
+      "epoch": 6.76,
+      "learning_rate": 6.622874024744557e-05,
+      "loss": 1.6934,
+      "step": 207000
     },
     {
+      "epoch": 6.86,
+      "learning_rate": 6.573939868768974e-05,
+      "loss": 1.6926,
+      "step": 210000
     },
     {
+      "epoch": 6.95,
+      "learning_rate": 6.524989390526556e-05,
+      "loss": 1.6933,
+      "step": 213000
     },
     {
+      "epoch": 7.0,
+      "eval_loss": 1.7208322286605835,
+      "eval_runtime": 19.2921,
+      "eval_samples_per_second": 1530.262,
+      "eval_steps_per_second": 9.589,
+      "step": 214431
     },
     {
+      "epoch": 7.05,
+      "learning_rate": 6.476055234550975e-05,
+      "loss": 1.6773,
+      "step": 216000
     },
     {
+      "epoch": 7.15,
+      "learning_rate": 6.427104756308556e-05,
+      "loss": 1.6671,
+      "step": 219000
     },
     {
+      "epoch": 7.25,
+      "learning_rate": 6.378170600332975e-05,
+      "loss": 1.6695,
+      "step": 222000
     },
     {
+      "epoch": 7.35,
+      "learning_rate": 6.329220122090557e-05,
+      "loss": 1.6707,
+      "step": 225000
     },
     {
+      "epoch": 7.44,
+      "learning_rate": 6.280285966114975e-05,
+      "loss": 1.674,
+      "step": 228000
     },
     {
+      "epoch": 7.54,
+      "learning_rate": 6.231335487872557e-05,
+      "loss": 1.6726,
+      "step": 231000
     },
     {
+      "epoch": 7.64,
+      "learning_rate": 6.182401331896974e-05,
+      "loss": 1.6739,
+      "step": 234000
     },
     {
+      "epoch": 7.74,
+      "learning_rate": 6.133450853654555e-05,
+      "loss": 1.6755,
+      "step": 237000
     },
     {
+      "epoch": 7.83,
+      "learning_rate": 6.084516697678973e-05,
+      "loss": 1.6726,
+      "step": 240000
     },
     {
+      "epoch": 7.93,
+      "learning_rate": 6.035566219436556e-05,
+      "loss": 1.6743,
+      "step": 243000
     },
     {
+      "epoch": 8.0,
+      "eval_loss": 1.7004761695861816,
+      "eval_runtime": 19.351,
+      "eval_samples_per_second": 1525.608,
+      "eval_steps_per_second": 9.56,
+      "step": 245064
     },
     {
+      "epoch": 8.03,
+      "learning_rate": 5.986632063460974e-05,
+      "loss": 1.6642,
+      "step": 246000
     },
     {
+      "epoch": 8.13,
+      "learning_rate": 5.9376815852185555e-05,
+      "loss": 1.6475,
+      "step": 249000
     },
     {
+      "epoch": 8.23,
+      "learning_rate": 5.888747429242973e-05,
+      "loss": 1.6525,
+      "step": 252000
     },
     {
+      "epoch": 8.32,
+      "learning_rate": 5.839796951000556e-05,
+      "loss": 1.653,
+      "step": 255000
     },
     {
+      "epoch": 8.42,
+      "learning_rate": 5.7908627950249736e-05,
+      "loss": 1.6556,
+      "step": 258000
     },
     {
+      "epoch": 8.52,
+      "learning_rate": 5.741912316782555e-05,
+      "loss": 1.6556,
+      "step": 261000
     },
     {
+      "epoch": 8.62,
+      "learning_rate": 5.692961838540136e-05,
+      "loss": 1.6565,
+      "step": 264000
     },
     {
+      "epoch": 8.72,
+      "learning_rate": 5.6440276825645545e-05,
+      "loss": 1.6567,
+      "step": 267000
     },
     {
+      "epoch": 8.81,
+      "learning_rate": 5.5950772043221364e-05,
+      "loss": 1.6574,
+      "step": 270000
     },
     {
+      "epoch": 8.91,
+      "learning_rate": 5.546143048346555e-05,
+      "loss": 1.6561,
+      "step": 273000
     },
     {
+      "epoch": 9.0,
+      "eval_loss": 1.6906808614730835,
+      "eval_runtime": 19.2999,
+      "eval_samples_per_second": 1529.642,
+      "eval_steps_per_second": 9.586,
+      "step": 275697
     },
     {
+      "epoch": 9.01,
+      "learning_rate": 5.497192570104136e-05,
+      "loss": 1.6546,
+      "step": 276000
     },
     {
+      "epoch": 9.11,
+      "learning_rate": 5.4482584141285545e-05,
+      "loss": 1.6302,
+      "step": 279000
     },
     {
+      "epoch": 9.21,
+      "learning_rate": 5.3993079358861364e-05,
+      "loss": 1.6356,
+      "step": 282000
     },
     {
+      "epoch": 9.3,
+      "learning_rate": 5.3503574576437175e-05,
+      "loss": 1.6375,
+      "step": 285000
     },
     {
+      "epoch": 9.4,
+      "learning_rate": 5.301423301668136e-05,
+      "loss": 1.6399,
+      "step": 288000
     },
     {
+      "epoch": 9.5,
+      "learning_rate": 5.252472823425718e-05,
+      "loss": 1.6404,
+      "step": 291000
     },
     {
+      "epoch": 9.6,
+      "learning_rate": 5.203538667450135e-05,
+      "loss": 1.642,
+      "step": 294000
     },
     {
+      "epoch": 9.7,
+      "learning_rate": 5.1545881892077175e-05,
+      "loss": 1.642,
+      "step": 297000
     },
     {
+      "epoch": 9.79,
+      "learning_rate": 5.105654033232135e-05,
+      "loss": 1.6421,
+      "step": 300000
     },
     {
+      "epoch": 9.89,
+      "learning_rate": 5.0567035549897165e-05,
+      "loss": 1.6417,
+      "step": 303000
     },
     {
+      "epoch": 9.99,
+      "learning_rate": 5.007753076747299e-05,
+      "loss": 1.6431,
+      "step": 306000
     },
     {
+      "epoch": 10.0,
+      "eval_loss": 1.690254807472229,
+      "eval_runtime": 19.1786,
+      "eval_samples_per_second": 1539.322,
+      "eval_steps_per_second": 9.646,
+      "step": 306330
     },
     {
+      "epoch": 10.09,
+      "learning_rate": 4.9588189207717175e-05,
+      "loss": 1.6191,
+      "step": 309000
     },
     {
+      "epoch": 10.19,
+      "learning_rate": 4.909868442529299e-05,
+      "loss": 1.6215,
+      "step": 312000
     },
     {
+      "epoch": 10.28,
+      "learning_rate": 4.8609342865537165e-05,
+      "loss": 1.6247,
+      "step": 315000
     },
     {
+      "epoch": 10.38,
+      "learning_rate": 4.8119838083112984e-05,
+      "loss": 1.6244,
+      "step": 318000
     },
     {
+      "epoch": 10.48,
+      "learning_rate": 4.76303333006888e-05,
+      "loss": 1.6261,
+      "step": 321000
     },
     {
+      "epoch": 10.58,
+      "learning_rate": 4.714099174093298e-05,
+      "loss": 1.6288,
+      "step": 324000
     },
     {
+      "epoch": 10.67,
+      "learning_rate": 4.66514869585088e-05,
+      "loss": 1.6289,
+      "step": 327000
     },
     {
+      "epoch": 10.77,
+      "learning_rate": 4.6162145398752984e-05,
+      "loss": 1.6295,
+      "step": 330000
     },
     {
+      "epoch": 10.87,
+      "learning_rate": 4.5672640616328796e-05,
+      "loss": 1.6295,
+      "step": 333000
     },
     {
+      "epoch": 10.97,
+      "learning_rate": 4.5183135833904614e-05,
+      "loss": 1.6282,
+      "step": 336000
     },
     {
+      "epoch": 11.0,
+      "eval_loss": 1.6800603866577148,
+      "eval_runtime": 19.1041,
+      "eval_samples_per_second": 1545.321,
+      "eval_steps_per_second": 9.684,
+      "step": 336963
     },
     {
+      "epoch": 11.07,
+      "learning_rate": 4.46937942741488e-05,
+      "loss": 1.6134,
+      "step": 339000
     },
     {
+      "epoch": 11.16,
+      "learning_rate": 4.420428949172462e-05,
+      "loss": 1.6072,
+      "step": 342000
     },
     {
+      "epoch": 11.26,
+      "learning_rate": 4.371494793196879e-05,
+      "loss": 1.6099,
+      "step": 345000
     },
     {
+      "epoch": 11.36,
+      "learning_rate": 4.322544314954461e-05,
+      "loss": 1.6137,
+      "step": 348000
     },
     {
+      "epoch": 11.46,
+      "learning_rate": 4.273610158978879e-05,
+      "loss": 1.6136,
+      "step": 351000
     },
     {
+      "epoch": 11.56,
+      "learning_rate": 4.224659680736461e-05,
+      "loss": 1.6151,
+      "step": 354000
     },
     {
+      "epoch": 11.65,
+      "learning_rate": 4.175725524760879e-05,
+      "loss": 1.6166,
+      "step": 357000
     },
     {
+      "epoch": 11.75,
+      "learning_rate": 4.126775046518461e-05,
+      "loss": 1.6179,
+      "step": 360000
     },
     {
+      "epoch": 11.85,
+      "learning_rate": 4.077840890542879e-05,
+      "loss": 1.6174,
+      "step": 363000
     },
     {
+      "epoch": 11.95,
+      "learning_rate": 4.0288904123004604e-05,
+      "loss": 1.6173,
+      "step": 366000
     },
     {
+      "epoch": 12.0,
+      "eval_loss": 1.6714136600494385,
+      "eval_runtime": 19.2107,
+      "eval_samples_per_second": 1536.747,
+      "eval_steps_per_second": 9.63,
+      "step": 367596
     },
     {
+      "epoch": 12.05,
+      "learning_rate": 3.979939934058042e-05,
+      "loss": 1.6063,
+      "step": 369000
     },
     {
+      "epoch": 12.14,
+      "learning_rate": 3.931005778082461e-05,
+      "loss": 1.5969,
+      "step": 372000
     },
     {
+      "epoch": 12.24,
+      "learning_rate": 3.882055299840042e-05,
+      "loss": 1.5998,
+      "step": 375000
     },
     {
+      "epoch": 12.34,
+      "learning_rate": 3.83312114386446e-05,
+      "loss": 1.6011,
+      "step": 378000
     },
     {
+      "epoch": 12.44,
+      "learning_rate": 3.784154343355205e-05,
+      "loss": 1.6034,
+      "step": 381000
     },
     {
+      "epoch": 12.54,
+      "learning_rate": 3.7352201873796235e-05,
+      "loss": 1.6035,
+      "step": 384000
     },
     {
+      "epoch": 12.63,
+      "learning_rate": 3.686269709137205e-05,
+      "loss": 1.6054,
+      "step": 387000
     },
     {
+      "epoch": 12.73,
+      "learning_rate": 3.637335553161623e-05,
+      "loss": 1.6055,
+      "step": 390000
     },
     {
+      "epoch": 12.83,
+      "learning_rate": 3.588385074919205e-05,
+      "loss": 1.6057,
+      "step": 393000
     },
     {
+      "epoch": 12.93,
+      "learning_rate": 3.539434596676787e-05,
+      "loss": 1.6061,
+      "step": 396000
     },
     {
+      "epoch": 13.0,
+      "eval_loss": 1.6634231805801392,
+      "eval_runtime": 19.238,
+      "eval_samples_per_second": 1534.564,
+      "eval_steps_per_second": 9.616,
+      "step": 398229
     },
     {
+      "epoch": 13.03,
+      "learning_rate": 3.4905004407012046e-05,
+      "loss": 1.5995,
+      "step": 399000
     },
     {
+      "epoch": 13.12,
+      "learning_rate": 3.4415499624587865e-05,
+      "loss": 1.5849,
+      "step": 402000
     },
     {
+      "epoch": 13.22,
+      "learning_rate": 3.392615806483205e-05,
+      "loss": 1.5894,
+      "step": 405000
     },
     {
+      "epoch": 13.32,
+      "learning_rate": 3.343665328240786e-05,
+      "loss": 1.5914,
+      "step": 408000
     },
     {
+      "epoch": 13.42,
+      "learning_rate": 3.294731172265204e-05,
+      "loss": 1.5917,
+      "step": 411000
     },
     {
+      "epoch": 13.51,
+      "learning_rate": 3.245780694022786e-05,
+      "loss": 1.5933,
+      "step": 414000
     },
     {
+      "epoch": 13.61,
+      "learning_rate": 3.196830215780368e-05,
+      "loss": 1.5926,
+      "step": 417000
     },
     {
+      "epoch": 13.71,
+      "learning_rate": 3.1478960598047855e-05,
+      "loss": 1.5956,
+      "step": 420000
     },
     {
+      "epoch": 13.81,
+      "learning_rate": 3.0989455815623674e-05,
+      "loss": 1.5953,
+      "step": 423000
     },
     {
+      "epoch": 13.91,
+      "learning_rate": 3.0500114255867855e-05,
+      "loss": 1.5971,
+      "step": 426000
     },
     {
+      "epoch": 14.0,
+      "eval_loss": 1.6542909145355225,
+      "eval_runtime": 19.1669,
+      "eval_samples_per_second": 1540.259,
+      "eval_steps_per_second": 9.652,
+      "step": 428862
     },
     {
+      "epoch": 14.0,
+      "learning_rate": 3.0010609473443674e-05,
+      "loss": 1.5959,
+      "step": 429000
     },
     {
+      "epoch": 14.1,
+      "learning_rate": 2.9521267913687855e-05,
+      "loss": 1.5752,
+      "step": 432000
     },
     {
+      "epoch": 14.2,
+      "learning_rate": 2.9031763131263674e-05,
+      "loss": 1.5775,
+      "step": 435000
     },
     {
+      "epoch": 14.3,
+      "learning_rate": 2.854225834883949e-05,
+      "loss": 1.5814,
+      "step": 438000
     },
     {
+      "epoch": 14.4,
+      "learning_rate": 2.8052916789083673e-05,
+      "loss": 1.5814,
+      "step": 441000
     },
     {
+      "epoch": 14.49,
+      "learning_rate": 2.7563412006659482e-05,
+      "loss": 1.5837,
+      "step": 444000
+    },
+    {
+      "epoch": 14.59,
+      "learning_rate": 2.7074070446903667e-05,
+      "loss": 1.585,
+      "step": 447000
+    },
+    {
+      "epoch": 14.69,
+      "learning_rate": 2.6584565664479482e-05,
+      "loss": 1.5868,
+      "step": 450000
+    },
+    {
+      "epoch": 14.79,
+      "learning_rate": 2.60950608820553e-05,
+      "loss": 1.5854,
+      "step": 453000
     },
     {
+      "epoch": 14.89,
+      "learning_rate": 2.5605719322299482e-05,
       "loss": 1.5864,
+      "step": 456000
     },
     {
+      "epoch": 14.98,
+      "learning_rate": 2.51162145398753e-05,
+      "loss": 1.5867,
+      "step": 459000
     },
     {
+      "epoch": 15.0,
+      "eval_loss": 1.6488285064697266,
+      "eval_runtime": 19.1177,
+      "eval_samples_per_second": 1544.224,
+      "eval_steps_per_second": 9.677,
+      "step": 459495
     },
     {
+      "epoch": 15.08,
+      "learning_rate": 2.4626709757451116e-05,
+      "loss": 1.5695,
+      "step": 462000
     },
     {
+      "epoch": 15.18,
+      "learning_rate": 2.4137368197695297e-05,
+      "loss": 1.5714,
+      "step": 465000
     },
     {
+      "epoch": 15.28,
+      "learning_rate": 2.3647863415271113e-05,
+      "loss": 1.5721,
+      "step": 468000
     },
     {
+      "epoch": 15.38,
+      "learning_rate": 2.315835863284693e-05,
+      "loss": 1.5729,
+      "step": 471000
     },
     {
+      "epoch": 15.47,
+      "learning_rate": 2.2669017073091113e-05,
+      "loss": 1.5728,
+      "step": 474000
     },
     {
+      "epoch": 15.57,
+      "learning_rate": 2.2179512290666928e-05,
+      "loss": 1.5739,
+      "step": 477000
     },
     {
+      "epoch": 15.67,
+      "learning_rate": 2.1690007508242746e-05,
+      "loss": 1.5756,
+      "step": 480000
     },
     {
+      "epoch": 15.77,
+      "learning_rate": 2.1200665948486928e-05,
+      "loss": 1.5774,
+      "step": 483000
     },
     {
+      "epoch": 15.87,
+      "learning_rate": 2.0711161166062743e-05,
+      "loss": 1.5772,
+      "step": 486000
     },
     {
+      "epoch": 15.96,
+      "learning_rate": 2.022165638363856e-05,
+      "loss": 1.5781,
+      "step": 489000
     },
     {
+      "epoch": 16.0,
+      "eval_loss": 1.6446890830993652,
+      "eval_runtime": 19.0262,
+      "eval_samples_per_second": 1551.652,
+      "eval_steps_per_second": 9.723,
+      "step": 490128
     },
     {
+      "epoch": 16.06,
+      "learning_rate": 1.9732314823882743e-05,
+      "loss": 1.5652,
+      "step": 492000
     },
     {
+      "epoch": 16.16,
+      "learning_rate": 1.924281004145856e-05,
+      "loss": 1.5612,
+      "step": 495000
     },
     {
+      "epoch": 16.26,
+      "learning_rate": 1.8753305259034377e-05,
+      "loss": 1.5634,
+      "step": 498000
     },
     {
+      "epoch": 16.35,
+      "learning_rate": 1.8263800476610192e-05,
+      "loss": 1.5648,
+      "step": 501000
     },
     {
+      "epoch": 16.45,
+      "learning_rate": 1.7774458916854374e-05,
+      "loss": 1.5664,
+      "step": 504000
     },
     {
+      "epoch": 16.55,
+      "learning_rate": 1.728495413443019e-05,
+      "loss": 1.5656,
+      "step": 507000
     },
     {
+      "epoch": 16.65,
+      "learning_rate": 1.679561257467437e-05,
+      "loss": 1.5676,
+      "step": 510000
     },
     {
+      "epoch": 16.75,
+      "learning_rate": 1.630610779225019e-05,
+      "loss": 1.566,
+      "step": 513000
     },
     {
+      "epoch": 16.84,
+      "learning_rate": 1.5816603009826008e-05,
+      "loss": 1.5691,
+      "step": 516000
     },
     {
+      "epoch": 16.94,
+      "learning_rate": 1.5327098227401823e-05,
+      "loss": 1.5684,
+      "step": 519000
     },
     {
+      "epoch": 17.0,
+      "eval_loss": 1.6387931108474731,
+      "eval_runtime": 19.1639,
+      "eval_samples_per_second": 1540.501,
+      "eval_steps_per_second": 9.654,
+      "step": 520761
     },
     {
+      "epoch": 17.04,
+      "learning_rate": 1.4837756667646002e-05,
+      "loss": 1.5616,
+      "step": 522000
     },
     {
+      "epoch": 17.14,
+      "learning_rate": 1.434825188522182e-05,
+      "loss": 1.5545,
+      "step": 525000
     },
     {
+      "epoch": 17.24,
+      "learning_rate": 1.3858747102797636e-05,
+      "loss": 1.5551,
+      "step": 528000
     },
     {
+      "epoch": 17.33,
+      "learning_rate": 1.3369405543041818e-05,
+      "loss": 1.5558,
+      "step": 531000
     },
     {
+      "epoch": 17.43,
+      "learning_rate": 1.2879900760617636e-05,
+      "loss": 1.5587,
+      "step": 534000
     },
     {
+      "epoch": 17.53,
+      "learning_rate": 1.2390559200861816e-05,
+      "loss": 1.5585,
+      "step": 537000
     },
     {
+      "epoch": 17.63,
+      "learning_rate": 1.1901054418437633e-05,
+      "loss": 1.5579,
+      "step": 540000
     },
     {
+      "epoch": 17.73,
+      "learning_rate": 1.141154963601345e-05,
+      "loss": 1.5586,
+      "step": 543000
     },
     {
+      "epoch": 17.82,
+      "learning_rate": 1.0922208076257631e-05,
+      "loss": 1.559,
+      "step": 546000
     },
     {
+      "epoch": 17.92,
+      "learning_rate": 1.0432703293833448e-05,
+      "loss": 1.5597,
+      "step": 549000
     },
     {
+      "epoch": 18.0,
+      "eval_loss": 1.6415975093841553,
+      "eval_runtime": 19.1825,
+      "eval_samples_per_second": 1539.008,
+      "eval_steps_per_second": 9.644,
+      "step": 551394
     },
     {
+      "epoch": 18.02,
+      "learning_rate": 9.94336173407763e-06,
+      "loss": 1.5579,
+      "step": 552000
     },
     {
+      "epoch": 18.12,
+      "learning_rate": 9.453856951653447e-06,
+      "loss": 1.5465,
+      "step": 555000
     },
     {
+      "epoch": 18.22,
+      "learning_rate": 8.964352169229264e-06,
+      "loss": 1.5491,
+      "step": 558000
     },
     {
+      "epoch": 18.31,
+      "learning_rate": 8.475010609473443e-06,
+      "loss": 1.5495,
+      "step": 561000
     },
     {
+      "epoch": 18.41,
+      "learning_rate": 7.985505827049262e-06,
+      "loss": 1.5498,
+      "step": 564000
     },
     {
+      "epoch": 18.51,
+      "learning_rate": 7.496001044625078e-06,
+      "loss": 1.5514,
+      "step": 567000
     },
     {
+      "epoch": 18.61,
+      "learning_rate": 7.006659484869258e-06,
+      "loss": 1.5508,
+      "step": 570000
     },
     {
+      "epoch": 18.71,
+      "learning_rate": 6.517154702445076e-06,
+      "loss": 1.5516,
+      "step": 573000
     },
     {
+      "epoch": 18.8,
+      "learning_rate": 6.027649920020892e-06,
+      "loss": 1.5508,
+      "step": 576000
     },
     {
+      "epoch": 18.9,
+      "learning_rate": 5.538308360265074e-06,
+      "loss": 1.5515,
+      "step": 579000
     },
     {
+      "epoch": 19.0,
+      "learning_rate": 5.048803577840891e-06,
+      "loss": 1.5521,
+      "step": 582000
     },
     {
+      "epoch": 19.0,
+      "eval_loss": 1.6370400190353394,
+      "eval_runtime": 19.1163,
+      "eval_samples_per_second": 1544.337,
+      "eval_steps_per_second": 9.678,
+      "step": 582027
     },
     {
+      "epoch": 19.1,
+      "learning_rate": 4.559298795416708e-06,
+      "loss": 1.5413,
+      "step": 585000
     },
     {
+      "epoch": 19.19,
+      "learning_rate": 4.069957235660889e-06,
+      "loss": 1.5435,
+      "step": 588000
     },
     {
+      "epoch": 19.29,
+      "learning_rate": 3.580452453236706e-06,
+      "loss": 1.5432,
+      "step": 591000
     },
     {
+      "epoch": 19.39,
+      "learning_rate": 3.091110893480887e-06,
+      "loss": 1.5437,
+      "step": 594000
     },
     {
+      "epoch": 19.49,
+      "learning_rate": 2.6016061110567034e-06,
+      "loss": 1.5431,
+      "step": 597000
     },
     {
+      "epoch": 19.59,
+      "learning_rate": 2.1121013286325204e-06,
+      "loss": 1.5431,
+      "step": 600000
     },
     {
+      "epoch": 19.68,
+      "learning_rate": 1.6225965462083374e-06,
+      "loss": 1.5441,
+      "step": 603000
     },
     {
+      "epoch": 19.78,
+      "learning_rate": 1.1332549864525185e-06,
+      "loss": 1.544,
+      "step": 606000
     },
     {
+      "epoch": 19.88,
+      "learning_rate": 6.437502040283355e-07,
+      "loss": 1.5469,
+      "step": 609000
     },
     {
+      "epoch": 19.98,
+      "learning_rate": 1.5440864427251657e-07,
+      "loss": 1.5438,
+      "step": 612000
     },
     {
+      "epoch": 20.0,
+      "eval_loss": 1.636548638343811,
+      "eval_runtime": 19.1335,
+      "eval_samples_per_second": 1542.949,
+      "eval_steps_per_second": 9.669,
+      "step": 612660
+    },
+    {
+      "epoch": 20.0,
+      "step": 612660,
+      "total_flos": 3.3229272051886326e+18,
+      "train_loss": 1.7127611959194204,
+      "train_runtime": 370998.644,
+      "train_samples_per_second": 528.445,
+      "train_steps_per_second": 1.651
     }
   ],
+  "max_steps": 612660,
+  "num_train_epochs": 20,
+  "total_flos": 3.3229272051886326e+18,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:16c94757d1777e2cea000476da865ed5e54d61b84197eea5f402bbddd3f7735a
-size 2991

 version https://git-lfs.github.com/spec/v1
+oid sha256:d220a222eaa112c7526da4c022bc47671ef21a5434ed8334421ef750c4071bc4
+size 3183