akkky02 commited on Mar 16

Commit

143f0de

•

1 Parent(s): c2ce683

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

google_bert/bert_base_uncased_amazon/README.md +76 -0
google_bert/bert_base_uncased_amazon/all_results.json +23 -0
google_bert/bert_base_uncased_amazon/checkpoint-550/config.json +78 -0
google_bert/bert_base_uncased_amazon/checkpoint-550/model.safetensors +3 -0
google_bert/bert_base_uncased_amazon/checkpoint-550/optimizer.pt +3 -0
google_bert/bert_base_uncased_amazon/checkpoint-550/rng_state_0.pth +3 -0
google_bert/bert_base_uncased_amazon/checkpoint-550/rng_state_1.pth +3 -0
google_bert/bert_base_uncased_amazon/checkpoint-550/scheduler.pt +3 -0
google_bert/bert_base_uncased_amazon/checkpoint-550/special_tokens_map.json +7 -0
google_bert/bert_base_uncased_amazon/checkpoint-550/tokenizer.json +0 -0
google_bert/bert_base_uncased_amazon/checkpoint-550/tokenizer_config.json +55 -0
google_bert/bert_base_uncased_amazon/checkpoint-550/trainer_state.json +527 -0
google_bert/bert_base_uncased_amazon/checkpoint-550/training_args.bin +3 -0
google_bert/bert_base_uncased_amazon/checkpoint-550/vocab.txt +0 -0
google_bert/bert_base_uncased_amazon/config.json +78 -0
google_bert/bert_base_uncased_amazon/eval_results.json +11 -0
google_bert/bert_base_uncased_amazon/model.safetensors +3 -0
google_bert/bert_base_uncased_amazon/run.log +4 -0
google_bert/bert_base_uncased_amazon/special_tokens_map.json +7 -0
google_bert/bert_base_uncased_amazon/test_results.json +10 -0
google_bert/bert_base_uncased_amazon/tokenizer.json +0 -0
google_bert/bert_base_uncased_amazon/tokenizer_config.json +55 -0
google_bert/bert_base_uncased_amazon/train_results.json +8 -0
google_bert/bert_base_uncased_amazon/trainer_state.json +550 -0
google_bert/bert_base_uncased_amazon/training_args.bin +3 -0
google_bert/bert_base_uncased_amazon/vocab.txt +0 -0
google_bert/bert_base_uncased_ledgar/README.md +93 -0
google_bert/bert_base_uncased_ledgar/all_results.json +23 -0
google_bert/bert_base_uncased_ledgar/checkpoint-2800/config.json +232 -0
google_bert/bert_base_uncased_ledgar/checkpoint-2800/model.safetensors +3 -0
google_bert/bert_base_uncased_ledgar/checkpoint-2800/optimizer.pt +3 -0
google_bert/bert_base_uncased_ledgar/checkpoint-2800/rng_state_0.pth +3 -0
google_bert/bert_base_uncased_ledgar/checkpoint-2800/rng_state_1.pth +3 -0
google_bert/bert_base_uncased_ledgar/checkpoint-2800/scheduler.pt +3 -0
google_bert/bert_base_uncased_ledgar/checkpoint-2800/special_tokens_map.json +7 -0
google_bert/bert_base_uncased_ledgar/checkpoint-2800/tokenizer.json +0 -0
google_bert/bert_base_uncased_ledgar/checkpoint-2800/tokenizer_config.json +55 -0
google_bert/bert_base_uncased_ledgar/checkpoint-2800/trainer_state.json +1113 -0
google_bert/bert_base_uncased_ledgar/checkpoint-2800/training_args.bin +3 -0
google_bert/bert_base_uncased_ledgar/checkpoint-2800/vocab.txt +0 -0
google_bert/bert_base_uncased_ledgar/config.json +232 -0
google_bert/bert_base_uncased_ledgar/eval_results.json +11 -0
google_bert/bert_base_uncased_ledgar/model.safetensors +3 -0
google_bert/bert_base_uncased_ledgar/run.log +4 -0
google_bert/bert_base_uncased_ledgar/special_tokens_map.json +7 -0
google_bert/bert_base_uncased_ledgar/test_results.json +10 -0
google_bert/bert_base_uncased_ledgar/tokenizer.json +0 -0
google_bert/bert_base_uncased_ledgar/tokenizer_config.json +55 -0
google_bert/bert_base_uncased_ledgar/train_results.json +8 -0
google_bert/bert_base_uncased_ledgar/trainer_state.json +1122 -0

google_bert/bert_base_uncased_amazon/README.md ADDED Viewed

	@@ -0,0 +1,76 @@

+---
+license: apache-2.0
+base_model: google-bert/bert-base-uncased
+tags:
+- generated_from_trainer
+metrics:
+- accuracy
+model-index:
+- name: bert_base_uncased_amazon
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# bert_base_uncased_amazon
+This model is a fine-tuned version of [google-bert/bert-base-uncased](https://huggingface.co/google-bert/bert-base-uncased) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.7916
+- Accuracy: 0.7879
+- F1 Macro: 0.7308
+- F1 Micro: 0.7879
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 2e-05
+- train_batch_size: 32
+- eval_batch_size: 32
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 2
+- total_train_batch_size: 64
+- total_eval_batch_size: 64
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- num_epochs: 3.0
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Accuracy | F1 Macro | F1 Micro |
+|:-------------:|:-----:|:----:|:---------------:|:--------:|:--------:|:--------:|
+| 2.5476        | 0.26  | 50   | 2.4071          | 0.4967   | 0.3546   | 0.4967   |
+| 1.7401        | 0.53  | 100  | 1.6470          | 0.6337   | 0.4899   | 0.6337   |
+| 1.3223        | 0.79  | 150  | 1.2889          | 0.6897   | 0.5665   | 0.6897   |
+| 1.1317        | 1.05  | 200  | 1.1047          | 0.7358   | 0.6577   | 0.7358   |
+| 0.9137        | 1.32  | 250  | 0.9907          | 0.7536   | 0.6820   | 0.7536   |
+| 0.9434        | 1.58  | 300  | 0.9264          | 0.7602   | 0.6896   | 0.7602   |
+| 0.86          | 1.84  | 350  | 0.8729          | 0.7780   | 0.7135   | 0.7780   |
+| 0.7567        | 2.11  | 400  | 0.8322          | 0.7859   | 0.7244   | 0.7859   |
+| 0.7028        | 2.37  | 450  | 0.8130          | 0.7892   | 0.7339   | 0.7892   |
+| 0.6842        | 2.63  | 500  | 0.8005          | 0.7892   | 0.7284   | 0.7892   |
+| 0.6784        | 2.89  | 550  | 0.7916          | 0.7879   | 0.7308   | 0.7879   |
+### Framework versions
+- Transformers 4.39.0.dev0
+- Pytorch 2.2.1+cu121
+- Datasets 2.18.0
+- Tokenizers 0.15.2

google_bert/bert_base_uncased_amazon/all_results.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+    "epoch": 3.0,
+    "eval_accuracy": 0.7878787878787878,
+    "eval_f1_macro": 0.7307727509227439,
+    "eval_f1_micro": 0.7878787878787878,
+    "eval_loss": 0.7915631532669067,
+    "eval_runtime": 1.4904,
+    "eval_samples": 1518,
+    "eval_samples_per_second": 1018.532,
+    "eval_steps_per_second": 16.103,
+    "test_accuracy": 0.8201581027667985,
+    "test_f1_macro": 0.7636155764092812,
+    "test_f1_micro": 0.8201581027667985,
+    "test_loss": 0.7230327725410461,
+    "test_runtime": 1.4903,
+    "test_samples_per_second": 1018.573,
+    "test_steps_per_second": 16.104,
+    "train_loss": 1.1961698414986595,
+    "train_runtime": 135.7278,
+    "train_samples": 12144,
+    "train_samples_per_second": 268.42,
+    "train_steps_per_second": 4.2
+}

google_bert/bert_base_uncased_amazon/checkpoint-550/config.json ADDED Viewed

	@@ -0,0 +1,78 @@

+{
+  "_name_or_path": "google-bert/bert-base-uncased",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "finetuning_task": "text-classification",
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "0",
+    "1": "1",
+    "2": "10",
+    "3": "11",
+    "4": "12",
+    "5": "13",
+    "6": "14",
+    "7": "15",
+    "8": "16",
+    "9": "17",
+    "10": "18",
+    "11": "19",
+    "12": "2",
+    "13": "20",
+    "14": "21",
+    "15": "22",
+    "16": "3",
+    "17": "4",
+    "18": "5",
+    "19": "6",
+    "20": "7",
+    "21": "8",
+    "22": "9"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "0": 0,
+    "1": 1,
+    "10": 2,
+    "11": 3,
+    "12": 4,
+    "13": 5,
+    "14": 6,
+    "15": 7,
+    "16": 8,
+    "17": 9,
+    "18": 10,
+    "19": 11,
+    "2": 12,
+    "20": 13,
+    "21": 14,
+    "22": 15,
+    "3": 16,
+    "4": 17,
+    "5": 18,
+    "6": 19,
+    "7": 20,
+    "8": 21,
+    "9": 22
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.39.0.dev0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

google_bert/bert_base_uncased_amazon/checkpoint-550/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:07dd00d7cfcee32257973d156459b8051bc76fa6a591a0722e24abbc46b59b96
+size 438023244

google_bert/bert_base_uncased_amazon/checkpoint-550/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:63213834e28179fbdd291d44647c7bc6f69ec6942ff9f19bbe06c85a93d6598d
+size 876167546

google_bert/bert_base_uncased_amazon/checkpoint-550/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:04a616964f7c15ca38fcbdf47363d91278d8888f2db4f2ccf849af9188678f23
+size 14512

google_bert/bert_base_uncased_amazon/checkpoint-550/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:73e55bc2c8bbe40cf65c8189568b025e601eb13150800ba98df8944c4cfea461
+size 14512

google_bert/bert_base_uncased_amazon/checkpoint-550/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6304996f9341a5bf8bd2ea4d7e28f3f6c868b8f16d95b47d99cce2e178763052
+size 1064

google_bert/bert_base_uncased_amazon/checkpoint-550/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

google_bert/bert_base_uncased_amazon/checkpoint-550/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

google_bert/bert_base_uncased_amazon/checkpoint-550/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

google_bert/bert_base_uncased_amazon/checkpoint-550/trainer_state.json ADDED Viewed

	@@ -0,0 +1,527 @@

+{
+  "best_metric": 0.7915631532669067,
+  "best_model_checkpoint": "../../experiments_checkpoints/MAdAiLab/google_bert/bert_base_uncased_amazon/checkpoint-550",
+  "epoch": 2.8947368421052633,
+  "eval_steps": 50,
+  "global_step": 550,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.05,
+      "grad_norm": 3.0047507286071777,
+      "learning_rate": 1.9649122807017544e-05,
+      "loss": 3.1497,
+      "step": 10
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 3.8671908378601074,
+      "learning_rate": 1.929824561403509e-05,
+      "loss": 3.0472,
+      "step": 20
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 4.191209316253662,
+      "learning_rate": 1.894736842105263e-05,
+      "loss": 2.9007,
+      "step": 30
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 3.6195719242095947,
+      "learning_rate": 1.8596491228070176e-05,
+      "loss": 2.7123,
+      "step": 40
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 3.8005239963531494,
+      "learning_rate": 1.824561403508772e-05,
+      "loss": 2.5476,
+      "step": 50
+    },
+    {
+      "epoch": 0.26,
+      "eval_accuracy": 0.49670619235836627,
+      "eval_f1_macro": 0.3546099871534922,
+      "eval_f1_micro": 0.49670619235836627,
+      "eval_loss": 2.4070885181427,
+      "eval_runtime": 1.3956,
+      "eval_samples_per_second": 1087.704,
+      "eval_steps_per_second": 17.197,
+      "step": 50
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 4.975920677185059,
+      "learning_rate": 1.7894736842105264e-05,
+      "loss": 2.3704,
+      "step": 60
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 4.028805255889893,
+      "learning_rate": 1.754385964912281e-05,
+      "loss": 2.1795,
+      "step": 70
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 4.310976028442383,
+      "learning_rate": 1.719298245614035e-05,
+      "loss": 1.9854,
+      "step": 80
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 3.7890875339508057,
+      "learning_rate": 1.6842105263157896e-05,
+      "loss": 1.8812,
+      "step": 90
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 3.57995343208313,
+      "learning_rate": 1.649122807017544e-05,
+      "loss": 1.7401,
+      "step": 100
+    },
+    {
+      "epoch": 0.53,
+      "eval_accuracy": 0.6337285902503293,
+      "eval_f1_macro": 0.4899315412700184,
+      "eval_f1_micro": 0.6337285902503293,
+      "eval_loss": 1.6469579935073853,
+      "eval_runtime": 1.4546,
+      "eval_samples_per_second": 1043.605,
+      "eval_steps_per_second": 16.5,
+      "step": 100
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 3.649951696395874,
+      "learning_rate": 1.6140350877192984e-05,
+      "loss": 1.6134,
+      "step": 110
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 3.6378748416900635,
+      "learning_rate": 1.578947368421053e-05,
+      "loss": 1.5476,
+      "step": 120
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 4.442119598388672,
+      "learning_rate": 1.543859649122807e-05,
+      "loss": 1.4687,
+      "step": 130
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 3.7188234329223633,
+      "learning_rate": 1.5087719298245615e-05,
+      "loss": 1.396,
+      "step": 140
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 4.182339191436768,
+      "learning_rate": 1.4736842105263159e-05,
+      "loss": 1.3223,
+      "step": 150
+    },
+    {
+      "epoch": 0.79,
+      "eval_accuracy": 0.6897233201581028,
+      "eval_f1_macro": 0.5664899534257014,
+      "eval_f1_micro": 0.6897233201581028,
+      "eval_loss": 1.2888767719268799,
+      "eval_runtime": 1.4176,
+      "eval_samples_per_second": 1070.835,
+      "eval_steps_per_second": 16.93,
+      "step": 150
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 4.865353584289551,
+      "learning_rate": 1.4385964912280704e-05,
+      "loss": 1.2931,
+      "step": 160
+    },
+    {
+      "epoch": 0.89,
+      "grad_norm": 3.749250650405884,
+      "learning_rate": 1.4035087719298246e-05,
+      "loss": 1.2661,
+      "step": 170
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 4.157919406890869,
+      "learning_rate": 1.3684210526315791e-05,
+      "loss": 1.2114,
+      "step": 180
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 5.845521926879883,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 1.2428,
+      "step": 190
+    },
+    {
+      "epoch": 1.05,
+      "grad_norm": 4.141289234161377,
+      "learning_rate": 1.2982456140350879e-05,
+      "loss": 1.1317,
+      "step": 200
+    },
+    {
+      "epoch": 1.05,
+      "eval_accuracy": 0.735836627140975,
+      "eval_f1_macro": 0.6577255881727345,
+      "eval_f1_micro": 0.735836627140975,
+      "eval_loss": 1.1047031879425049,
+      "eval_runtime": 1.4246,
+      "eval_samples_per_second": 1065.595,
+      "eval_steps_per_second": 16.847,
+      "step": 200
+    },
+    {
+      "epoch": 1.11,
+      "grad_norm": 4.0819010734558105,
+      "learning_rate": 1.263157894736842e-05,
+      "loss": 1.0801,
+      "step": 210
+    },
+    {
+      "epoch": 1.16,
+      "grad_norm": 5.738018035888672,
+      "learning_rate": 1.2280701754385966e-05,
+      "loss": 1.0759,
+      "step": 220
+    },
+    {
+      "epoch": 1.21,
+      "grad_norm": 4.718931674957275,
+      "learning_rate": 1.192982456140351e-05,
+      "loss": 1.0298,
+      "step": 230
+    },
+    {
+      "epoch": 1.26,
+      "grad_norm": 3.587674379348755,
+      "learning_rate": 1.1578947368421053e-05,
+      "loss": 0.9587,
+      "step": 240
+    },
+    {
+      "epoch": 1.32,
+      "grad_norm": 4.904854774475098,
+      "learning_rate": 1.1228070175438597e-05,
+      "loss": 0.9137,
+      "step": 250
+    },
+    {
+      "epoch": 1.32,
+      "eval_accuracy": 0.7536231884057971,
+      "eval_f1_macro": 0.6820274313440232,
+      "eval_f1_micro": 0.7536231884057971,
+      "eval_loss": 0.9906623959541321,
+      "eval_runtime": 1.431,
+      "eval_samples_per_second": 1060.794,
+      "eval_steps_per_second": 16.771,
+      "step": 250
+    },
+    {
+      "epoch": 1.37,
+      "grad_norm": 3.534885883331299,
+      "learning_rate": 1.0877192982456142e-05,
+      "loss": 0.9299,
+      "step": 260
+    },
+    {
+      "epoch": 1.42,
+      "grad_norm": 4.119781017303467,
+      "learning_rate": 1.0526315789473684e-05,
+      "loss": 0.9538,
+      "step": 270
+    },
+    {
+      "epoch": 1.47,
+      "grad_norm": 3.929755687713623,
+      "learning_rate": 1.017543859649123e-05,
+      "loss": 0.9447,
+      "step": 280
+    },
+    {
+      "epoch": 1.53,
+      "grad_norm": 4.733183860778809,
+      "learning_rate": 9.824561403508772e-06,
+      "loss": 0.854,
+      "step": 290
+    },
+    {
+      "epoch": 1.58,
+      "grad_norm": 3.168888807296753,
+      "learning_rate": 9.473684210526315e-06,
+      "loss": 0.9434,
+      "step": 300
+    },
+    {
+      "epoch": 1.58,
+      "eval_accuracy": 0.7602108036890646,
+      "eval_f1_macro": 0.6895556379814868,
+      "eval_f1_micro": 0.7602108036890646,
+      "eval_loss": 0.9264395833015442,
+      "eval_runtime": 1.434,
+      "eval_samples_per_second": 1058.582,
+      "eval_steps_per_second": 16.736,
+      "step": 300
+    },
+    {
+      "epoch": 1.63,
+      "grad_norm": 4.717241287231445,
+      "learning_rate": 9.12280701754386e-06,
+      "loss": 0.9216,
+      "step": 310
+    },
+    {
+      "epoch": 1.68,
+      "grad_norm": 4.8470988273620605,
+      "learning_rate": 8.771929824561405e-06,
+      "loss": 0.8579,
+      "step": 320
+    },
+    {
+      "epoch": 1.74,
+      "grad_norm": 5.183309555053711,
+      "learning_rate": 8.421052631578948e-06,
+      "loss": 0.8586,
+      "step": 330
+    },
+    {
+      "epoch": 1.79,
+      "grad_norm": 7.0329766273498535,
+      "learning_rate": 8.070175438596492e-06,
+      "loss": 0.9531,
+      "step": 340
+    },
+    {
+      "epoch": 1.84,
+      "grad_norm": 5.28553581237793,
+      "learning_rate": 7.719298245614036e-06,
+      "loss": 0.86,
+      "step": 350
+    },
+    {
+      "epoch": 1.84,
+      "eval_accuracy": 0.7779973649538867,
+      "eval_f1_macro": 0.7135374057878592,
+      "eval_f1_micro": 0.7779973649538867,
+      "eval_loss": 0.8728891015052795,
+      "eval_runtime": 1.4867,
+      "eval_samples_per_second": 1021.034,
+      "eval_steps_per_second": 16.143,
+      "step": 350
+    },
+    {
+      "epoch": 1.89,
+      "grad_norm": 5.873104095458984,
+      "learning_rate": 7.368421052631579e-06,
+      "loss": 0.7864,
+      "step": 360
+    },
+    {
+      "epoch": 1.95,
+      "grad_norm": 4.824563026428223,
+      "learning_rate": 7.017543859649123e-06,
+      "loss": 0.8333,
+      "step": 370
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 5.800777435302734,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.8403,
+      "step": 380
+    },
+    {
+      "epoch": 2.05,
+      "grad_norm": 3.9126601219177246,
+      "learning_rate": 6.31578947368421e-06,
+      "loss": 0.799,
+      "step": 390
+    },
+    {
+      "epoch": 2.11,
+      "grad_norm": 4.892070293426514,
+      "learning_rate": 5.964912280701755e-06,
+      "loss": 0.7567,
+      "step": 400
+    },
+    {
+      "epoch": 2.11,
+      "eval_accuracy": 0.7859025032938076,
+      "eval_f1_macro": 0.7244375969329084,
+      "eval_f1_micro": 0.7859025032938076,
+      "eval_loss": 0.8321741223335266,
+      "eval_runtime": 1.488,
+      "eval_samples_per_second": 1020.179,
+      "eval_steps_per_second": 16.129,
+      "step": 400
+    },
+    {
+      "epoch": 2.16,
+      "grad_norm": 4.8746724128723145,
+      "learning_rate": 5.6140350877192985e-06,
+      "loss": 0.6814,
+      "step": 410
+    },
+    {
+      "epoch": 2.21,
+      "grad_norm": 5.263884544372559,
+      "learning_rate": 5.263157894736842e-06,
+      "loss": 0.7323,
+      "step": 420
+    },
+    {
+      "epoch": 2.26,
+      "grad_norm": 4.6470947265625,
+      "learning_rate": 4.912280701754386e-06,
+      "loss": 0.6902,
+      "step": 430
+    },
+    {
+      "epoch": 2.32,
+      "grad_norm": 5.3066816329956055,
+      "learning_rate": 4.56140350877193e-06,
+      "loss": 0.7446,
+      "step": 440
+    },
+    {
+      "epoch": 2.37,
+      "grad_norm": 3.0504865646362305,
+      "learning_rate": 4.210526315789474e-06,
+      "loss": 0.7028,
+      "step": 450
+    },
+    {
+      "epoch": 2.37,
+      "eval_accuracy": 0.7891963109354414,
+      "eval_f1_macro": 0.7339111590418241,
+      "eval_f1_micro": 0.7891963109354414,
+      "eval_loss": 0.8130051493644714,
+      "eval_runtime": 1.4895,
+      "eval_samples_per_second": 1019.157,
+      "eval_steps_per_second": 16.113,
+      "step": 450
+    },
+    {
+      "epoch": 2.42,
+      "grad_norm": 5.582711696624756,
+      "learning_rate": 3.859649122807018e-06,
+      "loss": 0.6924,
+      "step": 460
+    },
+    {
+      "epoch": 2.47,
+      "grad_norm": 4.516101837158203,
+      "learning_rate": 3.5087719298245615e-06,
+      "loss": 0.7345,
+      "step": 470
+    },
+    {
+      "epoch": 2.53,
+      "grad_norm": 4.358815670013428,
+      "learning_rate": 3.157894736842105e-06,
+      "loss": 0.7219,
+      "step": 480
+    },
+    {
+      "epoch": 2.58,
+      "grad_norm": 4.740716934204102,
+      "learning_rate": 2.8070175438596493e-06,
+      "loss": 0.6904,
+      "step": 490
+    },
+    {
+      "epoch": 2.63,
+      "grad_norm": 4.01389217376709,
+      "learning_rate": 2.456140350877193e-06,
+      "loss": 0.6842,
+      "step": 500
+    },
+    {
+      "epoch": 2.63,
+      "eval_accuracy": 0.7891963109354414,
+      "eval_f1_macro": 0.7284370779832114,
+      "eval_f1_micro": 0.7891963109354414,
+      "eval_loss": 0.8005011081695557,
+      "eval_runtime": 1.4404,
+      "eval_samples_per_second": 1053.867,
+      "eval_steps_per_second": 16.662,
+      "step": 500
+    },
+    {
+      "epoch": 2.68,
+      "grad_norm": 5.79302978515625,
+      "learning_rate": 2.105263157894737e-06,
+      "loss": 0.661,
+      "step": 510
+    },
+    {
+      "epoch": 2.74,
+      "grad_norm": 4.712301731109619,
+      "learning_rate": 1.7543859649122807e-06,
+      "loss": 0.7197,
+      "step": 520
+    },
+    {
+      "epoch": 2.79,
+      "grad_norm": 4.111674785614014,
+      "learning_rate": 1.4035087719298246e-06,
+      "loss": 0.7293,
+      "step": 530
+    },
+    {
+      "epoch": 2.84,
+      "grad_norm": 4.260751247406006,
+      "learning_rate": 1.0526315789473685e-06,
+      "loss": 0.6879,
+      "step": 540
+    },
+    {
+      "epoch": 2.89,
+      "grad_norm": 4.812810897827148,
+      "learning_rate": 7.017543859649123e-07,
+      "loss": 0.6784,
+      "step": 550
+    },
+    {
+      "epoch": 2.89,
+      "eval_accuracy": 0.7878787878787878,
+      "eval_f1_macro": 0.7307727509227439,
+      "eval_f1_micro": 0.7878787878787878,
+      "eval_loss": 0.7915631532669067,
+      "eval_runtime": 1.4939,
+      "eval_samples_per_second": 1016.159,
+      "eval_steps_per_second": 16.066,
+      "step": 550
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 570,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 50,
+  "total_flos": 2315813923061760.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

google_bert/bert_base_uncased_amazon/checkpoint-550/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8421b9c90e04a4ff3e40a4f5330a2900fbfd4fb2fcfa04496f52b69b339ec3cb
+size 5048

google_bert/bert_base_uncased_amazon/checkpoint-550/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

google_bert/bert_base_uncased_amazon/config.json ADDED Viewed

	@@ -0,0 +1,78 @@

+{
+  "_name_or_path": "google-bert/bert-base-uncased",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "finetuning_task": "text-classification",
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "0",
+    "1": "1",
+    "2": "10",
+    "3": "11",
+    "4": "12",
+    "5": "13",
+    "6": "14",
+    "7": "15",
+    "8": "16",
+    "9": "17",
+    "10": "18",
+    "11": "19",
+    "12": "2",
+    "13": "20",
+    "14": "21",
+    "15": "22",
+    "16": "3",
+    "17": "4",
+    "18": "5",
+    "19": "6",
+    "20": "7",
+    "21": "8",
+    "22": "9"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "0": 0,
+    "1": 1,
+    "10": 2,
+    "11": 3,
+    "12": 4,
+    "13": 5,
+    "14": 6,
+    "15": 7,
+    "16": 8,
+    "17": 9,
+    "18": 10,
+    "19": 11,
+    "2": 12,
+    "20": 13,
+    "21": 14,
+    "22": 15,
+    "3": 16,
+    "4": 17,
+    "5": 18,
+    "6": 19,
+    "7": 20,
+    "8": 21,
+    "9": 22
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.39.0.dev0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

google_bert/bert_base_uncased_amazon/eval_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "epoch": 3.0,
+    "eval_accuracy": 0.7878787878787878,
+    "eval_f1_macro": 0.7307727509227439,
+    "eval_f1_micro": 0.7878787878787878,
+    "eval_loss": 0.7915631532669067,
+    "eval_runtime": 1.4904,
+    "eval_samples": 1518,
+    "eval_samples_per_second": 1018.532,
+    "eval_steps_per_second": 16.103
+}

google_bert/bert_base_uncased_amazon/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:07dd00d7cfcee32257973d156459b8051bc76fa6a591a0722e24abbc46b59b96
+size 438023244

google_bert/bert_base_uncased_amazon/run.log ADDED Viewed

	@@ -0,0 +1,4 @@

+03/15/2024 10:46:19 - WARNING - __main__ - Process rank: 0, device: cuda:0, n_gpu: 1, distributed training: True, 16-bits training: False
+03/15/2024 10:46:19 - WARNING - __main__ - Process rank: 1, device: cuda:1, n_gpu: 1, distributed training: True, 16-bits training: False
+03/15/2024 10:46:22 - WARNING - __main__ - The label2id key in the model config.json is not equal to the label2id key of this run. You can ignore this if you are doing finetuning.
+03/15/2024 10:46:23 - WARNING - __main__ - The label2id key in the model config.json is not equal to the label2id key of this run. You can ignore this if you are doing finetuning.

google_bert/bert_base_uncased_amazon/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

google_bert/bert_base_uncased_amazon/test_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 3.0,
+    "test_accuracy": 0.8201581027667985,
+    "test_f1_macro": 0.7636155764092812,
+    "test_f1_micro": 0.8201581027667985,
+    "test_loss": 0.7230327725410461,
+    "test_runtime": 1.4903,
+    "test_samples_per_second": 1018.573,
+    "test_steps_per_second": 16.104
+}

google_bert/bert_base_uncased_amazon/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

google_bert/bert_base_uncased_amazon/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

google_bert/bert_base_uncased_amazon/train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 3.0,
+    "train_loss": 1.1961698414986595,
+    "train_runtime": 135.7278,
+    "train_samples": 12144,
+    "train_samples_per_second": 268.42,
+    "train_steps_per_second": 4.2
+}

google_bert/bert_base_uncased_amazon/trainer_state.json ADDED Viewed

	@@ -0,0 +1,550 @@

+{
+  "best_metric": 0.7915631532669067,
+  "best_model_checkpoint": "../../experiments_checkpoints/MAdAiLab/google_bert/bert_base_uncased_amazon/checkpoint-550",
+  "epoch": 3.0,
+  "eval_steps": 50,
+  "global_step": 570,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.05,
+      "grad_norm": 3.0047507286071777,
+      "learning_rate": 1.9649122807017544e-05,
+      "loss": 3.1497,
+      "step": 10
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 3.8671908378601074,
+      "learning_rate": 1.929824561403509e-05,
+      "loss": 3.0472,
+      "step": 20
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 4.191209316253662,
+      "learning_rate": 1.894736842105263e-05,
+      "loss": 2.9007,
+      "step": 30
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 3.6195719242095947,
+      "learning_rate": 1.8596491228070176e-05,
+      "loss": 2.7123,
+      "step": 40
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 3.8005239963531494,
+      "learning_rate": 1.824561403508772e-05,
+      "loss": 2.5476,
+      "step": 50
+    },
+    {
+      "epoch": 0.26,
+      "eval_accuracy": 0.49670619235836627,
+      "eval_f1_macro": 0.3546099871534922,
+      "eval_f1_micro": 0.49670619235836627,
+      "eval_loss": 2.4070885181427,
+      "eval_runtime": 1.3956,
+      "eval_samples_per_second": 1087.704,
+      "eval_steps_per_second": 17.197,
+      "step": 50
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 4.975920677185059,
+      "learning_rate": 1.7894736842105264e-05,
+      "loss": 2.3704,
+      "step": 60
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 4.028805255889893,
+      "learning_rate": 1.754385964912281e-05,
+      "loss": 2.1795,
+      "step": 70
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 4.310976028442383,
+      "learning_rate": 1.719298245614035e-05,
+      "loss": 1.9854,
+      "step": 80
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 3.7890875339508057,
+      "learning_rate": 1.6842105263157896e-05,
+      "loss": 1.8812,
+      "step": 90
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 3.57995343208313,
+      "learning_rate": 1.649122807017544e-05,
+      "loss": 1.7401,
+      "step": 100
+    },
+    {
+      "epoch": 0.53,
+      "eval_accuracy": 0.6337285902503293,
+      "eval_f1_macro": 0.4899315412700184,
+      "eval_f1_micro": 0.6337285902503293,
+      "eval_loss": 1.6469579935073853,
+      "eval_runtime": 1.4546,
+      "eval_samples_per_second": 1043.605,
+      "eval_steps_per_second": 16.5,
+      "step": 100
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 3.649951696395874,
+      "learning_rate": 1.6140350877192984e-05,
+      "loss": 1.6134,
+      "step": 110
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 3.6378748416900635,
+      "learning_rate": 1.578947368421053e-05,
+      "loss": 1.5476,
+      "step": 120
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 4.442119598388672,
+      "learning_rate": 1.543859649122807e-05,
+      "loss": 1.4687,
+      "step": 130
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 3.7188234329223633,
+      "learning_rate": 1.5087719298245615e-05,
+      "loss": 1.396,
+      "step": 140
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 4.182339191436768,
+      "learning_rate": 1.4736842105263159e-05,
+      "loss": 1.3223,
+      "step": 150
+    },
+    {
+      "epoch": 0.79,
+      "eval_accuracy": 0.6897233201581028,
+      "eval_f1_macro": 0.5664899534257014,
+      "eval_f1_micro": 0.6897233201581028,
+      "eval_loss": 1.2888767719268799,
+      "eval_runtime": 1.4176,
+      "eval_samples_per_second": 1070.835,
+      "eval_steps_per_second": 16.93,
+      "step": 150
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 4.865353584289551,
+      "learning_rate": 1.4385964912280704e-05,
+      "loss": 1.2931,
+      "step": 160
+    },
+    {
+      "epoch": 0.89,
+      "grad_norm": 3.749250650405884,
+      "learning_rate": 1.4035087719298246e-05,
+      "loss": 1.2661,
+      "step": 170
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 4.157919406890869,
+      "learning_rate": 1.3684210526315791e-05,
+      "loss": 1.2114,
+      "step": 180
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 5.845521926879883,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 1.2428,
+      "step": 190
+    },
+    {
+      "epoch": 1.05,
+      "grad_norm": 4.141289234161377,
+      "learning_rate": 1.2982456140350879e-05,
+      "loss": 1.1317,
+      "step": 200
+    },
+    {
+      "epoch": 1.05,
+      "eval_accuracy": 0.735836627140975,
+      "eval_f1_macro": 0.6577255881727345,
+      "eval_f1_micro": 0.735836627140975,
+      "eval_loss": 1.1047031879425049,
+      "eval_runtime": 1.4246,
+      "eval_samples_per_second": 1065.595,
+      "eval_steps_per_second": 16.847,
+      "step": 200
+    },
+    {
+      "epoch": 1.11,
+      "grad_norm": 4.0819010734558105,
+      "learning_rate": 1.263157894736842e-05,
+      "loss": 1.0801,
+      "step": 210
+    },
+    {
+      "epoch": 1.16,
+      "grad_norm": 5.738018035888672,
+      "learning_rate": 1.2280701754385966e-05,
+      "loss": 1.0759,
+      "step": 220
+    },
+    {
+      "epoch": 1.21,
+      "grad_norm": 4.718931674957275,
+      "learning_rate": 1.192982456140351e-05,
+      "loss": 1.0298,
+      "step": 230
+    },
+    {
+      "epoch": 1.26,
+      "grad_norm": 3.587674379348755,
+      "learning_rate": 1.1578947368421053e-05,
+      "loss": 0.9587,
+      "step": 240
+    },
+    {
+      "epoch": 1.32,
+      "grad_norm": 4.904854774475098,
+      "learning_rate": 1.1228070175438597e-05,
+      "loss": 0.9137,
+      "step": 250
+    },
+    {
+      "epoch": 1.32,
+      "eval_accuracy": 0.7536231884057971,
+      "eval_f1_macro": 0.6820274313440232,
+      "eval_f1_micro": 0.7536231884057971,
+      "eval_loss": 0.9906623959541321,
+      "eval_runtime": 1.431,
+      "eval_samples_per_second": 1060.794,
+      "eval_steps_per_second": 16.771,
+      "step": 250
+    },
+    {
+      "epoch": 1.37,
+      "grad_norm": 3.534885883331299,
+      "learning_rate": 1.0877192982456142e-05,
+      "loss": 0.9299,
+      "step": 260
+    },
+    {
+      "epoch": 1.42,
+      "grad_norm": 4.119781017303467,
+      "learning_rate": 1.0526315789473684e-05,
+      "loss": 0.9538,
+      "step": 270
+    },
+    {
+      "epoch": 1.47,
+      "grad_norm": 3.929755687713623,
+      "learning_rate": 1.017543859649123e-05,
+      "loss": 0.9447,
+      "step": 280
+    },
+    {
+      "epoch": 1.53,
+      "grad_norm": 4.733183860778809,
+      "learning_rate": 9.824561403508772e-06,
+      "loss": 0.854,
+      "step": 290
+    },
+    {
+      "epoch": 1.58,
+      "grad_norm": 3.168888807296753,
+      "learning_rate": 9.473684210526315e-06,
+      "loss": 0.9434,
+      "step": 300
+    },
+    {
+      "epoch": 1.58,
+      "eval_accuracy": 0.7602108036890646,
+      "eval_f1_macro": 0.6895556379814868,
+      "eval_f1_micro": 0.7602108036890646,
+      "eval_loss": 0.9264395833015442,
+      "eval_runtime": 1.434,
+      "eval_samples_per_second": 1058.582,
+      "eval_steps_per_second": 16.736,
+      "step": 300
+    },
+    {
+      "epoch": 1.63,
+      "grad_norm": 4.717241287231445,
+      "learning_rate": 9.12280701754386e-06,
+      "loss": 0.9216,
+      "step": 310
+    },
+    {
+      "epoch": 1.68,
+      "grad_norm": 4.8470988273620605,
+      "learning_rate": 8.771929824561405e-06,
+      "loss": 0.8579,
+      "step": 320
+    },
+    {
+      "epoch": 1.74,
+      "grad_norm": 5.183309555053711,
+      "learning_rate": 8.421052631578948e-06,
+      "loss": 0.8586,
+      "step": 330
+    },
+    {
+      "epoch": 1.79,
+      "grad_norm": 7.0329766273498535,
+      "learning_rate": 8.070175438596492e-06,
+      "loss": 0.9531,
+      "step": 340
+    },
+    {
+      "epoch": 1.84,
+      "grad_norm": 5.28553581237793,
+      "learning_rate": 7.719298245614036e-06,
+      "loss": 0.86,
+      "step": 350
+    },
+    {
+      "epoch": 1.84,
+      "eval_accuracy": 0.7779973649538867,
+      "eval_f1_macro": 0.7135374057878592,
+      "eval_f1_micro": 0.7779973649538867,
+      "eval_loss": 0.8728891015052795,
+      "eval_runtime": 1.4867,
+      "eval_samples_per_second": 1021.034,
+      "eval_steps_per_second": 16.143,
+      "step": 350
+    },
+    {
+      "epoch": 1.89,
+      "grad_norm": 5.873104095458984,
+      "learning_rate": 7.368421052631579e-06,
+      "loss": 0.7864,
+      "step": 360
+    },
+    {
+      "epoch": 1.95,
+      "grad_norm": 4.824563026428223,
+      "learning_rate": 7.017543859649123e-06,
+      "loss": 0.8333,
+      "step": 370
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 5.800777435302734,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 0.8403,
+      "step": 380
+    },
+    {
+      "epoch": 2.05,
+      "grad_norm": 3.9126601219177246,
+      "learning_rate": 6.31578947368421e-06,
+      "loss": 0.799,
+      "step": 390
+    },
+    {
+      "epoch": 2.11,
+      "grad_norm": 4.892070293426514,
+      "learning_rate": 5.964912280701755e-06,
+      "loss": 0.7567,
+      "step": 400
+    },
+    {
+      "epoch": 2.11,
+      "eval_accuracy": 0.7859025032938076,
+      "eval_f1_macro": 0.7244375969329084,
+      "eval_f1_micro": 0.7859025032938076,
+      "eval_loss": 0.8321741223335266,
+      "eval_runtime": 1.488,
+      "eval_samples_per_second": 1020.179,
+      "eval_steps_per_second": 16.129,
+      "step": 400
+    },
+    {
+      "epoch": 2.16,
+      "grad_norm": 4.8746724128723145,
+      "learning_rate": 5.6140350877192985e-06,
+      "loss": 0.6814,
+      "step": 410
+    },
+    {
+      "epoch": 2.21,
+      "grad_norm": 5.263884544372559,
+      "learning_rate": 5.263157894736842e-06,
+      "loss": 0.7323,
+      "step": 420
+    },
+    {
+      "epoch": 2.26,
+      "grad_norm": 4.6470947265625,
+      "learning_rate": 4.912280701754386e-06,
+      "loss": 0.6902,
+      "step": 430
+    },
+    {
+      "epoch": 2.32,
+      "grad_norm": 5.3066816329956055,
+      "learning_rate": 4.56140350877193e-06,
+      "loss": 0.7446,
+      "step": 440
+    },
+    {
+      "epoch": 2.37,
+      "grad_norm": 3.0504865646362305,
+      "learning_rate": 4.210526315789474e-06,
+      "loss": 0.7028,
+      "step": 450
+    },
+    {
+      "epoch": 2.37,
+      "eval_accuracy": 0.7891963109354414,
+      "eval_f1_macro": 0.7339111590418241,
+      "eval_f1_micro": 0.7891963109354414,
+      "eval_loss": 0.8130051493644714,
+      "eval_runtime": 1.4895,
+      "eval_samples_per_second": 1019.157,
+      "eval_steps_per_second": 16.113,
+      "step": 450
+    },
+    {
+      "epoch": 2.42,
+      "grad_norm": 5.582711696624756,
+      "learning_rate": 3.859649122807018e-06,
+      "loss": 0.6924,
+      "step": 460
+    },
+    {
+      "epoch": 2.47,
+      "grad_norm": 4.516101837158203,
+      "learning_rate": 3.5087719298245615e-06,
+      "loss": 0.7345,
+      "step": 470
+    },
+    {
+      "epoch": 2.53,
+      "grad_norm": 4.358815670013428,
+      "learning_rate": 3.157894736842105e-06,
+      "loss": 0.7219,
+      "step": 480
+    },
+    {
+      "epoch": 2.58,
+      "grad_norm": 4.740716934204102,
+      "learning_rate": 2.8070175438596493e-06,
+      "loss": 0.6904,
+      "step": 490
+    },
+    {
+      "epoch": 2.63,
+      "grad_norm": 4.01389217376709,
+      "learning_rate": 2.456140350877193e-06,
+      "loss": 0.6842,
+      "step": 500
+    },
+    {
+      "epoch": 2.63,
+      "eval_accuracy": 0.7891963109354414,
+      "eval_f1_macro": 0.7284370779832114,
+      "eval_f1_micro": 0.7891963109354414,
+      "eval_loss": 0.8005011081695557,
+      "eval_runtime": 1.4404,
+      "eval_samples_per_second": 1053.867,
+      "eval_steps_per_second": 16.662,
+      "step": 500
+    },
+    {
+      "epoch": 2.68,
+      "grad_norm": 5.79302978515625,
+      "learning_rate": 2.105263157894737e-06,
+      "loss": 0.661,
+      "step": 510
+    },
+    {
+      "epoch": 2.74,
+      "grad_norm": 4.712301731109619,
+      "learning_rate": 1.7543859649122807e-06,
+      "loss": 0.7197,
+      "step": 520
+    },
+    {
+      "epoch": 2.79,
+      "grad_norm": 4.111674785614014,
+      "learning_rate": 1.4035087719298246e-06,
+      "loss": 0.7293,
+      "step": 530
+    },
+    {
+      "epoch": 2.84,
+      "grad_norm": 4.260751247406006,
+      "learning_rate": 1.0526315789473685e-06,
+      "loss": 0.6879,
+      "step": 540
+    },
+    {
+      "epoch": 2.89,
+      "grad_norm": 4.812810897827148,
+      "learning_rate": 7.017543859649123e-07,
+      "loss": 0.6784,
+      "step": 550
+    },
+    {
+      "epoch": 2.89,
+      "eval_accuracy": 0.7878787878787878,
+      "eval_f1_macro": 0.7307727509227439,
+      "eval_f1_micro": 0.7878787878787878,
+      "eval_loss": 0.7915631532669067,
+      "eval_runtime": 1.4939,
+      "eval_samples_per_second": 1016.159,
+      "eval_steps_per_second": 16.066,
+      "step": 550
+    },
+    {
+      "epoch": 2.95,
+      "grad_norm": 5.386019229888916,
+      "learning_rate": 3.5087719298245616e-07,
+      "loss": 0.7219,
+      "step": 560
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 6.00460147857666,
+      "learning_rate": 0.0,
+      "loss": 0.7506,
+      "step": 570
+    },
+    {
+      "epoch": 3.0,
+      "step": 570,
+      "total_flos": 2400025338445824.0,
+      "train_loss": 1.1961698414986595,
+      "train_runtime": 135.7278,
+      "train_samples_per_second": 268.42,
+      "train_steps_per_second": 4.2
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 570,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 50,
+  "total_flos": 2400025338445824.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

google_bert/bert_base_uncased_amazon/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8421b9c90e04a4ff3e40a4f5330a2900fbfd4fb2fcfa04496f52b69b339ec3cb
+size 5048

google_bert/bert_base_uncased_amazon/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

google_bert/bert_base_uncased_ledgar/README.md ADDED Viewed

	@@ -0,0 +1,93 @@

+---
+license: apache-2.0
+base_model: google-bert/bert-base-uncased
+tags:
+- generated_from_trainer
+metrics:
+- accuracy
+model-index:
+- name: bert_base_uncased_ledgar
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# bert_base_uncased_ledgar
+This model is a fine-tuned version of [google-bert/bert-base-uncased](https://huggingface.co/google-bert/bert-base-uncased) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.6676
+- Accuracy: 0.8349
+- F1 Macro: 0.7127
+- F1 Micro: 0.8349
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 2e-05
+- train_batch_size: 32
+- eval_batch_size: 32
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 2
+- total_train_batch_size: 64
+- total_eval_batch_size: 64
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- num_epochs: 3.0
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Accuracy | F1 Macro | F1 Micro |
+|:-------------:|:-----:|:----:|:---------------:|:--------:|:--------:|:--------:|
+| 3.6919        | 0.11  | 100  | 3.4439          | 0.4049   | 0.1512   | 0.4049   |
+| 2.7312        | 0.21  | 200  | 2.5762          | 0.5766   | 0.3025   | 0.5766   |
+| 2.1872        | 0.32  | 300  | 2.0346          | 0.656    | 0.3994   | 0.656    |
+| 1.7869        | 0.43  | 400  | 1.6759          | 0.7075   | 0.4796   | 0.7075   |
+| 1.5593        | 0.53  | 500  | 1.4354          | 0.7454   | 0.5447   | 0.7454   |
+| 1.388         | 0.64  | 600  | 1.2759          | 0.7695   | 0.5778   | 0.7695   |
+| 1.214         | 0.75  | 700  | 1.1428          | 0.7806   | 0.5891   | 0.7806   |
+| 1.158         | 0.85  | 800  | 1.0531          | 0.784    | 0.5955   | 0.784    |
+| 1.0284        | 0.96  | 900  | 0.9726          | 0.7944   | 0.6182   | 0.7944   |
+| 0.9249        | 1.07  | 1000 | 0.9276          | 0.8009   | 0.6295   | 0.8009   |
+| 0.9046        | 1.17  | 1100 | 0.8824          | 0.8058   | 0.6413   | 0.8058   |
+| 0.9312        | 1.28  | 1200 | 0.8425          | 0.8081   | 0.6450   | 0.8081   |
+| 0.8329        | 1.39  | 1300 | 0.8096          | 0.8135   | 0.6585   | 0.8135   |
+| 0.7601        | 1.49  | 1400 | 0.7946          | 0.8148   | 0.6646   | 0.8148   |
+| 0.7812        | 1.6   | 1500 | 0.7766          | 0.8192   | 0.6739   | 0.8192   |
+| 0.7944        | 1.71  | 1600 | 0.7585          | 0.8221   | 0.6800   | 0.8221   |
+| 0.7632        | 1.81  | 1700 | 0.7363          | 0.8269   | 0.6902   | 0.8269   |
+| 0.7027        | 1.92  | 1800 | 0.7229          | 0.8227   | 0.6793   | 0.8227   |
+| 0.671         | 2.03  | 1900 | 0.7145          | 0.8263   | 0.6870   | 0.8263   |
+| 0.6361        | 2.13  | 2000 | 0.7067          | 0.8277   | 0.6952   | 0.8277   |
+| 0.6615        | 2.24  | 2100 | 0.6969          | 0.8281   | 0.6974   | 0.8281   |
+| 0.6432        | 2.35  | 2200 | 0.6908          | 0.8311   | 0.7054   | 0.8311   |
+| 0.648         | 2.45  | 2300 | 0.6850          | 0.8304   | 0.7011   | 0.8304   |
+| 0.631         | 2.56  | 2400 | 0.6750          | 0.8323   | 0.7063   | 0.8323   |
+| 0.575         | 2.67  | 2500 | 0.6718          | 0.8337   | 0.7094   | 0.8337   |
+| 0.6444        | 2.77  | 2600 | 0.6701          | 0.8332   | 0.7102   | 0.8332   |
+| 0.6054        | 2.88  | 2700 | 0.6690          | 0.8346   | 0.7122   | 0.8346   |
+| 0.6123        | 2.99  | 2800 | 0.6676          | 0.8349   | 0.7127   | 0.8349   |
+### Framework versions
+- Transformers 4.39.0.dev0
+- Pytorch 2.2.1+cu121
+- Datasets 2.18.0
+- Tokenizers 0.15.2

google_bert/bert_base_uncased_ledgar/all_results.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+    "epoch": 3.0,
+    "eval_accuracy": 0.8349,
+    "eval_f1_macro": 0.7127429197005123,
+    "eval_f1_micro": 0.8349,
+    "eval_loss": 0.6676496267318726,
+    "eval_runtime": 9.4822,
+    "eval_samples": 10000,
+    "eval_samples_per_second": 1054.603,
+    "eval_steps_per_second": 16.557,
+    "test_accuracy": 0.8352,
+    "test_f1_macro": 0.6987837825891837,
+    "test_f1_micro": 0.8352,
+    "test_loss": 0.679053008556366,
+    "test_runtime": 9.4935,
+    "test_samples_per_second": 1053.351,
+    "test_steps_per_second": 16.538,
+    "train_loss": 1.1454540061543999,
+    "train_runtime": 819.1516,
+    "train_samples": 60000,
+    "train_samples_per_second": 219.74,
+    "train_steps_per_second": 3.435
+}

google_bert/bert_base_uncased_ledgar/checkpoint-2800/config.json ADDED Viewed

	@@ -0,0 +1,232 @@

+{
+  "_name_or_path": "google-bert/bert-base-uncased",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "finetuning_task": "text-classification",
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "0",
+    "1": "1",
+    "2": "10",
+    "3": "11",
+    "4": "12",
+    "5": "13",
+    "6": "14",
+    "7": "15",
+    "8": "16",
+    "9": "17",
+    "10": "18",
+    "11": "19",
+    "12": "2",
+    "13": "20",
+    "14": "21",
+    "15": "22",
+    "16": "23",
+    "17": "24",
+    "18": "25",
+    "19": "26",
+    "20": "27",
+    "21": "28",
+    "22": "29",
+    "23": "3",
+    "24": "30",
+    "25": "31",
+    "26": "32",
+    "27": "33",
+    "28": "34",
+    "29": "35",
+    "30": "36",
+    "31": "37",
+    "32": "38",
+    "33": "39",
+    "34": "4",
+    "35": "40",
+    "36": "41",
+    "37": "42",
+    "38": "43",
+    "39": "44",
+    "40": "45",
+    "41": "46",
+    "42": "47",
+    "43": "48",
+    "44": "49",
+    "45": "5",
+    "46": "50",
+    "47": "51",
+    "48": "52",
+    "49": "53",
+    "50": "54",
+    "51": "55",
+    "52": "56",
+    "53": "57",
+    "54": "58",
+    "55": "59",
+    "56": "6",
+    "57": "60",
+    "58": "61",
+    "59": "62",
+    "60": "63",
+    "61": "64",
+    "62": "65",
+    "63": "66",
+    "64": "67",
+    "65": "68",
+    "66": "69",
+    "67": "7",
+    "68": "70",
+    "69": "71",
+    "70": "72",
+    "71": "73",
+    "72": "74",
+    "73": "75",
+    "74": "76",
+    "75": "77",
+    "76": "78",
+    "77": "79",
+    "78": "8",
+    "79": "80",
+    "80": "81",
+    "81": "82",
+    "82": "83",
+    "83": "84",
+    "84": "85",
+    "85": "86",
+    "86": "87",
+    "87": "88",
+    "88": "89",
+    "89": "9",
+    "90": "90",
+    "91": "91",
+    "92": "92",
+    "93": "93",
+    "94": "94",
+    "95": "95",
+    "96": "96",
+    "97": "97",
+    "98": "98",
+    "99": "99"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "0": 0,
+    "1": 1,
+    "10": 2,
+    "11": 3,
+    "12": 4,
+    "13": 5,
+    "14": 6,
+    "15": 7,
+    "16": 8,
+    "17": 9,
+    "18": 10,
+    "19": 11,
+    "2": 12,
+    "20": 13,
+    "21": 14,
+    "22": 15,
+    "23": 16,
+    "24": 17,
+    "25": 18,
+    "26": 19,
+    "27": 20,
+    "28": 21,
+    "29": 22,
+    "3": 23,
+    "30": 24,
+    "31": 25,
+    "32": 26,
+    "33": 27,
+    "34": 28,
+    "35": 29,
+    "36": 30,
+    "37": 31,
+    "38": 32,
+    "39": 33,
+    "4": 34,
+    "40": 35,
+    "41": 36,
+    "42": 37,
+    "43": 38,
+    "44": 39,
+    "45": 40,
+    "46": 41,
+    "47": 42,
+    "48": 43,
+    "49": 44,
+    "5": 45,
+    "50": 46,
+    "51": 47,
+    "52": 48,
+    "53": 49,
+    "54": 50,
+    "55": 51,
+    "56": 52,
+    "57": 53,
+    "58": 54,
+    "59": 55,
+    "6": 56,
+    "60": 57,
+    "61": 58,
+    "62": 59,
+    "63": 60,
+    "64": 61,
+    "65": 62,
+    "66": 63,
+    "67": 64,
+    "68": 65,
+    "69": 66,
+    "7": 67,
+    "70": 68,
+    "71": 69,
+    "72": 70,
+    "73": 71,
+    "74": 72,
+    "75": 73,
+    "76": 74,
+    "77": 75,
+    "78": 76,
+    "79": 77,
+    "8": 78,
+    "80": 79,
+    "81": 80,
+    "82": 81,
+    "83": 82,
+    "84": 83,
+    "85": 84,
+    "86": 85,
+    "87": 86,
+    "88": 87,
+    "89": 88,
+    "9": 89,
+    "90": 90,
+    "91": 91,
+    "92": 92,
+    "93": 93,
+    "94": 94,
+    "95": 95,
+    "96": 96,
+    "97": 97,
+    "98": 98,
+    "99": 99
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.39.0.dev0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

google_bert/bert_base_uncased_ledgar/checkpoint-2800/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:50e077bb43f5193a7a49d2333d5b1769ffc8280226b5fad23967dabdbe653bd5
+size 438260096

google_bert/bert_base_uncased_ledgar/checkpoint-2800/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:37c112c82a3deba3a06887cf3452f87fe49e8700a82ca4a696533470b6904ca1
+size 876641274

google_bert/bert_base_uncased_ledgar/checkpoint-2800/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a0069e92d7c2a4e44e2a9224f6e1ca18b69752ef710179055e3f98be5aa23b51
+size 14512

google_bert/bert_base_uncased_ledgar/checkpoint-2800/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2cdad17f2b3c9db34119214910aaf863c2c274273217ecfcb945930b67f91ee2
+size 14512

google_bert/bert_base_uncased_ledgar/checkpoint-2800/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f0224ec79a76b1ee8bd4b2fe14836f2158ca8d6dcdad5b03a74c30ee27cece40
+size 1064

google_bert/bert_base_uncased_ledgar/checkpoint-2800/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

google_bert/bert_base_uncased_ledgar/checkpoint-2800/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

google_bert/bert_base_uncased_ledgar/checkpoint-2800/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

google_bert/bert_base_uncased_ledgar/checkpoint-2800/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1113 @@

+{
+  "best_metric": 0.6676496267318726,
+  "best_model_checkpoint": "../../experiments_checkpoints/MAdAiLab/google_bert/bert_base_uncased_ledgar/checkpoint-2800",
+  "epoch": 2.9850746268656714,
+  "eval_steps": 100,
+  "global_step": 2800,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03,
+      "grad_norm": 4.544431686401367,
+      "learning_rate": 1.9822316986496094e-05,
+      "loss": 4.5228,
+      "step": 25
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 3.7488999366760254,
+      "learning_rate": 1.9644633972992183e-05,
+      "loss": 4.2438,
+      "step": 50
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 4.0013933181762695,
+      "learning_rate": 1.9466950959488275e-05,
+      "loss": 3.9602,
+      "step": 75
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 3.7357428073883057,
+      "learning_rate": 1.9289267945984364e-05,
+      "loss": 3.6919,
+      "step": 100
+    },
+    {
+      "epoch": 0.11,
+      "eval_accuracy": 0.4049,
+      "eval_f1_macro": 0.15118582456485236,
+      "eval_f1_micro": 0.4049,
+      "eval_loss": 3.443889856338501,
+      "eval_runtime": 9.0977,
+      "eval_samples_per_second": 1099.185,
+      "eval_steps_per_second": 17.257,
+      "step": 100
+    },
+    {
+      "epoch": 0.13,
+      "grad_norm": 3.982490062713623,
+      "learning_rate": 1.9111584932480457e-05,
+      "loss": 3.3679,
+      "step": 125
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 3.725257396697998,
+      "learning_rate": 1.8933901918976546e-05,
+      "loss": 3.2251,
+      "step": 150
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 3.8903579711914062,
+      "learning_rate": 1.8756218905472638e-05,
+      "loss": 2.946,
+      "step": 175
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 4.836933612823486,
+      "learning_rate": 1.857853589196873e-05,
+      "loss": 2.7312,
+      "step": 200
+    },
+    {
+      "epoch": 0.21,
+      "eval_accuracy": 0.5766,
+      "eval_f1_macro": 0.3024643899851631,
+      "eval_f1_micro": 0.5766,
+      "eval_loss": 2.576185464859009,
+      "eval_runtime": 9.2581,
+      "eval_samples_per_second": 1080.141,
+      "eval_steps_per_second": 16.958,
+      "step": 200
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 4.334925174713135,
+      "learning_rate": 1.8400852878464823e-05,
+      "loss": 2.599,
+      "step": 225
+    },
+    {
+      "epoch": 0.27,
+      "grad_norm": 3.9912467002868652,
+      "learning_rate": 1.822316986496091e-05,
+      "loss": 2.4204,
+      "step": 250
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 3.9900569915771484,
+      "learning_rate": 1.8045486851457e-05,
+      "loss": 2.337,
+      "step": 275
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 3.7264604568481445,
+      "learning_rate": 1.7867803837953093e-05,
+      "loss": 2.1872,
+      "step": 300
+    },
+    {
+      "epoch": 0.32,
+      "eval_accuracy": 0.656,
+      "eval_f1_macro": 0.3994065663530276,
+      "eval_f1_micro": 0.656,
+      "eval_loss": 2.034592866897583,
+      "eval_runtime": 9.3816,
+      "eval_samples_per_second": 1065.922,
+      "eval_steps_per_second": 16.735,
+      "step": 300
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 4.161665439605713,
+      "learning_rate": 1.7690120824449185e-05,
+      "loss": 2.0937,
+      "step": 325
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 3.8712174892425537,
+      "learning_rate": 1.7512437810945274e-05,
+      "loss": 1.9838,
+      "step": 350
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 4.481960296630859,
+      "learning_rate": 1.7334754797441367e-05,
+      "loss": 1.869,
+      "step": 375
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 3.975022077560425,
+      "learning_rate": 1.715707178393746e-05,
+      "loss": 1.7869,
+      "step": 400
+    },
+    {
+      "epoch": 0.43,
+      "eval_accuracy": 0.7075,
+      "eval_f1_macro": 0.47958879769862484,
+      "eval_f1_micro": 0.7075,
+      "eval_loss": 1.6759310960769653,
+      "eval_runtime": 9.4447,
+      "eval_samples_per_second": 1058.8,
+      "eval_steps_per_second": 16.623,
+      "step": 400
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 3.881775140762329,
+      "learning_rate": 1.6979388770433548e-05,
+      "loss": 1.7645,
+      "step": 425
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 4.351230144500732,
+      "learning_rate": 1.6801705756929637e-05,
+      "loss": 1.7976,
+      "step": 450
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 3.5112228393554688,
+      "learning_rate": 1.662402274342573e-05,
+      "loss": 1.656,
+      "step": 475
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 4.2742719650268555,
+      "learning_rate": 1.6446339729921822e-05,
+      "loss": 1.5593,
+      "step": 500
+    },
+    {
+      "epoch": 0.53,
+      "eval_accuracy": 0.7454,
+      "eval_f1_macro": 0.5447021013489751,
+      "eval_f1_micro": 0.7454,
+      "eval_loss": 1.435422658920288,
+      "eval_runtime": 9.4761,
+      "eval_samples_per_second": 1055.289,
+      "eval_steps_per_second": 16.568,
+      "step": 500
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 3.7480850219726562,
+      "learning_rate": 1.626865671641791e-05,
+      "loss": 1.5036,
+      "step": 525
+    },
+    {
+      "epoch": 0.59,
+      "grad_norm": 3.1482491493225098,
+      "learning_rate": 1.6090973702914003e-05,
+      "loss": 1.4725,
+      "step": 550
+    },
+    {
+      "epoch": 0.61,
+      "grad_norm": 5.111358165740967,
+      "learning_rate": 1.5913290689410095e-05,
+      "loss": 1.4053,
+      "step": 575
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 4.8028035163879395,
+      "learning_rate": 1.5735607675906184e-05,
+      "loss": 1.388,
+      "step": 600
+    },
+    {
+      "epoch": 0.64,
+      "eval_accuracy": 0.7695,
+      "eval_f1_macro": 0.577809308960101,
+      "eval_f1_micro": 0.7695,
+      "eval_loss": 1.2758678197860718,
+      "eval_runtime": 9.5058,
+      "eval_samples_per_second": 1051.991,
+      "eval_steps_per_second": 16.516,
+      "step": 600
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 4.240127086639404,
+      "learning_rate": 1.5557924662402277e-05,
+      "loss": 1.3399,
+      "step": 625
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 4.1150007247924805,
+      "learning_rate": 1.5380241648898366e-05,
+      "loss": 1.2714,
+      "step": 650
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 3.628380060195923,
+      "learning_rate": 1.5202558635394458e-05,
+      "loss": 1.2766,
+      "step": 675
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 3.448577880859375,
+      "learning_rate": 1.5024875621890549e-05,
+      "loss": 1.214,
+      "step": 700
+    },
+    {
+      "epoch": 0.75,
+      "eval_accuracy": 0.7806,
+      "eval_f1_macro": 0.58907582193097,
+      "eval_f1_micro": 0.7806,
+      "eval_loss": 1.1428197622299194,
+      "eval_runtime": 9.5122,
+      "eval_samples_per_second": 1051.284,
+      "eval_steps_per_second": 16.505,
+      "step": 700
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 4.4761738777160645,
+      "learning_rate": 1.484719260838664e-05,
+      "loss": 1.1808,
+      "step": 725
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 3.9894113540649414,
+      "learning_rate": 1.4669509594882732e-05,
+      "loss": 1.22,
+      "step": 750
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 3.698829174041748,
+      "learning_rate": 1.449182658137882e-05,
+      "loss": 1.1912,
+      "step": 775
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 4.163917541503906,
+      "learning_rate": 1.4314143567874911e-05,
+      "loss": 1.158,
+      "step": 800
+    },
+    {
+      "epoch": 0.85,
+      "eval_accuracy": 0.784,
+      "eval_f1_macro": 0.5954661601031839,
+      "eval_f1_micro": 0.784,
+      "eval_loss": 1.053144097328186,
+      "eval_runtime": 9.5146,
+      "eval_samples_per_second": 1051.015,
+      "eval_steps_per_second": 16.501,
+      "step": 800
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 4.923873424530029,
+      "learning_rate": 1.4136460554371004e-05,
+      "loss": 1.1473,
+      "step": 825
+    },
+    {
+      "epoch": 0.91,
+      "grad_norm": 2.9809346199035645,
+      "learning_rate": 1.3958777540867094e-05,
+      "loss": 1.0783,
+      "step": 850
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 4.601626396179199,
+      "learning_rate": 1.3781094527363185e-05,
+      "loss": 1.1126,
+      "step": 875
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 3.9900403022766113,
+      "learning_rate": 1.3603411513859277e-05,
+      "loss": 1.0284,
+      "step": 900
+    },
+    {
+      "epoch": 0.96,
+      "eval_accuracy": 0.7944,
+      "eval_f1_macro": 0.6182409797752259,
+      "eval_f1_micro": 0.7944,
+      "eval_loss": 0.9725863337516785,
+      "eval_runtime": 9.5152,
+      "eval_samples_per_second": 1050.948,
+      "eval_steps_per_second": 16.5,
+      "step": 900
+    },
+    {
+      "epoch": 0.99,
+      "grad_norm": 4.562723636627197,
+      "learning_rate": 1.3425728500355366e-05,
+      "loss": 1.083,
+      "step": 925
+    },
+    {
+      "epoch": 1.01,
+      "grad_norm": 3.6383819580078125,
+      "learning_rate": 1.3248045486851457e-05,
+      "loss": 1.0053,
+      "step": 950
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 4.410184860229492,
+      "learning_rate": 1.307036247334755e-05,
+      "loss": 0.9898,
+      "step": 975
+    },
+    {
+      "epoch": 1.07,
+      "grad_norm": 3.478816270828247,
+      "learning_rate": 1.289267945984364e-05,
+      "loss": 0.9249,
+      "step": 1000
+    },
+    {
+      "epoch": 1.07,
+      "eval_accuracy": 0.8009,
+      "eval_f1_macro": 0.629547630618281,
+      "eval_f1_micro": 0.8009,
+      "eval_loss": 0.9276089668273926,
+      "eval_runtime": 9.5151,
+      "eval_samples_per_second": 1050.96,
+      "eval_steps_per_second": 16.5,
+      "step": 1000
+    },
+    {
+      "epoch": 1.09,
+      "grad_norm": 3.290118932723999,
+      "learning_rate": 1.271499644633973e-05,
+      "loss": 0.947,
+      "step": 1025
+    },
+    {
+      "epoch": 1.12,
+      "grad_norm": 4.023651123046875,
+      "learning_rate": 1.2537313432835823e-05,
+      "loss": 0.8897,
+      "step": 1050
+    },
+    {
+      "epoch": 1.15,
+      "grad_norm": 4.437704563140869,
+      "learning_rate": 1.2359630419331914e-05,
+      "loss": 0.9272,
+      "step": 1075
+    },
+    {
+      "epoch": 1.17,
+      "grad_norm": 4.521045684814453,
+      "learning_rate": 1.2181947405828003e-05,
+      "loss": 0.9046,
+      "step": 1100
+    },
+    {
+      "epoch": 1.17,
+      "eval_accuracy": 0.8058,
+      "eval_f1_macro": 0.6412774942056234,
+      "eval_f1_micro": 0.8058,
+      "eval_loss": 0.8823915123939514,
+      "eval_runtime": 9.5141,
+      "eval_samples_per_second": 1051.066,
+      "eval_steps_per_second": 16.502,
+      "step": 1100
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 2.613760471343994,
+      "learning_rate": 1.2004264392324093e-05,
+      "loss": 0.8819,
+      "step": 1125
+    },
+    {
+      "epoch": 1.23,
+      "grad_norm": 3.4620471000671387,
+      "learning_rate": 1.1826581378820186e-05,
+      "loss": 0.8386,
+      "step": 1150
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 5.157960891723633,
+      "learning_rate": 1.1648898365316276e-05,
+      "loss": 0.8049,
+      "step": 1175
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 4.343198299407959,
+      "learning_rate": 1.1471215351812369e-05,
+      "loss": 0.9312,
+      "step": 1200
+    },
+    {
+      "epoch": 1.28,
+      "eval_accuracy": 0.8081,
+      "eval_f1_macro": 0.6449763476669437,
+      "eval_f1_micro": 0.8081,
+      "eval_loss": 0.8425447344779968,
+      "eval_runtime": 9.5201,
+      "eval_samples_per_second": 1050.41,
+      "eval_steps_per_second": 16.491,
+      "step": 1200
+    },
+    {
+      "epoch": 1.31,
+      "grad_norm": 4.752044200897217,
+      "learning_rate": 1.129353233830846e-05,
+      "loss": 0.8832,
+      "step": 1225
+    },
+    {
+      "epoch": 1.33,
+      "grad_norm": 2.5763158798217773,
+      "learning_rate": 1.111584932480455e-05,
+      "loss": 0.8849,
+      "step": 1250
+    },
+    {
+      "epoch": 1.36,
+      "grad_norm": 3.2431178092956543,
+      "learning_rate": 1.0938166311300639e-05,
+      "loss": 0.8374,
+      "step": 1275
+    },
+    {
+      "epoch": 1.39,
+      "grad_norm": 5.601613521575928,
+      "learning_rate": 1.0760483297796731e-05,
+      "loss": 0.8329,
+      "step": 1300
+    },
+    {
+      "epoch": 1.39,
+      "eval_accuracy": 0.8135,
+      "eval_f1_macro": 0.6585048816034432,
+      "eval_f1_micro": 0.8135,
+      "eval_loss": 0.8095632791519165,
+      "eval_runtime": 9.5177,
+      "eval_samples_per_second": 1050.673,
+      "eval_steps_per_second": 16.496,
+      "step": 1300
+    },
+    {
+      "epoch": 1.41,
+      "grad_norm": 4.541258335113525,
+      "learning_rate": 1.0582800284292822e-05,
+      "loss": 0.8391,
+      "step": 1325
+    },
+    {
+      "epoch": 1.44,
+      "grad_norm": 3.400801420211792,
+      "learning_rate": 1.0405117270788913e-05,
+      "loss": 0.8404,
+      "step": 1350
+    },
+    {
+      "epoch": 1.47,
+      "grad_norm": 3.5427093505859375,
+      "learning_rate": 1.0227434257285005e-05,
+      "loss": 0.7576,
+      "step": 1375
+    },
+    {
+      "epoch": 1.49,
+      "grad_norm": 5.988525867462158,
+      "learning_rate": 1.0049751243781096e-05,
+      "loss": 0.7601,
+      "step": 1400
+    },
+    {
+      "epoch": 1.49,
+      "eval_accuracy": 0.8148,
+      "eval_f1_macro": 0.6646068863066573,
+      "eval_f1_micro": 0.8148,
+      "eval_loss": 0.7945957183837891,
+      "eval_runtime": 9.5183,
+      "eval_samples_per_second": 1050.605,
+      "eval_steps_per_second": 16.495,
+      "step": 1400
+    },
+    {
+      "epoch": 1.52,
+      "grad_norm": 6.576759338378906,
+      "learning_rate": 9.872068230277187e-06,
+      "loss": 0.8336,
+      "step": 1425
+    },
+    {
+      "epoch": 1.55,
+      "grad_norm": 4.413715362548828,
+      "learning_rate": 9.694385216773277e-06,
+      "loss": 0.8282,
+      "step": 1450
+    },
+    {
+      "epoch": 1.57,
+      "grad_norm": 3.664360523223877,
+      "learning_rate": 9.516702203269368e-06,
+      "loss": 0.8263,
+      "step": 1475
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 3.517057180404663,
+      "learning_rate": 9.339019189765458e-06,
+      "loss": 0.7812,
+      "step": 1500
+    },
+    {
+      "epoch": 1.6,
+      "eval_accuracy": 0.8192,
+      "eval_f1_macro": 0.6738857544513059,
+      "eval_f1_micro": 0.8192,
+      "eval_loss": 0.776592493057251,
+      "eval_runtime": 9.5181,
+      "eval_samples_per_second": 1050.631,
+      "eval_steps_per_second": 16.495,
+      "step": 1500
+    },
+    {
+      "epoch": 1.63,
+      "grad_norm": 3.894787311553955,
+      "learning_rate": 9.161336176261551e-06,
+      "loss": 0.7565,
+      "step": 1525
+    },
+    {
+      "epoch": 1.65,
+      "grad_norm": 2.5228681564331055,
+      "learning_rate": 8.98365316275764e-06,
+      "loss": 0.735,
+      "step": 1550
+    },
+    {
+      "epoch": 1.68,
+      "grad_norm": 4.373218059539795,
+      "learning_rate": 8.805970149253732e-06,
+      "loss": 0.7089,
+      "step": 1575
+    },
+    {
+      "epoch": 1.71,
+      "grad_norm": 3.751723289489746,
+      "learning_rate": 8.628287135749823e-06,
+      "loss": 0.7944,
+      "step": 1600
+    },
+    {
+      "epoch": 1.71,
+      "eval_accuracy": 0.8221,
+      "eval_f1_macro": 0.6799558248118867,
+      "eval_f1_micro": 0.8221,
+      "eval_loss": 0.7584841847419739,
+      "eval_runtime": 9.5135,
+      "eval_samples_per_second": 1051.143,
+      "eval_steps_per_second": 16.503,
+      "step": 1600
+    },
+    {
+      "epoch": 1.73,
+      "grad_norm": 3.9183712005615234,
+      "learning_rate": 8.450604122245915e-06,
+      "loss": 0.757,
+      "step": 1625
+    },
+    {
+      "epoch": 1.76,
+      "grad_norm": 4.843607425689697,
+      "learning_rate": 8.272921108742004e-06,
+      "loss": 0.7617,
+      "step": 1650
+    },
+    {
+      "epoch": 1.79,
+      "grad_norm": 3.931086301803589,
+      "learning_rate": 8.095238095238097e-06,
+      "loss": 0.7165,
+      "step": 1675
+    },
+    {
+      "epoch": 1.81,
+      "grad_norm": 4.115772247314453,
+      "learning_rate": 7.917555081734187e-06,
+      "loss": 0.7632,
+      "step": 1700
+    },
+    {
+      "epoch": 1.81,
+      "eval_accuracy": 0.8269,
+      "eval_f1_macro": 0.6901693836898547,
+      "eval_f1_micro": 0.8269,
+      "eval_loss": 0.7362803816795349,
+      "eval_runtime": 9.518,
+      "eval_samples_per_second": 1050.64,
+      "eval_steps_per_second": 16.495,
+      "step": 1700
+    },
+    {
+      "epoch": 1.84,
+      "grad_norm": 5.484522819519043,
+      "learning_rate": 7.739872068230278e-06,
+      "loss": 0.7934,
+      "step": 1725
+    },
+    {
+      "epoch": 1.87,
+      "grad_norm": 3.305182456970215,
+      "learning_rate": 7.5621890547263685e-06,
+      "loss": 0.72,
+      "step": 1750
+    },
+    {
+      "epoch": 1.89,
+      "grad_norm": 3.8824164867401123,
+      "learning_rate": 7.38450604122246e-06,
+      "loss": 0.7582,
+      "step": 1775
+    },
+    {
+      "epoch": 1.92,
+      "grad_norm": 4.005168437957764,
+      "learning_rate": 7.20682302771855e-06,
+      "loss": 0.7027,
+      "step": 1800
+    },
+    {
+      "epoch": 1.92,
+      "eval_accuracy": 0.8227,
+      "eval_f1_macro": 0.6793160133132589,
+      "eval_f1_micro": 0.8227,
+      "eval_loss": 0.7229283452033997,
+      "eval_runtime": 9.5098,
+      "eval_samples_per_second": 1051.543,
+      "eval_steps_per_second": 16.509,
+      "step": 1800
+    },
+    {
+      "epoch": 1.95,
+      "grad_norm": 3.089484214782715,
+      "learning_rate": 7.029140014214641e-06,
+      "loss": 0.826,
+      "step": 1825
+    },
+    {
+      "epoch": 1.97,
+      "grad_norm": 3.8025612831115723,
+      "learning_rate": 6.851457000710733e-06,
+      "loss": 0.7889,
+      "step": 1850
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 5.959663391113281,
+      "learning_rate": 6.673773987206824e-06,
+      "loss": 0.6852,
+      "step": 1875
+    },
+    {
+      "epoch": 2.03,
+      "grad_norm": 4.049121856689453,
+      "learning_rate": 6.496090973702914e-06,
+      "loss": 0.671,
+      "step": 1900
+    },
+    {
+      "epoch": 2.03,
+      "eval_accuracy": 0.8263,
+      "eval_f1_macro": 0.6869823704829469,
+      "eval_f1_micro": 0.8263,
+      "eval_loss": 0.7144606709480286,
+      "eval_runtime": 9.5164,
+      "eval_samples_per_second": 1050.819,
+      "eval_steps_per_second": 16.498,
+      "step": 1900
+    },
+    {
+      "epoch": 2.05,
+      "grad_norm": 3.187711000442505,
+      "learning_rate": 6.318407960199006e-06,
+      "loss": 0.6938,
+      "step": 1925
+    },
+    {
+      "epoch": 2.08,
+      "grad_norm": 3.601215124130249,
+      "learning_rate": 6.140724946695097e-06,
+      "loss": 0.7311,
+      "step": 1950
+    },
+    {
+      "epoch": 2.11,
+      "grad_norm": 3.0071964263916016,
+      "learning_rate": 5.963041933191187e-06,
+      "loss": 0.6693,
+      "step": 1975
+    },
+    {
+      "epoch": 2.13,
+      "grad_norm": 4.674365997314453,
+      "learning_rate": 5.785358919687279e-06,
+      "loss": 0.6361,
+      "step": 2000
+    },
+    {
+      "epoch": 2.13,
+      "eval_accuracy": 0.8277,
+      "eval_f1_macro": 0.6952132327426773,
+      "eval_f1_micro": 0.8277,
+      "eval_loss": 0.7066932320594788,
+      "eval_runtime": 9.5145,
+      "eval_samples_per_second": 1051.024,
+      "eval_steps_per_second": 16.501,
+      "step": 2000
+    },
+    {
+      "epoch": 2.16,
+      "grad_norm": 3.853187084197998,
+      "learning_rate": 5.607675906183369e-06,
+      "loss": 0.6644,
+      "step": 2025
+    },
+    {
+      "epoch": 2.19,
+      "grad_norm": 3.0457775592803955,
+      "learning_rate": 5.42999289267946e-06,
+      "loss": 0.6664,
+      "step": 2050
+    },
+    {
+      "epoch": 2.21,
+      "grad_norm": 4.993578910827637,
+      "learning_rate": 5.2523098791755514e-06,
+      "loss": 0.6586,
+      "step": 2075
+    },
+    {
+      "epoch": 2.24,
+      "grad_norm": 4.2673797607421875,
+      "learning_rate": 5.074626865671642e-06,
+      "loss": 0.6615,
+      "step": 2100
+    },
+    {
+      "epoch": 2.24,
+      "eval_accuracy": 0.8281,
+      "eval_f1_macro": 0.6974353392237495,
+      "eval_f1_micro": 0.8281,
+      "eval_loss": 0.6969488859176636,
+      "eval_runtime": 9.5132,
+      "eval_samples_per_second": 1051.175,
+      "eval_steps_per_second": 16.503,
+      "step": 2100
+    },
+    {
+      "epoch": 2.27,
+      "grad_norm": 3.5754830837249756,
+      "learning_rate": 4.896943852167733e-06,
+      "loss": 0.6395,
+      "step": 2125
+    },
+    {
+      "epoch": 2.29,
+      "grad_norm": 2.7557778358459473,
+      "learning_rate": 4.719260838663824e-06,
+      "loss": 0.6297,
+      "step": 2150
+    },
+    {
+      "epoch": 2.32,
+      "grad_norm": 2.421337604522705,
+      "learning_rate": 4.541577825159915e-06,
+      "loss": 0.5636,
+      "step": 2175
+    },
+    {
+      "epoch": 2.35,
+      "grad_norm": 5.7008514404296875,
+      "learning_rate": 4.363894811656006e-06,
+      "loss": 0.6432,
+      "step": 2200
+    },
+    {
+      "epoch": 2.35,
+      "eval_accuracy": 0.8311,
+      "eval_f1_macro": 0.705416263146119,
+      "eval_f1_micro": 0.8311,
+      "eval_loss": 0.690848171710968,
+      "eval_runtime": 9.5147,
+      "eval_samples_per_second": 1051.01,
+      "eval_steps_per_second": 16.501,
+      "step": 2200
+    },
+    {
+      "epoch": 2.37,
+      "grad_norm": 6.569701194763184,
+      "learning_rate": 4.186211798152097e-06,
+      "loss": 0.5678,
+      "step": 2225
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 3.0559256076812744,
+      "learning_rate": 4.008528784648188e-06,
+      "loss": 0.6404,
+      "step": 2250
+    },
+    {
+      "epoch": 2.43,
+      "grad_norm": 3.7182412147521973,
+      "learning_rate": 3.8308457711442784e-06,
+      "loss": 0.654,
+      "step": 2275
+    },
+    {
+      "epoch": 2.45,
+      "grad_norm": 4.205299377441406,
+      "learning_rate": 3.65316275764037e-06,
+      "loss": 0.648,
+      "step": 2300
+    },
+    {
+      "epoch": 2.45,
+      "eval_accuracy": 0.8304,
+      "eval_f1_macro": 0.7010940078357385,
+      "eval_f1_micro": 0.8304,
+      "eval_loss": 0.6850333213806152,
+      "eval_runtime": 9.5114,
+      "eval_samples_per_second": 1051.365,
+      "eval_steps_per_second": 16.506,
+      "step": 2300
+    },
+    {
+      "epoch": 2.48,
+      "grad_norm": 4.695363521575928,
+      "learning_rate": 3.4754797441364606e-06,
+      "loss": 0.6588,
+      "step": 2325
+    },
+    {
+      "epoch": 2.51,
+      "grad_norm": 5.2972412109375,
+      "learning_rate": 3.297796730632552e-06,
+      "loss": 0.675,
+      "step": 2350
+    },
+    {
+      "epoch": 2.53,
+      "grad_norm": 3.7516212463378906,
+      "learning_rate": 3.120113717128643e-06,
+      "loss": 0.6063,
+      "step": 2375
+    },
+    {
+      "epoch": 2.56,
+      "grad_norm": 4.958125591278076,
+      "learning_rate": 2.9424307036247335e-06,
+      "loss": 0.631,
+      "step": 2400
+    },
+    {
+      "epoch": 2.56,
+      "eval_accuracy": 0.8323,
+      "eval_f1_macro": 0.7063424299231434,
+      "eval_f1_micro": 0.8323,
+      "eval_loss": 0.6749587655067444,
+      "eval_runtime": 9.5144,
+      "eval_samples_per_second": 1051.039,
+      "eval_steps_per_second": 16.501,
+      "step": 2400
+    },
+    {
+      "epoch": 2.59,
+      "grad_norm": 3.3450634479522705,
+      "learning_rate": 2.764747690120825e-06,
+      "loss": 0.7092,
+      "step": 2425
+    },
+    {
+      "epoch": 2.61,
+      "grad_norm": 3.6644909381866455,
+      "learning_rate": 2.5870646766169156e-06,
+      "loss": 0.673,
+      "step": 2450
+    },
+    {
+      "epoch": 2.64,
+      "grad_norm": 4.698973655700684,
+      "learning_rate": 2.4093816631130067e-06,
+      "loss": 0.6272,
+      "step": 2475
+    },
+    {
+      "epoch": 2.67,
+      "grad_norm": 5.635212421417236,
+      "learning_rate": 2.2316986496090974e-06,
+      "loss": 0.575,
+      "step": 2500
+    },
+    {
+      "epoch": 2.67,
+      "eval_accuracy": 0.8337,
+      "eval_f1_macro": 0.7093935171505621,
+      "eval_f1_micro": 0.8337,
+      "eval_loss": 0.6717804670333862,
+      "eval_runtime": 9.5156,
+      "eval_samples_per_second": 1050.905,
+      "eval_steps_per_second": 16.499,
+      "step": 2500
+    },
+    {
+      "epoch": 2.69,
+      "grad_norm": 4.278409957885742,
+      "learning_rate": 2.0540156361051885e-06,
+      "loss": 0.6282,
+      "step": 2525
+    },
+    {
+      "epoch": 2.72,
+      "grad_norm": 4.368821620941162,
+      "learning_rate": 1.8763326226012796e-06,
+      "loss": 0.6182,
+      "step": 2550
+    },
+    {
+      "epoch": 2.75,
+      "grad_norm": 6.596986770629883,
+      "learning_rate": 1.6986496090973702e-06,
+      "loss": 0.6291,
+      "step": 2575
+    },
+    {
+      "epoch": 2.77,
+      "grad_norm": 5.670820713043213,
+      "learning_rate": 1.5209665955934613e-06,
+      "loss": 0.6444,
+      "step": 2600
+    },
+    {
+      "epoch": 2.77,
+      "eval_accuracy": 0.8332,
+      "eval_f1_macro": 0.7102434229943433,
+      "eval_f1_micro": 0.8332,
+      "eval_loss": 0.6701115965843201,
+      "eval_runtime": 9.5227,
+      "eval_samples_per_second": 1050.123,
+      "eval_steps_per_second": 16.487,
+      "step": 2600
+    },
+    {
+      "epoch": 2.8,
+      "grad_norm": 3.570100784301758,
+      "learning_rate": 1.3432835820895524e-06,
+      "loss": 0.6071,
+      "step": 2625
+    },
+    {
+      "epoch": 2.83,
+      "grad_norm": 5.6983256340026855,
+      "learning_rate": 1.1656005685856433e-06,
+      "loss": 0.6638,
+      "step": 2650
+    },
+    {
+      "epoch": 2.85,
+      "grad_norm": 5.448667049407959,
+      "learning_rate": 9.879175550817342e-07,
+      "loss": 0.6086,
+      "step": 2675
+    },
+    {
+      "epoch": 2.88,
+      "grad_norm": 4.07735538482666,
+      "learning_rate": 8.102345415778253e-07,
+      "loss": 0.6054,
+      "step": 2700
+    },
+    {
+      "epoch": 2.88,
+      "eval_accuracy": 0.8346,
+      "eval_f1_macro": 0.7121645746905745,
+      "eval_f1_micro": 0.8346,
+      "eval_loss": 0.6689808368682861,
+      "eval_runtime": 9.5154,
+      "eval_samples_per_second": 1050.924,
+      "eval_steps_per_second": 16.5,
+      "step": 2700
+    },
+    {
+      "epoch": 2.91,
+      "grad_norm": 3.3793234825134277,
+      "learning_rate": 6.325515280739161e-07,
+      "loss": 0.5974,
+      "step": 2725
+    },
+    {
+      "epoch": 2.93,
+      "grad_norm": 3.8540170192718506,
+      "learning_rate": 4.548685145700071e-07,
+      "loss": 0.5927,
+      "step": 2750
+    },
+    {
+      "epoch": 2.96,
+      "grad_norm": 5.523347854614258,
+      "learning_rate": 2.771855010660981e-07,
+      "loss": 0.5564,
+      "step": 2775
+    },
+    {
+      "epoch": 2.99,
+      "grad_norm": 4.380491256713867,
+      "learning_rate": 9.950248756218906e-08,
+      "loss": 0.6123,
+      "step": 2800
+    },
+    {
+      "epoch": 2.99,
+      "eval_accuracy": 0.8349,
+      "eval_f1_macro": 0.7127429197005123,
+      "eval_f1_micro": 0.8349,
+      "eval_loss": 0.6676496267318726,
+      "eval_runtime": 9.5248,
+      "eval_samples_per_second": 1049.895,
+      "eval_steps_per_second": 16.483,
+      "step": 2800
+    }
+  ],
+  "logging_steps": 25,
+  "max_steps": 2814,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 100,
+  "total_flos": 1.1797746881134592e+16,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

google_bert/bert_base_uncased_ledgar/checkpoint-2800/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:18479b68287dfbecea3effd812f4c03a622aa2fd9a91e96a85d68d32033d8205
+size 5112

google_bert/bert_base_uncased_ledgar/checkpoint-2800/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

google_bert/bert_base_uncased_ledgar/config.json ADDED Viewed

	@@ -0,0 +1,232 @@

+{
+  "_name_or_path": "google-bert/bert-base-uncased",
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "finetuning_task": "text-classification",
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "0",
+    "1": "1",
+    "2": "10",
+    "3": "11",
+    "4": "12",
+    "5": "13",
+    "6": "14",
+    "7": "15",
+    "8": "16",
+    "9": "17",
+    "10": "18",
+    "11": "19",
+    "12": "2",
+    "13": "20",
+    "14": "21",
+    "15": "22",
+    "16": "23",
+    "17": "24",
+    "18": "25",
+    "19": "26",
+    "20": "27",
+    "21": "28",
+    "22": "29",
+    "23": "3",
+    "24": "30",
+    "25": "31",
+    "26": "32",
+    "27": "33",
+    "28": "34",
+    "29": "35",
+    "30": "36",
+    "31": "37",
+    "32": "38",
+    "33": "39",
+    "34": "4",
+    "35": "40",
+    "36": "41",
+    "37": "42",
+    "38": "43",
+    "39": "44",
+    "40": "45",
+    "41": "46",
+    "42": "47",
+    "43": "48",
+    "44": "49",
+    "45": "5",
+    "46": "50",
+    "47": "51",
+    "48": "52",
+    "49": "53",
+    "50": "54",
+    "51": "55",
+    "52": "56",
+    "53": "57",
+    "54": "58",
+    "55": "59",
+    "56": "6",
+    "57": "60",
+    "58": "61",
+    "59": "62",
+    "60": "63",
+    "61": "64",
+    "62": "65",
+    "63": "66",
+    "64": "67",
+    "65": "68",
+    "66": "69",
+    "67": "7",
+    "68": "70",
+    "69": "71",
+    "70": "72",
+    "71": "73",
+    "72": "74",
+    "73": "75",
+    "74": "76",
+    "75": "77",
+    "76": "78",
+    "77": "79",
+    "78": "8",
+    "79": "80",
+    "80": "81",
+    "81": "82",
+    "82": "83",
+    "83": "84",
+    "84": "85",
+    "85": "86",
+    "86": "87",
+    "87": "88",
+    "88": "89",
+    "89": "9",
+    "90": "90",
+    "91": "91",
+    "92": "92",
+    "93": "93",
+    "94": "94",
+    "95": "95",
+    "96": "96",
+    "97": "97",
+    "98": "98",
+    "99": "99"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "0": 0,
+    "1": 1,
+    "10": 2,
+    "11": 3,
+    "12": 4,
+    "13": 5,
+    "14": 6,
+    "15": 7,
+    "16": 8,
+    "17": 9,
+    "18": 10,
+    "19": 11,
+    "2": 12,
+    "20": 13,
+    "21": 14,
+    "22": 15,
+    "23": 16,
+    "24": 17,
+    "25": 18,
+    "26": 19,
+    "27": 20,
+    "28": 21,
+    "29": 22,
+    "3": 23,
+    "30": 24,
+    "31": 25,
+    "32": 26,
+    "33": 27,
+    "34": 28,
+    "35": 29,
+    "36": 30,
+    "37": 31,
+    "38": 32,
+    "39": 33,
+    "4": 34,
+    "40": 35,
+    "41": 36,
+    "42": 37,
+    "43": 38,
+    "44": 39,
+    "45": 40,
+    "46": 41,
+    "47": 42,
+    "48": 43,
+    "49": 44,
+    "5": 45,
+    "50": 46,
+    "51": 47,
+    "52": 48,
+    "53": 49,
+    "54": 50,
+    "55": 51,
+    "56": 52,
+    "57": 53,
+    "58": 54,
+    "59": 55,
+    "6": 56,
+    "60": 57,
+    "61": 58,
+    "62": 59,
+    "63": 60,
+    "64": 61,
+    "65": 62,
+    "66": 63,
+    "67": 64,
+    "68": 65,
+    "69": 66,
+    "7": 67,
+    "70": 68,
+    "71": 69,
+    "72": 70,
+    "73": 71,
+    "74": 72,
+    "75": 73,
+    "76": 74,
+    "77": 75,
+    "78": 76,
+    "79": 77,
+    "8": 78,
+    "80": 79,
+    "81": 80,
+    "82": 81,
+    "83": 82,
+    "84": 83,
+    "85": 84,
+    "86": 85,
+    "87": 86,
+    "88": 87,
+    "89": 88,
+    "9": 89,
+    "90": 90,
+    "91": 91,
+    "92": 92,
+    "93": 93,
+    "94": 94,
+    "95": 95,
+    "96": 96,
+    "97": 97,
+    "98": 98,
+    "99": 99
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.39.0.dev0",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

google_bert/bert_base_uncased_ledgar/eval_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "epoch": 3.0,
+    "eval_accuracy": 0.8349,
+    "eval_f1_macro": 0.7127429197005123,
+    "eval_f1_micro": 0.8349,
+    "eval_loss": 0.6676496267318726,
+    "eval_runtime": 9.4822,
+    "eval_samples": 10000,
+    "eval_samples_per_second": 1054.603,
+    "eval_steps_per_second": 16.557
+}

google_bert/bert_base_uncased_ledgar/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:50e077bb43f5193a7a49d2333d5b1769ffc8280226b5fad23967dabdbe653bd5
+size 438260096

google_bert/bert_base_uncased_ledgar/run.log ADDED Viewed

	@@ -0,0 +1,4 @@

+03/15/2024 16:56:15 - WARNING - __main__ - Process rank: 0, device: cuda:0, n_gpu: 1, distributed training: True, 16-bits training: False
+03/15/2024 16:56:15 - WARNING - __main__ - Process rank: 1, device: cuda:1, n_gpu: 1, distributed training: True, 16-bits training: False
+03/15/2024 16:56:18 - WARNING - __main__ - The label2id key in the model config.json is not equal to the label2id key of this run. You can ignore this if you are doing finetuning.
+03/15/2024 16:56:19 - WARNING - __main__ - The label2id key in the model config.json is not equal to the label2id key of this run. You can ignore this if you are doing finetuning.

google_bert/bert_base_uncased_ledgar/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

google_bert/bert_base_uncased_ledgar/test_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 3.0,
+    "test_accuracy": 0.8352,
+    "test_f1_macro": 0.6987837825891837,
+    "test_f1_micro": 0.8352,
+    "test_loss": 0.679053008556366,
+    "test_runtime": 9.4935,
+    "test_samples_per_second": 1053.351,
+    "test_steps_per_second": 16.538
+}

google_bert/bert_base_uncased_ledgar/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

google_bert/bert_base_uncased_ledgar/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

google_bert/bert_base_uncased_ledgar/train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 3.0,
+    "train_loss": 1.1454540061543999,
+    "train_runtime": 819.1516,
+    "train_samples": 60000,
+    "train_samples_per_second": 219.74,
+    "train_steps_per_second": 3.435
+}

google_bert/bert_base_uncased_ledgar/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1122 @@

+{
+  "best_metric": 0.6676496267318726,
+  "best_model_checkpoint": "../../experiments_checkpoints/MAdAiLab/google_bert/bert_base_uncased_ledgar/checkpoint-2800",
+  "epoch": 3.0,
+  "eval_steps": 100,
+  "global_step": 2814,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.03,
+      "grad_norm": 4.544431686401367,
+      "learning_rate": 1.9822316986496094e-05,
+      "loss": 4.5228,
+      "step": 25
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 3.7488999366760254,
+      "learning_rate": 1.9644633972992183e-05,
+      "loss": 4.2438,
+      "step": 50
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 4.0013933181762695,
+      "learning_rate": 1.9466950959488275e-05,
+      "loss": 3.9602,
+      "step": 75
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 3.7357428073883057,
+      "learning_rate": 1.9289267945984364e-05,
+      "loss": 3.6919,
+      "step": 100
+    },
+    {
+      "epoch": 0.11,
+      "eval_accuracy": 0.4049,
+      "eval_f1_macro": 0.15118582456485236,
+      "eval_f1_micro": 0.4049,
+      "eval_loss": 3.443889856338501,
+      "eval_runtime": 9.0977,
+      "eval_samples_per_second": 1099.185,
+      "eval_steps_per_second": 17.257,
+      "step": 100
+    },
+    {
+      "epoch": 0.13,
+      "grad_norm": 3.982490062713623,
+      "learning_rate": 1.9111584932480457e-05,
+      "loss": 3.3679,
+      "step": 125
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 3.725257396697998,
+      "learning_rate": 1.8933901918976546e-05,
+      "loss": 3.2251,
+      "step": 150
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 3.8903579711914062,
+      "learning_rate": 1.8756218905472638e-05,
+      "loss": 2.946,
+      "step": 175
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 4.836933612823486,
+      "learning_rate": 1.857853589196873e-05,
+      "loss": 2.7312,
+      "step": 200
+    },
+    {
+      "epoch": 0.21,
+      "eval_accuracy": 0.5766,
+      "eval_f1_macro": 0.3024643899851631,
+      "eval_f1_micro": 0.5766,
+      "eval_loss": 2.576185464859009,
+      "eval_runtime": 9.2581,
+      "eval_samples_per_second": 1080.141,
+      "eval_steps_per_second": 16.958,
+      "step": 200
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 4.334925174713135,
+      "learning_rate": 1.8400852878464823e-05,
+      "loss": 2.599,
+      "step": 225
+    },
+    {
+      "epoch": 0.27,
+      "grad_norm": 3.9912467002868652,
+      "learning_rate": 1.822316986496091e-05,
+      "loss": 2.4204,
+      "step": 250
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 3.9900569915771484,
+      "learning_rate": 1.8045486851457e-05,
+      "loss": 2.337,
+      "step": 275
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 3.7264604568481445,
+      "learning_rate": 1.7867803837953093e-05,
+      "loss": 2.1872,
+      "step": 300
+    },
+    {
+      "epoch": 0.32,
+      "eval_accuracy": 0.656,
+      "eval_f1_macro": 0.3994065663530276,
+      "eval_f1_micro": 0.656,
+      "eval_loss": 2.034592866897583,
+      "eval_runtime": 9.3816,
+      "eval_samples_per_second": 1065.922,
+      "eval_steps_per_second": 16.735,
+      "step": 300
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 4.161665439605713,
+      "learning_rate": 1.7690120824449185e-05,
+      "loss": 2.0937,
+      "step": 325
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 3.8712174892425537,
+      "learning_rate": 1.7512437810945274e-05,
+      "loss": 1.9838,
+      "step": 350
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 4.481960296630859,
+      "learning_rate": 1.7334754797441367e-05,
+      "loss": 1.869,
+      "step": 375
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 3.975022077560425,
+      "learning_rate": 1.715707178393746e-05,
+      "loss": 1.7869,
+      "step": 400
+    },
+    {
+      "epoch": 0.43,
+      "eval_accuracy": 0.7075,
+      "eval_f1_macro": 0.47958879769862484,
+      "eval_f1_micro": 0.7075,
+      "eval_loss": 1.6759310960769653,
+      "eval_runtime": 9.4447,
+      "eval_samples_per_second": 1058.8,
+      "eval_steps_per_second": 16.623,
+      "step": 400
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 3.881775140762329,
+      "learning_rate": 1.6979388770433548e-05,
+      "loss": 1.7645,
+      "step": 425
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 4.351230144500732,
+      "learning_rate": 1.6801705756929637e-05,
+      "loss": 1.7976,
+      "step": 450
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 3.5112228393554688,
+      "learning_rate": 1.662402274342573e-05,
+      "loss": 1.656,
+      "step": 475
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 4.2742719650268555,
+      "learning_rate": 1.6446339729921822e-05,
+      "loss": 1.5593,
+      "step": 500
+    },
+    {
+      "epoch": 0.53,
+      "eval_accuracy": 0.7454,
+      "eval_f1_macro": 0.5447021013489751,
+      "eval_f1_micro": 0.7454,
+      "eval_loss": 1.435422658920288,
+      "eval_runtime": 9.4761,
+      "eval_samples_per_second": 1055.289,
+      "eval_steps_per_second": 16.568,
+      "step": 500
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 3.7480850219726562,
+      "learning_rate": 1.626865671641791e-05,
+      "loss": 1.5036,
+      "step": 525
+    },
+    {
+      "epoch": 0.59,
+      "grad_norm": 3.1482491493225098,
+      "learning_rate": 1.6090973702914003e-05,
+      "loss": 1.4725,
+      "step": 550
+    },
+    {
+      "epoch": 0.61,
+      "grad_norm": 5.111358165740967,
+      "learning_rate": 1.5913290689410095e-05,
+      "loss": 1.4053,
+      "step": 575
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 4.8028035163879395,
+      "learning_rate": 1.5735607675906184e-05,
+      "loss": 1.388,
+      "step": 600
+    },
+    {
+      "epoch": 0.64,
+      "eval_accuracy": 0.7695,
+      "eval_f1_macro": 0.577809308960101,
+      "eval_f1_micro": 0.7695,
+      "eval_loss": 1.2758678197860718,
+      "eval_runtime": 9.5058,
+      "eval_samples_per_second": 1051.991,
+      "eval_steps_per_second": 16.516,
+      "step": 600
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 4.240127086639404,
+      "learning_rate": 1.5557924662402277e-05,
+      "loss": 1.3399,
+      "step": 625
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 4.1150007247924805,
+      "learning_rate": 1.5380241648898366e-05,
+      "loss": 1.2714,
+      "step": 650
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 3.628380060195923,
+      "learning_rate": 1.5202558635394458e-05,
+      "loss": 1.2766,
+      "step": 675
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 3.448577880859375,
+      "learning_rate": 1.5024875621890549e-05,
+      "loss": 1.214,
+      "step": 700
+    },
+    {
+      "epoch": 0.75,
+      "eval_accuracy": 0.7806,
+      "eval_f1_macro": 0.58907582193097,
+      "eval_f1_micro": 0.7806,
+      "eval_loss": 1.1428197622299194,
+      "eval_runtime": 9.5122,
+      "eval_samples_per_second": 1051.284,
+      "eval_steps_per_second": 16.505,
+      "step": 700
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 4.4761738777160645,
+      "learning_rate": 1.484719260838664e-05,
+      "loss": 1.1808,
+      "step": 725
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 3.9894113540649414,
+      "learning_rate": 1.4669509594882732e-05,
+      "loss": 1.22,
+      "step": 750
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 3.698829174041748,
+      "learning_rate": 1.449182658137882e-05,
+      "loss": 1.1912,
+      "step": 775
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 4.163917541503906,
+      "learning_rate": 1.4314143567874911e-05,
+      "loss": 1.158,
+      "step": 800
+    },
+    {
+      "epoch": 0.85,
+      "eval_accuracy": 0.784,
+      "eval_f1_macro": 0.5954661601031839,
+      "eval_f1_micro": 0.784,
+      "eval_loss": 1.053144097328186,
+      "eval_runtime": 9.5146,
+      "eval_samples_per_second": 1051.015,
+      "eval_steps_per_second": 16.501,
+      "step": 800
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 4.923873424530029,
+      "learning_rate": 1.4136460554371004e-05,
+      "loss": 1.1473,
+      "step": 825
+    },
+    {
+      "epoch": 0.91,
+      "grad_norm": 2.9809346199035645,
+      "learning_rate": 1.3958777540867094e-05,
+      "loss": 1.0783,
+      "step": 850
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 4.601626396179199,
+      "learning_rate": 1.3781094527363185e-05,
+      "loss": 1.1126,
+      "step": 875
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 3.9900403022766113,
+      "learning_rate": 1.3603411513859277e-05,
+      "loss": 1.0284,
+      "step": 900
+    },
+    {
+      "epoch": 0.96,
+      "eval_accuracy": 0.7944,
+      "eval_f1_macro": 0.6182409797752259,
+      "eval_f1_micro": 0.7944,
+      "eval_loss": 0.9725863337516785,
+      "eval_runtime": 9.5152,
+      "eval_samples_per_second": 1050.948,
+      "eval_steps_per_second": 16.5,
+      "step": 900
+    },
+    {
+      "epoch": 0.99,
+      "grad_norm": 4.562723636627197,
+      "learning_rate": 1.3425728500355366e-05,
+      "loss": 1.083,
+      "step": 925
+    },
+    {
+      "epoch": 1.01,
+      "grad_norm": 3.6383819580078125,
+      "learning_rate": 1.3248045486851457e-05,
+      "loss": 1.0053,
+      "step": 950
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 4.410184860229492,
+      "learning_rate": 1.307036247334755e-05,
+      "loss": 0.9898,
+      "step": 975
+    },
+    {
+      "epoch": 1.07,
+      "grad_norm": 3.478816270828247,
+      "learning_rate": 1.289267945984364e-05,
+      "loss": 0.9249,
+      "step": 1000
+    },
+    {
+      "epoch": 1.07,
+      "eval_accuracy": 0.8009,
+      "eval_f1_macro": 0.629547630618281,
+      "eval_f1_micro": 0.8009,
+      "eval_loss": 0.9276089668273926,
+      "eval_runtime": 9.5151,
+      "eval_samples_per_second": 1050.96,
+      "eval_steps_per_second": 16.5,
+      "step": 1000
+    },
+    {
+      "epoch": 1.09,
+      "grad_norm": 3.290118932723999,
+      "learning_rate": 1.271499644633973e-05,
+      "loss": 0.947,
+      "step": 1025
+    },
+    {
+      "epoch": 1.12,
+      "grad_norm": 4.023651123046875,
+      "learning_rate": 1.2537313432835823e-05,
+      "loss": 0.8897,
+      "step": 1050
+    },
+    {
+      "epoch": 1.15,
+      "grad_norm": 4.437704563140869,
+      "learning_rate": 1.2359630419331914e-05,
+      "loss": 0.9272,
+      "step": 1075
+    },
+    {
+      "epoch": 1.17,
+      "grad_norm": 4.521045684814453,
+      "learning_rate": 1.2181947405828003e-05,
+      "loss": 0.9046,
+      "step": 1100
+    },
+    {
+      "epoch": 1.17,
+      "eval_accuracy": 0.8058,
+      "eval_f1_macro": 0.6412774942056234,
+      "eval_f1_micro": 0.8058,
+      "eval_loss": 0.8823915123939514,
+      "eval_runtime": 9.5141,
+      "eval_samples_per_second": 1051.066,
+      "eval_steps_per_second": 16.502,
+      "step": 1100
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 2.613760471343994,
+      "learning_rate": 1.2004264392324093e-05,
+      "loss": 0.8819,
+      "step": 1125
+    },
+    {
+      "epoch": 1.23,
+      "grad_norm": 3.4620471000671387,
+      "learning_rate": 1.1826581378820186e-05,
+      "loss": 0.8386,
+      "step": 1150
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 5.157960891723633,
+      "learning_rate": 1.1648898365316276e-05,
+      "loss": 0.8049,
+      "step": 1175
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 4.343198299407959,
+      "learning_rate": 1.1471215351812369e-05,
+      "loss": 0.9312,
+      "step": 1200
+    },
+    {
+      "epoch": 1.28,
+      "eval_accuracy": 0.8081,
+      "eval_f1_macro": 0.6449763476669437,
+      "eval_f1_micro": 0.8081,
+      "eval_loss": 0.8425447344779968,
+      "eval_runtime": 9.5201,
+      "eval_samples_per_second": 1050.41,
+      "eval_steps_per_second": 16.491,
+      "step": 1200
+    },
+    {
+      "epoch": 1.31,
+      "grad_norm": 4.752044200897217,
+      "learning_rate": 1.129353233830846e-05,
+      "loss": 0.8832,
+      "step": 1225
+    },
+    {
+      "epoch": 1.33,
+      "grad_norm": 2.5763158798217773,
+      "learning_rate": 1.111584932480455e-05,
+      "loss": 0.8849,
+      "step": 1250
+    },
+    {
+      "epoch": 1.36,
+      "grad_norm": 3.2431178092956543,
+      "learning_rate": 1.0938166311300639e-05,
+      "loss": 0.8374,
+      "step": 1275
+    },
+    {
+      "epoch": 1.39,
+      "grad_norm": 5.601613521575928,
+      "learning_rate": 1.0760483297796731e-05,
+      "loss": 0.8329,
+      "step": 1300
+    },
+    {
+      "epoch": 1.39,
+      "eval_accuracy": 0.8135,
+      "eval_f1_macro": 0.6585048816034432,
+      "eval_f1_micro": 0.8135,
+      "eval_loss": 0.8095632791519165,
+      "eval_runtime": 9.5177,
+      "eval_samples_per_second": 1050.673,
+      "eval_steps_per_second": 16.496,
+      "step": 1300
+    },
+    {
+      "epoch": 1.41,
+      "grad_norm": 4.541258335113525,
+      "learning_rate": 1.0582800284292822e-05,
+      "loss": 0.8391,
+      "step": 1325
+    },
+    {
+      "epoch": 1.44,
+      "grad_norm": 3.400801420211792,
+      "learning_rate": 1.0405117270788913e-05,
+      "loss": 0.8404,
+      "step": 1350
+    },
+    {
+      "epoch": 1.47,
+      "grad_norm": 3.5427093505859375,
+      "learning_rate": 1.0227434257285005e-05,
+      "loss": 0.7576,
+      "step": 1375
+    },
+    {
+      "epoch": 1.49,
+      "grad_norm": 5.988525867462158,
+      "learning_rate": 1.0049751243781096e-05,
+      "loss": 0.7601,
+      "step": 1400
+    },
+    {
+      "epoch": 1.49,
+      "eval_accuracy": 0.8148,
+      "eval_f1_macro": 0.6646068863066573,
+      "eval_f1_micro": 0.8148,
+      "eval_loss": 0.7945957183837891,
+      "eval_runtime": 9.5183,
+      "eval_samples_per_second": 1050.605,
+      "eval_steps_per_second": 16.495,
+      "step": 1400
+    },
+    {
+      "epoch": 1.52,
+      "grad_norm": 6.576759338378906,
+      "learning_rate": 9.872068230277187e-06,
+      "loss": 0.8336,
+      "step": 1425
+    },
+    {
+      "epoch": 1.55,
+      "grad_norm": 4.413715362548828,
+      "learning_rate": 9.694385216773277e-06,
+      "loss": 0.8282,
+      "step": 1450
+    },
+    {
+      "epoch": 1.57,
+      "grad_norm": 3.664360523223877,
+      "learning_rate": 9.516702203269368e-06,
+      "loss": 0.8263,
+      "step": 1475
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 3.517057180404663,
+      "learning_rate": 9.339019189765458e-06,
+      "loss": 0.7812,
+      "step": 1500
+    },
+    {
+      "epoch": 1.6,
+      "eval_accuracy": 0.8192,
+      "eval_f1_macro": 0.6738857544513059,
+      "eval_f1_micro": 0.8192,
+      "eval_loss": 0.776592493057251,
+      "eval_runtime": 9.5181,
+      "eval_samples_per_second": 1050.631,
+      "eval_steps_per_second": 16.495,
+      "step": 1500
+    },
+    {
+      "epoch": 1.63,
+      "grad_norm": 3.894787311553955,
+      "learning_rate": 9.161336176261551e-06,
+      "loss": 0.7565,
+      "step": 1525
+    },
+    {
+      "epoch": 1.65,
+      "grad_norm": 2.5228681564331055,
+      "learning_rate": 8.98365316275764e-06,
+      "loss": 0.735,
+      "step": 1550
+    },
+    {
+      "epoch": 1.68,
+      "grad_norm": 4.373218059539795,
+      "learning_rate": 8.805970149253732e-06,
+      "loss": 0.7089,
+      "step": 1575
+    },
+    {
+      "epoch": 1.71,
+      "grad_norm": 3.751723289489746,
+      "learning_rate": 8.628287135749823e-06,
+      "loss": 0.7944,
+      "step": 1600
+    },
+    {
+      "epoch": 1.71,
+      "eval_accuracy": 0.8221,
+      "eval_f1_macro": 0.6799558248118867,
+      "eval_f1_micro": 0.8221,
+      "eval_loss": 0.7584841847419739,
+      "eval_runtime": 9.5135,
+      "eval_samples_per_second": 1051.143,
+      "eval_steps_per_second": 16.503,
+      "step": 1600
+    },
+    {
+      "epoch": 1.73,
+      "grad_norm": 3.9183712005615234,
+      "learning_rate": 8.450604122245915e-06,
+      "loss": 0.757,
+      "step": 1625
+    },
+    {
+      "epoch": 1.76,
+      "grad_norm": 4.843607425689697,
+      "learning_rate": 8.272921108742004e-06,
+      "loss": 0.7617,
+      "step": 1650
+    },
+    {
+      "epoch": 1.79,
+      "grad_norm": 3.931086301803589,
+      "learning_rate": 8.095238095238097e-06,
+      "loss": 0.7165,
+      "step": 1675
+    },
+    {
+      "epoch": 1.81,
+      "grad_norm": 4.115772247314453,
+      "learning_rate": 7.917555081734187e-06,
+      "loss": 0.7632,
+      "step": 1700
+    },
+    {
+      "epoch": 1.81,
+      "eval_accuracy": 0.8269,
+      "eval_f1_macro": 0.6901693836898547,
+      "eval_f1_micro": 0.8269,
+      "eval_loss": 0.7362803816795349,
+      "eval_runtime": 9.518,
+      "eval_samples_per_second": 1050.64,
+      "eval_steps_per_second": 16.495,
+      "step": 1700
+    },
+    {
+      "epoch": 1.84,
+      "grad_norm": 5.484522819519043,
+      "learning_rate": 7.739872068230278e-06,
+      "loss": 0.7934,
+      "step": 1725
+    },
+    {
+      "epoch": 1.87,
+      "grad_norm": 3.305182456970215,
+      "learning_rate": 7.5621890547263685e-06,
+      "loss": 0.72,
+      "step": 1750
+    },
+    {
+      "epoch": 1.89,
+      "grad_norm": 3.8824164867401123,
+      "learning_rate": 7.38450604122246e-06,
+      "loss": 0.7582,
+      "step": 1775
+    },
+    {
+      "epoch": 1.92,
+      "grad_norm": 4.005168437957764,
+      "learning_rate": 7.20682302771855e-06,
+      "loss": 0.7027,
+      "step": 1800
+    },
+    {
+      "epoch": 1.92,
+      "eval_accuracy": 0.8227,
+      "eval_f1_macro": 0.6793160133132589,
+      "eval_f1_micro": 0.8227,
+      "eval_loss": 0.7229283452033997,
+      "eval_runtime": 9.5098,
+      "eval_samples_per_second": 1051.543,
+      "eval_steps_per_second": 16.509,
+      "step": 1800
+    },
+    {
+      "epoch": 1.95,
+      "grad_norm": 3.089484214782715,
+      "learning_rate": 7.029140014214641e-06,
+      "loss": 0.826,
+      "step": 1825
+    },
+    {
+      "epoch": 1.97,
+      "grad_norm": 3.8025612831115723,
+      "learning_rate": 6.851457000710733e-06,
+      "loss": 0.7889,
+      "step": 1850
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 5.959663391113281,
+      "learning_rate": 6.673773987206824e-06,
+      "loss": 0.6852,
+      "step": 1875
+    },
+    {
+      "epoch": 2.03,
+      "grad_norm": 4.049121856689453,
+      "learning_rate": 6.496090973702914e-06,
+      "loss": 0.671,
+      "step": 1900
+    },
+    {
+      "epoch": 2.03,
+      "eval_accuracy": 0.8263,
+      "eval_f1_macro": 0.6869823704829469,
+      "eval_f1_micro": 0.8263,
+      "eval_loss": 0.7144606709480286,
+      "eval_runtime": 9.5164,
+      "eval_samples_per_second": 1050.819,
+      "eval_steps_per_second": 16.498,
+      "step": 1900
+    },
+    {
+      "epoch": 2.05,
+      "grad_norm": 3.187711000442505,
+      "learning_rate": 6.318407960199006e-06,
+      "loss": 0.6938,
+      "step": 1925
+    },
+    {
+      "epoch": 2.08,
+      "grad_norm": 3.601215124130249,
+      "learning_rate": 6.140724946695097e-06,
+      "loss": 0.7311,
+      "step": 1950
+    },
+    {
+      "epoch": 2.11,
+      "grad_norm": 3.0071964263916016,
+      "learning_rate": 5.963041933191187e-06,
+      "loss": 0.6693,
+      "step": 1975
+    },
+    {
+      "epoch": 2.13,
+      "grad_norm": 4.674365997314453,
+      "learning_rate": 5.785358919687279e-06,
+      "loss": 0.6361,
+      "step": 2000
+    },
+    {
+      "epoch": 2.13,
+      "eval_accuracy": 0.8277,
+      "eval_f1_macro": 0.6952132327426773,
+      "eval_f1_micro": 0.8277,
+      "eval_loss": 0.7066932320594788,
+      "eval_runtime": 9.5145,
+      "eval_samples_per_second": 1051.024,
+      "eval_steps_per_second": 16.501,
+      "step": 2000
+    },
+    {
+      "epoch": 2.16,
+      "grad_norm": 3.853187084197998,
+      "learning_rate": 5.607675906183369e-06,
+      "loss": 0.6644,
+      "step": 2025
+    },
+    {
+      "epoch": 2.19,
+      "grad_norm": 3.0457775592803955,
+      "learning_rate": 5.42999289267946e-06,
+      "loss": 0.6664,
+      "step": 2050
+    },
+    {
+      "epoch": 2.21,
+      "grad_norm": 4.993578910827637,
+      "learning_rate": 5.2523098791755514e-06,
+      "loss": 0.6586,
+      "step": 2075
+    },
+    {
+      "epoch": 2.24,
+      "grad_norm": 4.2673797607421875,
+      "learning_rate": 5.074626865671642e-06,
+      "loss": 0.6615,
+      "step": 2100
+    },
+    {
+      "epoch": 2.24,
+      "eval_accuracy": 0.8281,
+      "eval_f1_macro": 0.6974353392237495,
+      "eval_f1_micro": 0.8281,
+      "eval_loss": 0.6969488859176636,
+      "eval_runtime": 9.5132,
+      "eval_samples_per_second": 1051.175,
+      "eval_steps_per_second": 16.503,
+      "step": 2100
+    },
+    {
+      "epoch": 2.27,
+      "grad_norm": 3.5754830837249756,
+      "learning_rate": 4.896943852167733e-06,
+      "loss": 0.6395,
+      "step": 2125
+    },
+    {
+      "epoch": 2.29,
+      "grad_norm": 2.7557778358459473,
+      "learning_rate": 4.719260838663824e-06,
+      "loss": 0.6297,
+      "step": 2150
+    },
+    {
+      "epoch": 2.32,
+      "grad_norm": 2.421337604522705,
+      "learning_rate": 4.541577825159915e-06,
+      "loss": 0.5636,
+      "step": 2175
+    },
+    {
+      "epoch": 2.35,
+      "grad_norm": 5.7008514404296875,
+      "learning_rate": 4.363894811656006e-06,
+      "loss": 0.6432,
+      "step": 2200
+    },
+    {
+      "epoch": 2.35,
+      "eval_accuracy": 0.8311,
+      "eval_f1_macro": 0.705416263146119,
+      "eval_f1_micro": 0.8311,
+      "eval_loss": 0.690848171710968,
+      "eval_runtime": 9.5147,
+      "eval_samples_per_second": 1051.01,
+      "eval_steps_per_second": 16.501,
+      "step": 2200
+    },
+    {
+      "epoch": 2.37,
+      "grad_norm": 6.569701194763184,
+      "learning_rate": 4.186211798152097e-06,
+      "loss": 0.5678,
+      "step": 2225
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 3.0559256076812744,
+      "learning_rate": 4.008528784648188e-06,
+      "loss": 0.6404,
+      "step": 2250
+    },
+    {
+      "epoch": 2.43,
+      "grad_norm": 3.7182412147521973,
+      "learning_rate": 3.8308457711442784e-06,
+      "loss": 0.654,
+      "step": 2275
+    },
+    {
+      "epoch": 2.45,
+      "grad_norm": 4.205299377441406,
+      "learning_rate": 3.65316275764037e-06,
+      "loss": 0.648,
+      "step": 2300
+    },
+    {
+      "epoch": 2.45,
+      "eval_accuracy": 0.8304,
+      "eval_f1_macro": 0.7010940078357385,
+      "eval_f1_micro": 0.8304,
+      "eval_loss": 0.6850333213806152,
+      "eval_runtime": 9.5114,
+      "eval_samples_per_second": 1051.365,
+      "eval_steps_per_second": 16.506,
+      "step": 2300
+    },
+    {
+      "epoch": 2.48,
+      "grad_norm": 4.695363521575928,
+      "learning_rate": 3.4754797441364606e-06,
+      "loss": 0.6588,
+      "step": 2325
+    },
+    {
+      "epoch": 2.51,
+      "grad_norm": 5.2972412109375,
+      "learning_rate": 3.297796730632552e-06,
+      "loss": 0.675,
+      "step": 2350
+    },
+    {
+      "epoch": 2.53,
+      "grad_norm": 3.7516212463378906,
+      "learning_rate": 3.120113717128643e-06,
+      "loss": 0.6063,
+      "step": 2375
+    },
+    {
+      "epoch": 2.56,
+      "grad_norm": 4.958125591278076,
+      "learning_rate": 2.9424307036247335e-06,
+      "loss": 0.631,
+      "step": 2400
+    },
+    {
+      "epoch": 2.56,
+      "eval_accuracy": 0.8323,
+      "eval_f1_macro": 0.7063424299231434,
+      "eval_f1_micro": 0.8323,
+      "eval_loss": 0.6749587655067444,
+      "eval_runtime": 9.5144,
+      "eval_samples_per_second": 1051.039,
+      "eval_steps_per_second": 16.501,
+      "step": 2400
+    },
+    {
+      "epoch": 2.59,
+      "grad_norm": 3.3450634479522705,
+      "learning_rate": 2.764747690120825e-06,
+      "loss": 0.7092,
+      "step": 2425
+    },
+    {
+      "epoch": 2.61,
+      "grad_norm": 3.6644909381866455,
+      "learning_rate": 2.5870646766169156e-06,
+      "loss": 0.673,
+      "step": 2450
+    },
+    {
+      "epoch": 2.64,
+      "grad_norm": 4.698973655700684,
+      "learning_rate": 2.4093816631130067e-06,
+      "loss": 0.6272,
+      "step": 2475
+    },
+    {
+      "epoch": 2.67,
+      "grad_norm": 5.635212421417236,
+      "learning_rate": 2.2316986496090974e-06,
+      "loss": 0.575,
+      "step": 2500
+    },
+    {
+      "epoch": 2.67,
+      "eval_accuracy": 0.8337,
+      "eval_f1_macro": 0.7093935171505621,
+      "eval_f1_micro": 0.8337,
+      "eval_loss": 0.6717804670333862,
+      "eval_runtime": 9.5156,
+      "eval_samples_per_second": 1050.905,
+      "eval_steps_per_second": 16.499,
+      "step": 2500
+    },
+    {
+      "epoch": 2.69,
+      "grad_norm": 4.278409957885742,
+      "learning_rate": 2.0540156361051885e-06,
+      "loss": 0.6282,
+      "step": 2525
+    },
+    {
+      "epoch": 2.72,
+      "grad_norm": 4.368821620941162,
+      "learning_rate": 1.8763326226012796e-06,
+      "loss": 0.6182,
+      "step": 2550
+    },
+    {
+      "epoch": 2.75,
+      "grad_norm": 6.596986770629883,
+      "learning_rate": 1.6986496090973702e-06,
+      "loss": 0.6291,
+      "step": 2575
+    },
+    {
+      "epoch": 2.77,
+      "grad_norm": 5.670820713043213,
+      "learning_rate": 1.5209665955934613e-06,
+      "loss": 0.6444,
+      "step": 2600
+    },
+    {
+      "epoch": 2.77,
+      "eval_accuracy": 0.8332,
+      "eval_f1_macro": 0.7102434229943433,
+      "eval_f1_micro": 0.8332,
+      "eval_loss": 0.6701115965843201,
+      "eval_runtime": 9.5227,
+      "eval_samples_per_second": 1050.123,
+      "eval_steps_per_second": 16.487,
+      "step": 2600
+    },
+    {
+      "epoch": 2.8,
+      "grad_norm": 3.570100784301758,
+      "learning_rate": 1.3432835820895524e-06,
+      "loss": 0.6071,
+      "step": 2625
+    },
+    {
+      "epoch": 2.83,
+      "grad_norm": 5.6983256340026855,
+      "learning_rate": 1.1656005685856433e-06,
+      "loss": 0.6638,
+      "step": 2650
+    },
+    {
+      "epoch": 2.85,
+      "grad_norm": 5.448667049407959,
+      "learning_rate": 9.879175550817342e-07,
+      "loss": 0.6086,
+      "step": 2675
+    },
+    {
+      "epoch": 2.88,
+      "grad_norm": 4.07735538482666,
+      "learning_rate": 8.102345415778253e-07,
+      "loss": 0.6054,
+      "step": 2700
+    },
+    {
+      "epoch": 2.88,
+      "eval_accuracy": 0.8346,
+      "eval_f1_macro": 0.7121645746905745,
+      "eval_f1_micro": 0.8346,
+      "eval_loss": 0.6689808368682861,
+      "eval_runtime": 9.5154,
+      "eval_samples_per_second": 1050.924,
+      "eval_steps_per_second": 16.5,
+      "step": 2700
+    },
+    {
+      "epoch": 2.91,
+      "grad_norm": 3.3793234825134277,
+      "learning_rate": 6.325515280739161e-07,
+      "loss": 0.5974,
+      "step": 2725
+    },
+    {
+      "epoch": 2.93,
+      "grad_norm": 3.8540170192718506,
+      "learning_rate": 4.548685145700071e-07,
+      "loss": 0.5927,
+      "step": 2750
+    },
+    {
+      "epoch": 2.96,
+      "grad_norm": 5.523347854614258,
+      "learning_rate": 2.771855010660981e-07,
+      "loss": 0.5564,
+      "step": 2775
+    },
+    {
+      "epoch": 2.99,
+      "grad_norm": 4.380491256713867,
+      "learning_rate": 9.950248756218906e-08,
+      "loss": 0.6123,
+      "step": 2800
+    },
+    {
+      "epoch": 2.99,
+      "eval_accuracy": 0.8349,
+      "eval_f1_macro": 0.7127429197005123,
+      "eval_f1_micro": 0.8349,
+      "eval_loss": 0.6676496267318726,
+      "eval_runtime": 9.5248,
+      "eval_samples_per_second": 1049.895,
+      "eval_steps_per_second": 16.483,
+      "step": 2800
+    },
+    {
+      "epoch": 3.0,
+      "step": 2814,
+      "total_flos": 1.1856735614533632e+16,
+      "train_loss": 1.1454540061543999,
+      "train_runtime": 819.1516,
+      "train_samples_per_second": 219.74,
+      "train_steps_per_second": 3.435
+    }
+  ],
+  "logging_steps": 25,
+  "max_steps": 2814,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 100,
+  "total_flos": 1.1856735614533632e+16,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}