Model save

Browse files

Files changed (13) hide show

README.md +66 -0
all_results.json +14 -0
config.json +70 -0
eval_results.json +9 -0
merges.txt +0 -0
model.safetensors +3 -0
special_tokens_map.json +15 -0
tokenizer.json +0 -0
tokenizer_config.json +15 -0
train_results.json +8 -0
trainer_state.json +952 -0
training_args.bin +3 -0
vocab.json +0 -0

README.md ADDED Viewed

	@@ -0,0 +1,66 @@

+---
+license: mit
+base_model: roberta-large-mnli
+tags:
+- generated_from_trainer
+metrics:
+- f1
+model-index:
+- name: roberta-large-mnli-goodreads-bookgenres-Book_cls-5e
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# roberta-large-mnli-goodreads-bookgenres-Book_cls-5e
+This model is a fine-tuned version of [roberta-large-mnli](https://huggingface.co/roberta-large-mnli) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.2758
+- F1: 0.5464
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 6e-05
+- train_batch_size: 32
+- eval_batch_size: 32
+- seed: 42
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 128
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-10
+- lr_scheduler_type: linear
+- num_epochs: 5.0
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | F1     |
+|:-------------:|:-----:|:----:|:---------------:|:------:|
+| 0.3096        | 1.0   | 62   | 0.2862          | 0.3707 |
+| 0.2863        | 2.0   | 124  | 0.2804          | 0.4422 |
+| 0.2618        | 3.0   | 186  | 0.2773          | 0.4989 |
+| 0.2432        | 4.0   | 248  | 0.2764          | 0.5223 |
+| 0.2241        | 5.0   | 310  | 0.2758          | 0.5464 |
+### Framework versions
+- Transformers 4.33.3
+- Pytorch 2.2.0.dev20231001+cu121
+- Datasets 2.14.5
+- Tokenizers 0.13.3

all_results.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+    "epoch": 20.0,
+    "eval_f1": 0.5832229580573952,
+    "eval_loss": 0.3661610186100006,
+    "eval_runtime": 2.8821,
+    "eval_samples": 989,
+    "eval_samples_per_second": 343.154,
+    "eval_steps_per_second": 10.756,
+    "train_loss": 0.14994276651451666,
+    "train_runtime": 1498.2493,
+    "train_samples": 7914,
+    "train_samples_per_second": 105.643,
+    "train_steps_per_second": 0.828
+}

config.json ADDED Viewed

	@@ -0,0 +1,70 @@

+{
+  "_name_or_path": "roberta-large-mnli",
+  "_num_labels": 3,
+  "architectures": [
+    "RobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "finetuning_task": "text-classification",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": "History & Politics",
+    "1": "Health & Medicine",
+    "2": "Mystery & Thriller",
+    "3": "Arts & Design",
+    "4": "Self-Help & Wellness",
+    "5": "Sports & Recreation",
+    "6": "Non-Fiction",
+    "7": "Science Fiction & Fantasy",
+    "8": "Countries & Geography",
+    "9": "Other",
+    "10": "Nature & Environment",
+    "11": "Business & Finance",
+    "12": "Romance",
+    "13": "Philosophy & Religion",
+    "14": "Literature & Fiction",
+    "15": "Science & Technology",
+    "16": "Children & Young Adult",
+    "17": "Food & Cooking"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "Arts & Design": 3,
+    "Business & Finance": 11,
+    "Children & Young Adult": 16,
+    "Countries & Geography": 8,
+    "Food & Cooking": 17,
+    "Health & Medicine": 1,
+    "History & Politics": 0,
+    "Literature & Fiction": 14,
+    "Mystery & Thriller": 2,
+    "Nature & Environment": 10,
+    "Non-Fiction": 6,
+    "Other": 9,
+    "Philosophy & Religion": 13,
+    "Romance": 12,
+    "Science & Technology": 15,
+    "Science Fiction & Fantasy": 7,
+    "Self-Help & Wellness": 4,
+    "Sports & Recreation": 5
+  },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "problem_type": "multi_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.33.3",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 50265
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 20.0,
+    "eval_f1": 0.5832229580573952,
+    "eval_loss": 0.3661610186100006,
+    "eval_runtime": 2.8821,
+    "eval_samples": 989,
+    "eval_samples_per_second": 343.154,
+    "eval_steps_per_second": 10.756
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8601937cac48a5151f1d4c48445cb8b152e8e9bc875f9ee17304ea18ff02913e
+size 1421561016

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "add_prefix_space": false,
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "errors": "replace",
+  "mask_token": "<mask>",
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "RobertaTokenizer",
+  "trim_offsets": true,
+  "unk_token": "<unk>"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 20.0,
+    "train_loss": 0.14994276651451666,
+    "train_runtime": 1498.2493,
+    "train_samples": 7914,
+    "train_samples_per_second": 105.643,
+    "train_steps_per_second": 0.828
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,952 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 20.0,
+  "eval_steps": 500,
+  "global_step": 1240,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.16,
+      "learning_rate": 5.951612903225807e-05,
+      "loss": 0.4848,
+      "step": 10
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 5.9032258064516134e-05,
+      "loss": 0.3412,
+      "step": 20
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 5.854838709677419e-05,
+      "loss": 0.3195,
+      "step": 30
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 5.806451612903226e-05,
+      "loss": 0.3107,
+      "step": 40
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 5.7580645161290325e-05,
+      "loss": 0.3062,
+      "step": 50
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 5.709677419354839e-05,
+      "loss": 0.3047,
+      "step": 60
+    },
+    {
+      "epoch": 1.0,
+      "eval_f1": 0.3600605143721634,
+      "eval_loss": 0.28778037428855896,
+      "eval_runtime": 2.9163,
+      "eval_samples_per_second": 339.124,
+      "eval_steps_per_second": 10.63,
+      "step": 62
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 5.661290322580646e-05,
+      "loss": 0.2971,
+      "step": 70
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 5.612903225806452e-05,
+      "loss": 0.2923,
+      "step": 80
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 5.5645161290322576e-05,
+      "loss": 0.2913,
+      "step": 90
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 5.516129032258064e-05,
+      "loss": 0.2868,
+      "step": 100
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 5.467741935483871e-05,
+      "loss": 0.2876,
+      "step": 110
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 5.4193548387096774e-05,
+      "loss": 0.2809,
+      "step": 120
+    },
+    {
+      "epoch": 2.0,
+      "eval_f1": 0.4606093878671425,
+      "eval_loss": 0.2768673002719879,
+      "eval_runtime": 2.9476,
+      "eval_samples_per_second": 335.524,
+      "eval_steps_per_second": 10.517,
+      "step": 124
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 5.370967741935484e-05,
+      "loss": 0.2685,
+      "step": 130
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 5.3225806451612906e-05,
+      "loss": 0.2658,
+      "step": 140
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 5.2741935483870966e-05,
+      "loss": 0.2706,
+      "step": 150
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 5.225806451612903e-05,
+      "loss": 0.2613,
+      "step": 160
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 5.17741935483871e-05,
+      "loss": 0.2634,
+      "step": 170
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 5.1290322580645164e-05,
+      "loss": 0.2584,
+      "step": 180
+    },
+    {
+      "epoch": 3.0,
+      "eval_f1": 0.48365306673871933,
+      "eval_loss": 0.2766420543193817,
+      "eval_runtime": 2.9111,
+      "eval_samples_per_second": 339.73,
+      "eval_steps_per_second": 10.649,
+      "step": 186
+    },
+    {
+      "epoch": 3.06,
+      "learning_rate": 5.080645161290323e-05,
+      "loss": 0.259,
+      "step": 190
+    },
+    {
+      "epoch": 3.23,
+      "learning_rate": 5.0322580645161296e-05,
+      "loss": 0.2427,
+      "step": 200
+    },
+    {
+      "epoch": 3.39,
+      "learning_rate": 4.9838709677419356e-05,
+      "loss": 0.2389,
+      "step": 210
+    },
+    {
+      "epoch": 3.55,
+      "learning_rate": 4.935483870967742e-05,
+      "loss": 0.2441,
+      "step": 220
+    },
+    {
+      "epoch": 3.71,
+      "learning_rate": 4.887096774193549e-05,
+      "loss": 0.2416,
+      "step": 230
+    },
+    {
+      "epoch": 3.87,
+      "learning_rate": 4.838709677419355e-05,
+      "loss": 0.2382,
+      "step": 240
+    },
+    {
+      "epoch": 4.0,
+      "eval_f1": 0.49434656849855374,
+      "eval_loss": 0.28233975172042847,
+      "eval_runtime": 2.9046,
+      "eval_samples_per_second": 340.492,
+      "eval_steps_per_second": 10.673,
+      "step": 248
+    },
+    {
+      "epoch": 4.03,
+      "learning_rate": 4.790322580645161e-05,
+      "loss": 0.2327,
+      "step": 250
+    },
+    {
+      "epoch": 4.19,
+      "learning_rate": 4.741935483870968e-05,
+      "loss": 0.2168,
+      "step": 260
+    },
+    {
+      "epoch": 4.35,
+      "learning_rate": 4.693548387096774e-05,
+      "loss": 0.2198,
+      "step": 270
+    },
+    {
+      "epoch": 4.52,
+      "learning_rate": 4.6451612903225805e-05,
+      "loss": 0.221,
+      "step": 280
+    },
+    {
+      "epoch": 4.68,
+      "learning_rate": 4.596774193548387e-05,
+      "loss": 0.2191,
+      "step": 290
+    },
+    {
+      "epoch": 4.84,
+      "learning_rate": 4.548387096774194e-05,
+      "loss": 0.2126,
+      "step": 300
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 4.5e-05,
+      "loss": 0.2161,
+      "step": 310
+    },
+    {
+      "epoch": 5.0,
+      "eval_f1": 0.5236882322975038,
+      "eval_loss": 0.28145599365234375,
+      "eval_runtime": 2.9136,
+      "eval_samples_per_second": 339.438,
+      "eval_steps_per_second": 10.64,
+      "step": 310
+    },
+    {
+      "epoch": 5.16,
+      "learning_rate": 4.451612903225807e-05,
+      "loss": 0.1952,
+      "step": 320
+    },
+    {
+      "epoch": 5.32,
+      "learning_rate": 4.403225806451613e-05,
+      "loss": 0.1996,
+      "step": 330
+    },
+    {
+      "epoch": 5.48,
+      "learning_rate": 4.3548387096774194e-05,
+      "loss": 0.1921,
+      "step": 340
+    },
+    {
+      "epoch": 5.65,
+      "learning_rate": 4.306451612903226e-05,
+      "loss": 0.1966,
+      "step": 350
+    },
+    {
+      "epoch": 5.81,
+      "learning_rate": 4.2580645161290327e-05,
+      "loss": 0.2023,
+      "step": 360
+    },
+    {
+      "epoch": 5.97,
+      "learning_rate": 4.209677419354839e-05,
+      "loss": 0.1903,
+      "step": 370
+    },
+    {
+      "epoch": 6.0,
+      "eval_f1": 0.5535545023696682,
+      "eval_loss": 0.29538020491600037,
+      "eval_runtime": 2.9433,
+      "eval_samples_per_second": 336.013,
+      "eval_steps_per_second": 10.532,
+      "step": 372
+    },
+    {
+      "epoch": 6.13,
+      "learning_rate": 4.161290322580646e-05,
+      "loss": 0.1854,
+      "step": 380
+    },
+    {
+      "epoch": 6.29,
+      "learning_rate": 4.112903225806451e-05,
+      "loss": 0.1784,
+      "step": 390
+    },
+    {
+      "epoch": 6.45,
+      "learning_rate": 4.064516129032258e-05,
+      "loss": 0.1776,
+      "step": 400
+    },
+    {
+      "epoch": 6.61,
+      "learning_rate": 4.0161290322580643e-05,
+      "loss": 0.1746,
+      "step": 410
+    },
+    {
+      "epoch": 6.77,
+      "learning_rate": 3.967741935483871e-05,
+      "loss": 0.1762,
+      "step": 420
+    },
+    {
+      "epoch": 6.94,
+      "learning_rate": 3.9193548387096776e-05,
+      "loss": 0.172,
+      "step": 430
+    },
+    {
+      "epoch": 7.0,
+      "eval_f1": 0.5482866043613707,
+      "eval_loss": 0.29978421330451965,
+      "eval_runtime": 2.9231,
+      "eval_samples_per_second": 338.34,
+      "eval_steps_per_second": 10.605,
+      "step": 434
+    },
+    {
+      "epoch": 7.1,
+      "learning_rate": 3.870967741935484e-05,
+      "loss": 0.1638,
+      "step": 440
+    },
+    {
+      "epoch": 7.26,
+      "learning_rate": 3.82258064516129e-05,
+      "loss": 0.1628,
+      "step": 450
+    },
+    {
+      "epoch": 7.42,
+      "learning_rate": 3.774193548387097e-05,
+      "loss": 0.1559,
+      "step": 460
+    },
+    {
+      "epoch": 7.58,
+      "learning_rate": 3.725806451612903e-05,
+      "loss": 0.1574,
+      "step": 470
+    },
+    {
+      "epoch": 7.74,
+      "learning_rate": 3.67741935483871e-05,
+      "loss": 0.1614,
+      "step": 480
+    },
+    {
+      "epoch": 7.9,
+      "learning_rate": 3.6290322580645165e-05,
+      "loss": 0.1551,
+      "step": 490
+    },
+    {
+      "epoch": 8.0,
+      "eval_f1": 0.5663555656726611,
+      "eval_loss": 0.3146507441997528,
+      "eval_runtime": 2.9227,
+      "eval_samples_per_second": 338.382,
+      "eval_steps_per_second": 10.607,
+      "step": 496
+    },
+    {
+      "epoch": 8.06,
+      "learning_rate": 3.580645161290323e-05,
+      "loss": 0.1497,
+      "step": 500
+    },
+    {
+      "epoch": 8.23,
+      "learning_rate": 3.532258064516129e-05,
+      "loss": 0.146,
+      "step": 510
+    },
+    {
+      "epoch": 8.39,
+      "learning_rate": 3.483870967741936e-05,
+      "loss": 0.1426,
+      "step": 520
+    },
+    {
+      "epoch": 8.55,
+      "learning_rate": 3.435483870967742e-05,
+      "loss": 0.1494,
+      "step": 530
+    },
+    {
+      "epoch": 8.71,
+      "learning_rate": 3.387096774193549e-05,
+      "loss": 0.1405,
+      "step": 540
+    },
+    {
+      "epoch": 8.87,
+      "learning_rate": 3.338709677419355e-05,
+      "loss": 0.1419,
+      "step": 550
+    },
+    {
+      "epoch": 9.0,
+      "eval_f1": 0.5569386814200094,
+      "eval_loss": 0.3179270029067993,
+      "eval_runtime": 2.8924,
+      "eval_samples_per_second": 341.925,
+      "eval_steps_per_second": 10.718,
+      "step": 558
+    },
+    {
+      "epoch": 9.03,
+      "learning_rate": 3.2903225806451614e-05,
+      "loss": 0.1391,
+      "step": 560
+    },
+    {
+      "epoch": 9.19,
+      "learning_rate": 3.2419354838709674e-05,
+      "loss": 0.1295,
+      "step": 570
+    },
+    {
+      "epoch": 9.35,
+      "learning_rate": 3.193548387096774e-05,
+      "loss": 0.1269,
+      "step": 580
+    },
+    {
+      "epoch": 9.52,
+      "learning_rate": 3.1451612903225806e-05,
+      "loss": 0.1279,
+      "step": 590
+    },
+    {
+      "epoch": 9.68,
+      "learning_rate": 3.096774193548387e-05,
+      "loss": 0.1283,
+      "step": 600
+    },
+    {
+      "epoch": 9.84,
+      "learning_rate": 3.0483870967741935e-05,
+      "loss": 0.1266,
+      "step": 610
+    },
+    {
+      "epoch": 10.0,
+      "learning_rate": 3e-05,
+      "loss": 0.1291,
+      "step": 620
+    },
+    {
+      "epoch": 10.0,
+      "eval_f1": 0.5659516202647192,
+      "eval_loss": 0.32372668385505676,
+      "eval_runtime": 2.9143,
+      "eval_samples_per_second": 339.356,
+      "eval_steps_per_second": 10.637,
+      "step": 620
+    },
+    {
+      "epoch": 10.16,
+      "learning_rate": 2.9516129032258067e-05,
+      "loss": 0.1164,
+      "step": 630
+    },
+    {
+      "epoch": 10.32,
+      "learning_rate": 2.903225806451613e-05,
+      "loss": 0.1206,
+      "step": 640
+    },
+    {
+      "epoch": 10.48,
+      "learning_rate": 2.8548387096774196e-05,
+      "loss": 0.1121,
+      "step": 650
+    },
+    {
+      "epoch": 10.65,
+      "learning_rate": 2.806451612903226e-05,
+      "loss": 0.123,
+      "step": 660
+    },
+    {
+      "epoch": 10.81,
+      "learning_rate": 2.758064516129032e-05,
+      "loss": 0.1148,
+      "step": 670
+    },
+    {
+      "epoch": 10.97,
+      "learning_rate": 2.7096774193548387e-05,
+      "loss": 0.1166,
+      "step": 680
+    },
+    {
+      "epoch": 11.0,
+      "eval_f1": 0.5683084466235793,
+      "eval_loss": 0.3352525234222412,
+      "eval_runtime": 2.8947,
+      "eval_samples_per_second": 341.665,
+      "eval_steps_per_second": 10.709,
+      "step": 682
+    },
+    {
+      "epoch": 11.13,
+      "learning_rate": 2.6612903225806453e-05,
+      "loss": 0.1068,
+      "step": 690
+    },
+    {
+      "epoch": 11.29,
+      "learning_rate": 2.6129032258064516e-05,
+      "loss": 0.1109,
+      "step": 700
+    },
+    {
+      "epoch": 11.45,
+      "learning_rate": 2.5645161290322582e-05,
+      "loss": 0.1049,
+      "step": 710
+    },
+    {
+      "epoch": 11.61,
+      "learning_rate": 2.5161290322580648e-05,
+      "loss": 0.1042,
+      "step": 720
+    },
+    {
+      "epoch": 11.77,
+      "learning_rate": 2.467741935483871e-05,
+      "loss": 0.1111,
+      "step": 730
+    },
+    {
+      "epoch": 11.94,
+      "learning_rate": 2.4193548387096773e-05,
+      "loss": 0.1079,
+      "step": 740
+    },
+    {
+      "epoch": 12.0,
+      "eval_f1": 0.5689615996364462,
+      "eval_loss": 0.33389773964881897,
+      "eval_runtime": 2.9192,
+      "eval_samples_per_second": 338.786,
+      "eval_steps_per_second": 10.619,
+      "step": 744
+    },
+    {
+      "epoch": 12.1,
+      "learning_rate": 2.370967741935484e-05,
+      "loss": 0.0981,
+      "step": 750
+    },
+    {
+      "epoch": 12.26,
+      "learning_rate": 2.3225806451612902e-05,
+      "loss": 0.1,
+      "step": 760
+    },
+    {
+      "epoch": 12.42,
+      "learning_rate": 2.274193548387097e-05,
+      "loss": 0.0947,
+      "step": 770
+    },
+    {
+      "epoch": 12.58,
+      "learning_rate": 2.2258064516129034e-05,
+      "loss": 0.0937,
+      "step": 780
+    },
+    {
+      "epoch": 12.74,
+      "learning_rate": 2.1774193548387097e-05,
+      "loss": 0.0978,
+      "step": 790
+    },
+    {
+      "epoch": 12.9,
+      "learning_rate": 2.1290322580645163e-05,
+      "loss": 0.0988,
+      "step": 800
+    },
+    {
+      "epoch": 13.0,
+      "eval_f1": 0.573460769059791,
+      "eval_loss": 0.34931689500808716,
+      "eval_runtime": 2.9238,
+      "eval_samples_per_second": 338.256,
+      "eval_steps_per_second": 10.603,
+      "step": 806
+    },
+    {
+      "epoch": 13.06,
+      "learning_rate": 2.080645161290323e-05,
+      "loss": 0.0948,
+      "step": 810
+    },
+    {
+      "epoch": 13.23,
+      "learning_rate": 2.032258064516129e-05,
+      "loss": 0.0874,
+      "step": 820
+    },
+    {
+      "epoch": 13.39,
+      "learning_rate": 1.9838709677419355e-05,
+      "loss": 0.0894,
+      "step": 830
+    },
+    {
+      "epoch": 13.55,
+      "learning_rate": 1.935483870967742e-05,
+      "loss": 0.0919,
+      "step": 840
+    },
+    {
+      "epoch": 13.71,
+      "learning_rate": 1.8870967741935484e-05,
+      "loss": 0.0899,
+      "step": 850
+    },
+    {
+      "epoch": 13.87,
+      "learning_rate": 1.838709677419355e-05,
+      "loss": 0.0926,
+      "step": 860
+    },
+    {
+      "epoch": 14.0,
+      "eval_f1": 0.5807734806629834,
+      "eval_loss": 0.35069382190704346,
+      "eval_runtime": 2.9589,
+      "eval_samples_per_second": 334.248,
+      "eval_steps_per_second": 10.477,
+      "step": 868
+    },
+    {
+      "epoch": 14.03,
+      "learning_rate": 1.7903225806451616e-05,
+      "loss": 0.0817,
+      "step": 870
+    },
+    {
+      "epoch": 14.19,
+      "learning_rate": 1.741935483870968e-05,
+      "loss": 0.0826,
+      "step": 880
+    },
+    {
+      "epoch": 14.35,
+      "learning_rate": 1.6935483870967744e-05,
+      "loss": 0.0842,
+      "step": 890
+    },
+    {
+      "epoch": 14.52,
+      "learning_rate": 1.6451612903225807e-05,
+      "loss": 0.0824,
+      "step": 900
+    },
+    {
+      "epoch": 14.68,
+      "learning_rate": 1.596774193548387e-05,
+      "loss": 0.0822,
+      "step": 910
+    },
+    {
+      "epoch": 14.84,
+      "learning_rate": 1.5483870967741936e-05,
+      "loss": 0.0826,
+      "step": 920
+    },
+    {
+      "epoch": 15.0,
+      "learning_rate": 1.5e-05,
+      "loss": 0.0837,
+      "step": 930
+    },
+    {
+      "epoch": 15.0,
+      "eval_f1": 0.5837362637362637,
+      "eval_loss": 0.3567672073841095,
+      "eval_runtime": 2.915,
+      "eval_samples_per_second": 339.279,
+      "eval_steps_per_second": 10.635,
+      "step": 930
+    },
+    {
+      "epoch": 15.16,
+      "learning_rate": 1.4516129032258065e-05,
+      "loss": 0.0781,
+      "step": 940
+    },
+    {
+      "epoch": 15.32,
+      "learning_rate": 1.403225806451613e-05,
+      "loss": 0.0757,
+      "step": 950
+    },
+    {
+      "epoch": 15.48,
+      "learning_rate": 1.3548387096774194e-05,
+      "loss": 0.0766,
+      "step": 960
+    },
+    {
+      "epoch": 15.65,
+      "learning_rate": 1.3064516129032258e-05,
+      "loss": 0.0788,
+      "step": 970
+    },
+    {
+      "epoch": 15.81,
+      "learning_rate": 1.2580645161290324e-05,
+      "loss": 0.0764,
+      "step": 980
+    },
+    {
+      "epoch": 15.97,
+      "learning_rate": 1.2096774193548387e-05,
+      "loss": 0.076,
+      "step": 990
+    },
+    {
+      "epoch": 16.0,
+      "eval_f1": 0.5796391178436178,
+      "eval_loss": 0.3577311336994171,
+      "eval_runtime": 2.8859,
+      "eval_samples_per_second": 342.697,
+      "eval_steps_per_second": 10.742,
+      "step": 992
+    },
+    {
+      "epoch": 16.13,
+      "learning_rate": 1.1612903225806451e-05,
+      "loss": 0.0743,
+      "step": 1000
+    },
+    {
+      "epoch": 16.29,
+      "learning_rate": 1.1129032258064517e-05,
+      "loss": 0.0713,
+      "step": 1010
+    },
+    {
+      "epoch": 16.45,
+      "learning_rate": 1.0645161290322582e-05,
+      "loss": 0.0744,
+      "step": 1020
+    },
+    {
+      "epoch": 16.61,
+      "learning_rate": 1.0161290322580644e-05,
+      "loss": 0.069,
+      "step": 1030
+    },
+    {
+      "epoch": 16.77,
+      "learning_rate": 9.67741935483871e-06,
+      "loss": 0.0742,
+      "step": 1040
+    },
+    {
+      "epoch": 16.94,
+      "learning_rate": 9.193548387096775e-06,
+      "loss": 0.0718,
+      "step": 1050
+    },
+    {
+      "epoch": 17.0,
+      "eval_f1": 0.5815983881799865,
+      "eval_loss": 0.3607926368713379,
+      "eval_runtime": 2.9273,
+      "eval_samples_per_second": 337.857,
+      "eval_steps_per_second": 10.59,
+      "step": 1054
+    },
+    {
+      "epoch": 17.1,
+      "learning_rate": 8.70967741935484e-06,
+      "loss": 0.0704,
+      "step": 1060
+    },
+    {
+      "epoch": 17.26,
+      "learning_rate": 8.225806451612904e-06,
+      "loss": 0.067,
+      "step": 1070
+    },
+    {
+      "epoch": 17.42,
+      "learning_rate": 7.741935483870968e-06,
+      "loss": 0.0709,
+      "step": 1080
+    },
+    {
+      "epoch": 17.58,
+      "learning_rate": 7.258064516129032e-06,
+      "loss": 0.0679,
+      "step": 1090
+    },
+    {
+      "epoch": 17.74,
+      "learning_rate": 6.774193548387097e-06,
+      "loss": 0.071,
+      "step": 1100
+    },
+    {
+      "epoch": 17.9,
+      "learning_rate": 6.290322580645162e-06,
+      "loss": 0.0685,
+      "step": 1110
+    },
+    {
+      "epoch": 18.0,
+      "eval_f1": 0.5815289438798055,
+      "eval_loss": 0.36424893140792847,
+      "eval_runtime": 2.9446,
+      "eval_samples_per_second": 335.873,
+      "eval_steps_per_second": 10.528,
+      "step": 1116
+    },
+    {
+      "epoch": 18.06,
+      "learning_rate": 5.8064516129032256e-06,
+      "loss": 0.0673,
+      "step": 1120
+    },
+    {
+      "epoch": 18.23,
+      "learning_rate": 5.322580645161291e-06,
+      "loss": 0.0666,
+      "step": 1130
+    },
+    {
+      "epoch": 18.39,
+      "learning_rate": 4.838709677419355e-06,
+      "loss": 0.0663,
+      "step": 1140
+    },
+    {
+      "epoch": 18.55,
+      "learning_rate": 4.35483870967742e-06,
+      "loss": 0.0669,
+      "step": 1150
+    },
+    {
+      "epoch": 18.71,
+      "learning_rate": 3.870967741935484e-06,
+      "loss": 0.0677,
+      "step": 1160
+    },
+    {
+      "epoch": 18.87,
+      "learning_rate": 3.3870967741935484e-06,
+      "loss": 0.0665,
+      "step": 1170
+    },
+    {
+      "epoch": 19.0,
+      "eval_f1": 0.5837742504409171,
+      "eval_loss": 0.36555004119873047,
+      "eval_runtime": 2.9275,
+      "eval_samples_per_second": 337.836,
+      "eval_steps_per_second": 10.589,
+      "step": 1178
+    },
+    {
+      "epoch": 19.03,
+      "learning_rate": 2.9032258064516128e-06,
+      "loss": 0.0656,
+      "step": 1180
+    },
+    {
+      "epoch": 19.19,
+      "learning_rate": 2.4193548387096776e-06,
+      "loss": 0.063,
+      "step": 1190
+    },
+    {
+      "epoch": 19.35,
+      "learning_rate": 1.935483870967742e-06,
+      "loss": 0.0628,
+      "step": 1200
+    },
+    {
+      "epoch": 19.52,
+      "learning_rate": 1.4516129032258064e-06,
+      "loss": 0.0651,
+      "step": 1210
+    },
+    {
+      "epoch": 19.68,
+      "learning_rate": 9.67741935483871e-07,
+      "loss": 0.0662,
+      "step": 1220
+    },
+    {
+      "epoch": 19.84,
+      "learning_rate": 4.838709677419355e-07,
+      "loss": 0.0636,
+      "step": 1230
+    },
+    {
+      "epoch": 20.0,
+      "learning_rate": 0.0,
+      "loss": 0.0676,
+      "step": 1240
+    },
+    {
+      "epoch": 20.0,
+      "eval_f1": 0.5832229580573952,
+      "eval_loss": 0.3661610186100006,
+      "eval_runtime": 2.9338,
+      "eval_samples_per_second": 337.105,
+      "eval_steps_per_second": 10.566,
+      "step": 1240
+    },
+    {
+      "epoch": 20.0,
+      "step": 1240,
+      "total_flos": 2.082560024604672e+16,
+      "train_loss": 0.14994276651451666,
+      "train_runtime": 1498.2493,
+      "train_samples_per_second": 105.643,
+      "train_steps_per_second": 0.828
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1240,
+  "num_train_epochs": 20,
+  "save_steps": 500,
+  "total_flos": 2.082560024604672e+16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:49d4aa7ecccbe4b27163ea940d8f5d4aed0acdeee63d06ce326f947364079c53
+size 4600

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff