Initial commit from mrm8488

Browse files

Files changed (14) hide show

README.md +89 -0
added_tokens.json +1 -0
all_results.json +16 -0
config.json +44 -0
eval_results.json +11 -0
pytorch_model.bin +3 -0
runs/events.out.tfevents.1637518922.93c238760a3d.594.0 +3 -0
runs/events.out.tfevents.1637519220.93c238760a3d.594.2 +3 -0
special_tokens_map.json +1 -0
spm.model +3 -0
tokenizer_config.json +1 -0
train_results.json +8 -0
trainer_state.json +147 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,89 @@

+---
+language:
+- en
+license: mit
+tags:
+- generated_from_trainer
+datasets:
+- glue
+metrics:
+- accuracy
+- f1
+model-index:
+- name: deberta-v3-small
+  results:
+  - task:
+      name: Text Classification
+      type: text-classification
+    dataset:
+      name: GLUE MRPC
+      type: glue
+      args: mrpc
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.8921568627450981
+    - name: F1
+      type: f1
+      value: 0.9233449477351917
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# deberta-v3-small
+This model is a fine-tuned version of [microsoft/deberta-v3-small](https://huggingface.co/microsoft/deberta-v3-small) on the GLUE MRPC dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.2787
+- Accuracy: 0.8922
+- F1: 0.9233
+- Combined Score: 0.9078
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 3e-05
+- train_batch_size: 16
+- eval_batch_size: 8
+- seed: 42
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: linear
+- num_epochs: 10.0
+### Training results
+| Training Loss | Epoch | Step | Validation Loss | Accuracy | F1     | Combined Score |
+|:-------------:|:-----:|:----:|:---------------:|:--------:|:------:|:--------------:|
+| No log        | 1.0   | 230  | 0.2787          | 0.8922   | 0.9233 | 0.9078         |
+| No log        | 2.0   | 460  | 0.3651          | 0.875    | 0.9137 | 0.8944         |
+| No log        | 3.0   | 690  | 0.5238          | 0.8799   | 0.9179 | 0.8989         |
+| No log        | 4.0   | 920  | 0.4712          | 0.8946   | 0.9222 | 0.9084         |
+| 0.2147        | 5.0   | 1150 | 0.5704          | 0.8946   | 0.9262 | 0.9104         |
+| 0.2147        | 6.0   | 1380 | 0.5697          | 0.8995   | 0.9284 | 0.9140         |
+| 0.2147        | 7.0   | 1610 | 0.6651          | 0.8922   | 0.9214 | 0.9068         |
+| 0.2147        | 8.0   | 1840 | 0.6726          | 0.8946   | 0.9239 | 0.9093         |
+| 0.0183        | 9.0   | 2070 | 0.7250          | 0.8848   | 0.9177 | 0.9012         |
+| 0.0183        | 10.0  | 2300 | 0.7093          | 0.8922   | 0.9223 | 0.9072         |
+### Framework versions
+- Transformers 4.13.0.dev0
+- Pytorch 1.10.0+cu111
+- Datasets 1.15.1
+- Tokenizers 0.10.3

added_tokens.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"[MASK]": 128000}

all_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "epoch": 10.0,
+    "eval_accuracy": 0.8921568627450981,
+    "eval_combined_score": 0.9077509052401449,
+    "eval_f1": 0.9233449477351917,
+    "eval_loss": 0.27871406078338623,
+    "eval_runtime": 1.0505,
+    "eval_samples": 408,
+    "eval_samples_per_second": 388.37,
+    "eval_steps_per_second": 48.546,
+    "train_loss": 0.1021328606294549,
+    "train_runtime": 294.6784,
+    "train_samples": 3668,
+    "train_samples_per_second": 124.475,
+    "train_steps_per_second": 7.805
+}

config.json ADDED Viewed

	@@ -0,0 +1,44 @@

+{
+  "_name_or_path": "microsoft/deberta-v3-small",
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "finetuning_task": "mrpc",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "not_equivalent",
+    "1": "equivalent"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "equivalent": 1,
+    "not_equivalent": 0
+  },
+  "layer_norm_eps": 1e-07,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 6,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.13.0.dev0",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "epoch": 10.0,
+    "eval_accuracy": 0.8921568627450981,
+    "eval_combined_score": 0.9077509052401449,
+    "eval_f1": 0.9233449477351917,
+    "eval_loss": 0.27871406078338623,
+    "eval_runtime": 1.0505,
+    "eval_samples": 408,
+    "eval_samples_per_second": 388.37,
+    "eval_steps_per_second": 48.546
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:50c960e91d9c4b5c3d6c12708cdd685b02f8a23b9a69022c7b2b4fc77ea52940
+size 567632875

runs/events.out.tfevents.1637518922.93c238760a3d.594.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:281f868339067c38862f4d194922dd1b44d115bb533d43e8d1de9443a4d8a04b
+size 8397

runs/events.out.tfevents.1637519220.93c238760a3d.594.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e0eb18e4fc43fd35b9fc90042851873520221167a3848acb4adf13ec373d5ffe
+size 467

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"bos_token": "[CLS]", "eos_token": "[SEP]", "unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]"}

spm.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c679fbf93643d19aab7ee10c0b99e460bdbc02fedf34b92b05af343b4af586fd
+size 2464616

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"do_lower_case": false, "bos_token": "[CLS]", "eos_token": "[SEP]", "unk_token": "[UNK]", "sep_token": "[SEP]", "pad_token": "[PAD]", "cls_token": "[CLS]", "mask_token": "[MASK]", "split_by_punct": false, "sp_model_kwargs": {}, "vocab_type": "spm", "special_tokens_map_file": null, "tokenizer_file": null, "name_or_path": "microsoft/deberta-v3-small", "tokenizer_class": "DebertaV2Tokenizer"}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 10.0,
+    "train_loss": 0.1021328606294549,
+    "train_runtime": 294.6784,
+    "train_samples": 3668,
+    "train_samples_per_second": 124.475,
+    "train_steps_per_second": 7.805
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,147 @@

+{
+  "best_metric": 0.27871406078338623,
+  "best_model_checkpoint": "/content/deberta-v3-small/checkpoint-230",
+  "epoch": 10.0,
+  "global_step": 2300,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.8921568627450981,
+      "eval_combined_score": 0.9077509052401449,
+      "eval_f1": 0.9233449477351917,
+      "eval_loss": 0.27871406078338623,
+      "eval_runtime": 0.9934,
+      "eval_samples_per_second": 410.721,
+      "eval_steps_per_second": 51.34,
+      "step": 230
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.875,
+      "eval_combined_score": 0.8943527918781726,
+      "eval_f1": 0.9137055837563453,
+      "eval_loss": 0.3650500774383545,
+      "eval_runtime": 1.104,
+      "eval_samples_per_second": 369.555,
+      "eval_steps_per_second": 46.194,
+      "step": 460
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.8799019607843137,
+      "eval_combined_score": 0.8989124544290077,
+      "eval_f1": 0.9179229480737018,
+      "eval_loss": 0.5237621068954468,
+      "eval_runtime": 1.014,
+      "eval_samples_per_second": 402.381,
+      "eval_steps_per_second": 50.298,
+      "step": 690
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.8946078431372549,
+      "eval_combined_score": 0.9084250788923165,
+      "eval_f1": 0.9222423146473779,
+      "eval_loss": 0.471233606338501,
+      "eval_runtime": 1.021,
+      "eval_samples_per_second": 399.621,
+      "eval_steps_per_second": 49.953,
+      "step": 920
+    },
+    {
+      "epoch": 4.35,
+      "learning_rate": 1.6956521739130433e-05,
+      "loss": 0.2147,
+      "step": 1000
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.8946078431372549,
+      "eval_combined_score": 0.9104257054451284,
+      "eval_f1": 0.9262435677530019,
+      "eval_loss": 0.570386528968811,
+      "eval_runtime": 0.9794,
+      "eval_samples_per_second": 416.598,
+      "eval_steps_per_second": 52.075,
+      "step": 1150
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.8995098039215687,
+      "eval_combined_score": 0.9139782876501386,
+      "eval_f1": 0.9284467713787086,
+      "eval_loss": 0.5697466135025024,
+      "eval_runtime": 0.9891,
+      "eval_samples_per_second": 412.495,
+      "eval_steps_per_second": 51.562,
+      "step": 1380
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.8921568627450981,
+      "eval_combined_score": 0.9067927170868348,
+      "eval_f1": 0.9214285714285715,
+      "eval_loss": 0.6650992631912231,
+      "eval_runtime": 1.008,
+      "eval_samples_per_second": 404.777,
+      "eval_steps_per_second": 50.597,
+      "step": 1610
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.8946078431372549,
+      "eval_combined_score": 0.9092508242234947,
+      "eval_f1": 0.9238938053097344,
+      "eval_loss": 0.672588586807251,
+      "eval_runtime": 1.0378,
+      "eval_samples_per_second": 393.14,
+      "eval_steps_per_second": 49.143,
+      "step": 1840
+    },
+    {
+      "epoch": 8.7,
+      "learning_rate": 3.913043478260869e-06,
+      "loss": 0.0183,
+      "step": 2000
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.8848039215686274,
+      "eval_combined_score": 0.9012460938841386,
+      "eval_f1": 0.9176882661996497,
+      "eval_loss": 0.7250252366065979,
+      "eval_runtime": 1.0544,
+      "eval_samples_per_second": 386.943,
+      "eval_steps_per_second": 48.368,
+      "step": 2070
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.8921568627450981,
+      "eval_combined_score": 0.907209173422019,
+      "eval_f1": 0.9222614840989399,
+      "eval_loss": 0.7092880010604858,
+      "eval_runtime": 1.0253,
+      "eval_samples_per_second": 397.917,
+      "eval_steps_per_second": 49.74,
+      "step": 2300
+    },
+    {
+      "epoch": 10.0,
+      "step": 2300,
+      "total_flos": 1214769315164160.0,
+      "train_loss": 0.1021328606294549,
+      "train_runtime": 294.6784,
+      "train_samples_per_second": 124.475,
+      "train_steps_per_second": 7.805
+    }
+  ],
+  "max_steps": 2300,
+  "num_train_epochs": 10,
+  "total_flos": 1214769315164160.0,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bb9917d9201ebaf524ca52aa6fa3ddc24a6abebea41d899bd804eb7e652df3cd
+size 2863