End of training

Browse files

Files changed (8) hide show

README.md +24 -2
all_results.json +26 -0
eval_results.json +12 -0
predict_results.json +10 -0
predictions.txt +0 -0
runs/Oct22_08-33-43_b2ebde4835e6/events.out.tfevents.1729588845.b2ebde4835e6.7315.1 +3 -0
train_results.json +9 -0
trainer_state.json +144 -0

README.md CHANGED Viewed

@@ -4,6 +4,8 @@ license: mit
 base_model: microsoft/mdeberta-v3-base
 tags:
 - generated_from_trainer
 metrics:
 - precision
 - recall
@@ -11,7 +13,27 @@ metrics:
 - accuracy
 model-index:
 - name: mdeberta-v3-base-panx-wikiann-en
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -19,7 +41,7 @@ should probably proofread and complete it, then remove this comment. -->
 # mdeberta-v3-base-panx-wikiann-en
-This model is a fine-tuned version of [microsoft/mdeberta-v3-base](https://huggingface.co/microsoft/mdeberta-v3-base) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.2520
 - Precision: 0.8285

 base_model: microsoft/mdeberta-v3-base
 tags:
 - generated_from_trainer
+datasets:
+- google/xtreme
 metrics:
 - precision
 - recall
 - accuracy
 model-index:
 - name: mdeberta-v3-base-panx-wikiann-en
+  results:
+  - task:
+      name: Token Classification
+      type: token-classification
+    dataset:
+      name: google/xtreme PAN-X.en
+      type: google/xtreme
+      args: PAN-X.en
+    metrics:
+    - name: Precision
+      type: precision
+      value: 0.8285338502007477
+    - name: Recall
+      type: recall
+      value: 0.8461049059804892
+    - name: F1
+      type: f1
+      value: 0.8372271964185787
+    - name: Accuracy
+      type: accuracy
+      value: 0.9318317274262442
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # mdeberta-v3-base-panx-wikiann-en
+This model is a fine-tuned version of [microsoft/mdeberta-v3-base](https://huggingface.co/microsoft/mdeberta-v3-base) on the google/xtreme PAN-X.en dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.2520
 - Precision: 0.8285

all_results.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+    "epoch": 5.0,
+    "eval_accuracy": 0.9318317274262442,
+    "eval_f1": 0.8372271964185787,
+    "eval_loss": 0.2519814968109131,
+    "eval_precision": 0.8285338502007477,
+    "eval_recall": 0.8461049059804892,
+    "eval_runtime": 38.6807,
+    "eval_samples": 10000,
+    "eval_samples_per_second": 258.527,
+    "eval_steps_per_second": 32.316,
+    "predict_accuracy": 0.9317655553619003,
+    "predict_f1": 0.8329969906178084,
+    "predict_loss": 0.2560366988182068,
+    "predict_precision": 0.8234058934695877,
+    "predict_recall": 0.8428141567559823,
+    "predict_runtime": 37.6178,
+    "predict_samples_per_second": 265.832,
+    "predict_steps_per_second": 33.229,
+    "total_flos": 1384127485887552.0,
+    "train_loss": 0.23445223083496095,
+    "train_runtime": 2722.1951,
+    "train_samples": 20000,
+    "train_samples_per_second": 36.735,
+    "train_steps_per_second": 1.148
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 5.0,
+    "eval_accuracy": 0.9318317274262442,
+    "eval_f1": 0.8372271964185787,
+    "eval_loss": 0.2519814968109131,
+    "eval_precision": 0.8285338502007477,
+    "eval_recall": 0.8461049059804892,
+    "eval_runtime": 38.6807,
+    "eval_samples": 10000,
+    "eval_samples_per_second": 258.527,
+    "eval_steps_per_second": 32.316
+}

predict_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "predict_accuracy": 0.9317655553619003,
+    "predict_f1": 0.8329969906178084,
+    "predict_loss": 0.2560366988182068,
+    "predict_precision": 0.8234058934695877,
+    "predict_recall": 0.8428141567559823,
+    "predict_runtime": 37.6178,
+    "predict_samples_per_second": 265.832,
+    "predict_steps_per_second": 33.229
+}

predictions.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

runs/Oct22_08-33-43_b2ebde4835e6/events.out.tfevents.1729588845.b2ebde4835e6.7315.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c72b528d4f39e0010b83db4ff23dd9ffed2f4a37fe88ca913454ea2f87fe854c
+size 560

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 5.0,
+    "total_flos": 1384127485887552.0,
+    "train_loss": 0.23445223083496095,
+    "train_runtime": 2722.1951,
+    "train_samples": 20000,
+    "train_samples_per_second": 36.735,
+    "train_steps_per_second": 1.148
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,144 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 3125,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.8,
+      "grad_norm": 2.823965072631836,
+      "learning_rate": 1.68064e-05,
+      "loss": 0.4565,
+      "step": 500
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.9214636932551902,
+      "eval_f1": 0.806775887856969,
+      "eval_loss": 0.26512816548347473,
+      "eval_precision": 0.7941518865986441,
+      "eval_recall": 0.8198077194966775,
+      "eval_runtime": 37.78,
+      "eval_samples_per_second": 264.691,
+      "eval_steps_per_second": 33.086,
+      "step": 625
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 5.351424217224121,
+      "learning_rate": 1.3606400000000002e-05,
+      "loss": 0.2612,
+      "step": 1000
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9257350749975166,
+      "eval_f1": 0.8162128281913782,
+      "eval_loss": 0.2490304708480835,
+      "eval_precision": 0.8042821850123525,
+      "eval_recall": 0.8285027569630992,
+      "eval_runtime": 38.4394,
+      "eval_samples_per_second": 260.15,
+      "eval_steps_per_second": 32.519,
+      "step": 1250
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 3.4635002613067627,
+      "learning_rate": 1.0406400000000001e-05,
+      "loss": 0.2184,
+      "step": 1500
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.9293856163703189,
+      "eval_f1": 0.8262937062937062,
+      "eval_loss": 0.2470722198486328,
+      "eval_precision": 0.8174899681748997,
+      "eval_recall": 0.8352891276685989,
+      "eval_runtime": 38.5739,
+      "eval_samples_per_second": 259.242,
+      "eval_steps_per_second": 32.405,
+      "step": 1875
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 2.8742923736572266,
+      "learning_rate": 7.2064e-06,
+      "loss": 0.1874,
+      "step": 2000
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.9541894197463989,
+      "learning_rate": 4.012800000000001e-06,
+      "loss": 0.1636,
+      "step": 2500
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.9307638819906625,
+      "eval_f1": 0.8312837484758753,
+      "eval_loss": 0.2493128478527069,
+      "eval_precision": 0.819493097053369,
+      "eval_recall": 0.8434186342428955,
+      "eval_runtime": 36.2649,
+      "eval_samples_per_second": 275.749,
+      "eval_steps_per_second": 34.469,
+      "step": 2500
+    },
+    {
+      "epoch": 4.8,
+      "grad_norm": 3.6088337898254395,
+      "learning_rate": 8.128000000000001e-07,
+      "loss": 0.1408,
+      "step": 3000
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.9318317274262442,
+      "eval_f1": 0.8372271964185787,
+      "eval_loss": 0.2519814968109131,
+      "eval_precision": 0.8285338502007477,
+      "eval_recall": 0.8461049059804892,
+      "eval_runtime": 37.7598,
+      "eval_samples_per_second": 264.832,
+      "eval_steps_per_second": 33.104,
+      "step": 3125
+    },
+    {
+      "epoch": 5.0,
+      "step": 3125,
+      "total_flos": 1384127485887552.0,
+      "train_loss": 0.23445223083496095,
+      "train_runtime": 2722.1951,
+      "train_samples_per_second": 36.735,
+      "train_steps_per_second": 1.148
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 3125,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": false,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1384127485887552.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}