modified bug

Browse files

Files changed (8) hide show

README.md +14 -14
all_results.json +9 -9
eval_results.json +5 -5
model.safetensors +1 -1
pytorch_model.bin +1 -1
train_results.json +4 -4
trainer_state.json +89 -89
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -6,19 +6,19 @@ tags:
 metrics:
 - f1
 model-index:
-- name: clarifier-good-name-xlm-roberta
   results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
-# clarifier-good-name-xlm-roberta
 This model is a fine-tuned version of [xlm-roberta-large](https://huggingface.co/xlm-roberta-large) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.3007
-- F1: 0.8746
 ## Model description
@@ -49,16 +49,16 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | F1     |
 |:-------------:|:-----:|:----:|:---------------:|:------:|
-| 0.2794        | 1.0   | 553  | 0.2373          | 0.8460 |
-| 0.208         | 2.0   | 1106 | 0.2176          | 0.8585 |
-| 0.1915        | 3.0   | 1659 | 0.2057          | 0.8542 |
-| 0.1662        | 4.0   | 2212 | 0.2216          | 0.8635 |
-| 0.1472        | 5.0   | 2765 | 0.2160          | 0.8709 |
-| 0.132         | 6.0   | 3318 | 0.2297          | 0.8703 |
-| 0.1255        | 7.0   | 3871 | 0.2617          | 0.8709 |
-| 0.1162        | 8.0   | 4424 | 0.2973          | 0.8738 |
-| 0.1036        | 9.0   | 4977 | 0.2818          | 0.8713 |
-| 0.1           | 10.0  | 5530 | 0.3007          | 0.8746 |
 ### Framework versions

 metrics:
 - f1
 model-index:
+- name: refine-good-name-xlm-roberta
   results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
+# refine-good-name-xlm-roberta
 This model is a fine-tuned version of [xlm-roberta-large](https://huggingface.co/xlm-roberta-large) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.3162
+- F1: 0.8667
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss | F1     |
 |:-------------:|:-----:|:----:|:---------------:|:------:|
+| 0.2614        | 1.0   | 553  | 0.2190          | 0.8499 |
+| 0.2071        | 2.0   | 1106 | 0.2217          | 0.8516 |
+| 0.1836        | 3.0   | 1659 | 0.2060          | 0.8491 |
+| 0.1594        | 4.0   | 2212 | 0.2083          | 0.8638 |
+| 0.1482        | 5.0   | 2765 | 0.2350          | 0.8526 |
+| 0.1235        | 6.0   | 3318 | 0.2546          | 0.8484 |
+| 0.1171        | 7.0   | 3871 | 0.2522          | 0.8627 |
+| 0.1047        | 8.0   | 4424 | 0.2703          | 0.8665 |
+| 0.0955        | 9.0   | 4977 | 0.2934          | 0.8638 |
+| 0.0856        | 10.0  | 5530 | 0.3162          | 0.8667 |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,14 +1,14 @@
 {
     "epoch": 10.0,
-    "eval_f1": 0.8746249184605349,
-    "eval_loss": 0.3006608486175537,
-    "eval_runtime": 1.2659,
     "eval_samples": 3933,
-    "eval_samples_per_second": 3106.995,
-    "eval_steps_per_second": 48.979,
-    "train_loss": 0.16197810992194342,
-    "train_runtime": 673.3062,
     "train_samples": 35391,
-    "train_samples_per_second": 525.63,
-    "train_steps_per_second": 8.213
 }

 {
     "epoch": 10.0,
+    "eval_f1": 0.8667100977198697,
+    "eval_loss": 0.31616073846817017,
+    "eval_runtime": 1.2909,
     "eval_samples": 3933,
+    "eval_samples_per_second": 3046.625,
+    "eval_steps_per_second": 48.027,
+    "train_loss": 0.1538462488819419,
+    "train_runtime": 909.5125,
     "train_samples": 35391,
+    "train_samples_per_second": 389.121,
+    "train_steps_per_second": 6.08
 }

eval_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 10.0,
-    "eval_f1": 0.8746249184605349,
-    "eval_loss": 0.3006608486175537,
-    "eval_runtime": 1.2659,
     "eval_samples": 3933,
-    "eval_samples_per_second": 3106.995,
-    "eval_steps_per_second": 48.979
 }

 {
     "epoch": 10.0,
+    "eval_f1": 0.8667100977198697,
+    "eval_loss": 0.31616073846817017,
+    "eval_runtime": 1.2909,
     "eval_samples": 3933,
+    "eval_samples_per_second": 3046.625,
+    "eval_steps_per_second": 48.027
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c4ca62b0b586aa129ae5cef426f105de7bf0494932fbe0c426f668c4fc0190e8
 size 2235428256

 version https://git-lfs.github.com/spec/v1
+oid sha256:885f750f59b34386e45c71ff1fc725cf0e59e3872c10e4f9cb276743473ad47a
 size 2235428256

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:36fb514b239f559373a4d46f2d9a9f7e550d39628783a99749a3f685a3f03dba
 size 2235514665

 version https://git-lfs.github.com/spec/v1
+oid sha256:000d654375f4298dae5763995330cb6c89b1c30559d4fc0676844bfad3ac248f
 size 2235514665

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 10.0,
-    "train_loss": 0.16197810992194342,
-    "train_runtime": 673.3062,
     "train_samples": 35391,
-    "train_samples_per_second": 525.63,
-    "train_steps_per_second": 8.213
 }

 {
     "epoch": 10.0,
+    "train_loss": 0.1538462488819419,
+    "train_runtime": 909.5125,
     "train_samples": 35391,
+    "train_samples_per_second": 389.121,
+    "train_steps_per_second": 6.08
 }

trainer_state.json CHANGED Viewed

@@ -9,269 +9,269 @@
   "log_history": [
     {
       "epoch": 0.36,
-      "learning_rate": 9.64737793851718e-06,
-      "loss": 0.4565,
       "step": 200
     },
     {
       "epoch": 0.72,
-      "learning_rate": 9.285714285714288e-06,
-      "loss": 0.2794,
       "step": 400
     },
     {
       "epoch": 1.0,
-      "eval_f1": 0.8460078451221056,
-      "eval_loss": 0.23727749288082123,
-      "eval_runtime": 1.2571,
-      "eval_samples_per_second": 3128.599,
-      "eval_steps_per_second": 49.319,
       "step": 553
     },
     {
       "epoch": 1.08,
-      "learning_rate": 8.924050632911393e-06,
-      "loss": 0.2371,
       "step": 600
     },
     {
       "epoch": 1.45,
       "learning_rate": 8.562386980108501e-06,
-      "loss": 0.2237,
       "step": 800
     },
     {
       "epoch": 1.81,
       "learning_rate": 8.200723327305607e-06,
-      "loss": 0.208,
       "step": 1000
     },
     {
       "epoch": 2.0,
-      "eval_f1": 0.8584722760759984,
-      "eval_loss": 0.2176441252231598,
-      "eval_runtime": 1.2612,
-      "eval_samples_per_second": 3118.527,
-      "eval_steps_per_second": 49.161,
       "step": 1106
     },
     {
       "epoch": 2.17,
       "learning_rate": 7.839059674502714e-06,
-      "loss": 0.2034,
       "step": 1200
     },
     {
       "epoch": 2.53,
       "learning_rate": 7.47739602169982e-06,
-      "loss": 0.1856,
       "step": 1400
     },
     {
       "epoch": 2.89,
       "learning_rate": 7.115732368896926e-06,
-      "loss": 0.1915,
       "step": 1600
     },
     {
       "epoch": 3.0,
-      "eval_f1": 0.8542068079640335,
-      "eval_loss": 0.20573046803474426,
-      "eval_runtime": 1.2605,
-      "eval_samples_per_second": 3120.201,
-      "eval_steps_per_second": 49.187,
       "step": 1659
     },
     {
       "epoch": 3.25,
       "learning_rate": 6.754068716094033e-06,
-      "loss": 0.1757,
       "step": 1800
     },
     {
       "epoch": 3.62,
       "learning_rate": 6.392405063291139e-06,
-      "loss": 0.163,
       "step": 2000
     },
     {
       "epoch": 3.98,
       "learning_rate": 6.0307414104882465e-06,
-      "loss": 0.1662,
       "step": 2200
     },
     {
       "epoch": 4.0,
-      "eval_f1": 0.8634553628773282,
-      "eval_loss": 0.22162207961082458,
-      "eval_runtime": 1.2593,
-      "eval_samples_per_second": 3123.225,
-      "eval_steps_per_second": 49.235,
       "step": 2212
     },
     {
       "epoch": 4.34,
       "learning_rate": 5.669077757685353e-06,
-      "loss": 0.1514,
       "step": 2400
     },
     {
       "epoch": 4.7,
       "learning_rate": 5.30741410488246e-06,
-      "loss": 0.1472,
       "step": 2600
     },
     {
       "epoch": 5.0,
-      "eval_f1": 0.870850622406639,
-      "eval_loss": 0.21599918603897095,
-      "eval_runtime": 1.2572,
-      "eval_samples_per_second": 3128.475,
-      "eval_steps_per_second": 49.317,
       "step": 2765
     },
     {
       "epoch": 5.06,
       "learning_rate": 4.9457504520795664e-06,
-      "loss": 0.1502,
       "step": 2800
     },
     {
       "epoch": 5.42,
       "learning_rate": 4.584086799276673e-06,
-      "loss": 0.1321,
       "step": 3000
     },
     {
       "epoch": 5.79,
       "learning_rate": 4.22242314647378e-06,
-      "loss": 0.132,
       "step": 3200
     },
     {
       "epoch": 6.0,
-      "eval_f1": 0.8702744691869497,
-      "eval_loss": 0.2296592891216278,
-      "eval_runtime": 1.2604,
-      "eval_samples_per_second": 3120.552,
-      "eval_steps_per_second": 49.193,
       "step": 3318
     },
     {
       "epoch": 6.15,
       "learning_rate": 3.860759493670886e-06,
-      "loss": 0.1311,
       "step": 3400
     },
     {
       "epoch": 6.51,
       "learning_rate": 3.499095840867993e-06,
-      "loss": 0.1204,
       "step": 3600
     },
     {
       "epoch": 6.87,
       "learning_rate": 3.1374321880650997e-06,
-      "loss": 0.1255,
       "step": 3800
     },
     {
       "epoch": 7.0,
-      "eval_f1": 0.8709216170544651,
-      "eval_loss": 0.2616898715496063,
-      "eval_runtime": 1.259,
-      "eval_samples_per_second": 3123.885,
-      "eval_steps_per_second": 49.245,
       "step": 3871
     },
     {
       "epoch": 7.23,
       "learning_rate": 2.7757685352622067e-06,
-      "loss": 0.1178,
       "step": 4000
     },
     {
       "epoch": 7.59,
       "learning_rate": 2.414104882459313e-06,
-      "loss": 0.1067,
       "step": 4200
     },
     {
       "epoch": 7.96,
       "learning_rate": 2.0524412296564196e-06,
-      "loss": 0.1162,
       "step": 4400
     },
     {
       "epoch": 8.0,
-      "eval_f1": 0.8737610850286907,
-      "eval_loss": 0.2972545921802521,
-      "eval_runtime": 1.2617,
-      "eval_samples_per_second": 3117.195,
-      "eval_steps_per_second": 49.14,
       "step": 4424
     },
     {
       "epoch": 8.32,
       "learning_rate": 1.6907775768535265e-06,
-      "loss": 0.0998,
       "step": 4600
     },
     {
       "epoch": 8.68,
       "learning_rate": 1.3291139240506329e-06,
-      "loss": 0.1036,
       "step": 4800
     },
     {
       "epoch": 9.0,
-      "eval_f1": 0.8713283077722902,
-      "eval_loss": 0.2818024754524231,
-      "eval_runtime": 1.2619,
-      "eval_samples_per_second": 3116.737,
-      "eval_steps_per_second": 49.132,
       "step": 4977
     },
     {
       "epoch": 9.04,
-      "learning_rate": 9.692585895117542e-07,
-      "loss": 0.1046,
       "step": 5000
     },
     {
       "epoch": 9.4,
-      "learning_rate": 6.075949367088608e-07,
-      "loss": 0.0923,
       "step": 5200
     },
     {
       "epoch": 9.76,
-      "learning_rate": 2.4593128390596746e-07,
-      "loss": 0.1,
       "step": 5400
     },
     {
       "epoch": 10.0,
-      "eval_f1": 0.8746249184605349,
-      "eval_loss": 0.3006608486175537,
-      "eval_runtime": 1.2724,
-      "eval_samples_per_second": 3090.907,
-      "eval_steps_per_second": 48.725,
       "step": 5530
     },
     {
       "epoch": 10.0,
       "step": 5530,
-      "total_flos": 2.160884009653253e+16,
-      "train_loss": 0.16197810992194342,
-      "train_runtime": 673.3062,
-      "train_samples_per_second": 525.63,
-      "train_steps_per_second": 8.213
     }
   ],
   "max_steps": 5530,
   "num_train_epochs": 10,
-  "total_flos": 2.160884009653253e+16,
   "trial_name": null,
   "trial_params": null
 }

   "log_history": [
     {
       "epoch": 0.36,
+      "learning_rate": 9.64376130198915e-06,
+      "loss": 0.4215,
       "step": 200
     },
     {
       "epoch": 0.72,
+      "learning_rate": 9.282097649186258e-06,
+      "loss": 0.2614,
       "step": 400
     },
     {
       "epoch": 1.0,
+      "eval_f1": 0.8499488752556237,
+      "eval_loss": 0.2190244346857071,
+      "eval_runtime": 1.2446,
+      "eval_samples_per_second": 3159.939,
+      "eval_steps_per_second": 49.813,
       "step": 553
     },
     {
       "epoch": 1.08,
+      "learning_rate": 8.922242314647379e-06,
+      "loss": 0.2192,
       "step": 600
     },
     {
       "epoch": 1.45,
       "learning_rate": 8.562386980108501e-06,
+      "loss": 0.2058,
       "step": 800
     },
     {
       "epoch": 1.81,
       "learning_rate": 8.200723327305607e-06,
+      "loss": 0.2071,
       "step": 1000
     },
     {
       "epoch": 2.0,
+      "eval_f1": 0.8515634971282705,
+      "eval_loss": 0.2217494249343872,
+      "eval_runtime": 1.2522,
+      "eval_samples_per_second": 3140.749,
+      "eval_steps_per_second": 49.511,
       "step": 1106
     },
     {
       "epoch": 2.17,
       "learning_rate": 7.839059674502714e-06,
+      "loss": 0.1868,
       "step": 1200
     },
     {
       "epoch": 2.53,
       "learning_rate": 7.47739602169982e-06,
+      "loss": 0.192,
       "step": 1400
     },
     {
       "epoch": 2.89,
       "learning_rate": 7.115732368896926e-06,
+      "loss": 0.1836,
       "step": 1600
     },
     {
       "epoch": 3.0,
+      "eval_f1": 0.8491147036181679,
+      "eval_loss": 0.20601968467235565,
+      "eval_runtime": 1.2402,
+      "eval_samples_per_second": 3171.202,
+      "eval_steps_per_second": 49.991,
       "step": 1659
     },
     {
       "epoch": 3.25,
       "learning_rate": 6.754068716094033e-06,
+      "loss": 0.159,
       "step": 1800
     },
     {
       "epoch": 3.62,
       "learning_rate": 6.392405063291139e-06,
+      "loss": 0.162,
       "step": 2000
     },
     {
       "epoch": 3.98,
       "learning_rate": 6.0307414104882465e-06,
+      "loss": 0.1594,
       "step": 2200
     },
     {
       "epoch": 4.0,
+      "eval_f1": 0.8638192911852525,
+      "eval_loss": 0.20834437012672424,
+      "eval_runtime": 1.2423,
+      "eval_samples_per_second": 3165.867,
+      "eval_steps_per_second": 49.907,
       "step": 2212
     },
     {
       "epoch": 4.34,
       "learning_rate": 5.669077757685353e-06,
+      "loss": 0.1375,
       "step": 2400
     },
     {
       "epoch": 4.7,
       "learning_rate": 5.30741410488246e-06,
+      "loss": 0.1482,
       "step": 2600
     },
     {
       "epoch": 5.0,
+      "eval_f1": 0.8526206538661131,
+      "eval_loss": 0.23504559695720673,
+      "eval_runtime": 1.2399,
+      "eval_samples_per_second": 3171.911,
+      "eval_steps_per_second": 50.002,
       "step": 2765
     },
     {
       "epoch": 5.06,
       "learning_rate": 4.9457504520795664e-06,
+      "loss": 0.1414,
       "step": 2800
     },
     {
       "epoch": 5.42,
       "learning_rate": 4.584086799276673e-06,
+      "loss": 0.1266,
       "step": 3000
     },
     {
       "epoch": 5.79,
       "learning_rate": 4.22242314647378e-06,
+      "loss": 0.1235,
       "step": 3200
     },
     {
       "epoch": 6.0,
+      "eval_f1": 0.848414539829853,
+      "eval_loss": 0.254622220993042,
+      "eval_runtime": 1.2422,
+      "eval_samples_per_second": 3166.078,
+      "eval_steps_per_second": 49.91,
       "step": 3318
     },
     {
       "epoch": 6.15,
       "learning_rate": 3.860759493670886e-06,
+      "loss": 0.1236,
       "step": 3400
     },
     {
       "epoch": 6.51,
       "learning_rate": 3.499095840867993e-06,
+      "loss": 0.1156,
       "step": 3600
     },
     {
       "epoch": 6.87,
       "learning_rate": 3.1374321880650997e-06,
+      "loss": 0.1171,
       "step": 3800
     },
     {
       "epoch": 7.0,
+      "eval_f1": 0.8627246678822611,
+      "eval_loss": 0.25215205550193787,
+      "eval_runtime": 1.24,
+      "eval_samples_per_second": 3171.812,
+      "eval_steps_per_second": 50.001,
       "step": 3871
     },
     {
       "epoch": 7.23,
       "learning_rate": 2.7757685352622067e-06,
+      "loss": 0.1142,
       "step": 4000
     },
     {
       "epoch": 7.59,
       "learning_rate": 2.414104882459313e-06,
+      "loss": 0.1077,
       "step": 4200
     },
     {
       "epoch": 7.96,
       "learning_rate": 2.0524412296564196e-06,
+      "loss": 0.1047,
       "step": 4400
     },
     {
       "epoch": 8.0,
+      "eval_f1": 0.8664757938573661,
+      "eval_loss": 0.2702699601650238,
+      "eval_runtime": 1.241,
+      "eval_samples_per_second": 3169.155,
+      "eval_steps_per_second": 49.959,
       "step": 4424
     },
     {
       "epoch": 8.32,
       "learning_rate": 1.6907775768535265e-06,
+      "loss": 0.1065,
       "step": 4600
     },
     {
       "epoch": 8.68,
       "learning_rate": 1.3291139240506329e-06,
+      "loss": 0.0955,
       "step": 4800
     },
     {
       "epoch": 9.0,
+      "eval_f1": 0.863843648208469,
+      "eval_loss": 0.29335275292396545,
+      "eval_runtime": 1.2406,
+      "eval_samples_per_second": 3170.163,
+      "eval_steps_per_second": 49.975,
       "step": 4977
     },
     {
       "epoch": 9.04,
+      "learning_rate": 9.674502712477397e-07,
+      "loss": 0.0943,
       "step": 5000
     },
     {
       "epoch": 9.4,
+      "learning_rate": 6.057866184448463e-07,
+      "loss": 0.0954,
       "step": 5200
     },
     {
       "epoch": 9.76,
+      "learning_rate": 2.44122965641953e-07,
+      "loss": 0.0856,
       "step": 5400
     },
     {
       "epoch": 10.0,
+      "eval_f1": 0.8667100977198697,
+      "eval_loss": 0.31616073846817017,
+      "eval_runtime": 1.2411,
+      "eval_samples_per_second": 3168.901,
+      "eval_steps_per_second": 49.955,
       "step": 5530
     },
     {
       "epoch": 10.0,
       "step": 5530,
+      "total_flos": 2.167962002090455e+16,
+      "train_loss": 0.1538462488819419,
+      "train_runtime": 909.5125,
+      "train_samples_per_second": 389.121,
+      "train_steps_per_second": 6.08
     }
   ],
   "max_steps": 5530,
   "num_train_epochs": 10,
+  "total_flos": 2.167962002090455e+16,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9421c76fc4ed283d50a38aa6ee18824009dd76d92e3e5f92ec7946335f3ea671
 size 4027

 version https://git-lfs.github.com/spec/v1
+oid sha256:323c4da4e0fda9b0292a8e4c447705e2384b4796bdac10410e0f4e6582573058
 size 4027