End of training

Browse files

Files changed (7) hide show

README.md +23 -8
all_results.json +22 -22
eval_results.json +9 -9
generated_predictions.txt +0 -0
predict_results.json +9 -9
train_results.json +4 -4
trainer_state.json +60 -60

README.md CHANGED Viewed

@@ -1,4 +1,6 @@
 ---
 license: apache-2.0
 base_model: LazarusNLP/IndoNanoT5-base
 tags:
@@ -9,7 +11,20 @@ metrics:
 - rouge
 model-index:
 - name: liputan6-lora-8
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -17,14 +32,14 @@ should probably proofread and complete it, then remove this comment. -->
 # liputan6-lora-8
-This model is a fine-tuned version of [LazarusNLP/IndoNanoT5-base](https://huggingface.co/LazarusNLP/IndoNanoT5-base) on the id_liputan6 dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.2389
-- Rouge1: 42.5107
-- Rouge2: 33.6017
-- Rougel: 39.0118
-- Rougelsum: 41.0601
-- Gen Len: 55.005
 ## Model description

 ---
+language:
+- id
 license: apache-2.0
 base_model: LazarusNLP/IndoNanoT5-base
 tags:
 - rouge
 model-index:
 - name: liputan6-lora-8
+  results:
+  - task:
+      name: Summarization
+      type: summarization
+    dataset:
+      name: id_liputan6 canonical
+      type: id_liputan6
+      config: canonical
+      split: validation
+      args: canonical
+    metrics:
+    - name: Rouge1
+      type: rouge
+      value: 44.041
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # liputan6-lora-8
+This model is a fine-tuned version of [LazarusNLP/IndoNanoT5-base](https://huggingface.co/LazarusNLP/IndoNanoT5-base) on the id_liputan6 canonical dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.2482
+- Rouge1: 44.041
+- Rouge2: 35.4021
+- Rougel: 40.435
+- Rougelsum: 42.6248
+- Gen Len: 60.602
 ## Model description

all_results.json CHANGED Viewed

@@ -1,29 +1,29 @@
 {
     "epoch": 5.0,
-    "eval_gen_len": 35.496,
-    "eval_loss": 2.6337075233459473,
-    "eval_rouge1": 29.078,
-    "eval_rouge2": 13.2531,
-    "eval_rougeL": 24.7383,
-    "eval_rougeLsum": 26.5396,
-    "eval_runtime": 810.9249,
     "eval_samples": 1000,
-    "eval_samples_per_second": 1.233,
-    "eval_steps_per_second": 0.039,
-    "predict_gen_len": 35.069,
-    "predict_loss": 2.1046853065490723,
-    "predict_rouge1": 36.4081,
-    "predict_rouge2": 20.0914,
-    "predict_rougeL": 31.0252,
-    "predict_rougeLsum": 33.8995,
-    "predict_runtime": 888.8681,
     "predict_samples": 1000,
-    "predict_samples_per_second": 1.125,
-    "predict_steps_per_second": 0.036,
     "total_flos": 3437376307200000.0,
-    "train_loss": 2.4014356340680805,
-    "train_runtime": 1409.9107,
     "train_samples": 1000,
-    "train_samples_per_second": 3.546,
-    "train_steps_per_second": 0.223
 }

 {
     "epoch": 5.0,
+    "eval_gen_len": 60.602,
+    "eval_loss": 0.2482166737318039,
+    "eval_rouge1": 44.041,
+    "eval_rouge2": 35.4021,
+    "eval_rougeL": 40.435,
+    "eval_rougeLsum": 42.6248,
+    "eval_runtime": 1953.2624,
     "eval_samples": 1000,
+    "eval_samples_per_second": 0.512,
+    "eval_steps_per_second": 0.016,
+    "predict_gen_len": 57.55,
+    "predict_loss": 0.26384109258651733,
+    "predict_rouge1": 47.4027,
+    "predict_rouge2": 39.6598,
+    "predict_rougeL": 44.3945,
+    "predict_rougeLsum": 46.4662,
+    "predict_runtime": 1956.9719,
     "predict_samples": 1000,
+    "predict_samples_per_second": 0.511,
+    "predict_steps_per_second": 0.016,
     "total_flos": 3437376307200000.0,
+    "train_loss": 0.6767798650832403,
+    "train_runtime": 2125.3106,
     "train_samples": 1000,
+    "train_samples_per_second": 2.353,
+    "train_steps_per_second": 0.148
 }

eval_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 5.0,
-    "eval_gen_len": 35.496,
-    "eval_loss": 2.6337075233459473,
-    "eval_rouge1": 29.078,
-    "eval_rouge2": 13.2531,
-    "eval_rougeL": 24.7383,
-    "eval_rougeLsum": 26.5396,
-    "eval_runtime": 810.9249,
     "eval_samples": 1000,
-    "eval_samples_per_second": 1.233,
-    "eval_steps_per_second": 0.039
 }

 {
     "epoch": 5.0,
+    "eval_gen_len": 60.602,
+    "eval_loss": 0.2482166737318039,
+    "eval_rouge1": 44.041,
+    "eval_rouge2": 35.4021,
+    "eval_rougeL": 40.435,
+    "eval_rougeLsum": 42.6248,
+    "eval_runtime": 1953.2624,
     "eval_samples": 1000,
+    "eval_samples_per_second": 0.512,
+    "eval_steps_per_second": 0.016
 }

generated_predictions.txt CHANGED Viewed

The diff for this file is too large to render. See raw diff

predict_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "predict_gen_len": 35.069,
-    "predict_loss": 2.1046853065490723,
-    "predict_rouge1": 36.4081,
-    "predict_rouge2": 20.0914,
-    "predict_rougeL": 31.0252,
-    "predict_rougeLsum": 33.8995,
-    "predict_runtime": 888.8681,
     "predict_samples": 1000,
-    "predict_samples_per_second": 1.125,
-    "predict_steps_per_second": 0.036
 }

 {
+    "predict_gen_len": 57.55,
+    "predict_loss": 0.26384109258651733,
+    "predict_rouge1": 47.4027,
+    "predict_rouge2": 39.6598,
+    "predict_rougeL": 44.3945,
+    "predict_rougeLsum": 46.4662,
+    "predict_runtime": 1956.9719,
     "predict_samples": 1000,
+    "predict_samples_per_second": 0.511,
+    "predict_steps_per_second": 0.016
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 5.0,
     "total_flos": 3437376307200000.0,
-    "train_loss": 2.4014356340680805,
-    "train_runtime": 1409.9107,
     "train_samples": 1000,
-    "train_samples_per_second": 3.546,
-    "train_steps_per_second": 0.223
 }

 {
     "epoch": 5.0,
     "total_flos": 3437376307200000.0,
+    "train_loss": 0.6767798650832403,
+    "train_runtime": 2125.3106,
     "train_samples": 1000,
+    "train_samples_per_second": 2.353,
+    "train_steps_per_second": 0.148
 }

trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 28.8883,
   "best_model_checkpoint": "bin/liputan6-lora-8/checkpoint-252",
   "epoch": 5.0,
   "eval_steps": 500,
@@ -10,112 +10,112 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 1.1928575038909912,
       "learning_rate": 0.0008,
-      "loss": 3.1146,
       "step": 63
     },
     {
       "epoch": 1.0,
-      "eval_gen_len": 28.445,
-      "eval_loss": 2.77751088142395,
-      "eval_rouge1": 25.1926,
-      "eval_rouge2": 10.831,
-      "eval_rougeL": 21.8588,
-      "eval_rougeLsum": 23.0603,
-      "eval_runtime": 282.5418,
-      "eval_samples_per_second": 3.539,
-      "eval_steps_per_second": 0.113,
       "step": 63
     },
     {
       "epoch": 2.0,
-      "grad_norm": 1.15657377243042,
       "learning_rate": 0.0006,
-      "loss": 2.3694,
       "step": 126
     },
     {
       "epoch": 2.0,
-      "eval_gen_len": 35.297,
-      "eval_loss": 2.6682474613189697,
-      "eval_rouge1": 27.3169,
-      "eval_rouge2": 12.0479,
-      "eval_rougeL": 23.5983,
-      "eval_rougeLsum": 25.0305,
-      "eval_runtime": 263.6368,
-      "eval_samples_per_second": 3.793,
-      "eval_steps_per_second": 0.121,
       "step": 126
     },
     {
       "epoch": 3.0,
-      "grad_norm": 1.2961732149124146,
       "learning_rate": 0.0004,
-      "loss": 2.2462,
       "step": 189
     },
     {
       "epoch": 3.0,
-      "eval_gen_len": 31.547,
-      "eval_loss": 2.610564708709717,
-      "eval_rouge1": 27.8939,
-      "eval_rouge2": 12.0631,
-      "eval_rougeL": 23.6765,
-      "eval_rougeLsum": 25.5954,
-      "eval_runtime": 173.0596,
-      "eval_samples_per_second": 5.778,
-      "eval_steps_per_second": 0.185,
       "step": 189
     },
     {
       "epoch": 4.0,
-      "grad_norm": 1.227543830871582,
       "learning_rate": 0.0002,
-      "loss": 2.1582,
       "step": 252
     },
     {
       "epoch": 4.0,
-      "eval_gen_len": 31.688,
-      "eval_loss": 2.6337075233459473,
-      "eval_rouge1": 28.8883,
-      "eval_rouge2": 12.7056,
-      "eval_rougeL": 24.6102,
-      "eval_rougeLsum": 26.4945,
-      "eval_runtime": 153.1276,
-      "eval_samples_per_second": 6.53,
-      "eval_steps_per_second": 0.209,
       "step": 252
     },
     {
       "epoch": 5.0,
-      "grad_norm": 1.2467632293701172,
       "learning_rate": 0.0,
-      "loss": 2.1188,
       "step": 315
     },
     {
       "epoch": 5.0,
-      "eval_gen_len": 32.655,
-      "eval_loss": 2.638486385345459,
-      "eval_rouge1": 28.3508,
-      "eval_rouge2": 12.5031,
-      "eval_rougeL": 24.1992,
-      "eval_rougeLsum": 26.092,
-      "eval_runtime": 177.4741,
-      "eval_samples_per_second": 5.635,
-      "eval_steps_per_second": 0.18,
       "step": 315
     },
     {
       "epoch": 5.0,
       "step": 315,
       "total_flos": 3437376307200000.0,
-      "train_loss": 2.4014356340680805,
-      "train_runtime": 1409.9107,
-      "train_samples_per_second": 3.546,
-      "train_steps_per_second": 0.223
     }
   ],
   "logging_steps": 500,

 {
+  "best_metric": 42.8202,
   "best_model_checkpoint": "bin/liputan6-lora-8/checkpoint-252",
   "epoch": 5.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 1.214747428894043,
       "learning_rate": 0.0008,
+      "loss": 1.4611,
       "step": 63
     },
     {
       "epoch": 1.0,
+      "eval_gen_len": 26.342,
+      "eval_loss": 0.4168391823768616,
+      "eval_rouge1": 20.2294,
+      "eval_rouge2": 15.1672,
+      "eval_rougeL": 18.3462,
+      "eval_rougeLsum": 19.5551,
+      "eval_runtime": 361.7096,
+      "eval_samples_per_second": 2.765,
+      "eval_steps_per_second": 0.088,
       "step": 63
     },
     {
       "epoch": 2.0,
+      "grad_norm": 1.2018976211547852,
       "learning_rate": 0.0006,
+      "loss": 0.6123,
       "step": 126
     },
     {
       "epoch": 2.0,
+      "eval_gen_len": 54.709,
+      "eval_loss": 0.3029869794845581,
+      "eval_rouge1": 42.4943,
+      "eval_rouge2": 33.9837,
+      "eval_rougeL": 39.042,
+      "eval_rougeLsum": 40.9843,
+      "eval_runtime": 392.3812,
+      "eval_samples_per_second": 2.549,
+      "eval_steps_per_second": 0.082,
       "step": 126
     },
     {
       "epoch": 3.0,
+      "grad_norm": 1.4286189079284668,
       "learning_rate": 0.0004,
+      "loss": 0.4836,
       "step": 189
     },
     {
       "epoch": 3.0,
+      "eval_gen_len": 48.258,
+      "eval_loss": 0.2516452670097351,
+      "eval_rouge1": 39.2983,
+      "eval_rouge2": 30.3972,
+      "eval_rougeL": 36.1696,
+      "eval_rougeLsum": 37.7681,
+      "eval_runtime": 320.2113,
+      "eval_samples_per_second": 3.123,
+      "eval_steps_per_second": 0.1,
       "step": 189
     },
     {
       "epoch": 4.0,
+      "grad_norm": 0.9979777932167053,
       "learning_rate": 0.0002,
+      "loss": 0.4256,
       "step": 252
     },
     {
       "epoch": 4.0,
+      "eval_gen_len": 54.56,
+      "eval_loss": 0.2482166737318039,
+      "eval_rouge1": 42.8202,
+      "eval_rouge2": 33.9496,
+      "eval_rougeL": 39.2137,
+      "eval_rougeLsum": 41.343,
+      "eval_runtime": 345.5791,
+      "eval_samples_per_second": 2.894,
+      "eval_steps_per_second": 0.093,
       "step": 252
     },
     {
       "epoch": 5.0,
+      "grad_norm": 1.1315256357192993,
       "learning_rate": 0.0,
+      "loss": 0.4014,
       "step": 315
     },
     {
       "epoch": 5.0,
+      "eval_gen_len": 55.005,
+      "eval_loss": 0.23890838027000427,
+      "eval_rouge1": 42.5107,
+      "eval_rouge2": 33.6017,
+      "eval_rougeL": 39.0118,
+      "eval_rougeLsum": 41.0601,
+      "eval_runtime": 343.6619,
+      "eval_samples_per_second": 2.91,
+      "eval_steps_per_second": 0.093,
       "step": 315
     },
     {
       "epoch": 5.0,
       "step": 315,
       "total_flos": 3437376307200000.0,
+      "train_loss": 0.6767798650832403,
+      "train_runtime": 2125.3106,
+      "train_samples_per_second": 2.353,
+      "train_steps_per_second": 0.148
     }
   ],
   "logging_steps": 500,