End of training

Browse files

Files changed (7) hide show

README.md +22 -7
all_results.json +19 -19
eval_results.json +7 -7
generated_predictions.txt +0 -0
predict_results.json +8 -8
train_results.json +4 -4
trainer_state.json +53 -53

README.md CHANGED Viewed

@@ -1,4 +1,6 @@
 ---
 license: apache-2.0
 base_model: LazarusNLP/IndoNanoT5-base
 tags:
@@ -9,7 +11,20 @@ metrics:
 - rouge
 model-index:
 - name: liputan6-unipelt
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -17,13 +32,13 @@ should probably proofread and complete it, then remove this comment. -->
 # liputan6-unipelt
-This model is a fine-tuned version of [LazarusNLP/IndoNanoT5-base](https://huggingface.co/LazarusNLP/IndoNanoT5-base) on the id_liputan6 dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.3672
-- Rouge1: 5.0669
-- Rouge2: 1.0704
-- Rougel: 3.6335
-- Rougelsum: 4.1011
 - Gen Len: 127.0
 ## Model description

 ---
+language:
+- id
 license: apache-2.0
 base_model: LazarusNLP/IndoNanoT5-base
 tags:
 - rouge
 model-index:
 - name: liputan6-unipelt
+  results:
+  - task:
+      name: Summarization
+      type: summarization
+    dataset:
+      name: id_liputan6 canonical
+      type: id_liputan6
+      config: canonical
+      split: validation
+      args: canonical
+    metrics:
+    - name: Rouge1
+      type: rouge
+      value: 1.8031
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # liputan6-unipelt
+This model is a fine-tuned version of [LazarusNLP/IndoNanoT5-base](https://huggingface.co/LazarusNLP/IndoNanoT5-base) on the id_liputan6 canonical dataset.
 It achieves the following results on the evaluation set:
+- Loss: 2.5645
+- Rouge1: 1.8031
+- Rouge2: 0.4028
+- Rougel: 1.5585
+- Rougelsum: 1.6132
 - Gen Len: 127.0
 ## Model description

all_results.json CHANGED Viewed

@@ -1,29 +1,29 @@
 {
     "epoch": 5.0,
     "eval_gen_len": 127.0,
-    "eval_loss": 3.9181036949157715,
-    "eval_rouge1": 6.2596,
-    "eval_rouge2": 1.3631,
-    "eval_rougeL": 5.5527,
-    "eval_rougeLsum": 5.702,
-    "eval_runtime": 3038.3287,
     "eval_samples": 1000,
-    "eval_samples_per_second": 0.329,
     "eval_steps_per_second": 0.011,
     "predict_gen_len": 127.0,
-    "predict_loss": 3.675906181335449,
-    "predict_rouge1": 8.1435,
-    "predict_rouge2": 1.7586,
-    "predict_rougeL": 6.9904,
-    "predict_rougeLsum": 7.4145,
-    "predict_runtime": 3068.2499,
     "predict_samples": 1000,
-    "predict_samples_per_second": 0.326,
-    "predict_steps_per_second": 0.01,
     "total_flos": 3920273141760000.0,
-    "train_loss": 3.429138425796751,
-    "train_runtime": 4104.3672,
     "train_samples": 1000,
-    "train_samples_per_second": 1.218,
-    "train_steps_per_second": 0.077
 }

 {
     "epoch": 5.0,
     "eval_gen_len": 127.0,
+    "eval_loss": 2.564530849456787,
+    "eval_rouge1": 1.8031,
+    "eval_rouge2": 0.4028,
+    "eval_rougeL": 1.5585,
+    "eval_rougeLsum": 1.6132,
+    "eval_runtime": 2903.5388,
     "eval_samples": 1000,
+    "eval_samples_per_second": 0.344,
     "eval_steps_per_second": 0.011,
     "predict_gen_len": 127.0,
+    "predict_loss": 2.4079694747924805,
+    "predict_rouge1": 2.3863,
+    "predict_rouge2": 0.6285,
+    "predict_rougeL": 2.0562,
+    "predict_rougeLsum": 2.1567,
+    "predict_runtime": 2906.5636,
     "predict_samples": 1000,
+    "predict_samples_per_second": 0.344,
+    "predict_steps_per_second": 0.011,
     "total_flos": 3920273141760000.0,
+    "train_loss": 2.8293707469153024,
+    "train_runtime": 4145.4302,
     "train_samples": 1000,
+    "train_samples_per_second": 1.206,
+    "train_steps_per_second": 0.076
 }

eval_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 5.0,
     "eval_gen_len": 127.0,
-    "eval_loss": 3.9181036949157715,
-    "eval_rouge1": 6.2596,
-    "eval_rouge2": 1.3631,
-    "eval_rougeL": 5.5527,
-    "eval_rougeLsum": 5.702,
-    "eval_runtime": 3038.3287,
     "eval_samples": 1000,
-    "eval_samples_per_second": 0.329,
     "eval_steps_per_second": 0.011
 }

 {
     "epoch": 5.0,
     "eval_gen_len": 127.0,
+    "eval_loss": 2.564530849456787,
+    "eval_rouge1": 1.8031,
+    "eval_rouge2": 0.4028,
+    "eval_rougeL": 1.5585,
+    "eval_rougeLsum": 1.6132,
+    "eval_runtime": 2903.5388,
     "eval_samples": 1000,
+    "eval_samples_per_second": 0.344,
     "eval_steps_per_second": 0.011
 }

generated_predictions.txt CHANGED Viewed

The diff for this file is too large to render. See raw diff

predict_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
     "predict_gen_len": 127.0,
-    "predict_loss": 3.675906181335449,
-    "predict_rouge1": 8.1435,
-    "predict_rouge2": 1.7586,
-    "predict_rougeL": 6.9904,
-    "predict_rougeLsum": 7.4145,
-    "predict_runtime": 3068.2499,
     "predict_samples": 1000,
-    "predict_samples_per_second": 0.326,
-    "predict_steps_per_second": 0.01
 }

 {
     "predict_gen_len": 127.0,
+    "predict_loss": 2.4079694747924805,
+    "predict_rouge1": 2.3863,
+    "predict_rouge2": 0.6285,
+    "predict_rougeL": 2.0562,
+    "predict_rougeLsum": 2.1567,
+    "predict_runtime": 2906.5636,
     "predict_samples": 1000,
+    "predict_samples_per_second": 0.344,
+    "predict_steps_per_second": 0.011
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 5.0,
     "total_flos": 3920273141760000.0,
-    "train_loss": 3.429138425796751,
-    "train_runtime": 4104.3672,
     "train_samples": 1000,
-    "train_samples_per_second": 1.218,
-    "train_steps_per_second": 0.077
 }

 {
     "epoch": 5.0,
     "total_flos": 3920273141760000.0,
+    "train_loss": 2.8293707469153024,
+    "train_runtime": 4145.4302,
     "train_samples": 1000,
+    "train_samples_per_second": 1.206,
+    "train_steps_per_second": 0.076
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 6.5087,
-  "best_model_checkpoint": "bin/liputan6-unipelt/checkpoint-63",
   "epoch": 5.0,
   "eval_steps": 500,
   "global_step": 315,
@@ -10,101 +10,101 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 1.6662813425064087,
       "learning_rate": 0.0008,
-      "loss": 4.4282,
       "step": 63
     },
     {
       "epoch": 1.0,
       "eval_gen_len": 127.0,
-      "eval_loss": 3.9181036949157715,
-      "eval_rouge1": 6.5087,
-      "eval_rouge2": 1.1507,
-      "eval_rougeL": 5.6509,
-      "eval_rougeLsum": 5.8646,
-      "eval_runtime": 719.7468,
-      "eval_samples_per_second": 1.389,
-      "eval_steps_per_second": 0.044,
       "step": 63
     },
     {
       "epoch": 2.0,
-      "grad_norm": 1.9859250783920288,
       "learning_rate": 0.0006,
-      "loss": 3.5887,
       "step": 126
     },
     {
       "epoch": 2.0,
       "eval_gen_len": 127.0,
-      "eval_loss": 3.7177910804748535,
-      "eval_rouge1": 2.446,
-      "eval_rouge2": 0.2311,
-      "eval_rougeL": 2.2699,
-      "eval_rougeLsum": 2.3165,
-      "eval_runtime": 730.7553,
-      "eval_samples_per_second": 1.368,
-      "eval_steps_per_second": 0.044,
       "step": 126
     },
     {
       "epoch": 3.0,
-      "grad_norm": 2.097254991531372,
       "learning_rate": 0.0004,
-      "loss": 3.2648,
       "step": 189
     },
     {
       "epoch": 3.0,
       "eval_gen_len": 127.0,
-      "eval_loss": 3.648098945617676,
-      "eval_rouge1": 2.5164,
-      "eval_rouge2": 0.1545,
-      "eval_rougeL": 2.3984,
-      "eval_rougeLsum": 2.4483,
-      "eval_runtime": 742.5951,
-      "eval_samples_per_second": 1.347,
       "eval_steps_per_second": 0.043,
       "step": 189
     },
     {
       "epoch": 4.0,
-      "grad_norm": 2.1174938678741455,
       "learning_rate": 0.0002,
-      "loss": 3.0219,
       "step": 252
     },
     {
       "epoch": 4.0,
       "eval_gen_len": 127.0,
-      "eval_loss": 3.6383612155914307,
-      "eval_rouge1": 1.8155,
-      "eval_rouge2": 0.0676,
-      "eval_rougeL": 1.7586,
-      "eval_rougeLsum": 1.7921,
-      "eval_runtime": 741.1853,
-      "eval_samples_per_second": 1.349,
       "eval_steps_per_second": 0.043,
       "step": 252
     },
     {
       "epoch": 5.0,
-      "grad_norm": 2.148689031600952,
       "learning_rate": 0.0,
-      "loss": 2.8422,
       "step": 315
     },
     {
       "epoch": 5.0,
       "eval_gen_len": 127.0,
-      "eval_loss": 3.6315574645996094,
-      "eval_rouge1": 1.8166,
-      "eval_rouge2": 0.0438,
-      "eval_rougeL": 1.7867,
-      "eval_rougeLsum": 1.8115,
-      "eval_runtime": 723.9069,
-      "eval_samples_per_second": 1.381,
       "eval_steps_per_second": 0.044,
       "step": 315
     },
@@ -112,10 +112,10 @@
       "epoch": 5.0,
       "step": 315,
       "total_flos": 3920273141760000.0,
-      "train_loss": 3.429138425796751,
-      "train_runtime": 4104.3672,
-      "train_samples_per_second": 1.218,
-      "train_steps_per_second": 0.077
     }
   ],
   "logging_steps": 500,

 {
+  "best_metric": 5.2587,
+  "best_model_checkpoint": "bin/liputan6-unipelt/checkpoint-189",
   "epoch": 5.0,
   "eval_steps": 500,
   "global_step": 315,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 1.8045581579208374,
       "learning_rate": 0.0008,
+      "loss": 3.9747,
       "step": 63
     },
     {
       "epoch": 1.0,
       "eval_gen_len": 127.0,
+      "eval_loss": 3.104259490966797,
+      "eval_rouge1": 3.9543,
+      "eval_rouge2": 1.0191,
+      "eval_rougeL": 3.7375,
+      "eval_rougeLsum": 3.7922,
+      "eval_runtime": 736.3876,
+      "eval_samples_per_second": 1.358,
+      "eval_steps_per_second": 0.043,
       "step": 63
     },
     {
       "epoch": 2.0,
+      "grad_norm": 1.7170506715774536,
       "learning_rate": 0.0006,
+      "loss": 3.0262,
       "step": 126
     },
     {
       "epoch": 2.0,
       "eval_gen_len": 127.0,
+      "eval_loss": 2.7314035892486572,
+      "eval_rouge1": 5.0276,
+      "eval_rouge2": 1.3105,
+      "eval_rougeL": 4.1292,
+      "eval_rougeLsum": 4.3574,
+      "eval_runtime": 743.2532,
+      "eval_samples_per_second": 1.345,
+      "eval_steps_per_second": 0.043,
       "step": 126
     },
     {
       "epoch": 3.0,
+      "grad_norm": 2.0221407413482666,
       "learning_rate": 0.0004,
+      "loss": 2.6214,
       "step": 189
     },
     {
       "epoch": 3.0,
       "eval_gen_len": 127.0,
+      "eval_loss": 2.564530849456787,
+      "eval_rouge1": 5.2587,
+      "eval_rouge2": 1.2673,
+      "eval_rougeL": 3.8487,
+      "eval_rougeLsum": 4.3728,
+      "eval_runtime": 744.0563,
+      "eval_samples_per_second": 1.344,
       "eval_steps_per_second": 0.043,
       "step": 189
     },
     {
       "epoch": 4.0,
+      "grad_norm": 2.192720890045166,
       "learning_rate": 0.0002,
+      "loss": 2.3496,
       "step": 252
     },
     {
       "epoch": 4.0,
       "eval_gen_len": 127.0,
+      "eval_loss": 2.415849208831787,
+      "eval_rouge1": 4.4309,
+      "eval_rouge2": 0.9142,
+      "eval_rougeL": 3.2152,
+      "eval_rougeLsum": 3.5296,
+      "eval_runtime": 745.8849,
+      "eval_samples_per_second": 1.341,
       "eval_steps_per_second": 0.043,
       "step": 252
     },
     {
       "epoch": 5.0,
+      "grad_norm": 2.1153810024261475,
       "learning_rate": 0.0,
+      "loss": 2.1749,
       "step": 315
     },
     {
       "epoch": 5.0,
       "eval_gen_len": 127.0,
+      "eval_loss": 2.367219924926758,
+      "eval_rouge1": 5.0669,
+      "eval_rouge2": 1.0704,
+      "eval_rougeL": 3.6335,
+      "eval_rougeLsum": 4.1011,
+      "eval_runtime": 730.8251,
+      "eval_samples_per_second": 1.368,
       "eval_steps_per_second": 0.044,
       "step": 315
     },
       "epoch": 5.0,
       "step": 315,
       "total_flos": 3920273141760000.0,
+      "train_loss": 2.8293707469153024,
+      "train_runtime": 4145.4302,
+      "train_samples_per_second": 1.206,
+      "train_steps_per_second": 0.076
     }
   ],
   "logging_steps": 500,