End of training

Browse files

Files changed (7) hide show

README.md +22 -7
all_results.json +22 -22
eval_results.json +9 -9
generated_predictions.txt +0 -0
predict_results.json +9 -9
train_results.json +4 -4
trainer_state.json +60 -60

README.md CHANGED Viewed

@@ -1,4 +1,6 @@
 ---
 license: apache-2.0
 base_model: LazarusNLP/IndoNanoT5-base
 tags:
@@ -9,7 +11,20 @@ metrics:
 - rouge
 model-index:
 - name: liputan6-seq_bn-rf16
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -17,14 +32,14 @@ should probably proofread and complete it, then remove this comment. -->
 # liputan6-seq_bn-rf16
-This model is a fine-tuned version of [LazarusNLP/IndoNanoT5-base](https://huggingface.co/LazarusNLP/IndoNanoT5-base) on the id_liputan6 dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.2554
-- Rouge1: 44.3826
-- Rouge2: 35.7034
-- Rougel: 40.7597
-- Rougelsum: 42.9985
-- Gen Len: 58.818
 ## Model description

 ---
+language:
+- id
 license: apache-2.0
 base_model: LazarusNLP/IndoNanoT5-base
 tags:
 - rouge
 model-index:
 - name: liputan6-seq_bn-rf16
+  results:
+  - task:
+      name: Summarization
+      type: summarization
+    dataset:
+      name: id_liputan6 canonical
+      type: id_liputan6
+      config: canonical
+      split: validation
+      args: canonical
+    metrics:
+    - name: Rouge1
+      type: rouge
+      value: 44.408
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # liputan6-seq_bn-rf16
+This model is a fine-tuned version of [LazarusNLP/IndoNanoT5-base](https://huggingface.co/LazarusNLP/IndoNanoT5-base) on the id_liputan6 canonical dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.2554
+- Rouge1: 44.408
+- Rouge2: 35.788
+- Rougel: 40.8449
+- Rougelsum: 43.0054
+- Gen Len: 62.247
 ## Model description

all_results.json CHANGED Viewed

@@ -1,29 +1,29 @@
 {
     "epoch": 5.0,
-    "eval_gen_len": 39.933,
-    "eval_loss": 2.7479429244995117,
-    "eval_rouge1": 27.6391,
-    "eval_rouge2": 12.5407,
-    "eval_rougeL": 23.5774,
-    "eval_rougeLsum": 25.3376,
-    "eval_runtime": 579.6294,
     "eval_samples": 1000,
-    "eval_samples_per_second": 1.725,
-    "eval_steps_per_second": 0.055,
-    "predict_gen_len": 38.109,
-    "predict_loss": 2.1557793617248535,
-    "predict_rouge1": 35.0494,
-    "predict_rouge2": 18.8325,
-    "predict_rougeL": 30.2344,
-    "predict_rougeLsum": 32.847,
-    "predict_runtime": 569.6774,
     "predict_samples": 1000,
-    "predict_samples_per_second": 1.755,
-    "predict_steps_per_second": 0.056,
     "total_flos": 3451266662400000.0,
-    "train_loss": 2.1248473152281746,
-    "train_runtime": 753.9081,
     "train_samples": 1000,
-    "train_samples_per_second": 6.632,
-    "train_steps_per_second": 0.418
 }

 {
     "epoch": 5.0,
+    "eval_gen_len": 62.247,
+    "eval_loss": 0.2554154396057129,
+    "eval_rouge1": 44.408,
+    "eval_rouge2": 35.788,
+    "eval_rougeL": 40.8449,
+    "eval_rougeLsum": 43.0054,
+    "eval_runtime": 1049.7457,
     "eval_samples": 1000,
+    "eval_samples_per_second": 0.953,
+    "eval_steps_per_second": 0.03,
+    "predict_gen_len": 58.886,
+    "predict_loss": 0.2672796845436096,
+    "predict_rouge1": 48.4063,
+    "predict_rouge2": 40.615,
+    "predict_rougeL": 45.5379,
+    "predict_rougeLsum": 47.4594,
+    "predict_runtime": 1019.1087,
     "predict_samples": 1000,
+    "predict_samples_per_second": 0.981,
+    "predict_steps_per_second": 0.031,
     "total_flos": 3451266662400000.0,
+    "train_loss": 0.477710209195576,
+    "train_runtime": 1217.2314,
     "train_samples": 1000,
+    "train_samples_per_second": 4.108,
+    "train_steps_per_second": 0.259
 }

eval_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 5.0,
-    "eval_gen_len": 39.933,
-    "eval_loss": 2.7479429244995117,
-    "eval_rouge1": 27.6391,
-    "eval_rouge2": 12.5407,
-    "eval_rougeL": 23.5774,
-    "eval_rougeLsum": 25.3376,
-    "eval_runtime": 579.6294,
     "eval_samples": 1000,
-    "eval_samples_per_second": 1.725,
-    "eval_steps_per_second": 0.055
 }

 {
     "epoch": 5.0,
+    "eval_gen_len": 62.247,
+    "eval_loss": 0.2554154396057129,
+    "eval_rouge1": 44.408,
+    "eval_rouge2": 35.788,
+    "eval_rougeL": 40.8449,
+    "eval_rougeLsum": 43.0054,
+    "eval_runtime": 1049.7457,
     "eval_samples": 1000,
+    "eval_samples_per_second": 0.953,
+    "eval_steps_per_second": 0.03
 }

generated_predictions.txt CHANGED Viewed

The diff for this file is too large to render. See raw diff

predict_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "predict_gen_len": 38.109,
-    "predict_loss": 2.1557793617248535,
-    "predict_rouge1": 35.0494,
-    "predict_rouge2": 18.8325,
-    "predict_rougeL": 30.2344,
-    "predict_rougeLsum": 32.847,
-    "predict_runtime": 569.6774,
     "predict_samples": 1000,
-    "predict_samples_per_second": 1.755,
-    "predict_steps_per_second": 0.056
 }

 {
+    "predict_gen_len": 58.886,
+    "predict_loss": 0.2672796845436096,
+    "predict_rouge1": 48.4063,
+    "predict_rouge2": 40.615,
+    "predict_rougeL": 45.5379,
+    "predict_rougeLsum": 47.4594,
+    "predict_runtime": 1019.1087,
     "predict_samples": 1000,
+    "predict_samples_per_second": 0.981,
+    "predict_steps_per_second": 0.031
 }

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 5.0,
     "total_flos": 3451266662400000.0,
-    "train_loss": 2.1248473152281746,
-    "train_runtime": 753.9081,
     "train_samples": 1000,
-    "train_samples_per_second": 6.632,
-    "train_steps_per_second": 0.418
 }

 {
     "epoch": 5.0,
     "total_flos": 3451266662400000.0,
+    "train_loss": 0.477710209195576,
+    "train_runtime": 1217.2314,
     "train_samples": 1000,
+    "train_samples_per_second": 4.108,
+    "train_steps_per_second": 0.259
 }

trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 26.9743,
   "best_model_checkpoint": "bin/liputan6-seq_bn-rf16/checkpoint-315",
   "epoch": 5.0,
   "eval_steps": 500,
@@ -10,112 +10,112 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 1.7438846826553345,
       "learning_rate": 0.0008,
-      "loss": 2.6241,
       "step": 63
     },
     {
       "epoch": 1.0,
-      "eval_gen_len": 33.387,
-      "eval_loss": 2.753352403640747,
-      "eval_rouge1": 23.3287,
-      "eval_rouge2": 9.5988,
-      "eval_rougeL": 20.1923,
-      "eval_rougeLsum": 21.2916,
-      "eval_runtime": 101.8941,
-      "eval_samples_per_second": 9.814,
-      "eval_steps_per_second": 0.314,
       "step": 63
     },
     {
       "epoch": 2.0,
-      "grad_norm": 1.6395297050476074,
       "learning_rate": 0.0006,
-      "loss": 2.228,
       "step": 126
     },
     {
       "epoch": 2.0,
-      "eval_gen_len": 32.153,
-      "eval_loss": 2.702471971511841,
-      "eval_rouge1": 25.8033,
-      "eval_rouge2": 10.8168,
-      "eval_rougeL": 21.9451,
-      "eval_rougeLsum": 23.4491,
-      "eval_runtime": 112.7526,
-      "eval_samples_per_second": 8.869,
-      "eval_steps_per_second": 0.284,
       "step": 126
     },
     {
       "epoch": 3.0,
-      "grad_norm": 1.6557146310806274,
       "learning_rate": 0.0004,
-      "loss": 2.0615,
       "step": 189
     },
     {
       "epoch": 3.0,
-      "eval_gen_len": 30.873,
-      "eval_loss": 2.674882411956787,
-      "eval_rouge1": 25.8887,
-      "eval_rouge2": 10.7586,
-      "eval_rougeL": 22.113,
-      "eval_rougeLsum": 23.8997,
-      "eval_runtime": 90.651,
-      "eval_samples_per_second": 11.031,
-      "eval_steps_per_second": 0.353,
       "step": 189
     },
     {
       "epoch": 4.0,
-      "grad_norm": 2.0358853340148926,
       "learning_rate": 0.0002,
-      "loss": 1.9099,
       "step": 252
     },
     {
       "epoch": 4.0,
-      "eval_gen_len": 31.524,
-      "eval_loss": 2.719660997390747,
-      "eval_rouge1": 26.5565,
-      "eval_rouge2": 11.2255,
-      "eval_rougeL": 22.6026,
-      "eval_rougeLsum": 24.5495,
-      "eval_runtime": 95.5774,
-      "eval_samples_per_second": 10.463,
-      "eval_steps_per_second": 0.335,
       "step": 252
     },
     {
       "epoch": 5.0,
-      "grad_norm": 1.7301920652389526,
       "learning_rate": 0.0,
-      "loss": 1.8007,
       "step": 315
     },
     {
       "epoch": 5.0,
-      "eval_gen_len": 33.854,
-      "eval_loss": 2.7479429244995117,
-      "eval_rouge1": 26.9743,
-      "eval_rouge2": 11.4843,
-      "eval_rougeL": 22.9863,
-      "eval_rougeLsum": 24.9284,
-      "eval_runtime": 101.7272,
-      "eval_samples_per_second": 9.83,
-      "eval_steps_per_second": 0.315,
       "step": 315
     },
     {
       "epoch": 5.0,
       "step": 315,
       "total_flos": 3451266662400000.0,
-      "train_loss": 2.1248473152281746,
-      "train_runtime": 753.9081,
-      "train_samples_per_second": 6.632,
-      "train_steps_per_second": 0.418
     }
   ],
   "logging_steps": 500,

 {
+  "best_metric": 44.3826,
   "best_model_checkpoint": "bin/liputan6-seq_bn-rf16/checkpoint-315",
   "epoch": 5.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 1.0219109058380127,
       "learning_rate": 0.0008,
+      "loss": 0.9013,
       "step": 63
     },
     {
       "epoch": 1.0,
+      "eval_gen_len": 46.887,
+      "eval_loss": 0.36000651121139526,
+      "eval_rouge1": 40.5674,
+      "eval_rouge2": 32.5892,
+      "eval_rougeL": 37.7471,
+      "eval_rougeLsum": 39.1368,
+      "eval_runtime": 220.7029,
+      "eval_samples_per_second": 4.531,
+      "eval_steps_per_second": 0.145,
       "step": 63
     },
     {
       "epoch": 2.0,
+      "grad_norm": 1.3100820779800415,
       "learning_rate": 0.0006,
+      "loss": 0.4754,
       "step": 126
     },
     {
       "epoch": 2.0,
+      "eval_gen_len": 56.767,
+      "eval_loss": 0.29582464694976807,
+      "eval_rouge1": 43.3031,
+      "eval_rouge2": 34.5149,
+      "eval_rougeL": 39.7514,
+      "eval_rougeLsum": 41.863,
+      "eval_runtime": 188.9607,
+      "eval_samples_per_second": 5.292,
+      "eval_steps_per_second": 0.169,
       "step": 126
     },
     {
       "epoch": 3.0,
+      "grad_norm": 1.5092746019363403,
       "learning_rate": 0.0004,
+      "loss": 0.3811,
       "step": 189
     },
     {
       "epoch": 3.0,
+      "eval_gen_len": 57.898,
+      "eval_loss": 0.26292842626571655,
+      "eval_rouge1": 43.4511,
+      "eval_rouge2": 34.6775,
+      "eval_rougeL": 39.9831,
+      "eval_rougeLsum": 42.0606,
+      "eval_runtime": 182.6393,
+      "eval_samples_per_second": 5.475,
+      "eval_steps_per_second": 0.175,
       "step": 189
     },
     {
       "epoch": 4.0,
+      "grad_norm": 1.0736172199249268,
       "learning_rate": 0.0002,
+      "loss": 0.3317,
       "step": 252
     },
     {
       "epoch": 4.0,
+      "eval_gen_len": 57.815,
+      "eval_loss": 0.2609642446041107,
+      "eval_rouge1": 43.9259,
+      "eval_rouge2": 35.2198,
+      "eval_rougeL": 40.3143,
+      "eval_rougeLsum": 42.5364,
+      "eval_runtime": 186.4402,
+      "eval_samples_per_second": 5.364,
+      "eval_steps_per_second": 0.172,
       "step": 252
     },
     {
       "epoch": 5.0,
+      "grad_norm": 1.079635739326477,
       "learning_rate": 0.0,
+      "loss": 0.299,
       "step": 315
     },
     {
       "epoch": 5.0,
+      "eval_gen_len": 58.818,
+      "eval_loss": 0.2554154396057129,
+      "eval_rouge1": 44.3826,
+      "eval_rouge2": 35.7034,
+      "eval_rougeL": 40.7597,
+      "eval_rougeLsum": 42.9985,
+      "eval_runtime": 186.4288,
+      "eval_samples_per_second": 5.364,
+      "eval_steps_per_second": 0.172,
       "step": 315
     },
     {
       "epoch": 5.0,
       "step": 315,
       "total_flos": 3451266662400000.0,
+      "train_loss": 0.477710209195576,
+      "train_runtime": 1217.2314,
+      "train_samples_per_second": 4.108,
+      "train_steps_per_second": 0.259
     }
   ],
   "logging_steps": 500,