GlycerinLOL
/

LLM_Teached_Pegasus_50k

@@ -1,5 +1,5 @@
 {
-    "epoch": 19.99,
     "predict_f1": 0.9105,
     "predict_gen_len": 27.065819657667195,
     "predict_loss": 1.6921558380126953,
@@ -13,8 +13,8 @@
     "predict_samples": 11334,
     "predict_samples_per_second": 7.383,
     "predict_steps_per_second": 0.462,
-    "train_loss": 0.3883497776129307,
-    "train_runtime": 10238.8851,
-    "train_samples_per_second": 97.667,
-    "train_steps_per_second": 0.762
 }

 {
+    "epoch": 29.99,
     "predict_f1": 0.9105,
     "predict_gen_len": 27.065819657667195,
     "predict_loss": 1.6921558380126953,
     "predict_samples": 11334,
     "predict_samples_per_second": 7.383,
     "predict_steps_per_second": 0.462,
+    "train_loss": 0.37363835000584267,
+    "train_runtime": 14987.4083,
+    "train_samples_per_second": 100.084,
+    "train_steps_per_second": 0.781
 }

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 19.99,
-    "train_loss": 0.3883497776129307,
-    "train_runtime": 10238.8851,
-    "train_samples_per_second": 97.667,
-    "train_steps_per_second": 0.762
 }

 {
+    "epoch": 29.99,
+    "train_loss": 0.37363835000584267,
+    "train_runtime": 14987.4083,
+    "train_samples_per_second": 100.084,
+    "train_steps_per_second": 0.781
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 19.990403071017276,
   "eval_steps": 500,
-  "global_step": 7800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -403,37 +403,245 @@
       "step": 7500
     },
     {
-      "epoch": 19.99,
-      "eval_f1": 0.9099,
-      "eval_gen_len": 26.541090909090908,
-      "eval_loss": 1.6258454322814941,
-      "eval_precision": 0.9108,
-      "eval_recall": 0.9093,
-      "eval_rouge1": 0.4708,
-      "eval_rouge2": 0.2214,
-      "eval_rougeL": 0.3861,
-      "eval_rougeLsum": 0.3863,
-      "eval_runtime": 510.6936,
-      "eval_samples_per_second": 5.385,
-      "eval_steps_per_second": 0.337,
       "step": 7800
     },
     {
-      "epoch": 19.99,
-      "step": 7800,
-      "total_flos": 1.441981436981674e+18,
-      "train_loss": 0.3883497776129307,
-      "train_runtime": 10238.8851,
-      "train_samples_per_second": 97.667,
-      "train_steps_per_second": 0.762
     }
   ],
   "logging_steps": 500,
-  "max_steps": 7800,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 20,
   "save_steps": 500,
-  "total_flos": 1.441981436981674e+18,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 29.986564299424185,
   "eval_steps": 500,
+  "global_step": 11700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "step": 7500
     },
     {
+      "epoch": 20.0,
+      "eval_f1": 0.91,
+      "eval_gen_len": 26.42509090909091,
+      "eval_loss": 1.620501160621643,
+      "eval_precision": 0.9111,
+      "eval_recall": 0.9092,
+      "eval_rouge1": 0.4727,
+      "eval_rouge2": 0.2223,
+      "eval_rougeL": 0.3876,
+      "eval_rougeLsum": 0.3876,
+      "eval_runtime": 508.7027,
+      "eval_samples_per_second": 5.406,
+      "eval_steps_per_second": 0.338,
       "step": 7800
     },
     {
+      "epoch": 20.51,
+      "learning_rate": 6.324786324786325e-06,
+      "loss": 1.6692,
+      "step": 8000
+    },
+    {
+      "epoch": 21.0,
+      "eval_f1": 0.9102,
+      "eval_gen_len": 26.748363636363635,
+      "eval_loss": 1.6152820587158203,
+      "eval_precision": 0.911,
+      "eval_recall": 0.9098,
+      "eval_rouge1": 0.4737,
+      "eval_rouge2": 0.2229,
+      "eval_rougeL": 0.388,
+      "eval_rougeLsum": 0.388,
+      "eval_runtime": 510.0415,
+      "eval_samples_per_second": 5.392,
+      "eval_steps_per_second": 0.337,
+      "step": 8191
+    },
+    {
+      "epoch": 21.79,
+      "learning_rate": 5.470085470085471e-06,
+      "loss": 1.6568,
+      "step": 8500
+    },
+    {
+      "epoch": 22.0,
+      "eval_f1": 0.9103,
+      "eval_gen_len": 26.532,
+      "eval_loss": 1.6104176044464111,
+      "eval_precision": 0.9113,
+      "eval_recall": 0.9096,
+      "eval_rouge1": 0.4733,
+      "eval_rouge2": 0.2221,
+      "eval_rougeL": 0.3885,
+      "eval_rougeLsum": 0.3886,
+      "eval_runtime": 508.5365,
+      "eval_samples_per_second": 5.408,
+      "eval_steps_per_second": 0.338,
+      "step": 8582
+    },
+    {
+      "epoch": 23.0,
+      "eval_f1": 0.9104,
+      "eval_gen_len": 26.82,
+      "eval_loss": 1.6056216955184937,
+      "eval_precision": 0.911,
+      "eval_recall": 0.9101,
+      "eval_rouge1": 0.4756,
+      "eval_rouge2": 0.2236,
+      "eval_rougeL": 0.3891,
+      "eval_rougeLsum": 0.3891,
+      "eval_runtime": 510.3093,
+      "eval_samples_per_second": 5.389,
+      "eval_steps_per_second": 0.337,
+      "step": 8973
+    },
+    {
+      "epoch": 23.07,
+      "learning_rate": 4.615384615384616e-06,
+      "loss": 1.6418,
+      "step": 9000
+    },
+    {
+      "epoch": 24.0,
+      "eval_f1": 0.9106,
+      "eval_gen_len": 26.55127272727273,
+      "eval_loss": 1.6021137237548828,
+      "eval_precision": 0.9115,
+      "eval_recall": 0.91,
+      "eval_rouge1": 0.476,
+      "eval_rouge2": 0.2246,
+      "eval_rougeL": 0.3903,
+      "eval_rougeLsum": 0.3903,
+      "eval_runtime": 506.3054,
+      "eval_samples_per_second": 5.432,
+      "eval_steps_per_second": 0.34,
+      "step": 9360
+    },
+    {
+      "epoch": 24.36,
+      "learning_rate": 3.760683760683761e-06,
+      "loss": 1.6319,
+      "step": 9500
+    },
+    {
+      "epoch": 25.0,
+      "eval_f1": 0.9105,
+      "eval_gen_len": 26.437454545454546,
+      "eval_loss": 1.5995395183563232,
+      "eval_precision": 0.9116,
+      "eval_recall": 0.9098,
+      "eval_rouge1": 0.4751,
+      "eval_rouge2": 0.2245,
+      "eval_rougeL": 0.3905,
+      "eval_rougeLsum": 0.3905,
+      "eval_runtime": 501.0862,
+      "eval_samples_per_second": 5.488,
+      "eval_steps_per_second": 0.343,
+      "step": 9751
+    },
+    {
+      "epoch": 25.64,
+      "learning_rate": 2.9059829059829063e-06,
+      "loss": 1.624,
+      "step": 10000
+    },
+    {
+      "epoch": 26.0,
+      "eval_f1": 0.9107,
+      "eval_gen_len": 26.60181818181818,
+      "eval_loss": 1.597448468208313,
+      "eval_precision": 0.9116,
+      "eval_recall": 0.9101,
+      "eval_rouge1": 0.4756,
+      "eval_rouge2": 0.2247,
+      "eval_rougeL": 0.3903,
+      "eval_rougeLsum": 0.3904,
+      "eval_runtime": 500.0077,
+      "eval_samples_per_second": 5.5,
+      "eval_steps_per_second": 0.344,
+      "step": 10142
+    },
+    {
+      "epoch": 26.92,
+      "learning_rate": 2.0512820512820513e-06,
+      "loss": 1.6184,
+      "step": 10500
+    },
+    {
+      "epoch": 27.0,
+      "eval_f1": 0.9106,
+      "eval_gen_len": 26.483272727272727,
+      "eval_loss": 1.5952799320220947,
+      "eval_precision": 0.9116,
+      "eval_recall": 0.9099,
+      "eval_rouge1": 0.4747,
+      "eval_rouge2": 0.2231,
+      "eval_rougeL": 0.3899,
+      "eval_rougeLsum": 0.3899,
+      "eval_runtime": 505.7256,
+      "eval_samples_per_second": 5.438,
+      "eval_steps_per_second": 0.34,
+      "step": 10533
+    },
+    {
+      "epoch": 28.0,
+      "eval_f1": 0.9107,
+      "eval_gen_len": 26.560363636363636,
+      "eval_loss": 1.594251036643982,
+      "eval_precision": 0.9116,
+      "eval_recall": 0.9102,
+      "eval_rouge1": 0.4758,
+      "eval_rouge2": 0.2243,
+      "eval_rougeL": 0.3907,
+      "eval_rougeLsum": 0.3908,
+      "eval_runtime": 503.0877,
+      "eval_samples_per_second": 5.466,
+      "eval_steps_per_second": 0.342,
+      "step": 10923
+    },
+    {
+      "epoch": 28.2,
+      "learning_rate": 1.1965811965811968e-06,
+      "loss": 1.6126,
+      "step": 11000
+    },
+    {
+      "epoch": 29.0,
+      "eval_f1": 0.9108,
+      "eval_gen_len": 26.577454545454547,
+      "eval_loss": 1.5936089754104614,
+      "eval_precision": 0.9117,
+      "eval_recall": 0.9103,
+      "eval_rouge1": 0.4776,
+      "eval_rouge2": 0.226,
+      "eval_rougeL": 0.3926,
+      "eval_rougeLsum": 0.3926,
+      "eval_runtime": 506.8028,
+      "eval_samples_per_second": 5.426,
+      "eval_steps_per_second": 0.339,
+      "step": 11314
+    },
+    {
+      "epoch": 29.47,
+      "learning_rate": 3.4188034188034194e-07,
+      "loss": 1.6148,
+      "step": 11500
+    },
+    {
+      "epoch": 29.99,
+      "eval_f1": 0.9108,
+      "eval_gen_len": 26.555636363636363,
+      "eval_loss": 1.5934168100357056,
+      "eval_precision": 0.9117,
+      "eval_recall": 0.9103,
+      "eval_rouge1": 0.4774,
+      "eval_rouge2": 0.2259,
+      "eval_rougeL": 0.3926,
+      "eval_rougeLsum": 0.3926,
+      "eval_runtime": 505.9746,
+      "eval_samples_per_second": 5.435,
+      "eval_steps_per_second": 0.34,
+      "step": 11700
+    },
+    {
+      "epoch": 29.99,
+      "step": 11700,
+      "total_flos": 2.1629605976148541e+18,
+      "train_loss": 0.37363835000584267,
+      "train_runtime": 14987.4083,
+      "train_samples_per_second": 100.084,
+      "train_steps_per_second": 0.781
     }
   ],
   "logging_steps": 500,
+  "max_steps": 11700,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 30,
   "save_steps": 500,
+  "total_flos": 2.1629605976148541e+18,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null