GlycerinLOL
/

LLM_Teached_Pegasus_50k

@@ -1,7 +1,7 @@
 {
-    "epoch": 7.99,
-    "train_loss": 0.637062493348733,
-    "train_runtime": 6322.7563,
-    "train_samples_per_second": 63.264,
-    "train_steps_per_second": 0.493
 }

 {
+    "epoch": 11.99,
+    "train_loss": 0.6240079896062867,
+    "train_runtime": 9692.0216,
+    "train_samples_per_second": 61.907,
+    "train_steps_per_second": 0.483
 }

train_results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-    "epoch": 7.99,
-    "train_loss": 0.637062493348733,
-    "train_runtime": 6322.7563,
-    "train_samples_per_second": 63.264,
-    "train_steps_per_second": 0.493
 }

 {
+    "epoch": 11.99,
+    "train_loss": 0.6240079896062867,
+    "train_runtime": 9692.0216,
+    "train_samples_per_second": 61.907,
+    "train_steps_per_second": 0.483
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 7.994241842610364,
   "eval_steps": 500,
-  "global_step": 3120,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -157,37 +157,119 @@
       "step": 3000
     },
     {
-      "epoch": 7.99,
-      "eval_f1": 0.9081,
-      "eval_gen_len": 26.465454545454545,
-      "eval_loss": 1.6796071529388428,
-      "eval_precision": 0.9092,
-      "eval_recall": 0.9073,
-      "eval_rouge1": 0.4613,
-      "eval_rouge2": 0.2127,
-      "eval_rougeL": 0.3775,
-      "eval_rougeLsum": 0.3772,
-      "eval_runtime": 504.4764,
-      "eval_samples_per_second": 5.451,
-      "eval_steps_per_second": 0.341,
       "step": 3120
     },
     {
-      "epoch": 7.99,
-      "step": 3120,
-      "total_flos": 5.768064442218578e+17,
-      "train_loss": 0.637062493348733,
-      "train_runtime": 6322.7563,
-      "train_samples_per_second": 63.264,
-      "train_steps_per_second": 0.493
     }
   ],
   "logging_steps": 500,
-  "max_steps": 3120,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 8,
   "save_steps": 500,
-  "total_flos": 5.768064442218578e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 11.990403071017274,
   "eval_steps": 500,
+  "global_step": 4680,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "step": 3000
     },
     {
+      "epoch": 8.0,
+      "eval_f1": 0.9083,
+      "eval_gen_len": 26.620363636363635,
+      "eval_loss": 1.676251769065857,
+      "eval_precision": 0.9094,
+      "eval_recall": 0.9076,
+      "eval_rouge1": 0.4621,
+      "eval_rouge2": 0.2133,
+      "eval_rougeL": 0.3791,
+      "eval_rougeLsum": 0.3789,
+      "eval_runtime": 506.5847,
+      "eval_samples_per_second": 5.429,
+      "eval_steps_per_second": 0.34,
       "step": 3120
     },
     {
+      "epoch": 8.97,
+      "learning_rate": 5.042735042735043e-06,
+      "loss": 1.7559,
+      "step": 3500
+    },
+    {
+      "epoch": 9.0,
+      "eval_f1": 0.9086,
+      "eval_gen_len": 26.424,
+      "eval_loss": 1.666217565536499,
+      "eval_precision": 0.9098,
+      "eval_recall": 0.9078,
+      "eval_rouge1": 0.4632,
+      "eval_rouge2": 0.215,
+      "eval_rougeL": 0.38,
+      "eval_rougeLsum": 0.3799,
+      "eval_runtime": 507.5176,
+      "eval_samples_per_second": 5.419,
+      "eval_steps_per_second": 0.339,
+      "step": 3511
+    },
+    {
+      "epoch": 10.0,
+      "eval_f1": 0.9089,
+      "eval_gen_len": 26.542545454545454,
+      "eval_loss": 1.6593670845031738,
+      "eval_precision": 0.9099,
+      "eval_recall": 0.9082,
+      "eval_rouge1": 0.4651,
+      "eval_rouge2": 0.2168,
+      "eval_rougeL": 0.3812,
+      "eval_rougeLsum": 0.3812,
+      "eval_runtime": 501.1134,
+      "eval_samples_per_second": 5.488,
+      "eval_steps_per_second": 0.343,
+      "step": 3902
+    },
+    {
+      "epoch": 10.25,
+      "learning_rate": 2.9059829059829063e-06,
+      "loss": 1.7357,
+      "step": 4000
+    },
+    {
+      "epoch": 11.0,
+      "eval_f1": 0.9091,
+      "eval_gen_len": 26.605090909090908,
+      "eval_loss": 1.6554700136184692,
+      "eval_precision": 0.91,
+      "eval_recall": 0.9086,
+      "eval_rouge1": 0.4663,
+      "eval_rouge2": 0.2178,
+      "eval_rougeL": 0.3824,
+      "eval_rougeLsum": 0.3823,
+      "eval_runtime": 504.1076,
+      "eval_samples_per_second": 5.455,
+      "eval_steps_per_second": 0.341,
+      "step": 4293
+    },
+    {
+      "epoch": 11.53,
+      "learning_rate": 7.692307692307694e-07,
+      "loss": 1.7297,
+      "step": 4500
+    },
+    {
+      "epoch": 11.99,
+      "eval_f1": 0.9092,
+      "eval_gen_len": 26.54581818181818,
+      "eval_loss": 1.654082179069519,
+      "eval_precision": 0.9101,
+      "eval_recall": 0.9085,
+      "eval_rouge1": 0.4665,
+      "eval_rouge2": 0.2182,
+      "eval_rougeL": 0.3824,
+      "eval_rougeLsum": 0.3824,
+      "eval_runtime": 506.4111,
+      "eval_samples_per_second": 5.43,
+      "eval_steps_per_second": 0.34,
+      "step": 4680
+    },
+    {
+      "epoch": 11.99,
+      "step": 4680,
+      "total_flos": 8.651981084751299e+17,
+      "train_loss": 0.6240079896062867,
+      "train_runtime": 9692.0216,
+      "train_samples_per_second": 61.907,
+      "train_steps_per_second": 0.483
     }
   ],
   "logging_steps": 500,
+  "max_steps": 4680,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 12,
   "save_steps": 500,
+  "total_flos": 8.651981084751299e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null