Training in progress, step 24, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +74 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:043a24487f95798eb31e2e434c8f075b49656a359854f8ff738f5f3c15acc083
 size 83945296

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb81ac1b964ed31e4b1ff1c64a37506b2a96efef0fc70b09b389a030d16c3f4b
 size 83945296

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9e447628aef17c528b9e6d3f3fb57f7d1f50cabfad42fff8d7b14821007d5cc8
 size 42545748

 version https://git-lfs.github.com/spec/v1
+oid sha256:e7cb67b858d82ecd307231b42f064860cff65961f05b8e65aa405c5eb6d6c6b8
 size 42545748

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:465463eb403cb020ef1ee281a98625c53f7ae06bb22cde52270f71fd23ceb4dc
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d63912703bb01fa9210978a44b98730cfdaa0a2f521b98b15df7dae272abb8ab
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.40777317617075504,
   "eval_steps": 500,
-  "global_step": 20,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -367,6 +367,78 @@
       "rewards/margins": 0.018004287034273148,
       "rewards/rejected": -0.10551030933856964,
       "step": 20
     }
   ],
   "logging_steps": 1,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.489327811404906,
   "eval_steps": 500,
+  "global_step": 24,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": 0.018004287034273148,
       "rewards/rejected": -0.10551030933856964,
       "step": 20
+    },
+    {
+      "epoch": 0.4281618349792928,
+      "grad_norm": 1.4550942182540894,
+      "learning_rate": 7.17948717948718e-05,
+      "log_odds_chosen": 0.2803484797477722,
+      "log_odds_ratio": -0.5891110897064209,
+      "logits/chosen": -2.177445888519287,
+      "logits/rejected": -2.1862730979919434,
+      "logps/chosen": -0.8740922808647156,
+      "logps/rejected": -1.0376415252685547,
+      "loss": 1.184,
+      "nll_loss": 1.125113606452942,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.08740923553705215,
+      "rewards/margins": 0.01635492593050003,
+      "rewards/rejected": -0.10376415401697159,
+      "step": 21
+    },
+    {
+      "epoch": 0.4485504937878305,
+      "grad_norm": 1.5131646394729614,
+      "learning_rate": 6.923076923076924e-05,
+      "log_odds_chosen": 0.3196752965450287,
+      "log_odds_ratio": -0.5673432350158691,
+      "logits/chosen": -2.139277458190918,
+      "logits/rejected": -2.1643970012664795,
+      "logps/chosen": -0.8622347116470337,
+      "logps/rejected": -1.060903549194336,
+      "loss": 1.1375,
+      "nll_loss": 1.0807565450668335,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.08622346818447113,
+      "rewards/margins": 0.019866881892085075,
+      "rewards/rejected": -0.10609035938978195,
+      "step": 22
+    },
+    {
+      "epoch": 0.46893915259636826,
+      "grad_norm": 1.7129428386688232,
+      "learning_rate": 6.666666666666667e-05,
+      "log_odds_chosen": 0.3558296263217926,
+      "log_odds_ratio": -0.551045298576355,
+      "logits/chosen": -2.1384575366973877,
+      "logits/rejected": -2.1461870670318604,
+      "logps/chosen": -0.8587465286254883,
+      "logps/rejected": -1.0661779642105103,
+      "loss": 1.1327,
+      "nll_loss": 1.0775768756866455,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.08587465435266495,
+      "rewards/margins": 0.02074313722550869,
+      "rewards/rejected": -0.10661779344081879,
+      "step": 23
+    },
+    {
+      "epoch": 0.489327811404906,
+      "grad_norm": 1.7440029382705688,
+      "learning_rate": 6.410256410256412e-05,
+      "log_odds_chosen": 0.32858026027679443,
+      "log_odds_ratio": -0.5619024038314819,
+      "logits/chosen": -2.1546478271484375,
+      "logits/rejected": -2.1749908924102783,
+      "logps/chosen": -0.835049033164978,
+      "logps/rejected": -1.0198912620544434,
+      "loss": 1.1057,
+      "nll_loss": 1.0495383739471436,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.08350490033626556,
+      "rewards/margins": 0.01848422922194004,
+      "rewards/rejected": -0.10198913514614105,
+      "step": 24
     }
   ],
   "logging_steps": 1,