Training in progress, step 189, checkpoint

Browse files

Files changed (5) hide show

checkpoint-189/adapter_config.json +2 -2
checkpoint-189/adapter_model.safetensors +1 -1
checkpoint-189/optimizer.pt +1 -1
checkpoint-189/trainer_state.json +40 -40
checkpoint-189/training_args.bin +1 -1

checkpoint-189/adapter_config.json CHANGED Viewed

@@ -20,10 +20,10 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "dense_4h_to_h",
     "query_key_value",
-    "dense",
-    "dense_h_to_4h"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "dense_h_to_4h",
     "dense_4h_to_h",
     "query_key_value",
+    "dense"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-189/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:70ef924a3b2ee6a30ba9e5cd2d4f47bc814a4ee6804218b2bfe561deb98ed1cf
 size 25192592

 version https://git-lfs.github.com/spec/v1
+oid sha256:494eaa6a42e3a3eb9ddb883caaf4c1f11700ece4d2c3e93a3c0cbb42cced9fbf
 size 25192592

checkpoint-189/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bb94df84640c4a014605fdcd9ce58ce0f2e55278a7eb8681fd87a0ab1712862c
 size 50493050

 version https://git-lfs.github.com/spec/v1
+oid sha256:22cd43f37ad0089088bc1ecfcc46234025b9de4c3acb0a15a64bd73003f94b63
 size 50493050

checkpoint-189/trainer_state.json CHANGED Viewed

@@ -10,65 +10,65 @@
   "log_history": [
     {
       "epoch": 0.2016,
-      "eval_logps/chosen": -106.34315490722656,
       "eval_logps/ref_chosen": -70.265625,
       "eval_logps/ref_rejected": -63.51186752319336,
-      "eval_logps/rejected": -106.34315490722656,
-      "eval_loss": 0.6557361483573914,
-      "eval_rewards/accuracies": 0.6162024772678456,
-      "eval_rewards/chosen": -1.8038759231567383,
-      "eval_rewards/margins": 0.1433669477701187,
-      "eval_rewards/rejected": -1.9472428560256958,
-      "eval_runtime": 2599.3441,
-      "eval_samples_per_second": 32.24,
-      "eval_steps_per_second": 4.03,
       "step": 63
     },
     {
       "epoch": 0.32,
-      "grad_norm": 5.536309242248535,
       "learning_rate": 2.3016987391917016e-05,
-      "logps/chosen": -187.26882934570312,
-      "logps/ref_chosen": -199.84158325195312,
-      "logps/ref_rejected": -140.63331604003906,
-      "logps/rejected": -187.26882934570312,
-      "loss": 0.4864,
-      "rewards/accuracies": 0.7975000143051147,
-      "rewards/chosen": 0.6286371350288391,
-      "rewards/margins": 0.6605393886566162,
-      "rewards/rejected": -0.031902212649583817,
       "step": 100
     },
     {
       "epoch": 0.4032,
-      "eval_logps/chosen": -123.7810287475586,
       "eval_logps/ref_chosen": -70.265625,
       "eval_logps/ref_rejected": -63.51186752319336,
-      "eval_logps/rejected": -123.7810287475586,
-      "eval_loss": 0.6727969646453857,
-      "eval_rewards/accuracies": 0.5971814515166702,
-      "eval_rewards/chosen": -2.6757709980010986,
-      "eval_rewards/margins": 0.16077223420143127,
-      "eval_rewards/rejected": -2.836543321609497,
-      "eval_runtime": 2597.2346,
-      "eval_samples_per_second": 32.266,
-      "eval_steps_per_second": 4.034,
       "step": 126
     },
     {
       "epoch": 0.6048,
-      "eval_logps/chosen": -136.31578063964844,
       "eval_logps/ref_chosen": -70.265625,
       "eval_logps/ref_rejected": -63.51186752319336,
-      "eval_logps/rejected": -136.31578063964844,
-      "eval_loss": 0.683315098285675,
-      "eval_rewards/accuracies": 0.5913224028066156,
-      "eval_rewards/chosen": -3.3025076389312744,
-      "eval_rewards/margins": 0.17308557033538818,
-      "eval_rewards/rejected": -3.475592851638794,
-      "eval_runtime": 2597.1774,
-      "eval_samples_per_second": 32.267,
-      "eval_steps_per_second": 4.034,
       "step": 189
     }
   ],

   "log_history": [
     {
       "epoch": 0.2016,
+      "eval_logps/chosen": -70.4515609741211,
       "eval_logps/ref_chosen": -70.265625,
       "eval_logps/ref_rejected": -63.51186752319336,
+      "eval_logps/rejected": -70.4515609741211,
+      "eval_loss": 0.700020968914032,
+      "eval_rewards/accuracies": 0.5043316388630343,
+      "eval_rewards/chosen": -0.009296582080423832,
+      "eval_rewards/margins": -0.0003258216893300414,
+      "eval_rewards/rejected": -0.00897076167166233,
+      "eval_runtime": 2598.2788,
+      "eval_samples_per_second": 32.253,
+      "eval_steps_per_second": 4.032,
       "step": 63
     },
     {
       "epoch": 0.32,
+      "grad_norm": 7.734374523162842,
       "learning_rate": 2.3016987391917016e-05,
+      "logps/chosen": -164.50128173828125,
+      "logps/ref_chosen": -159.2122802734375,
+      "logps/ref_rejected": -181.2625732421875,
+      "logps/rejected": -164.50128173828125,
+      "loss": 0.6682,
+      "rewards/accuracies": 0.5696874856948853,
+      "rewards/chosen": -0.26445069909095764,
+      "rewards/margins": 0.10393363237380981,
+      "rewards/rejected": -0.36838433146476746,
       "step": 100
     },
     {
       "epoch": 0.4032,
+      "eval_logps/chosen": -70.71819305419922,
       "eval_logps/ref_chosen": -70.265625,
       "eval_logps/ref_rejected": -63.51186752319336,
+      "eval_logps/rejected": -70.71819305419922,
+      "eval_loss": 0.6713600158691406,
+      "eval_rewards/accuracies": 0.5957017732273693,
+      "eval_rewards/chosen": -0.022628214210271835,
+      "eval_rewards/margins": 0.06350255757570267,
+      "eval_rewards/rejected": -0.0861307755112648,
+      "eval_runtime": 2598.0044,
+      "eval_samples_per_second": 32.256,
+      "eval_steps_per_second": 4.032,
       "step": 126
     },
     {
       "epoch": 0.6048,
+      "eval_logps/chosen": -71.90546417236328,
       "eval_logps/ref_chosen": -70.265625,
       "eval_logps/ref_rejected": -63.51186752319336,
+      "eval_logps/rejected": -71.90546417236328,
+      "eval_loss": 0.6622863411903381,
+      "eval_rewards/accuracies": 0.6141738860647717,
+      "eval_rewards/chosen": -0.08199150860309601,
+      "eval_rewards/margins": 0.08873386681079865,
+      "eval_rewards/rejected": -0.17072536051273346,
+      "eval_runtime": 2596.18,
+      "eval_samples_per_second": 32.279,
+      "eval_steps_per_second": 4.035,
       "step": 189
     }
   ],

checkpoint-189/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:46ff4287a15bff07546a9b59f8721b8272bf4ace050683003790d085d41bfcd5
 size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:c6686dc40b6db461a3b988241b5bc24010b480d0524615f6ccf956bf69c70fdf
 size 5176