Training in progress, step 252, checkpoint

Browse files

Files changed (5) hide show

checkpoint-252/adapter_config.json +2 -2
checkpoint-252/adapter_model.safetensors +1 -1
checkpoint-252/optimizer.pt +1 -1
checkpoint-252/trainer_state.json +60 -60
checkpoint-252/training_args.bin +1 -1

checkpoint-252/adapter_config.json CHANGED Viewed

@@ -20,10 +20,10 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "dense_4h_to_h",
     "query_key_value",
-    "dense",
-    "dense_h_to_4h"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "dense_h_to_4h",
     "dense_4h_to_h",
     "query_key_value",
+    "dense"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-252/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dbd62e42b19c59ed514333838ba090f7e306aa508856a1ec5f15755f8de0bc91
 size 25192592

 version https://git-lfs.github.com/spec/v1
+oid sha256:77dafc85bc2620e59612b35d70ad335f0904786e6b6bd08ab47d1ab414ff40ed
 size 25192592

checkpoint-252/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bafbacbdff4fd0f3d2b7442288b4eeb33475142089923784e4b7d922b553da4a
 size 50493050

 version https://git-lfs.github.com/spec/v1
+oid sha256:e3b83517807e8ec5f7da79c29749c3a3ba25e45c5f4176966a6c252218d63ccc
 size 50493050

checkpoint-252/trainer_state.json CHANGED Viewed

@@ -10,96 +10,96 @@
   "log_history": [
     {
       "epoch": 0.2016,
-      "eval_logps/chosen": -106.34315490722656,
       "eval_logps/ref_chosen": -70.265625,
       "eval_logps/ref_rejected": -63.51186752319336,
-      "eval_logps/rejected": -106.34315490722656,
-      "eval_loss": 0.6557361483573914,
-      "eval_rewards/accuracies": 0.6162024772678456,
-      "eval_rewards/chosen": -1.8038759231567383,
-      "eval_rewards/margins": 0.1433669477701187,
-      "eval_rewards/rejected": -1.9472428560256958,
-      "eval_runtime": 2599.3441,
-      "eval_samples_per_second": 32.24,
-      "eval_steps_per_second": 4.03,
       "step": 63
     },
     {
       "epoch": 0.32,
-      "grad_norm": 5.536309242248535,
       "learning_rate": 2.3016987391917016e-05,
-      "logps/chosen": -187.26882934570312,
-      "logps/ref_chosen": -199.84158325195312,
-      "logps/ref_rejected": -140.63331604003906,
-      "logps/rejected": -187.26882934570312,
-      "loss": 0.4864,
-      "rewards/accuracies": 0.7975000143051147,
-      "rewards/chosen": 0.6286371350288391,
-      "rewards/margins": 0.6605393886566162,
-      "rewards/rejected": -0.031902212649583817,
       "step": 100
     },
     {
       "epoch": 0.4032,
-      "eval_logps/chosen": -123.7810287475586,
       "eval_logps/ref_chosen": -70.265625,
       "eval_logps/ref_rejected": -63.51186752319336,
-      "eval_logps/rejected": -123.7810287475586,
-      "eval_loss": 0.6727969646453857,
-      "eval_rewards/accuracies": 0.5971814515166702,
-      "eval_rewards/chosen": -2.6757709980010986,
-      "eval_rewards/margins": 0.16077223420143127,
-      "eval_rewards/rejected": -2.836543321609497,
-      "eval_runtime": 2597.2346,
-      "eval_samples_per_second": 32.266,
-      "eval_steps_per_second": 4.034,
       "step": 126
     },
     {
       "epoch": 0.6048,
-      "eval_logps/chosen": -136.31578063964844,
       "eval_logps/ref_chosen": -70.265625,
       "eval_logps/ref_rejected": -63.51186752319336,
-      "eval_logps/rejected": -136.31578063964844,
-      "eval_loss": 0.683315098285675,
-      "eval_rewards/accuracies": 0.5913224028066156,
-      "eval_rewards/chosen": -3.3025076389312744,
-      "eval_rewards/margins": 0.17308557033538818,
-      "eval_rewards/rejected": -3.475592851638794,
-      "eval_runtime": 2597.1774,
-      "eval_samples_per_second": 32.267,
-      "eval_steps_per_second": 4.034,
       "step": 189
     },
     {
       "epoch": 0.64,
-      "grad_norm": 6.213208198547363,
       "learning_rate": 8.569611578954186e-06,
-      "logps/chosen": -181.8887176513672,
-      "logps/ref_chosen": -198.8422088623047,
-      "logps/ref_rejected": -139.47769165039062,
-      "logps/rejected": -181.8887176513672,
-      "loss": 0.3802,
-      "rewards/accuracies": 0.8515625,
-      "rewards/chosen": 0.8476755023002625,
-      "rewards/margins": 1.189441204071045,
-      "rewards/rejected": -0.3417656719684601,
       "step": 200
     },
     {
       "epoch": 0.8064,
-      "eval_logps/chosen": -139.97152709960938,
       "eval_logps/ref_chosen": -70.265625,
       "eval_logps/ref_rejected": -63.51186752319336,
-      "eval_logps/rejected": -139.97152709960938,
-      "eval_loss": 0.6932100653648376,
-      "eval_rewards/accuracies": 0.5844013269373046,
-      "eval_rewards/chosen": -3.4852941036224365,
-      "eval_rewards/margins": 0.16311165690422058,
-      "eval_rewards/rejected": -3.6484062671661377,
-      "eval_runtime": 2597.2713,
-      "eval_samples_per_second": 32.265,
-      "eval_steps_per_second": 4.033,
       "step": 252
     }
   ],

   "log_history": [
     {
       "epoch": 0.2016,
+      "eval_logps/chosen": -70.4515609741211,
       "eval_logps/ref_chosen": -70.265625,
       "eval_logps/ref_rejected": -63.51186752319336,
+      "eval_logps/rejected": -70.4515609741211,
+      "eval_loss": 0.700020968914032,
+      "eval_rewards/accuracies": 0.5043316388630343,
+      "eval_rewards/chosen": -0.009296582080423832,
+      "eval_rewards/margins": -0.0003258216893300414,
+      "eval_rewards/rejected": -0.00897076167166233,
+      "eval_runtime": 2598.2788,
+      "eval_samples_per_second": 32.253,
+      "eval_steps_per_second": 4.032,
       "step": 63
     },
     {
       "epoch": 0.32,
+      "grad_norm": 7.734374523162842,
       "learning_rate": 2.3016987391917016e-05,
+      "logps/chosen": -164.50128173828125,
+      "logps/ref_chosen": -159.2122802734375,
+      "logps/ref_rejected": -181.2625732421875,
+      "logps/rejected": -164.50128173828125,
+      "loss": 0.6682,
+      "rewards/accuracies": 0.5696874856948853,
+      "rewards/chosen": -0.26445069909095764,
+      "rewards/margins": 0.10393363237380981,
+      "rewards/rejected": -0.36838433146476746,
       "step": 100
     },
     {
       "epoch": 0.4032,
+      "eval_logps/chosen": -70.71819305419922,
       "eval_logps/ref_chosen": -70.265625,
       "eval_logps/ref_rejected": -63.51186752319336,
+      "eval_logps/rejected": -70.71819305419922,
+      "eval_loss": 0.6713600158691406,
+      "eval_rewards/accuracies": 0.5957017732273693,
+      "eval_rewards/chosen": -0.022628214210271835,
+      "eval_rewards/margins": 0.06350255757570267,
+      "eval_rewards/rejected": -0.0861307755112648,
+      "eval_runtime": 2598.0044,
+      "eval_samples_per_second": 32.256,
+      "eval_steps_per_second": 4.032,
       "step": 126
     },
     {
       "epoch": 0.6048,
+      "eval_logps/chosen": -71.90546417236328,
       "eval_logps/ref_chosen": -70.265625,
       "eval_logps/ref_rejected": -63.51186752319336,
+      "eval_logps/rejected": -71.90546417236328,
+      "eval_loss": 0.6622863411903381,
+      "eval_rewards/accuracies": 0.6141738860647717,
+      "eval_rewards/chosen": -0.08199150860309601,
+      "eval_rewards/margins": 0.08873386681079865,
+      "eval_rewards/rejected": -0.17072536051273346,
+      "eval_runtime": 2596.18,
+      "eval_samples_per_second": 32.279,
+      "eval_steps_per_second": 4.035,
       "step": 189
     },
     {
       "epoch": 0.64,
+      "grad_norm": 5.594386100769043,
       "learning_rate": 8.569611578954186e-06,
+      "logps/chosen": -161.8042755126953,
+      "logps/ref_chosen": -158.50271606445312,
+      "logps/ref_rejected": -179.81715393066406,
+      "logps/rejected": -161.8042755126953,
+      "loss": 0.6423,
+      "rewards/accuracies": 0.6114062666893005,
+      "rewards/chosen": -0.16507746279239655,
+      "rewards/margins": 0.20611368119716644,
+      "rewards/rejected": -0.371191143989563,
       "step": 200
     },
     {
       "epoch": 0.8064,
+      "eval_logps/chosen": -72.42017364501953,
       "eval_logps/ref_chosen": -70.265625,
       "eval_logps/ref_rejected": -63.51186752319336,
+      "eval_logps/rejected": -72.42017364501953,
+      "eval_loss": 0.6550462245941162,
+      "eval_rewards/accuracies": 0.6268585475286986,
+      "eval_rewards/chosen": -0.10772793740034103,
+      "eval_rewards/margins": 0.10725179314613342,
+      "eval_rewards/rejected": -0.21497976779937744,
+      "eval_runtime": 2596.7824,
+      "eval_samples_per_second": 32.271,
+      "eval_steps_per_second": 4.034,
       "step": 252
     }
   ],

checkpoint-252/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:46ff4287a15bff07546a9b59f8721b8272bf4ace050683003790d085d41bfcd5
 size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:c6686dc40b6db461a3b988241b5bc24010b480d0524615f6ccf956bf69c70fdf
 size 5176