Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +416 -2

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:feebdf15b898053d608d81daa4cd6dd099ba6cf7071641ae91ca882a1baebaf4
 size 9457000

 version https://git-lfs.github.com/spec/v1
+oid sha256:c0561e7ed4d443d1f7d722a0e016b22f4a79764883f29b0122abf03eae1c5ff1
 size 9457000

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2641f2cb2b4fdeee3f9a4ee5a13215510784a49436a654bc8c3ccb112504636d
 size 18959674

 version https://git-lfs.github.com/spec/v1
+oid sha256:029ab3a32b62f8cfa70402fb5a58342fc41f36f6d7f46eba10716734a8fbc3f6
 size 18959674

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:901454eae3a785b11565176eda263a4901a5e801f61aaac1a63fa07ac7277b3e
 size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:12534d7d85158ad1e24da867bd6732e982602f6d1d21ce2a4da4ae53f2b517d3
 size 14180

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2754bf07d01336164e4bfa949e826e310b35cd5348cd170cf25a5bcbcf51c8d0
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:391a1d3d730c41dd9c6567f59f3dba0d5b6ed61dbd6f102cc6921f5a5ecd6965
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.260327357755261,
   "eval_steps": 200,
-  "global_step": 5800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1341,6 +1341,420 @@
       "eval_samples_per_second": 1.134,
       "eval_steps_per_second": 0.567,
       "step": 5800
     }
   ],
   "logging_steps": 100,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.9618082618862043,
   "eval_steps": 200,
+  "global_step": 7600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1.134,
       "eval_steps_per_second": 0.567,
       "step": 5800
+    },
+    {
+      "epoch": 2.2992985190958692,
+      "grad_norm": 0.003995438106358051,
+      "learning_rate": 6.764888892618867e-05,
+      "logits/chosen": -19.462810516357422,
+      "logits/rejected": -18.417314529418945,
+      "logps/chosen": -375.923583984375,
+      "logps/rejected": -394.6671447753906,
+      "loss": 0.0051,
+      "rewards/accuracies": 0.9937499761581421,
+      "rewards/chosen": -1.9151861667633057,
+      "rewards/margins": 11.908782005310059,
+      "rewards/rejected": -13.823966026306152,
+      "step": 5900
+    },
+    {
+      "epoch": 2.338269680436477,
+      "grad_norm": 0.003454476362094283,
+      "learning_rate": 6.064541531901838e-05,
+      "logits/chosen": -19.41205406188965,
+      "logits/rejected": -18.35369873046875,
+      "logps/chosen": -374.3619384765625,
+      "logps/rejected": -392.4114990234375,
+      "loss": 0.004,
+      "rewards/accuracies": 0.9962499737739563,
+      "rewards/chosen": -2.0450844764709473,
+      "rewards/margins": 11.8558988571167,
+      "rewards/rejected": -13.900982856750488,
+      "step": 6000
+    },
+    {
+      "epoch": 2.338269680436477,
+      "eval_logits/chosen": -15.477252960205078,
+      "eval_logits/rejected": -15.445527076721191,
+      "eval_logps/chosen": -347.4806213378906,
+      "eval_logps/rejected": -386.5325927734375,
+      "eval_loss": 0.00025467213708907366,
+      "eval_rewards/accuracies": 1.0,
+      "eval_rewards/chosen": -0.5821936130523682,
+      "eval_rewards/margins": 11.38007926940918,
+      "eval_rewards/rejected": -11.962273597717285,
+      "eval_runtime": 183.2231,
+      "eval_samples_per_second": 1.135,
+      "eval_steps_per_second": 0.568,
+      "step": 6000
+    },
+    {
+      "epoch": 2.377240841777085,
+      "grad_norm": 0.0025488168466836214,
+      "learning_rate": 5.397431121068011e-05,
+      "logits/chosen": -19.279691696166992,
+      "logits/rejected": -18.215682983398438,
+      "logps/chosen": -391.84844970703125,
+      "logps/rejected": -398.8818359375,
+      "loss": 0.003,
+      "rewards/accuracies": 0.9962499737739563,
+      "rewards/chosen": -2.172652006149292,
+      "rewards/margins": 12.266448020935059,
+      "rewards/rejected": -14.439099311828613,
+      "step": 6100
+    },
+    {
+      "epoch": 2.416212003117693,
+      "grad_norm": 0.0001306094927713275,
+      "learning_rate": 4.7647286228024944e-05,
+      "logits/chosen": -19.264507293701172,
+      "logits/rejected": -18.2991886138916,
+      "logps/chosen": -368.3695373535156,
+      "logps/rejected": -395.1746826171875,
+      "loss": 0.0021,
+      "rewards/accuracies": 0.9975000023841858,
+      "rewards/chosen": -2.2215933799743652,
+      "rewards/margins": 12.452881813049316,
+      "rewards/rejected": -14.674474716186523,
+      "step": 6200
+    },
+    {
+      "epoch": 2.416212003117693,
+      "eval_logits/chosen": -15.429259300231934,
+      "eval_logits/rejected": -15.400547981262207,
+      "eval_logps/chosen": -350.2945556640625,
+      "eval_logps/rejected": -390.7493896484375,
+      "eval_loss": 0.0002859699307009578,
+      "eval_rewards/accuracies": 1.0,
+      "eval_rewards/chosen": -0.8635876178741455,
+      "eval_rewards/margins": 11.520365715026855,
+      "eval_rewards/rejected": -12.383952140808105,
+      "eval_runtime": 183.7971,
+      "eval_samples_per_second": 1.132,
+      "eval_steps_per_second": 0.566,
+      "step": 6200
+    },
+    {
+      "epoch": 2.455183164458301,
+      "grad_norm": 0.0013745080213993788,
+      "learning_rate": 4.167544604418003e-05,
+      "logits/chosen": -19.316665649414062,
+      "logits/rejected": -18.3441162109375,
+      "logps/chosen": -378.2589416503906,
+      "logps/rejected": -407.154052734375,
+      "loss": 0.0012,
+      "rewards/accuracies": 0.9987499713897705,
+      "rewards/chosen": -2.0685226917266846,
+      "rewards/margins": 12.507061958312988,
+      "rewards/rejected": -14.575584411621094,
+      "step": 6300
+    },
+    {
+      "epoch": 2.4941543257989087,
+      "grad_norm": 0.002951019676402211,
+      "learning_rate": 3.6069272885030256e-05,
+      "logits/chosen": -19.417644500732422,
+      "logits/rejected": -18.45380210876465,
+      "logps/chosen": -384.16253662109375,
+      "logps/rejected": -404.4368896484375,
+      "loss": 0.0038,
+      "rewards/accuracies": 0.9975000023841858,
+      "rewards/chosen": -2.470909357070923,
+      "rewards/margins": 12.393091201782227,
+      "rewards/rejected": -14.864001274108887,
+      "step": 6400
+    },
+    {
+      "epoch": 2.4941543257989087,
+      "eval_logits/chosen": -15.429072380065918,
+      "eval_logits/rejected": -15.39948844909668,
+      "eval_logps/chosen": -350.1909484863281,
+      "eval_logps/rejected": -391.09564208984375,
+      "eval_loss": 0.00028344389284029603,
+      "eval_rewards/accuracies": 1.0,
+      "eval_rewards/chosen": -0.8532273769378662,
+      "eval_rewards/margins": 11.565349578857422,
+      "eval_rewards/rejected": -12.418577194213867,
+      "eval_runtime": 183.8395,
+      "eval_samples_per_second": 1.131,
+      "eval_steps_per_second": 0.566,
+      "step": 6400
+    },
+    {
+      "epoch": 2.533125487139517,
+      "grad_norm": 0.011729140765964985,
+      "learning_rate": 3.083860713002276e-05,
+      "logits/chosen": -19.238452911376953,
+      "logits/rejected": -18.347043991088867,
+      "logps/chosen": -370.990478515625,
+      "logps/rejected": -400.6825256347656,
+      "loss": 0.0039,
+      "rewards/accuracies": 0.9950000047683716,
+      "rewards/chosen": -2.3387069702148438,
+      "rewards/margins": 12.353742599487305,
+      "rewards/rejected": -14.692447662353516,
+      "step": 6500
+    },
+    {
+      "epoch": 2.572096648480125,
+      "grad_norm": 0.014655795879662037,
+      "learning_rate": 2.5992630039587377e-05,
+      "logits/chosen": -19.383378982543945,
+      "logits/rejected": -18.424985885620117,
+      "logps/chosen": -380.931396484375,
+      "logps/rejected": -399.5527648925781,
+      "loss": 0.004,
+      "rewards/accuracies": 0.9950000047683716,
+      "rewards/chosen": -2.246741771697998,
+      "rewards/margins": 12.052864074707031,
+      "rewards/rejected": -14.299607276916504,
+      "step": 6600
+    },
+    {
+      "epoch": 2.572096648480125,
+      "eval_logits/chosen": -15.413681983947754,
+      "eval_logits/rejected": -15.38673210144043,
+      "eval_logps/chosen": -350.96832275390625,
+      "eval_logps/rejected": -392.92138671875,
+      "eval_loss": 0.0002713745925575495,
+      "eval_rewards/accuracies": 1.0,
+      "eval_rewards/chosen": -0.9309618473052979,
+      "eval_rewards/margins": 11.670186996459961,
+      "eval_rewards/rejected": -12.601149559020996,
+      "eval_runtime": 183.927,
+      "eval_samples_per_second": 1.131,
+      "eval_steps_per_second": 0.565,
+      "step": 6600
+    },
+    {
+      "epoch": 2.6110678098207325,
+      "grad_norm": 0.007622725795954466,
+      "learning_rate": 2.153984763949371e-05,
+      "logits/chosen": -19.36250114440918,
+      "logits/rejected": -18.28182029724121,
+      "logps/chosen": -383.64678955078125,
+      "logps/rejected": -392.4764404296875,
+      "loss": 0.0051,
+      "rewards/accuracies": 0.9950000047683716,
+      "rewards/chosen": -2.286069631576538,
+      "rewards/margins": 12.199385643005371,
+      "rewards/rejected": -14.485455513000488,
+      "step": 6700
+    },
+    {
+      "epoch": 2.6500389711613406,
+      "grad_norm": 0.01298923883587122,
+      "learning_rate": 1.7488075790430934e-05,
+      "logits/chosen": -19.342336654663086,
+      "logits/rejected": -18.265600204467773,
+      "logps/chosen": -386.0182800292969,
+      "logps/rejected": -406.8291015625,
+      "loss": 0.0025,
+      "rewards/accuracies": 0.9975000023841858,
+      "rewards/chosen": -2.360260009765625,
+      "rewards/margins": 12.328630447387695,
+      "rewards/rejected": -14.68889045715332,
+      "step": 6800
+    },
+    {
+      "epoch": 2.6500389711613406,
+      "eval_logits/chosen": -15.421009063720703,
+      "eval_logits/rejected": -15.389812469482422,
+      "eval_logps/chosen": -350.44403076171875,
+      "eval_logps/rejected": -392.24505615234375,
+      "eval_loss": 0.00027188131934963167,
+      "eval_rewards/accuracies": 1.0,
+      "eval_rewards/chosen": -0.8785340785980225,
+      "eval_rewards/margins": 11.654979705810547,
+      "eval_rewards/rejected": -12.533516883850098,
+      "eval_runtime": 183.8793,
+      "eval_samples_per_second": 1.131,
+      "eval_steps_per_second": 0.566,
+      "step": 6800
+    },
+    {
+      "epoch": 2.6890101325019486,
+      "grad_norm": 0.001023565884679556,
+      "learning_rate": 1.3844426469017707e-05,
+      "logits/chosen": -19.42437171936035,
+      "logits/rejected": -18.330951690673828,
+      "logps/chosen": -389.0,
+      "logps/rejected": -406.2248840332031,
+      "loss": 0.0029,
+      "rewards/accuracies": 0.9962499737739563,
+      "rewards/chosen": -2.3574695587158203,
+      "rewards/margins": 12.130472183227539,
+      "rewards/rejected": -14.48794174194336,
+      "step": 6900
+    },
+    {
+      "epoch": 2.7279812938425563,
+      "grad_norm": 0.030132969841361046,
+      "learning_rate": 1.061529528432198e-05,
+      "logits/chosen": -19.441736221313477,
+      "logits/rejected": -18.430885314941406,
+      "logps/chosen": -375.5260009765625,
+      "logps/rejected": -398.24298095703125,
+      "loss": 0.0012,
+      "rewards/accuracies": 0.9987499713897705,
+      "rewards/chosen": -2.37859845161438,
+      "rewards/margins": 12.304988861083984,
+      "rewards/rejected": -14.683588981628418,
+      "step": 7000
+    },
+    {
+      "epoch": 2.7279812938425563,
+      "eval_logits/chosen": -15.412691116333008,
+      "eval_logits/rejected": -15.382089614868164,
+      "eval_logps/chosen": -351.04168701171875,
+      "eval_logps/rejected": -393.3232421875,
+      "eval_loss": 0.00028384948382154107,
+      "eval_rewards/accuracies": 1.0,
+      "eval_rewards/chosen": -0.9383015036582947,
+      "eval_rewards/margins": 11.703031539916992,
+      "eval_rewards/rejected": -12.641332626342773,
+      "eval_runtime": 183.1659,
+      "eval_samples_per_second": 1.136,
+      "eval_steps_per_second": 0.568,
+      "step": 7000
+    },
+    {
+      "epoch": 2.7669524551831643,
+      "grad_norm": 0.29376310110092163,
+      "learning_rate": 7.806350251804484e-06,
+      "logits/chosen": -19.37668228149414,
+      "logits/rejected": -18.328815460205078,
+      "logps/chosen": -368.5742492675781,
+      "logps/rejected": -397.5633544921875,
+      "loss": 0.003,
+      "rewards/accuracies": 0.9962499737739563,
+      "rewards/chosen": -2.3045263290405273,
+      "rewards/margins": 12.480491638183594,
+      "rewards/rejected": -14.785019874572754,
+      "step": 7100
+    },
+    {
+      "epoch": 2.8059236165237724,
+      "grad_norm": 0.002321546198800206,
+      "learning_rate": 5.422521844388683e-06,
+      "logits/chosen": -19.359325408935547,
+      "logits/rejected": -18.383474349975586,
+      "logps/chosen": -373.9019470214844,
+      "logps/rejected": -399.3661193847656,
+      "loss": 0.0047,
+      "rewards/accuracies": 0.9937499761581421,
+      "rewards/chosen": -2.3699896335601807,
+      "rewards/margins": 12.351306915283203,
+      "rewards/rejected": -14.721295356750488,
+      "step": 7200
+    },
+    {
+      "epoch": 2.8059236165237724,
+      "eval_logits/chosen": -15.414888381958008,
+      "eval_logits/rejected": -15.384535789489746,
+      "eval_logps/chosen": -350.7855224609375,
+      "eval_logps/rejected": -393.17767333984375,
+      "eval_loss": 0.00028104818193241954,
+      "eval_rewards/accuracies": 1.0,
+      "eval_rewards/chosen": -0.9126843214035034,
+      "eval_rewards/margins": 11.714097023010254,
+      "eval_rewards/rejected": -12.626781463623047,
+      "eval_runtime": 183.8851,
+      "eval_samples_per_second": 1.131,
+      "eval_steps_per_second": 0.566,
+      "step": 7200
+    },
+    {
+      "epoch": 2.8448947778643805,
+      "grad_norm": 0.027766738086938858,
+      "learning_rate": 3.4679943381216438e-06,
+      "logits/chosen": -19.325197219848633,
+      "logits/rejected": -18.378944396972656,
+      "logps/chosen": -379.8866271972656,
+      "logps/rejected": -401.4820251464844,
+      "loss": 0.0004,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -2.4111533164978027,
+      "rewards/margins": 12.260860443115234,
+      "rewards/rejected": -14.672014236450195,
+      "step": 7300
+    },
+    {
+      "epoch": 2.8838659392049886,
+      "grad_norm": 0.0003760048421099782,
+      "learning_rate": 1.9461984676158727e-06,
+      "logits/chosen": -19.34538459777832,
+      "logits/rejected": -18.292407989501953,
+      "logps/chosen": -386.7870788574219,
+      "logps/rejected": -399.7149353027344,
+      "loss": 0.003,
+      "rewards/accuracies": 0.9975000023841858,
+      "rewards/chosen": -2.498373508453369,
+      "rewards/margins": 12.094259262084961,
+      "rewards/rejected": -14.592632293701172,
+      "step": 7400
+    },
+    {
+      "epoch": 2.8838659392049886,
+      "eval_logits/chosen": -15.413555145263672,
+      "eval_logits/rejected": -15.383076667785645,
+      "eval_logps/chosen": -350.8740539550781,
+      "eval_logps/rejected": -393.42462158203125,
+      "eval_loss": 0.0002813572355080396,
+      "eval_rewards/accuracies": 1.0,
+      "eval_rewards/chosen": -0.9215376377105713,
+      "eval_rewards/margins": 11.729934692382812,
+      "eval_rewards/rejected": -12.651473045349121,
+      "eval_runtime": 184.2047,
+      "eval_samples_per_second": 1.129,
+      "eval_steps_per_second": 0.565,
+      "step": 7400
+    },
+    {
+      "epoch": 2.922837100545596,
+      "grad_norm": 0.0007408323581330478,
+      "learning_rate": 8.598054041644155e-07,
+      "logits/chosen": -19.447223663330078,
+      "logits/rejected": -18.43070411682129,
+      "logps/chosen": -382.068359375,
+      "logps/rejected": -402.309814453125,
+      "loss": 0.002,
+      "rewards/accuracies": 0.9987499713897705,
+      "rewards/chosen": -2.2234978675842285,
+      "rewards/margins": 12.309508323669434,
+      "rewards/rejected": -14.533007621765137,
+      "step": 7500
+    },
+    {
+      "epoch": 2.9618082618862043,
+      "grad_norm": 0.0027539017610251904,
+      "learning_rate": 2.107220670987675e-07,
+      "logits/chosen": -19.346935272216797,
+      "logits/rejected": -18.29763412475586,
+      "logps/chosen": -388.3053894042969,
+      "logps/rejected": -401.0611572265625,
+      "loss": 0.003,
+      "rewards/accuracies": 0.9975000023841858,
+      "rewards/chosen": -2.2870028018951416,
+      "rewards/margins": 12.200346946716309,
+      "rewards/rejected": -14.487349510192871,
+      "step": 7600
+    },
+    {
+      "epoch": 2.9618082618862043,
+      "eval_logits/chosen": -15.41310977935791,
+      "eval_logits/rejected": -15.382636070251465,
+      "eval_logps/chosen": -350.8951721191406,
+      "eval_logps/rejected": -393.48431396484375,
+      "eval_loss": 0.0002806605480145663,
+      "eval_rewards/accuracies": 1.0,
+      "eval_rewards/chosen": -0.9236502051353455,
+      "eval_rewards/margins": 11.733796119689941,
+      "eval_rewards/rejected": -12.657448768615723,
+      "eval_runtime": 183.4198,
+      "eval_samples_per_second": 1.134,
+      "eval_steps_per_second": 0.567,
+      "step": 7600
     }
   ],
   "logging_steps": 100,