dpo-full-0715 / trainer_state.json

Model save

6240a73 verified 4 months ago

14.8 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 100,
	"global_step": 27,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.037037037037037035,
	"grad_norm": 27.55777176285727,
	"learning_rate": 1.6666666666666665e-07,
	"logits/chosen": -1.3260200023651123,
	"logits/rejected": -1.3555822372436523,
	"logps/chosen": -620.6215209960938,
	"logps/rejected": -538.2889404296875,
	"loss": 0.6931,
	"rewards/accuracies": 0.0,
	"rewards/chosen": 0.0,
	"rewards/margins": 0.0,
	"rewards/rejected": 0.0,
	"step": 1
	},
	{
	"epoch": 0.07407407407407407,
	"grad_norm": 25.11934361945706,
	"learning_rate": 3.333333333333333e-07,
	"logits/chosen": -1.3862979412078857,
	"logits/rejected": -1.418839931488037,
	"logps/chosen": -548.8743286132812,
	"logps/rejected": -502.6883544921875,
	"loss": 0.6931,
	"rewards/accuracies": 0.0,
	"rewards/chosen": 0.0,
	"rewards/margins": 0.0,
	"rewards/rejected": 0.0,
	"step": 2
	},
	{
	"epoch": 0.1111111111111111,
	"grad_norm": 26.735838110076433,
	"learning_rate": 5e-07,
	"logits/chosen": -1.3722721338272095,
	"logits/rejected": -1.4019339084625244,
	"logps/chosen": -593.66552734375,
	"logps/rejected": -518.8505249023438,
	"loss": 0.6926,
	"rewards/accuracies": 0.5625,
	"rewards/chosen": 0.0003613852895796299,
	"rewards/margins": 0.002076806966215372,
	"rewards/rejected": -0.001715421793051064,
	"step": 3
	},
	{
	"epoch": 0.14814814814814814,
	"grad_norm": 27.831815566219696,
	"learning_rate": 4.978612153434526e-07,
	"logits/chosen": -1.3279492855072021,
	"logits/rejected": -1.4584531784057617,
	"logps/chosen": -616.8908081054688,
	"logps/rejected": -478.5179443359375,
	"loss": 0.6906,
	"rewards/accuracies": 0.625,
	"rewards/chosen": 0.002412938978523016,
	"rewards/margins": 0.00437101349234581,
	"rewards/rejected": -0.001958074513822794,
	"step": 4
	},
	{
	"epoch": 0.18518518518518517,
	"grad_norm": 26.45387550515481,
	"learning_rate": 4.91481456572267e-07,
	"logits/chosen": -1.2913222312927246,
	"logits/rejected": -1.4004031419754028,
	"logps/chosen": -596.9254150390625,
	"logps/rejected": -491.03643798828125,
	"loss": 0.6846,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.012376622296869755,
	"rewards/margins": 0.019729193300008774,
	"rewards/rejected": -0.007352571468800306,
	"step": 5
	},
	{
	"epoch": 0.2222222222222222,
	"grad_norm": 26.113162913083638,
	"learning_rate": 4.809698831278217e-07,
	"logits/chosen": -1.2476236820220947,
	"logits/rejected": -1.3365733623504639,
	"logps/chosen": -576.7242431640625,
	"logps/rejected": -499.41351318359375,
	"loss": 0.6689,
	"rewards/accuracies": 0.9375,
	"rewards/chosen": 0.014585882425308228,
	"rewards/margins": 0.039108239114284515,
	"rewards/rejected": -0.024522356688976288,
	"step": 6
	},
	{
	"epoch": 0.25925925925925924,
	"grad_norm": 24.212448317206544,
	"learning_rate": 4.6650635094610966e-07,
	"logits/chosen": -1.3422677516937256,
	"logits/rejected": -1.4066834449768066,
	"logps/chosen": -550.8783569335938,
	"logps/rejected": -444.896484375,
	"loss": 0.6611,
	"rewards/accuracies": 0.875,
	"rewards/chosen": 0.01903172954916954,
	"rewards/margins": 0.05026581883430481,
	"rewards/rejected": -0.031234093010425568,
	"step": 7
	},
	{
	"epoch": 0.2962962962962963,
	"grad_norm": 25.92207003651225,
	"learning_rate": 4.483383350728088e-07,
	"logits/chosen": -1.155773401260376,
	"logits/rejected": -1.2405778169631958,
	"logps/chosen": -660.4547119140625,
	"logps/rejected": -549.8304443359375,
	"loss": 0.6308,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.04862784221768379,
	"rewards/margins": 0.11470220237970352,
	"rewards/rejected": -0.06607436388731003,
	"step": 8
	},
	{
	"epoch": 0.3333333333333333,
	"grad_norm": 22.804718326627064,
	"learning_rate": 4.2677669529663686e-07,
	"logits/chosen": -1.1948490142822266,
	"logits/rejected": -1.2298305034637451,
	"logps/chosen": -661.9083251953125,
	"logps/rejected": -571.0025634765625,
	"loss": 0.6201,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.05401439964771271,
	"rewards/margins": 0.20858871936798096,
	"rewards/rejected": -0.15457431972026825,
	"step": 9
	},
	{
	"epoch": 0.37037037037037035,
	"grad_norm": 21.49943323053994,
	"learning_rate": 4.0219035725218013e-07,
	"logits/chosen": -1.2277066707611084,
	"logits/rejected": -1.2695496082305908,
	"logps/chosen": -664.5496826171875,
	"logps/rejected": -551.2160034179688,
	"loss": 0.5948,
	"rewards/accuracies": 1.0,
	"rewards/chosen": 0.05593748763203621,
	"rewards/margins": 0.2475208044052124,
	"rewards/rejected": -0.1915833204984665,
	"step": 10
	},
	{
	"epoch": 0.4074074074074074,
	"grad_norm": 21.083207323643638,
	"learning_rate": 3.75e-07,
	"logits/chosen": -1.2142881155014038,
	"logits/rejected": -1.2608280181884766,
	"logps/chosen": -493.3670654296875,
	"logps/rejected": -460.8230285644531,
	"loss": 0.5937,
	"rewards/accuracies": 1.0,
	"rewards/chosen": -0.02144962176680565,
	"rewards/margins": 0.19565340876579285,
	"rewards/rejected": -0.2171030193567276,
	"step": 11
	},
	{
	"epoch": 0.4444444444444444,
	"grad_norm": 22.30950608958288,
	"learning_rate": 3.4567085809127245e-07,
	"logits/chosen": -1.1867148876190186,
	"logits/rejected": -1.204742431640625,
	"logps/chosen": -518.848876953125,
	"logps/rejected": -477.93121337890625,
	"loss": 0.5571,
	"rewards/accuracies": 0.9375,
	"rewards/chosen": -0.030759546905755997,
	"rewards/margins": 0.27591627836227417,
	"rewards/rejected": -0.3066757917404175,
	"step": 12
	},
	{
	"epoch": 0.48148148148148145,
	"grad_norm": 21.647385072039942,
	"learning_rate": 3.147047612756302e-07,
	"logits/chosen": -1.1367645263671875,
	"logits/rejected": -1.1599252223968506,
	"logps/chosen": -575.5039672851562,
	"logps/rejected": -499.92059326171875,
	"loss": 0.5172,
	"rewards/accuracies": 1.0,
	"rewards/chosen": -0.07214581221342087,
	"rewards/margins": 0.3617976903915405,
	"rewards/rejected": -0.4339434802532196,
	"step": 13
	},
	{
	"epoch": 0.5185185185185185,
	"grad_norm": 21.79316246052631,
	"learning_rate": 2.826315480550129e-07,
	"logits/chosen": -1.077150821685791,
	"logits/rejected": -1.1288504600524902,
	"logps/chosen": -556.2161865234375,
	"logps/rejected": -495.59539794921875,
	"loss": 0.4981,
	"rewards/accuracies": 0.9375,
	"rewards/chosen": -0.12262667715549469,
	"rewards/margins": 0.3966625928878784,
	"rewards/rejected": -0.5192892551422119,
	"step": 14
	},
	{
	"epoch": 0.5555555555555556,
	"grad_norm": 21.27092910668923,
	"learning_rate": 2.5e-07,
	"logits/chosen": -1.135519027709961,
	"logits/rejected": -1.1375882625579834,
	"logps/chosen": -600.9283447265625,
	"logps/rejected": -557.6646118164062,
	"loss": 0.4817,
	"rewards/accuracies": 1.0,
	"rewards/chosen": -0.17058339715003967,
	"rewards/margins": 0.44923293590545654,
	"rewards/rejected": -0.6198163628578186,
	"step": 15
	},
	{
	"epoch": 0.5925925925925926,
	"grad_norm": 20.418108861546624,
	"learning_rate": 2.1736845194498716e-07,
	"logits/chosen": -1.065222144126892,
	"logits/rejected": -1.1098757982254028,
	"logps/chosen": -516.3076782226562,
	"logps/rejected": -414.37371826171875,
	"loss": 0.4632,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.3122747242450714,
	"rewards/margins": 0.4216526746749878,
	"rewards/rejected": -0.7339274287223816,
	"step": 16
	},
	{
	"epoch": 0.6296296296296297,
	"grad_norm": 19.79277850701313,
	"learning_rate": 1.8529523872436977e-07,
	"logits/chosen": -1.017812967300415,
	"logits/rejected": -1.0660429000854492,
	"logps/chosen": -720.6757202148438,
	"logps/rejected": -684.0345458984375,
	"loss": 0.4552,
	"rewards/accuracies": 1.0,
	"rewards/chosen": -0.32912153005599976,
	"rewards/margins": 0.5706872940063477,
	"rewards/rejected": -0.8998088240623474,
	"step": 17
	},
	{
	"epoch": 0.6666666666666666,
	"grad_norm": 20.42225137733936,
	"learning_rate": 1.5432914190872756e-07,
	"logits/chosen": -1.0442301034927368,
	"logits/rejected": -1.0349968671798706,
	"logps/chosen": -747.7850952148438,
	"logps/rejected": -685.4484252929688,
	"loss": 0.4673,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.3863644599914551,
	"rewards/margins": 0.5358256101608276,
	"rewards/rejected": -0.9221900701522827,
	"step": 18
	},
	{
	"epoch": 0.7037037037037037,
	"grad_norm": 22.47255209023482,
	"learning_rate": 1.2500000000000005e-07,
	"logits/chosen": -1.1190571784973145,
	"logits/rejected": -1.1354550123214722,
	"logps/chosen": -685.4273681640625,
	"logps/rejected": -646.656005859375,
	"loss": 0.4169,
	"rewards/accuracies": 1.0,
	"rewards/chosen": -0.4319349527359009,
	"rewards/margins": 0.7433109879493713,
	"rewards/rejected": -1.175246000289917,
	"step": 19
	},
	{
	"epoch": 0.7407407407407407,
	"grad_norm": 20.30453136903234,
	"learning_rate": 9.780964274781983e-08,
	"logits/chosen": -0.9758723974227905,
	"logits/rejected": -0.9760102033615112,
	"logps/chosen": -701.876220703125,
	"logps/rejected": -603.935546875,
	"loss": 0.4295,
	"rewards/accuracies": 0.9375,
	"rewards/chosen": -0.4580194056034088,
	"rewards/margins": 0.6639784574508667,
	"rewards/rejected": -1.1219978332519531,
	"step": 20
	},
	{
	"epoch": 0.7777777777777778,
	"grad_norm": 19.920032346717264,
	"learning_rate": 7.322330470336313e-08,
	"logits/chosen": -1.0556690692901611,
	"logits/rejected": -1.038096308708191,
	"logps/chosen": -790.4100952148438,
	"logps/rejected": -738.6947021484375,
	"loss": 0.3989,
	"rewards/accuracies": 1.0,
	"rewards/chosen": -0.5596134662628174,
	"rewards/margins": 0.6681773662567139,
	"rewards/rejected": -1.2277909517288208,
	"step": 21
	},
	{
	"epoch": 0.8148148148148148,
	"grad_norm": 19.811761984641322,
	"learning_rate": 5.166166492719124e-08,
	"logits/chosen": -1.0022271871566772,
	"logits/rejected": -0.9993726015090942,
	"logps/chosen": -648.9810180664062,
	"logps/rejected": -578.921142578125,
	"loss": 0.3949,
	"rewards/accuracies": 1.0,
	"rewards/chosen": -0.5851563215255737,
	"rewards/margins": 0.786234974861145,
	"rewards/rejected": -1.3713912963867188,
	"step": 22
	},
	{
	"epoch": 0.8518518518518519,
	"grad_norm": 19.77551914709964,
	"learning_rate": 3.349364905389032e-08,
	"logits/chosen": -0.924078106880188,
	"logits/rejected": -0.9447305202484131,
	"logps/chosen": -727.5433959960938,
	"logps/rejected": -727.569580078125,
	"loss": 0.3777,
	"rewards/accuracies": 1.0,
	"rewards/chosen": -0.3620569705963135,
	"rewards/margins": 1.0265687704086304,
	"rewards/rejected": -1.3886257410049438,
	"step": 23
	},
	{
	"epoch": 0.8888888888888888,
	"grad_norm": 20.99090983878074,
	"learning_rate": 1.9030116872178314e-08,
	"logits/chosen": -0.9339395761489868,
	"logits/rejected": -1.002177357673645,
	"logps/chosen": -772.19921875,
	"logps/rejected": -641.7393798828125,
	"loss": 0.3809,
	"rewards/accuracies": 1.0,
	"rewards/chosen": -0.4156669080257416,
	"rewards/margins": 0.8427646160125732,
	"rewards/rejected": -1.2584315538406372,
	"step": 24
	},
	{
	"epoch": 0.9259259259259259,
	"grad_norm": 19.60455577981017,
	"learning_rate": 8.518543427732949e-09,
	"logits/chosen": -1.0230871438980103,
	"logits/rejected": -0.9638053178787231,
	"logps/chosen": -676.6509399414062,
	"logps/rejected": -698.9414672851562,
	"loss": 0.3781,
	"rewards/accuracies": 1.0,
	"rewards/chosen": -0.5820339918136597,
	"rewards/margins": 0.7440013885498047,
	"rewards/rejected": -1.326035499572754,
	"step": 25
	},
	{
	"epoch": 0.9629629629629629,
	"grad_norm": 20.184672646004614,
	"learning_rate": 2.1387846565474044e-09,
	"logits/chosen": -0.9462152123451233,
	"logits/rejected": -0.9009606242179871,
	"logps/chosen": -672.621337890625,
	"logps/rejected": -633.5792236328125,
	"loss": 0.3642,
	"rewards/accuracies": 0.875,
	"rewards/chosen": -0.6688261032104492,
	"rewards/margins": 0.8014542460441589,
	"rewards/rejected": -1.470280408859253,
	"step": 26
	},
	{
	"epoch": 1.0,
	"grad_norm": 19.209616333813695,
	"learning_rate": 0.0,
	"logits/chosen": -1.027219533920288,
	"logits/rejected": -1.0129032135009766,
	"logps/chosen": -630.52880859375,
	"logps/rejected": -564.9932250976562,
	"loss": 0.3937,
	"rewards/accuracies": 0.9375,
	"rewards/chosen": -0.5863191485404968,
	"rewards/margins": 0.763579249382019,
	"rewards/rejected": -1.349898338317871,
	"step": 27
	},
	{
	"epoch": 1.0,
	"step": 27,
	"total_flos": 0.0,
	"train_loss": 0.525856320504789,
	"train_runtime": 769.8946,
	"train_samples_per_second": 2.244,
	"train_steps_per_second": 0.035
	}
	],
	"logging_steps": 1.0,
	"max_steps": 27,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}