Model save

881dc3e verified 7 months ago

14.7 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9977426636568849,
	"eval_steps": 500,
	"global_step": 221,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.05,
	"grad_norm": 3.3125,
	"learning_rate": 4.9747829807701e-06,
	"log_odds_chosen": 0.29668617248535156,
	"log_odds_ratio": -0.6379951238632202,
	"logits/chosen": -3.2007384300231934,
	"logits/rejected": -3.1898930072784424,
	"logps/chosen": -0.8916305303573608,
	"logps/rejected": -1.0567858219146729,
	"loss": 0.6627,
	"nll_loss": 0.5468634366989136,
	"rewards/accuracies": 0.637499988079071,
	"rewards/chosen": -0.1783261001110077,
	"rewards/margins": 0.033031076192855835,
	"rewards/rejected": -0.2113572061061859,
	"step": 10
	},
	{
	"epoch": 0.09,
	"grad_norm": 3.234375,
	"learning_rate": 4.89964064152747e-06,
	"log_odds_chosen": 0.3181908428668976,
	"log_odds_ratio": -0.6044929623603821,
	"logits/chosen": -3.215482711791992,
	"logits/rejected": -3.215388059616089,
	"logps/chosen": -0.8658155202865601,
	"logps/rejected": -1.0561679601669312,
	"loss": 0.6162,
	"nll_loss": 0.4879694879055023,
	"rewards/accuracies": 0.625,
	"rewards/chosen": -0.17316310107707977,
	"rewards/margins": 0.03807050734758377,
	"rewards/rejected": -0.21123358607292175,
	"step": 20
	},
	{
	"epoch": 0.14,
	"grad_norm": 3.3125,
	"learning_rate": 4.7760888749230414e-06,
	"log_odds_chosen": 0.3909495174884796,
	"log_odds_ratio": -0.6076517701148987,
	"logits/chosen": -3.2152676582336426,
	"logits/rejected": -3.202721357345581,
	"logps/chosen": -0.8426260948181152,
	"logps/rejected": -1.061783790588379,
	"loss": 0.6037,
	"nll_loss": 0.4774637222290039,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -0.16852520406246185,
	"rewards/margins": 0.04383154585957527,
	"rewards/rejected": -0.21235676109790802,
	"step": 30
	},
	{
	"epoch": 0.18,
	"grad_norm": 2.96875,
	"learning_rate": 4.6066201667762944e-06,
	"log_odds_chosen": 0.3192257285118103,
	"log_odds_ratio": -0.6141721606254578,
	"logits/chosen": -3.200482130050659,
	"logits/rejected": -3.1900203227996826,
	"logps/chosen": -0.8548553586006165,
	"logps/rejected": -1.034092903137207,
	"loss": 0.6009,
	"nll_loss": 0.4767337441444397,
	"rewards/accuracies": 0.668749988079071,
	"rewards/chosen": -0.17097108066082,
	"rewards/margins": 0.0358474999666214,
	"rewards/rejected": -0.2068185806274414,
	"step": 40
	},
	{
	"epoch": 0.23,
	"grad_norm": 2.84375,
	"learning_rate": 4.3946533136249926e-06,
	"log_odds_chosen": 0.3027415871620178,
	"log_odds_ratio": -0.6166602969169617,
	"logits/chosen": -3.206148147583008,
	"logits/rejected": -3.1972875595092773,
	"logps/chosen": -0.8349093198776245,
	"logps/rejected": -1.0070207118988037,
	"loss": 0.5918,
	"nll_loss": 0.4716118276119232,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": -0.16698187589645386,
	"rewards/margins": 0.03442227095365524,
	"rewards/rejected": -0.2014041393995285,
	"step": 50
	},
	{
	"epoch": 0.27,
	"grad_norm": 3.09375,
	"learning_rate": 4.1444644532387485e-06,
	"log_odds_chosen": 0.48492059111595154,
	"log_odds_ratio": -0.5473419427871704,
	"logits/chosen": -3.209733247756958,
	"logits/rejected": -3.202362537384033,
	"logps/chosen": -0.8019172549247742,
	"logps/rejected": -1.0743623971939087,
	"loss": 0.5974,
	"nll_loss": 0.476468950510025,
	"rewards/accuracies": 0.706250011920929,
	"rewards/chosen": -0.16038347780704498,
	"rewards/margins": 0.05448903515934944,
	"rewards/rejected": -0.21487247943878174,
	"step": 60
	},
	{
	"epoch": 0.32,
	"grad_norm": 3.28125,
	"learning_rate": 3.861100799460336e-06,
	"log_odds_chosen": 0.331600546836853,
	"log_odds_ratio": -0.6023644208908081,
	"logits/chosen": -3.1663670539855957,
	"logits/rejected": -3.150857925415039,
	"logps/chosen": -0.8181543350219727,
	"logps/rejected": -0.9955471754074097,
	"loss": 0.603,
	"nll_loss": 0.4812262952327728,
	"rewards/accuracies": 0.668749988079071,
	"rewards/chosen": -0.163630872964859,
	"rewards/margins": 0.03547856956720352,
	"rewards/rejected": -0.19910944998264313,
	"step": 70
	},
	{
	"epoch": 0.36,
	"grad_norm": 3.328125,
	"learning_rate": 3.550278821654866e-06,
	"log_odds_chosen": 0.477538526058197,
	"log_odds_ratio": -0.5380920171737671,
	"logits/chosen": -3.194234848022461,
	"logits/rejected": -3.1841280460357666,
	"logps/chosen": -0.8073774576187134,
	"logps/rejected": -1.0695488452911377,
	"loss": 0.5619,
	"nll_loss": 0.47237372398376465,
	"rewards/accuracies": 0.7437499761581421,
	"rewards/chosen": -0.16147547960281372,
	"rewards/margins": 0.05243431776762009,
	"rewards/rejected": -0.2139098197221756,
	"step": 80
	},
	{
	"epoch": 0.41,
	"grad_norm": 3.390625,
	"learning_rate": 3.218268922855452e-06,
	"log_odds_chosen": 0.3934742212295532,
	"log_odds_ratio": -0.598767101764679,
	"logits/chosen": -3.1895227432250977,
	"logits/rejected": -3.173553943634033,
	"logps/chosen": -0.8475399017333984,
	"logps/rejected": -1.0798330307006836,
	"loss": 0.6021,
	"nll_loss": 0.4789814054965973,
	"rewards/accuracies": 0.699999988079071,
	"rewards/chosen": -0.16950799524784088,
	"rewards/margins": 0.046458613127470016,
	"rewards/rejected": -0.2159666121006012,
	"step": 90
	},
	{
	"epoch": 0.45,
	"grad_norm": 2.921875,
	"learning_rate": 2.871768943064129e-06,
	"log_odds_chosen": 0.44187504053115845,
	"log_odds_ratio": -0.5802451372146606,
	"logits/chosen": -3.1786134243011475,
	"logits/rejected": -3.1717491149902344,
	"logps/chosen": -0.8232837915420532,
	"logps/rejected": -1.0571515560150146,
	"loss": 0.5994,
	"nll_loss": 0.49746760725975037,
	"rewards/accuracies": 0.7124999761581421,
	"rewards/chosen": -0.16465675830841064,
	"rewards/margins": 0.046773575246334076,
	"rewards/rejected": -0.21143031120300293,
	"step": 100
	},
	{
	"epoch": 0.5,
	"grad_norm": 3.75,
	"learning_rate": 2.517769039603744e-06,
	"log_odds_chosen": 0.45674100518226624,
	"log_odds_ratio": -0.5514575242996216,
	"logits/chosen": -3.192737102508545,
	"logits/rejected": -3.182710647583008,
	"logps/chosen": -0.7476301789283752,
	"logps/rejected": -0.9913870692253113,
	"loss": 0.5818,
	"nll_loss": 0.4433298707008362,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -0.14952602982521057,
	"rewards/margins": 0.04875140264630318,
	"rewards/rejected": -0.19827742874622345,
	"step": 110
	},
	{
	"epoch": 0.54,
	"grad_norm": 3.34375,
	"learning_rate": 2.163410670372652e-06,
	"log_odds_chosen": 0.4035864770412445,
	"log_odds_ratio": -0.6150745153427124,
	"logits/chosen": -3.193054676055908,
	"logits/rejected": -3.178786277770996,
	"logps/chosen": -0.816441535949707,
	"logps/rejected": -1.0266228914260864,
	"loss": 0.5753,
	"nll_loss": 0.44871068000793457,
	"rewards/accuracies": 0.675000011920929,
	"rewards/chosen": -0.16328832507133484,
	"rewards/margins": 0.042036257684230804,
	"rewards/rejected": -0.20532457530498505,
	"step": 120
	},
	{
	"epoch": 0.59,
	"grad_norm": 3.078125,
	"learning_rate": 1.8158425248197931e-06,
	"log_odds_chosen": 0.3830532431602478,
	"log_odds_ratio": -0.5974889993667603,
	"logits/chosen": -3.196091890335083,
	"logits/rejected": -3.1858651638031006,
	"logps/chosen": -0.8129725456237793,
	"logps/rejected": -1.0201164484024048,
	"loss": 0.5808,
	"nll_loss": 0.4634559154510498,
	"rewards/accuracies": 0.6937500238418579,
	"rewards/chosen": -0.1625945270061493,
	"rewards/margins": 0.041428789496421814,
	"rewards/rejected": -0.20402328670024872,
	"step": 130
	},
	{
	"epoch": 0.63,
	"grad_norm": 3.375,
	"learning_rate": 1.482076309033254e-06,
	"log_odds_chosen": 0.6047395467758179,
	"log_odds_ratio": -0.5417571663856506,
	"logits/chosen": -3.196877956390381,
	"logits/rejected": -3.181436061859131,
	"logps/chosen": -0.7740004062652588,
	"logps/rejected": -1.068457007408142,
	"loss": 0.5764,
	"nll_loss": 0.5040202140808105,
	"rewards/accuracies": 0.7250000238418579,
	"rewards/chosen": -0.15480007231235504,
	"rewards/margins": 0.058891307562589645,
	"rewards/rejected": -0.21369138360023499,
	"step": 140
	},
	{
	"epoch": 0.68,
	"grad_norm": 2.9375,
	"learning_rate": 1.1688452942784592e-06,
	"log_odds_chosen": 0.44741934537887573,
	"log_odds_ratio": -0.5705805420875549,
	"logits/chosen": -3.1841094493865967,
	"logits/rejected": -3.182647705078125,
	"logps/chosen": -0.8209434747695923,
	"logps/rejected": -1.067769169807434,
	"loss": 0.5718,
	"nll_loss": 0.4761679768562317,
	"rewards/accuracies": 0.706250011920929,
	"rewards/chosen": -0.1641887128353119,
	"rewards/margins": 0.04936511814594269,
	"rewards/rejected": -0.21355381608009338,
	"step": 150
	},
	{
	"epoch": 0.72,
	"grad_norm": 3.171875,
	"learning_rate": 8.824684825733865e-07,
	"log_odds_chosen": 0.3429742455482483,
	"log_odds_ratio": -0.6090758442878723,
	"logits/chosen": -3.207231044769287,
	"logits/rejected": -3.193406581878662,
	"logps/chosen": -0.8023210763931274,
	"logps/rejected": -0.9921668767929077,
	"loss": 0.5897,
	"nll_loss": 0.4722462594509125,
	"rewards/accuracies": 0.6937500238418579,
	"rewards/chosen": -0.16046421229839325,
	"rewards/margins": 0.03796914964914322,
	"rewards/rejected": -0.19843336939811707,
	"step": 160
	},
	{
	"epoch": 0.77,
	"grad_norm": 4.25,
	"learning_rate": 6.28723129572247e-07,
	"log_odds_chosen": 0.3038043677806854,
	"log_odds_ratio": -0.6364859342575073,
	"logits/chosen": -3.2201812267303467,
	"logits/rejected": -3.2117972373962402,
	"logps/chosen": -0.7899866104125977,
	"logps/rejected": -0.9470660090446472,
	"loss": 0.614,
	"nll_loss": 0.47518712282180786,
	"rewards/accuracies": 0.6499999761581421,
	"rewards/chosen": -0.15799733996391296,
	"rewards/margins": 0.03141586109995842,
	"rewards/rejected": -0.18941320478916168,
	"step": 170
	},
	{
	"epoch": 0.81,
	"grad_norm": 4.0,
	"learning_rate": 4.127281964319446e-07,
	"log_odds_chosen": 0.42332348227500916,
	"log_odds_ratio": -0.5784670114517212,
	"logits/chosen": -3.194354295730591,
	"logits/rejected": -3.1853244304656982,
	"logps/chosen": -0.7676048278808594,
	"logps/rejected": -0.984086811542511,
	"loss": 0.5862,
	"nll_loss": 0.4467201232910156,
	"rewards/accuracies": 0.6875,
	"rewards/chosen": -0.15352095663547516,
	"rewards/margins": 0.04329640045762062,
	"rewards/rejected": -0.19681736826896667,
	"step": 180
	},
	{
	"epoch": 0.86,
	"grad_norm": 3.15625,
	"learning_rate": 2.388410818585263e-07,
	"log_odds_chosen": 0.47039803862571716,
	"log_odds_ratio": -0.5836545825004578,
	"logits/chosen": -3.205718994140625,
	"logits/rejected": -3.188554286956787,
	"logps/chosen": -0.7774848937988281,
	"logps/rejected": -1.0028108358383179,
	"loss": 0.5743,
	"nll_loss": 0.4325433671474457,
	"rewards/accuracies": 0.706250011920929,
	"rewards/chosen": -0.1554969847202301,
	"rewards/margins": 0.045065198093652725,
	"rewards/rejected": -0.20056216418743134,
	"step": 190
	},
	{
	"epoch": 0.9,
	"grad_norm": 2.9375,
	"learning_rate": 1.1056971762161584e-07,
	"log_odds_chosen": 0.2785649299621582,
	"log_odds_ratio": -0.643887460231781,
	"logits/chosen": -3.1912004947662354,
	"logits/rejected": -3.1815104484558105,
	"logps/chosen": -0.87229984998703,
	"logps/rejected": -1.022983193397522,
	"loss": 0.5796,
	"nll_loss": 0.4835774004459381,
	"rewards/accuracies": 0.6187499761581421,
	"rewards/chosen": -0.17445996403694153,
	"rewards/margins": 0.030136678367853165,
	"rewards/rejected": -0.20459666848182678,
	"step": 200
	},
	{
	"epoch": 0.95,
	"grad_norm": 3.03125,
	"learning_rate": 3.050180088809973e-08,
	"log_odds_chosen": 0.30176714062690735,
	"log_odds_ratio": -0.6279340386390686,
	"logits/chosen": -3.187382221221924,
	"logits/rejected": -3.172898054122925,
	"logps/chosen": -0.842138946056366,
	"logps/rejected": -1.0073583126068115,
	"loss": 0.5913,
	"nll_loss": 0.4963778555393219,
	"rewards/accuracies": 0.6625000238418579,
	"rewards/chosen": -0.16842779517173767,
	"rewards/margins": 0.03304388374090195,
	"rewards/rejected": -0.20147165656089783,
	"step": 210
	},
	{
	"epoch": 0.99,
	"grad_norm": 3.34375,
	"learning_rate": 2.525910147516131e-10,
	"log_odds_chosen": 0.4221881031990051,
	"log_odds_ratio": -0.5777419805526733,
	"logits/chosen": -3.206446886062622,
	"logits/rejected": -3.1952741146087646,
	"logps/chosen": -0.7956362962722778,
	"logps/rejected": -1.0130151510238647,
	"loss": 0.6099,
	"nll_loss": 0.4894731640815735,
	"rewards/accuracies": 0.731249988079071,
	"rewards/chosen": -0.15912725031375885,
	"rewards/margins": 0.04347577691078186,
	"rewards/rejected": -0.2026030272245407,
	"step": 220
	},
	{
	"epoch": 1.0,
	"step": 221,
	"total_flos": 0.0,
	"train_loss": 0.5939142045931579,
	"train_runtime": 4430.1575,
	"train_samples_per_second": 3.195,
	"train_steps_per_second": 0.05
	}
	],
	"logging_steps": 10,
	"max_steps": 221,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"total_flos": 0.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}