Kobart-Jeju-translation / trainer_state.json

Upload 11 files

96f8d79 verified 6 months ago

42.6 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.996825396825397,
	"eval_steps": 500,
	"global_step": 118000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.012698412698412698,
	"grad_norm": 0.4761015474796295,
	"learning_rate": 1.9915343915343918e-05,
	"loss": 0.0794,
	"step": 500
	},
	{
	"epoch": 0.025396825396825397,
	"grad_norm": 0.43550318479537964,
	"learning_rate": 1.983068783068783e-05,
	"loss": 0.0811,
	"step": 1000
	},
	{
	"epoch": 0.0380952380952381,
	"grad_norm": 0.4672704339027405,
	"learning_rate": 1.9746031746031748e-05,
	"loss": 0.0819,
	"step": 1500
	},
	{
	"epoch": 0.050793650793650794,
	"grad_norm": 0.5426394939422607,
	"learning_rate": 1.9661375661375664e-05,
	"loss": 0.0829,
	"step": 2000
	},
	{
	"epoch": 0.06349206349206349,
	"grad_norm": 0.3974975645542145,
	"learning_rate": 1.9576719576719577e-05,
	"loss": 0.0816,
	"step": 2500
	},
	{
	"epoch": 0.0761904761904762,
	"grad_norm": 0.6599302887916565,
	"learning_rate": 1.9492063492063494e-05,
	"loss": 0.0815,
	"step": 3000
	},
	{
	"epoch": 0.08888888888888889,
	"grad_norm": 0.35329556465148926,
	"learning_rate": 1.9407407407407407e-05,
	"loss": 0.0841,
	"step": 3500
	},
	{
	"epoch": 0.10158730158730159,
	"grad_norm": 0.42421749234199524,
	"learning_rate": 1.9322751322751327e-05,
	"loss": 0.0833,
	"step": 4000
	},
	{
	"epoch": 0.11428571428571428,
	"grad_norm": 0.4479866325855255,
	"learning_rate": 1.923809523809524e-05,
	"loss": 0.0839,
	"step": 4500
	},
	{
	"epoch": 0.12698412698412698,
	"grad_norm": 0.372086763381958,
	"learning_rate": 1.9153439153439156e-05,
	"loss": 0.0835,
	"step": 5000
	},
	{
	"epoch": 0.13968253968253969,
	"grad_norm": 0.38730981945991516,
	"learning_rate": 1.906878306878307e-05,
	"loss": 0.0841,
	"step": 5500
	},
	{
	"epoch": 0.1523809523809524,
	"grad_norm": 0.5003937482833862,
	"learning_rate": 1.8984126984126986e-05,
	"loss": 0.0829,
	"step": 6000
	},
	{
	"epoch": 0.16507936507936508,
	"grad_norm": 0.42826735973358154,
	"learning_rate": 1.8899470899470903e-05,
	"loss": 0.0835,
	"step": 6500
	},
	{
	"epoch": 0.17777777777777778,
	"grad_norm": 0.49070820212364197,
	"learning_rate": 1.8814814814814816e-05,
	"loss": 0.0827,
	"step": 7000
	},
	{
	"epoch": 0.19047619047619047,
	"grad_norm": 0.4903796911239624,
	"learning_rate": 1.8730158730158732e-05,
	"loss": 0.0823,
	"step": 7500
	},
	{
	"epoch": 0.20317460317460317,
	"grad_norm": 0.4144362211227417,
	"learning_rate": 1.8645502645502645e-05,
	"loss": 0.0842,
	"step": 8000
	},
	{
	"epoch": 0.21587301587301588,
	"grad_norm": 0.6519999504089355,
	"learning_rate": 1.8560846560846562e-05,
	"loss": 0.0827,
	"step": 8500
	},
	{
	"epoch": 0.22857142857142856,
	"grad_norm": 0.37082576751708984,
	"learning_rate": 1.8476190476190478e-05,
	"loss": 0.0835,
	"step": 9000
	},
	{
	"epoch": 0.24126984126984127,
	"grad_norm": 0.319024920463562,
	"learning_rate": 1.8391534391534395e-05,
	"loss": 0.0829,
	"step": 9500
	},
	{
	"epoch": 0.25396825396825395,
	"grad_norm": 0.4173873960971832,
	"learning_rate": 1.8306878306878308e-05,
	"loss": 0.0814,
	"step": 10000
	},
	{
	"epoch": 0.26666666666666666,
	"grad_norm": 0.4521333873271942,
	"learning_rate": 1.8222222222222224e-05,
	"loss": 0.0825,
	"step": 10500
	},
	{
	"epoch": 0.27936507936507937,
	"grad_norm": 0.4372086822986603,
	"learning_rate": 1.8137566137566137e-05,
	"loss": 0.0844,
	"step": 11000
	},
	{
	"epoch": 0.2920634920634921,
	"grad_norm": 0.40673378109931946,
	"learning_rate": 1.8052910052910054e-05,
	"loss": 0.0846,
	"step": 11500
	},
	{
	"epoch": 0.3047619047619048,
	"grad_norm": 0.524502694606781,
	"learning_rate": 1.796825396825397e-05,
	"loss": 0.0843,
	"step": 12000
	},
	{
	"epoch": 0.31746031746031744,
	"grad_norm": 0.36854442954063416,
	"learning_rate": 1.7883597883597884e-05,
	"loss": 0.0838,
	"step": 12500
	},
	{
	"epoch": 0.33015873015873015,
	"grad_norm": 0.4694221019744873,
	"learning_rate": 1.77989417989418e-05,
	"loss": 0.0834,
	"step": 13000
	},
	{
	"epoch": 0.34285714285714286,
	"grad_norm": 0.384512335062027,
	"learning_rate": 1.7714285714285717e-05,
	"loss": 0.0825,
	"step": 13500
	},
	{
	"epoch": 0.35555555555555557,
	"grad_norm": 0.3776947855949402,
	"learning_rate": 1.7629629629629633e-05,
	"loss": 0.081,
	"step": 14000
	},
	{
	"epoch": 0.3682539682539683,
	"grad_norm": 0.44691145420074463,
	"learning_rate": 1.7544973544973546e-05,
	"loss": 0.0844,
	"step": 14500
	},
	{
	"epoch": 0.38095238095238093,
	"grad_norm": 0.38754552602767944,
	"learning_rate": 1.7460317460317463e-05,
	"loss": 0.0834,
	"step": 15000
	},
	{
	"epoch": 0.39365079365079364,
	"grad_norm": 0.3924926221370697,
	"learning_rate": 1.7375661375661376e-05,
	"loss": 0.0836,
	"step": 15500
	},
	{
	"epoch": 0.40634920634920635,
	"grad_norm": 0.41219380497932434,
	"learning_rate": 1.7291005291005292e-05,
	"loss": 0.0827,
	"step": 16000
	},
	{
	"epoch": 0.41904761904761906,
	"grad_norm": 0.36697277426719666,
	"learning_rate": 1.720634920634921e-05,
	"loss": 0.0833,
	"step": 16500
	},
	{
	"epoch": 0.43174603174603177,
	"grad_norm": 0.37833482027053833,
	"learning_rate": 1.7121693121693125e-05,
	"loss": 0.0831,
	"step": 17000
	},
	{
	"epoch": 0.4444444444444444,
	"grad_norm": 0.33408552408218384,
	"learning_rate": 1.7037037037037038e-05,
	"loss": 0.0818,
	"step": 17500
	},
	{
	"epoch": 0.45714285714285713,
	"grad_norm": 0.4245634377002716,
	"learning_rate": 1.6952380952380955e-05,
	"loss": 0.0838,
	"step": 18000
	},
	{
	"epoch": 0.46984126984126984,
	"grad_norm": 0.4424809217453003,
	"learning_rate": 1.6867724867724868e-05,
	"loss": 0.0828,
	"step": 18500
	},
	{
	"epoch": 0.48253968253968255,
	"grad_norm": 0.47369641065597534,
	"learning_rate": 1.6783068783068784e-05,
	"loss": 0.0828,
	"step": 19000
	},
	{
	"epoch": 0.49523809523809526,
	"grad_norm": 0.417057603597641,
	"learning_rate": 1.66984126984127e-05,
	"loss": 0.0839,
	"step": 19500
	},
	{
	"epoch": 0.5079365079365079,
	"grad_norm": 0.450612336397171,
	"learning_rate": 1.6613756613756614e-05,
	"loss": 0.0832,
	"step": 20000
	},
	{
	"epoch": 0.5206349206349207,
	"grad_norm": 0.35937097668647766,
	"learning_rate": 1.652910052910053e-05,
	"loss": 0.0816,
	"step": 20500
	},
	{
	"epoch": 0.5333333333333333,
	"grad_norm": 0.4366040527820587,
	"learning_rate": 1.6444444444444444e-05,
	"loss": 0.0817,
	"step": 21000
	},
	{
	"epoch": 0.546031746031746,
	"grad_norm": 0.3630824387073517,
	"learning_rate": 1.6359788359788363e-05,
	"loss": 0.0823,
	"step": 21500
	},
	{
	"epoch": 0.5587301587301587,
	"grad_norm": 0.45653077960014343,
	"learning_rate": 1.6275132275132277e-05,
	"loss": 0.0814,
	"step": 22000
	},
	{
	"epoch": 0.5714285714285714,
	"grad_norm": 0.4124685525894165,
	"learning_rate": 1.6190476190476193e-05,
	"loss": 0.0828,
	"step": 22500
	},
	{
	"epoch": 0.5841269841269842,
	"grad_norm": 0.4182330071926117,
	"learning_rate": 1.6105820105820106e-05,
	"loss": 0.0825,
	"step": 23000
	},
	{
	"epoch": 0.5968253968253968,
	"grad_norm": 0.7457558512687683,
	"learning_rate": 1.6021164021164023e-05,
	"loss": 0.0828,
	"step": 23500
	},
	{
	"epoch": 0.6095238095238096,
	"grad_norm": 0.41049671173095703,
	"learning_rate": 1.5936507936507936e-05,
	"loss": 0.0831,
	"step": 24000
	},
	{
	"epoch": 0.6222222222222222,
	"grad_norm": 0.4230283498764038,
	"learning_rate": 1.5851851851851852e-05,
	"loss": 0.0823,
	"step": 24500
	},
	{
	"epoch": 0.6349206349206349,
	"grad_norm": 0.38568949699401855,
	"learning_rate": 1.576719576719577e-05,
	"loss": 0.0811,
	"step": 25000
	},
	{
	"epoch": 0.6476190476190476,
	"grad_norm": 0.42709481716156006,
	"learning_rate": 1.5682539682539685e-05,
	"loss": 0.0818,
	"step": 25500
	},
	{
	"epoch": 0.6603174603174603,
	"grad_norm": 0.37508589029312134,
	"learning_rate": 1.55978835978836e-05,
	"loss": 0.0828,
	"step": 26000
	},
	{
	"epoch": 0.6730158730158731,
	"grad_norm": 0.43134260177612305,
	"learning_rate": 1.5513227513227515e-05,
	"loss": 0.0824,
	"step": 26500
	},
	{
	"epoch": 0.6857142857142857,
	"grad_norm": 0.37693992257118225,
	"learning_rate": 1.542857142857143e-05,
	"loss": 0.0811,
	"step": 27000
	},
	{
	"epoch": 0.6984126984126984,
	"grad_norm": 0.34098678827285767,
	"learning_rate": 1.5343915343915344e-05,
	"loss": 0.0819,
	"step": 27500
	},
	{
	"epoch": 0.7111111111111111,
	"grad_norm": 0.47179728746414185,
	"learning_rate": 1.525925925925926e-05,
	"loss": 0.082,
	"step": 28000
	},
	{
	"epoch": 0.7238095238095238,
	"grad_norm": 0.4184609651565552,
	"learning_rate": 1.5174603174603176e-05,
	"loss": 0.0825,
	"step": 28500
	},
	{
	"epoch": 0.7365079365079366,
	"grad_norm": 0.3582792282104492,
	"learning_rate": 1.508994708994709e-05,
	"loss": 0.0821,
	"step": 29000
	},
	{
	"epoch": 0.7492063492063492,
	"grad_norm": 0.5200299620628357,
	"learning_rate": 1.5005291005291007e-05,
	"loss": 0.0817,
	"step": 29500
	},
	{
	"epoch": 0.7619047619047619,
	"grad_norm": 0.4461567997932434,
	"learning_rate": 1.4920634920634922e-05,
	"loss": 0.0814,
	"step": 30000
	},
	{
	"epoch": 0.7746031746031746,
	"grad_norm": 0.3920634388923645,
	"learning_rate": 1.4835978835978837e-05,
	"loss": 0.0819,
	"step": 30500
	},
	{
	"epoch": 0.7873015873015873,
	"grad_norm": 0.41001540422439575,
	"learning_rate": 1.4751322751322751e-05,
	"loss": 0.0802,
	"step": 31000
	},
	{
	"epoch": 0.8,
	"grad_norm": 0.4187995493412018,
	"learning_rate": 1.4666666666666666e-05,
	"loss": 0.0816,
	"step": 31500
	},
	{
	"epoch": 0.8126984126984127,
	"grad_norm": 0.39321765303611755,
	"learning_rate": 1.4582010582010584e-05,
	"loss": 0.0824,
	"step": 32000
	},
	{
	"epoch": 0.8253968253968254,
	"grad_norm": 0.3958302140235901,
	"learning_rate": 1.44973544973545e-05,
	"loss": 0.0801,
	"step": 32500
	},
	{
	"epoch": 0.8380952380952381,
	"grad_norm": 0.3932056725025177,
	"learning_rate": 1.4412698412698414e-05,
	"loss": 0.0808,
	"step": 33000
	},
	{
	"epoch": 0.8507936507936508,
	"grad_norm": 0.3314465284347534,
	"learning_rate": 1.4328042328042329e-05,
	"loss": 0.0827,
	"step": 33500
	},
	{
	"epoch": 0.8634920634920635,
	"grad_norm": 0.43675485253334045,
	"learning_rate": 1.4243386243386244e-05,
	"loss": 0.0811,
	"step": 34000
	},
	{
	"epoch": 0.8761904761904762,
	"grad_norm": 0.6284595131874084,
	"learning_rate": 1.415873015873016e-05,
	"loss": 0.0805,
	"step": 34500
	},
	{
	"epoch": 0.8888888888888888,
	"grad_norm": 0.39293691515922546,
	"learning_rate": 1.4074074074074075e-05,
	"loss": 0.0803,
	"step": 35000
	},
	{
	"epoch": 0.9015873015873016,
	"grad_norm": 0.4092639088630676,
	"learning_rate": 1.398941798941799e-05,
	"loss": 0.0813,
	"step": 35500
	},
	{
	"epoch": 0.9142857142857143,
	"grad_norm": 0.41005492210388184,
	"learning_rate": 1.3904761904761905e-05,
	"loss": 0.0811,
	"step": 36000
	},
	{
	"epoch": 0.926984126984127,
	"grad_norm": 0.5190646052360535,
	"learning_rate": 1.3820105820105821e-05,
	"loss": 0.0811,
	"step": 36500
	},
	{
	"epoch": 0.9396825396825397,
	"grad_norm": 0.32034316658973694,
	"learning_rate": 1.3735449735449738e-05,
	"loss": 0.0812,
	"step": 37000
	},
	{
	"epoch": 0.9523809523809523,
	"grad_norm": 0.4857613742351532,
	"learning_rate": 1.3650793650793652e-05,
	"loss": 0.0813,
	"step": 37500
	},
	{
	"epoch": 0.9650793650793651,
	"grad_norm": 0.4523787796497345,
	"learning_rate": 1.3566137566137567e-05,
	"loss": 0.0816,
	"step": 38000
	},
	{
	"epoch": 0.9777777777777777,
	"grad_norm": 0.4204433262348175,
	"learning_rate": 1.3481481481481482e-05,
	"loss": 0.0806,
	"step": 38500
	},
	{
	"epoch": 0.9904761904761905,
	"grad_norm": 0.4313475787639618,
	"learning_rate": 1.3396825396825397e-05,
	"loss": 0.0806,
	"step": 39000
	},
	{
	"epoch": 1.0,
	"eval_loss": 0.07647726684808731,
	"eval_runtime": 270.8786,
	"eval_samples_per_second": 516.837,
	"eval_steps_per_second": 64.605,
	"step": 39375
	},
	{
	"epoch": 1.0031746031746032,
	"grad_norm": 0.44939786195755005,
	"learning_rate": 1.3312169312169313e-05,
	"loss": 0.0795,
	"step": 39500
	},
	{
	"epoch": 1.0158730158730158,
	"grad_norm": 0.48013949394226074,
	"learning_rate": 1.322751322751323e-05,
	"loss": 0.0751,
	"step": 40000
	},
	{
	"epoch": 1.0285714285714285,
	"grad_norm": 0.4185923635959625,
	"learning_rate": 1.3142857142857145e-05,
	"loss": 0.0736,
	"step": 40500
	},
	{
	"epoch": 1.0412698412698413,
	"grad_norm": 0.397386759519577,
	"learning_rate": 1.305820105820106e-05,
	"loss": 0.0748,
	"step": 41000
	},
	{
	"epoch": 1.053968253968254,
	"grad_norm": 0.39524805545806885,
	"learning_rate": 1.2973544973544974e-05,
	"loss": 0.0735,
	"step": 41500
	},
	{
	"epoch": 1.0666666666666667,
	"grad_norm": 0.34505075216293335,
	"learning_rate": 1.288888888888889e-05,
	"loss": 0.0746,
	"step": 42000
	},
	{
	"epoch": 1.0793650793650793,
	"grad_norm": 0.37381839752197266,
	"learning_rate": 1.2804232804232805e-05,
	"loss": 0.0728,
	"step": 42500
	},
	{
	"epoch": 1.0920634920634922,
	"grad_norm": 0.6797782182693481,
	"learning_rate": 1.271957671957672e-05,
	"loss": 0.0741,
	"step": 43000
	},
	{
	"epoch": 1.1047619047619048,
	"grad_norm": 0.41272956132888794,
	"learning_rate": 1.2634920634920635e-05,
	"loss": 0.0738,
	"step": 43500
	},
	{
	"epoch": 1.1174603174603175,
	"grad_norm": 0.382468044757843,
	"learning_rate": 1.255026455026455e-05,
	"loss": 0.0738,
	"step": 44000
	},
	{
	"epoch": 1.1301587301587301,
	"grad_norm": 0.3978229761123657,
	"learning_rate": 1.2465608465608468e-05,
	"loss": 0.074,
	"step": 44500
	},
	{
	"epoch": 1.1428571428571428,
	"grad_norm": 0.3431326746940613,
	"learning_rate": 1.2380952380952383e-05,
	"loss": 0.0745,
	"step": 45000
	},
	{
	"epoch": 1.1555555555555554,
	"grad_norm": 0.3610997200012207,
	"learning_rate": 1.2296296296296298e-05,
	"loss": 0.0729,
	"step": 45500
	},
	{
	"epoch": 1.1682539682539683,
	"grad_norm": 0.49680083990097046,
	"learning_rate": 1.2211640211640212e-05,
	"loss": 0.0732,
	"step": 46000
	},
	{
	"epoch": 1.180952380952381,
	"grad_norm": 0.3833047151565552,
	"learning_rate": 1.2126984126984127e-05,
	"loss": 0.0732,
	"step": 46500
	},
	{
	"epoch": 1.1936507936507936,
	"grad_norm": 0.2808152139186859,
	"learning_rate": 1.2042328042328044e-05,
	"loss": 0.0733,
	"step": 47000
	},
	{
	"epoch": 1.2063492063492063,
	"grad_norm": 0.5429581999778748,
	"learning_rate": 1.1957671957671959e-05,
	"loss": 0.0729,
	"step": 47500
	},
	{
	"epoch": 1.2190476190476192,
	"grad_norm": 0.34248363971710205,
	"learning_rate": 1.1873015873015873e-05,
	"loss": 0.0746,
	"step": 48000
	},
	{
	"epoch": 1.2317460317460318,
	"grad_norm": 0.5099675059318542,
	"learning_rate": 1.1788359788359788e-05,
	"loss": 0.0739,
	"step": 48500
	},
	{
	"epoch": 1.2444444444444445,
	"grad_norm": 0.3858914375305176,
	"learning_rate": 1.1703703703703703e-05,
	"loss": 0.0721,
	"step": 49000
	},
	{
	"epoch": 1.2571428571428571,
	"grad_norm": 0.3453405201435089,
	"learning_rate": 1.1619047619047621e-05,
	"loss": 0.0737,
	"step": 49500
	},
	{
	"epoch": 1.2698412698412698,
	"grad_norm": 0.4647195637226105,
	"learning_rate": 1.1534391534391536e-05,
	"loss": 0.0736,
	"step": 50000
	},
	{
	"epoch": 1.2825396825396824,
	"grad_norm": 0.4548490345478058,
	"learning_rate": 1.144973544973545e-05,
	"loss": 0.0742,
	"step": 50500
	},
	{
	"epoch": 1.2952380952380953,
	"grad_norm": 0.4145970046520233,
	"learning_rate": 1.1365079365079366e-05,
	"loss": 0.0748,
	"step": 51000
	},
	{
	"epoch": 1.307936507936508,
	"grad_norm": 0.4032251536846161,
	"learning_rate": 1.128042328042328e-05,
	"loss": 0.073,
	"step": 51500
	},
	{
	"epoch": 1.3206349206349206,
	"grad_norm": 0.5053452849388123,
	"learning_rate": 1.1195767195767197e-05,
	"loss": 0.0742,
	"step": 52000
	},
	{
	"epoch": 1.3333333333333333,
	"grad_norm": 0.42281991243362427,
	"learning_rate": 1.1111111111111113e-05,
	"loss": 0.0728,
	"step": 52500
	},
	{
	"epoch": 1.3460317460317461,
	"grad_norm": 0.4088720679283142,
	"learning_rate": 1.1026455026455028e-05,
	"loss": 0.0737,
	"step": 53000
	},
	{
	"epoch": 1.3587301587301588,
	"grad_norm": 0.4682016968727112,
	"learning_rate": 1.0941798941798943e-05,
	"loss": 0.0754,
	"step": 53500
	},
	{
	"epoch": 1.3714285714285714,
	"grad_norm": 0.35886242985725403,
	"learning_rate": 1.0857142857142858e-05,
	"loss": 0.0739,
	"step": 54000
	},
	{
	"epoch": 1.384126984126984,
	"grad_norm": 0.5034026503562927,
	"learning_rate": 1.0772486772486774e-05,
	"loss": 0.0744,
	"step": 54500
	},
	{
	"epoch": 1.3968253968253967,
	"grad_norm": 0.6038418412208557,
	"learning_rate": 1.0687830687830689e-05,
	"loss": 0.073,
	"step": 55000
	},
	{
	"epoch": 1.4095238095238094,
	"grad_norm": 0.4263134002685547,
	"learning_rate": 1.0603174603174604e-05,
	"loss": 0.0743,
	"step": 55500
	},
	{
	"epoch": 1.4222222222222223,
	"grad_norm": 0.3092331886291504,
	"learning_rate": 1.0518518518518519e-05,
	"loss": 0.0747,
	"step": 56000
	},
	{
	"epoch": 1.434920634920635,
	"grad_norm": 0.41775885224342346,
	"learning_rate": 1.0433862433862433e-05,
	"loss": 0.0736,
	"step": 56500
	},
	{
	"epoch": 1.4476190476190476,
	"grad_norm": 0.3818839192390442,
	"learning_rate": 1.0349206349206352e-05,
	"loss": 0.0736,
	"step": 57000
	},
	{
	"epoch": 1.4603174603174602,
	"grad_norm": 0.42527565360069275,
	"learning_rate": 1.0264550264550266e-05,
	"loss": 0.0741,
	"step": 57500
	},
	{
	"epoch": 1.4730158730158731,
	"grad_norm": 0.37903305888175964,
	"learning_rate": 1.0179894179894181e-05,
	"loss": 0.0727,
	"step": 58000
	},
	{
	"epoch": 1.4857142857142858,
	"grad_norm": 0.41770797967910767,
	"learning_rate": 1.0095238095238096e-05,
	"loss": 0.0733,
	"step": 58500
	},
	{
	"epoch": 1.4984126984126984,
	"grad_norm": 0.6334396600723267,
	"learning_rate": 1.001058201058201e-05,
	"loss": 0.073,
	"step": 59000
	},
	{
	"epoch": 1.511111111111111,
	"grad_norm": 0.3735711872577667,
	"learning_rate": 9.925925925925927e-06,
	"loss": 0.0739,
	"step": 59500
	},
	{
	"epoch": 1.5238095238095237,
	"grad_norm": 0.40507185459136963,
	"learning_rate": 9.841269841269842e-06,
	"loss": 0.0731,
	"step": 60000
	},
	{
	"epoch": 1.5365079365079364,
	"grad_norm": 0.4952349066734314,
	"learning_rate": 9.756613756613757e-06,
	"loss": 0.0741,
	"step": 60500
	},
	{
	"epoch": 1.5492063492063493,
	"grad_norm": 0.4670361280441284,
	"learning_rate": 9.671957671957672e-06,
	"loss": 0.0736,
	"step": 61000
	},
	{
	"epoch": 1.561904761904762,
	"grad_norm": 0.2984641492366791,
	"learning_rate": 9.587301587301588e-06,
	"loss": 0.0732,
	"step": 61500
	},
	{
	"epoch": 1.5746031746031746,
	"grad_norm": 0.5101374983787537,
	"learning_rate": 9.502645502645503e-06,
	"loss": 0.0759,
	"step": 62000
	},
	{
	"epoch": 1.5873015873015874,
	"grad_norm": 0.38656944036483765,
	"learning_rate": 9.417989417989418e-06,
	"loss": 0.0741,
	"step": 62500
	},
	{
	"epoch": 1.6,
	"grad_norm": 0.508953869342804,
	"learning_rate": 9.333333333333334e-06,
	"loss": 0.0737,
	"step": 63000
	},
	{
	"epoch": 1.6126984126984127,
	"grad_norm": 0.49415382742881775,
	"learning_rate": 9.248677248677249e-06,
	"loss": 0.0736,
	"step": 63500
	},
	{
	"epoch": 1.6253968253968254,
	"grad_norm": 0.48334264755249023,
	"learning_rate": 9.164021164021166e-06,
	"loss": 0.0739,
	"step": 64000
	},
	{
	"epoch": 1.638095238095238,
	"grad_norm": 0.3960755467414856,
	"learning_rate": 9.07936507936508e-06,
	"loss": 0.0723,
	"step": 64500
	},
	{
	"epoch": 1.6507936507936507,
	"grad_norm": 0.4537145495414734,
	"learning_rate": 8.994708994708995e-06,
	"loss": 0.0723,
	"step": 65000
	},
	{
	"epoch": 1.6634920634920634,
	"grad_norm": 0.4759564697742462,
	"learning_rate": 8.910052910052912e-06,
	"loss": 0.0737,
	"step": 65500
	},
	{
	"epoch": 1.6761904761904762,
	"grad_norm": 0.564620316028595,
	"learning_rate": 8.825396825396827e-06,
	"loss": 0.0726,
	"step": 66000
	},
	{
	"epoch": 1.6888888888888889,
	"grad_norm": 0.3793913424015045,
	"learning_rate": 8.740740740740741e-06,
	"loss": 0.0725,
	"step": 66500
	},
	{
	"epoch": 1.7015873015873015,
	"grad_norm": 0.3748345673084259,
	"learning_rate": 8.656084656084656e-06,
	"loss": 0.0734,
	"step": 67000
	},
	{
	"epoch": 1.7142857142857144,
	"grad_norm": 0.31550857424736023,
	"learning_rate": 8.571428571428571e-06,
	"loss": 0.0728,
	"step": 67500
	},
	{
	"epoch": 1.726984126984127,
	"grad_norm": 0.39485469460487366,
	"learning_rate": 8.486772486772487e-06,
	"loss": 0.074,
	"step": 68000
	},
	{
	"epoch": 1.7396825396825397,
	"grad_norm": 0.3833816647529602,
	"learning_rate": 8.402116402116402e-06,
	"loss": 0.0727,
	"step": 68500
	},
	{
	"epoch": 1.7523809523809524,
	"grad_norm": 0.45526403188705444,
	"learning_rate": 8.317460317460319e-06,
	"loss": 0.0721,
	"step": 69000
	},
	{
	"epoch": 1.765079365079365,
	"grad_norm": 0.4437309801578522,
	"learning_rate": 8.232804232804234e-06,
	"loss": 0.0714,
	"step": 69500
	},
	{
	"epoch": 1.7777777777777777,
	"grad_norm": 0.3827795386314392,
	"learning_rate": 8.148148148148148e-06,
	"loss": 0.0736,
	"step": 70000
	},
	{
	"epoch": 1.7904761904761903,
	"grad_norm": 0.3821280896663666,
	"learning_rate": 8.063492063492065e-06,
	"loss": 0.0742,
	"step": 70500
	},
	{
	"epoch": 1.8031746031746032,
	"grad_norm": 0.3558200001716614,
	"learning_rate": 7.97883597883598e-06,
	"loss": 0.0733,
	"step": 71000
	},
	{
	"epoch": 1.8158730158730159,
	"grad_norm": 0.35507771372795105,
	"learning_rate": 7.894179894179896e-06,
	"loss": 0.073,
	"step": 71500
	},
	{
	"epoch": 1.8285714285714287,
	"grad_norm": 0.4878668785095215,
	"learning_rate": 7.809523809523811e-06,
	"loss": 0.0726,
	"step": 72000
	},
	{
	"epoch": 1.8412698412698414,
	"grad_norm": 0.46924230456352234,
	"learning_rate": 7.724867724867726e-06,
	"loss": 0.0729,
	"step": 72500
	},
	{
	"epoch": 1.853968253968254,
	"grad_norm": 0.5545886158943176,
	"learning_rate": 7.64021164021164e-06,
	"loss": 0.0728,
	"step": 73000
	},
	{
	"epoch": 1.8666666666666667,
	"grad_norm": 0.33820512890815735,
	"learning_rate": 7.555555555555556e-06,
	"loss": 0.0727,
	"step": 73500
	},
	{
	"epoch": 1.8793650793650793,
	"grad_norm": 0.4180295169353485,
	"learning_rate": 7.470899470899472e-06,
	"loss": 0.0722,
	"step": 74000
	},
	{
	"epoch": 1.892063492063492,
	"grad_norm": 0.41895756125450134,
	"learning_rate": 7.386243386243387e-06,
	"loss": 0.0721,
	"step": 74500
	},
	{
	"epoch": 1.9047619047619047,
	"grad_norm": 0.37801581621170044,
	"learning_rate": 7.301587301587301e-06,
	"loss": 0.0754,
	"step": 75000
	},
	{
	"epoch": 1.9174603174603173,
	"grad_norm": 0.42890599370002747,
	"learning_rate": 7.216931216931218e-06,
	"loss": 0.0727,
	"step": 75500
	},
	{
	"epoch": 1.9301587301587302,
	"grad_norm": 0.36311328411102295,
	"learning_rate": 7.132275132275133e-06,
	"loss": 0.0732,
	"step": 76000
	},
	{
	"epoch": 1.9428571428571428,
	"grad_norm": 0.4069361090660095,
	"learning_rate": 7.047619047619048e-06,
	"loss": 0.0731,
	"step": 76500
	},
	{
	"epoch": 1.9555555555555557,
	"grad_norm": 0.38275209069252014,
	"learning_rate": 6.962962962962964e-06,
	"loss": 0.0729,
	"step": 77000
	},
	{
	"epoch": 1.9682539682539684,
	"grad_norm": 0.3496081829071045,
	"learning_rate": 6.878306878306879e-06,
	"loss": 0.0725,
	"step": 77500
	},
	{
	"epoch": 1.980952380952381,
	"grad_norm": 0.37429070472717285,
	"learning_rate": 6.7936507936507944e-06,
	"loss": 0.0726,
	"step": 78000
	},
	{
	"epoch": 1.9936507936507937,
	"grad_norm": 0.4195725619792938,
	"learning_rate": 6.708994708994709e-06,
	"loss": 0.0724,
	"step": 78500
	},
	{
	"epoch": 2.0,
	"eval_loss": 0.0749795213341713,
	"eval_runtime": 269.1515,
	"eval_samples_per_second": 520.153,
	"eval_steps_per_second": 65.019,
	"step": 78750
	},
	{
	"epoch": 2.0063492063492063,
	"grad_norm": 0.4257189631462097,
	"learning_rate": 6.624338624338626e-06,
	"loss": 0.07,
	"step": 79000
	},
	{
	"epoch": 2.019047619047619,
	"grad_norm": 0.37472862005233765,
	"learning_rate": 6.5396825396825405e-06,
	"loss": 0.0664,
	"step": 79500
	},
	{
	"epoch": 2.0317460317460316,
	"grad_norm": 0.4728703796863556,
	"learning_rate": 6.455026455026455e-06,
	"loss": 0.0664,
	"step": 80000
	},
	{
	"epoch": 2.0444444444444443,
	"grad_norm": 0.42774897813796997,
	"learning_rate": 6.370370370370371e-06,
	"loss": 0.0661,
	"step": 80500
	},
	{
	"epoch": 2.057142857142857,
	"grad_norm": 0.4025447368621826,
	"learning_rate": 6.285714285714286e-06,
	"loss": 0.0679,
	"step": 81000
	},
	{
	"epoch": 2.06984126984127,
	"grad_norm": 0.41302409768104553,
	"learning_rate": 6.201058201058202e-06,
	"loss": 0.0662,
	"step": 81500
	},
	{
	"epoch": 2.0825396825396827,
	"grad_norm": 0.4339478611946106,
	"learning_rate": 6.116402116402117e-06,
	"loss": 0.0662,
	"step": 82000
	},
	{
	"epoch": 2.0952380952380953,
	"grad_norm": 0.38711288571357727,
	"learning_rate": 6.031746031746032e-06,
	"loss": 0.0677,
	"step": 82500
	},
	{
	"epoch": 2.107936507936508,
	"grad_norm": 0.44815394282341003,
	"learning_rate": 5.9470899470899475e-06,
	"loss": 0.0674,
	"step": 83000
	},
	{
	"epoch": 2.1206349206349207,
	"grad_norm": 0.4252176582813263,
	"learning_rate": 5.862433862433863e-06,
	"loss": 0.067,
	"step": 83500
	},
	{
	"epoch": 2.1333333333333333,
	"grad_norm": 0.4019823670387268,
	"learning_rate": 5.777777777777778e-06,
	"loss": 0.0676,
	"step": 84000
	},
	{
	"epoch": 2.146031746031746,
	"grad_norm": 0.37775805592536926,
	"learning_rate": 5.693121693121694e-06,
	"loss": 0.0671,
	"step": 84500
	},
	{
	"epoch": 2.1587301587301586,
	"grad_norm": 0.5179104208946228,
	"learning_rate": 5.6084656084656084e-06,
	"loss": 0.0671,
	"step": 85000
	},
	{
	"epoch": 2.1714285714285713,
	"grad_norm": 0.37160980701446533,
	"learning_rate": 5.523809523809525e-06,
	"loss": 0.0677,
	"step": 85500
	},
	{
	"epoch": 2.1841269841269844,
	"grad_norm": 0.4610843360424042,
	"learning_rate": 5.43915343915344e-06,
	"loss": 0.0671,
	"step": 86000
	},
	{
	"epoch": 2.196825396825397,
	"grad_norm": 0.4135109484195709,
	"learning_rate": 5.3544973544973545e-06,
	"loss": 0.0678,
	"step": 86500
	},
	{
	"epoch": 2.2095238095238097,
	"grad_norm": 0.38079920411109924,
	"learning_rate": 5.26984126984127e-06,
	"loss": 0.0678,
	"step": 87000
	},
	{
	"epoch": 2.2222222222222223,
	"grad_norm": 0.39888954162597656,
	"learning_rate": 5.185185185185185e-06,
	"loss": 0.0669,
	"step": 87500
	},
	{
	"epoch": 2.234920634920635,
	"grad_norm": 0.37562116980552673,
	"learning_rate": 5.1005291005291015e-06,
	"loss": 0.0661,
	"step": 88000
	},
	{
	"epoch": 2.2476190476190476,
	"grad_norm": 0.4394863247871399,
	"learning_rate": 5.015873015873016e-06,
	"loss": 0.0671,
	"step": 88500
	},
	{
	"epoch": 2.2603174603174603,
	"grad_norm": 0.4748270511627197,
	"learning_rate": 4.931216931216932e-06,
	"loss": 0.067,
	"step": 89000
	},
	{
	"epoch": 2.273015873015873,
	"grad_norm": 0.4593636095523834,
	"learning_rate": 4.846560846560847e-06,
	"loss": 0.067,
	"step": 89500
	},
	{
	"epoch": 2.2857142857142856,
	"grad_norm": 0.3517415225505829,
	"learning_rate": 4.761904761904762e-06,
	"loss": 0.0669,
	"step": 90000
	},
	{
	"epoch": 2.2984126984126982,
	"grad_norm": 0.40983742475509644,
	"learning_rate": 4.677248677248677e-06,
	"loss": 0.0681,
	"step": 90500
	},
	{
	"epoch": 2.311111111111111,
	"grad_norm": 0.46570950746536255,
	"learning_rate": 4.592592592592593e-06,
	"loss": 0.0672,
	"step": 91000
	},
	{
	"epoch": 2.323809523809524,
	"grad_norm": 0.4733307957649231,
	"learning_rate": 4.5079365079365085e-06,
	"loss": 0.0671,
	"step": 91500
	},
	{
	"epoch": 2.3365079365079366,
	"grad_norm": 0.38432806730270386,
	"learning_rate": 4.423280423280424e-06,
	"loss": 0.0672,
	"step": 92000
	},
	{
	"epoch": 2.3492063492063493,
	"grad_norm": 0.31346267461776733,
	"learning_rate": 4.338624338624339e-06,
	"loss": 0.066,
	"step": 92500
	},
	{
	"epoch": 2.361904761904762,
	"grad_norm": 0.5612916350364685,
	"learning_rate": 4.2539682539682546e-06,
	"loss": 0.0666,
	"step": 93000
	},
	{
	"epoch": 2.3746031746031746,
	"grad_norm": 0.3445761501789093,
	"learning_rate": 4.169312169312169e-06,
	"loss": 0.0675,
	"step": 93500
	},
	{
	"epoch": 2.3873015873015873,
	"grad_norm": 0.41335174441337585,
	"learning_rate": 4.084656084656085e-06,
	"loss": 0.0676,
	"step": 94000
	},
	{
	"epoch": 2.4,
	"grad_norm": 0.42691895365715027,
	"learning_rate": 4.000000000000001e-06,
	"loss": 0.0669,
	"step": 94500
	},
	{
	"epoch": 2.4126984126984126,
	"grad_norm": 0.44459807872772217,
	"learning_rate": 3.9153439153439155e-06,
	"loss": 0.0661,
	"step": 95000
	},
	{
	"epoch": 2.425396825396825,
	"grad_norm": 0.39611610770225525,
	"learning_rate": 3.830687830687831e-06,
	"loss": 0.0665,
	"step": 95500
	},
	{
	"epoch": 2.4380952380952383,
	"grad_norm": 0.41603508591651917,
	"learning_rate": 3.7460317460317463e-06,
	"loss": 0.067,
	"step": 96000
	},
	{
	"epoch": 2.450793650793651,
	"grad_norm": 0.45685020089149475,
	"learning_rate": 3.661375661375662e-06,
	"loss": 0.0664,
	"step": 96500
	},
	{
	"epoch": 2.4634920634920636,
	"grad_norm": 0.41426390409469604,
	"learning_rate": 3.5767195767195772e-06,
	"loss": 0.0665,
	"step": 97000
	},
	{
	"epoch": 2.4761904761904763,
	"grad_norm": 0.4311801791191101,
	"learning_rate": 3.492063492063492e-06,
	"loss": 0.0673,
	"step": 97500
	},
	{
	"epoch": 2.488888888888889,
	"grad_norm": 0.39366066455841064,
	"learning_rate": 3.4074074074074077e-06,
	"loss": 0.0676,
	"step": 98000
	},
	{
	"epoch": 2.5015873015873016,
	"grad_norm": 0.46240171790122986,
	"learning_rate": 3.322751322751323e-06,
	"loss": 0.0674,
	"step": 98500
	},
	{
	"epoch": 2.5142857142857142,
	"grad_norm": 0.45865318179130554,
	"learning_rate": 3.2380952380952385e-06,
	"loss": 0.0671,
	"step": 99000
	},
	{
	"epoch": 2.526984126984127,
	"grad_norm": 0.38405075669288635,
	"learning_rate": 3.1534391534391538e-06,
	"loss": 0.0678,
	"step": 99500
	},
	{
	"epoch": 2.5396825396825395,
	"grad_norm": 0.48667874932289124,
	"learning_rate": 3.068783068783069e-06,
	"loss": 0.0661,
	"step": 100000
	},
	{
	"epoch": 2.552380952380952,
	"grad_norm": 0.3919212818145752,
	"learning_rate": 2.984126984126984e-06,
	"loss": 0.0654,
	"step": 100500
	},
	{
	"epoch": 2.565079365079365,
	"grad_norm": 0.4081352651119232,
	"learning_rate": 2.8994708994709e-06,
	"loss": 0.0669,
	"step": 101000
	},
	{
	"epoch": 2.5777777777777775,
	"grad_norm": 0.33449599146842957,
	"learning_rate": 2.814814814814815e-06,
	"loss": 0.0655,
	"step": 101500
	},
	{
	"epoch": 2.5904761904761906,
	"grad_norm": 0.37508487701416016,
	"learning_rate": 2.7301587301587303e-06,
	"loss": 0.0659,
	"step": 102000
	},
	{
	"epoch": 2.6031746031746033,
	"grad_norm": 0.43301156163215637,
	"learning_rate": 2.6455026455026455e-06,
	"loss": 0.0684,
	"step": 102500
	},
	{
	"epoch": 2.615873015873016,
	"grad_norm": 0.31652727723121643,
	"learning_rate": 2.560846560846561e-06,
	"loss": 0.0674,
	"step": 103000
	},
	{
	"epoch": 2.6285714285714286,
	"grad_norm": 0.38132810592651367,
	"learning_rate": 2.4761904761904764e-06,
	"loss": 0.0665,
	"step": 103500
	},
	{
	"epoch": 2.641269841269841,
	"grad_norm": 0.4249517023563385,
	"learning_rate": 2.3915343915343916e-06,
	"loss": 0.0678,
	"step": 104000
	},
	{
	"epoch": 2.653968253968254,
	"grad_norm": 0.42605915665626526,
	"learning_rate": 2.3068783068783073e-06,
	"loss": 0.0659,
	"step": 104500
	},
	{
	"epoch": 2.6666666666666665,
	"grad_norm": 0.4002751111984253,
	"learning_rate": 2.222222222222222e-06,
	"loss": 0.0665,
	"step": 105000
	},
	{
	"epoch": 2.6793650793650796,
	"grad_norm": 0.5232521891593933,
	"learning_rate": 2.1375661375661377e-06,
	"loss": 0.0676,
	"step": 105500
	},
	{
	"epoch": 2.6920634920634923,
	"grad_norm": 0.409422367811203,
	"learning_rate": 2.0529100529100534e-06,
	"loss": 0.0658,
	"step": 106000
	},
	{
	"epoch": 2.704761904761905,
	"grad_norm": 0.3971617519855499,
	"learning_rate": 1.968253968253968e-06,
	"loss": 0.0655,
	"step": 106500
	},
	{
	"epoch": 2.7174603174603176,
	"grad_norm": 0.35877570509910583,
	"learning_rate": 1.8835978835978838e-06,
	"loss": 0.0673,
	"step": 107000
	},
	{
	"epoch": 2.7301587301587302,
	"grad_norm": 0.36749425530433655,
	"learning_rate": 1.798941798941799e-06,
	"loss": 0.0681,
	"step": 107500
	},
	{
	"epoch": 2.742857142857143,
	"grad_norm": 0.3727457821369171,
	"learning_rate": 1.7142857142857145e-06,
	"loss": 0.0665,
	"step": 108000
	},
	{
	"epoch": 2.7555555555555555,
	"grad_norm": 0.40977808833122253,
	"learning_rate": 1.62962962962963e-06,
	"loss": 0.0672,
	"step": 108500
	},
	{
	"epoch": 2.768253968253968,
	"grad_norm": 0.4265407621860504,
	"learning_rate": 1.5449735449735451e-06,
	"loss": 0.0666,
	"step": 109000
	},
	{
	"epoch": 2.780952380952381,
	"grad_norm": 0.3894596993923187,
	"learning_rate": 1.4603174603174606e-06,
	"loss": 0.0673,
	"step": 109500
	},
	{
	"epoch": 2.7936507936507935,
	"grad_norm": 0.526606023311615,
	"learning_rate": 1.3756613756613758e-06,
	"loss": 0.0676,
	"step": 110000
	},
	{
	"epoch": 2.806349206349206,
	"grad_norm": 0.2910812497138977,
	"learning_rate": 1.2910052910052912e-06,
	"loss": 0.0671,
	"step": 110500
	},
	{
	"epoch": 2.819047619047619,
	"grad_norm": 0.3701234757900238,
	"learning_rate": 1.2063492063492065e-06,
	"loss": 0.0666,
	"step": 111000
	},
	{
	"epoch": 2.831746031746032,
	"grad_norm": 0.3969452679157257,
	"learning_rate": 1.1216931216931217e-06,
	"loss": 0.0668,
	"step": 111500
	},
	{
	"epoch": 2.8444444444444446,
	"grad_norm": 0.4415270686149597,
	"learning_rate": 1.0370370370370371e-06,
	"loss": 0.0661,
	"step": 112000
	},
	{
	"epoch": 2.857142857142857,
	"grad_norm": 0.3490103483200073,
	"learning_rate": 9.523809523809525e-07,
	"loss": 0.0658,
	"step": 112500
	},
	{
	"epoch": 2.86984126984127,
	"grad_norm": 0.35733526945114136,
	"learning_rate": 8.677248677248679e-07,
	"loss": 0.0661,
	"step": 113000
	},
	{
	"epoch": 2.8825396825396825,
	"grad_norm": 0.4992692172527313,
	"learning_rate": 7.830687830687832e-07,
	"loss": 0.068,
	"step": 113500
	},
	{
	"epoch": 2.895238095238095,
	"grad_norm": 0.4047030508518219,
	"learning_rate": 6.984126984126984e-07,
	"loss": 0.0683,
	"step": 114000
	},
	{
	"epoch": 2.907936507936508,
	"grad_norm": 0.4468993544578552,
	"learning_rate": 6.137566137566138e-07,
	"loss": 0.0664,
	"step": 114500
	},
	{
	"epoch": 2.9206349206349205,
	"grad_norm": 0.41356751322746277,
	"learning_rate": 5.291005291005291e-07,
	"loss": 0.067,
	"step": 115000
	},
	{
	"epoch": 2.9333333333333336,
	"grad_norm": 0.4459340572357178,
	"learning_rate": 4.444444444444445e-07,
	"loss": 0.0671,
	"step": 115500
	},
	{
	"epoch": 2.9460317460317462,
	"grad_norm": 0.42610964179039,
	"learning_rate": 3.597883597883598e-07,
	"loss": 0.0664,
	"step": 116000
	},
	{
	"epoch": 2.958730158730159,
	"grad_norm": 0.5059521794319153,
	"learning_rate": 2.7513227513227515e-07,
	"loss": 0.0658,
	"step": 116500
	},
	{
	"epoch": 2.9714285714285715,
	"grad_norm": 0.3404170572757721,
	"learning_rate": 1.904761904761905e-07,
	"loss": 0.0667,
	"step": 117000
	},
	{
	"epoch": 2.984126984126984,
	"grad_norm": 0.4388870894908905,
	"learning_rate": 1.0582010582010582e-07,
	"loss": 0.0658,
	"step": 117500
	},
	{
	"epoch": 2.996825396825397,
	"grad_norm": 0.39170539379119873,
	"learning_rate": 2.1164021164021167e-08,
	"loss": 0.0665,
	"step": 118000
	}
	],
	"logging_steps": 500,
	"max_steps": 118125,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1.4389780414464e+17,
	"train_batch_size": 32,
	"trial_name": null,
	"trial_params": null
	}