OLMo-1B-Base-shakespeare / checkpoint-4656 /trainer_state.json

Upload folder using huggingface_hub

adee540 verified 2 months ago

33.1 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 3.0,
	"eval_steps": 100,
	"global_step": 4656,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0006443298969072165,
	"grad_norm": 37.304439544677734,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 3.2892,
	"step": 1
	},
	{
	"epoch": 0.01610824742268041,
	"grad_norm": 21.749683380126953,
	"learning_rate": 2.5e-05,
	"loss": 3.1951,
	"step": 25
	},
	{
	"epoch": 0.03221649484536082,
	"grad_norm": 17.803585052490234,
	"learning_rate": 5e-05,
	"loss": 3.3824,
	"step": 50
	},
	{
	"epoch": 0.04832474226804124,
	"grad_norm": 13.760115623474121,
	"learning_rate": 4.97286148501954e-05,
	"loss": 3.4591,
	"step": 75
	},
	{
	"epoch": 0.06443298969072164,
	"grad_norm": 17.308778762817383,
	"learning_rate": 4.945722970039079e-05,
	"loss": 3.5677,
	"step": 100
	},
	{
	"epoch": 0.08054123711340207,
	"grad_norm": 11.235258102416992,
	"learning_rate": 4.9185844550586194e-05,
	"loss": 3.5688,
	"step": 125
	},
	{
	"epoch": 0.09664948453608248,
	"grad_norm": 11.886427879333496,
	"learning_rate": 4.891445940078159e-05,
	"loss": 3.5572,
	"step": 150
	},
	{
	"epoch": 0.11275773195876289,
	"grad_norm": 10.693597793579102,
	"learning_rate": 4.864307425097699e-05,
	"loss": 3.5816,
	"step": 175
	},
	{
	"epoch": 0.12886597938144329,
	"grad_norm": 10.654956817626953,
	"learning_rate": 4.8371689101172386e-05,
	"loss": 3.4257,
	"step": 200
	},
	{
	"epoch": 0.14497422680412372,
	"grad_norm": 78.01908111572266,
	"learning_rate": 4.810030395136778e-05,
	"loss": 3.4916,
	"step": 225
	},
	{
	"epoch": 0.16108247422680413,
	"grad_norm": 14.090380668640137,
	"learning_rate": 4.782891880156318e-05,
	"loss": 3.4205,
	"step": 250
	},
	{
	"epoch": 0.17719072164948454,
	"grad_norm": 9.427169799804688,
	"learning_rate": 4.755753365175858e-05,
	"loss": 3.4519,
	"step": 275
	},
	{
	"epoch": 0.19329896907216496,
	"grad_norm": 57.52346420288086,
	"learning_rate": 4.728614850195397e-05,
	"loss": 3.5561,
	"step": 300
	},
	{
	"epoch": 0.20940721649484537,
	"grad_norm": 16.087291717529297,
	"learning_rate": 4.701476335214937e-05,
	"loss": 3.4669,
	"step": 325
	},
	{
	"epoch": 0.22551546391752578,
	"grad_norm": 11.201750755310059,
	"learning_rate": 4.674337820234477e-05,
	"loss": 3.4119,
	"step": 350
	},
	{
	"epoch": 0.2416237113402062,
	"grad_norm": 12.096583366394043,
	"learning_rate": 4.647199305254017e-05,
	"loss": 3.3902,
	"step": 375
	},
	{
	"epoch": 0.25773195876288657,
	"grad_norm": 12.698060989379883,
	"learning_rate": 4.620060790273557e-05,
	"loss": 3.4245,
	"step": 400
	},
	{
	"epoch": 0.27384020618556704,
	"grad_norm": 6.767716884613037,
	"learning_rate": 4.592922275293096e-05,
	"loss": 3.3878,
	"step": 425
	},
	{
	"epoch": 0.28994845360824745,
	"grad_norm": 8.80782413482666,
	"learning_rate": 4.565783760312636e-05,
	"loss": 3.36,
	"step": 450
	},
	{
	"epoch": 0.30605670103092786,
	"grad_norm": 8.567368507385254,
	"learning_rate": 4.538645245332175e-05,
	"loss": 3.46,
	"step": 475
	},
	{
	"epoch": 0.32216494845360827,
	"grad_norm": 7.334051132202148,
	"learning_rate": 4.5115067303517154e-05,
	"loss": 3.4295,
	"step": 500
	},
	{
	"epoch": 0.3382731958762887,
	"grad_norm": 35.50625991821289,
	"learning_rate": 4.484368215371255e-05,
	"loss": 3.458,
	"step": 525
	},
	{
	"epoch": 0.3543814432989691,
	"grad_norm": 8.980048179626465,
	"learning_rate": 4.457229700390795e-05,
	"loss": 3.3348,
	"step": 550
	},
	{
	"epoch": 0.3704896907216495,
	"grad_norm": 11.022858619689941,
	"learning_rate": 4.4300911854103346e-05,
	"loss": 3.4155,
	"step": 575
	},
	{
	"epoch": 0.3865979381443299,
	"grad_norm": 7.455577373504639,
	"learning_rate": 4.402952670429874e-05,
	"loss": 3.3107,
	"step": 600
	},
	{
	"epoch": 0.4027061855670103,
	"grad_norm": 6.974651336669922,
	"learning_rate": 4.375814155449414e-05,
	"loss": 3.371,
	"step": 625
	},
	{
	"epoch": 0.41881443298969073,
	"grad_norm": 6.6951680183410645,
	"learning_rate": 4.348675640468954e-05,
	"loss": 3.3197,
	"step": 650
	},
	{
	"epoch": 0.43492268041237114,
	"grad_norm": 7.696976661682129,
	"learning_rate": 4.321537125488493e-05,
	"loss": 3.3954,
	"step": 675
	},
	{
	"epoch": 0.45103092783505155,
	"grad_norm": 7.18176794052124,
	"learning_rate": 4.294398610508033e-05,
	"loss": 3.3443,
	"step": 700
	},
	{
	"epoch": 0.46713917525773196,
	"grad_norm": 6.54254150390625,
	"learning_rate": 4.267260095527572e-05,
	"loss": 3.235,
	"step": 725
	},
	{
	"epoch": 0.4832474226804124,
	"grad_norm": 6.953215599060059,
	"learning_rate": 4.2401215805471125e-05,
	"loss": 3.3103,
	"step": 750
	},
	{
	"epoch": 0.4993556701030928,
	"grad_norm": 5.925103187561035,
	"learning_rate": 4.212983065566653e-05,
	"loss": 3.3243,
	"step": 775
	},
	{
	"epoch": 0.5154639175257731,
	"grad_norm": 7.676642417907715,
	"learning_rate": 4.185844550586192e-05,
	"loss": 3.2962,
	"step": 800
	},
	{
	"epoch": 0.5315721649484536,
	"grad_norm": 5.8870038986206055,
	"learning_rate": 4.158706035605732e-05,
	"loss": 3.2808,
	"step": 825
	},
	{
	"epoch": 0.5476804123711341,
	"grad_norm": 6.311049938201904,
	"learning_rate": 4.131567520625272e-05,
	"loss": 3.2797,
	"step": 850
	},
	{
	"epoch": 0.5637886597938144,
	"grad_norm": 12.73991584777832,
	"learning_rate": 4.1044290056448114e-05,
	"loss": 3.2348,
	"step": 875
	},
	{
	"epoch": 0.5798969072164949,
	"grad_norm": 8.892550468444824,
	"learning_rate": 4.077290490664351e-05,
	"loss": 3.2308,
	"step": 900
	},
	{
	"epoch": 0.5960051546391752,
	"grad_norm": 5.8089704513549805,
	"learning_rate": 4.0501519756838904e-05,
	"loss": 3.2951,
	"step": 925
	},
	{
	"epoch": 0.6121134020618557,
	"grad_norm": 6.098554611206055,
	"learning_rate": 4.0230134607034306e-05,
	"loss": 3.1594,
	"step": 950
	},
	{
	"epoch": 0.6282216494845361,
	"grad_norm": 26.497699737548828,
	"learning_rate": 3.995874945722971e-05,
	"loss": 3.2403,
	"step": 975
	},
	{
	"epoch": 0.6443298969072165,
	"grad_norm": 7.092996597290039,
	"learning_rate": 3.96873643074251e-05,
	"loss": 3.1879,
	"step": 1000
	},
	{
	"epoch": 0.6604381443298969,
	"grad_norm": 5.452559947967529,
	"learning_rate": 3.94159791576205e-05,
	"loss": 3.2312,
	"step": 1025
	},
	{
	"epoch": 0.6765463917525774,
	"grad_norm": 11.570932388305664,
	"learning_rate": 3.914459400781589e-05,
	"loss": 3.1979,
	"step": 1050
	},
	{
	"epoch": 0.6926546391752577,
	"grad_norm": 10.654516220092773,
	"learning_rate": 3.887320885801129e-05,
	"loss": 3.1124,
	"step": 1075
	},
	{
	"epoch": 0.7087628865979382,
	"grad_norm": 5.750201225280762,
	"learning_rate": 3.860182370820669e-05,
	"loss": 3.1902,
	"step": 1100
	},
	{
	"epoch": 0.7248711340206185,
	"grad_norm": 6.332087993621826,
	"learning_rate": 3.8330438558402085e-05,
	"loss": 3.1835,
	"step": 1125
	},
	{
	"epoch": 0.740979381443299,
	"grad_norm": 6.187074661254883,
	"learning_rate": 3.805905340859749e-05,
	"loss": 3.2402,
	"step": 1150
	},
	{
	"epoch": 0.7570876288659794,
	"grad_norm": 5.326789379119873,
	"learning_rate": 3.778766825879288e-05,
	"loss": 3.1311,
	"step": 1175
	},
	{
	"epoch": 0.7731958762886598,
	"grad_norm": 5.872878551483154,
	"learning_rate": 3.751628310898828e-05,
	"loss": 3.168,
	"step": 1200
	},
	{
	"epoch": 0.7893041237113402,
	"grad_norm": 5.528806209564209,
	"learning_rate": 3.724489795918368e-05,
	"loss": 3.2025,
	"step": 1225
	},
	{
	"epoch": 0.8054123711340206,
	"grad_norm": 4.855608940124512,
	"learning_rate": 3.6973512809379074e-05,
	"loss": 3.1711,
	"step": 1250
	},
	{
	"epoch": 0.821520618556701,
	"grad_norm": 5.053402423858643,
	"learning_rate": 3.670212765957447e-05,
	"loss": 3.0436,
	"step": 1275
	},
	{
	"epoch": 0.8376288659793815,
	"grad_norm": 6.834145545959473,
	"learning_rate": 3.6430742509769864e-05,
	"loss": 3.0668,
	"step": 1300
	},
	{
	"epoch": 0.8537371134020618,
	"grad_norm": 5.844705104827881,
	"learning_rate": 3.615935735996526e-05,
	"loss": 3.129,
	"step": 1325
	},
	{
	"epoch": 0.8698453608247423,
	"grad_norm": 5.622738361358643,
	"learning_rate": 3.588797221016066e-05,
	"loss": 3.123,
	"step": 1350
	},
	{
	"epoch": 0.8859536082474226,
	"grad_norm": 5.435595512390137,
	"learning_rate": 3.561658706035606e-05,
	"loss": 3.1695,
	"step": 1375
	},
	{
	"epoch": 0.9020618556701031,
	"grad_norm": 5.923786640167236,
	"learning_rate": 3.534520191055146e-05,
	"loss": 3.1486,
	"step": 1400
	},
	{
	"epoch": 0.9181701030927835,
	"grad_norm": 5.717883586883545,
	"learning_rate": 3.507381676074685e-05,
	"loss": 3.119,
	"step": 1425
	},
	{
	"epoch": 0.9342783505154639,
	"grad_norm": 5.194445610046387,
	"learning_rate": 3.480243161094225e-05,
	"loss": 3.0391,
	"step": 1450
	},
	{
	"epoch": 0.9503865979381443,
	"grad_norm": 4.672726154327393,
	"learning_rate": 3.453104646113765e-05,
	"loss": 3.0887,
	"step": 1475
	},
	{
	"epoch": 0.9664948453608248,
	"grad_norm": 5.593866348266602,
	"learning_rate": 3.4259661311333045e-05,
	"loss": 3.1433,
	"step": 1500
	},
	{
	"epoch": 0.9826030927835051,
	"grad_norm": 6.05122709274292,
	"learning_rate": 3.398827616152844e-05,
	"loss": 3.094,
	"step": 1525
	},
	{
	"epoch": 0.9987113402061856,
	"grad_norm": 5.456536769866943,
	"learning_rate": 3.371689101172384e-05,
	"loss": 3.0894,
	"step": 1550
	},
	{
	"epoch": 1.014819587628866,
	"grad_norm": 6.8430867195129395,
	"learning_rate": 3.344550586191924e-05,
	"loss": 2.5031,
	"step": 1575
	},
	{
	"epoch": 1.0309278350515463,
	"grad_norm": 6.864569664001465,
	"learning_rate": 3.317412071211464e-05,
	"loss": 2.3879,
	"step": 1600
	},
	{
	"epoch": 1.0470360824742269,
	"grad_norm": 7.638180732727051,
	"learning_rate": 3.2902735562310034e-05,
	"loss": 2.3948,
	"step": 1625
	},
	{
	"epoch": 1.0631443298969072,
	"grad_norm": 5.917698860168457,
	"learning_rate": 3.263135041250543e-05,
	"loss": 2.3638,
	"step": 1650
	},
	{
	"epoch": 1.0792525773195876,
	"grad_norm": 6.708238124847412,
	"learning_rate": 3.2359965262700824e-05,
	"loss": 2.3536,
	"step": 1675
	},
	{
	"epoch": 1.0953608247422681,
	"grad_norm": 9.36337947845459,
	"learning_rate": 3.208858011289622e-05,
	"loss": 2.4048,
	"step": 1700
	},
	{
	"epoch": 1.1114690721649485,
	"grad_norm": 7.072855472564697,
	"learning_rate": 3.181719496309162e-05,
	"loss": 2.3709,
	"step": 1725
	},
	{
	"epoch": 1.1275773195876289,
	"grad_norm": 6.986050128936768,
	"learning_rate": 3.154580981328702e-05,
	"loss": 2.46,
	"step": 1750
	},
	{
	"epoch": 1.1436855670103092,
	"grad_norm": 6.583354949951172,
	"learning_rate": 3.127442466348242e-05,
	"loss": 2.3884,
	"step": 1775
	},
	{
	"epoch": 1.1597938144329896,
	"grad_norm": 6.607515811920166,
	"learning_rate": 3.100303951367781e-05,
	"loss": 2.3733,
	"step": 1800
	},
	{
	"epoch": 1.1759020618556701,
	"grad_norm": 7.239434719085693,
	"learning_rate": 3.073165436387321e-05,
	"loss": 2.4139,
	"step": 1825
	},
	{
	"epoch": 1.1920103092783505,
	"grad_norm": 7.7802042961120605,
	"learning_rate": 3.046026921406861e-05,
	"loss": 2.3074,
	"step": 1850
	},
	{
	"epoch": 1.2081185567010309,
	"grad_norm": 5.834593772888184,
	"learning_rate": 3.0188884064264005e-05,
	"loss": 2.3383,
	"step": 1875
	},
	{
	"epoch": 1.2242268041237114,
	"grad_norm": 6.189608097076416,
	"learning_rate": 2.9917498914459403e-05,
	"loss": 2.2833,
	"step": 1900
	},
	{
	"epoch": 1.2403350515463918,
	"grad_norm": 6.848288536071777,
	"learning_rate": 2.9646113764654798e-05,
	"loss": 2.3957,
	"step": 1925
	},
	{
	"epoch": 1.2564432989690721,
	"grad_norm": 6.78605842590332,
	"learning_rate": 2.9374728614850193e-05,
	"loss": 2.4055,
	"step": 1950
	},
	{
	"epoch": 1.2725515463917525,
	"grad_norm": 7.676894664764404,
	"learning_rate": 2.9103343465045595e-05,
	"loss": 2.3365,
	"step": 1975
	},
	{
	"epoch": 1.2886597938144329,
	"grad_norm": 6.011926651000977,
	"learning_rate": 2.8831958315240993e-05,
	"loss": 2.3317,
	"step": 2000
	},
	{
	"epoch": 1.3047680412371134,
	"grad_norm": 6.217193126678467,
	"learning_rate": 2.856057316543639e-05,
	"loss": 2.3736,
	"step": 2025
	},
	{
	"epoch": 1.3208762886597938,
	"grad_norm": 7.027468681335449,
	"learning_rate": 2.8289188015631784e-05,
	"loss": 2.3509,
	"step": 2050
	},
	{
	"epoch": 1.3369845360824741,
	"grad_norm": 7.210168838500977,
	"learning_rate": 2.8017802865827182e-05,
	"loss": 2.449,
	"step": 2075
	},
	{
	"epoch": 1.3530927835051547,
	"grad_norm": 7.149182319641113,
	"learning_rate": 2.7746417716022584e-05,
	"loss": 2.3631,
	"step": 2100
	},
	{
	"epoch": 1.369201030927835,
	"grad_norm": 6.41991662979126,
	"learning_rate": 2.747503256621798e-05,
	"loss": 2.4368,
	"step": 2125
	},
	{
	"epoch": 1.3853092783505154,
	"grad_norm": 6.897440433502197,
	"learning_rate": 2.7203647416413374e-05,
	"loss": 2.3772,
	"step": 2150
	},
	{
	"epoch": 1.401417525773196,
	"grad_norm": 6.562511444091797,
	"learning_rate": 2.6932262266608772e-05,
	"loss": 2.346,
	"step": 2175
	},
	{
	"epoch": 1.4175257731958764,
	"grad_norm": 6.86238431930542,
	"learning_rate": 2.6660877116804168e-05,
	"loss": 2.3861,
	"step": 2200
	},
	{
	"epoch": 1.4336340206185567,
	"grad_norm": 7.627070426940918,
	"learning_rate": 2.638949196699957e-05,
	"loss": 2.3415,
	"step": 2225
	},
	{
	"epoch": 1.449742268041237,
	"grad_norm": 6.463057518005371,
	"learning_rate": 2.6118106817194964e-05,
	"loss": 2.3558,
	"step": 2250
	},
	{
	"epoch": 1.4658505154639174,
	"grad_norm": 6.722979545593262,
	"learning_rate": 2.584672166739036e-05,
	"loss": 2.3812,
	"step": 2275
	},
	{
	"epoch": 1.481958762886598,
	"grad_norm": 7.5143585205078125,
	"learning_rate": 2.5575336517585758e-05,
	"loss": 2.3577,
	"step": 2300
	},
	{
	"epoch": 1.4980670103092784,
	"grad_norm": 6.2719197273254395,
	"learning_rate": 2.5303951367781153e-05,
	"loss": 2.3249,
	"step": 2325
	},
	{
	"epoch": 1.5141752577319587,
	"grad_norm": 6.567588806152344,
	"learning_rate": 2.5032566217976555e-05,
	"loss": 2.3663,
	"step": 2350
	},
	{
	"epoch": 1.5302835051546393,
	"grad_norm": 6.04072380065918,
	"learning_rate": 2.476118106817195e-05,
	"loss": 2.3098,
	"step": 2375
	},
	{
	"epoch": 1.5463917525773194,
	"grad_norm": 6.608715057373047,
	"learning_rate": 2.448979591836735e-05,
	"loss": 2.3335,
	"step": 2400
	},
	{
	"epoch": 1.5625,
	"grad_norm": 6.724149227142334,
	"learning_rate": 2.4218410768562747e-05,
	"loss": 2.3538,
	"step": 2425
	},
	{
	"epoch": 1.5786082474226806,
	"grad_norm": 7.360804080963135,
	"learning_rate": 2.3947025618758142e-05,
	"loss": 2.3797,
	"step": 2450
	},
	{
	"epoch": 1.5947164948453607,
	"grad_norm": 7.265044689178467,
	"learning_rate": 2.367564046895354e-05,
	"loss": 2.3377,
	"step": 2475
	},
	{
	"epoch": 1.6108247422680413,
	"grad_norm": 7.212481498718262,
	"learning_rate": 2.340425531914894e-05,
	"loss": 2.3111,
	"step": 2500
	},
	{
	"epoch": 1.6269329896907216,
	"grad_norm": 6.6800456047058105,
	"learning_rate": 2.3132870169344334e-05,
	"loss": 2.3555,
	"step": 2525
	},
	{
	"epoch": 1.643041237113402,
	"grad_norm": 6.473804950714111,
	"learning_rate": 2.2861485019539732e-05,
	"loss": 2.2877,
	"step": 2550
	},
	{
	"epoch": 1.6591494845360826,
	"grad_norm": 13.455022811889648,
	"learning_rate": 2.2590099869735127e-05,
	"loss": 2.2963,
	"step": 2575
	},
	{
	"epoch": 1.675257731958763,
	"grad_norm": 6.606278419494629,
	"learning_rate": 2.2318714719930526e-05,
	"loss": 2.3671,
	"step": 2600
	},
	{
	"epoch": 1.6913659793814433,
	"grad_norm": 6.745218276977539,
	"learning_rate": 2.2047329570125924e-05,
	"loss": 2.3202,
	"step": 2625
	},
	{
	"epoch": 1.7074742268041239,
	"grad_norm": 7.282406330108643,
	"learning_rate": 2.177594442032132e-05,
	"loss": 2.3242,
	"step": 2650
	},
	{
	"epoch": 1.723582474226804,
	"grad_norm": 7.313311576843262,
	"learning_rate": 2.1504559270516718e-05,
	"loss": 2.3228,
	"step": 2675
	},
	{
	"epoch": 1.7396907216494846,
	"grad_norm": 7.339620590209961,
	"learning_rate": 2.1233174120712116e-05,
	"loss": 2.3336,
	"step": 2700
	},
	{
	"epoch": 1.755798969072165,
	"grad_norm": 6.999018669128418,
	"learning_rate": 2.096178897090751e-05,
	"loss": 2.2578,
	"step": 2725
	},
	{
	"epoch": 1.7719072164948453,
	"grad_norm": 6.459262371063232,
	"learning_rate": 2.069040382110291e-05,
	"loss": 2.2741,
	"step": 2750
	},
	{
	"epoch": 1.7880154639175259,
	"grad_norm": 7.308042049407959,
	"learning_rate": 2.0419018671298308e-05,
	"loss": 2.2925,
	"step": 2775
	},
	{
	"epoch": 1.8041237113402062,
	"grad_norm": 6.555530071258545,
	"learning_rate": 2.0147633521493707e-05,
	"loss": 2.3082,
	"step": 2800
	},
	{
	"epoch": 1.8202319587628866,
	"grad_norm": 6.764036655426025,
	"learning_rate": 1.9876248371689102e-05,
	"loss": 2.2095,
	"step": 2825
	},
	{
	"epoch": 1.8363402061855671,
	"grad_norm": 7.759133815765381,
	"learning_rate": 1.96048632218845e-05,
	"loss": 2.3166,
	"step": 2850
	},
	{
	"epoch": 1.8524484536082473,
	"grad_norm": 6.442126274108887,
	"learning_rate": 1.9333478072079895e-05,
	"loss": 2.3075,
	"step": 2875
	},
	{
	"epoch": 1.8685567010309279,
	"grad_norm": 6.804947376251221,
	"learning_rate": 1.9062092922275294e-05,
	"loss": 2.2889,
	"step": 2900
	},
	{
	"epoch": 1.8846649484536082,
	"grad_norm": 6.473705291748047,
	"learning_rate": 1.8790707772470692e-05,
	"loss": 2.2423,
	"step": 2925
	},
	{
	"epoch": 1.9007731958762886,
	"grad_norm": 6.420748710632324,
	"learning_rate": 1.8519322622666087e-05,
	"loss": 2.2308,
	"step": 2950
	},
	{
	"epoch": 1.9168814432989691,
	"grad_norm": 7.469099044799805,
	"learning_rate": 1.8247937472861486e-05,
	"loss": 2.3467,
	"step": 2975
	},
	{
	"epoch": 1.9329896907216495,
	"grad_norm": 7.019501686096191,
	"learning_rate": 1.7976552323056884e-05,
	"loss": 2.3117,
	"step": 3000
	},
	{
	"epoch": 1.9490979381443299,
	"grad_norm": 7.53558874130249,
	"learning_rate": 1.770516717325228e-05,
	"loss": 2.2763,
	"step": 3025
	},
	{
	"epoch": 1.9652061855670104,
	"grad_norm": 6.622589588165283,
	"learning_rate": 1.7433782023447678e-05,
	"loss": 2.2725,
	"step": 3050
	},
	{
	"epoch": 1.9813144329896906,
	"grad_norm": 6.681495189666748,
	"learning_rate": 1.7162396873643076e-05,
	"loss": 2.1871,
	"step": 3075
	},
	{
	"epoch": 1.9974226804123711,
	"grad_norm": 5.900623321533203,
	"learning_rate": 1.6891011723838475e-05,
	"loss": 2.2892,
	"step": 3100
	},
	{
	"epoch": 2.0135309278350517,
	"grad_norm": 9.32268238067627,
	"learning_rate": 1.661962657403387e-05,
	"loss": 1.3008,
	"step": 3125
	},
	{
	"epoch": 2.029639175257732,
	"grad_norm": 7.467723369598389,
	"learning_rate": 1.6348241424229265e-05,
	"loss": 1.0731,
	"step": 3150
	},
	{
	"epoch": 2.0457474226804124,
	"grad_norm": 8.434012413024902,
	"learning_rate": 1.6076856274424663e-05,
	"loss": 1.0061,
	"step": 3175
	},
	{
	"epoch": 2.0618556701030926,
	"grad_norm": 9.433366775512695,
	"learning_rate": 1.580547112462006e-05,
	"loss": 1.0132,
	"step": 3200
	},
	{
	"epoch": 2.077963917525773,
	"grad_norm": 7.6198039054870605,
	"learning_rate": 1.553408597481546e-05,
	"loss": 0.9944,
	"step": 3225
	},
	{
	"epoch": 2.0940721649484537,
	"grad_norm": 8.139434814453125,
	"learning_rate": 1.5262700825010855e-05,
	"loss": 0.9757,
	"step": 3250
	},
	{
	"epoch": 2.110180412371134,
	"grad_norm": 8.175223350524902,
	"learning_rate": 1.4991315675206252e-05,
	"loss": 0.978,
	"step": 3275
	},
	{
	"epoch": 2.1262886597938144,
	"grad_norm": 8.026739120483398,
	"learning_rate": 1.4719930525401652e-05,
	"loss": 0.9758,
	"step": 3300
	},
	{
	"epoch": 2.142396907216495,
	"grad_norm": 8.502424240112305,
	"learning_rate": 1.4448545375597047e-05,
	"loss": 0.9047,
	"step": 3325
	},
	{
	"epoch": 2.158505154639175,
	"grad_norm": 9.062753677368164,
	"learning_rate": 1.4177160225792445e-05,
	"loss": 0.9462,
	"step": 3350
	},
	{
	"epoch": 2.1746134020618557,
	"grad_norm": 9.223316192626953,
	"learning_rate": 1.3905775075987842e-05,
	"loss": 0.9564,
	"step": 3375
	},
	{
	"epoch": 2.1907216494845363,
	"grad_norm": 8.59533977508545,
	"learning_rate": 1.3634389926183239e-05,
	"loss": 0.9476,
	"step": 3400
	},
	{
	"epoch": 2.2068298969072164,
	"grad_norm": 8.367724418640137,
	"learning_rate": 1.3363004776378637e-05,
	"loss": 0.9684,
	"step": 3425
	},
	{
	"epoch": 2.222938144329897,
	"grad_norm": 9.15878963470459,
	"learning_rate": 1.3091619626574034e-05,
	"loss": 0.9847,
	"step": 3450
	},
	{
	"epoch": 2.239046391752577,
	"grad_norm": 10.106039047241211,
	"learning_rate": 1.2820234476769433e-05,
	"loss": 0.9148,
	"step": 3475
	},
	{
	"epoch": 2.2551546391752577,
	"grad_norm": 8.91595458984375,
	"learning_rate": 1.254884932696483e-05,
	"loss": 0.9293,
	"step": 3500
	},
	{
	"epoch": 2.2712628865979383,
	"grad_norm": 9.854774475097656,
	"learning_rate": 1.2277464177160226e-05,
	"loss": 0.9469,
	"step": 3525
	},
	{
	"epoch": 2.2873711340206184,
	"grad_norm": 8.479780197143555,
	"learning_rate": 1.2006079027355625e-05,
	"loss": 0.925,
	"step": 3550
	},
	{
	"epoch": 2.303479381443299,
	"grad_norm": 8.944768905639648,
	"learning_rate": 1.1734693877551021e-05,
	"loss": 0.9593,
	"step": 3575
	},
	{
	"epoch": 2.319587628865979,
	"grad_norm": 8.820865631103516,
	"learning_rate": 1.1463308727746418e-05,
	"loss": 0.9583,
	"step": 3600
	},
	{
	"epoch": 2.3356958762886597,
	"grad_norm": 9.563779830932617,
	"learning_rate": 1.1191923577941815e-05,
	"loss": 0.9298,
	"step": 3625
	},
	{
	"epoch": 2.3518041237113403,
	"grad_norm": 8.982272148132324,
	"learning_rate": 1.0920538428137213e-05,
	"loss": 0.9376,
	"step": 3650
	},
	{
	"epoch": 2.367912371134021,
	"grad_norm": 9.715324401855469,
	"learning_rate": 1.064915327833261e-05,
	"loss": 0.9428,
	"step": 3675
	},
	{
	"epoch": 2.384020618556701,
	"grad_norm": 8.481626510620117,
	"learning_rate": 1.0377768128528009e-05,
	"loss": 0.9254,
	"step": 3700
	},
	{
	"epoch": 2.4001288659793816,
	"grad_norm": 9.785958290100098,
	"learning_rate": 1.0106382978723404e-05,
	"loss": 0.9266,
	"step": 3725
	},
	{
	"epoch": 2.4162371134020617,
	"grad_norm": 10.050392150878906,
	"learning_rate": 9.834997828918802e-06,
	"loss": 0.9335,
	"step": 3750
	},
	{
	"epoch": 2.4323453608247423,
	"grad_norm": 8.707124710083008,
	"learning_rate": 9.563612679114199e-06,
	"loss": 0.872,
	"step": 3775
	},
	{
	"epoch": 2.448453608247423,
	"grad_norm": 9.095705032348633,
	"learning_rate": 9.292227529309597e-06,
	"loss": 0.8928,
	"step": 3800
	},
	{
	"epoch": 2.464561855670103,
	"grad_norm": 9.691436767578125,
	"learning_rate": 9.020842379504994e-06,
	"loss": 0.8993,
	"step": 3825
	},
	{
	"epoch": 2.4806701030927836,
	"grad_norm": 17.811647415161133,
	"learning_rate": 8.749457229700392e-06,
	"loss": 0.8943,
	"step": 3850
	},
	{
	"epoch": 2.4967783505154637,
	"grad_norm": 9.972207069396973,
	"learning_rate": 8.478072079895788e-06,
	"loss": 0.9248,
	"step": 3875
	},
	{
	"epoch": 2.5128865979381443,
	"grad_norm": 9.202563285827637,
	"learning_rate": 8.206686930091186e-06,
	"loss": 0.9077,
	"step": 3900
	},
	{
	"epoch": 2.528994845360825,
	"grad_norm": 9.509817123413086,
	"learning_rate": 7.935301780286583e-06,
	"loss": 0.9037,
	"step": 3925
	},
	{
	"epoch": 2.545103092783505,
	"grad_norm": 8.833476066589355,
	"learning_rate": 7.663916630481981e-06,
	"loss": 0.8766,
	"step": 3950
	},
	{
	"epoch": 2.5612113402061856,
	"grad_norm": 10.363802909851074,
	"learning_rate": 7.392531480677378e-06,
	"loss": 0.895,
	"step": 3975
	},
	{
	"epoch": 2.5773195876288657,
	"grad_norm": 9.111068725585938,
	"learning_rate": 7.121146330872775e-06,
	"loss": 0.9224,
	"step": 4000
	},
	{
	"epoch": 2.5934278350515463,
	"grad_norm": 10.667325019836426,
	"learning_rate": 6.849761181068172e-06,
	"loss": 0.8776,
	"step": 4025
	},
	{
	"epoch": 2.609536082474227,
	"grad_norm": 11.279472351074219,
	"learning_rate": 6.578376031263569e-06,
	"loss": 0.8723,
	"step": 4050
	},
	{
	"epoch": 2.6256443298969074,
	"grad_norm": 15.722869873046875,
	"learning_rate": 6.306990881458967e-06,
	"loss": 0.8858,
	"step": 4075
	},
	{
	"epoch": 2.6417525773195876,
	"grad_norm": 10.252237319946289,
	"learning_rate": 6.035605731654364e-06,
	"loss": 0.8639,
	"step": 4100
	},
	{
	"epoch": 2.657860824742268,
	"grad_norm": 9.055089950561523,
	"learning_rate": 5.764220581849761e-06,
	"loss": 0.8794,
	"step": 4125
	},
	{
	"epoch": 2.6739690721649483,
	"grad_norm": 9.109421730041504,
	"learning_rate": 5.492835432045159e-06,
	"loss": 0.8667,
	"step": 4150
	},
	{
	"epoch": 2.690077319587629,
	"grad_norm": 9.12623119354248,
	"learning_rate": 5.221450282240556e-06,
	"loss": 0.8626,
	"step": 4175
	},
	{
	"epoch": 2.7061855670103094,
	"grad_norm": 9.60417366027832,
	"learning_rate": 4.950065132435953e-06,
	"loss": 0.9106,
	"step": 4200
	},
	{
	"epoch": 2.7222938144329896,
	"grad_norm": 9.32435417175293,
	"learning_rate": 4.678679982631351e-06,
	"loss": 0.8714,
	"step": 4225
	},
	{
	"epoch": 2.73840206185567,
	"grad_norm": 9.819196701049805,
	"learning_rate": 4.407294832826748e-06,
	"loss": 0.8621,
	"step": 4250
	},
	{
	"epoch": 2.7545103092783503,
	"grad_norm": 8.934945106506348,
	"learning_rate": 4.135909683022145e-06,
	"loss": 0.8644,
	"step": 4275
	},
	{
	"epoch": 2.770618556701031,
	"grad_norm": 10.425902366638184,
	"learning_rate": 3.864524533217543e-06,
	"loss": 0.8937,
	"step": 4300
	},
	{
	"epoch": 2.7867268041237114,
	"grad_norm": 9.629773139953613,
	"learning_rate": 3.5931393834129398e-06,
	"loss": 0.8774,
	"step": 4325
	},
	{
	"epoch": 2.802835051546392,
	"grad_norm": 9.796236038208008,
	"learning_rate": 3.3217542336083374e-06,
	"loss": 0.8589,
	"step": 4350
	},
	{
	"epoch": 2.818943298969072,
	"grad_norm": 9.853483200073242,
	"learning_rate": 3.050369083803734e-06,
	"loss": 0.8394,
	"step": 4375
	},
	{
	"epoch": 2.8350515463917527,
	"grad_norm": 9.696287155151367,
	"learning_rate": 2.7789839339991317e-06,
	"loss": 0.8523,
	"step": 4400
	},
	{
	"epoch": 2.851159793814433,
	"grad_norm": 9.468950271606445,
	"learning_rate": 2.507598784194529e-06,
	"loss": 0.8444,
	"step": 4425
	},
	{
	"epoch": 2.8672680412371134,
	"grad_norm": 9.996761322021484,
	"learning_rate": 2.236213634389926e-06,
	"loss": 0.8517,
	"step": 4450
	},
	{
	"epoch": 2.883376288659794,
	"grad_norm": 12.354564666748047,
	"learning_rate": 1.9648284845853233e-06,
	"loss": 0.8523,
	"step": 4475
	},
	{
	"epoch": 2.899484536082474,
	"grad_norm": 11.12836742401123,
	"learning_rate": 1.6934433347807209e-06,
	"loss": 0.8458,
	"step": 4500
	},
	{
	"epoch": 2.9155927835051547,
	"grad_norm": 9.318047523498535,
	"learning_rate": 1.4220581849761183e-06,
	"loss": 0.8548,
	"step": 4525
	},
	{
	"epoch": 2.931701030927835,
	"grad_norm": 9.987869262695312,
	"learning_rate": 1.1506730351715155e-06,
	"loss": 0.8567,
	"step": 4550
	},
	{
	"epoch": 2.9478092783505154,
	"grad_norm": 10.364538192749023,
	"learning_rate": 8.792878853669127e-07,
	"loss": 0.8547,
	"step": 4575
	},
	{
	"epoch": 2.963917525773196,
	"grad_norm": 10.010146141052246,
	"learning_rate": 6.0790273556231e-07,
	"loss": 0.8464,
	"step": 4600
	},
	{
	"epoch": 2.980025773195876,
	"grad_norm": 8.987505912780762,
	"learning_rate": 3.3651758575770737e-07,
	"loss": 0.8361,
	"step": 4625
	},
	{
	"epoch": 2.9961340206185567,
	"grad_norm": 9.563461303710938,
	"learning_rate": 6.513243595310464e-08,
	"loss": 0.8486,
	"step": 4650
	}
	],
	"logging_steps": 25,
	"max_steps": 4656,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 1000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 3.3657646372356096e+16,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}