llama3-1-ox-llms-8b-sft-full-3-epochs / trainer_state.json

Model save

07f8aba verified 9 days ago

202 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 3.0,
	"eval_steps": 500,
	"global_step": 5772,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0005197505197505198,
	"grad_norm": 37.059080589232245,
	"learning_rate": 3.4602076124567476e-08,
	"loss": 2.0466,
	"step": 1
	},
	{
	"epoch": 0.002598752598752599,
	"grad_norm": 37.255614130391415,
	"learning_rate": 1.730103806228374e-07,
	"loss": 2.0444,
	"step": 5
	},
	{
	"epoch": 0.005197505197505198,
	"grad_norm": 38.706692454199526,
	"learning_rate": 3.460207612456748e-07,
	"loss": 2.0231,
	"step": 10
	},
	{
	"epoch": 0.007796257796257797,
	"grad_norm": 38.51739451223501,
	"learning_rate": 5.190311418685121e-07,
	"loss": 1.9458,
	"step": 15
	},
	{
	"epoch": 0.010395010395010396,
	"grad_norm": 10.810954056905189,
	"learning_rate": 6.920415224913496e-07,
	"loss": 1.842,
	"step": 20
	},
	{
	"epoch": 0.012993762993762994,
	"grad_norm": 5.592591424491592,
	"learning_rate": 8.650519031141868e-07,
	"loss": 1.736,
	"step": 25
	},
	{
	"epoch": 0.015592515592515593,
	"grad_norm": 4.235861784422552,
	"learning_rate": 1.0380622837370243e-06,
	"loss": 1.6427,
	"step": 30
	},
	{
	"epoch": 0.018191268191268192,
	"grad_norm": 3.005957983709911,
	"learning_rate": 1.2110726643598616e-06,
	"loss": 1.4661,
	"step": 35
	},
	{
	"epoch": 0.02079002079002079,
	"grad_norm": 2.1399033031159416,
	"learning_rate": 1.3840830449826992e-06,
	"loss": 1.3665,
	"step": 40
	},
	{
	"epoch": 0.02338877338877339,
	"grad_norm": 2.311859726684216,
	"learning_rate": 1.5570934256055365e-06,
	"loss": 1.2455,
	"step": 45
	},
	{
	"epoch": 0.02598752598752599,
	"grad_norm": 2.2333969372651588,
	"learning_rate": 1.7301038062283736e-06,
	"loss": 1.1655,
	"step": 50
	},
	{
	"epoch": 0.028586278586278588,
	"grad_norm": 1.4673684609803286,
	"learning_rate": 1.9031141868512112e-06,
	"loss": 1.0897,
	"step": 55
	},
	{
	"epoch": 0.031185031185031187,
	"grad_norm": 1.219673178403078,
	"learning_rate": 2.0761245674740485e-06,
	"loss": 1.0397,
	"step": 60
	},
	{
	"epoch": 0.033783783783783786,
	"grad_norm": 1.177265012600064,
	"learning_rate": 2.249134948096886e-06,
	"loss": 0.9918,
	"step": 65
	},
	{
	"epoch": 0.036382536382536385,
	"grad_norm": 1.1401627512076926,
	"learning_rate": 2.4221453287197232e-06,
	"loss": 0.9519,
	"step": 70
	},
	{
	"epoch": 0.03898128898128898,
	"grad_norm": 1.104171712944849,
	"learning_rate": 2.5951557093425604e-06,
	"loss": 0.9419,
	"step": 75
	},
	{
	"epoch": 0.04158004158004158,
	"grad_norm": 1.153098727216341,
	"learning_rate": 2.7681660899653983e-06,
	"loss": 0.9108,
	"step": 80
	},
	{
	"epoch": 0.04417879417879418,
	"grad_norm": 1.1902270145957274,
	"learning_rate": 2.9411764705882355e-06,
	"loss": 0.8827,
	"step": 85
	},
	{
	"epoch": 0.04677754677754678,
	"grad_norm": 1.246541694659634,
	"learning_rate": 3.114186851211073e-06,
	"loss": 0.8805,
	"step": 90
	},
	{
	"epoch": 0.04937629937629938,
	"grad_norm": 1.3692651531313507,
	"learning_rate": 3.28719723183391e-06,
	"loss": 0.872,
	"step": 95
	},
	{
	"epoch": 0.05197505197505198,
	"grad_norm": 1.2906179501144006,
	"learning_rate": 3.4602076124567473e-06,
	"loss": 0.8603,
	"step": 100
	},
	{
	"epoch": 0.05457380457380458,
	"grad_norm": 1.1975871593644642,
	"learning_rate": 3.6332179930795853e-06,
	"loss": 0.8401,
	"step": 105
	},
	{
	"epoch": 0.057172557172557176,
	"grad_norm": 1.0702701275027335,
	"learning_rate": 3.8062283737024224e-06,
	"loss": 0.8599,
	"step": 110
	},
	{
	"epoch": 0.059771309771309775,
	"grad_norm": 1.2062361616415083,
	"learning_rate": 3.9792387543252595e-06,
	"loss": 0.8437,
	"step": 115
	},
	{
	"epoch": 0.062370062370062374,
	"grad_norm": 1.0287364509894605,
	"learning_rate": 4.152249134948097e-06,
	"loss": 0.822,
	"step": 120
	},
	{
	"epoch": 0.06496881496881497,
	"grad_norm": 1.3847381271884296,
	"learning_rate": 4.325259515570935e-06,
	"loss": 0.8193,
	"step": 125
	},
	{
	"epoch": 0.06756756756756757,
	"grad_norm": 1.2610205489076338,
	"learning_rate": 4.498269896193772e-06,
	"loss": 0.8202,
	"step": 130
	},
	{
	"epoch": 0.07016632016632017,
	"grad_norm": 1.2296632878962366,
	"learning_rate": 4.67128027681661e-06,
	"loss": 0.8231,
	"step": 135
	},
	{
	"epoch": 0.07276507276507277,
	"grad_norm": 1.2968286734442396,
	"learning_rate": 4.8442906574394464e-06,
	"loss": 0.8196,
	"step": 140
	},
	{
	"epoch": 0.07536382536382537,
	"grad_norm": 1.1170405804017387,
	"learning_rate": 5.017301038062284e-06,
	"loss": 0.8174,
	"step": 145
	},
	{
	"epoch": 0.07796257796257797,
	"grad_norm": 1.0601393778580994,
	"learning_rate": 5.190311418685121e-06,
	"loss": 0.8095,
	"step": 150
	},
	{
	"epoch": 0.08056133056133057,
	"grad_norm": 1.0897540737796731,
	"learning_rate": 5.363321799307959e-06,
	"loss": 0.7995,
	"step": 155
	},
	{
	"epoch": 0.08316008316008316,
	"grad_norm": 1.2121810987520705,
	"learning_rate": 5.536332179930797e-06,
	"loss": 0.8207,
	"step": 160
	},
	{
	"epoch": 0.08575883575883576,
	"grad_norm": 1.1378189701749455,
	"learning_rate": 5.709342560553633e-06,
	"loss": 0.7946,
	"step": 165
	},
	{
	"epoch": 0.08835758835758836,
	"grad_norm": 1.0503529917982035,
	"learning_rate": 5.882352941176471e-06,
	"loss": 0.8116,
	"step": 170
	},
	{
	"epoch": 0.09095634095634096,
	"grad_norm": 1.128045536223591,
	"learning_rate": 6.055363321799308e-06,
	"loss": 0.7943,
	"step": 175
	},
	{
	"epoch": 0.09355509355509356,
	"grad_norm": 1.0062924807045572,
	"learning_rate": 6.228373702422146e-06,
	"loss": 0.7908,
	"step": 180
	},
	{
	"epoch": 0.09615384615384616,
	"grad_norm": 1.0645389567201315,
	"learning_rate": 6.401384083044984e-06,
	"loss": 0.7961,
	"step": 185
	},
	{
	"epoch": 0.09875259875259876,
	"grad_norm": 1.1414748404258819,
	"learning_rate": 6.57439446366782e-06,
	"loss": 0.7847,
	"step": 190
	},
	{
	"epoch": 0.10135135135135136,
	"grad_norm": 1.205384007751443,
	"learning_rate": 6.747404844290658e-06,
	"loss": 0.7751,
	"step": 195
	},
	{
	"epoch": 0.10395010395010396,
	"grad_norm": 1.1367398433720104,
	"learning_rate": 6.9204152249134946e-06,
	"loss": 0.7919,
	"step": 200
	},
	{
	"epoch": 0.10654885654885655,
	"grad_norm": 0.9307012296511041,
	"learning_rate": 7.093425605536333e-06,
	"loss": 0.7901,
	"step": 205
	},
	{
	"epoch": 0.10914760914760915,
	"grad_norm": 1.0367934940766987,
	"learning_rate": 7.2664359861591705e-06,
	"loss": 0.7895,
	"step": 210
	},
	{
	"epoch": 0.11174636174636175,
	"grad_norm": 0.96847574603506,
	"learning_rate": 7.439446366782007e-06,
	"loss": 0.7883,
	"step": 215
	},
	{
	"epoch": 0.11434511434511435,
	"grad_norm": 1.1618158896817028,
	"learning_rate": 7.612456747404845e-06,
	"loss": 0.7849,
	"step": 220
	},
	{
	"epoch": 0.11694386694386695,
	"grad_norm": 2.5717464884960584,
	"learning_rate": 7.785467128027683e-06,
	"loss": 0.7826,
	"step": 225
	},
	{
	"epoch": 0.11954261954261955,
	"grad_norm": 1.0453668836748238,
	"learning_rate": 7.958477508650519e-06,
	"loss": 0.7682,
	"step": 230
	},
	{
	"epoch": 0.12214137214137215,
	"grad_norm": 1.0156117659063706,
	"learning_rate": 8.131487889273357e-06,
	"loss": 0.7622,
	"step": 235
	},
	{
	"epoch": 0.12474012474012475,
	"grad_norm": 0.9498681526378566,
	"learning_rate": 8.304498269896194e-06,
	"loss": 0.7861,
	"step": 240
	},
	{
	"epoch": 0.12733887733887733,
	"grad_norm": 1.0843119677144408,
	"learning_rate": 8.477508650519032e-06,
	"loss": 0.7804,
	"step": 245
	},
	{
	"epoch": 0.12993762993762994,
	"grad_norm": 1.1528568447769787,
	"learning_rate": 8.65051903114187e-06,
	"loss": 0.7639,
	"step": 250
	},
	{
	"epoch": 0.13253638253638253,
	"grad_norm": 1.1295719141693836,
	"learning_rate": 8.823529411764707e-06,
	"loss": 0.7816,
	"step": 255
	},
	{
	"epoch": 0.13513513513513514,
	"grad_norm": 0.978783892464181,
	"learning_rate": 8.996539792387544e-06,
	"loss": 0.7672,
	"step": 260
	},
	{
	"epoch": 0.13773388773388773,
	"grad_norm": 0.9379534418690467,
	"learning_rate": 9.16955017301038e-06,
	"loss": 0.7702,
	"step": 265
	},
	{
	"epoch": 0.14033264033264034,
	"grad_norm": 1.1416793594082861,
	"learning_rate": 9.34256055363322e-06,
	"loss": 0.7738,
	"step": 270
	},
	{
	"epoch": 0.14293139293139293,
	"grad_norm": 0.9977084295945086,
	"learning_rate": 9.515570934256057e-06,
	"loss": 0.7696,
	"step": 275
	},
	{
	"epoch": 0.14553014553014554,
	"grad_norm": 1.037149328356884,
	"learning_rate": 9.688581314878893e-06,
	"loss": 0.7674,
	"step": 280
	},
	{
	"epoch": 0.14812889812889812,
	"grad_norm": 1.0165544577935077,
	"learning_rate": 9.86159169550173e-06,
	"loss": 0.7554,
	"step": 285
	},
	{
	"epoch": 0.15072765072765074,
	"grad_norm": 0.9713706199068332,
	"learning_rate": 1.0034602076124568e-05,
	"loss": 0.7771,
	"step": 290
	},
	{
	"epoch": 0.15332640332640332,
	"grad_norm": 1.0519199834853972,
	"learning_rate": 1.0207612456747407e-05,
	"loss": 0.7652,
	"step": 295
	},
	{
	"epoch": 0.15592515592515593,
	"grad_norm": 0.8942757233736588,
	"learning_rate": 1.0380622837370241e-05,
	"loss": 0.754,
	"step": 300
	},
	{
	"epoch": 0.15852390852390852,
	"grad_norm": 0.9760267256597028,
	"learning_rate": 1.055363321799308e-05,
	"loss": 0.7597,
	"step": 305
	},
	{
	"epoch": 0.16112266112266113,
	"grad_norm": 0.8750773264970739,
	"learning_rate": 1.0726643598615918e-05,
	"loss": 0.7552,
	"step": 310
	},
	{
	"epoch": 0.16372141372141372,
	"grad_norm": 0.9317612467807546,
	"learning_rate": 1.0899653979238756e-05,
	"loss": 0.7619,
	"step": 315
	},
	{
	"epoch": 0.16632016632016633,
	"grad_norm": 0.9585051662580469,
	"learning_rate": 1.1072664359861593e-05,
	"loss": 0.7562,
	"step": 320
	},
	{
	"epoch": 0.16891891891891891,
	"grad_norm": 0.9833066117827967,
	"learning_rate": 1.124567474048443e-05,
	"loss": 0.7668,
	"step": 325
	},
	{
	"epoch": 0.17151767151767153,
	"grad_norm": 0.9999136205277245,
	"learning_rate": 1.1418685121107267e-05,
	"loss": 0.7563,
	"step": 330
	},
	{
	"epoch": 0.1741164241164241,
	"grad_norm": 1.063190427210389,
	"learning_rate": 1.1591695501730104e-05,
	"loss": 0.7463,
	"step": 335
	},
	{
	"epoch": 0.17671517671517672,
	"grad_norm": 0.9998506539481437,
	"learning_rate": 1.1764705882352942e-05,
	"loss": 0.7533,
	"step": 340
	},
	{
	"epoch": 0.1793139293139293,
	"grad_norm": 0.929168293634566,
	"learning_rate": 1.1937716262975781e-05,
	"loss": 0.7466,
	"step": 345
	},
	{
	"epoch": 0.18191268191268192,
	"grad_norm": 1.018693960607738,
	"learning_rate": 1.2110726643598615e-05,
	"loss": 0.7489,
	"step": 350
	},
	{
	"epoch": 0.1845114345114345,
	"grad_norm": 0.9657161121572101,
	"learning_rate": 1.2283737024221455e-05,
	"loss": 0.7639,
	"step": 355
	},
	{
	"epoch": 0.18711018711018712,
	"grad_norm": 0.9274247630285816,
	"learning_rate": 1.2456747404844292e-05,
	"loss": 0.7458,
	"step": 360
	},
	{
	"epoch": 0.1897089397089397,
	"grad_norm": 0.8709049483455183,
	"learning_rate": 1.262975778546713e-05,
	"loss": 0.7542,
	"step": 365
	},
	{
	"epoch": 0.19230769230769232,
	"grad_norm": 0.8529475456705145,
	"learning_rate": 1.2802768166089967e-05,
	"loss": 0.7615,
	"step": 370
	},
	{
	"epoch": 0.1949064449064449,
	"grad_norm": 0.8834877993689659,
	"learning_rate": 1.2975778546712803e-05,
	"loss": 0.7555,
	"step": 375
	},
	{
	"epoch": 0.19750519750519752,
	"grad_norm": 0.8612036241498346,
	"learning_rate": 1.314878892733564e-05,
	"loss": 0.7455,
	"step": 380
	},
	{
	"epoch": 0.2001039501039501,
	"grad_norm": 0.972005034702574,
	"learning_rate": 1.3321799307958478e-05,
	"loss": 0.7335,
	"step": 385
	},
	{
	"epoch": 0.20270270270270271,
	"grad_norm": 0.8405468852505008,
	"learning_rate": 1.3494809688581316e-05,
	"loss": 0.7454,
	"step": 390
	},
	{
	"epoch": 0.2053014553014553,
	"grad_norm": 0.94483984497754,
	"learning_rate": 1.3667820069204153e-05,
	"loss": 0.7509,
	"step": 395
	},
	{
	"epoch": 0.2079002079002079,
	"grad_norm": 0.8568496193733218,
	"learning_rate": 1.3840830449826989e-05,
	"loss": 0.7386,
	"step": 400
	},
	{
	"epoch": 0.2104989604989605,
	"grad_norm": 0.9305490201344858,
	"learning_rate": 1.4013840830449827e-05,
	"loss": 0.7325,
	"step": 405
	},
	{
	"epoch": 0.2130977130977131,
	"grad_norm": 0.8391743588987977,
	"learning_rate": 1.4186851211072666e-05,
	"loss": 0.7394,
	"step": 410
	},
	{
	"epoch": 0.2156964656964657,
	"grad_norm": 0.8904148072363134,
	"learning_rate": 1.4359861591695503e-05,
	"loss": 0.7659,
	"step": 415
	},
	{
	"epoch": 0.2182952182952183,
	"grad_norm": 0.9494764558208273,
	"learning_rate": 1.4532871972318341e-05,
	"loss": 0.7303,
	"step": 420
	},
	{
	"epoch": 0.2208939708939709,
	"grad_norm": 0.8729324500601073,
	"learning_rate": 1.4705882352941179e-05,
	"loss": 0.7464,
	"step": 425
	},
	{
	"epoch": 0.2234927234927235,
	"grad_norm": 0.9426426724996545,
	"learning_rate": 1.4878892733564014e-05,
	"loss": 0.7425,
	"step": 430
	},
	{
	"epoch": 0.2260914760914761,
	"grad_norm": 0.8397393999023687,
	"learning_rate": 1.5051903114186852e-05,
	"loss": 0.7225,
	"step": 435
	},
	{
	"epoch": 0.2286902286902287,
	"grad_norm": 0.822001337030522,
	"learning_rate": 1.522491349480969e-05,
	"loss": 0.7514,
	"step": 440
	},
	{
	"epoch": 0.2312889812889813,
	"grad_norm": 0.8196560129735319,
	"learning_rate": 1.539792387543253e-05,
	"loss": 0.7455,
	"step": 445
	},
	{
	"epoch": 0.2338877338877339,
	"grad_norm": 0.9001216187487245,
	"learning_rate": 1.5570934256055366e-05,
	"loss": 0.7523,
	"step": 450
	},
	{
	"epoch": 0.23648648648648649,
	"grad_norm": 0.9230142554852074,
	"learning_rate": 1.57439446366782e-05,
	"loss": 0.7569,
	"step": 455
	},
	{
	"epoch": 0.2390852390852391,
	"grad_norm": 0.8290174186484409,
	"learning_rate": 1.5916955017301038e-05,
	"loss": 0.7428,
	"step": 460
	},
	{
	"epoch": 0.24168399168399168,
	"grad_norm": 0.829715213003188,
	"learning_rate": 1.6089965397923876e-05,
	"loss": 0.7457,
	"step": 465
	},
	{
	"epoch": 0.2442827442827443,
	"grad_norm": 0.8794988465121758,
	"learning_rate": 1.6262975778546713e-05,
	"loss": 0.7427,
	"step": 470
	},
	{
	"epoch": 0.24688149688149688,
	"grad_norm": 0.860878867890723,
	"learning_rate": 1.6435986159169554e-05,
	"loss": 0.727,
	"step": 475
	},
	{
	"epoch": 0.2494802494802495,
	"grad_norm": 0.8488363967170557,
	"learning_rate": 1.6608996539792388e-05,
	"loss": 0.7341,
	"step": 480
	},
	{
	"epoch": 0.2520790020790021,
	"grad_norm": 0.9024495405776305,
	"learning_rate": 1.6782006920415226e-05,
	"loss": 0.7445,
	"step": 485
	},
	{
	"epoch": 0.25467775467775466,
	"grad_norm": 0.8297075062381525,
	"learning_rate": 1.6955017301038063e-05,
	"loss": 0.7618,
	"step": 490
	},
	{
	"epoch": 0.25727650727650725,
	"grad_norm": 0.9522709115263103,
	"learning_rate": 1.71280276816609e-05,
	"loss": 0.7524,
	"step": 495
	},
	{
	"epoch": 0.2598752598752599,
	"grad_norm": 0.8862001527957881,
	"learning_rate": 1.730103806228374e-05,
	"loss": 0.7392,
	"step": 500
	},
	{
	"epoch": 0.2624740124740125,
	"grad_norm": 0.8190856457278167,
	"learning_rate": 1.7474048442906576e-05,
	"loss": 0.7348,
	"step": 505
	},
	{
	"epoch": 0.26507276507276506,
	"grad_norm": 0.8084717872755484,
	"learning_rate": 1.7647058823529414e-05,
	"loss": 0.7555,
	"step": 510
	},
	{
	"epoch": 0.26767151767151764,
	"grad_norm": 0.8143004262657276,
	"learning_rate": 1.782006920415225e-05,
	"loss": 0.7493,
	"step": 515
	},
	{
	"epoch": 0.2702702702702703,
	"grad_norm": 0.7439901950641524,
	"learning_rate": 1.799307958477509e-05,
	"loss": 0.7264,
	"step": 520
	},
	{
	"epoch": 0.27286902286902287,
	"grad_norm": 0.7802119529056604,
	"learning_rate": 1.8166089965397926e-05,
	"loss": 0.7484,
	"step": 525
	},
	{
	"epoch": 0.27546777546777546,
	"grad_norm": 0.7671220875794853,
	"learning_rate": 1.833910034602076e-05,
	"loss": 0.7365,
	"step": 530
	},
	{
	"epoch": 0.27806652806652804,
	"grad_norm": 0.8013129805690585,
	"learning_rate": 1.8512110726643598e-05,
	"loss": 0.7586,
	"step": 535
	},
	{
	"epoch": 0.2806652806652807,
	"grad_norm": 0.7731421991496061,
	"learning_rate": 1.868512110726644e-05,
	"loss": 0.7521,
	"step": 540
	},
	{
	"epoch": 0.28326403326403327,
	"grad_norm": 0.8183545102345747,
	"learning_rate": 1.8858131487889276e-05,
	"loss": 0.7379,
	"step": 545
	},
	{
	"epoch": 0.28586278586278585,
	"grad_norm": 0.761114380449014,
	"learning_rate": 1.9031141868512114e-05,
	"loss": 0.7489,
	"step": 550
	},
	{
	"epoch": 0.28846153846153844,
	"grad_norm": 0.797967905949635,
	"learning_rate": 1.9204152249134948e-05,
	"loss": 0.7475,
	"step": 555
	},
	{
	"epoch": 0.2910602910602911,
	"grad_norm": 0.8141772027308778,
	"learning_rate": 1.9377162629757786e-05,
	"loss": 0.7403,
	"step": 560
	},
	{
	"epoch": 0.29365904365904366,
	"grad_norm": 1.0002732271715242,
	"learning_rate": 1.9550173010380623e-05,
	"loss": 0.7446,
	"step": 565
	},
	{
	"epoch": 0.29625779625779625,
	"grad_norm": 0.7424317625579876,
	"learning_rate": 1.972318339100346e-05,
	"loss": 0.7432,
	"step": 570
	},
	{
	"epoch": 0.29885654885654883,
	"grad_norm": 0.7975265418685308,
	"learning_rate": 1.98961937716263e-05,
	"loss": 0.7425,
	"step": 575
	},
	{
	"epoch": 0.30145530145530147,
	"grad_norm": 0.8527920792318469,
	"learning_rate": 1.9999992683122277e-05,
	"loss": 0.7313,
	"step": 580
	},
	{
	"epoch": 0.30405405405405406,
	"grad_norm": 0.7826703424284943,
	"learning_rate": 1.9999910368370826e-05,
	"loss": 0.7404,
	"step": 585
	},
	{
	"epoch": 0.30665280665280664,
	"grad_norm": 0.7942647670210833,
	"learning_rate": 1.9999736593526133e-05,
	"loss": 0.7263,
	"step": 590
	},
	{
	"epoch": 0.3092515592515592,
	"grad_norm": 0.7552220975281737,
	"learning_rate": 1.999947136017756e-05,
	"loss": 0.7353,
	"step": 595
	},
	{
	"epoch": 0.31185031185031187,
	"grad_norm": 0.7790597350916263,
	"learning_rate": 1.9999114670750955e-05,
	"loss": 0.7478,
	"step": 600
	},
	{
	"epoch": 0.31444906444906445,
	"grad_norm": 0.7982754500449706,
	"learning_rate": 1.9998666528508632e-05,
	"loss": 0.7414,
	"step": 605
	},
	{
	"epoch": 0.31704781704781704,
	"grad_norm": 0.8159770553033799,
	"learning_rate": 1.9998126937549343e-05,
	"loss": 0.7285,
	"step": 610
	},
	{
	"epoch": 0.3196465696465696,
	"grad_norm": 0.8888821616512309,
	"learning_rate": 1.9997495902808233e-05,
	"loss": 0.751,
	"step": 615
	},
	{
	"epoch": 0.32224532224532226,
	"grad_norm": 0.7544060206964511,
	"learning_rate": 1.9996773430056806e-05,
	"loss": 0.7385,
	"step": 620
	},
	{
	"epoch": 0.32484407484407485,
	"grad_norm": 0.7895944868586088,
	"learning_rate": 1.9995959525902856e-05,
	"loss": 0.7369,
	"step": 625
	},
	{
	"epoch": 0.32744282744282743,
	"grad_norm": 0.7602727085172243,
	"learning_rate": 1.999505419779044e-05,
	"loss": 0.757,
	"step": 630
	},
	{
	"epoch": 0.33004158004158,
	"grad_norm": 0.8764699729246701,
	"learning_rate": 1.9994057453999754e-05,
	"loss": 0.738,
	"step": 635
	},
	{
	"epoch": 0.33264033264033266,
	"grad_norm": 0.7647288391752125,
	"learning_rate": 1.9992969303647124e-05,
	"loss": 0.7478,
	"step": 640
	},
	{
	"epoch": 0.33523908523908524,
	"grad_norm": 0.7069726215488147,
	"learning_rate": 1.999178975668486e-05,
	"loss": 0.7149,
	"step": 645
	},
	{
	"epoch": 0.33783783783783783,
	"grad_norm": 0.6497220082269107,
	"learning_rate": 1.9990518823901213e-05,
	"loss": 0.7496,
	"step": 650
	},
	{
	"epoch": 0.3404365904365904,
	"grad_norm": 0.6610573730423013,
	"learning_rate": 1.9989156516920248e-05,
	"loss": 0.7297,
	"step": 655
	},
	{
	"epoch": 0.34303534303534305,
	"grad_norm": 0.6668607876517594,
	"learning_rate": 1.9987702848201748e-05,
	"loss": 0.7193,
	"step": 660
	},
	{
	"epoch": 0.34563409563409564,
	"grad_norm": 0.7860493254567829,
	"learning_rate": 1.99861578310411e-05,
	"loss": 0.7374,
	"step": 665
	},
	{
	"epoch": 0.3482328482328482,
	"grad_norm": 0.8925562926124014,
	"learning_rate": 1.9984521479569176e-05,
	"loss": 0.7237,
	"step": 670
	},
	{
	"epoch": 0.3508316008316008,
	"grad_norm": 0.7672501463240459,
	"learning_rate": 1.9982793808752193e-05,
	"loss": 0.7306,
	"step": 675
	},
	{
	"epoch": 0.35343035343035345,
	"grad_norm": 0.7502385743686751,
	"learning_rate": 1.9980974834391583e-05,
	"loss": 0.7406,
	"step": 680
	},
	{
	"epoch": 0.35602910602910603,
	"grad_norm": 0.7564023469276626,
	"learning_rate": 1.997906457312386e-05,
	"loss": 0.7354,
	"step": 685
	},
	{
	"epoch": 0.3586278586278586,
	"grad_norm": 0.7147365409493106,
	"learning_rate": 1.9977063042420438e-05,
	"loss": 0.7312,
	"step": 690
	},
	{
	"epoch": 0.3612266112266112,
	"grad_norm": 0.8321336652388966,
	"learning_rate": 1.9974970260587507e-05,
	"loss": 0.7364,
	"step": 695
	},
	{
	"epoch": 0.36382536382536385,
	"grad_norm": 0.6733104515770179,
	"learning_rate": 1.9972786246765832e-05,
	"loss": 0.7273,
	"step": 700
	},
	{
	"epoch": 0.36642411642411643,
	"grad_norm": 0.6923993722045795,
	"learning_rate": 1.9970511020930612e-05,
	"loss": 0.7259,
	"step": 705
	},
	{
	"epoch": 0.369022869022869,
	"grad_norm": 0.7106843030691585,
	"learning_rate": 1.9968144603891272e-05,
	"loss": 0.7409,
	"step": 710
	},
	{
	"epoch": 0.3716216216216216,
	"grad_norm": 0.6074610563242314,
	"learning_rate": 1.9965687017291268e-05,
	"loss": 0.7237,
	"step": 715
	},
	{
	"epoch": 0.37422037422037424,
	"grad_norm": 0.6798181846974808,
	"learning_rate": 1.9963138283607918e-05,
	"loss": 0.7189,
	"step": 720
	},
	{
	"epoch": 0.3768191268191268,
	"grad_norm": 0.7233959402973988,
	"learning_rate": 1.996049842615217e-05,
	"loss": 0.7524,
	"step": 725
	},
	{
	"epoch": 0.3794178794178794,
	"grad_norm": 0.7818955262414797,
	"learning_rate": 1.9957767469068405e-05,
	"loss": 0.7259,
	"step": 730
	},
	{
	"epoch": 0.382016632016632,
	"grad_norm": 0.7248772563760029,
	"learning_rate": 1.9954945437334204e-05,
	"loss": 0.7312,
	"step": 735
	},
	{
	"epoch": 0.38461538461538464,
	"grad_norm": 0.7079790287253178,
	"learning_rate": 1.9952032356760125e-05,
	"loss": 0.7041,
	"step": 740
	},
	{
	"epoch": 0.3872141372141372,
	"grad_norm": 0.7390341417388404,
	"learning_rate": 1.994902825398947e-05,
	"loss": 0.7133,
	"step": 745
	},
	{
	"epoch": 0.3898128898128898,
	"grad_norm": 0.8111822578128921,
	"learning_rate": 1.9945933156498043e-05,
	"loss": 0.729,
	"step": 750
	},
	{
	"epoch": 0.3924116424116424,
	"grad_norm": 0.7769690688975751,
	"learning_rate": 1.9942747092593877e-05,
	"loss": 0.715,
	"step": 755
	},
	{
	"epoch": 0.39501039501039503,
	"grad_norm": 0.6870020477467483,
	"learning_rate": 1.9939470091417012e-05,
	"loss": 0.7132,
	"step": 760
	},
	{
	"epoch": 0.3976091476091476,
	"grad_norm": 0.6911704853875393,
	"learning_rate": 1.99361021829392e-05,
	"loss": 0.7206,
	"step": 765
	},
	{
	"epoch": 0.4002079002079002,
	"grad_norm": 0.6600143593403244,
	"learning_rate": 1.993264339796363e-05,
	"loss": 0.7145,
	"step": 770
	},
	{
	"epoch": 0.4028066528066528,
	"grad_norm": 0.6726432015084747,
	"learning_rate": 1.992909376812468e-05,
	"loss": 0.739,
	"step": 775
	},
	{
	"epoch": 0.40540540540540543,
	"grad_norm": 0.70615782283502,
	"learning_rate": 1.9925453325887574e-05,
	"loss": 0.7222,
	"step": 780
	},
	{
	"epoch": 0.408004158004158,
	"grad_norm": 0.5887807785936404,
	"learning_rate": 1.992172210454814e-05,
	"loss": 0.7221,
	"step": 785
	},
	{
	"epoch": 0.4106029106029106,
	"grad_norm": 0.6357715206079563,
	"learning_rate": 1.991790013823246e-05,
	"loss": 0.717,
	"step": 790
	},
	{
	"epoch": 0.4132016632016632,
	"grad_norm": 0.6710571738289492,
	"learning_rate": 1.9913987461896597e-05,
	"loss": 0.7299,
	"step": 795
	},
	{
	"epoch": 0.4158004158004158,
	"grad_norm": 0.66534846887862,
	"learning_rate": 1.990998411132624e-05,
	"loss": 0.719,
	"step": 800
	},
	{
	"epoch": 0.4183991683991684,
	"grad_norm": 0.6658127042254826,
	"learning_rate": 1.9905890123136396e-05,
	"loss": 0.7156,
	"step": 805
	},
	{
	"epoch": 0.420997920997921,
	"grad_norm": 0.7461519732525459,
	"learning_rate": 1.990170553477106e-05,
	"loss": 0.7281,
	"step": 810
	},
	{
	"epoch": 0.4235966735966736,
	"grad_norm": 0.7960568157470115,
	"learning_rate": 1.9897430384502857e-05,
	"loss": 0.7229,
	"step": 815
	},
	{
	"epoch": 0.4261954261954262,
	"grad_norm": 0.7377717323529744,
	"learning_rate": 1.9893064711432702e-05,
	"loss": 0.7207,
	"step": 820
	},
	{
	"epoch": 0.4287941787941788,
	"grad_norm": 0.6333020229736416,
	"learning_rate": 1.988860855548944e-05,
	"loss": 0.7104,
	"step": 825
	},
	{
	"epoch": 0.4313929313929314,
	"grad_norm": 0.6099863945288464,
	"learning_rate": 1.988406195742948e-05,
	"loss": 0.7203,
	"step": 830
	},
	{
	"epoch": 0.433991683991684,
	"grad_norm": 0.6785164904650527,
	"learning_rate": 1.987942495883642e-05,
	"loss": 0.711,
	"step": 835
	},
	{
	"epoch": 0.4365904365904366,
	"grad_norm": 0.6622509941324428,
	"learning_rate": 1.9874697602120682e-05,
	"loss": 0.7325,
	"step": 840
	},
	{
	"epoch": 0.4391891891891892,
	"grad_norm": 0.6613983198156271,
	"learning_rate": 1.986987993051909e-05,
	"loss": 0.7233,
	"step": 845
	},
	{
	"epoch": 0.4417879417879418,
	"grad_norm": 0.6956512036405856,
	"learning_rate": 1.9864971988094515e-05,
	"loss": 0.7207,
	"step": 850
	},
	{
	"epoch": 0.44438669438669437,
	"grad_norm": 0.6797121388808018,
	"learning_rate": 1.9859973819735443e-05,
	"loss": 0.7359,
	"step": 855
	},
	{
	"epoch": 0.446985446985447,
	"grad_norm": 0.6634402820404799,
	"learning_rate": 1.9854885471155586e-05,
	"loss": 0.7094,
	"step": 860
	},
	{
	"epoch": 0.4495841995841996,
	"grad_norm": 0.6337794885487144,
	"learning_rate": 1.9849706988893433e-05,
	"loss": 0.7276,
	"step": 865
	},
	{
	"epoch": 0.4521829521829522,
	"grad_norm": 0.6734603186331721,
	"learning_rate": 1.9844438420311863e-05,
	"loss": 0.7142,
	"step": 870
	},
	{
	"epoch": 0.45478170478170477,
	"grad_norm": 0.7066192892075979,
	"learning_rate": 1.9839079813597687e-05,
	"loss": 0.7149,
	"step": 875
	},
	{
	"epoch": 0.4573804573804574,
	"grad_norm": 0.6964600685285819,
	"learning_rate": 1.9833631217761204e-05,
	"loss": 0.7281,
	"step": 880
	},
	{
	"epoch": 0.45997920997921,
	"grad_norm": 0.7109456157271579,
	"learning_rate": 1.9828092682635774e-05,
	"loss": 0.7332,
	"step": 885
	},
	{
	"epoch": 0.4625779625779626,
	"grad_norm": 0.669236169004855,
	"learning_rate": 1.9822464258877345e-05,
	"loss": 0.7293,
	"step": 890
	},
	{
	"epoch": 0.46517671517671516,
	"grad_norm": 0.6046679594816758,
	"learning_rate": 1.9816745997963996e-05,
	"loss": 0.706,
	"step": 895
	},
	{
	"epoch": 0.4677754677754678,
	"grad_norm": 0.6553388635341802,
	"learning_rate": 1.981093795219546e-05,
	"loss": 0.7136,
	"step": 900
	},
	{
	"epoch": 0.4703742203742204,
	"grad_norm": 0.6699423752938592,
	"learning_rate": 1.980504017469265e-05,
	"loss": 0.7056,
	"step": 905
	},
	{
	"epoch": 0.47297297297297297,
	"grad_norm": 0.637041202100537,
	"learning_rate": 1.9799052719397188e-05,
	"loss": 0.7221,
	"step": 910
	},
	{
	"epoch": 0.47557172557172556,
	"grad_norm": 0.657103082344547,
	"learning_rate": 1.979297564107088e-05,
	"loss": 0.7271,
	"step": 915
	},
	{
	"epoch": 0.4781704781704782,
	"grad_norm": 0.6885064889983316,
	"learning_rate": 1.978680899529524e-05,
	"loss": 0.7159,
	"step": 920
	},
	{
	"epoch": 0.4807692307692308,
	"grad_norm": 0.7043512832125569,
	"learning_rate": 1.9780552838470976e-05,
	"loss": 0.7057,
	"step": 925
	},
	{
	"epoch": 0.48336798336798337,
	"grad_norm": 0.6627639804543833,
	"learning_rate": 1.977420722781746e-05,
	"loss": 0.7194,
	"step": 930
	},
	{
	"epoch": 0.48596673596673595,
	"grad_norm": 0.7069767251302125,
	"learning_rate": 1.976777222137224e-05,
	"loss": 0.7144,
	"step": 935
	},
	{
	"epoch": 0.4885654885654886,
	"grad_norm": 0.6090332104645865,
	"learning_rate": 1.9761247877990465e-05,
	"loss": 0.7161,
	"step": 940
	},
	{
	"epoch": 0.4911642411642412,
	"grad_norm": 0.7085090978015706,
	"learning_rate": 1.9754634257344376e-05,
	"loss": 0.733,
	"step": 945
	},
	{
	"epoch": 0.49376299376299376,
	"grad_norm": 0.6858008371045625,
	"learning_rate": 1.9747931419922756e-05,
	"loss": 0.7271,
	"step": 950
	},
	{
	"epoch": 0.49636174636174635,
	"grad_norm": 0.6543468152194417,
	"learning_rate": 1.974113942703036e-05,
	"loss": 0.7052,
	"step": 955
	},
	{
	"epoch": 0.498960498960499,
	"grad_norm": 0.7013937541029002,
	"learning_rate": 1.9734258340787376e-05,
	"loss": 0.7233,
	"step": 960
	},
	{
	"epoch": 0.5015592515592515,
	"grad_norm": 0.6660787930797433,
	"learning_rate": 1.9727288224128852e-05,
	"loss": 0.7196,
	"step": 965
	},
	{
	"epoch": 0.5041580041580042,
	"grad_norm": 0.6541474437978503,
	"learning_rate": 1.972022914080411e-05,
	"loss": 0.7061,
	"step": 970
	},
	{
	"epoch": 0.5067567567567568,
	"grad_norm": 0.66883512467633,
	"learning_rate": 1.971308115537617e-05,
	"loss": 0.7146,
	"step": 975
	},
	{
	"epoch": 0.5093555093555093,
	"grad_norm": 0.6381037219289445,
	"learning_rate": 1.970584433322116e-05,
	"loss": 0.7087,
	"step": 980
	},
	{
	"epoch": 0.511954261954262,
	"grad_norm": 1.1110934200883047,
	"learning_rate": 1.969851874052771e-05,
	"loss": 0.73,
	"step": 985
	},
	{
	"epoch": 0.5145530145530145,
	"grad_norm": 0.6310880004216817,
	"learning_rate": 1.969110444429637e-05,
	"loss": 0.7183,
	"step": 990
	},
	{
	"epoch": 0.5171517671517671,
	"grad_norm": 0.6410220872400427,
	"learning_rate": 1.9683601512338963e-05,
	"loss": 0.7086,
	"step": 995
	},
	{
	"epoch": 0.5197505197505198,
	"grad_norm": 0.5996299242899708,
	"learning_rate": 1.9676010013277994e-05,
	"loss": 0.7267,
	"step": 1000
	},
	{
	"epoch": 0.5223492723492723,
	"grad_norm": 0.6590949790761541,
	"learning_rate": 1.9668330016546004e-05,
	"loss": 0.7374,
	"step": 1005
	},
	{
	"epoch": 0.524948024948025,
	"grad_norm": 0.6221180388276606,
	"learning_rate": 1.9660561592384946e-05,
	"loss": 0.7249,
	"step": 1010
	},
	{
	"epoch": 0.5275467775467776,
	"grad_norm": 0.6026562255053431,
	"learning_rate": 1.965270481184553e-05,
	"loss": 0.7092,
	"step": 1015
	},
	{
	"epoch": 0.5301455301455301,
	"grad_norm": 0.6076685489615162,
	"learning_rate": 1.9644759746786598e-05,
	"loss": 0.7144,
	"step": 1020
	},
	{
	"epoch": 0.5327442827442828,
	"grad_norm": 0.6466092379791593,
	"learning_rate": 1.9636726469874437e-05,
	"loss": 0.7021,
	"step": 1025
	},
	{
	"epoch": 0.5353430353430353,
	"grad_norm": 0.6614878159031965,
	"learning_rate": 1.962860505458213e-05,
	"loss": 0.7147,
	"step": 1030
	},
	{
	"epoch": 0.5379417879417879,
	"grad_norm": 0.642038696775677,
	"learning_rate": 1.962039557518888e-05,
	"loss": 0.7064,
	"step": 1035
	},
	{
	"epoch": 0.5405405405405406,
	"grad_norm": 0.6053359618387539,
	"learning_rate": 1.961209810677934e-05,
	"loss": 0.7103,
	"step": 1040
	},
	{
	"epoch": 0.5431392931392931,
	"grad_norm": 0.6208076453451457,
	"learning_rate": 1.960371272524291e-05,
	"loss": 0.717,
	"step": 1045
	},
	{
	"epoch": 0.5457380457380457,
	"grad_norm": 0.6668283857181149,
	"learning_rate": 1.9595239507273058e-05,
	"loss": 0.7048,
	"step": 1050
	},
	{
	"epoch": 0.5483367983367984,
	"grad_norm": 0.6229130725064413,
	"learning_rate": 1.9586678530366607e-05,
	"loss": 0.7159,
	"step": 1055
	},
	{
	"epoch": 0.5509355509355509,
	"grad_norm": 0.5933645289790093,
	"learning_rate": 1.9578029872823038e-05,
	"loss": 0.7131,
	"step": 1060
	},
	{
	"epoch": 0.5535343035343036,
	"grad_norm": 0.5857860624157782,
	"learning_rate": 1.9569293613743753e-05,
	"loss": 0.7037,
	"step": 1065
	},
	{
	"epoch": 0.5561330561330561,
	"grad_norm": 0.6425150123453736,
	"learning_rate": 1.9560469833031383e-05,
	"loss": 0.7098,
	"step": 1070
	},
	{
	"epoch": 0.5587318087318087,
	"grad_norm": 0.619116481041439,
	"learning_rate": 1.955155861138903e-05,
	"loss": 0.7176,
	"step": 1075
	},
	{
	"epoch": 0.5613305613305614,
	"grad_norm": 0.635662450753945,
	"learning_rate": 1.9542560030319543e-05,
	"loss": 0.7104,
	"step": 1080
	},
	{
	"epoch": 0.5639293139293139,
	"grad_norm": 0.6273126414001168,
	"learning_rate": 1.9533474172124763e-05,
	"loss": 0.7144,
	"step": 1085
	},
	{
	"epoch": 0.5665280665280665,
	"grad_norm": 0.5746605470244842,
	"learning_rate": 1.952430111990478e-05,
	"loss": 0.7058,
	"step": 1090
	},
	{
	"epoch": 0.5691268191268192,
	"grad_norm": 0.616041790905867,
	"learning_rate": 1.9515040957557162e-05,
	"loss": 0.7144,
	"step": 1095
	},
	{
	"epoch": 0.5717255717255717,
	"grad_norm": 0.5604195549287683,
	"learning_rate": 1.950569376977621e-05,
	"loss": 0.7045,
	"step": 1100
	},
	{
	"epoch": 0.5743243243243243,
	"grad_norm": 0.5873428291768331,
	"learning_rate": 1.9496259642052146e-05,
	"loss": 0.7121,
	"step": 1105
	},
	{
	"epoch": 0.5769230769230769,
	"grad_norm": 0.6316260348752082,
	"learning_rate": 1.9486738660670373e-05,
	"loss": 0.7147,
	"step": 1110
	},
	{
	"epoch": 0.5795218295218295,
	"grad_norm": 0.5874076313405716,
	"learning_rate": 1.9477130912710648e-05,
	"loss": 0.7279,
	"step": 1115
	},
	{
	"epoch": 0.5821205821205822,
	"grad_norm": 0.6676704495322479,
	"learning_rate": 1.9467436486046317e-05,
	"loss": 0.7103,
	"step": 1120
	},
	{
	"epoch": 0.5847193347193347,
	"grad_norm": 0.5827519526288305,
	"learning_rate": 1.9457655469343482e-05,
	"loss": 0.7014,
	"step": 1125
	},
	{
	"epoch": 0.5873180873180873,
	"grad_norm": 0.6037871799524279,
	"learning_rate": 1.944778795206023e-05,
	"loss": 0.7053,
	"step": 1130
	},
	{
	"epoch": 0.58991683991684,
	"grad_norm": 0.5712930594682987,
	"learning_rate": 1.9437834024445762e-05,
	"loss": 0.7177,
	"step": 1135
	},
	{
	"epoch": 0.5925155925155925,
	"grad_norm": 0.5970793241519367,
	"learning_rate": 1.9427793777539615e-05,
	"loss": 0.7127,
	"step": 1140
	},
	{
	"epoch": 0.5951143451143451,
	"grad_norm": 0.6209626687697077,
	"learning_rate": 1.9417667303170803e-05,
	"loss": 0.7063,
	"step": 1145
	},
	{
	"epoch": 0.5977130977130977,
	"grad_norm": 0.606055879020448,
	"learning_rate": 1.940745469395698e-05,
	"loss": 0.695,
	"step": 1150
	},
	{
	"epoch": 0.6003118503118503,
	"grad_norm": 0.6188361477212587,
	"learning_rate": 1.9397156043303608e-05,
	"loss": 0.6966,
	"step": 1155
	},
	{
	"epoch": 0.6029106029106029,
	"grad_norm": 0.6290824936609826,
	"learning_rate": 1.9386771445403086e-05,
	"loss": 0.7031,
	"step": 1160
	},
	{
	"epoch": 0.6055093555093555,
	"grad_norm": 0.6122110814030293,
	"learning_rate": 1.9376300995233894e-05,
	"loss": 0.7083,
	"step": 1165
	},
	{
	"epoch": 0.6081081081081081,
	"grad_norm": 0.6273881899574172,
	"learning_rate": 1.9365744788559725e-05,
	"loss": 0.7023,
	"step": 1170
	},
	{
	"epoch": 0.6107068607068608,
	"grad_norm": 0.5897253804349057,
	"learning_rate": 1.9355102921928606e-05,
	"loss": 0.7141,
	"step": 1175
	},
	{
	"epoch": 0.6133056133056133,
	"grad_norm": 0.6492672708845987,
	"learning_rate": 1.9344375492672024e-05,
	"loss": 0.7097,
	"step": 1180
	},
	{
	"epoch": 0.6159043659043659,
	"grad_norm": 0.5984352418529706,
	"learning_rate": 1.9333562598904027e-05,
	"loss": 0.7068,
	"step": 1185
	},
	{
	"epoch": 0.6185031185031185,
	"grad_norm": 0.6401953574979402,
	"learning_rate": 1.9322664339520328e-05,
	"loss": 0.7007,
	"step": 1190
	},
	{
	"epoch": 0.6211018711018711,
	"grad_norm": 0.6292156047444384,
	"learning_rate": 1.93116808141974e-05,
	"loss": 0.7114,
	"step": 1195
	},
	{
	"epoch": 0.6237006237006237,
	"grad_norm": 0.6298280430381119,
	"learning_rate": 1.9300612123391574e-05,
	"loss": 0.7224,
	"step": 1200
	},
	{
	"epoch": 0.6262993762993763,
	"grad_norm": 0.5647290693137603,
	"learning_rate": 1.92894583683381e-05,
	"loss": 0.7029,
	"step": 1205
	},
	{
	"epoch": 0.6288981288981289,
	"grad_norm": 0.5843497274151073,
	"learning_rate": 1.927821965105024e-05,
	"loss": 0.6935,
	"step": 1210
	},
	{
	"epoch": 0.6314968814968815,
	"grad_norm": 0.5742329412422685,
	"learning_rate": 1.9266896074318335e-05,
	"loss": 0.6921,
	"step": 1215
	},
	{
	"epoch": 0.6340956340956341,
	"grad_norm": 0.6198304134928966,
	"learning_rate": 1.925548774170885e-05,
	"loss": 0.7022,
	"step": 1220
	},
	{
	"epoch": 0.6366943866943867,
	"grad_norm": 0.5927355008313566,
	"learning_rate": 1.924399475756343e-05,
	"loss": 0.7043,
	"step": 1225
	},
	{
	"epoch": 0.6392931392931392,
	"grad_norm": 0.5675856487929543,
	"learning_rate": 1.9232417226997964e-05,
	"loss": 0.6979,
	"step": 1230
	},
	{
	"epoch": 0.6418918918918919,
	"grad_norm": 0.5801729136751573,
	"learning_rate": 1.9220755255901604e-05,
	"loss": 0.7128,
	"step": 1235
	},
	{
	"epoch": 0.6444906444906445,
	"grad_norm": 0.5455856005670234,
	"learning_rate": 1.92090089509358e-05,
	"loss": 0.7154,
	"step": 1240
	},
	{
	"epoch": 0.6470893970893971,
	"grad_norm": 0.578411372283767,
	"learning_rate": 1.9197178419533328e-05,
	"loss": 0.726,
	"step": 1245
	},
	{
	"epoch": 0.6496881496881497,
	"grad_norm": 0.6165732640247198,
	"learning_rate": 1.918526376989731e-05,
	"loss": 0.7097,
	"step": 1250
	},
	{
	"epoch": 0.6522869022869023,
	"grad_norm": 0.579722849123064,
	"learning_rate": 1.9173265111000218e-05,
	"loss": 0.7181,
	"step": 1255
	},
	{
	"epoch": 0.6548856548856549,
	"grad_norm": 0.6384864268465269,
	"learning_rate": 1.9161182552582885e-05,
	"loss": 0.7048,
	"step": 1260
	},
	{
	"epoch": 0.6574844074844075,
	"grad_norm": 0.5442756986247173,
	"learning_rate": 1.9149016205153494e-05,
	"loss": 0.6983,
	"step": 1265
	},
	{
	"epoch": 0.66008316008316,
	"grad_norm": 0.5876328008368029,
	"learning_rate": 1.9136766179986566e-05,
	"loss": 0.7058,
	"step": 1270
	},
	{
	"epoch": 0.6626819126819127,
	"grad_norm": 0.556923286518879,
	"learning_rate": 1.9124432589121945e-05,
	"loss": 0.7048,
	"step": 1275
	},
	{
	"epoch": 0.6652806652806653,
	"grad_norm": 0.5614004903256652,
	"learning_rate": 1.9112015545363793e-05,
	"loss": 0.703,
	"step": 1280
	},
	{
	"epoch": 0.6678794178794178,
	"grad_norm": 0.6029085739466059,
	"learning_rate": 1.9099515162279515e-05,
	"loss": 0.7149,
	"step": 1285
	},
	{
	"epoch": 0.6704781704781705,
	"grad_norm": 0.5542833475447663,
	"learning_rate": 1.9086931554198756e-05,
	"loss": 0.7059,
	"step": 1290
	},
	{
	"epoch": 0.6730769230769231,
	"grad_norm": 0.596418111214614,
	"learning_rate": 1.907426483621235e-05,
	"loss": 0.7187,
	"step": 1295
	},
	{
	"epoch": 0.6756756756756757,
	"grad_norm": 0.5964335487077739,
	"learning_rate": 1.9061515124171254e-05,
	"loss": 0.7023,
	"step": 1300
	},
	{
	"epoch": 0.6782744282744283,
	"grad_norm": 0.6527135172773815,
	"learning_rate": 1.90486825346855e-05,
	"loss": 0.6985,
	"step": 1305
	},
	{
	"epoch": 0.6808731808731808,
	"grad_norm": 0.5854908036035414,
	"learning_rate": 1.9035767185123118e-05,
	"loss": 0.7097,
	"step": 1310
	},
	{
	"epoch": 0.6834719334719335,
	"grad_norm": 0.5630331628185049,
	"learning_rate": 1.9022769193609077e-05,
	"loss": 0.6973,
	"step": 1315
	},
	{
	"epoch": 0.6860706860706861,
	"grad_norm": 0.5872323843899289,
	"learning_rate": 1.900968867902419e-05,
	"loss": 0.7069,
	"step": 1320
	},
	{
	"epoch": 0.6886694386694386,
	"grad_norm": 0.5845474538391455,
	"learning_rate": 1.899652576100405e-05,
	"loss": 0.7169,
	"step": 1325
	},
	{
	"epoch": 0.6912681912681913,
	"grad_norm": 0.6164999248623418,
	"learning_rate": 1.8983280559937896e-05,
	"loss": 0.7005,
	"step": 1330
	},
	{
	"epoch": 0.6938669438669439,
	"grad_norm": 0.6124510306800306,
	"learning_rate": 1.896995319696755e-05,
	"loss": 0.701,
	"step": 1335
	},
	{
	"epoch": 0.6964656964656964,
	"grad_norm": 0.6267010331850633,
	"learning_rate": 1.8956543793986287e-05,
	"loss": 0.7164,
	"step": 1340
	},
	{
	"epoch": 0.6990644490644491,
	"grad_norm": 0.5961399562877898,
	"learning_rate": 1.8943052473637734e-05,
	"loss": 0.7213,
	"step": 1345
	},
	{
	"epoch": 0.7016632016632016,
	"grad_norm": 0.6174817199293855,
	"learning_rate": 1.8929479359314742e-05,
	"loss": 0.6985,
	"step": 1350
	},
	{
	"epoch": 0.7042619542619543,
	"grad_norm": 0.5851247926140993,
	"learning_rate": 1.891582457515825e-05,
	"loss": 0.6935,
	"step": 1355
	},
	{
	"epoch": 0.7068607068607069,
	"grad_norm": 0.5776477138388799,
	"learning_rate": 1.890208824605616e-05,
	"loss": 0.708,
	"step": 1360
	},
	{
	"epoch": 0.7094594594594594,
	"grad_norm": 0.5309187069380664,
	"learning_rate": 1.888827049764219e-05,
	"loss": 0.7003,
	"step": 1365
	},
	{
	"epoch": 0.7120582120582121,
	"grad_norm": 0.5496529326574807,
	"learning_rate": 1.8874371456294732e-05,
	"loss": 0.6999,
	"step": 1370
	},
	{
	"epoch": 0.7146569646569647,
	"grad_norm": 0.5339269514909717,
	"learning_rate": 1.8860391249135692e-05,
	"loss": 0.6966,
	"step": 1375
	},
	{
	"epoch": 0.7172557172557172,
	"grad_norm": 0.5427973139574223,
	"learning_rate": 1.884633000402931e-05,
	"loss": 0.6936,
	"step": 1380
	},
	{
	"epoch": 0.7198544698544699,
	"grad_norm": 0.5672590602791164,
	"learning_rate": 1.883218784958103e-05,
	"loss": 0.689,
	"step": 1385
	},
	{
	"epoch": 0.7224532224532224,
	"grad_norm": 0.5402673826941384,
	"learning_rate": 1.8817964915136277e-05,
	"loss": 0.7072,
	"step": 1390
	},
	{
	"epoch": 0.725051975051975,
	"grad_norm": 0.5601951835510618,
	"learning_rate": 1.8803661330779316e-05,
	"loss": 0.7059,
	"step": 1395
	},
	{
	"epoch": 0.7276507276507277,
	"grad_norm": 0.5857868039965994,
	"learning_rate": 1.8789277227332025e-05,
	"loss": 0.6799,
	"step": 1400
	},
	{
	"epoch": 0.7302494802494802,
	"grad_norm": 0.5347885501584507,
	"learning_rate": 1.877481273635274e-05,
	"loss": 0.6956,
	"step": 1405
	},
	{
	"epoch": 0.7328482328482329,
	"grad_norm": 0.5502849975189612,
	"learning_rate": 1.8760267990135007e-05,
	"loss": 0.7059,
	"step": 1410
	},
	{
	"epoch": 0.7354469854469855,
	"grad_norm": 0.5178257228797314,
	"learning_rate": 1.874564312170641e-05,
	"loss": 0.7019,
	"step": 1415
	},
	{
	"epoch": 0.738045738045738,
	"grad_norm": 0.5607208259193451,
	"learning_rate": 1.8730938264827322e-05,
	"loss": 0.6963,
	"step": 1420
	},
	{
	"epoch": 0.7406444906444907,
	"grad_norm": 0.5821162244405798,
	"learning_rate": 1.8716153553989716e-05,
	"loss": 0.6965,
	"step": 1425
	},
	{
	"epoch": 0.7432432432432432,
	"grad_norm": 0.5495747594677731,
	"learning_rate": 1.8701289124415902e-05,
	"loss": 0.6963,
	"step": 1430
	},
	{
	"epoch": 0.7458419958419958,
	"grad_norm": 0.528297292924797,
	"learning_rate": 1.868634511205731e-05,
	"loss": 0.6917,
	"step": 1435
	},
	{
	"epoch": 0.7484407484407485,
	"grad_norm": 0.5326976953811587,
	"learning_rate": 1.8671321653593244e-05,
	"loss": 0.6989,
	"step": 1440
	},
	{
	"epoch": 0.751039501039501,
	"grad_norm": 0.5584186177167862,
	"learning_rate": 1.8656218886429624e-05,
	"loss": 0.7031,
	"step": 1445
	},
	{
	"epoch": 0.7536382536382537,
	"grad_norm": 0.5570198454055475,
	"learning_rate": 1.8641036948697736e-05,
	"loss": 0.7023,
	"step": 1450
	},
	{
	"epoch": 0.7562370062370062,
	"grad_norm": 0.6760644666500142,
	"learning_rate": 1.8625775979252976e-05,
	"loss": 0.6789,
	"step": 1455
	},
	{
	"epoch": 0.7588357588357588,
	"grad_norm": 0.5638434234347486,
	"learning_rate": 1.8610436117673557e-05,
	"loss": 0.6986,
	"step": 1460
	},
	{
	"epoch": 0.7614345114345115,
	"grad_norm": 0.5493778378867652,
	"learning_rate": 1.8595017504259253e-05,
	"loss": 0.6785,
	"step": 1465
	},
	{
	"epoch": 0.764033264033264,
	"grad_norm": 0.6031826832296197,
	"learning_rate": 1.8579520280030118e-05,
	"loss": 0.6995,
	"step": 1470
	},
	{
	"epoch": 0.7666320166320166,
	"grad_norm": 0.5143780295012962,
	"learning_rate": 1.8563944586725175e-05,
	"loss": 0.6846,
	"step": 1475
	},
	{
	"epoch": 0.7692307692307693,
	"grad_norm": 0.5539515728601708,
	"learning_rate": 1.8548290566801132e-05,
	"loss": 0.7238,
	"step": 1480
	},
	{
	"epoch": 0.7718295218295218,
	"grad_norm": 0.5421409786755411,
	"learning_rate": 1.853255836343109e-05,
	"loss": 0.6999,
	"step": 1485
	},
	{
	"epoch": 0.7744282744282744,
	"grad_norm": 0.6141673616193241,
	"learning_rate": 1.8516748120503217e-05,
	"loss": 0.6899,
	"step": 1490
	},
	{
	"epoch": 0.777027027027027,
	"grad_norm": 0.6088321493956566,
	"learning_rate": 1.8500859982619438e-05,
	"loss": 0.6985,
	"step": 1495
	},
	{
	"epoch": 0.7796257796257796,
	"grad_norm": 0.5792987579663321,
	"learning_rate": 1.848489409509411e-05,
	"loss": 0.7015,
	"step": 1500
	},
	{
	"epoch": 0.7822245322245323,
	"grad_norm": 0.5889071004078938,
	"learning_rate": 1.84688506039527e-05,
	"loss": 0.6961,
	"step": 1505
	},
	{
	"epoch": 0.7848232848232848,
	"grad_norm": 0.6583485451018368,
	"learning_rate": 1.845272965593045e-05,
	"loss": 0.6999,
	"step": 1510
	},
	{
	"epoch": 0.7874220374220374,
	"grad_norm": 0.5605926278169279,
	"learning_rate": 1.843653139847101e-05,
	"loss": 0.6862,
	"step": 1515
	},
	{
	"epoch": 0.7900207900207901,
	"grad_norm": 0.5528728709462963,
	"learning_rate": 1.842025597972513e-05,
	"loss": 0.697,
	"step": 1520
	},
	{
	"epoch": 0.7926195426195426,
	"grad_norm": 0.5793992149063935,
	"learning_rate": 1.840390354854927e-05,
	"loss": 0.6981,
	"step": 1525
	},
	{
	"epoch": 0.7952182952182952,
	"grad_norm": 0.5629064758499602,
	"learning_rate": 1.8387474254504265e-05,
	"loss": 0.6847,
	"step": 1530
	},
	{
	"epoch": 0.7978170478170478,
	"grad_norm": 0.5625360669791298,
	"learning_rate": 1.8370968247853933e-05,
	"loss": 0.7102,
	"step": 1535
	},
	{
	"epoch": 0.8004158004158004,
	"grad_norm": 0.575364667753087,
	"learning_rate": 1.8354385679563723e-05,
	"loss": 0.7028,
	"step": 1540
	},
	{
	"epoch": 0.803014553014553,
	"grad_norm": 0.5391664994143878,
	"learning_rate": 1.8337726701299313e-05,
	"loss": 0.6972,
	"step": 1545
	},
	{
	"epoch": 0.8056133056133056,
	"grad_norm": 0.5411008753649549,
	"learning_rate": 1.8320991465425243e-05,
	"loss": 0.6903,
	"step": 1550
	},
	{
	"epoch": 0.8082120582120582,
	"grad_norm": 0.5247464270778599,
	"learning_rate": 1.8304180125003505e-05,
	"loss": 0.6892,
	"step": 1555
	},
	{
	"epoch": 0.8108108108108109,
	"grad_norm": 0.5616645790978936,
	"learning_rate": 1.8287292833792157e-05,
	"loss": 0.6996,
	"step": 1560
	},
	{
	"epoch": 0.8134095634095634,
	"grad_norm": 0.5496955252051037,
	"learning_rate": 1.8270329746243903e-05,
	"loss": 0.7093,
	"step": 1565
	},
	{
	"epoch": 0.816008316008316,
	"grad_norm": 0.5727569676124988,
	"learning_rate": 1.8253291017504694e-05,
	"loss": 0.6921,
	"step": 1570
	},
	{
	"epoch": 0.8186070686070686,
	"grad_norm": 0.5394235138224174,
	"learning_rate": 1.8236176803412296e-05,
	"loss": 0.6915,
	"step": 1575
	},
	{
	"epoch": 0.8212058212058212,
	"grad_norm": 0.5545057246411995,
	"learning_rate": 1.8218987260494877e-05,
	"loss": 0.7076,
	"step": 1580
	},
	{
	"epoch": 0.8238045738045738,
	"grad_norm": 0.5440533432959407,
	"learning_rate": 1.820172254596956e-05,
	"loss": 0.6765,
	"step": 1585
	},
	{
	"epoch": 0.8264033264033264,
	"grad_norm": 0.5572733236733112,
	"learning_rate": 1.8184382817741005e-05,
	"loss": 0.699,
	"step": 1590
	},
	{
	"epoch": 0.829002079002079,
	"grad_norm": 0.5531936584129153,
	"learning_rate": 1.816696823439995e-05,
	"loss": 0.6921,
	"step": 1595
	},
	{
	"epoch": 0.8316008316008316,
	"grad_norm": 0.5885460971318106,
	"learning_rate": 1.814947895522176e-05,
	"loss": 0.7058,
	"step": 1600
	},
	{
	"epoch": 0.8341995841995842,
	"grad_norm": 0.5258234834971192,
	"learning_rate": 1.8131915140164985e-05,
	"loss": 0.7075,
	"step": 1605
	},
	{
	"epoch": 0.8367983367983368,
	"grad_norm": 0.6039050150490132,
	"learning_rate": 1.8114276949869877e-05,
	"loss": 0.7022,
	"step": 1610
	},
	{
	"epoch": 0.8393970893970893,
	"grad_norm": 0.5562997078883312,
	"learning_rate": 1.809656454565693e-05,
	"loss": 0.7079,
	"step": 1615
	},
	{
	"epoch": 0.841995841995842,
	"grad_norm": 0.5537066778477406,
	"learning_rate": 1.8078778089525423e-05,
	"loss": 0.6982,
	"step": 1620
	},
	{
	"epoch": 0.8445945945945946,
	"grad_norm": 0.5336085274714755,
	"learning_rate": 1.80609177441519e-05,
	"loss": 0.6813,
	"step": 1625
	},
	{
	"epoch": 0.8471933471933472,
	"grad_norm": 0.5921356105703777,
	"learning_rate": 1.8042983672888706e-05,
	"loss": 0.6982,
	"step": 1630
	},
	{
	"epoch": 0.8497920997920998,
	"grad_norm": 0.5823716073373996,
	"learning_rate": 1.8024976039762507e-05,
	"loss": 0.7007,
	"step": 1635
	},
	{
	"epoch": 0.8523908523908524,
	"grad_norm": 0.5413045444506639,
	"learning_rate": 1.8006895009472747e-05,
	"loss": 0.693,
	"step": 1640
	},
	{
	"epoch": 0.854989604989605,
	"grad_norm": 0.5634810470157456,
	"learning_rate": 1.7988740747390182e-05,
	"loss": 0.6973,
	"step": 1645
	},
	{
	"epoch": 0.8575883575883576,
	"grad_norm": 0.5742831274552044,
	"learning_rate": 1.797051341955536e-05,
	"loss": 0.6983,
	"step": 1650
	},
	{
	"epoch": 0.8601871101871101,
	"grad_norm": 0.5870076478023661,
	"learning_rate": 1.7952213192677074e-05,
	"loss": 0.7139,
	"step": 1655
	},
	{
	"epoch": 0.8627858627858628,
	"grad_norm": 0.5730171778092863,
	"learning_rate": 1.7933840234130878e-05,
	"loss": 0.7048,
	"step": 1660
	},
	{
	"epoch": 0.8653846153846154,
	"grad_norm": 0.5104051114581488,
	"learning_rate": 1.7915394711957523e-05,
	"loss": 0.7073,
	"step": 1665
	},
	{
	"epoch": 0.867983367983368,
	"grad_norm": 0.5580415382036159,
	"learning_rate": 1.7896876794861443e-05,
	"loss": 0.6942,
	"step": 1670
	},
	{
	"epoch": 0.8705821205821206,
	"grad_norm": 0.5837643043381491,
	"learning_rate": 1.7878286652209196e-05,
	"loss": 0.7025,
	"step": 1675
	},
	{
	"epoch": 0.8731808731808732,
	"grad_norm": 0.5423350178745967,
	"learning_rate": 1.785962445402792e-05,
	"loss": 0.6952,
	"step": 1680
	},
	{
	"epoch": 0.8757796257796258,
	"grad_norm": 0.5729568854084454,
	"learning_rate": 1.7840890371003795e-05,
	"loss": 0.6966,
	"step": 1685
	},
	{
	"epoch": 0.8783783783783784,
	"grad_norm": 0.5553594551886265,
	"learning_rate": 1.782208457448044e-05,
	"loss": 0.7013,
	"step": 1690
	},
	{
	"epoch": 0.8809771309771309,
	"grad_norm": 0.535467096093925,
	"learning_rate": 1.7803207236457404e-05,
	"loss": 0.7082,
	"step": 1695
	},
	{
	"epoch": 0.8835758835758836,
	"grad_norm": 0.5486284072585131,
	"learning_rate": 1.778425852958853e-05,
	"loss": 0.6666,
	"step": 1700
	},
	{
	"epoch": 0.8861746361746362,
	"grad_norm": 0.5078876333931026,
	"learning_rate": 1.7765238627180424e-05,
	"loss": 0.6894,
	"step": 1705
	},
	{
	"epoch": 0.8887733887733887,
	"grad_norm": 0.5667869632736022,
	"learning_rate": 1.7746147703190857e-05,
	"loss": 0.704,
	"step": 1710
	},
	{
	"epoch": 0.8913721413721414,
	"grad_norm": 0.574959887360108,
	"learning_rate": 1.7726985932227156e-05,
	"loss": 0.7107,
	"step": 1715
	},
	{
	"epoch": 0.893970893970894,
	"grad_norm": 0.5224789850325783,
	"learning_rate": 1.7707753489544628e-05,
	"loss": 0.7047,
	"step": 1720
	},
	{
	"epoch": 0.8965696465696466,
	"grad_norm": 0.5527415568002146,
	"learning_rate": 1.768845055104495e-05,
	"loss": 0.7091,
	"step": 1725
	},
	{
	"epoch": 0.8991683991683992,
	"grad_norm": 0.5812394569236012,
	"learning_rate": 1.7669077293274564e-05,
	"loss": 0.6862,
	"step": 1730
	},
	{
	"epoch": 0.9017671517671517,
	"grad_norm": 0.5235725170689791,
	"learning_rate": 1.764963389342305e-05,
	"loss": 0.6811,
	"step": 1735
	},
	{
	"epoch": 0.9043659043659044,
	"grad_norm": 0.5171430012007782,
	"learning_rate": 1.7630120529321518e-05,
	"loss": 0.6846,
	"step": 1740
	},
	{
	"epoch": 0.906964656964657,
	"grad_norm": 0.528693038590328,
	"learning_rate": 1.7610537379440987e-05,
	"loss": 0.6915,
	"step": 1745
	},
	{
	"epoch": 0.9095634095634095,
	"grad_norm": 0.5364540922380395,
	"learning_rate": 1.759088462289072e-05,
	"loss": 0.684,
	"step": 1750
	},
	{
	"epoch": 0.9121621621621622,
	"grad_norm": 0.5660558568326042,
	"learning_rate": 1.7571162439416632e-05,
	"loss": 0.6955,
	"step": 1755
	},
	{
	"epoch": 0.9147609147609148,
	"grad_norm": 0.5672957617937873,
	"learning_rate": 1.755137100939961e-05,
	"loss": 0.6988,
	"step": 1760
	},
	{
	"epoch": 0.9173596673596673,
	"grad_norm": 0.5530873304373302,
	"learning_rate": 1.753151051385388e-05,
	"loss": 0.6833,
	"step": 1765
	},
	{
	"epoch": 0.91995841995842,
	"grad_norm": 0.5178111657664748,
	"learning_rate": 1.7511581134425347e-05,
	"loss": 0.7073,
	"step": 1770
	},
	{
	"epoch": 0.9225571725571725,
	"grad_norm": 0.5721288757020301,
	"learning_rate": 1.7491583053389937e-05,
	"loss": 0.6863,
	"step": 1775
	},
	{
	"epoch": 0.9251559251559252,
	"grad_norm": 0.5726074152322754,
	"learning_rate": 1.7471516453651925e-05,
	"loss": 0.6885,
	"step": 1780
	},
	{
	"epoch": 0.9277546777546778,
	"grad_norm": 0.5569113799035454,
	"learning_rate": 1.7451381518742264e-05,
	"loss": 0.6919,
	"step": 1785
	},
	{
	"epoch": 0.9303534303534303,
	"grad_norm": 0.5349940876609687,
	"learning_rate": 1.7431178432816905e-05,
	"loss": 0.6888,
	"step": 1790
	},
	{
	"epoch": 0.932952182952183,
	"grad_norm": 0.48085486147721074,
	"learning_rate": 1.7410907380655118e-05,
	"loss": 0.6892,
	"step": 1795
	},
	{
	"epoch": 0.9355509355509356,
	"grad_norm": 0.5162470850450532,
	"learning_rate": 1.7390568547657797e-05,
	"loss": 0.6844,
	"step": 1800
	},
	{
	"epoch": 0.9381496881496881,
	"grad_norm": 0.5500432932817269,
	"learning_rate": 1.7370162119845768e-05,
	"loss": 0.677,
	"step": 1805
	},
	{
	"epoch": 0.9407484407484408,
	"grad_norm": 0.5691270831237378,
	"learning_rate": 1.734968828385808e-05,
	"loss": 0.6816,
	"step": 1810
	},
	{
	"epoch": 0.9433471933471933,
	"grad_norm": 0.5353076421264558,
	"learning_rate": 1.7329147226950303e-05,
	"loss": 0.6825,
	"step": 1815
	},
	{
	"epoch": 0.9459459459459459,
	"grad_norm": 0.552477154180168,
	"learning_rate": 1.7308539136992823e-05,
	"loss": 0.6893,
	"step": 1820
	},
	{
	"epoch": 0.9485446985446986,
	"grad_norm": 0.5280777987730796,
	"learning_rate": 1.7287864202469117e-05,
	"loss": 0.7004,
	"step": 1825
	},
	{
	"epoch": 0.9511434511434511,
	"grad_norm": 0.5437828698378319,
	"learning_rate": 1.7267122612474013e-05,
	"loss": 0.6761,
	"step": 1830
	},
	{
	"epoch": 0.9537422037422038,
	"grad_norm": 0.5687279165024458,
	"learning_rate": 1.7246314556711994e-05,
	"loss": 0.6894,
	"step": 1835
	},
	{
	"epoch": 0.9563409563409564,
	"grad_norm": 0.5740312633264971,
	"learning_rate": 1.7225440225495436e-05,
	"loss": 0.6914,
	"step": 1840
	},
	{
	"epoch": 0.9589397089397089,
	"grad_norm": 0.5573795518397149,
	"learning_rate": 1.720449980974288e-05,
	"loss": 0.6771,
	"step": 1845
	},
	{
	"epoch": 0.9615384615384616,
	"grad_norm": 0.5351408449090207,
	"learning_rate": 1.7183493500977277e-05,
	"loss": 0.6932,
	"step": 1850
	},
	{
	"epoch": 0.9641372141372141,
	"grad_norm": 0.5528674527887268,
	"learning_rate": 1.7162421491324247e-05,
	"loss": 0.6836,
	"step": 1855
	},
	{
	"epoch": 0.9667359667359667,
	"grad_norm": 0.5406423387911308,
	"learning_rate": 1.7141283973510313e-05,
	"loss": 0.691,
	"step": 1860
	},
	{
	"epoch": 0.9693347193347194,
	"grad_norm": 0.5420681920741066,
	"learning_rate": 1.712008114086115e-05,
	"loss": 0.7039,
	"step": 1865
	},
	{
	"epoch": 0.9719334719334719,
	"grad_norm": 0.496824504759365,
	"learning_rate": 1.7098813187299786e-05,
	"loss": 0.692,
	"step": 1870
	},
	{
	"epoch": 0.9745322245322245,
	"grad_norm": 0.5324381566943999,
	"learning_rate": 1.707748030734488e-05,
	"loss": 0.6776,
	"step": 1875
	},
	{
	"epoch": 0.9771309771309772,
	"grad_norm": 0.5230259681581492,
	"learning_rate": 1.7056082696108896e-05,
	"loss": 0.6847,
	"step": 1880
	},
	{
	"epoch": 0.9797297297297297,
	"grad_norm": 0.5404603350045258,
	"learning_rate": 1.7034620549296336e-05,
	"loss": 0.6896,
	"step": 1885
	},
	{
	"epoch": 0.9823284823284824,
	"grad_norm": 0.5198497643717813,
	"learning_rate": 1.701309406320196e-05,
	"loss": 0.6676,
	"step": 1890
	},
	{
	"epoch": 0.9849272349272349,
	"grad_norm": 0.49415192104030464,
	"learning_rate": 1.699150343470897e-05,
	"loss": 0.6839,
	"step": 1895
	},
	{
	"epoch": 0.9875259875259875,
	"grad_norm": 0.5044834255400932,
	"learning_rate": 1.696984886128723e-05,
	"loss": 0.6913,
	"step": 1900
	},
	{
	"epoch": 0.9901247401247402,
	"grad_norm": 0.5398617776602235,
	"learning_rate": 1.6948130540991443e-05,
	"loss": 0.6874,
	"step": 1905
	},
	{
	"epoch": 0.9927234927234927,
	"grad_norm": 0.5225589262440207,
	"learning_rate": 1.6926348672459347e-05,
	"loss": 0.6822,
	"step": 1910
	},
	{
	"epoch": 0.9953222453222453,
	"grad_norm": 0.5351932477818484,
	"learning_rate": 1.6904503454909905e-05,
	"loss": 0.668,
	"step": 1915
	},
	{
	"epoch": 0.997920997920998,
	"grad_norm": 0.5596299212706576,
	"learning_rate": 1.688259508814147e-05,
	"loss": 0.6884,
	"step": 1920
	},
	{
	"epoch": 1.0,
	"eval_loss": 0.7763931155204773,
	"eval_runtime": 106.5617,
	"eval_samples_per_second": 77.045,
	"eval_steps_per_second": 1.211,
	"step": 1924
	},
	{
	"epoch": 1.0005197505197505,
	"grad_norm": 0.7015242091925799,
	"learning_rate": 1.6860623772529964e-05,
	"loss": 0.6682,
	"step": 1925
	},
	{
	"epoch": 1.003118503118503,
	"grad_norm": 0.6034586283492043,
	"learning_rate": 1.6838589709027043e-05,
	"loss": 0.6255,
	"step": 1930
	},
	{
	"epoch": 1.0057172557172558,
	"grad_norm": 0.6673777384785803,
	"learning_rate": 1.681649309915827e-05,
	"loss": 0.615,
	"step": 1935
	},
	{
	"epoch": 1.0083160083160083,
	"grad_norm": 0.55969047689154,
	"learning_rate": 1.6794334145021252e-05,
	"loss": 0.6276,
	"step": 1940
	},
	{
	"epoch": 1.0109147609147608,
	"grad_norm": 0.5655945464921515,
	"learning_rate": 1.677211304928381e-05,
	"loss": 0.6072,
	"step": 1945
	},
	{
	"epoch": 1.0135135135135136,
	"grad_norm": 0.5544352654106766,
	"learning_rate": 1.6749830015182106e-05,
	"loss": 0.604,
	"step": 1950
	},
	{
	"epoch": 1.0161122661122661,
	"grad_norm": 0.5513580613594744,
	"learning_rate": 1.6727485246518813e-05,
	"loss": 0.6087,
	"step": 1955
	},
	{
	"epoch": 1.0187110187110187,
	"grad_norm": 0.5475994898582014,
	"learning_rate": 1.6705078947661224e-05,
	"loss": 0.6125,
	"step": 1960
	},
	{
	"epoch": 1.0213097713097714,
	"grad_norm": 0.5469347962338588,
	"learning_rate": 1.668261132353939e-05,
	"loss": 0.6079,
	"step": 1965
	},
	{
	"epoch": 1.023908523908524,
	"grad_norm": 0.6609443347963427,
	"learning_rate": 1.6660082579644257e-05,
	"loss": 0.6085,
	"step": 1970
	},
	{
	"epoch": 1.0265072765072765,
	"grad_norm": 0.5735256704279655,
	"learning_rate": 1.6637492922025767e-05,
	"loss": 0.5988,
	"step": 1975
	},
	{
	"epoch": 1.0291060291060292,
	"grad_norm": 0.5604570622446723,
	"learning_rate": 1.6614842557291003e-05,
	"loss": 0.605,
	"step": 1980
	},
	{
	"epoch": 1.0317047817047817,
	"grad_norm": 0.5716162653407055,
	"learning_rate": 1.6592131692602257e-05,
	"loss": 0.6199,
	"step": 1985
	},
	{
	"epoch": 1.0343035343035343,
	"grad_norm": 0.572255735683218,
	"learning_rate": 1.6569360535675177e-05,
	"loss": 0.6136,
	"step": 1990
	},
	{
	"epoch": 1.0369022869022868,
	"grad_norm": 0.5548434711803698,
	"learning_rate": 1.654652929477684e-05,
	"loss": 0.6292,
	"step": 1995
	},
	{
	"epoch": 1.0395010395010396,
	"grad_norm": 0.5372326277134161,
	"learning_rate": 1.6523638178723863e-05,
	"loss": 0.615,
	"step": 2000
	},
	{
	"epoch": 1.042099792099792,
	"grad_norm": 0.5629251525957598,
	"learning_rate": 1.6500687396880483e-05,
	"loss": 0.5994,
	"step": 2005
	},
	{
	"epoch": 1.0446985446985446,
	"grad_norm": 0.5386319104306212,
	"learning_rate": 1.6477677159156647e-05,
	"loss": 0.6074,
	"step": 2010
	},
	{
	"epoch": 1.0472972972972974,
	"grad_norm": 0.5344519142234625,
	"learning_rate": 1.6454607676006085e-05,
	"loss": 0.6093,
	"step": 2015
	},
	{
	"epoch": 1.04989604989605,
	"grad_norm": 0.5911538942849666,
	"learning_rate": 1.64314791584244e-05,
	"loss": 0.6219,
	"step": 2020
	},
	{
	"epoch": 1.0524948024948024,
	"grad_norm": 0.5747632841380809,
	"learning_rate": 1.6408291817947126e-05,
	"loss": 0.6229,
	"step": 2025
	},
	{
	"epoch": 1.0550935550935552,
	"grad_norm": 0.5553970996601802,
	"learning_rate": 1.6385045866647797e-05,
	"loss": 0.6131,
	"step": 2030
	},
	{
	"epoch": 1.0576923076923077,
	"grad_norm": 0.54652804470796,
	"learning_rate": 1.6361741517136e-05,
	"loss": 0.6189,
	"step": 2035
	},
	{
	"epoch": 1.0602910602910602,
	"grad_norm": 0.5652320668164962,
	"learning_rate": 1.633837898255545e-05,
	"loss": 0.6206,
	"step": 2040
	},
	{
	"epoch": 1.062889812889813,
	"grad_norm": 0.5377492795503913,
	"learning_rate": 1.631495847658202e-05,
	"loss": 0.6246,
	"step": 2045
	},
	{
	"epoch": 1.0654885654885655,
	"grad_norm": 0.5701190357161201,
	"learning_rate": 1.6291480213421796e-05,
	"loss": 0.6151,
	"step": 2050
	},
	{
	"epoch": 1.068087318087318,
	"grad_norm": 0.5661751524816903,
	"learning_rate": 1.626794440780911e-05,
	"loss": 0.6155,
	"step": 2055
	},
	{
	"epoch": 1.0706860706860706,
	"grad_norm": 0.563344281114797,
	"learning_rate": 1.62443512750046e-05,
	"loss": 0.6065,
	"step": 2060
	},
	{
	"epoch": 1.0732848232848233,
	"grad_norm": 0.5605142234460203,
	"learning_rate": 1.6220701030793203e-05,
	"loss": 0.6182,
	"step": 2065
	},
	{
	"epoch": 1.0758835758835759,
	"grad_norm": 0.5276428593516702,
	"learning_rate": 1.6196993891482216e-05,
	"loss": 0.622,
	"step": 2070
	},
	{
	"epoch": 1.0784823284823284,
	"grad_norm": 0.5855580679475535,
	"learning_rate": 1.6173230073899303e-05,
	"loss": 0.613,
	"step": 2075
	},
	{
	"epoch": 1.0810810810810811,
	"grad_norm": 0.5464688542980072,
	"learning_rate": 1.6149409795390503e-05,
	"loss": 0.6109,
	"step": 2080
	},
	{
	"epoch": 1.0836798336798337,
	"grad_norm": 0.523861090524199,
	"learning_rate": 1.6125533273818257e-05,
	"loss": 0.5932,
	"step": 2085
	},
	{
	"epoch": 1.0862785862785862,
	"grad_norm": 0.5800436769814354,
	"learning_rate": 1.6101600727559423e-05,
	"loss": 0.5974,
	"step": 2090
	},
	{
	"epoch": 1.088877338877339,
	"grad_norm": 0.5314763619677401,
	"learning_rate": 1.6077612375503244e-05,
	"loss": 0.6233,
	"step": 2095
	},
	{
	"epoch": 1.0914760914760915,
	"grad_norm": 0.5292466384443512,
	"learning_rate": 1.605356843704938e-05,
	"loss": 0.6082,
	"step": 2100
	},
	{
	"epoch": 1.094074844074844,
	"grad_norm": 0.5877188139637917,
	"learning_rate": 1.6029469132105886e-05,
	"loss": 0.6255,
	"step": 2105
	},
	{
	"epoch": 1.0966735966735968,
	"grad_norm": 0.5760369419098388,
	"learning_rate": 1.6005314681087208e-05,
	"loss": 0.6157,
	"step": 2110
	},
	{
	"epoch": 1.0992723492723493,
	"grad_norm": 0.630752472432159,
	"learning_rate": 1.598110530491216e-05,
	"loss": 0.6175,
	"step": 2115
	},
	{
	"epoch": 1.1018711018711018,
	"grad_norm": 0.5608953698596442,
	"learning_rate": 1.595684122500191e-05,
	"loss": 0.6177,
	"step": 2120
	},
	{
	"epoch": 1.1044698544698546,
	"grad_norm": 0.573695393031942,
	"learning_rate": 1.593252266327794e-05,
	"loss": 0.6243,
	"step": 2125
	},
	{
	"epoch": 1.107068607068607,
	"grad_norm": 0.5935701794951512,
	"learning_rate": 1.590814984216004e-05,
	"loss": 0.6134,
	"step": 2130
	},
	{
	"epoch": 1.1096673596673596,
	"grad_norm": 0.5895903291761935,
	"learning_rate": 1.588372298456426e-05,
	"loss": 0.6082,
	"step": 2135
	},
	{
	"epoch": 1.1122661122661124,
	"grad_norm": 0.5711362021969438,
	"learning_rate": 1.5859242313900866e-05,
	"loss": 0.6048,
	"step": 2140
	},
	{
	"epoch": 1.114864864864865,
	"grad_norm": 0.5761578602169135,
	"learning_rate": 1.583470805407231e-05,
	"loss": 0.619,
	"step": 2145
	},
	{
	"epoch": 1.1174636174636174,
	"grad_norm": 0.5567866303525553,
	"learning_rate": 1.581012042947117e-05,
	"loss": 0.6112,
	"step": 2150
	},
	{
	"epoch": 1.12006237006237,
	"grad_norm": 0.5493991058746482,
	"learning_rate": 1.578547966497811e-05,
	"loss": 0.5976,
	"step": 2155
	},
	{
	"epoch": 1.1226611226611227,
	"grad_norm": 0.5652320554508646,
	"learning_rate": 1.57607859859598e-05,
	"loss": 0.6048,
	"step": 2160
	},
	{
	"epoch": 1.1252598752598753,
	"grad_norm": 0.5401641304994612,
	"learning_rate": 1.57360396182669e-05,
	"loss": 0.6082,
	"step": 2165
	},
	{
	"epoch": 1.1278586278586278,
	"grad_norm": 0.5606818865719918,
	"learning_rate": 1.5711240788231933e-05,
	"loss": 0.6039,
	"step": 2170
	},
	{
	"epoch": 1.1304573804573805,
	"grad_norm": 0.6007383546804671,
	"learning_rate": 1.5686389722667273e-05,
	"loss": 0.6047,
	"step": 2175
	},
	{
	"epoch": 1.133056133056133,
	"grad_norm": 0.5715756539794042,
	"learning_rate": 1.5661486648863027e-05,
	"loss": 0.6252,
	"step": 2180
	},
	{
	"epoch": 1.1356548856548856,
	"grad_norm": 0.6079845247405427,
	"learning_rate": 1.563653179458499e-05,
	"loss": 0.6099,
	"step": 2185
	},
	{
	"epoch": 1.1382536382536383,
	"grad_norm": 0.5663226785265596,
	"learning_rate": 1.5611525388072525e-05,
	"loss": 0.5996,
	"step": 2190
	},
	{
	"epoch": 1.1408523908523909,
	"grad_norm": 0.6108898947357355,
	"learning_rate": 1.5586467658036526e-05,
	"loss": 0.6209,
	"step": 2195
	},
	{
	"epoch": 1.1434511434511434,
	"grad_norm": 0.6420427561575582,
	"learning_rate": 1.556135883365727e-05,
	"loss": 0.6038,
	"step": 2200
	},
	{
	"epoch": 1.1460498960498962,
	"grad_norm": 0.587335250663389,
	"learning_rate": 1.5536199144582354e-05,
	"loss": 0.6242,
	"step": 2205
	},
	{
	"epoch": 1.1486486486486487,
	"grad_norm": 0.5910496137391441,
	"learning_rate": 1.5510988820924598e-05,
	"loss": 0.6069,
	"step": 2210
	},
	{
	"epoch": 1.1512474012474012,
	"grad_norm": 0.5655552313228328,
	"learning_rate": 1.5485728093259923e-05,
	"loss": 0.6225,
	"step": 2215
	},
	{
	"epoch": 1.1538461538461537,
	"grad_norm": 0.554660591831712,
	"learning_rate": 1.5460417192625245e-05,
	"loss": 0.6121,
	"step": 2220
	},
	{
	"epoch": 1.1564449064449065,
	"grad_norm": 0.5924033501687683,
	"learning_rate": 1.5435056350516376e-05,
	"loss": 0.6108,
	"step": 2225
	},
	{
	"epoch": 1.159043659043659,
	"grad_norm": 0.5678195976691061,
	"learning_rate": 1.54096457988859e-05,
	"loss": 0.6146,
	"step": 2230
	},
	{
	"epoch": 1.1616424116424116,
	"grad_norm": 0.582762073846593,
	"learning_rate": 1.5384185770141027e-05,
	"loss": 0.6116,
	"step": 2235
	},
	{
	"epoch": 1.1642411642411643,
	"grad_norm": 0.5520839459854381,
	"learning_rate": 1.535867649714152e-05,
	"loss": 0.6167,
	"step": 2240
	},
	{
	"epoch": 1.1668399168399168,
	"grad_norm": 0.5394988505298011,
	"learning_rate": 1.533311821319751e-05,
	"loss": 0.6173,
	"step": 2245
	},
	{
	"epoch": 1.1694386694386694,
	"grad_norm": 0.5490162258104867,
	"learning_rate": 1.5307511152067397e-05,
	"loss": 0.6195,
	"step": 2250
	},
	{
	"epoch": 1.1720374220374221,
	"grad_norm": 0.5176946937084966,
	"learning_rate": 1.5281855547955704e-05,
	"loss": 0.6063,
	"step": 2255
	},
	{
	"epoch": 1.1746361746361746,
	"grad_norm": 0.5697232320984311,
	"learning_rate": 1.5256151635510925e-05,
	"loss": 0.6132,
	"step": 2260
	},
	{
	"epoch": 1.1772349272349272,
	"grad_norm": 0.5408355403813135,
	"learning_rate": 1.5230399649823389e-05,
	"loss": 0.6202,
	"step": 2265
	},
	{
	"epoch": 1.17983367983368,
	"grad_norm": 0.5504776040838202,
	"learning_rate": 1.5204599826423108e-05,
	"loss": 0.6121,
	"step": 2270
	},
	{
	"epoch": 1.1824324324324325,
	"grad_norm": 0.5337013368651256,
	"learning_rate": 1.5178752401277628e-05,
	"loss": 0.616,
	"step": 2275
	},
	{
	"epoch": 1.185031185031185,
	"grad_norm": 0.562149132935065,
	"learning_rate": 1.5152857610789854e-05,
	"loss": 0.6097,
	"step": 2280
	},
	{
	"epoch": 1.1876299376299375,
	"grad_norm": 0.5909197735161369,
	"learning_rate": 1.5126915691795905e-05,
	"loss": 0.6188,
	"step": 2285
	},
	{
	"epoch": 1.1902286902286903,
	"grad_norm": 0.5535938243322149,
	"learning_rate": 1.5100926881562936e-05,
	"loss": 0.6137,
	"step": 2290
	},
	{
	"epoch": 1.1928274428274428,
	"grad_norm": 0.544767406909682,
	"learning_rate": 1.5074891417786993e-05,
	"loss": 0.6133,
	"step": 2295
	},
	{
	"epoch": 1.1954261954261955,
	"grad_norm": 0.5459850942463099,
	"learning_rate": 1.5048809538590789e-05,
	"loss": 0.613,
	"step": 2300
	},
	{
	"epoch": 1.198024948024948,
	"grad_norm": 0.5873358493955128,
	"learning_rate": 1.5022681482521579e-05,
	"loss": 0.6156,
	"step": 2305
	},
	{
	"epoch": 1.2006237006237006,
	"grad_norm": 0.5644324461104552,
	"learning_rate": 1.499650748854895e-05,
	"loss": 0.6155,
	"step": 2310
	},
	{
	"epoch": 1.2032224532224531,
	"grad_norm": 0.5531535214490884,
	"learning_rate": 1.4970287796062642e-05,
	"loss": 0.6191,
	"step": 2315
	},
	{
	"epoch": 1.2058212058212059,
	"grad_norm": 0.5509179294326446,
	"learning_rate": 1.494402264487035e-05,
	"loss": 0.614,
	"step": 2320
	},
	{
	"epoch": 1.2084199584199584,
	"grad_norm": 0.5585470168515849,
	"learning_rate": 1.491771227519555e-05,
	"loss": 0.6139,
	"step": 2325
	},
	{
	"epoch": 1.211018711018711,
	"grad_norm": 0.5129593419686834,
	"learning_rate": 1.4891356927675284e-05,
	"loss": 0.6089,
	"step": 2330
	},
	{
	"epoch": 1.2136174636174637,
	"grad_norm": 0.5920443075253277,
	"learning_rate": 1.4864956843357967e-05,
	"loss": 0.63,
	"step": 2335
	},
	{
	"epoch": 1.2162162162162162,
	"grad_norm": 0.5559902991412571,
	"learning_rate": 1.4838512263701184e-05,
	"loss": 0.6228,
	"step": 2340
	},
	{
	"epoch": 1.2188149688149688,
	"grad_norm": 0.5643995055948857,
	"learning_rate": 1.4812023430569467e-05,
	"loss": 0.619,
	"step": 2345
	},
	{
	"epoch": 1.2214137214137215,
	"grad_norm": 0.5742853786867631,
	"learning_rate": 1.4785490586232108e-05,
	"loss": 0.6245,
	"step": 2350
	},
	{
	"epoch": 1.224012474012474,
	"grad_norm": 0.5778953782438334,
	"learning_rate": 1.4758913973360919e-05,
	"loss": 0.6227,
	"step": 2355
	},
	{
	"epoch": 1.2266112266112266,
	"grad_norm": 0.5925914426786582,
	"learning_rate": 1.4732293835028038e-05,
	"loss": 0.6107,
	"step": 2360
	},
	{
	"epoch": 1.2292099792099793,
	"grad_norm": 0.5895371651072315,
	"learning_rate": 1.4705630414703669e-05,
	"loss": 0.6057,
	"step": 2365
	},
	{
	"epoch": 1.2318087318087318,
	"grad_norm": 0.6081772444953167,
	"learning_rate": 1.4678923956253894e-05,
	"loss": 0.6424,
	"step": 2370
	},
	{
	"epoch": 1.2344074844074844,
	"grad_norm": 0.5933961879145944,
	"learning_rate": 1.4652174703938422e-05,
	"loss": 0.6128,
	"step": 2375
	},
	{
	"epoch": 1.237006237006237,
	"grad_norm": 0.6054620771138413,
	"learning_rate": 1.4625382902408356e-05,
	"loss": 0.6084,
	"step": 2380
	},
	{
	"epoch": 1.2396049896049897,
	"grad_norm": 0.5776932281070712,
	"learning_rate": 1.4598548796703953e-05,
	"loss": 0.6217,
	"step": 2385
	},
	{
	"epoch": 1.2422037422037422,
	"grad_norm": 0.5591153237371339,
	"learning_rate": 1.4571672632252404e-05,
	"loss": 0.6059,
	"step": 2390
	},
	{
	"epoch": 1.2448024948024947,
	"grad_norm": 0.5667751253010028,
	"learning_rate": 1.4544754654865553e-05,
	"loss": 0.6269,
	"step": 2395
	},
	{
	"epoch": 1.2474012474012475,
	"grad_norm": 0.5510576618147843,
	"learning_rate": 1.4517795110737687e-05,
	"loss": 0.6175,
	"step": 2400
	},
	{
	"epoch": 1.25,
	"grad_norm": 0.5653685584114336,
	"learning_rate": 1.4490794246443249e-05,
	"loss": 0.6141,
	"step": 2405
	},
	{
	"epoch": 1.2525987525987525,
	"grad_norm": 0.569054506821339,
	"learning_rate": 1.446375230893462e-05,
	"loss": 0.6132,
	"step": 2410
	},
	{
	"epoch": 1.255197505197505,
	"grad_norm": 0.5530850077073164,
	"learning_rate": 1.4436669545539824e-05,
	"loss": 0.6112,
	"step": 2415
	},
	{
	"epoch": 1.2577962577962578,
	"grad_norm": 0.5413151446394687,
	"learning_rate": 1.4409546203960284e-05,
	"loss": 0.6032,
	"step": 2420
	},
	{
	"epoch": 1.2603950103950103,
	"grad_norm": 0.5230951552758679,
	"learning_rate": 1.4382382532268566e-05,
	"loss": 0.6144,
	"step": 2425
	},
	{
	"epoch": 1.262993762993763,
	"grad_norm": 0.541771918919958,
	"learning_rate": 1.4355178778906085e-05,
	"loss": 0.6234,
	"step": 2430
	},
	{
	"epoch": 1.2655925155925156,
	"grad_norm": 0.5203001197628181,
	"learning_rate": 1.4327935192680857e-05,
	"loss": 0.6045,
	"step": 2435
	},
	{
	"epoch": 1.2681912681912682,
	"grad_norm": 0.5440655504089812,
	"learning_rate": 1.4300652022765207e-05,
	"loss": 0.6139,
	"step": 2440
	},
	{
	"epoch": 1.2707900207900207,
	"grad_norm": 0.6149133483770466,
	"learning_rate": 1.4273329518693497e-05,
	"loss": 0.6145,
	"step": 2445
	},
	{
	"epoch": 1.2733887733887734,
	"grad_norm": 0.6021509402407774,
	"learning_rate": 1.4245967930359848e-05,
	"loss": 0.6159,
	"step": 2450
	},
	{
	"epoch": 1.275987525987526,
	"grad_norm": 0.5913158357105107,
	"learning_rate": 1.4218567508015841e-05,
	"loss": 0.6168,
	"step": 2455
	},
	{
	"epoch": 1.2785862785862787,
	"grad_norm": 0.5618432626028342,
	"learning_rate": 1.4191128502268242e-05,
	"loss": 0.6152,
	"step": 2460
	},
	{
	"epoch": 1.2811850311850312,
	"grad_norm": 0.5249984782845095,
	"learning_rate": 1.4163651164076705e-05,
	"loss": 0.6086,
	"step": 2465
	},
	{
	"epoch": 1.2837837837837838,
	"grad_norm": 0.5672830278319703,
	"learning_rate": 1.4136135744751468e-05,
	"loss": 0.6114,
	"step": 2470
	},
	{
	"epoch": 1.2863825363825363,
	"grad_norm": 0.5682891875562709,
	"learning_rate": 1.4108582495951077e-05,
	"loss": 0.6148,
	"step": 2475
	},
	{
	"epoch": 1.288981288981289,
	"grad_norm": 0.5615341097983116,
	"learning_rate": 1.408099166968005e-05,
	"loss": 0.6111,
	"step": 2480
	},
	{
	"epoch": 1.2915800415800416,
	"grad_norm": 0.5497563938968811,
	"learning_rate": 1.4053363518286613e-05,
	"loss": 0.6088,
	"step": 2485
	},
	{
	"epoch": 1.2941787941787941,
	"grad_norm": 0.5582405570031684,
	"learning_rate": 1.4025698294460362e-05,
	"loss": 0.6136,
	"step": 2490
	},
	{
	"epoch": 1.2967775467775469,
	"grad_norm": 0.6011380118880273,
	"learning_rate": 1.3997996251229948e-05,
	"loss": 0.6186,
	"step": 2495
	},
	{
	"epoch": 1.2993762993762994,
	"grad_norm": 0.5496562610843831,
	"learning_rate": 1.3970257641960795e-05,
	"loss": 0.6182,
	"step": 2500
	},
	{
	"epoch": 1.301975051975052,
	"grad_norm": 0.5687796275549053,
	"learning_rate": 1.3942482720352761e-05,
	"loss": 0.6157,
	"step": 2505
	},
	{
	"epoch": 1.3045738045738045,
	"grad_norm": 0.574298920577317,
	"learning_rate": 1.3914671740437811e-05,
	"loss": 0.6136,
	"step": 2510
	},
	{
	"epoch": 1.3071725571725572,
	"grad_norm": 0.5542768495449328,
	"learning_rate": 1.3886824956577702e-05,
	"loss": 0.6031,
	"step": 2515
	},
	{
	"epoch": 1.3097713097713097,
	"grad_norm": 0.5666521327715712,
	"learning_rate": 1.3858942623461664e-05,
	"loss": 0.6062,
	"step": 2520
	},
	{
	"epoch": 1.3123700623700625,
	"grad_norm": 0.5383202751991224,
	"learning_rate": 1.3831024996104065e-05,
	"loss": 0.6119,
	"step": 2525
	},
	{
	"epoch": 1.314968814968815,
	"grad_norm": 0.550924324768737,
	"learning_rate": 1.3803072329842073e-05,
	"loss": 0.6218,
	"step": 2530
	},
	{
	"epoch": 1.3175675675675675,
	"grad_norm": 0.5715325257279636,
	"learning_rate": 1.3775084880333323e-05,
	"loss": 0.6197,
	"step": 2535
	},
	{
	"epoch": 1.32016632016632,
	"grad_norm": 0.5516314324953223,
	"learning_rate": 1.3747062903553582e-05,
	"loss": 0.5983,
	"step": 2540
	},
	{
	"epoch": 1.3227650727650728,
	"grad_norm": 0.5587681122677882,
	"learning_rate": 1.3719006655794414e-05,
	"loss": 0.6104,
	"step": 2545
	},
	{
	"epoch": 1.3253638253638254,
	"grad_norm": 0.5529619265877077,
	"learning_rate": 1.3690916393660815e-05,
	"loss": 0.6232,
	"step": 2550
	},
	{
	"epoch": 1.3279625779625779,
	"grad_norm": 0.6007892832321496,
	"learning_rate": 1.3662792374068896e-05,
	"loss": 0.6246,
	"step": 2555
	},
	{
	"epoch": 1.3305613305613306,
	"grad_norm": 0.5102078314524738,
	"learning_rate": 1.3634634854243503e-05,
	"loss": 0.6037,
	"step": 2560
	},
	{
	"epoch": 1.3331600831600832,
	"grad_norm": 0.5068981925325898,
	"learning_rate": 1.3606444091715883e-05,
	"loss": 0.6056,
	"step": 2565
	},
	{
	"epoch": 1.3357588357588357,
	"grad_norm": 0.5201200155890484,
	"learning_rate": 1.3578220344321325e-05,
	"loss": 0.6088,
	"step": 2570
	},
	{
	"epoch": 1.3383575883575882,
	"grad_norm": 0.5411417638449072,
	"learning_rate": 1.3549963870196796e-05,
	"loss": 0.606,
	"step": 2575
	},
	{
	"epoch": 1.340956340956341,
	"grad_norm": 0.5169808096315553,
	"learning_rate": 1.3521674927778594e-05,
	"loss": 0.6278,
	"step": 2580
	},
	{
	"epoch": 1.3435550935550935,
	"grad_norm": 0.5658934679962141,
	"learning_rate": 1.3493353775799967e-05,
	"loss": 0.6067,
	"step": 2585
	},
	{
	"epoch": 1.3461538461538463,
	"grad_norm": 0.5724238241800808,
	"learning_rate": 1.3465000673288757e-05,
	"loss": 0.6003,
	"step": 2590
	},
	{
	"epoch": 1.3487525987525988,
	"grad_norm": 0.6105368545978801,
	"learning_rate": 1.3436615879565025e-05,
	"loss": 0.616,
	"step": 2595
	},
	{
	"epoch": 1.3513513513513513,
	"grad_norm": 0.5188576936304327,
	"learning_rate": 1.340819965423869e-05,
	"loss": 0.6283,
	"step": 2600
	},
	{
	"epoch": 1.3539501039501038,
	"grad_norm": 0.4959836182939828,
	"learning_rate": 1.3379752257207144e-05,
	"loss": 0.6157,
	"step": 2605
	},
	{
	"epoch": 1.3565488565488566,
	"grad_norm": 0.5769448388897034,
	"learning_rate": 1.3351273948652872e-05,
	"loss": 0.6133,
	"step": 2610
	},
	{
	"epoch": 1.3591476091476091,
	"grad_norm": 0.5647777721810548,
	"learning_rate": 1.3322764989041086e-05,
	"loss": 0.6047,
	"step": 2615
	},
	{
	"epoch": 1.3617463617463619,
	"grad_norm": 0.5362269489941972,
	"learning_rate": 1.329422563911734e-05,
	"loss": 0.6244,
	"step": 2620
	},
	{
	"epoch": 1.3643451143451144,
	"grad_norm": 0.5876277649004987,
	"learning_rate": 1.326565615990513e-05,
	"loss": 0.6094,
	"step": 2625
	},
	{
	"epoch": 1.366943866943867,
	"grad_norm": 0.5771702605216373,
	"learning_rate": 1.3237056812703517e-05,
	"loss": 0.6162,
	"step": 2630
	},
	{
	"epoch": 1.3695426195426195,
	"grad_norm": 0.5206111176210121,
	"learning_rate": 1.3208427859084743e-05,
	"loss": 0.5991,
	"step": 2635
	},
	{
	"epoch": 1.3721413721413722,
	"grad_norm": 0.5703420517094763,
	"learning_rate": 1.3179769560891837e-05,
	"loss": 0.6158,
	"step": 2640
	},
	{
	"epoch": 1.3747401247401247,
	"grad_norm": 0.5075630462180919,
	"learning_rate": 1.315108218023621e-05,
	"loss": 0.6157,
	"step": 2645
	},
	{
	"epoch": 1.3773388773388773,
	"grad_norm": 0.5278204198500884,
	"learning_rate": 1.3122365979495259e-05,
	"loss": 0.611,
	"step": 2650
	},
	{
	"epoch": 1.37993762993763,
	"grad_norm": 0.5830494022632724,
	"learning_rate": 1.3093621221309982e-05,
	"loss": 0.6226,
	"step": 2655
	},
	{
	"epoch": 1.3825363825363826,
	"grad_norm": 0.5567019594449695,
	"learning_rate": 1.3064848168582562e-05,
	"loss": 0.6128,
	"step": 2660
	},
	{
	"epoch": 1.385135135135135,
	"grad_norm": 0.5218600131647313,
	"learning_rate": 1.3036047084473964e-05,
	"loss": 0.6164,
	"step": 2665
	},
	{
	"epoch": 1.3877338877338876,
	"grad_norm": 0.5550941890937359,
	"learning_rate": 1.3007218232401535e-05,
	"loss": 0.6178,
	"step": 2670
	},
	{
	"epoch": 1.3903326403326404,
	"grad_norm": 0.5140778619937807,
	"learning_rate": 1.2978361876036586e-05,
	"loss": 0.6015,
	"step": 2675
	},
	{
	"epoch": 1.392931392931393,
	"grad_norm": 0.5704426484745836,
	"learning_rate": 1.2949478279301993e-05,
	"loss": 0.6218,
	"step": 2680
	},
	{
	"epoch": 1.3955301455301456,
	"grad_norm": 0.573333768381573,
	"learning_rate": 1.292056770636976e-05,
	"loss": 0.6195,
	"step": 2685
	},
	{
	"epoch": 1.3981288981288982,
	"grad_norm": 0.5463535484803559,
	"learning_rate": 1.2891630421658631e-05,
	"loss": 0.619,
	"step": 2690
	},
	{
	"epoch": 1.4007276507276507,
	"grad_norm": 0.5239768140578435,
	"learning_rate": 1.2862666689831655e-05,
	"loss": 0.5988,
	"step": 2695
	},
	{
	"epoch": 1.4033264033264032,
	"grad_norm": 0.5254212957357791,
	"learning_rate": 1.2833676775793766e-05,
	"loss": 0.6089,
	"step": 2700
	},
	{
	"epoch": 1.405925155925156,
	"grad_norm": 0.4999540179579075,
	"learning_rate": 1.2804660944689368e-05,
	"loss": 0.6161,
	"step": 2705
	},
	{
	"epoch": 1.4085239085239085,
	"grad_norm": 0.5566115132096349,
	"learning_rate": 1.2775619461899896e-05,
	"loss": 0.6182,
	"step": 2710
	},
	{
	"epoch": 1.411122661122661,
	"grad_norm": 0.5740812598543206,
	"learning_rate": 1.2746552593041405e-05,
	"loss": 0.598,
	"step": 2715
	},
	{
	"epoch": 1.4137214137214138,
	"grad_norm": 0.5437551314682787,
	"learning_rate": 1.2717460603962132e-05,
	"loss": 0.609,
	"step": 2720
	},
	{
	"epoch": 1.4163201663201663,
	"grad_norm": 0.527003171395807,
	"learning_rate": 1.268834376074007e-05,
	"loss": 0.6097,
	"step": 2725
	},
	{
	"epoch": 1.4189189189189189,
	"grad_norm": 0.5151895053958203,
	"learning_rate": 1.2659202329680515e-05,
	"loss": 0.6223,
	"step": 2730
	},
	{
	"epoch": 1.4215176715176714,
	"grad_norm": 0.5220435941255479,
	"learning_rate": 1.2630036577313667e-05,
	"loss": 0.6273,
	"step": 2735
	},
	{
	"epoch": 1.4241164241164241,
	"grad_norm": 0.5541408035311566,
	"learning_rate": 1.2600846770392155e-05,
	"loss": 0.6115,
	"step": 2740
	},
	{
	"epoch": 1.4267151767151767,
	"grad_norm": 0.5183266262374772,
	"learning_rate": 1.2571633175888618e-05,
	"loss": 0.6098,
	"step": 2745
	},
	{
	"epoch": 1.4293139293139294,
	"grad_norm": 0.5467945168613629,
	"learning_rate": 1.2542396060993256e-05,
	"loss": 0.6129,
	"step": 2750
	},
	{
	"epoch": 1.431912681912682,
	"grad_norm": 0.5408402850999704,
	"learning_rate": 1.2513135693111399e-05,
	"loss": 0.6113,
	"step": 2755
	},
	{
	"epoch": 1.4345114345114345,
	"grad_norm": 0.5481669387572653,
	"learning_rate": 1.2483852339861033e-05,
	"loss": 0.6032,
	"step": 2760
	},
	{
	"epoch": 1.437110187110187,
	"grad_norm": 0.5292679934908046,
	"learning_rate": 1.2454546269070392e-05,
	"loss": 0.6037,
	"step": 2765
	},
	{
	"epoch": 1.4397089397089398,
	"grad_norm": 0.5744822983902161,
	"learning_rate": 1.2425217748775464e-05,
	"loss": 0.6099,
	"step": 2770
	},
	{
	"epoch": 1.4423076923076923,
	"grad_norm": 0.5030366381929183,
	"learning_rate": 1.239586704721758e-05,
	"loss": 0.6067,
	"step": 2775
	},
	{
	"epoch": 1.444906444906445,
	"grad_norm": 0.5833985268491657,
	"learning_rate": 1.2366494432840937e-05,
	"loss": 0.6039,
	"step": 2780
	},
	{
	"epoch": 1.4475051975051976,
	"grad_norm": 0.5747742162047574,
	"learning_rate": 1.2337100174290142e-05,
	"loss": 0.6101,
	"step": 2785
	},
	{
	"epoch": 1.45010395010395,
	"grad_norm": 0.5356407427398536,
	"learning_rate": 1.2307684540407775e-05,
	"loss": 0.6055,
	"step": 2790
	},
	{
	"epoch": 1.4527027027027026,
	"grad_norm": 0.5413902409510034,
	"learning_rate": 1.2278247800231901e-05,
	"loss": 0.6162,
	"step": 2795
	},
	{
	"epoch": 1.4553014553014554,
	"grad_norm": 0.5361345781691861,
	"learning_rate": 1.2248790222993639e-05,
	"loss": 0.6132,
	"step": 2800
	},
	{
	"epoch": 1.457900207900208,
	"grad_norm": 0.48977234406410547,
	"learning_rate": 1.221931207811468e-05,
	"loss": 0.619,
	"step": 2805
	},
	{
	"epoch": 1.4604989604989604,
	"grad_norm": 0.5539199421254352,
	"learning_rate": 1.2189813635204825e-05,
	"loss": 0.6034,
	"step": 2810
	},
	{
	"epoch": 1.4630977130977132,
	"grad_norm": 0.5274980068953669,
	"learning_rate": 1.2160295164059529e-05,
	"loss": 0.6076,
	"step": 2815
	},
	{
	"epoch": 1.4656964656964657,
	"grad_norm": 0.5081900105077334,
	"learning_rate": 1.2130756934657424e-05,
	"loss": 0.6097,
	"step": 2820
	},
	{
	"epoch": 1.4682952182952183,
	"grad_norm": 0.5619754096937638,
	"learning_rate": 1.210119921715785e-05,
	"loss": 0.6156,
	"step": 2825
	},
	{
	"epoch": 1.4708939708939708,
	"grad_norm": 0.5058475060346515,
	"learning_rate": 1.2071622281898394e-05,
	"loss": 0.6119,
	"step": 2830
	},
	{
	"epoch": 1.4734927234927235,
	"grad_norm": 0.528937107568451,
	"learning_rate": 1.2042026399392403e-05,
	"loss": 0.6034,
	"step": 2835
	},
	{
	"epoch": 1.476091476091476,
	"grad_norm": 0.5585222059699902,
	"learning_rate": 1.2012411840326524e-05,
	"loss": 0.6122,
	"step": 2840
	},
	{
	"epoch": 1.4786902286902288,
	"grad_norm": 0.5474471042332577,
	"learning_rate": 1.1982778875558215e-05,
	"loss": 0.5978,
	"step": 2845
	},
	{
	"epoch": 1.4812889812889813,
	"grad_norm": 0.5637920526811849,
	"learning_rate": 1.1953127776113279e-05,
	"loss": 0.6097,
	"step": 2850
	},
	{
	"epoch": 1.4838877338877339,
	"grad_norm": 0.5153160827226365,
	"learning_rate": 1.192345881318338e-05,
	"loss": 0.6065,
	"step": 2855
	},
	{
	"epoch": 1.4864864864864864,
	"grad_norm": 0.5089185825931368,
	"learning_rate": 1.1893772258123554e-05,
	"loss": 0.5955,
	"step": 2860
	},
	{
	"epoch": 1.4890852390852392,
	"grad_norm": 0.5284121779832783,
	"learning_rate": 1.1864068382449756e-05,
	"loss": 0.6088,
	"step": 2865
	},
	{
	"epoch": 1.4916839916839917,
	"grad_norm": 0.5231059878227796,
	"learning_rate": 1.1834347457836337e-05,
	"loss": 0.5976,
	"step": 2870
	},
	{
	"epoch": 1.4942827442827442,
	"grad_norm": 0.5517740731632155,
	"learning_rate": 1.180460975611359e-05,
	"loss": 0.613,
	"step": 2875
	},
	{
	"epoch": 1.496881496881497,
	"grad_norm": 0.46831838517285146,
	"learning_rate": 1.1774855549265245e-05,
	"loss": 0.6053,
	"step": 2880
	},
	{
	"epoch": 1.4994802494802495,
	"grad_norm": 0.527557394883835,
	"learning_rate": 1.1745085109426002e-05,
	"loss": 0.6174,
	"step": 2885
	},
	{
	"epoch": 1.502079002079002,
	"grad_norm": 0.5200048942038921,
	"learning_rate": 1.171529870887902e-05,
	"loss": 0.6066,
	"step": 2890
	},
	{
	"epoch": 1.5046777546777546,
	"grad_norm": 0.5460408265611407,
	"learning_rate": 1.1685496620053434e-05,
	"loss": 0.6122,
	"step": 2895
	},
	{
	"epoch": 1.5072765072765073,
	"grad_norm": 0.5171487101859985,
	"learning_rate": 1.165567911552187e-05,
	"loss": 0.607,
	"step": 2900
	},
	{
	"epoch": 1.5098752598752598,
	"grad_norm": 0.5082429135678129,
	"learning_rate": 1.1625846467997952e-05,
	"loss": 0.6118,
	"step": 2905
	},
	{
	"epoch": 1.5124740124740126,
	"grad_norm": 0.536744119246903,
	"learning_rate": 1.1595998950333794e-05,
	"loss": 0.6228,
	"step": 2910
	},
	{
	"epoch": 1.5150727650727651,
	"grad_norm": 0.5540864582315153,
	"learning_rate": 1.1566136835517518e-05,
	"loss": 0.6085,
	"step": 2915
	},
	{
	"epoch": 1.5176715176715176,
	"grad_norm": 0.5480519199954694,
	"learning_rate": 1.1536260396670753e-05,
	"loss": 0.6038,
	"step": 2920
	},
	{
	"epoch": 1.5202702702702702,
	"grad_norm": 0.5320678068411181,
	"learning_rate": 1.1506369907046135e-05,
	"loss": 0.6027,
	"step": 2925
	},
	{
	"epoch": 1.5228690228690227,
	"grad_norm": 0.5559206845902772,
	"learning_rate": 1.1476465640024814e-05,
	"loss": 0.6082,
	"step": 2930
	},
	{
	"epoch": 1.5254677754677755,
	"grad_norm": 0.5919814949422626,
	"learning_rate": 1.1446547869113944e-05,
	"loss": 0.5897,
	"step": 2935
	},
	{
	"epoch": 1.5280665280665282,
	"grad_norm": 0.5327268055659626,
	"learning_rate": 1.1416616867944192e-05,
	"loss": 0.611,
	"step": 2940
	},
	{
	"epoch": 1.5306652806652807,
	"grad_norm": 0.4971186426325191,
	"learning_rate": 1.1386672910267225e-05,
	"loss": 0.6101,
	"step": 2945
	},
	{
	"epoch": 1.5332640332640333,
	"grad_norm": 0.5640128227568957,
	"learning_rate": 1.1356716269953213e-05,
	"loss": 0.6199,
	"step": 2950
	},
	{
	"epoch": 1.5358627858627858,
	"grad_norm": 0.5179662541283063,
	"learning_rate": 1.1326747220988327e-05,
	"loss": 0.6202,
	"step": 2955
	},
	{
	"epoch": 1.5384615384615383,
	"grad_norm": 0.6423145905392057,
	"learning_rate": 1.1296766037472223e-05,
	"loss": 0.6144,
	"step": 2960
	},
	{
	"epoch": 1.541060291060291,
	"grad_norm": 0.5256505864598588,
	"learning_rate": 1.1266772993615543e-05,
	"loss": 0.6066,
	"step": 2965
	},
	{
	"epoch": 1.5436590436590436,
	"grad_norm": 0.5209882272221003,
	"learning_rate": 1.1236768363737408e-05,
	"loss": 0.613,
	"step": 2970
	},
	{
	"epoch": 1.5462577962577964,
	"grad_norm": 0.5139682181751073,
	"learning_rate": 1.120675242226289e-05,
	"loss": 0.6195,
	"step": 2975
	},
	{
	"epoch": 1.5488565488565489,
	"grad_norm": 0.5285679185697464,
	"learning_rate": 1.1176725443720545e-05,
	"loss": 0.6074,
	"step": 2980
	},
	{
	"epoch": 1.5514553014553014,
	"grad_norm": 0.5176763822468469,
	"learning_rate": 1.1146687702739855e-05,
	"loss": 0.6225,
	"step": 2985
	},
	{
	"epoch": 1.554054054054054,
	"grad_norm": 0.5346252383786081,
	"learning_rate": 1.1116639474048741e-05,
	"loss": 0.5955,
	"step": 2990
	},
	{
	"epoch": 1.5566528066528067,
	"grad_norm": 0.5246377509399082,
	"learning_rate": 1.108658103247104e-05,
	"loss": 0.6075,
	"step": 2995
	},
	{
	"epoch": 1.5592515592515592,
	"grad_norm": 0.5852349160305579,
	"learning_rate": 1.1056512652924014e-05,
	"loss": 0.6102,
	"step": 3000
	},
	{
	"epoch": 1.561850311850312,
	"grad_norm": 0.5540954218703817,
	"learning_rate": 1.1026434610415804e-05,
	"loss": 0.6073,
	"step": 3005
	},
	{
	"epoch": 1.5644490644490645,
	"grad_norm": 0.516164831755444,
	"learning_rate": 1.099634718004293e-05,
	"loss": 0.6144,
	"step": 3010
	},
	{
	"epoch": 1.567047817047817,
	"grad_norm": 0.5238437043105261,
	"learning_rate": 1.0966250636987776e-05,
	"loss": 0.61,
	"step": 3015
	},
	{
	"epoch": 1.5696465696465696,
	"grad_norm": 0.5499703346154395,
	"learning_rate": 1.093614525651608e-05,
	"loss": 0.6,
	"step": 3020
	},
	{
	"epoch": 1.572245322245322,
	"grad_norm": 0.5392038397492541,
	"learning_rate": 1.0906031313974392e-05,
	"loss": 0.6004,
	"step": 3025
	},
	{
	"epoch": 1.5748440748440748,
	"grad_norm": 0.5440366683585401,
	"learning_rate": 1.0875909084787586e-05,
	"loss": 0.6079,
	"step": 3030
	},
	{
	"epoch": 1.5774428274428276,
	"grad_norm": 0.5280604613144251,
	"learning_rate": 1.0845778844456319e-05,
	"loss": 0.6028,
	"step": 3035
	},
	{
	"epoch": 1.5800415800415801,
	"grad_norm": 0.5130988979787711,
	"learning_rate": 1.0815640868554518e-05,
	"loss": 0.6255,
	"step": 3040
	},
	{
	"epoch": 1.5826403326403327,
	"grad_norm": 0.5347614455862642,
	"learning_rate": 1.0785495432726864e-05,
	"loss": 0.6144,
	"step": 3045
	},
	{
	"epoch": 1.5852390852390852,
	"grad_norm": 0.5540466808635207,
	"learning_rate": 1.0755342812686264e-05,
	"loss": 0.618,
	"step": 3050
	},
	{
	"epoch": 1.5878378378378377,
	"grad_norm": 0.5158267468916651,
	"learning_rate": 1.0725183284211335e-05,
	"loss": 0.6054,
	"step": 3055
	},
	{
	"epoch": 1.5904365904365905,
	"grad_norm": 0.5235550308126831,
	"learning_rate": 1.0695017123143881e-05,
	"loss": 0.6113,
	"step": 3060
	},
	{
	"epoch": 1.593035343035343,
	"grad_norm": 0.49676274074318394,
	"learning_rate": 1.0664844605386357e-05,
	"loss": 0.6066,
	"step": 3065
	},
	{
	"epoch": 1.5956340956340958,
	"grad_norm": 0.5091724259037824,
	"learning_rate": 1.0634666006899375e-05,
	"loss": 0.6059,
	"step": 3070
	},
	{
	"epoch": 1.5982328482328483,
	"grad_norm": 0.5308888501073562,
	"learning_rate": 1.0604481603699146e-05,
	"loss": 0.6077,
	"step": 3075
	},
	{
	"epoch": 1.6008316008316008,
	"grad_norm": 0.5668118121411413,
	"learning_rate": 1.0574291671854979e-05,
	"loss": 0.6119,
	"step": 3080
	},
	{
	"epoch": 1.6034303534303533,
	"grad_norm": 0.5232440524467463,
	"learning_rate": 1.054409648748675e-05,
	"loss": 0.6132,
	"step": 3085
	},
	{
	"epoch": 1.6060291060291059,
	"grad_norm": 0.5326956732038823,
	"learning_rate": 1.0513896326762363e-05,
	"loss": 0.5957,
	"step": 3090
	},
	{
	"epoch": 1.6086278586278586,
	"grad_norm": 0.5376136523378364,
	"learning_rate": 1.0483691465895256e-05,
	"loss": 0.5963,
	"step": 3095
	},
	{
	"epoch": 1.6112266112266114,
	"grad_norm": 0.5590406644575509,
	"learning_rate": 1.0453482181141838e-05,
	"loss": 0.6114,
	"step": 3100
	},
	{
	"epoch": 1.613825363825364,
	"grad_norm": 0.5348933441437478,
	"learning_rate": 1.0423268748798992e-05,
	"loss": 0.626,
	"step": 3105
	},
	{
	"epoch": 1.6164241164241164,
	"grad_norm": 0.5587808171684693,
	"learning_rate": 1.0393051445201518e-05,
	"loss": 0.6035,
	"step": 3110
	},
	{
	"epoch": 1.619022869022869,
	"grad_norm": 0.5217308721418593,
	"learning_rate": 1.0362830546719644e-05,
	"loss": 0.6007,
	"step": 3115
	},
	{
	"epoch": 1.6216216216216215,
	"grad_norm": 0.5331440823163403,
	"learning_rate": 1.0332606329756463e-05,
	"loss": 0.6103,
	"step": 3120
	},
	{
	"epoch": 1.6242203742203742,
	"grad_norm": 0.5354516402513061,
	"learning_rate": 1.030237907074542e-05,
	"loss": 0.6021,
	"step": 3125
	},
	{
	"epoch": 1.6268191268191268,
	"grad_norm": 0.5301206175827867,
	"learning_rate": 1.0272149046147788e-05,
	"loss": 0.6032,
	"step": 3130
	},
	{
	"epoch": 1.6294178794178795,
	"grad_norm": 0.5364702146724981,
	"learning_rate": 1.0241916532450133e-05,
	"loss": 0.6107,
	"step": 3135
	},
	{
	"epoch": 1.632016632016632,
	"grad_norm": 0.5030704592075379,
	"learning_rate": 1.0211681806161787e-05,
	"loss": 0.5984,
	"step": 3140
	},
	{
	"epoch": 1.6346153846153846,
	"grad_norm": 0.5001028568491547,
	"learning_rate": 1.0181445143812312e-05,
	"loss": 0.6011,
	"step": 3145
	},
	{
	"epoch": 1.637214137214137,
	"grad_norm": 0.5537298706648461,
	"learning_rate": 1.0151206821948985e-05,
	"loss": 0.6348,
	"step": 3150
	},
	{
	"epoch": 1.6398128898128899,
	"grad_norm": 0.5499538795880998,
	"learning_rate": 1.0120967117134262e-05,
	"loss": 0.6163,
	"step": 3155
	},
	{
	"epoch": 1.6424116424116424,
	"grad_norm": 0.4944029513235786,
	"learning_rate": 1.009072630594324e-05,
	"loss": 0.5997,
	"step": 3160
	},
	{
	"epoch": 1.6450103950103951,
	"grad_norm": 0.5560023248781629,
	"learning_rate": 1.0060484664961136e-05,
	"loss": 0.6066,
	"step": 3165
	},
	{
	"epoch": 1.6476091476091477,
	"grad_norm": 0.5228794932020453,
	"learning_rate": 1.0030242470780769e-05,
	"loss": 0.6049,
	"step": 3170
	},
	{
	"epoch": 1.6502079002079002,
	"grad_norm": 0.5251096124443742,
	"learning_rate": 1e-05,
	"loss": 0.617,
	"step": 3175
	},
	{
	"epoch": 1.6528066528066527,
	"grad_norm": 0.504719489023802,
	"learning_rate": 9.969757529219236e-06,
	"loss": 0.611,
	"step": 3180
	},
	{
	"epoch": 1.6554054054054053,
	"grad_norm": 0.5164130013232197,
	"learning_rate": 9.939515335038866e-06,
	"loss": 0.6071,
	"step": 3185
	},
	{
	"epoch": 1.658004158004158,
	"grad_norm": 0.503984804974549,
	"learning_rate": 9.909273694056765e-06,
	"loss": 0.6098,
	"step": 3190
	},
	{
	"epoch": 1.6606029106029108,
	"grad_norm": 0.5318145254626715,
	"learning_rate": 9.879032882865745e-06,
	"loss": 0.6046,
	"step": 3195
	},
	{
	"epoch": 1.6632016632016633,
	"grad_norm": 0.49979486457828537,
	"learning_rate": 9.848793178051017e-06,
	"loss": 0.5942,
	"step": 3200
	},
	{
	"epoch": 1.6658004158004158,
	"grad_norm": 0.5222561724594693,
	"learning_rate": 9.818554856187692e-06,
	"loss": 0.6102,
	"step": 3205
	},
	{
	"epoch": 1.6683991683991684,
	"grad_norm": 0.5119064608955575,
	"learning_rate": 9.788318193838218e-06,
	"loss": 0.6063,
	"step": 3210
	},
	{
	"epoch": 1.6709979209979209,
	"grad_norm": 0.49188265798150393,
	"learning_rate": 9.758083467549868e-06,
	"loss": 0.6007,
	"step": 3215
	},
	{
	"epoch": 1.6735966735966736,
	"grad_norm": 0.5307992559310489,
	"learning_rate": 9.727850953852217e-06,
	"loss": 0.6037,
	"step": 3220
	},
	{
	"epoch": 1.6761954261954262,
	"grad_norm": 0.5456235977768752,
	"learning_rate": 9.697620929254584e-06,
	"loss": 0.6244,
	"step": 3225
	},
	{
	"epoch": 1.678794178794179,
	"grad_norm": 0.5088649958340964,
	"learning_rate": 9.66739367024354e-06,
	"loss": 0.6042,
	"step": 3230
	},
	{
	"epoch": 1.6813929313929314,
	"grad_norm": 0.4953639561715028,
	"learning_rate": 9.63716945328036e-06,
	"loss": 0.5938,
	"step": 3235
	},
	{
	"epoch": 1.683991683991684,
	"grad_norm": 0.49505908823955036,
	"learning_rate": 9.606948554798482e-06,
	"loss": 0.6144,
	"step": 3240
	},
	{
	"epoch": 1.6865904365904365,
	"grad_norm": 0.5175987592879167,
	"learning_rate": 9.57673125120101e-06,
	"loss": 0.6098,
	"step": 3245
	},
	{
	"epoch": 1.689189189189189,
	"grad_norm": 0.5388656862756696,
	"learning_rate": 9.546517818858164e-06,
	"loss": 0.6171,
	"step": 3250
	},
	{
	"epoch": 1.6917879417879418,
	"grad_norm": 0.5153249162580613,
	"learning_rate": 9.516308534104744e-06,
	"loss": 0.5923,
	"step": 3255
	},
	{
	"epoch": 1.6943866943866945,
	"grad_norm": 0.5185938318204056,
	"learning_rate": 9.486103673237638e-06,
	"loss": 0.589,
	"step": 3260
	},
	{
	"epoch": 1.696985446985447,
	"grad_norm": 0.5735162818769731,
	"learning_rate": 9.455903512513257e-06,
	"loss": 0.6199,
	"step": 3265
	},
	{
	"epoch": 1.6995841995841996,
	"grad_norm": 0.5550865974556703,
	"learning_rate": 9.425708328145023e-06,
	"loss": 0.603,
	"step": 3270
	},
	{
	"epoch": 1.7021829521829521,
	"grad_norm": 0.5656039764802955,
	"learning_rate": 9.395518396300857e-06,
	"loss": 0.6036,
	"step": 3275
	},
	{
	"epoch": 1.7047817047817047,
	"grad_norm": 0.5356649490240522,
	"learning_rate": 9.365333993100628e-06,
	"loss": 0.5951,
	"step": 3280
	},
	{
	"epoch": 1.7073804573804574,
	"grad_norm": 0.5715455882322491,
	"learning_rate": 9.335155394613641e-06,
	"loss": 0.5989,
	"step": 3285
	},
	{
	"epoch": 1.70997920997921,
	"grad_norm": 0.5497264191896297,
	"learning_rate": 9.304982876856124e-06,
	"loss": 0.6058,
	"step": 3290
	},
	{
	"epoch": 1.7125779625779627,
	"grad_norm": 0.5051026018528313,
	"learning_rate": 9.274816715788668e-06,
	"loss": 0.5969,
	"step": 3295
	},
	{
	"epoch": 1.7151767151767152,
	"grad_norm": 0.5204788821196659,
	"learning_rate": 9.244657187313739e-06,
	"loss": 0.611,
	"step": 3300
	},
	{
	"epoch": 1.7177754677754677,
	"grad_norm": 0.48242559624890763,
	"learning_rate": 9.214504567273139e-06,
	"loss": 0.5893,
	"step": 3305
	},
	{
	"epoch": 1.7203742203742203,
	"grad_norm": 0.5475293749782204,
	"learning_rate": 9.184359131445487e-06,
	"loss": 0.6128,
	"step": 3310
	},
	{
	"epoch": 1.722972972972973,
	"grad_norm": 0.5227512974575209,
	"learning_rate": 9.154221155543684e-06,
	"loss": 0.5942,
	"step": 3315
	},
	{
	"epoch": 1.7255717255717256,
	"grad_norm": 0.517359580415827,
	"learning_rate": 9.124090915212415e-06,
	"loss": 0.5995,
	"step": 3320
	},
	{
	"epoch": 1.7281704781704783,
	"grad_norm": 0.5305121769843365,
	"learning_rate": 9.093968686025612e-06,
	"loss": 0.618,
	"step": 3325
	},
	{
	"epoch": 1.7307692307692308,
	"grad_norm": 0.5312713830882955,
	"learning_rate": 9.063854743483924e-06,
	"loss": 0.5929,
	"step": 3330
	},
	{
	"epoch": 1.7333679833679834,
	"grad_norm": 0.5159635712284465,
	"learning_rate": 9.033749363012228e-06,
	"loss": 0.5942,
	"step": 3335
	},
	{
	"epoch": 1.735966735966736,
	"grad_norm": 0.5304955336277648,
	"learning_rate": 9.003652819957073e-06,
	"loss": 0.5955,
	"step": 3340
	},
	{
	"epoch": 1.7385654885654884,
	"grad_norm": 0.5306004926529849,
	"learning_rate": 8.973565389584199e-06,
	"loss": 0.6157,
	"step": 3345
	},
	{
	"epoch": 1.7411642411642412,
	"grad_norm": 0.5287399261745209,
	"learning_rate": 8.943487347075988e-06,
	"loss": 0.5867,
	"step": 3350
	},
	{
	"epoch": 1.743762993762994,
	"grad_norm": 0.5230774773864855,
	"learning_rate": 8.91341896752896e-06,
	"loss": 0.5894,
	"step": 3355
	},
	{
	"epoch": 1.7463617463617465,
	"grad_norm": 0.5155471622168707,
	"learning_rate": 8.883360525951264e-06,
	"loss": 0.5958,
	"step": 3360
	},
	{
	"epoch": 1.748960498960499,
	"grad_norm": 0.5133214239778116,
	"learning_rate": 8.85331229726015e-06,
	"loss": 0.5935,
	"step": 3365
	},
	{
	"epoch": 1.7515592515592515,
	"grad_norm": 0.5319975207166266,
	"learning_rate": 8.823274556279455e-06,
	"loss": 0.5934,
	"step": 3370
	},
	{
	"epoch": 1.754158004158004,
	"grad_norm": 0.5364931909740585,
	"learning_rate": 8.793247577737112e-06,
	"loss": 0.6055,
	"step": 3375
	},
	{
	"epoch": 1.7567567567567568,
	"grad_norm": 0.5093682789742844,
	"learning_rate": 8.763231636262599e-06,
	"loss": 0.5904,
	"step": 3380
	},
	{
	"epoch": 1.7593555093555093,
	"grad_norm": 0.49218365344373355,
	"learning_rate": 8.733227006384459e-06,
	"loss": 0.6045,
	"step": 3385
	},
	{
	"epoch": 1.761954261954262,
	"grad_norm": 0.5463702062588134,
	"learning_rate": 8.703233962527779e-06,
	"loss": 0.6039,
	"step": 3390
	},
	{
	"epoch": 1.7645530145530146,
	"grad_norm": 0.5102092525737645,
	"learning_rate": 8.673252779011676e-06,
	"loss": 0.5887,
	"step": 3395
	},
	{
	"epoch": 1.7671517671517671,
	"grad_norm": 0.5268210778389424,
	"learning_rate": 8.643283730046788e-06,
	"loss": 0.5983,
	"step": 3400
	},
	{
	"epoch": 1.7697505197505197,
	"grad_norm": 0.5098708018226924,
	"learning_rate": 8.61332708973278e-06,
	"loss": 0.6043,
	"step": 3405
	},
	{
	"epoch": 1.7723492723492722,
	"grad_norm": 0.48835524185569673,
	"learning_rate": 8.583383132055814e-06,
	"loss": 0.6107,
	"step": 3410
	},
	{
	"epoch": 1.774948024948025,
	"grad_norm": 0.5701236303096751,
	"learning_rate": 8.55345213088606e-06,
	"loss": 0.6033,
	"step": 3415
	},
	{
	"epoch": 1.7775467775467777,
	"grad_norm": 0.5137867247566509,
	"learning_rate": 8.52353435997519e-06,
	"loss": 0.5988,
	"step": 3420
	},
	{
	"epoch": 1.7801455301455302,
	"grad_norm": 0.5185967787599991,
	"learning_rate": 8.49363009295387e-06,
	"loss": 0.6027,
	"step": 3425
	},
	{
	"epoch": 1.7827442827442828,
	"grad_norm": 0.5232087879326293,
	"learning_rate": 8.46373960332925e-06,
	"loss": 0.5958,
	"step": 3430
	},
	{
	"epoch": 1.7853430353430353,
	"grad_norm": 0.5227750785275999,
	"learning_rate": 8.433863164482485e-06,
	"loss": 0.6087,
	"step": 3435
	},
	{
	"epoch": 1.7879417879417878,
	"grad_norm": 0.4796440456103048,
	"learning_rate": 8.404001049666211e-06,
	"loss": 0.5961,
	"step": 3440
	},
	{
	"epoch": 1.7905405405405406,
	"grad_norm": 0.5114161067261779,
	"learning_rate": 8.37415353200205e-06,
	"loss": 0.5975,
	"step": 3445
	},
	{
	"epoch": 1.793139293139293,
	"grad_norm": 0.5368539216036579,
	"learning_rate": 8.344320884478133e-06,
	"loss": 0.5995,
	"step": 3450
	},
	{
	"epoch": 1.7957380457380459,
	"grad_norm": 0.5251230847938383,
	"learning_rate": 8.314503379946569e-06,
	"loss": 0.5924,
	"step": 3455
	},
	{
	"epoch": 1.7983367983367984,
	"grad_norm": 0.5125606084891738,
	"learning_rate": 8.284701291120984e-06,
	"loss": 0.59,
	"step": 3460
	},
	{
	"epoch": 1.800935550935551,
	"grad_norm": 0.5082724750112706,
	"learning_rate": 8.254914890574001e-06,
	"loss": 0.5783,
	"step": 3465
	},
	{
	"epoch": 1.8035343035343034,
	"grad_norm": 0.5857171673424286,
	"learning_rate": 8.225144450734755e-06,
	"loss": 0.6159,
	"step": 3470
	},
	{
	"epoch": 1.806133056133056,
	"grad_norm": 0.5189085809502059,
	"learning_rate": 8.195390243886414e-06,
	"loss": 0.5876,
	"step": 3475
	},
	{
	"epoch": 1.8087318087318087,
	"grad_norm": 0.5054176942242024,
	"learning_rate": 8.165652542163668e-06,
	"loss": 0.6018,
	"step": 3480
	},
	{
	"epoch": 1.8113305613305615,
	"grad_norm": 0.5245871555142563,
	"learning_rate": 8.135931617550245e-06,
	"loss": 0.607,
	"step": 3485
	},
	{
	"epoch": 1.813929313929314,
	"grad_norm": 0.5240802764153503,
	"learning_rate": 8.106227741876447e-06,
	"loss": 0.6074,
	"step": 3490
	},
	{
	"epoch": 1.8165280665280665,
	"grad_norm": 0.5431345881991243,
	"learning_rate": 8.076541186816625e-06,
	"loss": 0.6002,
	"step": 3495
	},
	{
	"epoch": 1.819126819126819,
	"grad_norm": 0.5192080223913004,
	"learning_rate": 8.046872223886723e-06,
	"loss": 0.6039,
	"step": 3500
	},
	{
	"epoch": 1.8217255717255716,
	"grad_norm": 0.5377132118040553,
	"learning_rate": 8.017221124441787e-06,
	"loss": 0.5866,
	"step": 3505
	},
	{
	"epoch": 1.8243243243243243,
	"grad_norm": 0.4848076231447858,
	"learning_rate": 7.98758815967348e-06,
	"loss": 0.5926,
	"step": 3510
	},
	{
	"epoch": 1.8269230769230769,
	"grad_norm": 0.49613490454069115,
	"learning_rate": 7.957973600607597e-06,
	"loss": 0.6029,
	"step": 3515
	},
	{
	"epoch": 1.8295218295218296,
	"grad_norm": 0.49532299518482037,
	"learning_rate": 7.92837771810161e-06,
	"loss": 0.5893,
	"step": 3520
	},
	{
	"epoch": 1.8321205821205822,
	"grad_norm": 0.5240393625504302,
	"learning_rate": 7.898800782842153e-06,
	"loss": 0.6044,
	"step": 3525
	},
	{
	"epoch": 1.8347193347193347,
	"grad_norm": 0.5378508353167911,
	"learning_rate": 7.86924306534258e-06,
	"loss": 0.5892,
	"step": 3530
	},
	{
	"epoch": 1.8373180873180872,
	"grad_norm": 0.5199976481026775,
	"learning_rate": 7.839704835940473e-06,
	"loss": 0.5982,
	"step": 3535
	},
	{
	"epoch": 1.83991683991684,
	"grad_norm": 0.529729165924642,
	"learning_rate": 7.81018636479518e-06,
	"loss": 0.6012,
	"step": 3540
	},
	{
	"epoch": 1.8425155925155925,
	"grad_norm": 0.4916121082024032,
	"learning_rate": 7.780687921885324e-06,
	"loss": 0.5977,
	"step": 3545
	},
	{
	"epoch": 1.8451143451143452,
	"grad_norm": 0.5575500880550704,
	"learning_rate": 7.751209777006363e-06,
	"loss": 0.6003,
	"step": 3550
	},
	{
	"epoch": 1.8477130977130978,
	"grad_norm": 0.5326362594297853,
	"learning_rate": 7.7217521997681e-06,
	"loss": 0.6039,
	"step": 3555
	},
	{
	"epoch": 1.8503118503118503,
	"grad_norm": 0.6375012050960875,
	"learning_rate": 7.69231545959223e-06,
	"loss": 0.5903,
	"step": 3560
	},
	{
	"epoch": 1.8529106029106028,
	"grad_norm": 0.5127398317219315,
	"learning_rate": 7.66289982570986e-06,
	"loss": 0.6127,
	"step": 3565
	},
	{
	"epoch": 1.8555093555093554,
	"grad_norm": 0.5337342117702417,
	"learning_rate": 7.633505567159068e-06,
	"loss": 0.6106,
	"step": 3570
	},
	{
	"epoch": 1.8581081081081081,
	"grad_norm": 0.5127146513499672,
	"learning_rate": 7.604132952782421e-06,
	"loss": 0.593,
	"step": 3575
	},
	{
	"epoch": 1.8607068607068609,
	"grad_norm": 0.5475181259322507,
	"learning_rate": 7.574782251224541e-06,
	"loss": 0.6087,
	"step": 3580
	},
	{
	"epoch": 1.8633056133056134,
	"grad_norm": 0.5057492212324644,
	"learning_rate": 7.545453730929612e-06,
	"loss": 0.5961,
	"step": 3585
	},
	{
	"epoch": 1.865904365904366,
	"grad_norm": 0.5313703879609416,
	"learning_rate": 7.516147660138968e-06,
	"loss": 0.5826,
	"step": 3590
	},
	{
	"epoch": 1.8685031185031185,
	"grad_norm": 0.5198552151529012,
	"learning_rate": 7.486864306888608e-06,
	"loss": 0.6015,
	"step": 3595
	},
	{
	"epoch": 1.871101871101871,
	"grad_norm": 0.5410281063432927,
	"learning_rate": 7.457603939006745e-06,
	"loss": 0.6033,
	"step": 3600
	},
	{
	"epoch": 1.8737006237006237,
	"grad_norm": 0.5557013181252524,
	"learning_rate": 7.428366824111386e-06,
	"loss": 0.5902,
	"step": 3605
	},
	{
	"epoch": 1.8762993762993763,
	"grad_norm": 0.5633083487264265,
	"learning_rate": 7.399153229607849e-06,
	"loss": 0.6018,
	"step": 3610
	},
	{
	"epoch": 1.878898128898129,
	"grad_norm": 0.48595216285541615,
	"learning_rate": 7.369963422686335e-06,
	"loss": 0.594,
	"step": 3615
	},
	{
	"epoch": 1.8814968814968815,
	"grad_norm": 0.5169705729740565,
	"learning_rate": 7.340797670319488e-06,
	"loss": 0.5899,
	"step": 3620
	},
	{
	"epoch": 1.884095634095634,
	"grad_norm": 0.4970606877334214,
	"learning_rate": 7.311656239259934e-06,
	"loss": 0.6148,
	"step": 3625
	},
	{
	"epoch": 1.8866943866943866,
	"grad_norm": 0.5178433096469348,
	"learning_rate": 7.282539396037868e-06,
	"loss": 0.59,
	"step": 3630
	},
	{
	"epoch": 1.8892931392931391,
	"grad_norm": 0.5085741805913727,
	"learning_rate": 7.253447406958598e-06,
	"loss": 0.5969,
	"step": 3635
	},
	{
	"epoch": 1.8918918918918919,
	"grad_norm": 0.5339633821078309,
	"learning_rate": 7.2243805381001084e-06,
	"loss": 0.6013,
	"step": 3640
	},
	{
	"epoch": 1.8944906444906446,
	"grad_norm": 0.5142299591444427,
	"learning_rate": 7.195339055310635e-06,
	"loss": 0.605,
	"step": 3645
	},
	{
	"epoch": 1.8970893970893972,
	"grad_norm": 0.53012102257086,
	"learning_rate": 7.166323224206236e-06,
	"loss": 0.5934,
	"step": 3650
	},
	{
	"epoch": 1.8996881496881497,
	"grad_norm": 0.5180950494011575,
	"learning_rate": 7.13733331016835e-06,
	"loss": 0.5967,
	"step": 3655
	},
	{
	"epoch": 1.9022869022869022,
	"grad_norm": 0.5183177508817899,
	"learning_rate": 7.108369578341372e-06,
	"loss": 0.5823,
	"step": 3660
	},
	{
	"epoch": 1.9048856548856548,
	"grad_norm": 0.5070875844600755,
	"learning_rate": 7.079432293630244e-06,
	"loss": 0.5956,
	"step": 3665
	},
	{
	"epoch": 1.9074844074844075,
	"grad_norm": 0.6274267217296448,
	"learning_rate": 7.050521720698009e-06,
	"loss": 0.6114,
	"step": 3670
	},
	{
	"epoch": 1.91008316008316,
	"grad_norm": 0.5602574620780145,
	"learning_rate": 7.021638123963415e-06,
	"loss": 0.586,
	"step": 3675
	},
	{
	"epoch": 1.9126819126819128,
	"grad_norm": 0.517425035346988,
	"learning_rate": 6.992781767598467e-06,
	"loss": 0.5937,
	"step": 3680
	},
	{
	"epoch": 1.9152806652806653,
	"grad_norm": 0.49392256995221356,
	"learning_rate": 6.9639529155260355e-06,
	"loss": 0.5893,
	"step": 3685
	},
	{
	"epoch": 1.9178794178794178,
	"grad_norm": 0.5221453351667464,
	"learning_rate": 6.935151831417442e-06,
	"loss": 0.5921,
	"step": 3690
	},
	{
	"epoch": 1.9204781704781704,
	"grad_norm": 0.5437297366337159,
	"learning_rate": 6.906378778690023e-06,
	"loss": 0.5941,
	"step": 3695
	},
	{
	"epoch": 1.9230769230769231,
	"grad_norm": 0.5526585356985603,
	"learning_rate": 6.8776340205047446e-06,
	"loss": 0.5879,
	"step": 3700
	},
	{
	"epoch": 1.9256756756756757,
	"grad_norm": 0.47075169096755787,
	"learning_rate": 6.848917819763794e-06,
	"loss": 0.587,
	"step": 3705
	},
	{
	"epoch": 1.9282744282744284,
	"grad_norm": 0.5318393319444799,
	"learning_rate": 6.8202304391081665e-06,
	"loss": 0.5961,
	"step": 3710
	},
	{
	"epoch": 1.930873180873181,
	"grad_norm": 0.5429244483259561,
	"learning_rate": 6.791572140915258e-06,
	"loss": 0.5972,
	"step": 3715
	},
	{
	"epoch": 1.9334719334719335,
	"grad_norm": 0.7824999181116893,
	"learning_rate": 6.762943187296487e-06,
	"loss": 0.6025,
	"step": 3720
	},
	{
	"epoch": 1.936070686070686,
	"grad_norm": 0.5506609069987528,
	"learning_rate": 6.734343840094877e-06,
	"loss": 0.5935,
	"step": 3725
	},
	{
	"epoch": 1.9386694386694385,
	"grad_norm": 0.5393169028265578,
	"learning_rate": 6.705774360882662e-06,
	"loss": 0.5998,
	"step": 3730
	},
	{
	"epoch": 1.9412681912681913,
	"grad_norm": 0.5196746072745972,
	"learning_rate": 6.677235010958916e-06,
	"loss": 0.6024,
	"step": 3735
	},
	{
	"epoch": 1.943866943866944,
	"grad_norm": 0.5161195299496159,
	"learning_rate": 6.648726051347132e-06,
	"loss": 0.5923,
	"step": 3740
	},
	{
	"epoch": 1.9464656964656966,
	"grad_norm": 0.5385756600061604,
	"learning_rate": 6.6202477427928604e-06,
	"loss": 0.5936,
	"step": 3745
	},
	{
	"epoch": 1.949064449064449,
	"grad_norm": 0.5068176753311672,
	"learning_rate": 6.591800345761313e-06,
	"loss": 0.5857,
	"step": 3750
	},
	{
	"epoch": 1.9516632016632016,
	"grad_norm": 0.5156660031341467,
	"learning_rate": 6.563384120434978e-06,
	"loss": 0.5998,
	"step": 3755
	},
	{
	"epoch": 1.9542619542619541,
	"grad_norm": 0.5915967761576071,
	"learning_rate": 6.5349993267112455e-06,
	"loss": 0.5901,
	"step": 3760
	},
	{
	"epoch": 1.956860706860707,
	"grad_norm": 0.5286753068152813,
	"learning_rate": 6.506646224200036e-06,
	"loss": 0.606,
	"step": 3765
	},
	{
	"epoch": 1.9594594594594594,
	"grad_norm": 0.5510621595391834,
	"learning_rate": 6.4783250722214066e-06,
	"loss": 0.5996,
	"step": 3770
	},
	{
	"epoch": 1.9620582120582122,
	"grad_norm": 0.5050260932024032,
	"learning_rate": 6.450036129803205e-06,
	"loss": 0.5811,
	"step": 3775
	},
	{
	"epoch": 1.9646569646569647,
	"grad_norm": 0.5187426414977963,
	"learning_rate": 6.42177965567868e-06,
	"loss": 0.6012,
	"step": 3780
	},
	{
	"epoch": 1.9672557172557172,
	"grad_norm": 0.5226860354335852,
	"learning_rate": 6.393555908284119e-06,
	"loss": 0.6002,
	"step": 3785
	},
	{
	"epoch": 1.9698544698544698,
	"grad_norm": 0.5394751859696948,
	"learning_rate": 6.3653651457565005e-06,
	"loss": 0.6049,
	"step": 3790
	},
	{
	"epoch": 1.9724532224532223,
	"grad_norm": 0.5041393147335839,
	"learning_rate": 6.337207625931105e-06,
	"loss": 0.5995,
	"step": 3795
	},
	{
	"epoch": 1.975051975051975,
	"grad_norm": 0.533267009949286,
	"learning_rate": 6.309083606339184e-06,
	"loss": 0.5845,
	"step": 3800
	},
	{
	"epoch": 1.9776507276507278,
	"grad_norm": 0.5376844644903337,
	"learning_rate": 6.28099334420559e-06,
	"loss": 0.5889,
	"step": 3805
	},
	{
	"epoch": 1.9802494802494803,
	"grad_norm": 0.5424651587833641,
	"learning_rate": 6.252937096446422e-06,
	"loss": 0.5931,
	"step": 3810
	},
	{
	"epoch": 1.9828482328482329,
	"grad_norm": 0.5323019777176436,
	"learning_rate": 6.224915119666682e-06,
	"loss": 0.6001,
	"step": 3815
	},
	{
	"epoch": 1.9854469854469854,
	"grad_norm": 0.5719566751743559,
	"learning_rate": 6.196927670157931e-06,
	"loss": 0.5969,
	"step": 3820
	},
	{
	"epoch": 1.988045738045738,
	"grad_norm": 0.5144348819478973,
	"learning_rate": 6.168975003895939e-06,
	"loss": 0.6027,
	"step": 3825
	},
	{
	"epoch": 1.9906444906444907,
	"grad_norm": 0.5171213896946363,
	"learning_rate": 6.141057376538338e-06,
	"loss": 0.5986,
	"step": 3830
	},
	{
	"epoch": 1.9932432432432432,
	"grad_norm": 0.5178977499722083,
	"learning_rate": 6.113175043422301e-06,
	"loss": 0.6069,
	"step": 3835
	},
	{
	"epoch": 1.995841995841996,
	"grad_norm": 0.5264478858379251,
	"learning_rate": 6.085328259562195e-06,
	"loss": 0.5939,
	"step": 3840
	},
	{
	"epoch": 1.9984407484407485,
	"grad_norm": 0.49088468990078843,
	"learning_rate": 6.0575172796472405e-06,
	"loss": 0.5899,
	"step": 3845
	},
	{
	"epoch": 2.0,
	"eval_loss": 0.7568330764770508,
	"eval_runtime": 106.5795,
	"eval_samples_per_second": 77.032,
	"eval_steps_per_second": 1.21,
	"step": 3848
	},
	{
	"epoch": 2.001039501039501,
	"grad_norm": 0.6668925862814008,
	"learning_rate": 6.0297423580392055e-06,
	"loss": 0.5449,
	"step": 3850
	},
	{
	"epoch": 2.0036382536382535,
	"grad_norm": 0.6496810654128746,
	"learning_rate": 6.002003748770055e-06,
	"loss": 0.5054,
	"step": 3855
	},
	{
	"epoch": 2.006237006237006,
	"grad_norm": 0.6031011324917133,
	"learning_rate": 5.9743017055396424e-06,
	"loss": 0.508,
	"step": 3860
	},
	{
	"epoch": 2.008835758835759,
	"grad_norm": 0.6010814236947867,
	"learning_rate": 5.9466364817133886e-06,
	"loss": 0.5042,
	"step": 3865
	},
	{
	"epoch": 2.0114345114345116,
	"grad_norm": 0.5728886202402685,
	"learning_rate": 5.9190083303199505e-06,
	"loss": 0.5013,
	"step": 3870
	},
	{
	"epoch": 2.014033264033264,
	"grad_norm": 0.5424146827083851,
	"learning_rate": 5.891417504048926e-06,
	"loss": 0.5075,
	"step": 3875
	},
	{
	"epoch": 2.0166320166320166,
	"grad_norm": 0.5790413975893587,
	"learning_rate": 5.863864255248533e-06,
	"loss": 0.5179,
	"step": 3880
	},
	{
	"epoch": 2.019230769230769,
	"grad_norm": 0.5318824862807435,
	"learning_rate": 5.836348835923299e-06,
	"loss": 0.5068,
	"step": 3885
	},
	{
	"epoch": 2.0218295218295217,
	"grad_norm": 0.550883650215065,
	"learning_rate": 5.808871497731758e-06,
	"loss": 0.4974,
	"step": 3890
	},
	{
	"epoch": 2.024428274428274,
	"grad_norm": 0.5879882582188948,
	"learning_rate": 5.781432491984162e-06,
	"loss": 0.5113,
	"step": 3895
	},
	{
	"epoch": 2.027027027027027,
	"grad_norm": 0.5546832686816904,
	"learning_rate": 5.754032069640153e-06,
	"loss": 0.5063,
	"step": 3900
	},
	{
	"epoch": 2.0296257796257797,
	"grad_norm": 0.5211604329798696,
	"learning_rate": 5.726670481306505e-06,
	"loss": 0.5052,
	"step": 3905
	},
	{
	"epoch": 2.0322245322245323,
	"grad_norm": 0.5455878123275217,
	"learning_rate": 5.699347977234799e-06,
	"loss": 0.5053,
	"step": 3910
	},
	{
	"epoch": 2.034823284823285,
	"grad_norm": 0.5950657410818389,
	"learning_rate": 5.672064807319146e-06,
	"loss": 0.5152,
	"step": 3915
	},
	{
	"epoch": 2.0374220374220373,
	"grad_norm": 0.5858939065311778,
	"learning_rate": 5.644821221093916e-06,
	"loss": 0.5059,
	"step": 3920
	},
	{
	"epoch": 2.04002079002079,
	"grad_norm": 0.5347458170039379,
	"learning_rate": 5.617617467731438e-06,
	"loss": 0.5112,
	"step": 3925
	},
	{
	"epoch": 2.042619542619543,
	"grad_norm": 0.5384308493309783,
	"learning_rate": 5.5904537960397155e-06,
	"loss": 0.4975,
	"step": 3930
	},
	{
	"epoch": 2.0452182952182953,
	"grad_norm": 0.5730691087208541,
	"learning_rate": 5.563330454460179e-06,
	"loss": 0.4961,
	"step": 3935
	},
	{
	"epoch": 2.047817047817048,
	"grad_norm": 0.5477717438993087,
	"learning_rate": 5.536247691065384e-06,
	"loss": 0.5121,
	"step": 3940
	},
	{
	"epoch": 2.0504158004158004,
	"grad_norm": 0.5548351105040114,
	"learning_rate": 5.50920575355675e-06,
	"loss": 0.5079,
	"step": 3945
	},
	{
	"epoch": 2.053014553014553,
	"grad_norm": 0.5759237090673845,
	"learning_rate": 5.482204889262319e-06,
	"loss": 0.5093,
	"step": 3950
	},
	{
	"epoch": 2.0556133056133055,
	"grad_norm": 0.5547272581679922,
	"learning_rate": 5.455245345134449e-06,
	"loss": 0.4965,
	"step": 3955
	},
	{
	"epoch": 2.0582120582120584,
	"grad_norm": 0.5545227019423067,
	"learning_rate": 5.428327367747598e-06,
	"loss": 0.5056,
	"step": 3960
	},
	{
	"epoch": 2.060810810810811,
	"grad_norm": 0.5475321378756351,
	"learning_rate": 5.401451203296049e-06,
	"loss": 0.4992,
	"step": 3965
	},
	{
	"epoch": 2.0634095634095635,
	"grad_norm": 0.5571990780758471,
	"learning_rate": 5.37461709759165e-06,
	"loss": 0.5029,
	"step": 3970
	},
	{
	"epoch": 2.066008316008316,
	"grad_norm": 0.5646750653448925,
	"learning_rate": 5.3478252960615794e-06,
	"loss": 0.5045,
	"step": 3975
	},
	{
	"epoch": 2.0686070686070686,
	"grad_norm": 0.5748986438531573,
	"learning_rate": 5.321076043746108e-06,
	"loss": 0.4982,
	"step": 3980
	},
	{
	"epoch": 2.071205821205821,
	"grad_norm": 0.5627371455320099,
	"learning_rate": 5.2943695852963325e-06,
	"loss": 0.5096,
	"step": 3985
	},
	{
	"epoch": 2.0738045738045736,
	"grad_norm": 0.5535736181815755,
	"learning_rate": 5.267706164971966e-06,
	"loss": 0.502,
	"step": 3990
	},
	{
	"epoch": 2.0764033264033266,
	"grad_norm": 0.5361674621317485,
	"learning_rate": 5.241086026639079e-06,
	"loss": 0.5056,
	"step": 3995
	},
	{
	"epoch": 2.079002079002079,
	"grad_norm": 0.5644675385907009,
	"learning_rate": 5.214509413767892e-06,
	"loss": 0.5142,
	"step": 4000
	},
	{
	"epoch": 2.0816008316008316,
	"grad_norm": 0.5784423395730652,
	"learning_rate": 5.187976569430535e-06,
	"loss": 0.5087,
	"step": 4005
	},
	{
	"epoch": 2.084199584199584,
	"grad_norm": 0.592275009867849,
	"learning_rate": 5.1614877362988205e-06,
	"loss": 0.5027,
	"step": 4010
	},
	{
	"epoch": 2.0867983367983367,
	"grad_norm": 0.5950969421446421,
	"learning_rate": 5.1350431566420326e-06,
	"loss": 0.5046,
	"step": 4015
	},
	{
	"epoch": 2.0893970893970892,
	"grad_norm": 0.5446288597399254,
	"learning_rate": 5.108643072324717e-06,
	"loss": 0.5107,
	"step": 4020
	},
	{
	"epoch": 2.091995841995842,
	"grad_norm": 0.5839095060604741,
	"learning_rate": 5.082287724804453e-06,
	"loss": 0.507,
	"step": 4025
	},
	{
	"epoch": 2.0945945945945947,
	"grad_norm": 0.5801086689129009,
	"learning_rate": 5.055977355129653e-06,
	"loss": 0.5007,
	"step": 4030
	},
	{
	"epoch": 2.0971933471933473,
	"grad_norm": 0.5394364509572592,
	"learning_rate": 5.02971220393736e-06,
	"loss": 0.5079,
	"step": 4035
	},
	{
	"epoch": 2.0997920997921,
	"grad_norm": 0.5649634959442216,
	"learning_rate": 5.003492511451051e-06,
	"loss": 0.5042,
	"step": 4040
	},
	{
	"epoch": 2.1023908523908523,
	"grad_norm": 0.5697263888969452,
	"learning_rate": 4.977318517478421e-06,
	"loss": 0.5012,
	"step": 4045
	},
	{
	"epoch": 2.104989604989605,
	"grad_norm": 0.6166161420968725,
	"learning_rate": 4.951190461409214e-06,
	"loss": 0.511,
	"step": 4050
	},
	{
	"epoch": 2.1075883575883574,
	"grad_norm": 0.5624903877149114,
	"learning_rate": 4.925108582213013e-06,
	"loss": 0.5104,
	"step": 4055
	},
	{
	"epoch": 2.1101871101871104,
	"grad_norm": 0.5731533074752744,
	"learning_rate": 4.899073118437063e-06,
	"loss": 0.5109,
	"step": 4060
	},
	{
	"epoch": 2.112785862785863,
	"grad_norm": 0.5800809144559984,
	"learning_rate": 4.873084308204101e-06,
	"loss": 0.4999,
	"step": 4065
	},
	{
	"epoch": 2.1153846153846154,
	"grad_norm": 0.5639967552020521,
	"learning_rate": 4.84714238921015e-06,
	"loss": 0.4972,
	"step": 4070
	},
	{
	"epoch": 2.117983367983368,
	"grad_norm": 0.5540959676849216,
	"learning_rate": 4.821247598722373e-06,
	"loss": 0.4887,
	"step": 4075
	},
	{
	"epoch": 2.1205821205821205,
	"grad_norm": 0.5820289593717347,
	"learning_rate": 4.7954001735768925e-06,
	"loss": 0.4983,
	"step": 4080
	},
	{
	"epoch": 2.123180873180873,
	"grad_norm": 0.5665889825124238,
	"learning_rate": 4.7696003501766155e-06,
	"loss": 0.4928,
	"step": 4085
	},
	{
	"epoch": 2.125779625779626,
	"grad_norm": 0.5786397074647865,
	"learning_rate": 4.7438483644890776e-06,
	"loss": 0.509,
	"step": 4090
	},
	{
	"epoch": 2.1283783783783785,
	"grad_norm": 0.5544771675503383,
	"learning_rate": 4.718144452044299e-06,
	"loss": 0.5088,
	"step": 4095
	},
	{
	"epoch": 2.130977130977131,
	"grad_norm": 0.5842089375560309,
	"learning_rate": 4.692488847932601e-06,
	"loss": 0.5131,
	"step": 4100
	},
	{
	"epoch": 2.1335758835758836,
	"grad_norm": 0.5572667236950973,
	"learning_rate": 4.666881786802492e-06,
	"loss": 0.513,
	"step": 4105
	},
	{
	"epoch": 2.136174636174636,
	"grad_norm": 0.6261912246125306,
	"learning_rate": 4.6413235028584804e-06,
	"loss": 0.5053,
	"step": 4110
	},
	{
	"epoch": 2.1387733887733886,
	"grad_norm": 0.5702222004267216,
	"learning_rate": 4.615814229858969e-06,
	"loss": 0.495,
	"step": 4115
	},
	{
	"epoch": 2.141372141372141,
	"grad_norm": 0.5790166866248228,
	"learning_rate": 4.590354201114103e-06,
	"loss": 0.4973,
	"step": 4120
	},
	{
	"epoch": 2.143970893970894,
	"grad_norm": 0.5603345931162405,
	"learning_rate": 4.564943649483625e-06,
	"loss": 0.5063,
	"step": 4125
	},
	{
	"epoch": 2.1465696465696467,
	"grad_norm": 0.5569620723069888,
	"learning_rate": 4.539582807374756e-06,
	"loss": 0.4982,
	"step": 4130
	},
	{
	"epoch": 2.149168399168399,
	"grad_norm": 0.6019143400672264,
	"learning_rate": 4.514271906740082e-06,
	"loss": 0.5116,
	"step": 4135
	},
	{
	"epoch": 2.1517671517671517,
	"grad_norm": 0.5668221330685952,
	"learning_rate": 4.489011179075408e-06,
	"loss": 0.4989,
	"step": 4140
	},
	{
	"epoch": 2.1543659043659042,
	"grad_norm": 0.5777522818500115,
	"learning_rate": 4.46380085541765e-06,
	"loss": 0.4866,
	"step": 4145
	},
	{
	"epoch": 2.156964656964657,
	"grad_norm": 0.5577057043245417,
	"learning_rate": 4.438641166342733e-06,
	"loss": 0.5048,
	"step": 4150
	},
	{
	"epoch": 2.1595634095634098,
	"grad_norm": 0.5811543313527234,
	"learning_rate": 4.413532341963477e-06,
	"loss": 0.5024,
	"step": 4155
	},
	{
	"epoch": 2.1621621621621623,
	"grad_norm": 0.5901491166344425,
	"learning_rate": 4.388474611927472e-06,
	"loss": 0.4985,
	"step": 4160
	},
	{
	"epoch": 2.164760914760915,
	"grad_norm": 0.5537573132486768,
	"learning_rate": 4.363468205415014e-06,
	"loss": 0.4956,
	"step": 4165
	},
	{
	"epoch": 2.1673596673596673,
	"grad_norm": 0.5660909275231115,
	"learning_rate": 4.338513351136977e-06,
	"loss": 0.4928,
	"step": 4170
	},
	{
	"epoch": 2.16995841995842,
	"grad_norm": 0.5991376447658537,
	"learning_rate": 4.313610277332732e-06,
	"loss": 0.499,
	"step": 4175
	},
	{
	"epoch": 2.1725571725571724,
	"grad_norm": 0.6075244421550833,
	"learning_rate": 4.288759211768072e-06,
	"loss": 0.5033,
	"step": 4180
	},
	{
	"epoch": 2.1751559251559254,
	"grad_norm": 0.5517113456938116,
	"learning_rate": 4.263960381733106e-06,
	"loss": 0.4951,
	"step": 4185
	},
	{
	"epoch": 2.177754677754678,
	"grad_norm": 0.5677317519142169,
	"learning_rate": 4.2392140140401996e-06,
	"loss": 0.4978,
	"step": 4190
	},
	{
	"epoch": 2.1803534303534304,
	"grad_norm": 0.569770318980704,
	"learning_rate": 4.214520335021896e-06,
	"loss": 0.4939,
	"step": 4195
	},
	{
	"epoch": 2.182952182952183,
	"grad_norm": 0.6118856781558967,
	"learning_rate": 4.189879570528831e-06,
	"loss": 0.5069,
	"step": 4200
	},
	{
	"epoch": 2.1855509355509355,
	"grad_norm": 0.606019484002795,
	"learning_rate": 4.165291945927693e-06,
	"loss": 0.5043,
	"step": 4205
	},
	{
	"epoch": 2.188149688149688,
	"grad_norm": 0.5556726937928989,
	"learning_rate": 4.140757686099137e-06,
	"loss": 0.4868,
	"step": 4210
	},
	{
	"epoch": 2.1907484407484406,
	"grad_norm": 0.5837653560310493,
	"learning_rate": 4.116277015435743e-06,
	"loss": 0.5015,
	"step": 4215
	},
	{
	"epoch": 2.1933471933471935,
	"grad_norm": 0.588179392816627,
	"learning_rate": 4.091850157839963e-06,
	"loss": 0.503,
	"step": 4220
	},
	{
	"epoch": 2.195945945945946,
	"grad_norm": 0.5994112141091228,
	"learning_rate": 4.067477336722063e-06,
	"loss": 0.5124,
	"step": 4225
	},
	{
	"epoch": 2.1985446985446986,
	"grad_norm": 0.6035705377584152,
	"learning_rate": 4.043158774998093e-06,
	"loss": 0.5089,
	"step": 4230
	},
	{
	"epoch": 2.201143451143451,
	"grad_norm": 0.5688655453887249,
	"learning_rate": 4.01889469508784e-06,
	"loss": 0.5043,
	"step": 4235
	},
	{
	"epoch": 2.2037422037422036,
	"grad_norm": 0.5917248307889117,
	"learning_rate": 3.994685318912794e-06,
	"loss": 0.5163,
	"step": 4240
	},
	{
	"epoch": 2.206340956340956,
	"grad_norm": 0.5394197139265716,
	"learning_rate": 3.970530867894114e-06,
	"loss": 0.5069,
	"step": 4245
	},
	{
	"epoch": 2.208939708939709,
	"grad_norm": 0.576389590721846,
	"learning_rate": 3.946431562950624e-06,
	"loss": 0.5005,
	"step": 4250
	},
	{
	"epoch": 2.2115384615384617,
	"grad_norm": 0.595056352282733,
	"learning_rate": 3.922387624496762e-06,
	"loss": 0.5043,
	"step": 4255
	},
	{
	"epoch": 2.214137214137214,
	"grad_norm": 0.5572014241693316,
	"learning_rate": 3.89839927244058e-06,
	"loss": 0.5074,
	"step": 4260
	},
	{
	"epoch": 2.2167359667359667,
	"grad_norm": 0.5659607082452609,
	"learning_rate": 3.87446672618174e-06,
	"loss": 0.5078,
	"step": 4265
	},
	{
	"epoch": 2.2193347193347193,
	"grad_norm": 0.5659519225313114,
	"learning_rate": 3.850590204609501e-06,
	"loss": 0.5042,
	"step": 4270
	},
	{
	"epoch": 2.221933471933472,
	"grad_norm": 0.5520449827126801,
	"learning_rate": 3.826769926100699e-06,
	"loss": 0.5049,
	"step": 4275
	},
	{
	"epoch": 2.2245322245322248,
	"grad_norm": 0.9464101657600216,
	"learning_rate": 3.803006108517786e-06,
	"loss": 0.5049,
	"step": 4280
	},
	{
	"epoch": 2.2271309771309773,
	"grad_norm": 0.5678141927512144,
	"learning_rate": 3.7792989692068018e-06,
	"loss": 0.5035,
	"step": 4285
	},
	{
	"epoch": 2.22972972972973,
	"grad_norm": 0.5706457165389711,
	"learning_rate": 3.755648724995404e-06,
	"loss": 0.4968,
	"step": 4290
	},
	{
	"epoch": 2.2323284823284824,
	"grad_norm": 0.6171952232229321,
	"learning_rate": 3.732055592190893e-06,
	"loss": 0.5082,
	"step": 4295
	},
	{
	"epoch": 2.234927234927235,
	"grad_norm": 0.600087841592369,
	"learning_rate": 3.7085197865782085e-06,
	"loss": 0.5039,
	"step": 4300
	},
	{
	"epoch": 2.2375259875259874,
	"grad_norm": 0.5625791681960587,
	"learning_rate": 3.6850415234179805e-06,
	"loss": 0.5041,
	"step": 4305
	},
	{
	"epoch": 2.24012474012474,
	"grad_norm": 0.596631151098558,
	"learning_rate": 3.661621017444551e-06,
	"loss": 0.5013,
	"step": 4310
	},
	{
	"epoch": 2.242723492723493,
	"grad_norm": 0.5324892002802353,
	"learning_rate": 3.638258482863999e-06,
	"loss": 0.4958,
	"step": 4315
	},
	{
	"epoch": 2.2453222453222454,
	"grad_norm": 0.5720843807653389,
	"learning_rate": 3.6149541333522053e-06,
	"loss": 0.4994,
	"step": 4320
	},
	{
	"epoch": 2.247920997920998,
	"grad_norm": 0.5550466004827054,
	"learning_rate": 3.5917081820528765e-06,
	"loss": 0.5066,
	"step": 4325
	},
	{
	"epoch": 2.2505197505197505,
	"grad_norm": 0.5853024960860177,
	"learning_rate": 3.568520841575601e-06,
	"loss": 0.4984,
	"step": 4330
	},
	{
	"epoch": 2.253118503118503,
	"grad_norm": 0.5591994418510899,
	"learning_rate": 3.5453923239939192e-06,
	"loss": 0.5057,
	"step": 4335
	},
	{
	"epoch": 2.2557172557172556,
	"grad_norm": 0.595876343661196,
	"learning_rate": 3.5223228408433564e-06,
	"loss": 0.4978,
	"step": 4340
	},
	{
	"epoch": 2.258316008316008,
	"grad_norm": 0.5689153116175016,
	"learning_rate": 3.499312603119517e-06,
	"loss": 0.5045,
	"step": 4345
	},
	{
	"epoch": 2.260914760914761,
	"grad_norm": 0.617131890152672,
	"learning_rate": 3.4763618212761376e-06,
	"loss": 0.5068,
	"step": 4350
	},
	{
	"epoch": 2.2635135135135136,
	"grad_norm": 0.5756546456394432,
	"learning_rate": 3.453470705223162e-06,
	"loss": 0.5006,
	"step": 4355
	},
	{
	"epoch": 2.266112266112266,
	"grad_norm": 0.5904214264537652,
	"learning_rate": 3.430639464324825e-06,
	"loss": 0.509,
	"step": 4360
	},
	{
	"epoch": 2.2687110187110187,
	"grad_norm": 0.5486092941094705,
	"learning_rate": 3.407868307397747e-06,
	"loss": 0.4956,
	"step": 4365
	},
	{
	"epoch": 2.271309771309771,
	"grad_norm": 0.6341681884960043,
	"learning_rate": 3.3851574427090028e-06,
	"loss": 0.502,
	"step": 4370
	},
	{
	"epoch": 2.2739085239085237,
	"grad_norm": 0.5816609147620979,
	"learning_rate": 3.362507077974234e-06,
	"loss": 0.5053,
	"step": 4375
	},
	{
	"epoch": 2.2765072765072767,
	"grad_norm": 0.5992096025731823,
	"learning_rate": 3.339917420355746e-06,
	"loss": 0.4915,
	"step": 4380
	},
	{
	"epoch": 2.279106029106029,
	"grad_norm": 0.5634477819700985,
	"learning_rate": 3.3173886764606133e-06,
	"loss": 0.5034,
	"step": 4385
	},
	{
	"epoch": 2.2817047817047817,
	"grad_norm": 0.5407976728647481,
	"learning_rate": 3.2949210523387786e-06,
	"loss": 0.4999,
	"step": 4390
	},
	{
	"epoch": 2.2843035343035343,
	"grad_norm": 0.562584471586657,
	"learning_rate": 3.2725147534811885e-06,
	"loss": 0.502,
	"step": 4395
	},
	{
	"epoch": 2.286902286902287,
	"grad_norm": 0.5561376196303791,
	"learning_rate": 3.250169984817897e-06,
	"loss": 0.4996,
	"step": 4400
	},
	{
	"epoch": 2.2895010395010393,
	"grad_norm": 0.5288577740017452,
	"learning_rate": 3.2278869507161947e-06,
	"loss": 0.4923,
	"step": 4405
	},
	{
	"epoch": 2.2920997920997923,
	"grad_norm": 0.5564297800059832,
	"learning_rate": 3.2056658549787513e-06,
	"loss": 0.5004,
	"step": 4410
	},
	{
	"epoch": 2.294698544698545,
	"grad_norm": 0.5807459489768877,
	"learning_rate": 3.1835069008417307e-06,
	"loss": 0.513,
	"step": 4415
	},
	{
	"epoch": 2.2972972972972974,
	"grad_norm": 0.5698550653282723,
	"learning_rate": 3.1614102909729547e-06,
	"loss": 0.5017,
	"step": 4420
	},
	{
	"epoch": 2.29989604989605,
	"grad_norm": 0.5484677379859523,
	"learning_rate": 3.139376227470038e-06,
	"loss": 0.4948,
	"step": 4425
	},
	{
	"epoch": 2.3024948024948024,
	"grad_norm": 0.6034586450111454,
	"learning_rate": 3.1174049118585303e-06,
	"loss": 0.5057,
	"step": 4430
	},
	{
	"epoch": 2.305093555093555,
	"grad_norm": 0.6209164341363942,
	"learning_rate": 3.0954965450900963e-06,
	"loss": 0.5013,
	"step": 4435
	},
	{
	"epoch": 2.3076923076923075,
	"grad_norm": 0.608022280956626,
	"learning_rate": 3.0736513275406565e-06,
	"loss": 0.5007,
	"step": 4440
	},
	{
	"epoch": 2.3102910602910605,
	"grad_norm": 0.5822912947800326,
	"learning_rate": 3.0518694590085608e-06,
	"loss": 0.4878,
	"step": 4445
	},
	{
	"epoch": 2.312889812889813,
	"grad_norm": 0.6052596335796735,
	"learning_rate": 3.0301511387127746e-06,
	"loss": 0.5048,
	"step": 4450
	},
	{
	"epoch": 2.3154885654885655,
	"grad_norm": 0.6109257960539891,
	"learning_rate": 3.0084965652910314e-06,
	"loss": 0.4979,
	"step": 4455
	},
	{
	"epoch": 2.318087318087318,
	"grad_norm": 0.6001612610617809,
	"learning_rate": 2.9869059367980402e-06,
	"loss": 0.502,
	"step": 4460
	},
	{
	"epoch": 2.3206860706860706,
	"grad_norm": 0.5748427683895482,
	"learning_rate": 2.965379450703665e-06,
	"loss": 0.4976,
	"step": 4465
	},
	{
	"epoch": 2.323284823284823,
	"grad_norm": 0.6062682998551074,
	"learning_rate": 2.943917303891107e-06,
	"loss": 0.51,
	"step": 4470
	},
	{
	"epoch": 2.3258835758835756,
	"grad_norm": 0.5866563557363672,
	"learning_rate": 2.92251969265512e-06,
	"loss": 0.5063,
	"step": 4475
	},
	{
	"epoch": 2.3284823284823286,
	"grad_norm": 0.5512520483966091,
	"learning_rate": 2.9011868127002153e-06,
	"loss": 0.4934,
	"step": 4480
	},
	{
	"epoch": 2.331081081081081,
	"grad_norm": 0.5427787073773119,
	"learning_rate": 2.879918859138857e-06,
	"loss": 0.4909,
	"step": 4485
	},
	{
	"epoch": 2.3336798336798337,
	"grad_norm": 0.5807057669777462,
	"learning_rate": 2.8587160264896873e-06,
	"loss": 0.4955,
	"step": 4490
	},
	{
	"epoch": 2.336278586278586,
	"grad_norm": 0.6094348111906394,
	"learning_rate": 2.8375785086757533e-06,
	"loss": 0.5028,
	"step": 4495
	},
	{
	"epoch": 2.3388773388773387,
	"grad_norm": 0.569446343993791,
	"learning_rate": 2.8165064990227255e-06,
	"loss": 0.4966,
	"step": 4500
	},
	{
	"epoch": 2.3414760914760917,
	"grad_norm": 0.546949602624272,
	"learning_rate": 2.795500190257122e-06,
	"loss": 0.5041,
	"step": 4505
	},
	{
	"epoch": 2.3440748440748442,
	"grad_norm": 0.5841136870299933,
	"learning_rate": 2.774559774504566e-06,
	"loss": 0.5093,
	"step": 4510
	},
	{
	"epoch": 2.3466735966735968,
	"grad_norm": 0.5894084600218413,
	"learning_rate": 2.75368544328801e-06,
	"loss": 0.5018,
	"step": 4515
	},
	{
	"epoch": 2.3492723492723493,
	"grad_norm": 0.5849212705691518,
	"learning_rate": 2.7328773875259905e-06,
	"loss": 0.4983,
	"step": 4520
	},
	{
	"epoch": 2.351871101871102,
	"grad_norm": 0.5594245456576148,
	"learning_rate": 2.7121357975308893e-06,
	"loss": 0.5116,
	"step": 4525
	},
	{
	"epoch": 2.3544698544698544,
	"grad_norm": 0.5904437980074254,
	"learning_rate": 2.691460863007178e-06,
	"loss": 0.5046,
	"step": 4530
	},
	{
	"epoch": 2.357068607068607,
	"grad_norm": 0.6092333364117684,
	"learning_rate": 2.670852773049698e-06,
	"loss": 0.492,
	"step": 4535
	},
	{
	"epoch": 2.35966735966736,
	"grad_norm": 0.5406949036065258,
	"learning_rate": 2.6503117161419246e-06,
	"loss": 0.4966,
	"step": 4540
	},
	{
	"epoch": 2.3622661122661124,
	"grad_norm": 0.6499059905714683,
	"learning_rate": 2.6298378801542337e-06,
	"loss": 0.4995,
	"step": 4545
	},
	{
	"epoch": 2.364864864864865,
	"grad_norm": 0.5417621572559367,
	"learning_rate": 2.6094314523422035e-06,
	"loss": 0.4903,
	"step": 4550
	},
	{
	"epoch": 2.3674636174636174,
	"grad_norm": 0.5832045594170597,
	"learning_rate": 2.589092619344885e-06,
	"loss": 0.4937,
	"step": 4555
	},
	{
	"epoch": 2.37006237006237,
	"grad_norm": 0.570494106023411,
	"learning_rate": 2.5688215671830975e-06,
	"loss": 0.4967,
	"step": 4560
	},
	{
	"epoch": 2.3726611226611225,
	"grad_norm": 0.5563324888807575,
	"learning_rate": 2.54861848125774e-06,
	"loss": 0.5039,
	"step": 4565
	},
	{
	"epoch": 2.375259875259875,
	"grad_norm": 0.5891719757564269,
	"learning_rate": 2.5284835463480774e-06,
	"loss": 0.5009,
	"step": 4570
	},
	{
	"epoch": 2.377858627858628,
	"grad_norm": 0.6000418457824788,
	"learning_rate": 2.5084169466100626e-06,
	"loss": 0.494,
	"step": 4575
	},
	{
	"epoch": 2.3804573804573805,
	"grad_norm": 0.5612803989317922,
	"learning_rate": 2.4884188655746554e-06,
	"loss": 0.4974,
	"step": 4580
	},
	{
	"epoch": 2.383056133056133,
	"grad_norm": 0.5574484874125388,
	"learning_rate": 2.468489486146125e-06,
	"loss": 0.4953,
	"step": 4585
	},
	{
	"epoch": 2.3856548856548856,
	"grad_norm": 0.550628523258081,
	"learning_rate": 2.4486289906003935e-06,
	"loss": 0.5182,
	"step": 4590
	},
	{
	"epoch": 2.388253638253638,
	"grad_norm": 0.567017209479145,
	"learning_rate": 2.4288375605833726e-06,
	"loss": 0.4907,
	"step": 4595
	},
	{
	"epoch": 2.390852390852391,
	"grad_norm": 0.5474114054711359,
	"learning_rate": 2.4091153771092847e-06,
	"loss": 0.4976,
	"step": 4600
	},
	{
	"epoch": 2.3934511434511436,
	"grad_norm": 0.5567614559206484,
	"learning_rate": 2.3894626205590177e-06,
	"loss": 0.4925,
	"step": 4605
	},
	{
	"epoch": 2.396049896049896,
	"grad_norm": 0.5620691248378288,
	"learning_rate": 2.36987947067848e-06,
	"loss": 0.4892,
	"step": 4610
	},
	{
	"epoch": 2.3986486486486487,
	"grad_norm": 0.5471599595016963,
	"learning_rate": 2.3503661065769523e-06,
	"loss": 0.5006,
	"step": 4615
	},
	{
	"epoch": 2.401247401247401,
	"grad_norm": 0.5643679588409989,
	"learning_rate": 2.330922706725437e-06,
	"loss": 0.5052,
	"step": 4620
	},
	{
	"epoch": 2.4038461538461537,
	"grad_norm": 0.5992107723526578,
	"learning_rate": 2.3115494489550517e-06,
	"loss": 0.4944,
	"step": 4625
	},
	{
	"epoch": 2.4064449064449063,
	"grad_norm": 0.5735681525239322,
	"learning_rate": 2.292246510455375e-06,
	"loss": 0.5023,
	"step": 4630
	},
	{
	"epoch": 2.4090436590436592,
	"grad_norm": 0.5569413415577497,
	"learning_rate": 2.2730140677728485e-06,
	"loss": 0.5017,
	"step": 4635
	},
	{
	"epoch": 2.4116424116424118,
	"grad_norm": 0.5657509769713301,
	"learning_rate": 2.253852296809148e-06,
	"loss": 0.5018,
	"step": 4640
	},
	{
	"epoch": 2.4142411642411643,
	"grad_norm": 0.561092028484337,
	"learning_rate": 2.234761372819577e-06,
	"loss": 0.5005,
	"step": 4645
	},
	{
	"epoch": 2.416839916839917,
	"grad_norm": 0.584135442702734,
	"learning_rate": 2.215741470411472e-06,
	"loss": 0.495,
	"step": 4650
	},
	{
	"epoch": 2.4194386694386694,
	"grad_norm": 0.5585660724073979,
	"learning_rate": 2.196792763542599e-06,
	"loss": 0.5045,
	"step": 4655
	},
	{
	"epoch": 2.422037422037422,
	"grad_norm": 0.5584867361238677,
	"learning_rate": 2.1779154255195576e-06,
	"loss": 0.5018,
	"step": 4660
	},
	{
	"epoch": 2.4246361746361744,
	"grad_norm": 0.566982522139209,
	"learning_rate": 2.1591096289962077e-06,
	"loss": 0.4911,
	"step": 4665
	},
	{
	"epoch": 2.4272349272349274,
	"grad_norm": 0.560220035509712,
	"learning_rate": 2.140375545972081e-06,
	"loss": 0.5021,
	"step": 4670
	},
	{
	"epoch": 2.42983367983368,
	"grad_norm": 0.5507532159687185,
	"learning_rate": 2.121713347790808e-06,
	"loss": 0.5036,
	"step": 4675
	},
	{
	"epoch": 2.4324324324324325,
	"grad_norm": 0.5966472596819247,
	"learning_rate": 2.1031232051385606e-06,
	"loss": 0.4966,
	"step": 4680
	},
	{
	"epoch": 2.435031185031185,
	"grad_norm": 0.5544285219883713,
	"learning_rate": 2.0846052880424783e-06,
	"loss": 0.501,
	"step": 4685
	},
	{
	"epoch": 2.4376299376299375,
	"grad_norm": 0.5182057167941686,
	"learning_rate": 2.0661597658691226e-06,
	"loss": 0.4904,
	"step": 4690
	},
	{
	"epoch": 2.44022869022869,
	"grad_norm": 0.5694712994846337,
	"learning_rate": 2.047786807322927e-06,
	"loss": 0.4875,
	"step": 4695
	},
	{
	"epoch": 2.442827442827443,
	"grad_norm": 0.5644710268706207,
	"learning_rate": 2.029486580444644e-06,
	"loss": 0.4919,
	"step": 4700
	},
	{
	"epoch": 2.4454261954261955,
	"grad_norm": 0.5709123415197537,
	"learning_rate": 2.0112592526098173e-06,
	"loss": 0.5087,
	"step": 4705
	},
	{
	"epoch": 2.448024948024948,
	"grad_norm": 0.5535461175978135,
	"learning_rate": 1.993104990527257e-06,
	"loss": 0.4921,
	"step": 4710
	},
	{
	"epoch": 2.4506237006237006,
	"grad_norm": 0.6301006821974645,
	"learning_rate": 1.975023960237499e-06,
	"loss": 0.4885,
	"step": 4715
	},
	{
	"epoch": 2.453222453222453,
	"grad_norm": 0.5494288053608467,
	"learning_rate": 1.957016327111294e-06,
	"loss": 0.4906,
	"step": 4720
	},
	{
	"epoch": 2.4558212058212057,
	"grad_norm": 0.5493564158683376,
	"learning_rate": 1.9390822558481014e-06,
	"loss": 0.4955,
	"step": 4725
	},
	{
	"epoch": 2.4584199584199586,
	"grad_norm": 0.6043307426388902,
	"learning_rate": 1.921221910474579e-06,
	"loss": 0.5007,
	"step": 4730
	},
	{
	"epoch": 2.461018711018711,
	"grad_norm": 0.5909390472872661,
	"learning_rate": 1.9034354543430677e-06,
	"loss": 0.5009,
	"step": 4735
	},
	{
	"epoch": 2.4636174636174637,
	"grad_norm": 0.5601290888435961,
	"learning_rate": 1.885723050130127e-06,
	"loss": 0.4869,
	"step": 4740
	},
	{
	"epoch": 2.4662162162162162,
	"grad_norm": 0.5671638427007798,
	"learning_rate": 1.8680848598350165e-06,
	"loss": 0.5002,
	"step": 4745
	},
	{
	"epoch": 2.4688149688149688,
	"grad_norm": 0.5597631082866084,
	"learning_rate": 1.8505210447782418e-06,
	"loss": 0.5092,
	"step": 4750
	},
	{
	"epoch": 2.4714137214137213,
	"grad_norm": 0.5611497450799863,
	"learning_rate": 1.833031765600054e-06,
	"loss": 0.5008,
	"step": 4755
	},
	{
	"epoch": 2.474012474012474,
	"grad_norm": 0.5601559085266762,
	"learning_rate": 1.8156171822589963e-06,
	"loss": 0.4887,
	"step": 4760
	},
	{
	"epoch": 2.476611226611227,
	"grad_norm": 0.555263493680061,
	"learning_rate": 1.7982774540304404e-06,
	"loss": 0.5112,
	"step": 4765
	},
	{
	"epoch": 2.4792099792099793,
	"grad_norm": 0.5663743347641695,
	"learning_rate": 1.781012739505127e-06,
	"loss": 0.4907,
	"step": 4770
	},
	{
	"epoch": 2.481808731808732,
	"grad_norm": 0.6155955922535356,
	"learning_rate": 1.7638231965877039e-06,
	"loss": 0.4836,
	"step": 4775
	},
	{
	"epoch": 2.4844074844074844,
	"grad_norm": 0.5902555495646782,
	"learning_rate": 1.7467089824953077e-06,
	"loss": 0.5047,
	"step": 4780
	},
	{
	"epoch": 2.487006237006237,
	"grad_norm": 0.5720398120641105,
	"learning_rate": 1.7296702537560994e-06,
	"loss": 0.5094,
	"step": 4785
	},
	{
	"epoch": 2.4896049896049894,
	"grad_norm": 0.5593330846808308,
	"learning_rate": 1.7127071662078455e-06,
	"loss": 0.5121,
	"step": 4790
	},
	{
	"epoch": 2.492203742203742,
	"grad_norm": 0.5807674813382018,
	"learning_rate": 1.6958198749964983e-06,
	"loss": 0.4888,
	"step": 4795
	},
	{
	"epoch": 2.494802494802495,
	"grad_norm": 0.5712031491060828,
	"learning_rate": 1.679008534574761e-06,
	"loss": 0.485,
	"step": 4800
	},
	{
	"epoch": 2.4974012474012475,
	"grad_norm": 0.5616832705475885,
	"learning_rate": 1.6622732987006884e-06,
	"loss": 0.5019,
	"step": 4805
	},
	{
	"epoch": 2.5,
	"grad_norm": 0.5536996546706574,
	"learning_rate": 1.6456143204362807e-06,
	"loss": 0.4933,
	"step": 4810
	},
	{
	"epoch": 2.5025987525987525,
	"grad_norm": 0.5707614937226522,
	"learning_rate": 1.6290317521460697e-06,
	"loss": 0.4828,
	"step": 4815
	},
	{
	"epoch": 2.505197505197505,
	"grad_norm": 0.5927994991308208,
	"learning_rate": 1.6125257454957365e-06,
	"loss": 0.4861,
	"step": 4820
	},
	{
	"epoch": 2.507796257796258,
	"grad_norm": 0.5852679815841081,
	"learning_rate": 1.5960964514507316e-06,
	"loss": 0.4944,
	"step": 4825
	},
	{
	"epoch": 2.51039501039501,
	"grad_norm": 0.5782206531686512,
	"learning_rate": 1.5797440202748748e-06,
	"loss": 0.4897,
	"step": 4830
	},
	{
	"epoch": 2.512993762993763,
	"grad_norm": 0.5749262146519877,
	"learning_rate": 1.5634686015289925e-06,
	"loss": 0.5008,
	"step": 4835
	},
	{
	"epoch": 2.5155925155925156,
	"grad_norm": 0.5902984761192304,
	"learning_rate": 1.5472703440695524e-06,
	"loss": 0.4997,
	"step": 4840
	},
	{
	"epoch": 2.518191268191268,
	"grad_norm": 0.5725171354203544,
	"learning_rate": 1.5311493960472978e-06,
	"loss": 0.4913,
	"step": 4845
	},
	{
	"epoch": 2.5207900207900207,
	"grad_norm": 0.5489936561056176,
	"learning_rate": 1.5151059049058913e-06,
	"loss": 0.4965,
	"step": 4850
	},
	{
	"epoch": 2.523388773388773,
	"grad_norm": 0.571188356733997,
	"learning_rate": 1.499140017380566e-06,
	"loss": 0.4955,
	"step": 4855
	},
	{
	"epoch": 2.525987525987526,
	"grad_norm": 0.543934249979962,
	"learning_rate": 1.4832518794967853e-06,
	"loss": 0.498,
	"step": 4860
	},
	{
	"epoch": 2.5285862785862787,
	"grad_norm": 0.5779586017866482,
	"learning_rate": 1.4674416365689137e-06,
	"loss": 0.5079,
	"step": 4865
	},
	{
	"epoch": 2.5311850311850312,
	"grad_norm": 0.573790412674796,
	"learning_rate": 1.4517094331988734e-06,
	"loss": 0.5071,
	"step": 4870
	},
	{
	"epoch": 2.5337837837837838,
	"grad_norm": 0.5834488347165243,
	"learning_rate": 1.4360554132748305e-06,
	"loss": 0.493,
	"step": 4875
	},
	{
	"epoch": 2.5363825363825363,
	"grad_norm": 0.5521193528499587,
	"learning_rate": 1.4204797199698839e-06,
	"loss": 0.4893,
	"step": 4880
	},
	{
	"epoch": 2.538981288981289,
	"grad_norm": 0.5837955107251298,
	"learning_rate": 1.4049824957407464e-06,
	"loss": 0.4998,
	"step": 4885
	},
	{
	"epoch": 2.5415800415800414,
	"grad_norm": 0.5654955515661542,
	"learning_rate": 1.3895638823264447e-06,
	"loss": 0.4913,
	"step": 4890
	},
	{
	"epoch": 2.5441787941787943,
	"grad_norm": 0.5743033149419415,
	"learning_rate": 1.374224020747027e-06,
	"loss": 0.5056,
	"step": 4895
	},
	{
	"epoch": 2.546777546777547,
	"grad_norm": 0.5855881014618302,
	"learning_rate": 1.3589630513022656e-06,
	"loss": 0.5028,
	"step": 4900
	},
	{
	"epoch": 2.5493762993762994,
	"grad_norm": 0.6031010192364838,
	"learning_rate": 1.3437811135703792e-06,
	"loss": 0.4964,
	"step": 4905
	},
	{
	"epoch": 2.551975051975052,
	"grad_norm": 0.5409820031001269,
	"learning_rate": 1.328678346406761e-06,
	"loss": 0.4946,
	"step": 4910
	},
	{
	"epoch": 2.5545738045738045,
	"grad_norm": 0.5667214248558752,
	"learning_rate": 1.3136548879426926e-06,
	"loss": 0.492,
	"step": 4915
	},
	{
	"epoch": 2.5571725571725574,
	"grad_norm": 0.5478082998559753,
	"learning_rate": 1.2987108755840994e-06,
	"loss": 0.4949,
	"step": 4920
	},
	{
	"epoch": 2.5597713097713095,
	"grad_norm": 0.5748275704846928,
	"learning_rate": 1.2838464460102862e-06,
	"loss": 0.4969,
	"step": 4925
	},
	{
	"epoch": 2.5623700623700625,
	"grad_norm": 0.5561105303734099,
	"learning_rate": 1.2690617351726798e-06,
	"loss": 0.4967,
	"step": 4930
	},
	{
	"epoch": 2.564968814968815,
	"grad_norm": 0.5847660828596739,
	"learning_rate": 1.2543568782935933e-06,
	"loss": 0.4893,
	"step": 4935
	},
	{
	"epoch": 2.5675675675675675,
	"grad_norm": 0.5797822737989639,
	"learning_rate": 1.2397320098649957e-06,
	"loss": 0.5002,
	"step": 4940
	},
	{
	"epoch": 2.57016632016632,
	"grad_norm": 0.5696211912101424,
	"learning_rate": 1.225187263647265e-06,
	"loss": 0.5056,
	"step": 4945
	},
	{
	"epoch": 2.5727650727650726,
	"grad_norm": 0.6105509252737591,
	"learning_rate": 1.210722772667977e-06,
	"loss": 0.4786,
	"step": 4950
	},
	{
	"epoch": 2.5753638253638256,
	"grad_norm": 0.5710521831184937,
	"learning_rate": 1.196338669220689e-06,
	"loss": 0.4895,
	"step": 4955
	},
	{
	"epoch": 2.577962577962578,
	"grad_norm": 0.5601653499624455,
	"learning_rate": 1.182035084863724e-06,
	"loss": 0.5016,
	"step": 4960
	},
	{
	"epoch": 2.5805613305613306,
	"grad_norm": 0.584343919584128,
	"learning_rate": 1.167812150418972e-06,
	"loss": 0.5159,
	"step": 4965
	},
	{
	"epoch": 2.583160083160083,
	"grad_norm": 0.6129296779221889,
	"learning_rate": 1.1536699959706898e-06,
	"loss": 0.5055,
	"step": 4970
	},
	{
	"epoch": 2.5857588357588357,
	"grad_norm": 0.5844416957330778,
	"learning_rate": 1.1396087508643106e-06,
	"loss": 0.504,
	"step": 4975
	},
	{
	"epoch": 2.5883575883575882,
	"grad_norm": 0.5750509882184978,
	"learning_rate": 1.1256285437052684e-06,
	"loss": 0.4925,
	"step": 4980
	},
	{
	"epoch": 2.5909563409563408,
	"grad_norm": 0.5486207493135079,
	"learning_rate": 1.1117295023578134e-06,
	"loss": 0.5079,
	"step": 4985
	},
	{
	"epoch": 2.5935550935550937,
	"grad_norm": 0.5751013655385914,
	"learning_rate": 1.0979117539438444e-06,
	"loss": 0.4925,
	"step": 4990
	},
	{
	"epoch": 2.5961538461538463,
	"grad_norm": 0.5940615821819871,
	"learning_rate": 1.0841754248417535e-06,
	"loss": 0.5001,
	"step": 4995
	},
	{
	"epoch": 2.598752598752599,
	"grad_norm": 0.544341637873671,
	"learning_rate": 1.0705206406852607e-06,
	"loss": 0.5003,
	"step": 5000
	},
	{
	"epoch": 2.6013513513513513,
	"grad_norm": 0.5688429085624325,
	"learning_rate": 1.0569475263622652e-06,
	"loss": 0.492,
	"step": 5005
	},
	{
	"epoch": 2.603950103950104,
	"grad_norm": 0.5898916948570275,
	"learning_rate": 1.0434562060137154e-06,
	"loss": 0.494,
	"step": 5010
	},
	{
	"epoch": 2.606548856548857,
	"grad_norm": 0.5415866533855809,
	"learning_rate": 1.030046803032455e-06,
	"loss": 0.4904,
	"step": 5015
	},
	{
	"epoch": 2.609147609147609,
	"grad_norm": 0.5719708739269925,
	"learning_rate": 1.0167194400621072e-06,
	"loss": 0.489,
	"step": 5020
	},
	{
	"epoch": 2.611746361746362,
	"grad_norm": 0.5958211082907041,
	"learning_rate": 1.003474238995954e-06,
	"loss": 0.4957,
	"step": 5025
	},
	{
	"epoch": 2.6143451143451144,
	"grad_norm": 0.5541558159414748,
	"learning_rate": 9.903113209758098e-07,
	"loss": 0.4993,
	"step": 5030
	},
	{
	"epoch": 2.616943866943867,
	"grad_norm": 0.5872960411024288,
	"learning_rate": 9.772308063909263e-07,
	"loss": 0.5105,
	"step": 5035
	},
	{
	"epoch": 2.6195426195426195,
	"grad_norm": 0.5605189291423912,
	"learning_rate": 9.642328148768865e-07,
	"loss": 0.4963,
	"step": 5040
	},
	{
	"epoch": 2.622141372141372,
	"grad_norm": 0.5607585059207263,
	"learning_rate": 9.513174653145052e-07,
	"loss": 0.5028,
	"step": 5045
	},
	{
	"epoch": 2.624740124740125,
	"grad_norm": 0.5534539551699679,
	"learning_rate": 9.384848758287469e-07,
	"loss": 0.4894,
	"step": 5050
	},
	{
	"epoch": 2.6273388773388775,
	"grad_norm": 0.5668591204471706,
	"learning_rate": 9.25735163787651e-07,
	"loss": 0.5004,
	"step": 5055
	},
	{
	"epoch": 2.62993762993763,
	"grad_norm": 0.5428488027300683,
	"learning_rate": 9.13068445801244e-07,
	"loss": 0.5028,
	"step": 5060
	},
	{
	"epoch": 2.6325363825363826,
	"grad_norm": 0.5730809692935364,
	"learning_rate": 9.004848377204878e-07,
	"loss": 0.4961,
	"step": 5065
	},
	{
	"epoch": 2.635135135135135,
	"grad_norm": 0.5287247837670602,
	"learning_rate": 8.879844546362093e-07,
	"loss": 0.499,
	"step": 5070
	},
	{
	"epoch": 2.6377338877338876,
	"grad_norm": 0.5730710423541429,
	"learning_rate": 8.755674108780532e-07,
	"loss": 0.4964,
	"step": 5075
	},
	{
	"epoch": 2.64033264033264,
	"grad_norm": 0.5506264010952827,
	"learning_rate": 8.632338200134382e-07,
	"loss": 0.4936,
	"step": 5080
	},
	{
	"epoch": 2.642931392931393,
	"grad_norm": 0.519210055930055,
	"learning_rate": 8.509837948465094e-07,
	"loss": 0.49,
	"step": 5085
	},
	{
	"epoch": 2.6455301455301456,
	"grad_norm": 0.5809039207230658,
	"learning_rate": 8.388174474171163e-07,
	"loss": 0.5033,
	"step": 5090
	},
	{
	"epoch": 2.648128898128898,
	"grad_norm": 0.561018096449011,
	"learning_rate": 8.267348889997839e-07,
	"loss": 0.5051,
	"step": 5095
	},
	{
	"epoch": 2.6507276507276507,
	"grad_norm": 0.5422624927838648,
	"learning_rate": 8.14736230102694e-07,
	"loss": 0.4864,
	"step": 5100
	},
	{
	"epoch": 2.6533264033264032,
	"grad_norm": 0.549824075528394,
	"learning_rate": 8.028215804666761e-07,
	"loss": 0.5027,
	"step": 5105
	},
	{
	"epoch": 2.6559251559251558,
	"grad_norm": 0.6073556177013598,
	"learning_rate": 7.909910490642025e-07,
	"loss": 0.4981,
	"step": 5110
	},
	{
	"epoch": 2.6585239085239083,
	"grad_norm": 0.5812550130344551,
	"learning_rate": 7.792447440983985e-07,
	"loss": 0.504,
	"step": 5115
	},
	{
	"epoch": 2.6611226611226613,
	"grad_norm": 0.5688133990130678,
	"learning_rate": 7.675827730020358e-07,
	"loss": 0.5004,
	"step": 5120
	},
	{
	"epoch": 2.663721413721414,
	"grad_norm": 0.5617035595950866,
	"learning_rate": 7.560052424365716e-07,
	"loss": 0.4923,
	"step": 5125
	},
	{
	"epoch": 2.6663201663201663,
	"grad_norm": 0.5835381005107588,
	"learning_rate": 7.445122582911546e-07,
	"loss": 0.4989,
	"step": 5130
	},
	{
	"epoch": 2.668918918918919,
	"grad_norm": 0.5681826093882452,
	"learning_rate": 7.331039256816664e-07,
	"loss": 0.5001,
	"step": 5135
	},
	{
	"epoch": 2.6715176715176714,
	"grad_norm": 0.5416547579730493,
	"learning_rate": 7.217803489497621e-07,
	"loss": 0.4915,
	"step": 5140
	},
	{
	"epoch": 2.6741164241164244,
	"grad_norm": 0.5708948503374369,
	"learning_rate": 7.10541631661904e-07,
	"loss": 0.506,
	"step": 5145
	},
	{
	"epoch": 2.6767151767151764,
	"grad_norm": 0.5825889025850369,
	"learning_rate": 6.993878766084295e-07,
	"loss": 0.4978,
	"step": 5150
	},
	{
	"epoch": 2.6793139293139294,
	"grad_norm": 0.5658766831235557,
	"learning_rate": 6.883191858026006e-07,
	"loss": 0.5002,
	"step": 5155
	},
	{
	"epoch": 2.681912681912682,
	"grad_norm": 0.5560529305298989,
	"learning_rate": 6.773356604796744e-07,
	"loss": 0.4975,
	"step": 5160
	},
	{
	"epoch": 2.6845114345114345,
	"grad_norm": 0.5708450386103079,
	"learning_rate": 6.664374010959739e-07,
	"loss": 0.5089,
	"step": 5165
	},
	{
	"epoch": 2.687110187110187,
	"grad_norm": 0.5562285971352838,
	"learning_rate": 6.556245073279777e-07,
	"loss": 0.5075,
	"step": 5170
	},
	{
	"epoch": 2.6897089397089395,
	"grad_norm": 0.5721605688382857,
	"learning_rate": 6.448970780713948e-07,
	"loss": 0.4876,
	"step": 5175
	},
	{
	"epoch": 2.6923076923076925,
	"grad_norm": 0.567860262795361,
	"learning_rate": 6.342552114402789e-07,
	"loss": 0.4968,
	"step": 5180
	},
	{
	"epoch": 2.694906444906445,
	"grad_norm": 0.5512124172540173,
	"learning_rate": 6.236990047661074e-07,
	"loss": 0.4971,
	"step": 5185
	},
	{
	"epoch": 2.6975051975051976,
	"grad_norm": 0.5567955011645962,
	"learning_rate": 6.132285545969141e-07,
	"loss": 0.4893,
	"step": 5190
	},
	{
	"epoch": 2.70010395010395,
	"grad_norm": 0.5658501671925406,
	"learning_rate": 6.028439566963929e-07,
	"loss": 0.4899,
	"step": 5195
	},
	{
	"epoch": 2.7027027027027026,
	"grad_norm": 0.5444634054315433,
	"learning_rate": 5.925453060430219e-07,
	"loss": 0.4878,
	"step": 5200
	},
	{
	"epoch": 2.705301455301455,
	"grad_norm": 0.550663548661878,
	"learning_rate": 5.823326968292009e-07,
	"loss": 0.5009,
	"step": 5205
	},
	{
	"epoch": 2.7079002079002077,
	"grad_norm": 0.6060107034007801,
	"learning_rate": 5.722062224603886e-07,
	"loss": 0.4946,
	"step": 5210
	},
	{
	"epoch": 2.7104989604989607,
	"grad_norm": 0.58216821945967,
	"learning_rate": 5.621659755542408e-07,
	"loss": 0.5057,
	"step": 5215
	},
	{
	"epoch": 2.713097713097713,
	"grad_norm": 0.5416674185051638,
	"learning_rate": 5.522120479397731e-07,
	"loss": 0.4965,
	"step": 5220
	},
	{
	"epoch": 2.7156964656964657,
	"grad_norm": 0.5761995130950316,
	"learning_rate": 5.423445306565168e-07,
	"loss": 0.5038,
	"step": 5225
	},
	{
	"epoch": 2.7182952182952183,
	"grad_norm": 0.5635042371421582,
	"learning_rate": 5.325635139536867e-07,
	"loss": 0.4884,
	"step": 5230
	},
	{
	"epoch": 2.720893970893971,
	"grad_norm": 0.5743033588993577,
	"learning_rate": 5.228690872893527e-07,
	"loss": 0.4934,
	"step": 5235
	},
	{
	"epoch": 2.7234927234927238,
	"grad_norm": 0.5431291593888027,
	"learning_rate": 5.132613393296293e-07,
	"loss": 0.4921,
	"step": 5240
	},
	{
	"epoch": 2.726091476091476,
	"grad_norm": 0.5702390465003064,
	"learning_rate": 5.037403579478551e-07,
	"loss": 0.5067,
	"step": 5245
	},
	{
	"epoch": 2.728690228690229,
	"grad_norm": 0.5864949506182338,
	"learning_rate": 4.943062302237922e-07,
	"loss": 0.5047,
	"step": 5250
	},
	{
	"epoch": 2.7312889812889813,
	"grad_norm": 0.5856655357457804,
	"learning_rate": 4.849590424428386e-07,
	"loss": 0.498,
	"step": 5255
	},
	{
	"epoch": 2.733887733887734,
	"grad_norm": 0.5592585991123705,
	"learning_rate": 4.7569888009522336e-07,
	"loss": 0.5062,
	"step": 5260
	},
	{
	"epoch": 2.7364864864864864,
	"grad_norm": 0.5598975614142522,
	"learning_rate": 4.665258278752383e-07,
	"loss": 0.4922,
	"step": 5265
	},
	{
	"epoch": 2.739085239085239,
	"grad_norm": 0.5672657648159654,
	"learning_rate": 4.574399696804588e-07,
	"loss": 0.5032,
	"step": 5270
	},
	{
	"epoch": 2.741683991683992,
	"grad_norm": 0.5635739403935113,
	"learning_rate": 4.4844138861096954e-07,
	"loss": 0.4914,
	"step": 5275
	},
	{
	"epoch": 2.7442827442827444,
	"grad_norm": 0.5707341919153839,
	"learning_rate": 4.3953016696861805e-07,
	"loss": 0.4955,
	"step": 5280
	},
	{
	"epoch": 2.746881496881497,
	"grad_norm": 0.593682622033041,
	"learning_rate": 4.3070638625624884e-07,
	"loss": 0.504,
	"step": 5285
	},
	{
	"epoch": 2.7494802494802495,
	"grad_norm": 0.5308025960734446,
	"learning_rate": 4.2197012717696604e-07,
	"loss": 0.4898,
	"step": 5290
	},
	{
	"epoch": 2.752079002079002,
	"grad_norm": 0.562474477928597,
	"learning_rate": 4.133214696333943e-07,
	"loss": 0.4919,
	"step": 5295
	},
	{
	"epoch": 2.7546777546777546,
	"grad_norm": 0.5626677048136434,
	"learning_rate": 4.047604927269433e-07,
	"loss": 0.5041,
	"step": 5300
	},
	{
	"epoch": 2.757276507276507,
	"grad_norm": 0.5534559012860586,
	"learning_rate": 3.9628727475709003e-07,
	"loss": 0.5018,
	"step": 5305
	},
	{
	"epoch": 2.75987525987526,
	"grad_norm": 0.5678002530448841,
	"learning_rate": 3.879018932206624e-07,
	"loss": 0.4795,
	"step": 5310
	},
	{
	"epoch": 2.7624740124740126,
	"grad_norm": 0.5725188711773384,
	"learning_rate": 3.796044248111219e-07,
	"loss": 0.4825,
	"step": 5315
	},
	{
	"epoch": 2.765072765072765,
	"grad_norm": 0.5449981795766418,
	"learning_rate": 3.7139494541787225e-07,
	"loss": 0.4966,
	"step": 5320
	},
	{
	"epoch": 2.7676715176715176,
	"grad_norm": 0.5793024671746052,
	"learning_rate": 3.632735301255652e-07,
	"loss": 0.499,
	"step": 5325
	},
	{
	"epoch": 2.77027027027027,
	"grad_norm": 0.5463699816730897,
	"learning_rate": 3.552402532134014e-07,
	"loss": 0.4971,
	"step": 5330
	},
	{
	"epoch": 2.7728690228690227,
	"grad_norm": 0.569435124360503,
	"learning_rate": 3.472951881544695e-07,
	"loss": 0.4965,
	"step": 5335
	},
	{
	"epoch": 2.7754677754677752,
	"grad_norm": 0.5426897702433433,
	"learning_rate": 3.3943840761505695e-07,
	"loss": 0.5109,
	"step": 5340
	},
	{
	"epoch": 2.778066528066528,
	"grad_norm": 0.5583873172184759,
	"learning_rate": 3.316699834539983e-07,
	"loss": 0.5025,
	"step": 5345
	},
	{
	"epoch": 2.7806652806652807,
	"grad_norm": 0.589354529655944,
	"learning_rate": 3.239899867220064e-07,
	"loss": 0.4998,
	"step": 5350
	},
	{
	"epoch": 2.7832640332640333,
	"grad_norm": 0.5254097934455335,
	"learning_rate": 3.163984876610371e-07,
	"loss": 0.4949,
	"step": 5355
	},
	{
	"epoch": 2.785862785862786,
	"grad_norm": 0.5536550483370661,
	"learning_rate": 3.0889555570363216e-07,
	"loss": 0.4917,
	"step": 5360
	},
	{
	"epoch": 2.7884615384615383,
	"grad_norm": 0.5994721180940217,
	"learning_rate": 3.0148125947229047e-07,
	"loss": 0.495,
	"step": 5365
	},
	{
	"epoch": 2.7910602910602913,
	"grad_norm": 0.5652212087251041,
	"learning_rate": 2.9415566677884365e-07,
	"loss": 0.5029,
	"step": 5370
	},
	{
	"epoch": 2.7936590436590434,
	"grad_norm": 0.567605739930232,
	"learning_rate": 2.869188446238336e-07,
	"loss": 0.506,
	"step": 5375
	},
	{
	"epoch": 2.7962577962577964,
	"grad_norm": 0.5569576384780233,
	"learning_rate": 2.7977085919589253e-07,
	"loss": 0.5003,
	"step": 5380
	},
	{
	"epoch": 2.798856548856549,
	"grad_norm": 0.5412543330665912,
	"learning_rate": 2.727117758711506e-07,
	"loss": 0.4887,
	"step": 5385
	},
	{
	"epoch": 2.8014553014553014,
	"grad_norm": 0.5376966982466084,
	"learning_rate": 2.6574165921262605e-07,
	"loss": 0.4888,
	"step": 5390
	},
	{
	"epoch": 2.804054054054054,
	"grad_norm": 0.54053951299071,
	"learning_rate": 2.588605729696447e-07,
	"loss": 0.4919,
	"step": 5395
	},
	{
	"epoch": 2.8066528066528065,
	"grad_norm": 0.5981753062988322,
	"learning_rate": 2.5206858007724934e-07,
	"loss": 0.4839,
	"step": 5400
	},
	{
	"epoch": 2.8092515592515594,
	"grad_norm": 0.5725431316908658,
	"learning_rate": 2.453657426556244e-07,
	"loss": 0.5122,
	"step": 5405
	},
	{
	"epoch": 2.811850311850312,
	"grad_norm": 0.5422874879244404,
	"learning_rate": 2.387521220095357e-07,
	"loss": 0.4891,
	"step": 5410
	},
	{
	"epoch": 2.8144490644490645,
	"grad_norm": 0.5599975123926269,
	"learning_rate": 2.3222777862776046e-07,
	"loss": 0.5021,
	"step": 5415
	},
	{
	"epoch": 2.817047817047817,
	"grad_norm": 0.5590054648939673,
	"learning_rate": 2.2579277218253926e-07,
	"loss": 0.4841,
	"step": 5420
	},
	{
	"epoch": 2.8196465696465696,
	"grad_norm": 0.5504364503745305,
	"learning_rate": 2.1944716152902834e-07,
	"loss": 0.5002,
	"step": 5425
	},
	{
	"epoch": 2.822245322245322,
	"grad_norm": 0.5797812317339487,
	"learning_rate": 2.131910047047625e-07,
	"loss": 0.486,
	"step": 5430
	},
	{
	"epoch": 2.8248440748440746,
	"grad_norm": 0.5584561563327431,
	"learning_rate": 2.070243589291221e-07,
	"loss": 0.4879,
	"step": 5435
	},
	{
	"epoch": 2.8274428274428276,
	"grad_norm": 0.5983591006728118,
	"learning_rate": 2.0094728060281454e-07,
	"loss": 0.4964,
	"step": 5440
	},
	{
	"epoch": 2.83004158004158,
	"grad_norm": 0.5793345159708853,
	"learning_rate": 1.9495982530735035e-07,
	"loss": 0.4931,
	"step": 5445
	},
	{
	"epoch": 2.8326403326403327,
	"grad_norm": 0.5521618537806441,
	"learning_rate": 1.890620478045435e-07,
	"loss": 0.4844,
	"step": 5450
	},
	{
	"epoch": 2.835239085239085,
	"grad_norm": 0.5590622081741721,
	"learning_rate": 1.832540020360063e-07,
	"loss": 0.4941,
	"step": 5455
	},
	{
	"epoch": 2.8378378378378377,
	"grad_norm": 0.5807487335701172,
	"learning_rate": 1.7753574112265526e-07,
	"loss": 0.4888,
	"step": 5460
	},
	{
	"epoch": 2.8404365904365907,
	"grad_norm": 0.5896137562543345,
	"learning_rate": 1.7190731736422606e-07,
	"loss": 0.4983,
	"step": 5465
	},
	{
	"epoch": 2.8430353430353428,
	"grad_norm": 0.5740425049161126,
	"learning_rate": 1.6636878223879826e-07,
	"loss": 0.4931,
	"step": 5470
	},
	{
	"epoch": 2.8456340956340958,
	"grad_norm": 0.5440884316639071,
	"learning_rate": 1.6092018640231688e-07,
	"loss": 0.4831,
	"step": 5475
	},
	{
	"epoch": 2.8482328482328483,
	"grad_norm": 0.5781760225759857,
	"learning_rate": 1.5556157968813823e-07,
	"loss": 0.4988,
	"step": 5480
	},
	{
	"epoch": 2.850831600831601,
	"grad_norm": 0.5889448479356277,
	"learning_rate": 1.5029301110656923e-07,
	"loss": 0.4885,
	"step": 5485
	},
	{
	"epoch": 2.8534303534303533,
	"grad_norm": 0.6111223279448279,
	"learning_rate": 1.4511452884441778e-07,
	"loss": 0.5014,
	"step": 5490
	},
	{
	"epoch": 2.856029106029106,
	"grad_norm": 0.5497820384951762,
	"learning_rate": 1.400261802645575e-07,
	"loss": 0.4951,
	"step": 5495
	},
	{
	"epoch": 2.858627858627859,
	"grad_norm": 0.560040257401693,
	"learning_rate": 1.350280119054881e-07,
	"loss": 0.4907,
	"step": 5500
	},
	{
	"epoch": 2.8612266112266114,
	"grad_norm": 0.5832689907805786,
	"learning_rate": 1.3012006948091237e-07,
	"loss": 0.4919,
	"step": 5505
	},
	{
	"epoch": 2.863825363825364,
	"grad_norm": 0.5550041536720619,
	"learning_rate": 1.2530239787932108e-07,
	"loss": 0.4841,
	"step": 5510
	},
	{
	"epoch": 2.8664241164241164,
	"grad_norm": 0.5548285935264545,
	"learning_rate": 1.2057504116357865e-07,
	"loss": 0.4957,
	"step": 5515
	},
	{
	"epoch": 2.869022869022869,
	"grad_norm": 0.5573963669652322,
	"learning_rate": 1.1593804257052143e-07,
	"loss": 0.5003,
	"step": 5520
	},
	{
	"epoch": 2.8716216216216215,
	"grad_norm": 0.573683837072622,
	"learning_rate": 1.1139144451056016e-07,
	"loss": 0.4917,
	"step": 5525
	},
	{
	"epoch": 2.874220374220374,
	"grad_norm": 0.5955060126211607,
	"learning_rate": 1.0693528856729918e-07,
	"loss": 0.5077,
	"step": 5530
	},
	{
	"epoch": 2.876819126819127,
	"grad_norm": 0.5823077256056483,
	"learning_rate": 1.025696154971445e-07,
	"loss": 0.4879,
	"step": 5535
	},
	{
	"epoch": 2.8794178794178795,
	"grad_norm": 0.578110542140886,
	"learning_rate": 9.829446522894193e-08,
	"loss": 0.5007,
	"step": 5540
	},
	{
	"epoch": 2.882016632016632,
	"grad_norm": 0.5745290388769638,
	"learning_rate": 9.410987686360618e-08,
	"loss": 0.4846,
	"step": 5545
	},
	{
	"epoch": 2.8846153846153846,
	"grad_norm": 0.5645029409864777,
	"learning_rate": 9.001588867376343e-08,
	"loss": 0.4875,
	"step": 5550
	},
	{
	"epoch": 2.887214137214137,
	"grad_norm": 0.5579791649018835,
	"learning_rate": 8.601253810340493e-08,
	"loss": 0.498,
	"step": 5555
	},
	{
	"epoch": 2.88981288981289,
	"grad_norm": 0.5352826063441829,
	"learning_rate": 8.209986176753947e-08,
	"loss": 0.4929,
	"step": 5560
	},
	{
	"epoch": 2.892411642411642,
	"grad_norm": 0.5406028586508593,
	"learning_rate": 7.827789545186149e-08,
	"loss": 0.493,
	"step": 5565
	},
	{
	"epoch": 2.895010395010395,
	"grad_norm": 0.5735179042030664,
	"learning_rate": 7.454667411242677e-08,
	"loss": 0.4974,
	"step": 5570
	},
	{
	"epoch": 2.8976091476091477,
	"grad_norm": 0.5884667672124062,
	"learning_rate": 7.090623187532286e-08,
	"loss": 0.4979,
	"step": 5575
	},
	{
	"epoch": 2.9002079002079,
	"grad_norm": 0.5483035016900611,
	"learning_rate": 6.735660203636918e-08,
	"loss": 0.4905,
	"step": 5580
	},
	{
	"epoch": 2.9028066528066527,
	"grad_norm": 0.5528971829398494,
	"learning_rate": 6.389781706080289e-08,
	"loss": 0.5122,
	"step": 5585
	},
	{
	"epoch": 2.9054054054054053,
	"grad_norm": 0.6057996286720458,
	"learning_rate": 6.052990858298801e-08,
	"loss": 0.5028,
	"step": 5590
	},
	{
	"epoch": 2.9080041580041582,
	"grad_norm": 0.5791623231565692,
	"learning_rate": 5.7252907406123436e-08,
	"loss": 0.4982,
	"step": 5595
	},
	{
	"epoch": 2.9106029106029108,
	"grad_norm": 0.5627119775940129,
	"learning_rate": 5.406684350195979e-08,
	"loss": 0.4964,
	"step": 5600
	},
	{
	"epoch": 2.9132016632016633,
	"grad_norm": 0.5559095452523849,
	"learning_rate": 5.0971746010528566e-08,
	"loss": 0.5063,
	"step": 5605
	},
	{
	"epoch": 2.915800415800416,
	"grad_norm": 0.5535048888740743,
	"learning_rate": 4.7967643239875686e-08,
	"loss": 0.501,
	"step": 5610
	},
	{
	"epoch": 2.9183991683991684,
	"grad_norm": 0.5462617861557779,
	"learning_rate": 4.505456266579833e-08,
	"loss": 0.5031,
	"step": 5615
	},
	{
	"epoch": 2.920997920997921,
	"grad_norm": 0.5384884238791128,
	"learning_rate": 4.22325309315963e-08,
	"loss": 0.5019,
	"step": 5620
	},
	{
	"epoch": 2.9235966735966734,
	"grad_norm": 0.5773761719166159,
	"learning_rate": 3.950157384783104e-08,
	"loss": 0.4939,
	"step": 5625
	},
	{
	"epoch": 2.9261954261954264,
	"grad_norm": 0.5595211401825231,
	"learning_rate": 3.68617163920848e-08,
	"loss": 0.5007,
	"step": 5630
	},
	{
	"epoch": 2.928794178794179,
	"grad_norm": 0.5658405364960404,
	"learning_rate": 3.4312982708734065e-08,
	"loss": 0.4806,
	"step": 5635
	},
	{
	"epoch": 2.9313929313929314,
	"grad_norm": 0.5503957964422638,
	"learning_rate": 3.1855396108730897e-08,
	"loss": 0.5014,
	"step": 5640
	},
	{
	"epoch": 2.933991683991684,
	"grad_norm": 0.5453959548244628,
	"learning_rate": 2.9488979069387523e-08,
	"loss": 0.4894,
	"step": 5645
	},
	{
	"epoch": 2.9365904365904365,
	"grad_norm": 0.5693202599680172,
	"learning_rate": 2.721375323416875e-08,
	"loss": 0.4966,
	"step": 5650
	},
	{
	"epoch": 2.939189189189189,
	"grad_norm": 0.5709168022581379,
	"learning_rate": 2.5029739412497643e-08,
	"loss": 0.4887,
	"step": 5655
	},
	{
	"epoch": 2.9417879417879416,
	"grad_norm": 0.5402927981587441,
	"learning_rate": 2.293695757956571e-08,
	"loss": 0.4968,
	"step": 5660
	},
	{
	"epoch": 2.9443866943866945,
	"grad_norm": 0.629131836957027,
	"learning_rate": 2.0935426876144138e-08,
	"loss": 0.4891,
	"step": 5665
	},
	{
	"epoch": 2.946985446985447,
	"grad_norm": 0.5667833955309428,
	"learning_rate": 1.9025165608418382e-08,
	"loss": 0.4975,
	"step": 5670
	},
	{
	"epoch": 2.9495841995841996,
	"grad_norm": 0.5618681057012622,
	"learning_rate": 1.7206191247810533e-08,
	"loss": 0.4949,
	"step": 5675
	},
	{
	"epoch": 2.952182952182952,
	"grad_norm": 0.5467732554533196,
	"learning_rate": 1.5478520430826095e-08,
	"loss": 0.4985,
	"step": 5680
	},
	{
	"epoch": 2.9547817047817047,
	"grad_norm": 0.566899525327703,
	"learning_rate": 1.3842168958900782e-08,
	"loss": 0.4978,
	"step": 5685
	},
	{
	"epoch": 2.9573804573804576,
	"grad_norm": 0.548674729535616,
	"learning_rate": 1.229715179825397e-08,
	"loss": 0.5092,
	"step": 5690
	},
	{
	"epoch": 2.9599792099792097,
	"grad_norm": 0.5855706553975555,
	"learning_rate": 1.0843483079755468e-08,
	"loss": 0.5036,
	"step": 5695
	},
	{
	"epoch": 2.9625779625779627,
	"grad_norm": 0.574837155061116,
	"learning_rate": 9.481176098788958e-09,
	"loss": 0.5036,
	"step": 5700
	},
	{
	"epoch": 2.965176715176715,
	"grad_norm": 0.5658141647440329,
	"learning_rate": 8.210243315140976e-09,
	"loss": 0.4972,
	"step": 5705
	},
	{
	"epoch": 2.9677754677754677,
	"grad_norm": 0.5791629723335482,
	"learning_rate": 7.030696352878786e-09,
	"loss": 0.4942,
	"step": 5710
	},
	{
	"epoch": 2.9703742203742203,
	"grad_norm": 0.5707304439471226,
	"learning_rate": 5.942546000244909e-09,
	"loss": 0.4946,
	"step": 5715
	},
	{
	"epoch": 2.972972972972973,
	"grad_norm": 0.5873811028122294,
	"learning_rate": 4.945802209562755e-09,
	"loss": 0.4899,
	"step": 5720
	},
	{
	"epoch": 2.975571725571726,
	"grad_norm": 0.5626457291531141,
	"learning_rate": 4.0404740971433655e-09,
	"loss": 0.4837,
	"step": 5725
	},
	{
	"epoch": 2.9781704781704783,
	"grad_norm": 0.5482498449859082,
	"learning_rate": 3.226569943197699e-09,
	"loss": 0.4958,
	"step": 5730
	},
	{
	"epoch": 2.980769230769231,
	"grad_norm": 0.57584453111696,
	"learning_rate": 2.5040971917689172e-09,
	"loss": 0.5065,
	"step": 5735
	},
	{
	"epoch": 2.9833679833679834,
	"grad_norm": 0.6193525019087672,
	"learning_rate": 1.873062450659102e-09,
	"loss": 0.4947,
	"step": 5740
	},
	{
	"epoch": 2.985966735966736,
	"grad_norm": 0.5534322935945964,
	"learning_rate": 1.3334714913681989e-09,
	"loss": 0.4968,
	"step": 5745
	},
	{
	"epoch": 2.9885654885654884,
	"grad_norm": 0.5698273659048839,
	"learning_rate": 8.853292490462739e-10,
	"loss": 0.4965,
	"step": 5750
	},
	{
	"epoch": 2.991164241164241,
	"grad_norm": 0.6072011011211793,
	"learning_rate": 5.286398224413347e-10,
	"loss": 0.4982,
	"step": 5755
	},
	{
	"epoch": 2.993762993762994,
	"grad_norm": 0.5483495272455329,
	"learning_rate": 2.6340647386935426e-10,
	"loss": 0.4905,
	"step": 5760
	},
	{
	"epoch": 2.9963617463617465,
	"grad_norm": 0.5468214431100177,
	"learning_rate": 8.963162917763335e-11,
	"loss": 0.4943,
	"step": 5765
	},
	{
	"epoch": 2.998960498960499,
	"grad_norm": 0.554348853048081,
	"learning_rate": 7.31687772592693e-12,
	"loss": 0.4984,
	"step": 5770
	},
	{
	"epoch": 3.0,
	"eval_loss": 0.8089174032211304,
	"eval_runtime": 106.5642,
	"eval_samples_per_second": 77.043,
	"eval_steps_per_second": 1.211,
	"step": 5772
	},
	{
	"epoch": 3.0,
	"step": 5772,
	"total_flos": 1208539372584960.0,
	"train_loss": 0.6196737293559317,
	"train_runtime": 16925.3973,
	"train_samples_per_second": 21.825,
	"train_steps_per_second": 0.341
	}
	],
	"logging_steps": 5,
	"max_steps": 5772,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": false,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1208539372584960.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}