dontusethis / trainer_state.json

Upload 15 files

dd0251a verified 6 months ago

207 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.7757731958762886,
	"eval_steps": 49,
	"global_step": 1164,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.002577319587628866,
	"grad_norm": 3.206880709337614,
	"learning_rate": 5e-08,
	"loss": 1.772,
	"step": 1
	},
	{
	"epoch": 0.002577319587628866,
	"eval_loss": 1.6304376125335693,
	"eval_runtime": 78.4604,
	"eval_samples_per_second": 21.195,
	"eval_steps_per_second": 1.326,
	"step": 1
	},
	{
	"epoch": 0.005154639175257732,
	"grad_norm": 3.3587112552116953,
	"learning_rate": 1e-07,
	"loss": 1.666,
	"step": 2
	},
	{
	"epoch": 0.007731958762886598,
	"grad_norm": 3.1385995190528324,
	"learning_rate": 1.5e-07,
	"loss": 1.5471,
	"step": 3
	},
	{
	"epoch": 0.010309278350515464,
	"grad_norm": 3.531264158181801,
	"learning_rate": 2e-07,
	"loss": 1.6718,
	"step": 4
	},
	{
	"epoch": 0.01288659793814433,
	"grad_norm": 2.993529294622099,
	"learning_rate": 1.9999979406617412e-07,
	"loss": 1.6334,
	"step": 5
	},
	{
	"epoch": 0.015463917525773196,
	"grad_norm": 3.151745142356583,
	"learning_rate": 1.999991762655447e-07,
	"loss": 1.5647,
	"step": 6
	},
	{
	"epoch": 0.01804123711340206,
	"grad_norm": 3.3440809481325333,
	"learning_rate": 1.9999814660065617e-07,
	"loss": 1.7122,
	"step": 7
	},
	{
	"epoch": 0.020618556701030927,
	"grad_norm": 3.1146822679211805,
	"learning_rate": 1.9999670507574944e-07,
	"loss": 1.5921,
	"step": 8
	},
	{
	"epoch": 0.023195876288659795,
	"grad_norm": 3.345986552710787,
	"learning_rate": 1.9999485169676173e-07,
	"loss": 1.7131,
	"step": 9
	},
	{
	"epoch": 0.02577319587628866,
	"grad_norm": 2.9626668283812045,
	"learning_rate": 1.9999258647132644e-07,
	"loss": 1.6699,
	"step": 10
	},
	{
	"epoch": 0.028350515463917526,
	"grad_norm": 3.4953806538783527,
	"learning_rate": 1.9998990940877333e-07,
	"loss": 1.6785,
	"step": 11
	},
	{
	"epoch": 0.030927835051546393,
	"grad_norm": 3.3004651951030097,
	"learning_rate": 1.9998682052012837e-07,
	"loss": 1.6681,
	"step": 12
	},
	{
	"epoch": 0.03350515463917526,
	"grad_norm": 2.9639928990218802,
	"learning_rate": 1.9998331981811364e-07,
	"loss": 1.5618,
	"step": 13
	},
	{
	"epoch": 0.03608247422680412,
	"grad_norm": 3.0779182905002234,
	"learning_rate": 1.9997940731714744e-07,
	"loss": 1.7039,
	"step": 14
	},
	{
	"epoch": 0.03865979381443299,
	"grad_norm": 2.9325641285273574,
	"learning_rate": 1.9997508303334409e-07,
	"loss": 1.6219,
	"step": 15
	},
	{
	"epoch": 0.041237113402061855,
	"grad_norm": 2.8809471060714555,
	"learning_rate": 1.9997034698451393e-07,
	"loss": 1.7566,
	"step": 16
	},
	{
	"epoch": 0.04381443298969072,
	"grad_norm": 3.341100705652755,
	"learning_rate": 1.999651991901632e-07,
	"loss": 1.6958,
	"step": 17
	},
	{
	"epoch": 0.04639175257731959,
	"grad_norm": 2.8521720798434216,
	"learning_rate": 1.9995963967149398e-07,
	"loss": 1.5833,
	"step": 18
	},
	{
	"epoch": 0.04896907216494845,
	"grad_norm": 3.2447253207769338,
	"learning_rate": 1.9995366845140414e-07,
	"loss": 1.6854,
	"step": 19
	},
	{
	"epoch": 0.05154639175257732,
	"grad_norm": 3.033054116340073,
	"learning_rate": 1.999472855544872e-07,
	"loss": 1.6768,
	"step": 20
	},
	{
	"epoch": 0.05412371134020619,
	"grad_norm": 2.7106967773151665,
	"learning_rate": 1.9994049100703232e-07,
	"loss": 1.5709,
	"step": 21
	},
	{
	"epoch": 0.05670103092783505,
	"grad_norm": 2.8131217459267974,
	"learning_rate": 1.9993328483702392e-07,
	"loss": 1.5352,
	"step": 22
	},
	{
	"epoch": 0.059278350515463915,
	"grad_norm": 2.9454711288855115,
	"learning_rate": 1.9992566707414195e-07,
	"loss": 1.6292,
	"step": 23
	},
	{
	"epoch": 0.061855670103092786,
	"grad_norm": 2.719048700095618,
	"learning_rate": 1.9991763774976155e-07,
	"loss": 1.6504,
	"step": 24
	},
	{
	"epoch": 0.06443298969072164,
	"grad_norm": 2.6465097422508914,
	"learning_rate": 1.9990919689695282e-07,
	"loss": 1.6398,
	"step": 25
	},
	{
	"epoch": 0.06701030927835051,
	"grad_norm": 2.565964847805824,
	"learning_rate": 1.9990034455048098e-07,
	"loss": 1.6024,
	"step": 26
	},
	{
	"epoch": 0.06958762886597938,
	"grad_norm": 2.4151701145393787,
	"learning_rate": 1.9989108074680595e-07,
	"loss": 1.6316,
	"step": 27
	},
	{
	"epoch": 0.07216494845360824,
	"grad_norm": 2.6823187985959276,
	"learning_rate": 1.998814055240823e-07,
	"loss": 1.7421,
	"step": 28
	},
	{
	"epoch": 0.07474226804123711,
	"grad_norm": 2.6044420857485755,
	"learning_rate": 1.998713189221592e-07,
	"loss": 1.5983,
	"step": 29
	},
	{
	"epoch": 0.07731958762886598,
	"grad_norm": 2.3579361514426784,
	"learning_rate": 1.9986082098258008e-07,
	"loss": 1.5468,
	"step": 30
	},
	{
	"epoch": 0.07989690721649484,
	"grad_norm": 2.3088177834083146,
	"learning_rate": 1.9984991174858257e-07,
	"loss": 1.5852,
	"step": 31
	},
	{
	"epoch": 0.08247422680412371,
	"grad_norm": 2.5839184979450005,
	"learning_rate": 1.9983859126509825e-07,
	"loss": 1.6647,
	"step": 32
	},
	{
	"epoch": 0.08505154639175258,
	"grad_norm": 2.2905291979602844,
	"learning_rate": 1.9982685957875257e-07,
	"loss": 1.5935,
	"step": 33
	},
	{
	"epoch": 0.08762886597938144,
	"grad_norm": 2.3660300818606568,
	"learning_rate": 1.998147167378645e-07,
	"loss": 1.7655,
	"step": 34
	},
	{
	"epoch": 0.09020618556701031,
	"grad_norm": 2.269544029552125,
	"learning_rate": 1.9980216279244653e-07,
	"loss": 1.6383,
	"step": 35
	},
	{
	"epoch": 0.09278350515463918,
	"grad_norm": 2.2148823132358477,
	"learning_rate": 1.9978919779420423e-07,
	"loss": 1.7191,
	"step": 36
	},
	{
	"epoch": 0.09536082474226804,
	"grad_norm": 2.295307555280267,
	"learning_rate": 1.9977582179653632e-07,
	"loss": 1.5571,
	"step": 37
	},
	{
	"epoch": 0.0979381443298969,
	"grad_norm": 2.1570012388049262,
	"learning_rate": 1.9976203485453414e-07,
	"loss": 1.642,
	"step": 38
	},
	{
	"epoch": 0.10051546391752578,
	"grad_norm": 2.327694183291453,
	"learning_rate": 1.9974783702498166e-07,
	"loss": 1.6388,
	"step": 39
	},
	{
	"epoch": 0.10309278350515463,
	"grad_norm": 2.3531823980910382,
	"learning_rate": 1.9973322836635516e-07,
	"loss": 1.6407,
	"step": 40
	},
	{
	"epoch": 0.1056701030927835,
	"grad_norm": 2.148246998681959,
	"learning_rate": 1.9971820893882297e-07,
	"loss": 1.6316,
	"step": 41
	},
	{
	"epoch": 0.10824742268041238,
	"grad_norm": 1.824359532091145,
	"learning_rate": 1.9970277880424528e-07,
	"loss": 1.4812,
	"step": 42
	},
	{
	"epoch": 0.11082474226804123,
	"grad_norm": 1.8420872667750698,
	"learning_rate": 1.9968693802617374e-07,
	"loss": 1.6208,
	"step": 43
	},
	{
	"epoch": 0.1134020618556701,
	"grad_norm": 1.9242569129206386,
	"learning_rate": 1.9967068666985148e-07,
	"loss": 1.6866,
	"step": 44
	},
	{
	"epoch": 0.11597938144329897,
	"grad_norm": 1.7555101549111227,
	"learning_rate": 1.9965402480221257e-07,
	"loss": 1.59,
	"step": 45
	},
	{
	"epoch": 0.11855670103092783,
	"grad_norm": 1.83328616320706,
	"learning_rate": 1.9963695249188181e-07,
	"loss": 1.7787,
	"step": 46
	},
	{
	"epoch": 0.1211340206185567,
	"grad_norm": 1.5464144842738474,
	"learning_rate": 1.9961946980917453e-07,
	"loss": 1.5605,
	"step": 47
	},
	{
	"epoch": 0.12371134020618557,
	"grad_norm": 1.5700132071559665,
	"learning_rate": 1.9960157682609632e-07,
	"loss": 1.5188,
	"step": 48
	},
	{
	"epoch": 0.12628865979381443,
	"grad_norm": 1.551927803815323,
	"learning_rate": 1.9958327361634247e-07,
	"loss": 1.5921,
	"step": 49
	},
	{
	"epoch": 0.12628865979381443,
	"eval_loss": 1.5858733654022217,
	"eval_runtime": 78.6563,
	"eval_samples_per_second": 21.143,
	"eval_steps_per_second": 1.322,
	"step": 49
	},
	{
	"epoch": 0.12886597938144329,
	"grad_norm": 1.6459186978386617,
	"learning_rate": 1.9956456025529805e-07,
	"loss": 1.6407,
	"step": 50
	},
	{
	"epoch": 0.13144329896907217,
	"grad_norm": 1.6778367242552643,
	"learning_rate": 1.9954543682003732e-07,
	"loss": 1.5755,
	"step": 51
	},
	{
	"epoch": 0.13402061855670103,
	"grad_norm": 1.5846228635636366,
	"learning_rate": 1.9952590338932356e-07,
	"loss": 1.5236,
	"step": 52
	},
	{
	"epoch": 0.13659793814432988,
	"grad_norm": 1.530322622789531,
	"learning_rate": 1.9950596004360864e-07,
	"loss": 1.6474,
	"step": 53
	},
	{
	"epoch": 0.13917525773195877,
	"grad_norm": 1.5541727762346491,
	"learning_rate": 1.994856068650327e-07,
	"loss": 1.5926,
	"step": 54
	},
	{
	"epoch": 0.14175257731958762,
	"grad_norm": 1.5422089413059752,
	"learning_rate": 1.9946484393742394e-07,
	"loss": 1.6057,
	"step": 55
	},
	{
	"epoch": 0.14432989690721648,
	"grad_norm": 1.5086078750620586,
	"learning_rate": 1.994436713462982e-07,
	"loss": 1.6139,
	"step": 56
	},
	{
	"epoch": 0.14690721649484537,
	"grad_norm": 1.4904490748313473,
	"learning_rate": 1.994220891788584e-07,
	"loss": 1.5613,
	"step": 57
	},
	{
	"epoch": 0.14948453608247422,
	"grad_norm": 1.4446085113828102,
	"learning_rate": 1.9940009752399457e-07,
	"loss": 1.5838,
	"step": 58
	},
	{
	"epoch": 0.15206185567010308,
	"grad_norm": 1.4944945344118559,
	"learning_rate": 1.9937769647228327e-07,
	"loss": 1.6009,
	"step": 59
	},
	{
	"epoch": 0.15463917525773196,
	"grad_norm": 1.3673177038874413,
	"learning_rate": 1.9935488611598714e-07,
	"loss": 1.5295,
	"step": 60
	},
	{
	"epoch": 0.15721649484536082,
	"grad_norm": 1.489918654317649,
	"learning_rate": 1.9933166654905465e-07,
	"loss": 1.6855,
	"step": 61
	},
	{
	"epoch": 0.15979381443298968,
	"grad_norm": 1.4085364811053838,
	"learning_rate": 1.993080378671197e-07,
	"loss": 1.6171,
	"step": 62
	},
	{
	"epoch": 0.16237113402061856,
	"grad_norm": 1.4063494910858265,
	"learning_rate": 1.992840001675012e-07,
	"loss": 1.548,
	"step": 63
	},
	{
	"epoch": 0.16494845360824742,
	"grad_norm": 1.4013900053822443,
	"learning_rate": 1.9925955354920263e-07,
	"loss": 1.5674,
	"step": 64
	},
	{
	"epoch": 0.16752577319587628,
	"grad_norm": 1.3995913424696536,
	"learning_rate": 1.9923469811291173e-07,
	"loss": 1.644,
	"step": 65
	},
	{
	"epoch": 0.17010309278350516,
	"grad_norm": 1.4951716735691833,
	"learning_rate": 1.99209433961e-07,
	"loss": 1.6752,
	"step": 66
	},
	{
	"epoch": 0.17268041237113402,
	"grad_norm": 1.4354454580093134,
	"learning_rate": 1.9918376119752226e-07,
	"loss": 1.6076,
	"step": 67
	},
	{
	"epoch": 0.17525773195876287,
	"grad_norm": 1.5307588716137506,
	"learning_rate": 1.9915767992821639e-07,
	"loss": 1.6192,
	"step": 68
	},
	{
	"epoch": 0.17783505154639176,
	"grad_norm": 1.37638400966553,
	"learning_rate": 1.9913119026050267e-07,
	"loss": 1.5744,
	"step": 69
	},
	{
	"epoch": 0.18041237113402062,
	"grad_norm": 1.3694054278862016,
	"learning_rate": 1.9910429230348344e-07,
	"loss": 1.4495,
	"step": 70
	},
	{
	"epoch": 0.18298969072164947,
	"grad_norm": 1.4276322894882787,
	"learning_rate": 1.9907698616794276e-07,
	"loss": 1.6427,
	"step": 71
	},
	{
	"epoch": 0.18556701030927836,
	"grad_norm": 1.475589693442013,
	"learning_rate": 1.990492719663457e-07,
	"loss": 1.6231,
	"step": 72
	},
	{
	"epoch": 0.18814432989690721,
	"grad_norm": 1.505476760952321,
	"learning_rate": 1.990211498128381e-07,
	"loss": 1.7036,
	"step": 73
	},
	{
	"epoch": 0.19072164948453607,
	"grad_norm": 1.4498365666960409,
	"learning_rate": 1.9899261982324607e-07,
	"loss": 1.5564,
	"step": 74
	},
	{
	"epoch": 0.19329896907216496,
	"grad_norm": 1.4542099562182622,
	"learning_rate": 1.9896368211507535e-07,
	"loss": 1.6012,
	"step": 75
	},
	{
	"epoch": 0.1958762886597938,
	"grad_norm": 1.408394462248393,
	"learning_rate": 1.9893433680751103e-07,
	"loss": 1.5493,
	"step": 76
	},
	{
	"epoch": 0.19845360824742267,
	"grad_norm": 1.4023960052363178,
	"learning_rate": 1.9890458402141688e-07,
	"loss": 1.6452,
	"step": 77
	},
	{
	"epoch": 0.20103092783505155,
	"grad_norm": 1.4823050133687188,
	"learning_rate": 1.988744238793351e-07,
	"loss": 1.5991,
	"step": 78
	},
	{
	"epoch": 0.2036082474226804,
	"grad_norm": 1.32937819085943,
	"learning_rate": 1.9884385650548548e-07,
	"loss": 1.5358,
	"step": 79
	},
	{
	"epoch": 0.20618556701030927,
	"grad_norm": 1.3471888309972797,
	"learning_rate": 1.9881288202576517e-07,
	"loss": 1.5426,
	"step": 80
	},
	{
	"epoch": 0.20876288659793815,
	"grad_norm": 1.34250330197651,
	"learning_rate": 1.98781500567748e-07,
	"loss": 1.5743,
	"step": 81
	},
	{
	"epoch": 0.211340206185567,
	"grad_norm": 1.3158395928293942,
	"learning_rate": 1.9874971226068412e-07,
	"loss": 1.5914,
	"step": 82
	},
	{
	"epoch": 0.21391752577319587,
	"grad_norm": 1.3088201655236604,
	"learning_rate": 1.9871751723549926e-07,
	"loss": 1.5307,
	"step": 83
	},
	{
	"epoch": 0.21649484536082475,
	"grad_norm": 1.4622234110087462,
	"learning_rate": 1.9868491562479426e-07,
	"loss": 1.6698,
	"step": 84
	},
	{
	"epoch": 0.2190721649484536,
	"grad_norm": 1.2966036743967264,
	"learning_rate": 1.9865190756284464e-07,
	"loss": 1.6172,
	"step": 85
	},
	{
	"epoch": 0.22164948453608246,
	"grad_norm": 1.3416821729559592,
	"learning_rate": 1.9861849318559995e-07,
	"loss": 1.6395,
	"step": 86
	},
	{
	"epoch": 0.22422680412371135,
	"grad_norm": 1.4246775767306445,
	"learning_rate": 1.9858467263068319e-07,
	"loss": 1.6048,
	"step": 87
	},
	{
	"epoch": 0.2268041237113402,
	"grad_norm": 1.332606463309659,
	"learning_rate": 1.9855044603739028e-07,
	"loss": 1.6383,
	"step": 88
	},
	{
	"epoch": 0.22938144329896906,
	"grad_norm": 1.380602547288226,
	"learning_rate": 1.9851581354668948e-07,
	"loss": 1.64,
	"step": 89
	},
	{
	"epoch": 0.23195876288659795,
	"grad_norm": 1.3407177446168135,
	"learning_rate": 1.984807753012208e-07,
	"loss": 1.7039,
	"step": 90
	},
	{
	"epoch": 0.2345360824742268,
	"grad_norm": 1.338866434398542,
	"learning_rate": 1.9844533144529547e-07,
	"loss": 1.5236,
	"step": 91
	},
	{
	"epoch": 0.23711340206185566,
	"grad_norm": 1.274500058980513,
	"learning_rate": 1.9840948212489526e-07,
	"loss": 1.5713,
	"step": 92
	},
	{
	"epoch": 0.23969072164948454,
	"grad_norm": 1.3410204352377493,
	"learning_rate": 1.9837322748767194e-07,
	"loss": 1.6058,
	"step": 93
	},
	{
	"epoch": 0.2422680412371134,
	"grad_norm": 1.3188947135915765,
	"learning_rate": 1.983365676829466e-07,
	"loss": 1.6209,
	"step": 94
	},
	{
	"epoch": 0.24484536082474226,
	"grad_norm": 1.2787506674738858,
	"learning_rate": 1.9829950286170913e-07,
	"loss": 1.5984,
	"step": 95
	},
	{
	"epoch": 0.24742268041237114,
	"grad_norm": 1.3508302652980064,
	"learning_rate": 1.9826203317661756e-07,
	"loss": 1.5126,
	"step": 96
	},
	{
	"epoch": 0.25,
	"grad_norm": 1.3775203706307013,
	"learning_rate": 1.9822415878199737e-07,
	"loss": 1.5806,
	"step": 97
	},
	{
	"epoch": 0.25257731958762886,
	"grad_norm": 1.3953183701272227,
	"learning_rate": 1.9818587983384095e-07,
	"loss": 1.6391,
	"step": 98
	},
	{
	"epoch": 0.25257731958762886,
	"eval_loss": 1.5530622005462646,
	"eval_runtime": 78.7591,
	"eval_samples_per_second": 21.115,
	"eval_steps_per_second": 1.32,
	"step": 98
	},
	{
	"epoch": 0.2551546391752577,
	"grad_norm": 1.2639205955569304,
	"learning_rate": 1.981471964898069e-07,
	"loss": 1.6154,
	"step": 99
	},
	{
	"epoch": 0.25773195876288657,
	"grad_norm": 1.33461619126327,
	"learning_rate": 1.9810810890921942e-07,
	"loss": 1.5841,
	"step": 100
	},
	{
	"epoch": 0.2603092783505155,
	"grad_norm": 1.3223001702133927,
	"learning_rate": 1.980686172530676e-07,
	"loss": 1.6292,
	"step": 101
	},
	{
	"epoch": 0.26288659793814434,
	"grad_norm": 1.2560649642869146,
	"learning_rate": 1.9802872168400478e-07,
	"loss": 1.5673,
	"step": 102
	},
	{
	"epoch": 0.2654639175257732,
	"grad_norm": 1.2597104528650152,
	"learning_rate": 1.9798842236634795e-07,
	"loss": 1.6508,
	"step": 103
	},
	{
	"epoch": 0.26804123711340205,
	"grad_norm": 1.407282635250448,
	"learning_rate": 1.979477194660769e-07,
	"loss": 1.4872,
	"step": 104
	},
	{
	"epoch": 0.2706185567010309,
	"grad_norm": 1.2016832149108632,
	"learning_rate": 1.9790661315083375e-07,
	"loss": 1.5604,
	"step": 105
	},
	{
	"epoch": 0.27319587628865977,
	"grad_norm": 1.149030350241683,
	"learning_rate": 1.978651035899221e-07,
	"loss": 1.421,
	"step": 106
	},
	{
	"epoch": 0.2757731958762887,
	"grad_norm": 1.3215975195174274,
	"learning_rate": 1.9782319095430643e-07,
	"loss": 1.5786,
	"step": 107
	},
	{
	"epoch": 0.27835051546391754,
	"grad_norm": 1.2703092272910235,
	"learning_rate": 1.9778087541661131e-07,
	"loss": 1.484,
	"step": 108
	},
	{
	"epoch": 0.2809278350515464,
	"grad_norm": 1.2413825121259754,
	"learning_rate": 1.9773815715112072e-07,
	"loss": 1.5041,
	"step": 109
	},
	{
	"epoch": 0.28350515463917525,
	"grad_norm": 1.2972955973409976,
	"learning_rate": 1.9769503633377743e-07,
	"loss": 1.5719,
	"step": 110
	},
	{
	"epoch": 0.2860824742268041,
	"grad_norm": 1.3905442390636398,
	"learning_rate": 1.9765151314218209e-07,
	"loss": 1.5788,
	"step": 111
	},
	{
	"epoch": 0.28865979381443296,
	"grad_norm": 1.269867236059509,
	"learning_rate": 1.976075877555927e-07,
	"loss": 1.5358,
	"step": 112
	},
	{
	"epoch": 0.2912371134020619,
	"grad_norm": 1.2521107632001138,
	"learning_rate": 1.975632603549237e-07,
	"loss": 1.5908,
	"step": 113
	},
	{
	"epoch": 0.29381443298969073,
	"grad_norm": 1.2496393834141784,
	"learning_rate": 1.9751853112274527e-07,
	"loss": 1.5506,
	"step": 114
	},
	{
	"epoch": 0.2963917525773196,
	"grad_norm": 1.2871218607928567,
	"learning_rate": 1.974734002432827e-07,
	"loss": 1.5275,
	"step": 115
	},
	{
	"epoch": 0.29896907216494845,
	"grad_norm": 1.2976234741205572,
	"learning_rate": 1.9742786790241546e-07,
	"loss": 1.5444,
	"step": 116
	},
	{
	"epoch": 0.3015463917525773,
	"grad_norm": 1.2017823329368622,
	"learning_rate": 1.9738193428767654e-07,
	"loss": 1.543,
	"step": 117
	},
	{
	"epoch": 0.30412371134020616,
	"grad_norm": 1.226770431675134,
	"learning_rate": 1.9733559958825167e-07,
	"loss": 1.5397,
	"step": 118
	},
	{
	"epoch": 0.30670103092783507,
	"grad_norm": 1.3442951015324778,
	"learning_rate": 1.9728886399497844e-07,
	"loss": 1.5852,
	"step": 119
	},
	{
	"epoch": 0.30927835051546393,
	"grad_norm": 1.2017473551527889,
	"learning_rate": 1.9724172770034564e-07,
	"loss": 1.5318,
	"step": 120
	},
	{
	"epoch": 0.3118556701030928,
	"grad_norm": 1.211656114042897,
	"learning_rate": 1.9719419089849246e-07,
	"loss": 1.5028,
	"step": 121
	},
	{
	"epoch": 0.31443298969072164,
	"grad_norm": 1.400130154858166,
	"learning_rate": 1.9714625378520756e-07,
	"loss": 1.5582,
	"step": 122
	},
	{
	"epoch": 0.3170103092783505,
	"grad_norm": 1.3086898697605782,
	"learning_rate": 1.9709791655792847e-07,
	"loss": 1.6549,
	"step": 123
	},
	{
	"epoch": 0.31958762886597936,
	"grad_norm": 1.278029367300382,
	"learning_rate": 1.9704917941574052e-07,
	"loss": 1.5557,
	"step": 124
	},
	{
	"epoch": 0.32216494845360827,
	"grad_norm": 1.2356382868741678,
	"learning_rate": 1.9700004255937627e-07,
	"loss": 1.5288,
	"step": 125
	},
	{
	"epoch": 0.3247422680412371,
	"grad_norm": 1.28937440464536,
	"learning_rate": 1.9695050619121457e-07,
	"loss": 1.5266,
	"step": 126
	},
	{
	"epoch": 0.327319587628866,
	"grad_norm": 1.4414848109811116,
	"learning_rate": 1.9690057051527963e-07,
	"loss": 1.6097,
	"step": 127
	},
	{
	"epoch": 0.32989690721649484,
	"grad_norm": 1.2136781418976954,
	"learning_rate": 1.9685023573724035e-07,
	"loss": 1.4935,
	"step": 128
	},
	{
	"epoch": 0.3324742268041237,
	"grad_norm": 1.3341115569144475,
	"learning_rate": 1.9679950206440948e-07,
	"loss": 1.5987,
	"step": 129
	},
	{
	"epoch": 0.33505154639175255,
	"grad_norm": 1.329559323076734,
	"learning_rate": 1.967483697057425e-07,
	"loss": 1.5782,
	"step": 130
	},
	{
	"epoch": 0.33762886597938147,
	"grad_norm": 1.2026583523005048,
	"learning_rate": 1.9669683887183714e-07,
	"loss": 1.5482,
	"step": 131
	},
	{
	"epoch": 0.3402061855670103,
	"grad_norm": 1.230715216092296,
	"learning_rate": 1.966449097749322e-07,
	"loss": 1.637,
	"step": 132
	},
	{
	"epoch": 0.3427835051546392,
	"grad_norm": 1.3616177214331797,
	"learning_rate": 1.965925826289068e-07,
	"loss": 1.5264,
	"step": 133
	},
	{
	"epoch": 0.34536082474226804,
	"grad_norm": 1.1816372421732182,
	"learning_rate": 1.965398576492796e-07,
	"loss": 1.5349,
	"step": 134
	},
	{
	"epoch": 0.3479381443298969,
	"grad_norm": 1.3503944653975188,
	"learning_rate": 1.964867350532077e-07,
	"loss": 1.5317,
	"step": 135
	},
	{
	"epoch": 0.35051546391752575,
	"grad_norm": 1.3016847854244378,
	"learning_rate": 1.9643321505948584e-07,
	"loss": 1.6062,
	"step": 136
	},
	{
	"epoch": 0.35309278350515466,
	"grad_norm": 1.19908669818476,
	"learning_rate": 1.9637929788854564e-07,
	"loss": 1.6179,
	"step": 137
	},
	{
	"epoch": 0.3556701030927835,
	"grad_norm": 1.1945706816984818,
	"learning_rate": 1.9632498376245445e-07,
	"loss": 1.5982,
	"step": 138
	},
	{
	"epoch": 0.3582474226804124,
	"grad_norm": 1.233096157789794,
	"learning_rate": 1.9627027290491458e-07,
	"loss": 1.572,
	"step": 139
	},
	{
	"epoch": 0.36082474226804123,
	"grad_norm": 1.2228780779938433,
	"learning_rate": 1.9621516554126237e-07,
	"loss": 1.5789,
	"step": 140
	},
	{
	"epoch": 0.3634020618556701,
	"grad_norm": 1.1898193013734535,
	"learning_rate": 1.961596618984672e-07,
	"loss": 1.4511,
	"step": 141
	},
	{
	"epoch": 0.36597938144329895,
	"grad_norm": 1.25230398028528,
	"learning_rate": 1.9610376220513066e-07,
	"loss": 1.5529,
	"step": 142
	},
	{
	"epoch": 0.36855670103092786,
	"grad_norm": 1.2693796938125035,
	"learning_rate": 1.960474666914855e-07,
	"loss": 1.5403,
	"step": 143
	},
	{
	"epoch": 0.3711340206185567,
	"grad_norm": 1.3275717703634924,
	"learning_rate": 1.9599077558939464e-07,
	"loss": 1.4989,
	"step": 144
	},
	{
	"epoch": 0.37371134020618557,
	"grad_norm": 1.1489906814896371,
	"learning_rate": 1.959336891323505e-07,
	"loss": 1.5074,
	"step": 145
	},
	{
	"epoch": 0.37628865979381443,
	"grad_norm": 1.1875368070507506,
	"learning_rate": 1.958762075554737e-07,
	"loss": 1.5219,
	"step": 146
	},
	{
	"epoch": 0.3788659793814433,
	"grad_norm": 1.2013715546004073,
	"learning_rate": 1.9581833109551228e-07,
	"loss": 1.5413,
	"step": 147
	},
	{
	"epoch": 0.3788659793814433,
	"eval_loss": 1.5337220430374146,
	"eval_runtime": 78.6436,
	"eval_samples_per_second": 21.146,
	"eval_steps_per_second": 1.322,
	"step": 147
	},
	{
	"epoch": 0.38144329896907214,
	"grad_norm": 1.348552262306386,
	"learning_rate": 1.9576005999084056e-07,
	"loss": 1.5713,
	"step": 148
	},
	{
	"epoch": 0.38402061855670105,
	"grad_norm": 1.2579524096365415,
	"learning_rate": 1.9570139448145852e-07,
	"loss": 1.5042,
	"step": 149
	},
	{
	"epoch": 0.3865979381443299,
	"grad_norm": 1.2007903800378994,
	"learning_rate": 1.9564233480899028e-07,
	"loss": 1.4753,
	"step": 150
	},
	{
	"epoch": 0.38917525773195877,
	"grad_norm": 1.14999357355067,
	"learning_rate": 1.955828812166836e-07,
	"loss": 1.489,
	"step": 151
	},
	{
	"epoch": 0.3917525773195876,
	"grad_norm": 1.2834202884360733,
	"learning_rate": 1.955230339494086e-07,
	"loss": 1.5672,
	"step": 152
	},
	{
	"epoch": 0.3943298969072165,
	"grad_norm": 1.2110339834614112,
	"learning_rate": 1.9546279325365675e-07,
	"loss": 1.5138,
	"step": 153
	},
	{
	"epoch": 0.39690721649484534,
	"grad_norm": 1.2447583871603898,
	"learning_rate": 1.9540215937754007e-07,
	"loss": 1.5324,
	"step": 154
	},
	{
	"epoch": 0.39948453608247425,
	"grad_norm": 1.2169740146814894,
	"learning_rate": 1.9534113257078978e-07,
	"loss": 1.5228,
	"step": 155
	},
	{
	"epoch": 0.4020618556701031,
	"grad_norm": 1.3339392292279337,
	"learning_rate": 1.9527971308475568e-07,
	"loss": 1.5537,
	"step": 156
	},
	{
	"epoch": 0.40463917525773196,
	"grad_norm": 1.1629410191581253,
	"learning_rate": 1.952179011724047e-07,
	"loss": 1.4565,
	"step": 157
	},
	{
	"epoch": 0.4072164948453608,
	"grad_norm": 1.2166854685328994,
	"learning_rate": 1.951556970883201e-07,
	"loss": 1.4996,
	"step": 158
	},
	{
	"epoch": 0.4097938144329897,
	"grad_norm": 1.1864599175194743,
	"learning_rate": 1.9509310108870037e-07,
	"loss": 1.5078,
	"step": 159
	},
	{
	"epoch": 0.41237113402061853,
	"grad_norm": 1.2614891919139117,
	"learning_rate": 1.9503011343135826e-07,
	"loss": 1.6787,
	"step": 160
	},
	{
	"epoch": 0.41494845360824745,
	"grad_norm": 1.2538176997908546,
	"learning_rate": 1.9496673437571945e-07,
	"loss": 1.5567,
	"step": 161
	},
	{
	"epoch": 0.4175257731958763,
	"grad_norm": 1.2100512003350425,
	"learning_rate": 1.9490296418282183e-07,
	"loss": 1.5835,
	"step": 162
	},
	{
	"epoch": 0.42010309278350516,
	"grad_norm": 1.176294102289334,
	"learning_rate": 1.9483880311531423e-07,
	"loss": 1.4902,
	"step": 163
	},
	{
	"epoch": 0.422680412371134,
	"grad_norm": 1.2400060721796176,
	"learning_rate": 1.9477425143745525e-07,
	"loss": 1.5971,
	"step": 164
	},
	{
	"epoch": 0.4252577319587629,
	"grad_norm": 1.1621100701911136,
	"learning_rate": 1.9470930941511243e-07,
	"loss": 1.5171,
	"step": 165
	},
	{
	"epoch": 0.42783505154639173,
	"grad_norm": 1.2424661949562683,
	"learning_rate": 1.9464397731576091e-07,
	"loss": 1.4954,
	"step": 166
	},
	{
	"epoch": 0.43041237113402064,
	"grad_norm": 1.23770627068237,
	"learning_rate": 1.9457825540848255e-07,
	"loss": 1.5326,
	"step": 167
	},
	{
	"epoch": 0.4329896907216495,
	"grad_norm": 1.1862612005970397,
	"learning_rate": 1.9451214396396453e-07,
	"loss": 1.4912,
	"step": 168
	},
	{
	"epoch": 0.43556701030927836,
	"grad_norm": 1.2831749441379539,
	"learning_rate": 1.9444564325449853e-07,
	"loss": 1.6117,
	"step": 169
	},
	{
	"epoch": 0.4381443298969072,
	"grad_norm": 1.1531718726331943,
	"learning_rate": 1.943787535539795e-07,
	"loss": 1.4855,
	"step": 170
	},
	{
	"epoch": 0.44072164948453607,
	"grad_norm": 1.1826441581231952,
	"learning_rate": 1.9431147513790446e-07,
	"loss": 1.5582,
	"step": 171
	},
	{
	"epoch": 0.44329896907216493,
	"grad_norm": 1.1887449944628656,
	"learning_rate": 1.9424380828337143e-07,
	"loss": 1.5564,
	"step": 172
	},
	{
	"epoch": 0.44587628865979384,
	"grad_norm": 1.249570543310612,
	"learning_rate": 1.9417575326907831e-07,
	"loss": 1.621,
	"step": 173
	},
	{
	"epoch": 0.4484536082474227,
	"grad_norm": 1.3090306728609684,
	"learning_rate": 1.941073103753217e-07,
	"loss": 1.5282,
	"step": 174
	},
	{
	"epoch": 0.45103092783505155,
	"grad_norm": 1.2503633263430554,
	"learning_rate": 1.9403847988399566e-07,
	"loss": 1.5513,
	"step": 175
	},
	{
	"epoch": 0.4536082474226804,
	"grad_norm": 1.2018168355345367,
	"learning_rate": 1.9396926207859085e-07,
	"loss": 1.4957,
	"step": 176
	},
	{
	"epoch": 0.45618556701030927,
	"grad_norm": 1.168765093642791,
	"learning_rate": 1.9389965724419288e-07,
	"loss": 1.5004,
	"step": 177
	},
	{
	"epoch": 0.4587628865979381,
	"grad_norm": 1.250633142422843,
	"learning_rate": 1.9382966566748167e-07,
	"loss": 1.5387,
	"step": 178
	},
	{
	"epoch": 0.46134020618556704,
	"grad_norm": 1.171229347123422,
	"learning_rate": 1.9375928763672982e-07,
	"loss": 1.596,
	"step": 179
	},
	{
	"epoch": 0.4639175257731959,
	"grad_norm": 1.1693848944378227,
	"learning_rate": 1.9368852344180166e-07,
	"loss": 1.5147,
	"step": 180
	},
	{
	"epoch": 0.46649484536082475,
	"grad_norm": 1.2828987442740891,
	"learning_rate": 1.9361737337415204e-07,
	"loss": 1.5539,
	"step": 181
	},
	{
	"epoch": 0.4690721649484536,
	"grad_norm": 1.1925907017733204,
	"learning_rate": 1.9354583772682512e-07,
	"loss": 1.5752,
	"step": 182
	},
	{
	"epoch": 0.47164948453608246,
	"grad_norm": 1.321152376647017,
	"learning_rate": 1.93473916794453e-07,
	"loss": 1.5952,
	"step": 183
	},
	{
	"epoch": 0.4742268041237113,
	"grad_norm": 1.2480635026506552,
	"learning_rate": 1.934016108732548e-07,
	"loss": 1.5068,
	"step": 184
	},
	{
	"epoch": 0.47680412371134023,
	"grad_norm": 1.2890663133137021,
	"learning_rate": 1.9332892026103517e-07,
	"loss": 1.4498,
	"step": 185
	},
	{
	"epoch": 0.4793814432989691,
	"grad_norm": 1.278439525246191,
	"learning_rate": 1.932558452571833e-07,
	"loss": 1.5061,
	"step": 186
	},
	{
	"epoch": 0.48195876288659795,
	"grad_norm": 1.2481302944858157,
	"learning_rate": 1.931823861626714e-07,
	"loss": 1.5672,
	"step": 187
	},
	{
	"epoch": 0.4845360824742268,
	"grad_norm": 1.2421848632538859,
	"learning_rate": 1.9310854328005378e-07,
	"loss": 1.4985,
	"step": 188
	},
	{
	"epoch": 0.48711340206185566,
	"grad_norm": 1.1840656288458875,
	"learning_rate": 1.930343169134654e-07,
	"loss": 1.556,
	"step": 189
	},
	{
	"epoch": 0.4896907216494845,
	"grad_norm": 1.2585791993336888,
	"learning_rate": 1.929597073686206e-07,
	"loss": 1.5539,
	"step": 190
	},
	{
	"epoch": 0.49226804123711343,
	"grad_norm": 1.123656686890668,
	"learning_rate": 1.9288471495281203e-07,
	"loss": 1.5377,
	"step": 191
	},
	{
	"epoch": 0.4948453608247423,
	"grad_norm": 1.276688134117863,
	"learning_rate": 1.9280933997490912e-07,
	"loss": 1.5845,
	"step": 192
	},
	{
	"epoch": 0.49742268041237114,
	"grad_norm": 1.231953746707157,
	"learning_rate": 1.9273358274535702e-07,
	"loss": 1.6142,
	"step": 193
	},
	{
	"epoch": 0.5,
	"grad_norm": 1.3230553754067966,
	"learning_rate": 1.926574435761753e-07,
	"loss": 1.4738,
	"step": 194
	},
	{
	"epoch": 0.5025773195876289,
	"grad_norm": 1.2436732656409537,
	"learning_rate": 1.9258092278095657e-07,
	"loss": 1.5969,
	"step": 195
	},
	{
	"epoch": 0.5051546391752577,
	"grad_norm": 1.221047910828976,
	"learning_rate": 1.925040206748652e-07,
	"loss": 1.5962,
	"step": 196
	},
	{
	"epoch": 0.5051546391752577,
	"eval_loss": 1.520858883857727,
	"eval_runtime": 78.5683,
	"eval_samples_per_second": 21.166,
	"eval_steps_per_second": 1.324,
	"step": 196
	},
	{
	"epoch": 0.5077319587628866,
	"grad_norm": 1.2212270479150868,
	"learning_rate": 1.924267375746361e-07,
	"loss": 1.5033,
	"step": 197
	},
	{
	"epoch": 0.5103092783505154,
	"grad_norm": 1.2178250609326542,
	"learning_rate": 1.9234907379857334e-07,
	"loss": 1.577,
	"step": 198
	},
	{
	"epoch": 0.5128865979381443,
	"grad_norm": 1.1521118751035526,
	"learning_rate": 1.9227102966654895e-07,
	"loss": 1.4468,
	"step": 199
	},
	{
	"epoch": 0.5154639175257731,
	"grad_norm": 1.2132226025196962,
	"learning_rate": 1.9219260550000143e-07,
	"loss": 1.5135,
	"step": 200
	},
	{
	"epoch": 0.5180412371134021,
	"grad_norm": 1.191186345232448,
	"learning_rate": 1.921138016219345e-07,
	"loss": 1.5146,
	"step": 201
	},
	{
	"epoch": 0.520618556701031,
	"grad_norm": 1.2208830731174638,
	"learning_rate": 1.9203461835691592e-07,
	"loss": 1.5452,
	"step": 202
	},
	{
	"epoch": 0.5231958762886598,
	"grad_norm": 1.2176060346511148,
	"learning_rate": 1.9195505603107594e-07,
	"loss": 1.5144,
	"step": 203
	},
	{
	"epoch": 0.5257731958762887,
	"grad_norm": 1.1351041872872305,
	"learning_rate": 1.9187511497210597e-07,
	"loss": 1.5463,
	"step": 204
	},
	{
	"epoch": 0.5283505154639175,
	"grad_norm": 1.1782470225350157,
	"learning_rate": 1.9179479550925747e-07,
	"loss": 1.4878,
	"step": 205
	},
	{
	"epoch": 0.5309278350515464,
	"grad_norm": 1.0942788691010794,
	"learning_rate": 1.9171409797334025e-07,
	"loss": 1.5423,
	"step": 206
	},
	{
	"epoch": 0.5335051546391752,
	"grad_norm": 1.2422690533739307,
	"learning_rate": 1.9163302269672137e-07,
	"loss": 1.5543,
	"step": 207
	},
	{
	"epoch": 0.5360824742268041,
	"grad_norm": 1.187410857798478,
	"learning_rate": 1.9155157001332372e-07,
	"loss": 1.4864,
	"step": 208
	},
	{
	"epoch": 0.538659793814433,
	"grad_norm": 1.2521757262499582,
	"learning_rate": 1.9146974025862448e-07,
	"loss": 1.5678,
	"step": 209
	},
	{
	"epoch": 0.5412371134020618,
	"grad_norm": 1.1895335891190835,
	"learning_rate": 1.91387533769654e-07,
	"loss": 1.5359,
	"step": 210
	},
	{
	"epoch": 0.5438144329896907,
	"grad_norm": 1.156080510817116,
	"learning_rate": 1.9130495088499417e-07,
	"loss": 1.4179,
	"step": 211
	},
	{
	"epoch": 0.5463917525773195,
	"grad_norm": 1.2160395280121006,
	"learning_rate": 1.912219919447772e-07,
	"loss": 1.5288,
	"step": 212
	},
	{
	"epoch": 0.5489690721649485,
	"grad_norm": 1.187251015976325,
	"learning_rate": 1.9113865729068413e-07,
	"loss": 1.5829,
	"step": 213
	},
	{
	"epoch": 0.5515463917525774,
	"grad_norm": 1.2325994836421947,
	"learning_rate": 1.9105494726594342e-07,
	"loss": 1.5918,
	"step": 214
	},
	{
	"epoch": 0.5541237113402062,
	"grad_norm": 1.2136013415323126,
	"learning_rate": 1.9097086221532964e-07,
	"loss": 1.5093,
	"step": 215
	},
	{
	"epoch": 0.5567010309278351,
	"grad_norm": 1.1685027007257103,
	"learning_rate": 1.9088640248516185e-07,
	"loss": 1.5992,
	"step": 216
	},
	{
	"epoch": 0.5592783505154639,
	"grad_norm": 1.2470178729913264,
	"learning_rate": 1.908015684233024e-07,
	"loss": 1.5845,
	"step": 217
	},
	{
	"epoch": 0.5618556701030928,
	"grad_norm": 1.3342781963513264,
	"learning_rate": 1.9071636037915533e-07,
	"loss": 1.5227,
	"step": 218
	},
	{
	"epoch": 0.5644329896907216,
	"grad_norm": 1.2834111003737632,
	"learning_rate": 1.90630778703665e-07,
	"loss": 1.5278,
	"step": 219
	},
	{
	"epoch": 0.5670103092783505,
	"grad_norm": 1.2731317285054349,
	"learning_rate": 1.9054482374931466e-07,
	"loss": 1.558,
	"step": 220
	},
	{
	"epoch": 0.5695876288659794,
	"grad_norm": 1.2315820199483811,
	"learning_rate": 1.9045849587012496e-07,
	"loss": 1.5586,
	"step": 221
	},
	{
	"epoch": 0.5721649484536082,
	"grad_norm": 1.2995032591648374,
	"learning_rate": 1.9037179542165253e-07,
	"loss": 1.5726,
	"step": 222
	},
	{
	"epoch": 0.5747422680412371,
	"grad_norm": 1.2207628382258247,
	"learning_rate": 1.902847227609884e-07,
	"loss": 1.5622,
	"step": 223
	},
	{
	"epoch": 0.5773195876288659,
	"grad_norm": 1.1578307509849368,
	"learning_rate": 1.901972782467568e-07,
	"loss": 1.5029,
	"step": 224
	},
	{
	"epoch": 0.5798969072164949,
	"grad_norm": 1.2559554939477484,
	"learning_rate": 1.9010946223911333e-07,
	"loss": 1.5536,
	"step": 225
	},
	{
	"epoch": 0.5824742268041238,
	"grad_norm": 1.1912957688409214,
	"learning_rate": 1.9002127509974374e-07,
	"loss": 1.4107,
	"step": 226
	},
	{
	"epoch": 0.5850515463917526,
	"grad_norm": 1.347391803127549,
	"learning_rate": 1.899327171918623e-07,
	"loss": 1.4981,
	"step": 227
	},
	{
	"epoch": 0.5876288659793815,
	"grad_norm": 1.1735029116257494,
	"learning_rate": 1.8984378888021042e-07,
	"loss": 1.4931,
	"step": 228
	},
	{
	"epoch": 0.5902061855670103,
	"grad_norm": 1.1491563326269614,
	"learning_rate": 1.8975449053105503e-07,
	"loss": 1.439,
	"step": 229
	},
	{
	"epoch": 0.5927835051546392,
	"grad_norm": 1.1281459530728108,
	"learning_rate": 1.8966482251218715e-07,
	"loss": 1.5317,
	"step": 230
	},
	{
	"epoch": 0.595360824742268,
	"grad_norm": 1.1698523464033057,
	"learning_rate": 1.8957478519292032e-07,
	"loss": 1.533,
	"step": 231
	},
	{
	"epoch": 0.5979381443298969,
	"grad_norm": 1.2253794089203258,
	"learning_rate": 1.8948437894408918e-07,
	"loss": 1.566,
	"step": 232
	},
	{
	"epoch": 0.6005154639175257,
	"grad_norm": 1.2704578177761554,
	"learning_rate": 1.893936041380478e-07,
	"loss": 1.5496,
	"step": 233
	},
	{
	"epoch": 0.6030927835051546,
	"grad_norm": 1.270569192705897,
	"learning_rate": 1.8930246114866822e-07,
	"loss": 1.4762,
	"step": 234
	},
	{
	"epoch": 0.6056701030927835,
	"grad_norm": 1.1748786103242588,
	"learning_rate": 1.8921095035133896e-07,
	"loss": 1.5641,
	"step": 235
	},
	{
	"epoch": 0.6082474226804123,
	"grad_norm": 1.2029791452687832,
	"learning_rate": 1.891190721229634e-07,
	"loss": 1.5694,
	"step": 236
	},
	{
	"epoch": 0.6108247422680413,
	"grad_norm": 1.19680587233996,
	"learning_rate": 1.890268268419582e-07,
	"loss": 1.5538,
	"step": 237
	},
	{
	"epoch": 0.6134020618556701,
	"grad_norm": 1.1874592772095638,
	"learning_rate": 1.8893421488825187e-07,
	"loss": 1.4978,
	"step": 238
	},
	{
	"epoch": 0.615979381443299,
	"grad_norm": 1.216069233807722,
	"learning_rate": 1.888412366432831e-07,
	"loss": 1.584,
	"step": 239
	},
	{
	"epoch": 0.6185567010309279,
	"grad_norm": 1.2090175073299552,
	"learning_rate": 1.8874789248999913e-07,
	"loss": 1.5486,
	"step": 240
	},
	{
	"epoch": 0.6211340206185567,
	"grad_norm": 1.1599735542109655,
	"learning_rate": 1.8865418281285444e-07,
	"loss": 1.512,
	"step": 241
	},
	{
	"epoch": 0.6237113402061856,
	"grad_norm": 1.1508476690774565,
	"learning_rate": 1.885601079978088e-07,
	"loss": 1.4699,
	"step": 242
	},
	{
	"epoch": 0.6262886597938144,
	"grad_norm": 1.294126202956922,
	"learning_rate": 1.8846566843232594e-07,
	"loss": 1.6185,
	"step": 243
	},
	{
	"epoch": 0.6288659793814433,
	"grad_norm": 1.1538551018422412,
	"learning_rate": 1.883708645053719e-07,
	"loss": 1.5284,
	"step": 244
	},
	{
	"epoch": 0.6314432989690721,
	"grad_norm": 1.1790058528070886,
	"learning_rate": 1.882756966074134e-07,
	"loss": 1.5235,
	"step": 245
	},
	{
	"epoch": 0.6314432989690721,
	"eval_loss": 1.510589361190796,
	"eval_runtime": 78.6198,
	"eval_samples_per_second": 21.152,
	"eval_steps_per_second": 1.323,
	"step": 245
	},
	{
	"epoch": 0.634020618556701,
	"grad_norm": 1.1938102380471263,
	"learning_rate": 1.8818016513041623e-07,
	"loss": 1.5028,
	"step": 246
	},
	{
	"epoch": 0.6365979381443299,
	"grad_norm": 1.231310461159998,
	"learning_rate": 1.8808427046784362e-07,
	"loss": 1.5686,
	"step": 247
	},
	{
	"epoch": 0.6391752577319587,
	"grad_norm": 1.3015696329059996,
	"learning_rate": 1.8798801301465467e-07,
	"loss": 1.579,
	"step": 248
	},
	{
	"epoch": 0.6417525773195877,
	"grad_norm": 1.1482602866030465,
	"learning_rate": 1.8789139316730269e-07,
	"loss": 1.5331,
	"step": 249
	},
	{
	"epoch": 0.6443298969072165,
	"grad_norm": 1.231219314227984,
	"learning_rate": 1.8779441132373359e-07,
	"loss": 1.5366,
	"step": 250
	},
	{
	"epoch": 0.6469072164948454,
	"grad_norm": 1.2531642119413817,
	"learning_rate": 1.876970678833842e-07,
	"loss": 1.5246,
	"step": 251
	},
	{
	"epoch": 0.6494845360824743,
	"grad_norm": 1.1332607994718875,
	"learning_rate": 1.8759936324718066e-07,
	"loss": 1.5029,
	"step": 252
	},
	{
	"epoch": 0.6520618556701031,
	"grad_norm": 1.123414985710231,
	"learning_rate": 1.8750129781753677e-07,
	"loss": 1.5992,
	"step": 253
	},
	{
	"epoch": 0.654639175257732,
	"grad_norm": 1.1601574273566644,
	"learning_rate": 1.874028719983523e-07,
	"loss": 1.4271,
	"step": 254
	},
	{
	"epoch": 0.6572164948453608,
	"grad_norm": 1.2155208006708451,
	"learning_rate": 1.8730408619501138e-07,
	"loss": 1.5939,
	"step": 255
	},
	{
	"epoch": 0.6597938144329897,
	"grad_norm": 1.181434829014358,
	"learning_rate": 1.8720494081438076e-07,
	"loss": 1.5416,
	"step": 256
	},
	{
	"epoch": 0.6623711340206185,
	"grad_norm": 1.1457316456562228,
	"learning_rate": 1.8710543626480818e-07,
	"loss": 1.4854,
	"step": 257
	},
	{
	"epoch": 0.6649484536082474,
	"grad_norm": 1.1872624778137861,
	"learning_rate": 1.8700557295612072e-07,
	"loss": 1.5045,
	"step": 258
	},
	{
	"epoch": 0.6675257731958762,
	"grad_norm": 1.2856636838183533,
	"learning_rate": 1.8690535129962305e-07,
	"loss": 1.4678,
	"step": 259
	},
	{
	"epoch": 0.6701030927835051,
	"grad_norm": 1.131984435899355,
	"learning_rate": 1.8680477170809572e-07,
	"loss": 1.5706,
	"step": 260
	},
	{
	"epoch": 0.6726804123711341,
	"grad_norm": 1.2653048133418598,
	"learning_rate": 1.8670383459579356e-07,
	"loss": 1.5623,
	"step": 261
	},
	{
	"epoch": 0.6752577319587629,
	"grad_norm": 1.2245543813976405,
	"learning_rate": 1.8660254037844388e-07,
	"loss": 1.5039,
	"step": 262
	},
	{
	"epoch": 0.6778350515463918,
	"grad_norm": 1.1778675556929805,
	"learning_rate": 1.8650088947324475e-07,
	"loss": 1.5143,
	"step": 263
	},
	{
	"epoch": 0.6804123711340206,
	"grad_norm": 1.1796106429583424,
	"learning_rate": 1.863988822988634e-07,
	"loss": 1.5867,
	"step": 264
	},
	{
	"epoch": 0.6829896907216495,
	"grad_norm": 1.143095546666012,
	"learning_rate": 1.8629651927543443e-07,
	"loss": 1.4735,
	"step": 265
	},
	{
	"epoch": 0.6855670103092784,
	"grad_norm": 1.1803235220482347,
	"learning_rate": 1.8619380082455796e-07,
	"loss": 1.4606,
	"step": 266
	},
	{
	"epoch": 0.6881443298969072,
	"grad_norm": 1.2218442431344259,
	"learning_rate": 1.8609072736929806e-07,
	"loss": 1.5409,
	"step": 267
	},
	{
	"epoch": 0.6907216494845361,
	"grad_norm": 1.2044546146531363,
	"learning_rate": 1.85987299334181e-07,
	"loss": 1.5279,
	"step": 268
	},
	{
	"epoch": 0.6932989690721649,
	"grad_norm": 1.2619745333120211,
	"learning_rate": 1.8588351714519335e-07,
	"loss": 1.5244,
	"step": 269
	},
	{
	"epoch": 0.6958762886597938,
	"grad_norm": 1.256000322805203,
	"learning_rate": 1.8577938122978042e-07,
	"loss": 1.5294,
	"step": 270
	},
	{
	"epoch": 0.6984536082474226,
	"grad_norm": 1.2356982681147777,
	"learning_rate": 1.856748920168443e-07,
	"loss": 1.5036,
	"step": 271
	},
	{
	"epoch": 0.7010309278350515,
	"grad_norm": 1.2037362943983936,
	"learning_rate": 1.855700499367423e-07,
	"loss": 1.5235,
	"step": 272
	},
	{
	"epoch": 0.7036082474226805,
	"grad_norm": 1.2017143929693659,
	"learning_rate": 1.85464855421285e-07,
	"loss": 1.4204,
	"step": 273
	},
	{
	"epoch": 0.7061855670103093,
	"grad_norm": 1.1908996404734937,
	"learning_rate": 1.8535930890373465e-07,
	"loss": 1.4969,
	"step": 274
	},
	{
	"epoch": 0.7087628865979382,
	"grad_norm": 1.1577329971672512,
	"learning_rate": 1.8525341081880312e-07,
	"loss": 1.5319,
	"step": 275
	},
	{
	"epoch": 0.711340206185567,
	"grad_norm": 1.1714981246895275,
	"learning_rate": 1.8514716160265045e-07,
	"loss": 1.4177,
	"step": 276
	},
	{
	"epoch": 0.7139175257731959,
	"grad_norm": 1.1688981848930113,
	"learning_rate": 1.8504056169288274e-07,
	"loss": 1.5234,
	"step": 277
	},
	{
	"epoch": 0.7164948453608248,
	"grad_norm": 1.176710170060508,
	"learning_rate": 1.8493361152855057e-07,
	"loss": 1.499,
	"step": 278
	},
	{
	"epoch": 0.7190721649484536,
	"grad_norm": 1.1039383442864374,
	"learning_rate": 1.8482631155014703e-07,
	"loss": 1.5258,
	"step": 279
	},
	{
	"epoch": 0.7216494845360825,
	"grad_norm": 1.232497346510154,
	"learning_rate": 1.84718662199606e-07,
	"loss": 1.5564,
	"step": 280
	},
	{
	"epoch": 0.7242268041237113,
	"grad_norm": 1.1628995381634444,
	"learning_rate": 1.8461066392030046e-07,
	"loss": 1.4091,
	"step": 281
	},
	{
	"epoch": 0.7268041237113402,
	"grad_norm": 1.2777142820565022,
	"learning_rate": 1.8450231715704026e-07,
	"loss": 1.4754,
	"step": 282
	},
	{
	"epoch": 0.729381443298969,
	"grad_norm": 1.2162243240659913,
	"learning_rate": 1.843936223560707e-07,
	"loss": 1.5473,
	"step": 283
	},
	{
	"epoch": 0.7319587628865979,
	"grad_norm": 1.2147904802438685,
	"learning_rate": 1.8428457996507053e-07,
	"loss": 1.5296,
	"step": 284
	},
	{
	"epoch": 0.7345360824742269,
	"grad_norm": 1.19577901711321,
	"learning_rate": 1.8417519043315004e-07,
	"loss": 1.542,
	"step": 285
	},
	{
	"epoch": 0.7371134020618557,
	"grad_norm": 1.252475138336633,
	"learning_rate": 1.8406545421084938e-07,
	"loss": 1.5293,
	"step": 286
	},
	{
	"epoch": 0.7396907216494846,
	"grad_norm": 1.1515656379492916,
	"learning_rate": 1.8395537175013654e-07,
	"loss": 1.5272,
	"step": 287
	},
	{
	"epoch": 0.7422680412371134,
	"grad_norm": 1.1517700578396561,
	"learning_rate": 1.8384494350440552e-07,
	"loss": 1.5133,
	"step": 288
	},
	{
	"epoch": 0.7448453608247423,
	"grad_norm": 1.217323252639824,
	"learning_rate": 1.8373416992847458e-07,
	"loss": 1.5009,
	"step": 289
	},
	{
	"epoch": 0.7474226804123711,
	"grad_norm": 1.1814204725087243,
	"learning_rate": 1.8362305147858428e-07,
	"loss": 1.4538,
	"step": 290
	},
	{
	"epoch": 0.75,
	"grad_norm": 1.1842613200601082,
	"learning_rate": 1.835115886123955e-07,
	"loss": 1.3816,
	"step": 291
	},
	{
	"epoch": 0.7525773195876289,
	"grad_norm": 1.2063574196502098,
	"learning_rate": 1.8339978178898778e-07,
	"loss": 1.5965,
	"step": 292
	},
	{
	"epoch": 0.7551546391752577,
	"grad_norm": 1.2685230099116653,
	"learning_rate": 1.8328763146885725e-07,
	"loss": 1.5637,
	"step": 293
	},
	{
	"epoch": 0.7577319587628866,
	"grad_norm": 1.295213064366882,
	"learning_rate": 1.8317513811391476e-07,
	"loss": 1.5592,
	"step": 294
	},
	{
	"epoch": 0.7577319587628866,
	"eval_loss": 1.5018398761749268,
	"eval_runtime": 78.561,
	"eval_samples_per_second": 21.168,
	"eval_steps_per_second": 1.324,
	"step": 294
	},
	{
	"epoch": 0.7603092783505154,
	"grad_norm": 1.1669863622367527,
	"learning_rate": 1.830623021874841e-07,
	"loss": 1.5081,
	"step": 295
	},
	{
	"epoch": 0.7628865979381443,
	"grad_norm": 1.1910397422917334,
	"learning_rate": 1.8294912415429992e-07,
	"loss": 1.523,
	"step": 296
	},
	{
	"epoch": 0.7654639175257731,
	"grad_norm": 1.1665026656613802,
	"learning_rate": 1.8283560448050594e-07,
	"loss": 1.4753,
	"step": 297
	},
	{
	"epoch": 0.7680412371134021,
	"grad_norm": 1.212187645390271,
	"learning_rate": 1.8272174363365297e-07,
	"loss": 1.4983,
	"step": 298
	},
	{
	"epoch": 0.770618556701031,
	"grad_norm": 1.2227876601034444,
	"learning_rate": 1.8260754208269701e-07,
	"loss": 1.5019,
	"step": 299
	},
	{
	"epoch": 0.7731958762886598,
	"grad_norm": 1.2358555763549743,
	"learning_rate": 1.8249300029799733e-07,
	"loss": 1.5965,
	"step": 300
	},
	{
	"epoch": 0.7757731958762887,
	"grad_norm": 1.187640438130257,
	"learning_rate": 1.8237811875131444e-07,
	"loss": 1.591,
	"step": 301
	},
	{
	"epoch": 0.7783505154639175,
	"grad_norm": 1.2214707732869985,
	"learning_rate": 1.8226289791580828e-07,
	"loss": 1.5274,
	"step": 302
	},
	{
	"epoch": 0.7809278350515464,
	"grad_norm": 1.2019657180078016,
	"learning_rate": 1.8214733826603625e-07,
	"loss": 1.5021,
	"step": 303
	},
	{
	"epoch": 0.7835051546391752,
	"grad_norm": 1.16960231687607,
	"learning_rate": 1.820314402779511e-07,
	"loss": 1.5763,
	"step": 304
	},
	{
	"epoch": 0.7860824742268041,
	"grad_norm": 1.152389731802479,
	"learning_rate": 1.8191520442889918e-07,
	"loss": 1.5176,
	"step": 305
	},
	{
	"epoch": 0.788659793814433,
	"grad_norm": 1.1132515669118002,
	"learning_rate": 1.8179863119761833e-07,
	"loss": 1.4634,
	"step": 306
	},
	{
	"epoch": 0.7912371134020618,
	"grad_norm": 1.1607539313280772,
	"learning_rate": 1.8168172106423606e-07,
	"loss": 1.4798,
	"step": 307
	},
	{
	"epoch": 0.7938144329896907,
	"grad_norm": 1.2145359718563615,
	"learning_rate": 1.8156447451026728e-07,
	"loss": 1.594,
	"step": 308
	},
	{
	"epoch": 0.7963917525773195,
	"grad_norm": 1.1870844292463605,
	"learning_rate": 1.814468920186127e-07,
	"loss": 1.478,
	"step": 309
	},
	{
	"epoch": 0.7989690721649485,
	"grad_norm": 1.1233767004431354,
	"learning_rate": 1.8132897407355653e-07,
	"loss": 1.5882,
	"step": 310
	},
	{
	"epoch": 0.8015463917525774,
	"grad_norm": 1.1738330684693277,
	"learning_rate": 1.8121072116076464e-07,
	"loss": 1.4284,
	"step": 311
	},
	{
	"epoch": 0.8041237113402062,
	"grad_norm": 1.247978839030236,
	"learning_rate": 1.8109213376728257e-07,
	"loss": 1.5824,
	"step": 312
	},
	{
	"epoch": 0.8067010309278351,
	"grad_norm": 1.2318777988562417,
	"learning_rate": 1.8097321238153336e-07,
	"loss": 1.5185,
	"step": 313
	},
	{
	"epoch": 0.8092783505154639,
	"grad_norm": 1.137207160847728,
	"learning_rate": 1.808539574933158e-07,
	"loss": 1.448,
	"step": 314
	},
	{
	"epoch": 0.8118556701030928,
	"grad_norm": 1.203622066974504,
	"learning_rate": 1.8073436959380212e-07,
	"loss": 1.5003,
	"step": 315
	},
	{
	"epoch": 0.8144329896907216,
	"grad_norm": 1.1618827104260305,
	"learning_rate": 1.8061444917553627e-07,
	"loss": 1.4603,
	"step": 316
	},
	{
	"epoch": 0.8170103092783505,
	"grad_norm": 1.1455984024451822,
	"learning_rate": 1.8049419673243164e-07,
	"loss": 1.4366,
	"step": 317
	},
	{
	"epoch": 0.8195876288659794,
	"grad_norm": 1.1500253179290463,
	"learning_rate": 1.803736127597691e-07,
	"loss": 1.5403,
	"step": 318
	},
	{
	"epoch": 0.8221649484536082,
	"grad_norm": 1.2632412244799347,
	"learning_rate": 1.8025269775419507e-07,
	"loss": 1.5003,
	"step": 319
	},
	{
	"epoch": 0.8247422680412371,
	"grad_norm": 1.142698108221298,
	"learning_rate": 1.8013145221371934e-07,
	"loss": 1.4732,
	"step": 320
	},
	{
	"epoch": 0.8273195876288659,
	"grad_norm": 1.2124460871646654,
	"learning_rate": 1.8000987663771306e-07,
	"loss": 1.5311,
	"step": 321
	},
	{
	"epoch": 0.8298969072164949,
	"grad_norm": 1.2348590930541292,
	"learning_rate": 1.798879715269067e-07,
	"loss": 1.5741,
	"step": 322
	},
	{
	"epoch": 0.8324742268041238,
	"grad_norm": 1.1498349377386237,
	"learning_rate": 1.79765737383388e-07,
	"loss": 1.361,
	"step": 323
	},
	{
	"epoch": 0.8350515463917526,
	"grad_norm": 1.189403441559741,
	"learning_rate": 1.796431747105998e-07,
	"loss": 1.5002,
	"step": 324
	},
	{
	"epoch": 0.8376288659793815,
	"grad_norm": 1.2170644285030623,
	"learning_rate": 1.7952028401333816e-07,
	"loss": 1.5508,
	"step": 325
	},
	{
	"epoch": 0.8402061855670103,
	"grad_norm": 1.2305649106918,
	"learning_rate": 1.793970657977501e-07,
	"loss": 1.5185,
	"step": 326
	},
	{
	"epoch": 0.8427835051546392,
	"grad_norm": 1.1928858589906648,
	"learning_rate": 1.7927352057133156e-07,
	"loss": 1.5859,
	"step": 327
	},
	{
	"epoch": 0.845360824742268,
	"grad_norm": 1.2402447474397933,
	"learning_rate": 1.791496488429254e-07,
	"loss": 1.4482,
	"step": 328
	},
	{
	"epoch": 0.8479381443298969,
	"grad_norm": 1.3004615784711493,
	"learning_rate": 1.7902545112271916e-07,
	"loss": 1.4996,
	"step": 329
	},
	{
	"epoch": 0.8505154639175257,
	"grad_norm": 1.2029226714523475,
	"learning_rate": 1.7890092792224314e-07,
	"loss": 1.4729,
	"step": 330
	},
	{
	"epoch": 0.8530927835051546,
	"grad_norm": 1.1646016402710766,
	"learning_rate": 1.7877607975436803e-07,
	"loss": 1.511,
	"step": 331
	},
	{
	"epoch": 0.8556701030927835,
	"grad_norm": 1.1748241861140345,
	"learning_rate": 1.7865090713330312e-07,
	"loss": 1.5406,
	"step": 332
	},
	{
	"epoch": 0.8582474226804123,
	"grad_norm": 1.1988219111182623,
	"learning_rate": 1.785254105745939e-07,
	"loss": 1.5364,
	"step": 333
	},
	{
	"epoch": 0.8608247422680413,
	"grad_norm": 1.2920016906616154,
	"learning_rate": 1.7839959059512014e-07,
	"loss": 1.5188,
	"step": 334
	},
	{
	"epoch": 0.8634020618556701,
	"grad_norm": 1.1390205414249481,
	"learning_rate": 1.7827344771309362e-07,
	"loss": 1.4749,
	"step": 335
	},
	{
	"epoch": 0.865979381443299,
	"grad_norm": 1.207725667468718,
	"learning_rate": 1.7814698244805603e-07,
	"loss": 1.5144,
	"step": 336
	},
	{
	"epoch": 0.8685567010309279,
	"grad_norm": 1.2708389359824341,
	"learning_rate": 1.780201953208769e-07,
	"loss": 1.4633,
	"step": 337
	},
	{
	"epoch": 0.8711340206185567,
	"grad_norm": 1.3588744934998203,
	"learning_rate": 1.7789308685375146e-07,
	"loss": 1.5194,
	"step": 338
	},
	{
	"epoch": 0.8737113402061856,
	"grad_norm": 1.1714299642439896,
	"learning_rate": 1.7776565757019829e-07,
	"loss": 1.4378,
	"step": 339
	},
	{
	"epoch": 0.8762886597938144,
	"grad_norm": 1.2349197329756814,
	"learning_rate": 1.7763790799505743e-07,
	"loss": 1.501,
	"step": 340
	},
	{
	"epoch": 0.8788659793814433,
	"grad_norm": 1.145994840644305,
	"learning_rate": 1.7750983865448804e-07,
	"loss": 1.3569,
	"step": 341
	},
	{
	"epoch": 0.8814432989690721,
	"grad_norm": 1.147878510470048,
	"learning_rate": 1.773814500759663e-07,
	"loss": 1.4907,
	"step": 342
	},
	{
	"epoch": 0.884020618556701,
	"grad_norm": 1.2101479142325238,
	"learning_rate": 1.7725274278828324e-07,
	"loss": 1.5045,
	"step": 343
	},
	{
	"epoch": 0.884020618556701,
	"eval_loss": 1.4945380687713623,
	"eval_runtime": 78.6415,
	"eval_samples_per_second": 21.147,
	"eval_steps_per_second": 1.322,
	"step": 343
	},
	{
	"epoch": 0.8865979381443299,
	"grad_norm": 1.2038990843843793,
	"learning_rate": 1.7712371732154257e-07,
	"loss": 1.4554,
	"step": 344
	},
	{
	"epoch": 0.8891752577319587,
	"grad_norm": 1.1472367305664413,
	"learning_rate": 1.7699437420715838e-07,
	"loss": 1.4611,
	"step": 345
	},
	{
	"epoch": 0.8917525773195877,
	"grad_norm": 1.2170090657627353,
	"learning_rate": 1.768647139778532e-07,
	"loss": 1.4619,
	"step": 346
	},
	{
	"epoch": 0.8943298969072165,
	"grad_norm": 1.1815824919293882,
	"learning_rate": 1.7673473716765553e-07,
	"loss": 1.5022,
	"step": 347
	},
	{
	"epoch": 0.8969072164948454,
	"grad_norm": 1.1967591939256936,
	"learning_rate": 1.766044443118978e-07,
	"loss": 1.4812,
	"step": 348
	},
	{
	"epoch": 0.8994845360824743,
	"grad_norm": 1.228975686058958,
	"learning_rate": 1.7647383594721413e-07,
	"loss": 1.4943,
	"step": 349
	},
	{
	"epoch": 0.9020618556701031,
	"grad_norm": 1.2132506060158343,
	"learning_rate": 1.7634291261153818e-07,
	"loss": 1.4852,
	"step": 350
	},
	{
	"epoch": 0.904639175257732,
	"grad_norm": 1.2581183528068558,
	"learning_rate": 1.7621167484410076e-07,
	"loss": 1.5311,
	"step": 351
	},
	{
	"epoch": 0.9072164948453608,
	"grad_norm": 1.1976025658343157,
	"learning_rate": 1.7608012318542776e-07,
	"loss": 1.5623,
	"step": 352
	},
	{
	"epoch": 0.9097938144329897,
	"grad_norm": 1.2081117148971663,
	"learning_rate": 1.7594825817733804e-07,
	"loss": 1.4877,
	"step": 353
	},
	{
	"epoch": 0.9123711340206185,
	"grad_norm": 1.25102310904074,
	"learning_rate": 1.7581608036294074e-07,
	"loss": 1.5166,
	"step": 354
	},
	{
	"epoch": 0.9149484536082474,
	"grad_norm": 1.1251058107211171,
	"learning_rate": 1.7568359028663362e-07,
	"loss": 1.4818,
	"step": 355
	},
	{
	"epoch": 0.9175257731958762,
	"grad_norm": 1.162404179159399,
	"learning_rate": 1.7555078849410042e-07,
	"loss": 1.4684,
	"step": 356
	},
	{
	"epoch": 0.9201030927835051,
	"grad_norm": 1.1939177374027512,
	"learning_rate": 1.754176755323088e-07,
	"loss": 1.3906,
	"step": 357
	},
	{
	"epoch": 0.9226804123711341,
	"grad_norm": 1.2277839442625762,
	"learning_rate": 1.7528425194950793e-07,
	"loss": 1.5206,
	"step": 358
	},
	{
	"epoch": 0.9252577319587629,
	"grad_norm": 1.1589149786868607,
	"learning_rate": 1.7515051829522643e-07,
	"loss": 1.5117,
	"step": 359
	},
	{
	"epoch": 0.9278350515463918,
	"grad_norm": 1.161766915938516,
	"learning_rate": 1.7501647512026993e-07,
	"loss": 1.5142,
	"step": 360
	},
	{
	"epoch": 0.9304123711340206,
	"grad_norm": 1.1895671903848675,
	"learning_rate": 1.7488212297671897e-07,
	"loss": 1.5279,
	"step": 361
	},
	{
	"epoch": 0.9329896907216495,
	"grad_norm": 1.3331865087236399,
	"learning_rate": 1.7474746241792646e-07,
	"loss": 1.4476,
	"step": 362
	},
	{
	"epoch": 0.9355670103092784,
	"grad_norm": 1.1227191881644327,
	"learning_rate": 1.746124939985158e-07,
	"loss": 1.436,
	"step": 363
	},
	{
	"epoch": 0.9381443298969072,
	"grad_norm": 1.1453288975869358,
	"learning_rate": 1.7447721827437817e-07,
	"loss": 1.4721,
	"step": 364
	},
	{
	"epoch": 0.9407216494845361,
	"grad_norm": 1.1800301680843552,
	"learning_rate": 1.7434163580267056e-07,
	"loss": 1.4648,
	"step": 365
	},
	{
	"epoch": 0.9432989690721649,
	"grad_norm": 1.1592086626138536,
	"learning_rate": 1.7420574714181327e-07,
	"loss": 1.4645,
	"step": 366
	},
	{
	"epoch": 0.9458762886597938,
	"grad_norm": 1.1969987793516494,
	"learning_rate": 1.7406955285148782e-07,
	"loss": 1.4628,
	"step": 367
	},
	{
	"epoch": 0.9484536082474226,
	"grad_norm": 1.25319893461736,
	"learning_rate": 1.7393305349263432e-07,
	"loss": 1.5327,
	"step": 368
	},
	{
	"epoch": 0.9510309278350515,
	"grad_norm": 1.1235076122412295,
	"learning_rate": 1.7379624962744954e-07,
	"loss": 1.457,
	"step": 369
	},
	{
	"epoch": 0.9536082474226805,
	"grad_norm": 1.215770975088775,
	"learning_rate": 1.7365914181938438e-07,
	"loss": 1.4802,
	"step": 370
	},
	{
	"epoch": 0.9561855670103093,
	"grad_norm": 1.1400445439752551,
	"learning_rate": 1.7352173063314147e-07,
	"loss": 1.4078,
	"step": 371
	},
	{
	"epoch": 0.9587628865979382,
	"grad_norm": 1.219412218457137,
	"learning_rate": 1.7338401663467307e-07,
	"loss": 1.4863,
	"step": 372
	},
	{
	"epoch": 0.961340206185567,
	"grad_norm": 1.2307165231693638,
	"learning_rate": 1.732460003911786e-07,
	"loss": 1.547,
	"step": 373
	},
	{
	"epoch": 0.9639175257731959,
	"grad_norm": 1.1928743718959285,
	"learning_rate": 1.731076824711023e-07,
	"loss": 1.4681,
	"step": 374
	},
	{
	"epoch": 0.9664948453608248,
	"grad_norm": 1.2210774438706382,
	"learning_rate": 1.7296906344413101e-07,
	"loss": 1.5359,
	"step": 375
	},
	{
	"epoch": 0.9690721649484536,
	"grad_norm": 1.1755911854453769,
	"learning_rate": 1.7283014388119157e-07,
	"loss": 1.5286,
	"step": 376
	},
	{
	"epoch": 0.9716494845360825,
	"grad_norm": 1.1189926107564905,
	"learning_rate": 1.7269092435444878e-07,
	"loss": 1.4309,
	"step": 377
	},
	{
	"epoch": 0.9742268041237113,
	"grad_norm": 1.209816536244005,
	"learning_rate": 1.7255140543730282e-07,
	"loss": 1.4689,
	"step": 378
	},
	{
	"epoch": 0.9768041237113402,
	"grad_norm": 1.1866285142861848,
	"learning_rate": 1.7241158770438697e-07,
	"loss": 1.4972,
	"step": 379
	},
	{
	"epoch": 0.979381443298969,
	"grad_norm": 1.1354634757481643,
	"learning_rate": 1.722714717315652e-07,
	"loss": 1.4873,
	"step": 380
	},
	{
	"epoch": 0.9819587628865979,
	"grad_norm": 1.2944770552807037,
	"learning_rate": 1.7213105809593e-07,
	"loss": 1.4974,
	"step": 381
	},
	{
	"epoch": 0.9845360824742269,
	"grad_norm": 1.103791679895453,
	"learning_rate": 1.719903473757996e-07,
	"loss": 1.4338,
	"step": 382
	},
	{
	"epoch": 0.9871134020618557,
	"grad_norm": 1.1784721051806777,
	"learning_rate": 1.7184934015071594e-07,
	"loss": 1.4041,
	"step": 383
	},
	{
	"epoch": 0.9896907216494846,
	"grad_norm": 1.1348338130977504,
	"learning_rate": 1.7170803700144225e-07,
	"loss": 1.4413,
	"step": 384
	},
	{
	"epoch": 0.9922680412371134,
	"grad_norm": 1.2250889412679622,
	"learning_rate": 1.7156643850996044e-07,
	"loss": 1.4629,
	"step": 385
	},
	{
	"epoch": 0.9948453608247423,
	"grad_norm": 1.1045983289273678,
	"learning_rate": 1.7142454525946888e-07,
	"loss": 1.5546,
	"step": 386
	},
	{
	"epoch": 0.9974226804123711,
	"grad_norm": 1.1516418913315656,
	"learning_rate": 1.7128235783437998e-07,
	"loss": 1.5631,
	"step": 387
	},
	{
	"epoch": 1.0,
	"grad_norm": 1.252168700059035,
	"learning_rate": 1.7113987682031778e-07,
	"loss": 1.4422,
	"step": 388
	},
	{
	"epoch": 1.0025773195876289,
	"grad_norm": 1.189319163542339,
	"learning_rate": 1.7099710280411546e-07,
	"loss": 1.5383,
	"step": 389
	},
	{
	"epoch": 1.0051546391752577,
	"grad_norm": 1.2727165097128585,
	"learning_rate": 1.70854036373813e-07,
	"loss": 1.5408,
	"step": 390
	},
	{
	"epoch": 1.0077319587628866,
	"grad_norm": 1.1517050348302873,
	"learning_rate": 1.7071067811865473e-07,
	"loss": 1.5864,
	"step": 391
	},
	{
	"epoch": 1.0103092783505154,
	"grad_norm": 1.3325861122052731,
	"learning_rate": 1.7056702862908702e-07,
	"loss": 1.5524,
	"step": 392
	},
	{
	"epoch": 1.0103092783505154,
	"eval_loss": 1.4885141849517822,
	"eval_runtime": 78.424,
	"eval_samples_per_second": 21.205,
	"eval_steps_per_second": 1.326,
	"step": 392
	},
	{
	"epoch": 1.0128865979381443,
	"grad_norm": 1.1135739405983736,
	"learning_rate": 1.7042308849675554e-07,
	"loss": 1.5054,
	"step": 393
	},
	{
	"epoch": 1.0154639175257731,
	"grad_norm": 1.1782103759330078,
	"learning_rate": 1.7027885831450317e-07,
	"loss": 1.4809,
	"step": 394
	},
	{
	"epoch": 1.018041237113402,
	"grad_norm": 1.1307316665373648,
	"learning_rate": 1.701343386763674e-07,
	"loss": 1.4176,
	"step": 395
	},
	{
	"epoch": 1.0206185567010309,
	"grad_norm": 1.2226276517588748,
	"learning_rate": 1.6998953017757785e-07,
	"loss": 1.5829,
	"step": 396
	},
	{
	"epoch": 1.0231958762886597,
	"grad_norm": 1.2403418129653008,
	"learning_rate": 1.698444334145539e-07,
	"loss": 1.5954,
	"step": 397
	},
	{
	"epoch": 1.0257731958762886,
	"grad_norm": 1.1302836106915826,
	"learning_rate": 1.6969904898490212e-07,
	"loss": 1.4231,
	"step": 398
	},
	{
	"epoch": 1.0283505154639174,
	"grad_norm": 1.141960483416689,
	"learning_rate": 1.6955337748741405e-07,
	"loss": 1.4287,
	"step": 399
	},
	{
	"epoch": 1.0309278350515463,
	"grad_norm": 1.196477232474438,
	"learning_rate": 1.694074195220634e-07,
	"loss": 1.5239,
	"step": 400
	},
	{
	"epoch": 1.0335051546391754,
	"grad_norm": 1.183187501385808,
	"learning_rate": 1.692611756900038e-07,
	"loss": 1.497,
	"step": 401
	},
	{
	"epoch": 1.0360824742268042,
	"grad_norm": 1.150174147558412,
	"learning_rate": 1.691146465935663e-07,
	"loss": 1.5532,
	"step": 402
	},
	{
	"epoch": 1.038659793814433,
	"grad_norm": 1.2448204002333718,
	"learning_rate": 1.689678328362569e-07,
	"loss": 1.416,
	"step": 403
	},
	{
	"epoch": 1.041237113402062,
	"grad_norm": 1.1109759208202117,
	"learning_rate": 1.6882073502275392e-07,
	"loss": 1.5012,
	"step": 404
	},
	{
	"epoch": 1.0438144329896908,
	"grad_norm": 1.1567096038742686,
	"learning_rate": 1.6867335375890566e-07,
	"loss": 1.5053,
	"step": 405
	},
	{
	"epoch": 1.0463917525773196,
	"grad_norm": 1.1754138924074398,
	"learning_rate": 1.6852568965172792e-07,
	"loss": 1.5129,
	"step": 406
	},
	{
	"epoch": 1.0489690721649485,
	"grad_norm": 1.23193132568122,
	"learning_rate": 1.6837774330940136e-07,
	"loss": 1.5573,
	"step": 407
	},
	{
	"epoch": 1.0515463917525774,
	"grad_norm": 1.154132682102343,
	"learning_rate": 1.6822951534126908e-07,
	"loss": 1.4258,
	"step": 408
	},
	{
	"epoch": 1.0541237113402062,
	"grad_norm": 1.1683702220075676,
	"learning_rate": 1.680810063578342e-07,
	"loss": 1.493,
	"step": 409
	},
	{
	"epoch": 1.056701030927835,
	"grad_norm": 1.1355190434284121,
	"learning_rate": 1.6793221697075716e-07,
	"loss": 1.5119,
	"step": 410
	},
	{
	"epoch": 1.059278350515464,
	"grad_norm": 1.1992497667084585,
	"learning_rate": 1.6778314779285324e-07,
	"loss": 1.538,
	"step": 411
	},
	{
	"epoch": 1.0618556701030928,
	"grad_norm": 1.1517964539720562,
	"learning_rate": 1.6763379943809027e-07,
	"loss": 1.4665,
	"step": 412
	},
	{
	"epoch": 1.0644329896907216,
	"grad_norm": 1.0984210499840694,
	"learning_rate": 1.6748417252158577e-07,
	"loss": 1.4328,
	"step": 413
	},
	{
	"epoch": 1.0670103092783505,
	"grad_norm": 1.1299450982658101,
	"learning_rate": 1.6733426765960456e-07,
	"loss": 1.5028,
	"step": 414
	},
	{
	"epoch": 1.0695876288659794,
	"grad_norm": 1.212850591316243,
	"learning_rate": 1.6718408546955635e-07,
	"loss": 1.5834,
	"step": 415
	},
	{
	"epoch": 1.0721649484536082,
	"grad_norm": 1.187341231477269,
	"learning_rate": 1.6703362656999299e-07,
	"loss": 1.5069,
	"step": 416
	},
	{
	"epoch": 1.074742268041237,
	"grad_norm": 1.2469684651532016,
	"learning_rate": 1.6688289158060593e-07,
	"loss": 1.518,
	"step": 417
	},
	{
	"epoch": 1.077319587628866,
	"grad_norm": 1.254398054291776,
	"learning_rate": 1.6673188112222395e-07,
	"loss": 1.578,
	"step": 418
	},
	{
	"epoch": 1.0798969072164948,
	"grad_norm": 1.1499801218824168,
	"learning_rate": 1.665805958168102e-07,
	"loss": 1.4979,
	"step": 419
	},
	{
	"epoch": 1.0824742268041236,
	"grad_norm": 1.1976396691121443,
	"learning_rate": 1.664290362874599e-07,
	"loss": 1.4914,
	"step": 420
	},
	{
	"epoch": 1.0850515463917525,
	"grad_norm": 1.1348401564795523,
	"learning_rate": 1.662772031583978e-07,
	"loss": 1.3902,
	"step": 421
	},
	{
	"epoch": 1.0876288659793814,
	"grad_norm": 1.2267166932133524,
	"learning_rate": 1.6612509705497542e-07,
	"loss": 1.4352,
	"step": 422
	},
	{
	"epoch": 1.0902061855670102,
	"grad_norm": 1.2873463533597629,
	"learning_rate": 1.6597271860366856e-07,
	"loss": 1.4478,
	"step": 423
	},
	{
	"epoch": 1.092783505154639,
	"grad_norm": 1.3679857975054832,
	"learning_rate": 1.6582006843207478e-07,
	"loss": 1.5168,
	"step": 424
	},
	{
	"epoch": 1.0953608247422681,
	"grad_norm": 1.326554289290517,
	"learning_rate": 1.6566714716891078e-07,
	"loss": 1.5008,
	"step": 425
	},
	{
	"epoch": 1.097938144329897,
	"grad_norm": 1.168969016350491,
	"learning_rate": 1.6551395544400978e-07,
	"loss": 1.4917,
	"step": 426
	},
	{
	"epoch": 1.1005154639175259,
	"grad_norm": 1.2413798753485674,
	"learning_rate": 1.6536049388831893e-07,
	"loss": 1.4502,
	"step": 427
	},
	{
	"epoch": 1.1030927835051547,
	"grad_norm": 1.1635621820926023,
	"learning_rate": 1.652067631338967e-07,
	"loss": 1.557,
	"step": 428
	},
	{
	"epoch": 1.1056701030927836,
	"grad_norm": 1.1573375306268514,
	"learning_rate": 1.6505276381391036e-07,
	"loss": 1.4244,
	"step": 429
	},
	{
	"epoch": 1.1082474226804124,
	"grad_norm": 1.2312412177915255,
	"learning_rate": 1.6489849656263335e-07,
	"loss": 1.5494,
	"step": 430
	},
	{
	"epoch": 1.1108247422680413,
	"grad_norm": 1.219284880839308,
	"learning_rate": 1.647439620154425e-07,
	"loss": 1.5306,
	"step": 431
	},
	{
	"epoch": 1.1134020618556701,
	"grad_norm": 1.173558682623126,
	"learning_rate": 1.6458916080881563e-07,
	"loss": 1.4429,
	"step": 432
	},
	{
	"epoch": 1.0025773195876289,
	"grad_norm": 1.229487690642213,
	"learning_rate": 1.6443409358032887e-07,
	"loss": 1.5753,
	"step": 433
	},
	{
	"epoch": 1.0051546391752577,
	"grad_norm": 1.2105170741564812,
	"learning_rate": 1.6427876096865392e-07,
	"loss": 1.5334,
	"step": 434
	},
	{
	"epoch": 1.0077319587628866,
	"grad_norm": 1.204008054808549,
	"learning_rate": 1.6412316361355562e-07,
	"loss": 1.42,
	"step": 435
	},
	{
	"epoch": 1.0103092783505154,
	"grad_norm": 1.1326791826110472,
	"learning_rate": 1.6396730215588912e-07,
	"loss": 1.4714,
	"step": 436
	},
	{
	"epoch": 1.0128865979381443,
	"grad_norm": 1.1200550697122906,
	"learning_rate": 1.6381117723759734e-07,
	"loss": 1.514,
	"step": 437
	},
	{
	"epoch": 1.0154639175257731,
	"grad_norm": 1.1890623492712462,
	"learning_rate": 1.6365478950170833e-07,
	"loss": 1.4181,
	"step": 438
	},
	{
	"epoch": 1.018041237113402,
	"grad_norm": 1.1631198253400261,
	"learning_rate": 1.6349813959233255e-07,
	"loss": 1.4062,
	"step": 439
	},
	{
	"epoch": 1.0206185567010309,
	"grad_norm": 1.1360996622048518,
	"learning_rate": 1.6334122815466031e-07,
	"loss": 1.4486,
	"step": 440
	},
	{
	"epoch": 1.0231958762886597,
	"grad_norm": 1.1864758464899412,
	"learning_rate": 1.6318405583495913e-07,
	"loss": 1.5347,
	"step": 441
	},
	{
	"epoch": 1.0231958762886597,
	"eval_loss": 1.4830812215805054,
	"eval_runtime": 78.5114,
	"eval_samples_per_second": 21.182,
	"eval_steps_per_second": 1.325,
	"step": 441
	},
	{
	"epoch": 1.0257731958762886,
	"grad_norm": 1.1301160006601543,
	"learning_rate": 1.6302662328057085e-07,
	"loss": 1.4353,
	"step": 442
	},
	{
	"epoch": 1.0283505154639174,
	"grad_norm": 1.1894059515483042,
	"learning_rate": 1.6286893113990932e-07,
	"loss": 1.469,
	"step": 443
	},
	{
	"epoch": 1.0309278350515463,
	"grad_norm": 1.1496261846772073,
	"learning_rate": 1.627109800624574e-07,
	"loss": 1.5501,
	"step": 444
	},
	{
	"epoch": 1.0335051546391754,
	"grad_norm": 1.2088185832357161,
	"learning_rate": 1.6255277069876451e-07,
	"loss": 1.4899,
	"step": 445
	},
	{
	"epoch": 1.0360824742268042,
	"grad_norm": 1.1253812221554047,
	"learning_rate": 1.6239430370044387e-07,
	"loss": 1.4122,
	"step": 446
	},
	{
	"epoch": 1.038659793814433,
	"grad_norm": 1.1716232931347121,
	"learning_rate": 1.6223557972016973e-07,
	"loss": 1.439,
	"step": 447
	},
	{
	"epoch": 1.041237113402062,
	"grad_norm": 1.18342528126353,
	"learning_rate": 1.6207659941167485e-07,
	"loss": 1.5094,
	"step": 448
	},
	{
	"epoch": 1.0438144329896908,
	"grad_norm": 1.2039062898512076,
	"learning_rate": 1.6191736342974767e-07,
	"loss": 1.4619,
	"step": 449
	},
	{
	"epoch": 1.0463917525773196,
	"grad_norm": 1.2183703075903023,
	"learning_rate": 1.617578724302297e-07,
	"loss": 1.5232,
	"step": 450
	},
	{
	"epoch": 1.0489690721649485,
	"grad_norm": 1.1388070881208434,
	"learning_rate": 1.615981270700128e-07,
	"loss": 1.4638,
	"step": 451
	},
	{
	"epoch": 1.0515463917525774,
	"grad_norm": 1.0877380908149572,
	"learning_rate": 1.6143812800703642e-07,
	"loss": 1.4447,
	"step": 452
	},
	{
	"epoch": 1.0541237113402062,
	"grad_norm": 1.1716268781083103,
	"learning_rate": 1.6127787590028495e-07,
	"loss": 1.5212,
	"step": 453
	},
	{
	"epoch": 1.056701030927835,
	"grad_norm": 1.107434556978612,
	"learning_rate": 1.6111737140978493e-07,
	"loss": 1.4558,
	"step": 454
	},
	{
	"epoch": 1.059278350515464,
	"grad_norm": 1.2519354029249565,
	"learning_rate": 1.609566151966025e-07,
	"loss": 1.4528,
	"step": 455
	},
	{
	"epoch": 1.0618556701030928,
	"grad_norm": 1.1919323581174677,
	"learning_rate": 1.6079560792284045e-07,
	"loss": 1.5621,
	"step": 456
	},
	{
	"epoch": 1.0644329896907216,
	"grad_norm": 1.1817947401366415,
	"learning_rate": 1.6063435025163568e-07,
	"loss": 1.4662,
	"step": 457
	},
	{
	"epoch": 1.0670103092783505,
	"grad_norm": 1.2557632574926887,
	"learning_rate": 1.6047284284715642e-07,
	"loss": 1.4804,
	"step": 458
	},
	{
	"epoch": 1.0695876288659794,
	"grad_norm": 1.2611184908202628,
	"learning_rate": 1.6031108637459932e-07,
	"loss": 1.3898,
	"step": 459
	},
	{
	"epoch": 1.0721649484536082,
	"grad_norm": 1.2900278262304008,
	"learning_rate": 1.6014908150018703e-07,
	"loss": 1.5064,
	"step": 460
	},
	{
	"epoch": 1.074742268041237,
	"grad_norm": 1.195779708533936,
	"learning_rate": 1.5998682889116524e-07,
	"loss": 1.5224,
	"step": 461
	},
	{
	"epoch": 1.077319587628866,
	"grad_norm": 1.1566664249843968,
	"learning_rate": 1.5982432921579993e-07,
	"loss": 1.4517,
	"step": 462
	},
	{
	"epoch": 1.0798969072164948,
	"grad_norm": 1.2001020296312388,
	"learning_rate": 1.596615831433747e-07,
	"loss": 1.5602,
	"step": 463
	},
	{
	"epoch": 1.0824742268041236,
	"grad_norm": 1.1943899233375934,
	"learning_rate": 1.5949859134418796e-07,
	"loss": 1.3757,
	"step": 464
	},
	{
	"epoch": 1.0850515463917525,
	"grad_norm": 1.231964645169981,
	"learning_rate": 1.5933535448955027e-07,
	"loss": 1.4859,
	"step": 465
	},
	{
	"epoch": 1.0876288659793814,
	"grad_norm": 1.1068734683342414,
	"learning_rate": 1.5917187325178137e-07,
	"loss": 1.4629,
	"step": 466
	},
	{
	"epoch": 1.0902061855670102,
	"grad_norm": 1.1513773116941175,
	"learning_rate": 1.590081483042076e-07,
	"loss": 1.5125,
	"step": 467
	},
	{
	"epoch": 1.0927835051546393,
	"grad_norm": 1.265359820624344,
	"learning_rate": 1.5884418032115906e-07,
	"loss": 1.5204,
	"step": 468
	},
	{
	"epoch": 1.0953608247422681,
	"grad_norm": 1.1596012619544869,
	"learning_rate": 1.5867996997796683e-07,
	"loss": 1.4528,
	"step": 469
	},
	{
	"epoch": 1.097938144329897,
	"grad_norm": 1.1953930948748877,
	"learning_rate": 1.5851551795096025e-07,
	"loss": 1.404,
	"step": 470
	},
	{
	"epoch": 1.1005154639175259,
	"grad_norm": 1.1467999018042732,
	"learning_rate": 1.5835082491746393e-07,
	"loss": 1.5314,
	"step": 471
	},
	{
	"epoch": 1.1030927835051547,
	"grad_norm": 1.208554802219746,
	"learning_rate": 1.581858915557953e-07,
	"loss": 1.4632,
	"step": 472
	},
	{
	"epoch": 1.1056701030927836,
	"grad_norm": 1.210149302840143,
	"learning_rate": 1.580207185452614e-07,
	"loss": 1.4828,
	"step": 473
	},
	{
	"epoch": 1.1082474226804124,
	"grad_norm": 1.0949101750229728,
	"learning_rate": 1.5785530656615654e-07,
	"loss": 1.4612,
	"step": 474
	},
	{
	"epoch": 1.1108247422680413,
	"grad_norm": 1.1550991304470553,
	"learning_rate": 1.576896562997591e-07,
	"loss": 1.5112,
	"step": 475
	},
	{
	"epoch": 1.1134020618556701,
	"grad_norm": 1.267086705459486,
	"learning_rate": 1.5752376842832898e-07,
	"loss": 1.5086,
	"step": 476
	},
	{
	"epoch": 1.115979381443299,
	"grad_norm": 1.157659801945543,
	"learning_rate": 1.573576436351046e-07,
	"loss": 1.4721,
	"step": 477
	},
	{
	"epoch": 1.1185567010309279,
	"grad_norm": 1.1792779255646542,
	"learning_rate": 1.571912826043003e-07,
	"loss": 1.4216,
	"step": 478
	},
	{
	"epoch": 1.1211340206185567,
	"grad_norm": 1.279434721476292,
	"learning_rate": 1.5702468602110331e-07,
	"loss": 1.4098,
	"step": 479
	},
	{
	"epoch": 1.1237113402061856,
	"grad_norm": 1.2412716991217037,
	"learning_rate": 1.5685785457167113e-07,
	"loss": 1.4855,
	"step": 480
	},
	{
	"epoch": 1.1262886597938144,
	"grad_norm": 1.1878566044688987,
	"learning_rate": 1.5669078894312847e-07,
	"loss": 1.5252,
	"step": 481
	},
	{
	"epoch": 1.1288659793814433,
	"grad_norm": 1.2441727908973987,
	"learning_rate": 1.565234898235646e-07,
	"loss": 1.5462,
	"step": 482
	},
	{
	"epoch": 1.1314432989690721,
	"grad_norm": 1.176061624777031,
	"learning_rate": 1.5635595790203056e-07,
	"loss": 1.5135,
	"step": 483
	},
	{
	"epoch": 1.134020618556701,
	"grad_norm": 1.246481799384192,
	"learning_rate": 1.5618819386853602e-07,
	"loss": 1.5357,
	"step": 484
	},
	{
	"epoch": 1.1365979381443299,
	"grad_norm": 1.2042279646873306,
	"learning_rate": 1.5602019841404688e-07,
	"loss": 1.5146,
	"step": 485
	},
	{
	"epoch": 1.1391752577319587,
	"grad_norm": 1.1664753868373192,
	"learning_rate": 1.5585197223048202e-07,
	"loss": 1.5007,
	"step": 486
	},
	{
	"epoch": 1.1417525773195876,
	"grad_norm": 1.0786695822166654,
	"learning_rate": 1.5568351601071068e-07,
	"loss": 1.4637,
	"step": 487
	},
	{
	"epoch": 1.1443298969072164,
	"grad_norm": 1.1782507265833873,
	"learning_rate": 1.5551483044854952e-07,
	"loss": 1.4811,
	"step": 488
	},
	{
	"epoch": 1.1469072164948453,
	"grad_norm": 1.2326350516083906,
	"learning_rate": 1.5534591623875985e-07,
	"loss": 1.5482,
	"step": 489
	},
	{
	"epoch": 1.1494845360824741,
	"grad_norm": 1.3932475474558166,
	"learning_rate": 1.551767740770446e-07,
	"loss": 1.4994,
	"step": 490
	},
	{
	"epoch": 1.1494845360824741,
	"eval_loss": 1.4784166812896729,
	"eval_runtime": 78.5816,
	"eval_samples_per_second": 21.163,
	"eval_steps_per_second": 1.323,
	"step": 490
	},
	{
	"epoch": 1.152061855670103,
	"grad_norm": 1.2782842614630645,
	"learning_rate": 1.5500740466004562e-07,
	"loss": 1.4751,
	"step": 491
	},
	{
	"epoch": 1.1546391752577319,
	"grad_norm": 1.216799121655535,
	"learning_rate": 1.5483780868534083e-07,
	"loss": 1.4724,
	"step": 492
	},
	{
	"epoch": 1.1572164948453607,
	"grad_norm": 1.1868499010457458,
	"learning_rate": 1.546679868514411e-07,
	"loss": 1.4335,
	"step": 493
	},
	{
	"epoch": 1.1597938144329896,
	"grad_norm": 1.199212625101753,
	"learning_rate": 1.544979398577877e-07,
	"loss": 1.428,
	"step": 494
	},
	{
	"epoch": 1.1623711340206186,
	"grad_norm": 1.1357296953077098,
	"learning_rate": 1.543276684047491e-07,
	"loss": 1.4542,
	"step": 495
	},
	{
	"epoch": 1.1649484536082475,
	"grad_norm": 1.213487385523563,
	"learning_rate": 1.5415717319361846e-07,
	"loss": 1.4724,
	"step": 496
	},
	{
	"epoch": 1.1675257731958764,
	"grad_norm": 1.1099648565570772,
	"learning_rate": 1.5398645492661028e-07,
	"loss": 1.4254,
	"step": 497
	},
	{
	"epoch": 1.1701030927835052,
	"grad_norm": 1.1324706525701729,
	"learning_rate": 1.5381551430685795e-07,
	"loss": 1.5048,
	"step": 498
	},
	{
	"epoch": 1.172680412371134,
	"grad_norm": 1.312867551517799,
	"learning_rate": 1.5364435203841056e-07,
	"loss": 1.4713,
	"step": 499
	},
	{
	"epoch": 1.175257731958763,
	"grad_norm": 1.1933326421003594,
	"learning_rate": 1.5347296882623017e-07,
	"loss": 1.5138,
	"step": 500
	},
	{
	"epoch": 1.1778350515463918,
	"grad_norm": 1.0985685695284346,
	"learning_rate": 1.533013653761887e-07,
	"loss": 1.433,
	"step": 501
	},
	{
	"epoch": 1.1804123711340206,
	"grad_norm": 1.1149163975715322,
	"learning_rate": 1.5312954239506533e-07,
	"loss": 1.3835,
	"step": 502
	},
	{
	"epoch": 1.1829896907216495,
	"grad_norm": 1.3227767494195912,
	"learning_rate": 1.529575005905433e-07,
	"loss": 1.4895,
	"step": 503
	},
	{
	"epoch": 1.1855670103092784,
	"grad_norm": 1.214579951187228,
	"learning_rate": 1.5278524067120717e-07,
	"loss": 1.5998,
	"step": 504
	},
	{
	"epoch": 1.1881443298969072,
	"grad_norm": 1.242415460112634,
	"learning_rate": 1.5261276334653982e-07,
	"loss": 1.419,
	"step": 505
	},
	{
	"epoch": 1.190721649484536,
	"grad_norm": 1.2389773021924564,
	"learning_rate": 1.5244006932691953e-07,
	"loss": 1.4202,
	"step": 506
	},
	{
	"epoch": 1.193298969072165,
	"grad_norm": 1.2349193613971634,
	"learning_rate": 1.5226715932361716e-07,
	"loss": 1.5457,
	"step": 507
	},
	{
	"epoch": 1.1958762886597938,
	"grad_norm": 1.1148921709276238,
	"learning_rate": 1.5209403404879302e-07,
	"loss": 1.3884,
	"step": 508
	},
	{
	"epoch": 1.1984536082474226,
	"grad_norm": 1.2416754407978092,
	"learning_rate": 1.5192069421549416e-07,
	"loss": 1.4643,
	"step": 509
	},
	{
	"epoch": 1.2010309278350515,
	"grad_norm": 1.240689395283768,
	"learning_rate": 1.5174714053765122e-07,
	"loss": 1.572,
	"step": 510
	},
	{
	"epoch": 1.2036082474226804,
	"grad_norm": 1.140745518174075,
	"learning_rate": 1.5157337373007578e-07,
	"loss": 1.3663,
	"step": 511
	},
	{
	"epoch": 1.2061855670103092,
	"grad_norm": 1.1312657539313165,
	"learning_rate": 1.5139939450845698e-07,
	"loss": 1.4681,
	"step": 512
	},
	{
	"epoch": 1.208762886597938,
	"grad_norm": 1.1613965817840117,
	"learning_rate": 1.51225203589359e-07,
	"loss": 1.548,
	"step": 513
	},
	{
	"epoch": 1.211340206185567,
	"grad_norm": 1.1253218321610134,
	"learning_rate": 1.5105080169021789e-07,
	"loss": 1.4644,
	"step": 514
	},
	{
	"epoch": 1.2139175257731958,
	"grad_norm": 1.1202729459915262,
	"learning_rate": 1.5087618952933866e-07,
	"loss": 1.4874,
	"step": 515
	},
	{
	"epoch": 1.2164948453608249,
	"grad_norm": 1.1754915638068841,
	"learning_rate": 1.5070136782589233e-07,
	"loss": 1.4904,
	"step": 516
	},
	{
	"epoch": 1.2190721649484537,
	"grad_norm": 1.211459122094429,
	"learning_rate": 1.5052633729991294e-07,
	"loss": 1.4832,
	"step": 517
	},
	{
	"epoch": 1.2216494845360826,
	"grad_norm": 1.2489759850317173,
	"learning_rate": 1.5035109867229456e-07,
	"loss": 1.4464,
	"step": 518
	},
	{
	"epoch": 1.2242268041237114,
	"grad_norm": 1.2194317834170105,
	"learning_rate": 1.5017565266478848e-07,
	"loss": 1.4897,
	"step": 519
	},
	{
	"epoch": 1.2268041237113403,
	"grad_norm": 1.1036732258357687,
	"learning_rate": 1.5e-07,
	"loss": 1.491,
	"step": 520
	},
	{
	"epoch": 1.2293814432989691,
	"grad_norm": 1.1658107658884465,
	"learning_rate": 1.4982414140138563e-07,
	"loss": 1.4678,
	"step": 521
	},
	{
	"epoch": 1.231958762886598,
	"grad_norm": 1.2704801398111358,
	"learning_rate": 1.4964807759325008e-07,
	"loss": 1.3781,
	"step": 522
	},
	{
	"epoch": 1.2345360824742269,
	"grad_norm": 1.1848897409786574,
	"learning_rate": 1.4947180930074323e-07,
	"loss": 1.4799,
	"step": 523
	},
	{
	"epoch": 1.2371134020618557,
	"grad_norm": 1.2016447040520333,
	"learning_rate": 1.492953372498571e-07,
	"loss": 1.5686,
	"step": 524
	},
	{
	"epoch": 1.2396907216494846,
	"grad_norm": 1.2911746325303657,
	"learning_rate": 1.4911866216742307e-07,
	"loss": 1.5241,
	"step": 525
	},
	{
	"epoch": 1.2422680412371134,
	"grad_norm": 1.1990990248512616,
	"learning_rate": 1.4894178478110855e-07,
	"loss": 1.5357,
	"step": 526
	},
	{
	"epoch": 1.2448453608247423,
	"grad_norm": 1.149144012214145,
	"learning_rate": 1.4876470581941434e-07,
	"loss": 1.4571,
	"step": 527
	},
	{
	"epoch": 1.2474226804123711,
	"grad_norm": 1.198321859008649,
	"learning_rate": 1.485874260116714e-07,
	"loss": 1.5113,
	"step": 528
	},
	{
	"epoch": 1.25,
	"grad_norm": 1.2113266741136735,
	"learning_rate": 1.4840994608803788e-07,
	"loss": 1.4782,
	"step": 529
	},
	{
	"epoch": 1.2525773195876289,
	"grad_norm": 1.1425317175556289,
	"learning_rate": 1.4823226677949622e-07,
	"loss": 1.5012,
	"step": 530
	},
	{
	"epoch": 1.2551546391752577,
	"grad_norm": 1.268980235594048,
	"learning_rate": 1.4805438881784995e-07,
	"loss": 1.4529,
	"step": 531
	},
	{
	"epoch": 1.2577319587628866,
	"grad_norm": 1.151209820959519,
	"learning_rate": 1.478763129357209e-07,
	"loss": 1.4734,
	"step": 532
	},
	{
	"epoch": 1.2603092783505154,
	"grad_norm": 1.2260752095042977,
	"learning_rate": 1.4769803986654603e-07,
	"loss": 1.4896,
	"step": 533
	},
	{
	"epoch": 1.2628865979381443,
	"grad_norm": 1.2017887268263763,
	"learning_rate": 1.4751957034457445e-07,
	"loss": 1.4667,
	"step": 534
	},
	{
	"epoch": 1.2654639175257731,
	"grad_norm": 1.2271959233872554,
	"learning_rate": 1.4734090510486432e-07,
	"loss": 1.4888,
	"step": 535
	},
	{
	"epoch": 1.268041237113402,
	"grad_norm": 1.2197382019523413,
	"learning_rate": 1.4716204488328006e-07,
	"loss": 1.5358,
	"step": 536
	},
	{
	"epoch": 1.2706185567010309,
	"grad_norm": 1.1416105765632265,
	"learning_rate": 1.4698299041648902e-07,
	"loss": 1.4275,
	"step": 537
	},
	{
	"epoch": 1.2731958762886597,
	"grad_norm": 1.2103999127902116,
	"learning_rate": 1.468037424419586e-07,
	"loss": 1.4822,
	"step": 538
	},
	{
	"epoch": 1.2757731958762886,
	"grad_norm": 1.2127169663908728,
	"learning_rate": 1.4662430169795328e-07,
	"loss": 1.4477,
	"step": 539
	},
	{
	"epoch": 1.2757731958762886,
	"eval_loss": 1.474165678024292,
	"eval_runtime": 78.6592,
	"eval_samples_per_second": 21.142,
	"eval_steps_per_second": 1.322,
	"step": 539
	},
	{
	"epoch": 1.2783505154639174,
	"grad_norm": 1.2719723678439783,
	"learning_rate": 1.464446689235314e-07,
	"loss": 1.5694,
	"step": 540
	},
	{
	"epoch": 1.2809278350515463,
	"grad_norm": 1.094905461428815,
	"learning_rate": 1.4626484485854228e-07,
	"loss": 1.4405,
	"step": 541
	},
	{
	"epoch": 1.2835051546391751,
	"grad_norm": 1.1572746515704029,
	"learning_rate": 1.4608483024362303e-07,
	"loss": 1.49,
	"step": 542
	},
	{
	"epoch": 1.286082474226804,
	"grad_norm": 1.2136708668686302,
	"learning_rate": 1.4590462582019566e-07,
	"loss": 1.5488,
	"step": 543
	},
	{
	"epoch": 1.2886597938144329,
	"grad_norm": 1.1351781538641772,
	"learning_rate": 1.4572423233046385e-07,
	"loss": 1.4436,
	"step": 544
	},
	{
	"epoch": 1.291237113402062,
	"grad_norm": 1.2233902585418839,
	"learning_rate": 1.455436505174101e-07,
	"loss": 1.4752,
	"step": 545
	},
	{
	"epoch": 1.2938144329896908,
	"grad_norm": 1.2111257906769834,
	"learning_rate": 1.453628811247924e-07,
	"loss": 1.5437,
	"step": 546
	},
	{
	"epoch": 1.2963917525773196,
	"grad_norm": 1.214330730454999,
	"learning_rate": 1.4518192489714148e-07,
	"loss": 1.5874,
	"step": 547
	},
	{
	"epoch": 1.2989690721649485,
	"grad_norm": 1.1501171354212085,
	"learning_rate": 1.4500078257975746e-07,
	"loss": 1.4441,
	"step": 548
	},
	{
	"epoch": 1.3015463917525774,
	"grad_norm": 1.256132517451847,
	"learning_rate": 1.4481945491870692e-07,
	"loss": 1.4869,
	"step": 549
	},
	{
	"epoch": 1.3041237113402062,
	"grad_norm": 1.153698353782002,
	"learning_rate": 1.4463794266081993e-07,
	"loss": 1.4298,
	"step": 550
	},
	{
	"epoch": 1.306701030927835,
	"grad_norm": 1.1141900425922164,
	"learning_rate": 1.4445624655368672e-07,
	"loss": 1.4081,
	"step": 551
	},
	{
	"epoch": 1.309278350515464,
	"grad_norm": 1.1727962553732723,
	"learning_rate": 1.4427436734565474e-07,
	"loss": 1.4843,
	"step": 552
	},
	{
	"epoch": 1.3118556701030928,
	"grad_norm": 1.1904748231664284,
	"learning_rate": 1.4409230578582564e-07,
	"loss": 1.4408,
	"step": 553
	},
	{
	"epoch": 1.3144329896907216,
	"grad_norm": 1.1596562097777137,
	"learning_rate": 1.4391006262405212e-07,
	"loss": 1.5078,
	"step": 554
	},
	{
	"epoch": 1.3170103092783505,
	"grad_norm": 1.1362387372168263,
	"learning_rate": 1.4372763861093478e-07,
	"loss": 1.4596,
	"step": 555
	},
	{
	"epoch": 1.3195876288659794,
	"grad_norm": 1.2438435278065572,
	"learning_rate": 1.4354503449781913e-07,
	"loss": 1.536,
	"step": 556
	},
	{
	"epoch": 1.3221649484536082,
	"grad_norm": 1.182522665170931,
	"learning_rate": 1.4336225103679243e-07,
	"loss": 1.5611,
	"step": 557
	},
	{
	"epoch": 1.324742268041237,
	"grad_norm": 1.2822957709992338,
	"learning_rate": 1.4317928898068066e-07,
	"loss": 1.4826,
	"step": 558
	},
	{
	"epoch": 1.327319587628866,
	"grad_norm": 1.2758012985116745,
	"learning_rate": 1.4299614908304528e-07,
	"loss": 1.4543,
	"step": 559
	},
	{
	"epoch": 1.3298969072164948,
	"grad_norm": 1.164766457118801,
	"learning_rate": 1.4281283209818038e-07,
	"loss": 1.4061,
	"step": 560
	},
	{
	"epoch": 1.3324742268041236,
	"grad_norm": 1.1663065580316805,
	"learning_rate": 1.4262933878110923e-07,
	"loss": 1.5151,
	"step": 561
	},
	{
	"epoch": 1.3350515463917525,
	"grad_norm": 1.1525726704239359,
	"learning_rate": 1.4244566988758152e-07,
	"loss": 1.5209,
	"step": 562
	},
	{
	"epoch": 1.3376288659793816,
	"grad_norm": 1.194456252210575,
	"learning_rate": 1.4226182617406994e-07,
	"loss": 1.5003,
	"step": 563
	},
	{
	"epoch": 1.3402061855670104,
	"grad_norm": 1.2788205228042828,
	"learning_rate": 1.4207780839776734e-07,
	"loss": 1.5807,
	"step": 564
	},
	{
	"epoch": 1.3427835051546393,
	"grad_norm": 1.2101911204508933,
	"learning_rate": 1.4189361731658336e-07,
	"loss": 1.4851,
	"step": 565
	},
	{
	"epoch": 1.3453608247422681,
	"grad_norm": 1.143725315674112,
	"learning_rate": 1.417092536891415e-07,
	"loss": 1.5258,
	"step": 566
	},
	{
	"epoch": 1.347938144329897,
	"grad_norm": 1.1692223610404973,
	"learning_rate": 1.4152471827477593e-07,
	"loss": 1.4843,
	"step": 567
	},
	{
	"epoch": 1.3505154639175259,
	"grad_norm": 1.106947712823219,
	"learning_rate": 1.413400118335283e-07,
	"loss": 1.4339,
	"step": 568
	},
	{
	"epoch": 1.3530927835051547,
	"grad_norm": 1.27487397886756,
	"learning_rate": 1.4115513512614468e-07,
	"loss": 1.4993,
	"step": 569
	},
	{
	"epoch": 1.3556701030927836,
	"grad_norm": 1.2236429851509971,
	"learning_rate": 1.4097008891407245e-07,
	"loss": 1.4858,
	"step": 570
	},
	{
	"epoch": 1.3582474226804124,
	"grad_norm": 1.156634200386137,
	"learning_rate": 1.407848739594571e-07,
	"loss": 1.4973,
	"step": 571
	},
	{
	"epoch": 1.3608247422680413,
	"grad_norm": 1.287092803375809,
	"learning_rate": 1.4059949102513913e-07,
	"loss": 1.476,
	"step": 572
	},
	{
	"epoch": 1.3634020618556701,
	"grad_norm": 1.2572273439235049,
	"learning_rate": 1.404139408746508e-07,
	"loss": 1.4798,
	"step": 573
	},
	{
	"epoch": 1.365979381443299,
	"grad_norm": 1.2276167223192924,
	"learning_rate": 1.4022822427221322e-07,
	"loss": 1.497,
	"step": 574
	},
	{
	"epoch": 1.3685567010309279,
	"grad_norm": 1.2392858668139202,
	"learning_rate": 1.4004234198273302e-07,
	"loss": 1.5471,
	"step": 575
	},
	{
	"epoch": 1.3711340206185567,
	"grad_norm": 1.2887104141411092,
	"learning_rate": 1.3985629477179915e-07,
	"loss": 1.4953,
	"step": 576
	},
	{
	"epoch": 1.3737113402061856,
	"grad_norm": 1.2401450542055277,
	"learning_rate": 1.3967008340567996e-07,
	"loss": 1.5095,
	"step": 577
	},
	{
	"epoch": 1.3762886597938144,
	"grad_norm": 1.1989888153377388,
	"learning_rate": 1.3948370865131977e-07,
	"loss": 1.5633,
	"step": 578
	},
	{
	"epoch": 1.3788659793814433,
	"grad_norm": 1.1616958019574242,
	"learning_rate": 1.3929717127633597e-07,
	"loss": 1.5035,
	"step": 579
	},
	{
	"epoch": 1.3814432989690721,
	"grad_norm": 1.1581446950268255,
	"learning_rate": 1.3911047204901557e-07,
	"loss": 1.5232,
	"step": 580
	},
	{
	"epoch": 1.384020618556701,
	"grad_norm": 1.2240328360723358,
	"learning_rate": 1.3892361173831243e-07,
	"loss": 1.4948,
	"step": 581
	},
	{
	"epoch": 1.3865979381443299,
	"grad_norm": 1.2405325514200207,
	"learning_rate": 1.3873659111384362e-07,
	"loss": 1.4815,
	"step": 582
	},
	{
	"epoch": 1.3891752577319587,
	"grad_norm": 1.253563661932654,
	"learning_rate": 1.385494109458866e-07,
	"loss": 1.4284,
	"step": 583
	},
	{
	"epoch": 1.3917525773195876,
	"grad_norm": 1.1541355431922666,
	"learning_rate": 1.3836207200537596e-07,
	"loss": 1.4213,
	"step": 584
	},
	{
	"epoch": 1.3943298969072164,
	"grad_norm": 1.2315631871967962,
	"learning_rate": 1.381745750639002e-07,
	"loss": 1.5876,
	"step": 585
	},
	{
	"epoch": 1.3969072164948453,
	"grad_norm": 1.3294003251532183,
	"learning_rate": 1.3798692089369854e-07,
	"loss": 1.5821,
	"step": 586
	},
	{
	"epoch": 1.3994845360824741,
	"grad_norm": 1.1726722981119444,
	"learning_rate": 1.3779911026765784e-07,
	"loss": 1.4679,
	"step": 587
	},
	{
	"epoch": 1.402061855670103,
	"grad_norm": 1.1782526174868226,
	"learning_rate": 1.3761114395930927e-07,
	"loss": 1.4851,
	"step": 588
	},
	{
	"epoch": 1.402061855670103,
	"eval_loss": 1.4704606533050537,
	"eval_runtime": 78.4306,
	"eval_samples_per_second": 21.203,
	"eval_steps_per_second": 1.326,
	"step": 588
	},
	{
	"epoch": 1.4046391752577319,
	"grad_norm": 1.192382882455904,
	"learning_rate": 1.3742302274282532e-07,
	"loss": 1.4707,
	"step": 589
	},
	{
	"epoch": 1.4072164948453607,
	"grad_norm": 1.1364191762169735,
	"learning_rate": 1.3723474739301636e-07,
	"loss": 1.4066,
	"step": 590
	},
	{
	"epoch": 1.4097938144329896,
	"grad_norm": 1.1453269827664123,
	"learning_rate": 1.3704631868532767e-07,
	"loss": 1.4515,
	"step": 591
	},
	{
	"epoch": 1.4123711340206184,
	"grad_norm": 1.1956529180296382,
	"learning_rate": 1.3685773739583617e-07,
	"loss": 1.5102,
	"step": 592
	},
	{
	"epoch": 1.4149484536082475,
	"grad_norm": 1.2356880855065446,
	"learning_rate": 1.3666900430124717e-07,
	"loss": 1.497,
	"step": 593
	},
	{
	"epoch": 1.4175257731958764,
	"grad_norm": 1.1639642247143227,
	"learning_rate": 1.3648012017889121e-07,
	"loss": 1.485,
	"step": 594
	},
	{
	"epoch": 1.4201030927835052,
	"grad_norm": 1.3028192646105916,
	"learning_rate": 1.3629108580672093e-07,
	"loss": 1.5073,
	"step": 595
	},
	{
	"epoch": 1.422680412371134,
	"grad_norm": 1.1389634389377659,
	"learning_rate": 1.3610190196330775e-07,
	"loss": 1.4455,
	"step": 596
	},
	{
	"epoch": 1.425257731958763,
	"grad_norm": 1.2726998162356058,
	"learning_rate": 1.3591256942783868e-07,
	"loss": 1.6226,
	"step": 597
	},
	{
	"epoch": 1.4278350515463918,
	"grad_norm": 1.257001783763068,
	"learning_rate": 1.3572308898011326e-07,
	"loss": 1.4527,
	"step": 598
	},
	{
	"epoch": 1.4304123711340206,
	"grad_norm": 1.1897100853456886,
	"learning_rate": 1.3553346140054013e-07,
	"loss": 1.4748,
	"step": 599
	},
	{
	"epoch": 1.4329896907216495,
	"grad_norm": 1.144640373535268,
	"learning_rate": 1.3534368747013394e-07,
	"loss": 1.4733,
	"step": 600
	},
	{
	"epoch": 1.4355670103092784,
	"grad_norm": 1.2252518120948153,
	"learning_rate": 1.351537679705121e-07,
	"loss": 1.4539,
	"step": 601
	},
	{
	"epoch": 1.4381443298969072,
	"grad_norm": 1.1565118663607803,
	"learning_rate": 1.3496370368389165e-07,
	"loss": 1.5236,
	"step": 602
	},
	{
	"epoch": 1.440721649484536,
	"grad_norm": 1.2594818027515957,
	"learning_rate": 1.3477349539308584e-07,
	"loss": 1.4856,
	"step": 603
	},
	{
	"epoch": 1.443298969072165,
	"grad_norm": 1.1419387268061763,
	"learning_rate": 1.3458314388150115e-07,
	"loss": 1.4153,
	"step": 604
	},
	{
	"epoch": 1.4458762886597938,
	"grad_norm": 1.098148594961463,
	"learning_rate": 1.3439264993313385e-07,
	"loss": 1.4447,
	"step": 605
	},
	{
	"epoch": 1.4484536082474226,
	"grad_norm": 1.2022510861175644,
	"learning_rate": 1.342020143325669e-07,
	"loss": 1.5516,
	"step": 606
	},
	{
	"epoch": 1.4510309278350515,
	"grad_norm": 1.1444341747665796,
	"learning_rate": 1.3401123786496663e-07,
	"loss": 1.4224,
	"step": 607
	},
	{
	"epoch": 1.4536082474226804,
	"grad_norm": 1.1349715757276768,
	"learning_rate": 1.3382032131607965e-07,
	"loss": 1.3973,
	"step": 608
	},
	{
	"epoch": 1.4561855670103092,
	"grad_norm": 1.1228999228709107,
	"learning_rate": 1.3362926547222946e-07,
	"loss": 1.4149,
	"step": 609
	},
	{
	"epoch": 1.458762886597938,
	"grad_norm": 1.2396644989009444,
	"learning_rate": 1.3343807112031327e-07,
	"loss": 1.4999,
	"step": 610
	},
	{
	"epoch": 1.4613402061855671,
	"grad_norm": 1.1458789067959891,
	"learning_rate": 1.3324673904779874e-07,
	"loss": 1.4606,
	"step": 611
	},
	{
	"epoch": 1.463917525773196,
	"grad_norm": 1.1579136550048348,
	"learning_rate": 1.3305527004272087e-07,
	"loss": 1.5091,
	"step": 612
	},
	{
	"epoch": 1.4664948453608249,
	"grad_norm": 1.1065943702186947,
	"learning_rate": 1.3286366489367846e-07,
	"loss": 1.4981,
	"step": 613
	},
	{
	"epoch": 1.4690721649484537,
	"grad_norm": 1.1701708173193963,
	"learning_rate": 1.3267192438983117e-07,
	"loss": 1.4864,
	"step": 614
	},
	{
	"epoch": 1.4716494845360826,
	"grad_norm": 1.1655119326822228,
	"learning_rate": 1.324800493208961e-07,
	"loss": 1.4609,
	"step": 615
	},
	{
	"epoch": 1.4742268041237114,
	"grad_norm": 1.1668952825289185,
	"learning_rate": 1.322880404771446e-07,
	"loss": 1.5529,
	"step": 616
	},
	{
	"epoch": 1.4768041237113403,
	"grad_norm": 1.1827027818749032,
	"learning_rate": 1.3209589864939906e-07,
	"loss": 1.4712,
	"step": 617
	},
	{
	"epoch": 1.4793814432989691,
	"grad_norm": 1.16644526665677,
	"learning_rate": 1.3190362462902935e-07,
	"loss": 1.4444,
	"step": 618
	},
	{
	"epoch": 1.481958762886598,
	"grad_norm": 1.2457925422571992,
	"learning_rate": 1.3171121920795012e-07,
	"loss": 1.5042,
	"step": 619
	},
	{
	"epoch": 1.4845360824742269,
	"grad_norm": 1.1848287601135188,
	"learning_rate": 1.3151868317861698e-07,
	"loss": 1.5314,
	"step": 620
	},
	{
	"epoch": 1.4871134020618557,
	"grad_norm": 1.181022425488295,
	"learning_rate": 1.3132601733402355e-07,
	"loss": 1.5557,
	"step": 621
	},
	{
	"epoch": 1.4896907216494846,
	"grad_norm": 1.2220291945868886,
	"learning_rate": 1.3113322246769816e-07,
	"loss": 1.4743,
	"step": 622
	},
	{
	"epoch": 1.4922680412371134,
	"grad_norm": 1.23521757296614,
	"learning_rate": 1.3094029937370049e-07,
	"loss": 1.4494,
	"step": 623
	},
	{
	"epoch": 1.4948453608247423,
	"grad_norm": 1.1540829106187,
	"learning_rate": 1.3074724884661832e-07,
	"loss": 1.492,
	"step": 624
	},
	{
	"epoch": 1.4974226804123711,
	"grad_norm": 1.2734897659131177,
	"learning_rate": 1.3055407168156436e-07,
	"loss": 1.5114,
	"step": 625
	},
	{
	"epoch": 1.5,
	"grad_norm": 1.0821110483827021,
	"learning_rate": 1.3036076867417286e-07,
	"loss": 1.4899,
	"step": 626
	},
	{
	"epoch": 1.5025773195876289,
	"grad_norm": 1.1591573630093586,
	"learning_rate": 1.3016734062059636e-07,
	"loss": 1.4287,
	"step": 627
	},
	{
	"epoch": 1.5051546391752577,
	"grad_norm": 1.252040765136315,
	"learning_rate": 1.299737883175024e-07,
	"loss": 1.4215,
	"step": 628
	},
	{
	"epoch": 1.5077319587628866,
	"grad_norm": 1.122072741553452,
	"learning_rate": 1.2978011256207041e-07,
	"loss": 1.4535,
	"step": 629
	},
	{
	"epoch": 1.5103092783505154,
	"grad_norm": 1.1929144211640363,
	"learning_rate": 1.2958631415198813e-07,
	"loss": 1.4264,
	"step": 630
	},
	{
	"epoch": 1.5128865979381443,
	"grad_norm": 1.1904423534607285,
	"learning_rate": 1.293923938854485e-07,
	"loss": 1.4966,
	"step": 631
	},
	{
	"epoch": 1.5154639175257731,
	"grad_norm": 1.2142748405878527,
	"learning_rate": 1.2919835256114638e-07,
	"loss": 1.4152,
	"step": 632
	},
	{
	"epoch": 1.518041237113402,
	"grad_norm": 1.2310572109795892,
	"learning_rate": 1.290041909782752e-07,
	"loss": 1.3986,
	"step": 633
	},
	{
	"epoch": 1.5206185567010309,
	"grad_norm": 1.1532910482056786,
	"learning_rate": 1.2880990993652377e-07,
	"loss": 1.4606,
	"step": 634
	},
	{
	"epoch": 1.5231958762886597,
	"grad_norm": 1.3007475509786544,
	"learning_rate": 1.2861551023607276e-07,
	"loss": 1.5304,
	"step": 635
	},
	{
	"epoch": 1.5257731958762886,
	"grad_norm": 1.15166741332348,
	"learning_rate": 1.2842099267759174e-07,
	"loss": 1.3824,
	"step": 636
	},
	{
	"epoch": 1.5283505154639174,
	"grad_norm": 1.1988826738728366,
	"learning_rate": 1.2822635806223556e-07,
	"loss": 1.567,
	"step": 637
	},
	{
	"epoch": 1.5283505154639174,
	"eval_loss": 1.4671498537063599,
	"eval_runtime": 78.5049,
	"eval_samples_per_second": 21.183,
	"eval_steps_per_second": 1.325,
	"step": 637
	},
	{
	"epoch": 1.5309278350515463,
	"grad_norm": 1.2386857438447851,
	"learning_rate": 1.2803160719164125e-07,
	"loss": 1.5304,
	"step": 638
	},
	{
	"epoch": 1.5335051546391751,
	"grad_norm": 1.1597769415791235,
	"learning_rate": 1.2783674086792466e-07,
	"loss": 1.497,
	"step": 639
	},
	{
	"epoch": 1.536082474226804,
	"grad_norm": 1.2924257071547485,
	"learning_rate": 1.2764175989367717e-07,
	"loss": 1.4877,
	"step": 640
	},
	{
	"epoch": 1.5386597938144329,
	"grad_norm": 1.222248016944084,
	"learning_rate": 1.2744666507196224e-07,
	"loss": 1.5257,
	"step": 641
	},
	{
	"epoch": 1.5412371134020617,
	"grad_norm": 1.0852012266696331,
	"learning_rate": 1.2725145720631242e-07,
	"loss": 1.4657,
	"step": 642
	},
	{
	"epoch": 1.5438144329896906,
	"grad_norm": 1.2029751793520205,
	"learning_rate": 1.2705613710072573e-07,
	"loss": 1.543,
	"step": 643
	},
	{
	"epoch": 1.5463917525773194,
	"grad_norm": 1.1786774736346322,
	"learning_rate": 1.2686070555966252e-07,
	"loss": 1.4163,
	"step": 644
	},
	{
	"epoch": 1.5489690721649485,
	"grad_norm": 1.1923466397926792,
	"learning_rate": 1.2666516338804208e-07,
	"loss": 1.449,
	"step": 645
	},
	{
	"epoch": 1.5515463917525774,
	"grad_norm": 1.1491363181852474,
	"learning_rate": 1.2646951139123932e-07,
	"loss": 1.4773,
	"step": 646
	},
	{
	"epoch": 1.5541237113402062,
	"grad_norm": 1.1921001128896263,
	"learning_rate": 1.2627375037508162e-07,
	"loss": 1.4596,
	"step": 647
	},
	{
	"epoch": 1.556701030927835,
	"grad_norm": 1.2215090538297548,
	"learning_rate": 1.2607788114584522e-07,
	"loss": 1.5697,
	"step": 648
	},
	{
	"epoch": 1.559278350515464,
	"grad_norm": 1.1364987023852344,
	"learning_rate": 1.2588190451025208e-07,
	"loss": 1.4126,
	"step": 649
	},
	{
	"epoch": 1.5618556701030928,
	"grad_norm": 1.139874297388743,
	"learning_rate": 1.2568582127546662e-07,
	"loss": 1.4104,
	"step": 650
	},
	{
	"epoch": 1.5644329896907216,
	"grad_norm": 1.1273021800754177,
	"learning_rate": 1.2548963224909223e-07,
	"loss": 1.4407,
	"step": 651
	},
	{
	"epoch": 1.5670103092783505,
	"grad_norm": 1.1999146152571862,
	"learning_rate": 1.2529333823916806e-07,
	"loss": 1.4779,
	"step": 652
	},
	{
	"epoch": 1.5695876288659794,
	"grad_norm": 1.1170496605169837,
	"learning_rate": 1.2509694005416563e-07,
	"loss": 1.4368,
	"step": 653
	},
	{
	"epoch": 1.5721649484536082,
	"grad_norm": 1.099167093974349,
	"learning_rate": 1.2490043850298557e-07,
	"loss": 1.4932,
	"step": 654
	},
	{
	"epoch": 1.574742268041237,
	"grad_norm": 1.219342527534671,
	"learning_rate": 1.2470383439495416e-07,
	"loss": 1.4633,
	"step": 655
	},
	{
	"epoch": 1.577319587628866,
	"grad_norm": 1.2125741355588842,
	"learning_rate": 1.2450712853982014e-07,
	"loss": 1.5161,
	"step": 656
	},
	{
	"epoch": 1.579896907216495,
	"grad_norm": 1.2755825455134522,
	"learning_rate": 1.2431032174775127e-07,
	"loss": 1.5225,
	"step": 657
	},
	{
	"epoch": 1.5824742268041239,
	"grad_norm": 1.1521606084223124,
	"learning_rate": 1.2411341482933108e-07,
	"loss": 1.4308,
	"step": 658
	},
	{
	"epoch": 1.5850515463917527,
	"grad_norm": 1.165275382475451,
	"learning_rate": 1.239164085955555e-07,
	"loss": 1.5024,
	"step": 659
	},
	{
	"epoch": 1.5876288659793816,
	"grad_norm": 1.2609655964912305,
	"learning_rate": 1.2371930385782943e-07,
	"loss": 1.4669,
	"step": 660
	},
	{
	"epoch": 1.5902061855670104,
	"grad_norm": 1.1698575645046683,
	"learning_rate": 1.2352210142796356e-07,
	"loss": 1.4752,
	"step": 661
	},
	{
	"epoch": 1.5927835051546393,
	"grad_norm": 1.1966335794904208,
	"learning_rate": 1.2332480211817091e-07,
	"loss": 1.5478,
	"step": 662
	},
	{
	"epoch": 1.5953608247422681,
	"grad_norm": 1.081476396234954,
	"learning_rate": 1.2312740674106347e-07,
	"loss": 1.451,
	"step": 663
	},
	{
	"epoch": 1.597938144329897,
	"grad_norm": 1.2089145441748135,
	"learning_rate": 1.22929916109649e-07,
	"loss": 1.4975,
	"step": 664
	},
	{
	"epoch": 1.6005154639175259,
	"grad_norm": 1.2416284172109027,
	"learning_rate": 1.227323310373275e-07,
	"loss": 1.43,
	"step": 665
	},
	{
	"epoch": 1.6030927835051547,
	"grad_norm": 1.2758382819864167,
	"learning_rate": 1.2253465233788794e-07,
	"loss": 1.4589,
	"step": 666
	},
	{
	"epoch": 1.6056701030927836,
	"grad_norm": 1.1736803322764697,
	"learning_rate": 1.22336880825505e-07,
	"loss": 1.3896,
	"step": 667
	},
	{
	"epoch": 1.6082474226804124,
	"grad_norm": 1.1927775409437176,
	"learning_rate": 1.2213901731473551e-07,
	"loss": 1.5394,
	"step": 668
	},
	{
	"epoch": 1.6108247422680413,
	"grad_norm": 1.2264294531171918,
	"learning_rate": 1.219410626205153e-07,
	"loss": 1.4543,
	"step": 669
	},
	{
	"epoch": 1.6134020618556701,
	"grad_norm": 1.2693861374653377,
	"learning_rate": 1.217430175581557e-07,
	"loss": 1.484,
	"step": 670
	},
	{
	"epoch": 1.615979381443299,
	"grad_norm": 1.2665036241537893,
	"learning_rate": 1.2154488294334027e-07,
	"loss": 1.5607,
	"step": 671
	},
	{
	"epoch": 1.6185567010309279,
	"grad_norm": 1.1703235363860394,
	"learning_rate": 1.2134665959212136e-07,
	"loss": 1.4644,
	"step": 672
	},
	{
	"epoch": 1.6211340206185567,
	"grad_norm": 1.193069004037872,
	"learning_rate": 1.211483483209169e-07,
	"loss": 1.4888,
	"step": 673
	},
	{
	"epoch": 1.6237113402061856,
	"grad_norm": 1.2361705074035756,
	"learning_rate": 1.209499499465068e-07,
	"loss": 1.4504,
	"step": 674
	},
	{
	"epoch": 1.6262886597938144,
	"grad_norm": 1.095084009584948,
	"learning_rate": 1.2075146528602983e-07,
	"loss": 1.4828,
	"step": 675
	},
	{
	"epoch": 1.6288659793814433,
	"grad_norm": 1.1262123200952905,
	"learning_rate": 1.2055289515698006e-07,
	"loss": 1.5487,
	"step": 676
	},
	{
	"epoch": 1.6314432989690721,
	"grad_norm": 1.1378828378426857,
	"learning_rate": 1.2035424037720364e-07,
	"loss": 1.4921,
	"step": 677
	},
	{
	"epoch": 1.634020618556701,
	"grad_norm": 1.1961288239091903,
	"learning_rate": 1.2015550176489537e-07,
	"loss": 1.4421,
	"step": 678
	},
	{
	"epoch": 1.6365979381443299,
	"grad_norm": 1.1366747357584532,
	"learning_rate": 1.199566801385953e-07,
	"loss": 1.4392,
	"step": 679
	},
	{
	"epoch": 1.6391752577319587,
	"grad_norm": 1.1909816425714403,
	"learning_rate": 1.1975777631718532e-07,
	"loss": 1.5001,
	"step": 680
	},
	{
	"epoch": 1.6417525773195876,
	"grad_norm": 1.2963539362844378,
	"learning_rate": 1.19558791119886e-07,
	"loss": 1.4605,
	"step": 681
	},
	{
	"epoch": 1.6443298969072164,
	"grad_norm": 1.1580390642200817,
	"learning_rate": 1.19359725366253e-07,
	"loss": 1.5063,
	"step": 682
	},
	{
	"epoch": 1.6469072164948453,
	"grad_norm": 1.216487820544871,
	"learning_rate": 1.1916057987617374e-07,
	"loss": 1.4886,
	"step": 683
	},
	{
	"epoch": 1.6494845360824741,
	"grad_norm": 1.2218109581350323,
	"learning_rate": 1.1896135546986407e-07,
	"loss": 1.4608,
	"step": 684
	},
	{
	"epoch": 1.652061855670103,
	"grad_norm": 1.2280111906896558,
	"learning_rate": 1.1876205296786493e-07,
	"loss": 1.5096,
	"step": 685
	},
	{
	"epoch": 1.6546391752577319,
	"grad_norm": 1.2166796078055058,
	"learning_rate": 1.1856267319103876e-07,
	"loss": 1.4692,
	"step": 686
	},
	{
	"epoch": 1.6546391752577319,
	"eval_loss": 1.4642903804779053,
	"eval_runtime": 78.6766,
	"eval_samples_per_second": 21.137,
	"eval_steps_per_second": 1.322,
	"step": 686
	},
	{
	"epoch": 1.6572164948453607,
	"grad_norm": 1.1939355446450859,
	"learning_rate": 1.1836321696056645e-07,
	"loss": 1.4137,
	"step": 687
	},
	{
	"epoch": 1.6597938144329896,
	"grad_norm": 1.2546613486361071,
	"learning_rate": 1.1816368509794363e-07,
	"loss": 1.512,
	"step": 688
	},
	{
	"epoch": 1.6623711340206184,
	"grad_norm": 1.1366449756739982,
	"learning_rate": 1.1796407842497753e-07,
	"loss": 1.3836,
	"step": 689
	},
	{
	"epoch": 1.6649484536082473,
	"grad_norm": 1.2553355162175337,
	"learning_rate": 1.1776439776378351e-07,
	"loss": 1.4565,
	"step": 690
	},
	{
	"epoch": 1.6675257731958761,
	"grad_norm": 1.20909630643183,
	"learning_rate": 1.1756464393678151e-07,
	"loss": 1.4481,
	"step": 691
	},
	{
	"epoch": 1.670103092783505,
	"grad_norm": 1.2273438479078924,
	"learning_rate": 1.1736481776669305e-07,
	"loss": 1.4903,
	"step": 692
	},
	{
	"epoch": 1.672680412371134,
	"grad_norm": 1.1909626287045671,
	"learning_rate": 1.1716492007653737e-07,
	"loss": 1.5012,
	"step": 693
	},
	{
	"epoch": 1.675257731958763,
	"grad_norm": 1.158968259505721,
	"learning_rate": 1.1696495168962845e-07,
	"loss": 1.5465,
	"step": 694
	},
	{
	"epoch": 1.6778350515463918,
	"grad_norm": 1.1963581026774628,
	"learning_rate": 1.1676491342957142e-07,
	"loss": 1.4729,
	"step": 695
	},
	{
	"epoch": 1.6804123711340206,
	"grad_norm": 1.215536392765087,
	"learning_rate": 1.1656480612025911e-07,
	"loss": 1.4164,
	"step": 696
	},
	{
	"epoch": 1.6829896907216495,
	"grad_norm": 1.0521259077304612,
	"learning_rate": 1.163646305858688e-07,
	"loss": 1.3678,
	"step": 697
	},
	{
	"epoch": 1.6855670103092784,
	"grad_norm": 1.295543359347737,
	"learning_rate": 1.1616438765085881e-07,
	"loss": 1.57,
	"step": 698
	},
	{
	"epoch": 1.6881443298969072,
	"grad_norm": 1.1720574150387943,
	"learning_rate": 1.1596407813996498e-07,
	"loss": 1.5221,
	"step": 699
	},
	{
	"epoch": 1.690721649484536,
	"grad_norm": 1.186785802460397,
	"learning_rate": 1.1576370287819735e-07,
	"loss": 1.4673,
	"step": 700
	},
	{
	"epoch": 1.693298969072165,
	"grad_norm": 1.1589224859683183,
	"learning_rate": 1.155632626908369e-07,
	"loss": 1.3919,
	"step": 701
	},
	{
	"epoch": 1.6958762886597938,
	"grad_norm": 1.3034607577131674,
	"learning_rate": 1.1536275840343183e-07,
	"loss": 1.43,
	"step": 702
	},
	{
	"epoch": 1.6984536082474226,
	"grad_norm": 1.1721298121139936,
	"learning_rate": 1.1516219084179448e-07,
	"loss": 1.5556,
	"step": 703
	},
	{
	"epoch": 1.7010309278350515,
	"grad_norm": 1.164281783704574,
	"learning_rate": 1.149615608319978e-07,
	"loss": 1.4449,
	"step": 704
	},
	{
	"epoch": 1.7036082474226806,
	"grad_norm": 1.1144845067827036,
	"learning_rate": 1.1476086920037183e-07,
	"loss": 1.5204,
	"step": 705
	},
	{
	"epoch": 1.7061855670103094,
	"grad_norm": 1.1470381221039117,
	"learning_rate": 1.1456011677350051e-07,
	"loss": 1.4096,
	"step": 706
	},
	{
	"epoch": 1.7087628865979383,
	"grad_norm": 1.1938066626201722,
	"learning_rate": 1.1435930437821812e-07,
	"loss": 1.4299,
	"step": 707
	},
	{
	"epoch": 1.7113402061855671,
	"grad_norm": 1.389576843014182,
	"learning_rate": 1.1415843284160598e-07,
	"loss": 1.4736,
	"step": 708
	},
	{
	"epoch": 1.713917525773196,
	"grad_norm": 1.1886965701829686,
	"learning_rate": 1.1395750299098899e-07,
	"loss": 1.4972,
	"step": 709
	},
	{
	"epoch": 1.7164948453608249,
	"grad_norm": 1.1389546972088997,
	"learning_rate": 1.1375651565393218e-07,
	"loss": 1.5518,
	"step": 710
	},
	{
	"epoch": 1.7190721649484537,
	"grad_norm": 1.1743796585118387,
	"learning_rate": 1.1355547165823738e-07,
	"loss": 1.4672,
	"step": 711
	},
	{
	"epoch": 1.7216494845360826,
	"grad_norm": 1.1460525519017093,
	"learning_rate": 1.1335437183193979e-07,
	"loss": 1.5233,
	"step": 712
	},
	{
	"epoch": 1.7242268041237114,
	"grad_norm": 1.1586406558048044,
	"learning_rate": 1.1315321700330454e-07,
	"loss": 1.4686,
	"step": 713
	},
	{
	"epoch": 1.7268041237113403,
	"grad_norm": 1.1369470779252082,
	"learning_rate": 1.1295200800082326e-07,
	"loss": 1.4688,
	"step": 714
	},
	{
	"epoch": 1.7293814432989691,
	"grad_norm": 1.1705799315615684,
	"learning_rate": 1.1275074565321078e-07,
	"loss": 1.3893,
	"step": 715
	},
	{
	"epoch": 1.731958762886598,
	"grad_norm": 1.1725120595380418,
	"learning_rate": 1.125494307894016e-07,
	"loss": 1.537,
	"step": 716
	},
	{
	"epoch": 1.7345360824742269,
	"grad_norm": 1.0734797144766555,
	"learning_rate": 1.1234806423854653e-07,
	"loss": 1.4388,
	"step": 717
	},
	{
	"epoch": 1.7371134020618557,
	"grad_norm": 1.170033873518124,
	"learning_rate": 1.1214664683000924e-07,
	"loss": 1.3753,
	"step": 718
	},
	{
	"epoch": 1.7396907216494846,
	"grad_norm": 1.231373540289329,
	"learning_rate": 1.1194517939336287e-07,
	"loss": 1.5497,
	"step": 719
	},
	{
	"epoch": 1.7422680412371134,
	"grad_norm": 1.1946433920559838,
	"learning_rate": 1.1174366275838662e-07,
	"loss": 1.413,
	"step": 720
	},
	{
	"epoch": 1.7448453608247423,
	"grad_norm": 1.1418431201062664,
	"learning_rate": 1.115420977550624e-07,
	"loss": 1.4914,
	"step": 721
	},
	{
	"epoch": 1.7474226804123711,
	"grad_norm": 1.2072128707535221,
	"learning_rate": 1.1134048521357115e-07,
	"loss": 1.4836,
	"step": 722
	},
	{
	"epoch": 1.75,
	"grad_norm": 1.194692316000769,
	"learning_rate": 1.1113882596428976e-07,
	"loss": 1.4389,
	"step": 723
	},
	{
	"epoch": 1.7525773195876289,
	"grad_norm": 1.181835370102449,
	"learning_rate": 1.1093712083778746e-07,
	"loss": 1.4542,
	"step": 724
	},
	{
	"epoch": 1.7551546391752577,
	"grad_norm": 1.1310122085797796,
	"learning_rate": 1.1073537066482235e-07,
	"loss": 1.4572,
	"step": 725
	},
	{
	"epoch": 1.7577319587628866,
	"grad_norm": 1.1299559219838877,
	"learning_rate": 1.1053357627633821e-07,
	"loss": 1.5374,
	"step": 726
	},
	{
	"epoch": 1.7603092783505154,
	"grad_norm": 1.2302892939334757,
	"learning_rate": 1.1033173850346081e-07,
	"loss": 1.5156,
	"step": 727
	},
	{
	"epoch": 1.7628865979381443,
	"grad_norm": 1.1376050539784393,
	"learning_rate": 1.1012985817749462e-07,
	"loss": 1.4994,
	"step": 728
	},
	{
	"epoch": 1.7654639175257731,
	"grad_norm": 1.1912506938583958,
	"learning_rate": 1.0992793612991946e-07,
	"loss": 1.5358,
	"step": 729
	},
	{
	"epoch": 1.768041237113402,
	"grad_norm": 1.2323374068579527,
	"learning_rate": 1.097259731923869e-07,
	"loss": 1.5446,
	"step": 730
	},
	{
	"epoch": 1.7706185567010309,
	"grad_norm": 1.2255437302126448,
	"learning_rate": 1.0952397019671694e-07,
	"loss": 1.413,
	"step": 731
	},
	{
	"epoch": 1.7731958762886597,
	"grad_norm": 1.2608512214948044,
	"learning_rate": 1.0932192797489459e-07,
	"loss": 1.5306,
	"step": 732
	},
	{
	"epoch": 1.7757731958762886,
	"grad_norm": 1.187848987827898,
	"learning_rate": 1.0911984735906635e-07,
	"loss": 1.4589,
	"step": 733
	},
	{
	"epoch": 1.7783505154639174,
	"grad_norm": 1.1078353763626878,
	"learning_rate": 1.0891772918153694e-07,
	"loss": 1.5026,
	"step": 734
	},
	{
	"epoch": 1.7809278350515463,
	"grad_norm": 1.1847073079284023,
	"learning_rate": 1.0871557427476584e-07,
	"loss": 1.4819,
	"step": 735
	},
	{
	"epoch": 1.7809278350515463,
	"eval_loss": 1.4616869688034058,
	"eval_runtime": 78.6285,
	"eval_samples_per_second": 21.15,
	"eval_steps_per_second": 1.323,
	"step": 735
	},
	{
	"epoch": 1.7835051546391751,
	"grad_norm": 1.1649395427594373,
	"learning_rate": 1.0851338347136356e-07,
	"loss": 1.5143,
	"step": 736
	},
	{
	"epoch": 1.786082474226804,
	"grad_norm": 1.284550306447524,
	"learning_rate": 1.0831115760408871e-07,
	"loss": 1.4542,
	"step": 737
	},
	{
	"epoch": 1.7886597938144329,
	"grad_norm": 1.1925120790488934,
	"learning_rate": 1.0810889750584424e-07,
	"loss": 1.426,
	"step": 738
	},
	{
	"epoch": 1.7912371134020617,
	"grad_norm": 1.178551347790486,
	"learning_rate": 1.07906604009674e-07,
	"loss": 1.4372,
	"step": 739
	},
	{
	"epoch": 1.7938144329896906,
	"grad_norm": 1.2458332188073578,
	"learning_rate": 1.077042779487595e-07,
	"loss": 1.5252,
	"step": 740
	},
	{
	"epoch": 1.7963917525773194,
	"grad_norm": 1.2661697455131442,
	"learning_rate": 1.0750192015641633e-07,
	"loss": 1.5066,
	"step": 741
	},
	{
	"epoch": 1.7989690721649485,
	"grad_norm": 1.1069806037454215,
	"learning_rate": 1.0729953146609074e-07,
	"loss": 1.4264,
	"step": 742
	},
	{
	"epoch": 1.8015463917525774,
	"grad_norm": 1.194263854578521,
	"learning_rate": 1.0709711271135635e-07,
	"loss": 1.4339,
	"step": 743
	},
	{
	"epoch": 1.8041237113402062,
	"grad_norm": 1.2068338783635435,
	"learning_rate": 1.0689466472591048e-07,
	"loss": 1.4341,
	"step": 744
	},
	{
	"epoch": 1.806701030927835,
	"grad_norm": 1.1526056815131385,
	"learning_rate": 1.066921883435709e-07,
	"loss": 1.4382,
	"step": 745
	},
	{
	"epoch": 1.809278350515464,
	"grad_norm": 1.1526436748662838,
	"learning_rate": 1.0648968439827239e-07,
	"loss": 1.4525,
	"step": 746
	},
	{
	"epoch": 1.8118556701030928,
	"grad_norm": 1.2587407335769552,
	"learning_rate": 1.0628715372406309e-07,
	"loss": 1.4995,
	"step": 747
	},
	{
	"epoch": 1.8144329896907216,
	"grad_norm": 1.2439345895593688,
	"learning_rate": 1.0608459715510139e-07,
	"loss": 1.4172,
	"step": 748
	},
	{
	"epoch": 1.8170103092783505,
	"grad_norm": 1.2048841761527278,
	"learning_rate": 1.058820155256523e-07,
	"loss": 1.4536,
	"step": 749
	},
	{
	"epoch": 1.8195876288659794,
	"grad_norm": 1.1712052519870668,
	"learning_rate": 1.0567940967008396e-07,
	"loss": 1.4739,
	"step": 750
	},
	{
	"epoch": 1.8221649484536082,
	"grad_norm": 1.1253615480764265,
	"learning_rate": 1.0547678042286435e-07,
	"loss": 1.4362,
	"step": 751
	},
	{
	"epoch": 1.824742268041237,
	"grad_norm": 1.1941314320057088,
	"learning_rate": 1.0527412861855789e-07,
	"loss": 1.5473,
	"step": 752
	},
	{
	"epoch": 1.827319587628866,
	"grad_norm": 1.1515723933518516,
	"learning_rate": 1.0507145509182169e-07,
	"loss": 1.4095,
	"step": 753
	},
	{
	"epoch": 1.829896907216495,
	"grad_norm": 1.1459437804868953,
	"learning_rate": 1.0486876067740252e-07,
	"loss": 1.4454,
	"step": 754
	},
	{
	"epoch": 1.8324742268041239,
	"grad_norm": 1.2555188381647702,
	"learning_rate": 1.0466604621013306e-07,
	"loss": 1.5032,
	"step": 755
	},
	{
	"epoch": 1.8350515463917527,
	"grad_norm": 1.173256763665764,
	"learning_rate": 1.0446331252492864e-07,
	"loss": 1.542,
	"step": 756
	},
	{
	"epoch": 1.8376288659793816,
	"grad_norm": 1.1616854603706852,
	"learning_rate": 1.0426056045678375e-07,
	"loss": 1.3301,
	"step": 757
	},
	{
	"epoch": 1.8402061855670104,
	"grad_norm": 1.1961580743330678,
	"learning_rate": 1.0405779084076855e-07,
	"loss": 1.5125,
	"step": 758
	},
	{
	"epoch": 1.8427835051546393,
	"grad_norm": 1.153920316864521,
	"learning_rate": 1.0385500451202549e-07,
	"loss": 1.5104,
	"step": 759
	},
	{
	"epoch": 1.8453608247422681,
	"grad_norm": 1.2288872831871334,
	"learning_rate": 1.036522023057659e-07,
	"loss": 1.54,
	"step": 760
	},
	{
	"epoch": 1.847938144329897,
	"grad_norm": 1.1774978065006576,
	"learning_rate": 1.0344938505726641e-07,
	"loss": 1.4226,
	"step": 761
	},
	{
	"epoch": 1.8505154639175259,
	"grad_norm": 1.18190720576571,
	"learning_rate": 1.0324655360186567e-07,
	"loss": 1.4874,
	"step": 762
	},
	{
	"epoch": 1.8530927835051547,
	"grad_norm": 1.0881741375618583,
	"learning_rate": 1.0304370877496089e-07,
	"loss": 1.4196,
	"step": 763
	},
	{
	"epoch": 1.8556701030927836,
	"grad_norm": 1.1920925526660484,
	"learning_rate": 1.0284085141200423e-07,
	"loss": 1.4022,
	"step": 764
	},
	{
	"epoch": 1.8582474226804124,
	"grad_norm": 1.2553686949150205,
	"learning_rate": 1.0263798234849954e-07,
	"loss": 1.5411,
	"step": 765
	},
	{
	"epoch": 1.8608247422680413,
	"grad_norm": 1.1849323570576418,
	"learning_rate": 1.0243510241999897e-07,
	"loss": 1.4376,
	"step": 766
	},
	{
	"epoch": 1.8634020618556701,
	"grad_norm": 1.1748076105825112,
	"learning_rate": 1.0223221246209918e-07,
	"loss": 1.3917,
	"step": 767
	},
	{
	"epoch": 1.865979381443299,
	"grad_norm": 1.1437404458677716,
	"learning_rate": 1.0202931331043839e-07,
	"loss": 1.5412,
	"step": 768
	},
	{
	"epoch": 1.8685567010309279,
	"grad_norm": 1.1588752261265902,
	"learning_rate": 1.0182640580069248e-07,
	"loss": 1.4016,
	"step": 769
	},
	{
	"epoch": 1.8711340206185567,
	"grad_norm": 1.244615607327111,
	"learning_rate": 1.016234907685719e-07,
	"loss": 1.4501,
	"step": 770
	},
	{
	"epoch": 1.8737113402061856,
	"grad_norm": 1.1809049167530614,
	"learning_rate": 1.0142056904981802e-07,
	"loss": 1.4637,
	"step": 771
	},
	{
	"epoch": 1.8762886597938144,
	"grad_norm": 1.1101634996349434,
	"learning_rate": 1.0121764148019975e-07,
	"loss": 1.4228,
	"step": 772
	},
	{
	"epoch": 1.8788659793814433,
	"grad_norm": 1.2377079616714697,
	"learning_rate": 1.0101470889551012e-07,
	"loss": 1.4533,
	"step": 773
	},
	{
	"epoch": 1.8814432989690721,
	"grad_norm": 1.160543485045226,
	"learning_rate": 1.0081177213156278e-07,
	"loss": 1.4735,
	"step": 774
	},
	{
	"epoch": 1.884020618556701,
	"grad_norm": 1.115374473748354,
	"learning_rate": 1.0060883202418861e-07,
	"loss": 1.438,
	"step": 775
	},
	{
	"epoch": 1.8865979381443299,
	"grad_norm": 1.1305131743119878,
	"learning_rate": 1.004058894092323e-07,
	"loss": 1.4186,
	"step": 776
	},
	{
	"epoch": 1.8891752577319587,
	"grad_norm": 1.151990553361531,
	"learning_rate": 1.0020294512254883e-07,
	"loss": 1.5121,
	"step": 777
	},
	{
	"epoch": 1.8917525773195876,
	"grad_norm": 1.1278991620860568,
	"learning_rate": 1e-07,
	"loss": 1.4333,
	"step": 778
	},
	{
	"epoch": 1.8943298969072164,
	"grad_norm": 1.281137685220673,
	"learning_rate": 9.97970548774512e-08,
	"loss": 1.4416,
	"step": 779
	},
	{
	"epoch": 1.8969072164948453,
	"grad_norm": 1.1772600120424532,
	"learning_rate": 9.959411059076768e-08,
	"loss": 1.409,
	"step": 780
	},
	{
	"epoch": 1.8994845360824741,
	"grad_norm": 1.16485761208349,
	"learning_rate": 9.939116797581138e-08,
	"loss": 1.4324,
	"step": 781
	},
	{
	"epoch": 1.902061855670103,
	"grad_norm": 1.203443440232203,
	"learning_rate": 9.918822786843724e-08,
	"loss": 1.4324,
	"step": 782
	},
	{
	"epoch": 1.9046391752577319,
	"grad_norm": 1.20376421998538,
	"learning_rate": 9.898529110448987e-08,
	"loss": 1.501,
	"step": 783
	},
	{
	"epoch": 1.9072164948453607,
	"grad_norm": 1.1533270795807118,
	"learning_rate": 9.878235851980025e-08,
	"loss": 1.404,
	"step": 784
	},
	{
	"epoch": 1.9072164948453607,
	"eval_loss": 1.4594255685806274,
	"eval_runtime": 78.6148,
	"eval_samples_per_second": 21.154,
	"eval_steps_per_second": 1.323,
	"step": 784
	},
	{
	"epoch": 1.9097938144329896,
	"grad_norm": 1.1889743164637112,
	"learning_rate": 9.857943095018198e-08,
	"loss": 1.4652,
	"step": 785
	},
	{
	"epoch": 1.9123711340206184,
	"grad_norm": 1.162304380840768,
	"learning_rate": 9.837650923142809e-08,
	"loss": 1.3641,
	"step": 786
	},
	{
	"epoch": 1.9149484536082473,
	"grad_norm": 1.260002079711297,
	"learning_rate": 9.817359419930751e-08,
	"loss": 1.5022,
	"step": 787
	},
	{
	"epoch": 1.9175257731958761,
	"grad_norm": 1.1295427248534264,
	"learning_rate": 9.797068668956162e-08,
	"loss": 1.4553,
	"step": 788
	},
	{
	"epoch": 1.920103092783505,
	"grad_norm": 1.1730252131786578,
	"learning_rate": 9.77677875379008e-08,
	"loss": 1.4748,
	"step": 789
	},
	{
	"epoch": 1.922680412371134,
	"grad_norm": 1.2020202803132716,
	"learning_rate": 9.756489758000104e-08,
	"loss": 1.4479,
	"step": 790
	},
	{
	"epoch": 1.925257731958763,
	"grad_norm": 1.180219637473307,
	"learning_rate": 9.736201765150045e-08,
	"loss": 1.4974,
	"step": 791
	},
	{
	"epoch": 1.9278350515463918,
	"grad_norm": 1.2291944688317633,
	"learning_rate": 9.715914858799575e-08,
	"loss": 1.4228,
	"step": 792
	},
	{
	"epoch": 1.9304123711340206,
	"grad_norm": 1.1131303155372065,
	"learning_rate": 9.69562912250391e-08,
	"loss": 1.4693,
	"step": 793
	},
	{
	"epoch": 1.9329896907216495,
	"grad_norm": 1.1994615231875885,
	"learning_rate": 9.675344639813433e-08,
	"loss": 1.4745,
	"step": 794
	},
	{
	"epoch": 1.9355670103092784,
	"grad_norm": 1.115870585349576,
	"learning_rate": 9.655061494273362e-08,
	"loss": 1.4671,
	"step": 795
	},
	{
	"epoch": 1.9381443298969072,
	"grad_norm": 1.2054754001979724,
	"learning_rate": 9.63477976942341e-08,
	"loss": 1.5195,
	"step": 796
	},
	{
	"epoch": 1.940721649484536,
	"grad_norm": 1.1464295691900082,
	"learning_rate": 9.614499548797452e-08,
	"loss": 1.4402,
	"step": 797
	},
	{
	"epoch": 1.943298969072165,
	"grad_norm": 1.1914103186703613,
	"learning_rate": 9.594220915923148e-08,
	"loss": 1.5797,
	"step": 798
	},
	{
	"epoch": 1.9458762886597938,
	"grad_norm": 1.1615295842359556,
	"learning_rate": 9.573943954321626e-08,
	"loss": 1.4126,
	"step": 799
	},
	{
	"epoch": 1.9484536082474226,
	"grad_norm": 1.19026250293737,
	"learning_rate": 9.553668747507138e-08,
	"loss": 1.4332,
	"step": 800
	},
	{
	"epoch": 1.9510309278350515,
	"grad_norm": 1.1351877413773055,
	"learning_rate": 9.533395378986697e-08,
	"loss": 1.4784,
	"step": 801
	},
	{
	"epoch": 1.9536082474226806,
	"grad_norm": 1.227791339106945,
	"learning_rate": 9.51312393225975e-08,
	"loss": 1.4392,
	"step": 802
	},
	{
	"epoch": 1.9561855670103094,
	"grad_norm": 1.2100140189737674,
	"learning_rate": 9.492854490817833e-08,
	"loss": 1.4693,
	"step": 803
	},
	{
	"epoch": 1.9587628865979383,
	"grad_norm": 1.0478682320033872,
	"learning_rate": 9.472587138144214e-08,
	"loss": 1.4117,
	"step": 804
	},
	{
	"epoch": 1.9613402061855671,
	"grad_norm": 1.1920119917461085,
	"learning_rate": 9.452321957713563e-08,
	"loss": 1.556,
	"step": 805
	},
	{
	"epoch": 1.963917525773196,
	"grad_norm": 1.1902655777598523,
	"learning_rate": 9.432059032991606e-08,
	"loss": 1.5102,
	"step": 806
	},
	{
	"epoch": 1.9664948453608249,
	"grad_norm": 1.1511704775031535,
	"learning_rate": 9.411798447434773e-08,
	"loss": 1.5281,
	"step": 807
	},
	{
	"epoch": 1.9690721649484537,
	"grad_norm": 1.1636100359208144,
	"learning_rate": 9.39154028448986e-08,
	"loss": 1.4024,
	"step": 808
	},
	{
	"epoch": 1.9716494845360826,
	"grad_norm": 1.2582478560602157,
	"learning_rate": 9.371284627593691e-08,
	"loss": 1.4519,
	"step": 809
	},
	{
	"epoch": 1.9742268041237114,
	"grad_norm": 1.1608958350691665,
	"learning_rate": 9.351031560172764e-08,
	"loss": 1.4286,
	"step": 810
	},
	{
	"epoch": 1.9768041237113403,
	"grad_norm": 1.1725970187771935,
	"learning_rate": 9.330781165642907e-08,
	"loss": 1.4858,
	"step": 811
	},
	{
	"epoch": 1.9793814432989691,
	"grad_norm": 1.181405747708069,
	"learning_rate": 9.310533527408951e-08,
	"loss": 1.5193,
	"step": 812
	},
	{
	"epoch": 1.981958762886598,
	"grad_norm": 1.1949902203170548,
	"learning_rate": 9.290288728864365e-08,
	"loss": 1.3768,
	"step": 813
	},
	{
	"epoch": 1.9845360824742269,
	"grad_norm": 1.2444243036816676,
	"learning_rate": 9.270046853390924e-08,
	"loss": 1.4866,
	"step": 814
	},
	{
	"epoch": 1.9871134020618557,
	"grad_norm": 1.162040164523566,
	"learning_rate": 9.249807984358369e-08,
	"loss": 1.4277,
	"step": 815
	},
	{
	"epoch": 1.9896907216494846,
	"grad_norm": 1.3041991278727916,
	"learning_rate": 9.229572205124051e-08,
	"loss": 1.4895,
	"step": 816
	},
	{
	"epoch": 1.9922680412371134,
	"grad_norm": 1.1800946591513317,
	"learning_rate": 9.2093395990326e-08,
	"loss": 1.6118,
	"step": 817
	},
	{
	"epoch": 1.9948453608247423,
	"grad_norm": 1.120730199367575,
	"learning_rate": 9.189110249415576e-08,
	"loss": 1.4777,
	"step": 818
	},
	{
	"epoch": 1.9974226804123711,
	"grad_norm": 1.165214854260427,
	"learning_rate": 9.168884239591129e-08,
	"loss": 1.4491,
	"step": 819
	},
	{
	"epoch": 2.0,
	"grad_norm": 1.1460287106000804,
	"learning_rate": 9.148661652863641e-08,
	"loss": 1.442,
	"step": 820
	},
	{
	"epoch": 2.002577319587629,
	"grad_norm": 1.245092231884586,
	"learning_rate": 9.128442572523417e-08,
	"loss": 1.4238,
	"step": 821
	},
	{
	"epoch": 2.0051546391752577,
	"grad_norm": 1.1566295496507226,
	"learning_rate": 9.108227081846305e-08,
	"loss": 1.4313,
	"step": 822
	},
	{
	"epoch": 2.0077319587628866,
	"grad_norm": 1.2544751166156012,
	"learning_rate": 9.088015264093364e-08,
	"loss": 1.4879,
	"step": 823
	},
	{
	"epoch": 2.0103092783505154,
	"grad_norm": 1.2229877060400391,
	"learning_rate": 9.067807202510542e-08,
	"loss": 1.4781,
	"step": 824
	},
	{
	"epoch": 2.0128865979381443,
	"grad_norm": 1.1382534019879336,
	"learning_rate": 9.047602980328308e-08,
	"loss": 1.4163,
	"step": 825
	},
	{
	"epoch": 2.015463917525773,
	"grad_norm": 1.1936874170381253,
	"learning_rate": 9.027402680761309e-08,
	"loss": 1.5233,
	"step": 826
	},
	{
	"epoch": 2.018041237113402,
	"grad_norm": 1.133631677446316,
	"learning_rate": 9.007206387008053e-08,
	"loss": 1.397,
	"step": 827
	},
	{
	"epoch": 2.020618556701031,
	"grad_norm": 1.2442262218300326,
	"learning_rate": 8.987014182250538e-08,
	"loss": 1.4734,
	"step": 828
	},
	{
	"epoch": 2.0231958762886597,
	"grad_norm": 1.1593473271235548,
	"learning_rate": 8.966826149653922e-08,
	"loss": 1.5101,
	"step": 829
	},
	{
	"epoch": 2.0257731958762886,
	"grad_norm": 1.2054412501356118,
	"learning_rate": 8.94664237236618e-08,
	"loss": 1.4657,
	"step": 830
	},
	{
	"epoch": 2.0283505154639174,
	"grad_norm": 1.1696863220137095,
	"learning_rate": 8.926462933517765e-08,
	"loss": 1.4385,
	"step": 831
	},
	{
	"epoch": 2.0309278350515463,
	"grad_norm": 1.2085685291526942,
	"learning_rate": 8.906287916221257e-08,
	"loss": 1.4567,
	"step": 832
	},
	{
	"epoch": 2.033505154639175,
	"grad_norm": 1.2062684152337084,
	"learning_rate": 8.886117403571023e-08,
	"loss": 1.4903,
	"step": 833
	},
	{
	"epoch": 2.033505154639175,
	"eval_loss": 1.4574321508407593,
	"eval_runtime": 78.538,
	"eval_samples_per_second": 21.174,
	"eval_steps_per_second": 1.324,
	"step": 833
	},
	{
	"epoch": 2.036082474226804,
	"grad_norm": 1.2985823482438499,
	"learning_rate": 8.865951478642886e-08,
	"loss": 1.4945,
	"step": 834
	},
	{
	"epoch": 2.038659793814433,
	"grad_norm": 1.2008208109365806,
	"learning_rate": 8.845790224493761e-08,
	"loss": 1.4053,
	"step": 835
	},
	{
	"epoch": 2.0412371134020617,
	"grad_norm": 1.1173370303783305,
	"learning_rate": 8.825633724161334e-08,
	"loss": 1.437,
	"step": 836
	},
	{
	"epoch": 2.0438144329896906,
	"grad_norm": 1.2675969181316824,
	"learning_rate": 8.805482060663712e-08,
	"loss": 1.4189,
	"step": 837
	},
	{
	"epoch": 2.0463917525773194,
	"grad_norm": 1.2147757078811159,
	"learning_rate": 8.785335316999077e-08,
	"loss": 1.4214,
	"step": 838
	},
	{
	"epoch": 2.0489690721649483,
	"grad_norm": 1.09453864552264,
	"learning_rate": 8.765193576145346e-08,
	"loss": 1.4027,
	"step": 839
	},
	{
	"epoch": 2.051546391752577,
	"grad_norm": 1.216226711944593,
	"learning_rate": 8.745056921059839e-08,
	"loss": 1.5143,
	"step": 840
	},
	{
	"epoch": 2.054123711340206,
	"grad_norm": 1.2055008222540708,
	"learning_rate": 8.724925434678922e-08,
	"loss": 1.4489,
	"step": 841
	},
	{
	"epoch": 2.056701030927835,
	"grad_norm": 1.1336500080565066,
	"learning_rate": 8.704799199917673e-08,
	"loss": 1.4248,
	"step": 842
	},
	{
	"epoch": 2.0592783505154637,
	"grad_norm": 1.215103376196868,
	"learning_rate": 8.684678299669546e-08,
	"loss": 1.4463,
	"step": 843
	},
	{
	"epoch": 2.0618556701030926,
	"grad_norm": 1.1882950937372736,
	"learning_rate": 8.664562816806021e-08,
	"loss": 1.4444,
	"step": 844
	},
	{
	"epoch": 2.0644329896907214,
	"grad_norm": 1.2047730105242802,
	"learning_rate": 8.64445283417626e-08,
	"loss": 1.4514,
	"step": 845
	},
	{
	"epoch": 2.0670103092783503,
	"grad_norm": 1.1364686666884227,
	"learning_rate": 8.624348434606781e-08,
	"loss": 1.4285,
	"step": 846
	},
	{
	"epoch": 2.069587628865979,
	"grad_norm": 1.2216577804549105,
	"learning_rate": 8.6042497009011e-08,
	"loss": 1.5001,
	"step": 847
	},
	{
	"epoch": 2.072164948453608,
	"grad_norm": 1.167316107588148,
	"learning_rate": 8.5841567158394e-08,
	"loss": 1.4095,
	"step": 848
	},
	{
	"epoch": 2.074742268041237,
	"grad_norm": 1.087136320546188,
	"learning_rate": 8.564069562178188e-08,
	"loss": 1.4547,
	"step": 849
	},
	{
	"epoch": 2.0773195876288657,
	"grad_norm": 1.10777310102604,
	"learning_rate": 8.543988322649954e-08,
	"loss": 1.4905,
	"step": 850
	},
	{
	"epoch": 2.0798969072164946,
	"grad_norm": 1.2198690834759995,
	"learning_rate": 8.523913079962816e-08,
	"loss": 1.3988,
	"step": 851
	},
	{
	"epoch": 2.0824742268041234,
	"grad_norm": 1.2266366218856903,
	"learning_rate": 8.50384391680022e-08,
	"loss": 1.4972,
	"step": 852
	},
	{
	"epoch": 2.0850515463917523,
	"grad_norm": 1.1644015048600025,
	"learning_rate": 8.483780915820552e-08,
	"loss": 1.4233,
	"step": 853
	},
	{
	"epoch": 2.087628865979381,
	"grad_norm": 1.1537200560912633,
	"learning_rate": 8.463724159656814e-08,
	"loss": 1.5044,
	"step": 854
	},
	{
	"epoch": 2.09020618556701,
	"grad_norm": 1.1190956026619867,
	"learning_rate": 8.443673730916312e-08,
	"loss": 1.4284,
	"step": 855
	},
	{
	"epoch": 2.092783505154639,
	"grad_norm": 1.1476534954615265,
	"learning_rate": 8.423629712180264e-08,
	"loss": 1.4601,
	"step": 856
	},
	{
	"epoch": 2.095360824742268,
	"grad_norm": 1.2130889970169285,
	"learning_rate": 8.403592186003501e-08,
	"loss": 1.3902,
	"step": 857
	},
	{
	"epoch": 2.097938144329897,
	"grad_norm": 1.2106313562862567,
	"learning_rate": 8.383561234914119e-08,
	"loss": 1.5202,
	"step": 858
	},
	{
	"epoch": 2.100515463917526,
	"grad_norm": 1.2790874195534712,
	"learning_rate": 8.36353694141312e-08,
	"loss": 1.5241,
	"step": 859
	},
	{
	"epoch": 2.1030927835051547,
	"grad_norm": 1.1984788041581806,
	"learning_rate": 8.34351938797409e-08,
	"loss": 1.5185,
	"step": 860
	},
	{
	"epoch": 2.1056701030927836,
	"grad_norm": 1.1224530119764298,
	"learning_rate": 8.323508657042858e-08,
	"loss": 1.4387,
	"step": 861
	},
	{
	"epoch": 2.1082474226804124,
	"grad_norm": 1.1916193301815299,
	"learning_rate": 8.303504831037154e-08,
	"loss": 1.433,
	"step": 862
	},
	{
	"epoch": 2.1108247422680413,
	"grad_norm": 1.269383237065682,
	"learning_rate": 8.283507992346263e-08,
	"loss": 1.58,
	"step": 863
	},
	{
	"epoch": 2.002577319587629,
	"grad_norm": 1.0439514094170574,
	"learning_rate": 8.263518223330696e-08,
	"loss": 1.3774,
	"step": 864
	},
	{
	"epoch": 2.0051546391752577,
	"grad_norm": 1.1249347513631904,
	"learning_rate": 8.243535606321848e-08,
	"loss": 1.4098,
	"step": 865
	},
	{
	"epoch": 2.0077319587628866,
	"grad_norm": 1.375007615993654,
	"learning_rate": 8.22356022362165e-08,
	"loss": 1.4725,
	"step": 866
	},
	{
	"epoch": 2.0103092783505154,
	"grad_norm": 1.1571951227795978,
	"learning_rate": 8.203592157502244e-08,
	"loss": 1.4642,
	"step": 867
	},
	{
	"epoch": 2.0128865979381443,
	"grad_norm": 1.1725964239389173,
	"learning_rate": 8.183631490205636e-08,
	"loss": 1.4317,
	"step": 868
	},
	{
	"epoch": 2.015463917525773,
	"grad_norm": 1.1131141063076042,
	"learning_rate": 8.163678303943356e-08,
	"loss": 1.4534,
	"step": 869
	},
	{
	"epoch": 2.018041237113402,
	"grad_norm": 1.174599695198473,
	"learning_rate": 8.143732680896123e-08,
	"loss": 1.4076,
	"step": 870
	},
	{
	"epoch": 2.020618556701031,
	"grad_norm": 1.1730868356762598,
	"learning_rate": 8.123794703213509e-08,
	"loss": 1.457,
	"step": 871
	},
	{
	"epoch": 2.0231958762886597,
	"grad_norm": 1.194870586046834,
	"learning_rate": 8.103864453013592e-08,
	"loss": 1.5082,
	"step": 872
	},
	{
	"epoch": 2.0257731958762886,
	"grad_norm": 1.1351876585089653,
	"learning_rate": 8.083942012382625e-08,
	"loss": 1.4886,
	"step": 873
	},
	{
	"epoch": 2.0283505154639174,
	"grad_norm": 1.1792650671176743,
	"learning_rate": 8.064027463374701e-08,
	"loss": 1.4118,
	"step": 874
	},
	{
	"epoch": 2.0309278350515463,
	"grad_norm": 1.153547305161426,
	"learning_rate": 8.0441208880114e-08,
	"loss": 1.4064,
	"step": 875
	},
	{
	"epoch": 2.033505154639175,
	"grad_norm": 1.2783578209502229,
	"learning_rate": 8.024222368281469e-08,
	"loss": 1.4816,
	"step": 876
	},
	{
	"epoch": 2.036082474226804,
	"grad_norm": 1.240844307809194,
	"learning_rate": 8.004331986140473e-08,
	"loss": 1.4598,
	"step": 877
	},
	{
	"epoch": 2.038659793814433,
	"grad_norm": 1.1295638200937268,
	"learning_rate": 7.984449823510467e-08,
	"loss": 1.4081,
	"step": 878
	},
	{
	"epoch": 2.0412371134020617,
	"grad_norm": 1.1888063217054325,
	"learning_rate": 7.964575962279634e-08,
	"loss": 1.4618,
	"step": 879
	},
	{
	"epoch": 2.0438144329896906,
	"grad_norm": 1.2357228980469037,
	"learning_rate": 7.944710484301995e-08,
	"loss": 1.3963,
	"step": 880
	},
	{
	"epoch": 2.0463917525773194,
	"grad_norm": 1.0786846944064847,
	"learning_rate": 7.92485347139702e-08,
	"loss": 1.4514,
	"step": 881
	},
	{
	"epoch": 2.0489690721649483,
	"grad_norm": 1.1666214344742663,
	"learning_rate": 7.90500500534932e-08,
	"loss": 1.4389,
	"step": 882
	},
	{
	"epoch": 2.0489690721649483,
	"eval_loss": 1.4557408094406128,
	"eval_runtime": 78.6008,
	"eval_samples_per_second": 21.158,
	"eval_steps_per_second": 1.323,
	"step": 882
	},
	{
	"epoch": 2.051546391752577,
	"grad_norm": 1.1265923768111081,
	"learning_rate": 7.88516516790831e-08,
	"loss": 1.4401,
	"step": 883
	},
	{
	"epoch": 2.054123711340206,
	"grad_norm": 1.2322020489966297,
	"learning_rate": 7.865334040787866e-08,
	"loss": 1.5326,
	"step": 884
	},
	{
	"epoch": 2.056701030927835,
	"grad_norm": 1.1620543990403278,
	"learning_rate": 7.845511705665973e-08,
	"loss": 1.4151,
	"step": 885
	},
	{
	"epoch": 2.0592783505154637,
	"grad_norm": 1.2532645521350043,
	"learning_rate": 7.82569824418443e-08,
	"loss": 1.485,
	"step": 886
	},
	{
	"epoch": 2.0618556701030926,
	"grad_norm": 1.2322746000056972,
	"learning_rate": 7.805893737948472e-08,
	"loss": 1.439,
	"step": 887
	},
	{
	"epoch": 2.0644329896907214,
	"grad_norm": 1.1992705537386268,
	"learning_rate": 7.786098268526446e-08,
	"loss": 1.4927,
	"step": 888
	},
	{
	"epoch": 2.0670103092783507,
	"grad_norm": 1.219061389377471,
	"learning_rate": 7.7663119174495e-08,
	"loss": 1.5607,
	"step": 889
	},
	{
	"epoch": 2.0695876288659796,
	"grad_norm": 1.2161975840628703,
	"learning_rate": 7.746534766211206e-08,
	"loss": 1.5666,
	"step": 890
	},
	{
	"epoch": 2.0721649484536084,
	"grad_norm": 1.296835674200516,
	"learning_rate": 7.726766896267253e-08,
	"loss": 1.4738,
	"step": 891
	},
	{
	"epoch": 2.0747422680412373,
	"grad_norm": 1.1913191108570989,
	"learning_rate": 7.7070083890351e-08,
	"loss": 1.4345,
	"step": 892
	},
	{
	"epoch": 2.077319587628866,
	"grad_norm": 1.1697890394016621,
	"learning_rate": 7.687259325893654e-08,
	"loss": 1.4431,
	"step": 893
	},
	{
	"epoch": 2.079896907216495,
	"grad_norm": 1.2354727439582665,
	"learning_rate": 7.667519788182912e-08,
	"loss": 1.4302,
	"step": 894
	},
	{
	"epoch": 2.082474226804124,
	"grad_norm": 1.1445036968078774,
	"learning_rate": 7.647789857203644e-08,
	"loss": 1.4532,
	"step": 895
	},
	{
	"epoch": 2.0850515463917527,
	"grad_norm": 1.196595545836434,
	"learning_rate": 7.628069614217058e-08,
	"loss": 1.3915,
	"step": 896
	},
	{
	"epoch": 2.0876288659793816,
	"grad_norm": 1.2451954556034555,
	"learning_rate": 7.608359140444453e-08,
	"loss": 1.502,
	"step": 897
	},
	{
	"epoch": 2.0902061855670104,
	"grad_norm": 1.1198448743060805,
	"learning_rate": 7.588658517066892e-08,
	"loss": 1.4182,
	"step": 898
	},
	{
	"epoch": 2.0927835051546393,
	"grad_norm": 1.178128381993088,
	"learning_rate": 7.568967825224875e-08,
	"loss": 1.5009,
	"step": 899
	},
	{
	"epoch": 2.095360824742268,
	"grad_norm": 1.1493716638910112,
	"learning_rate": 7.549287146017988e-08,
	"loss": 1.4575,
	"step": 900
	},
	{
	"epoch": 2.097938144329897,
	"grad_norm": 1.2133662857011498,
	"learning_rate": 7.529616560504583e-08,
	"loss": 1.5579,
	"step": 901
	},
	{
	"epoch": 2.100515463917526,
	"grad_norm": 1.3854933572472905,
	"learning_rate": 7.509956149701444e-08,
	"loss": 1.4113,
	"step": 902
	},
	{
	"epoch": 2.1030927835051547,
	"grad_norm": 1.263798951148438,
	"learning_rate": 7.490305994583435e-08,
	"loss": 1.4258,
	"step": 903
	},
	{
	"epoch": 2.1056701030927836,
	"grad_norm": 1.1393321990385807,
	"learning_rate": 7.470666176083191e-08,
	"loss": 1.4943,
	"step": 904
	},
	{
	"epoch": 2.1082474226804124,
	"grad_norm": 1.1741861811520338,
	"learning_rate": 7.451036775090775e-08,
	"loss": 1.3918,
	"step": 905
	},
	{
	"epoch": 2.1108247422680413,
	"grad_norm": 1.222621280727268,
	"learning_rate": 7.431417872453338e-08,
	"loss": 1.513,
	"step": 906
	},
	{
	"epoch": 2.11340206185567,
	"grad_norm": 1.1452645437770688,
	"learning_rate": 7.411809548974791e-08,
	"loss": 1.4496,
	"step": 907
	},
	{
	"epoch": 2.115979381443299,
	"grad_norm": 1.1804026334318425,
	"learning_rate": 7.39221188541548e-08,
	"loss": 1.4644,
	"step": 908
	},
	{
	"epoch": 2.118556701030928,
	"grad_norm": 1.1527370569507815,
	"learning_rate": 7.372624962491841e-08,
	"loss": 1.4698,
	"step": 909
	},
	{
	"epoch": 2.1211340206185567,
	"grad_norm": 1.211563683201349,
	"learning_rate": 7.353048860876063e-08,
	"loss": 1.4671,
	"step": 910
	},
	{
	"epoch": 2.1237113402061856,
	"grad_norm": 1.1550395362954822,
	"learning_rate": 7.333483661195792e-08,
	"loss": 1.3627,
	"step": 911
	},
	{
	"epoch": 2.1262886597938144,
	"grad_norm": 1.1772438114561363,
	"learning_rate": 7.31392944403375e-08,
	"loss": 1.4349,
	"step": 912
	},
	{
	"epoch": 2.1288659793814433,
	"grad_norm": 1.1316430782314122,
	"learning_rate": 7.294386289927424e-08,
	"loss": 1.4892,
	"step": 913
	},
	{
	"epoch": 2.131443298969072,
	"grad_norm": 1.2166109017309248,
	"learning_rate": 7.274854279368758e-08,
	"loss": 1.4753,
	"step": 914
	},
	{
	"epoch": 2.134020618556701,
	"grad_norm": 1.2508664732495605,
	"learning_rate": 7.255333492803777e-08,
	"loss": 1.3593,
	"step": 915
	},
	{
	"epoch": 2.13659793814433,
	"grad_norm": 1.1270294993138392,
	"learning_rate": 7.235824010632283e-08,
	"loss": 1.5031,
	"step": 916
	},
	{
	"epoch": 2.1391752577319587,
	"grad_norm": 1.142323203849277,
	"learning_rate": 7.216325913207534e-08,
	"loss": 1.4747,
	"step": 917
	},
	{
	"epoch": 2.1417525773195876,
	"grad_norm": 1.198388386752302,
	"learning_rate": 7.196839280835875e-08,
	"loss": 1.4787,
	"step": 918
	},
	{
	"epoch": 2.1443298969072164,
	"grad_norm": 1.288933637399068,
	"learning_rate": 7.17736419377644e-08,
	"loss": 1.458,
	"step": 919
	},
	{
	"epoch": 2.1469072164948453,
	"grad_norm": 1.2342213116469787,
	"learning_rate": 7.157900732240826e-08,
	"loss": 1.4902,
	"step": 920
	},
	{
	"epoch": 2.149484536082474,
	"grad_norm": 1.2300130857871707,
	"learning_rate": 7.138448976392724e-08,
	"loss": 1.4835,
	"step": 921
	},
	{
	"epoch": 2.152061855670103,
	"grad_norm": 1.169125520832618,
	"learning_rate": 7.119009006347624e-08,
	"loss": 1.413,
	"step": 922
	},
	{
	"epoch": 2.154639175257732,
	"grad_norm": 1.1702489758289347,
	"learning_rate": 7.09958090217248e-08,
	"loss": 1.4857,
	"step": 923
	},
	{
	"epoch": 2.1572164948453607,
	"grad_norm": 1.179155067994331,
	"learning_rate": 7.080164743885362e-08,
	"loss": 1.507,
	"step": 924
	},
	{
	"epoch": 2.1597938144329896,
	"grad_norm": 1.149588572227629,
	"learning_rate": 7.060760611455151e-08,
	"loss": 1.3957,
	"step": 925
	},
	{
	"epoch": 2.1623711340206184,
	"grad_norm": 1.1269730428089064,
	"learning_rate": 7.041368584801186e-08,
	"loss": 1.515,
	"step": 926
	},
	{
	"epoch": 2.1649484536082473,
	"grad_norm": 1.2614734844469966,
	"learning_rate": 7.021988743792958e-08,
	"loss": 1.4752,
	"step": 927
	},
	{
	"epoch": 2.167525773195876,
	"grad_norm": 1.26049546725807,
	"learning_rate": 7.002621168249758e-08,
	"loss": 1.4222,
	"step": 928
	},
	{
	"epoch": 2.170103092783505,
	"grad_norm": 1.2122490418432295,
	"learning_rate": 6.983265937940365e-08,
	"loss": 1.5258,
	"step": 929
	},
	{
	"epoch": 2.172680412371134,
	"grad_norm": 1.163933149699957,
	"learning_rate": 6.963923132582715e-08,
	"loss": 1.4406,
	"step": 930
	},
	{
	"epoch": 2.1752577319587627,
	"grad_norm": 1.2117410126905865,
	"learning_rate": 6.944592831843566e-08,
	"loss": 1.4541,
	"step": 931
	},
	{
	"epoch": 2.1752577319587627,
	"eval_loss": 1.4543218612670898,
	"eval_runtime": 78.6219,
	"eval_samples_per_second": 21.152,
	"eval_steps_per_second": 1.323,
	"step": 931
	},
	{
	"epoch": 2.1778350515463916,
	"grad_norm": 1.2898700377788812,
	"learning_rate": 6.925275115338167e-08,
	"loss": 1.458,
	"step": 932
	},
	{
	"epoch": 2.1804123711340204,
	"grad_norm": 1.1426836123172524,
	"learning_rate": 6.90597006262995e-08,
	"loss": 1.3469,
	"step": 933
	},
	{
	"epoch": 2.1829896907216493,
	"grad_norm": 1.224441134115869,
	"learning_rate": 6.886677753230183e-08,
	"loss": 1.4027,
	"step": 934
	},
	{
	"epoch": 2.1855670103092786,
	"grad_norm": 1.387271519204012,
	"learning_rate": 6.867398266597642e-08,
	"loss": 1.4359,
	"step": 935
	},
	{
	"epoch": 2.1881443298969074,
	"grad_norm": 1.2243550754367374,
	"learning_rate": 6.848131682138303e-08,
	"loss": 1.4891,
	"step": 936
	},
	{
	"epoch": 2.1907216494845363,
	"grad_norm": 1.2282484095681934,
	"learning_rate": 6.82887807920499e-08,
	"loss": 1.4571,
	"step": 937
	},
	{
	"epoch": 2.193298969072165,
	"grad_norm": 1.252437764569184,
	"learning_rate": 6.809637537097061e-08,
	"loss": 1.4845,
	"step": 938
	},
	{
	"epoch": 2.195876288659794,
	"grad_norm": 1.2033826306564712,
	"learning_rate": 6.790410135060096e-08,
	"loss": 1.3981,
	"step": 939
	},
	{
	"epoch": 2.198453608247423,
	"grad_norm": 1.2730733273660004,
	"learning_rate": 6.77119595228554e-08,
	"loss": 1.5428,
	"step": 940
	},
	{
	"epoch": 2.2010309278350517,
	"grad_norm": 1.1145258448772917,
	"learning_rate": 6.751995067910388e-08,
	"loss": 1.4391,
	"step": 941
	},
	{
	"epoch": 2.2036082474226806,
	"grad_norm": 1.2423736700157595,
	"learning_rate": 6.732807561016884e-08,
	"loss": 1.3461,
	"step": 942
	},
	{
	"epoch": 2.2061855670103094,
	"grad_norm": 1.2567446761007774,
	"learning_rate": 6.713633510632157e-08,
	"loss": 1.4424,
	"step": 943
	},
	{
	"epoch": 2.2087628865979383,
	"grad_norm": 1.1962904231989222,
	"learning_rate": 6.694472995727913e-08,
	"loss": 1.5211,
	"step": 944
	},
	{
	"epoch": 2.211340206185567,
	"grad_norm": 1.2697071279271324,
	"learning_rate": 6.675326095220124e-08,
	"loss": 1.5138,
	"step": 945
	},
	{
	"epoch": 2.213917525773196,
	"grad_norm": 1.1182813975437969,
	"learning_rate": 6.656192887968674e-08,
	"loss": 1.4643,
	"step": 946
	},
	{
	"epoch": 2.216494845360825,
	"grad_norm": 1.2209457066901777,
	"learning_rate": 6.637073452777051e-08,
	"loss": 1.4646,
	"step": 947
	},
	{
	"epoch": 2.2190721649484537,
	"grad_norm": 1.2364207179496447,
	"learning_rate": 6.617967868392035e-08,
	"loss": 1.4531,
	"step": 948
	},
	{
	"epoch": 2.2216494845360826,
	"grad_norm": 1.1596958099892627,
	"learning_rate": 6.598876213503339e-08,
	"loss": 1.3596,
	"step": 949
	},
	{
	"epoch": 2.2242268041237114,
	"grad_norm": 1.1861584749981382,
	"learning_rate": 6.579798566743313e-08,
	"loss": 1.4605,
	"step": 950
	},
	{
	"epoch": 2.2268041237113403,
	"grad_norm": 1.2713750509697457,
	"learning_rate": 6.560735006686617e-08,
	"loss": 1.5169,
	"step": 951
	},
	{
	"epoch": 2.229381443298969,
	"grad_norm": 1.166290536481266,
	"learning_rate": 6.541685611849887e-08,
	"loss": 1.4436,
	"step": 952
	},
	{
	"epoch": 2.231958762886598,
	"grad_norm": 1.1735876550775757,
	"learning_rate": 6.522650460691415e-08,
	"loss": 1.4548,
	"step": 953
	},
	{
	"epoch": 2.234536082474227,
	"grad_norm": 1.2477782864575375,
	"learning_rate": 6.503629631610836e-08,
	"loss": 1.4534,
	"step": 954
	},
	{
	"epoch": 2.2371134020618557,
	"grad_norm": 1.2173622340437633,
	"learning_rate": 6.48462320294879e-08,
	"loss": 1.4595,
	"step": 955
	},
	{
	"epoch": 2.2396907216494846,
	"grad_norm": 1.1869675634283399,
	"learning_rate": 6.465631252986608e-08,
	"loss": 1.4451,
	"step": 956
	},
	{
	"epoch": 2.2422680412371134,
	"grad_norm": 1.1456159400412829,
	"learning_rate": 6.446653859945986e-08,
	"loss": 1.4064,
	"step": 957
	},
	{
	"epoch": 2.2448453608247423,
	"grad_norm": 1.2491020198374654,
	"learning_rate": 6.427691101988673e-08,
	"loss": 1.4949,
	"step": 958
	},
	{
	"epoch": 2.247422680412371,
	"grad_norm": 1.2282744468510673,
	"learning_rate": 6.40874305721613e-08,
	"loss": 1.4545,
	"step": 959
	},
	{
	"epoch": 2.25,
	"grad_norm": 1.0996865259394428,
	"learning_rate": 6.389809803669226e-08,
	"loss": 1.3342,
	"step": 960
	},
	{
	"epoch": 2.252577319587629,
	"grad_norm": 1.230550939339635,
	"learning_rate": 6.370891419327906e-08,
	"loss": 1.5121,
	"step": 961
	},
	{
	"epoch": 2.2551546391752577,
	"grad_norm": 1.2652568339180974,
	"learning_rate": 6.351987982110879e-08,
	"loss": 1.5533,
	"step": 962
	},
	{
	"epoch": 2.2577319587628866,
	"grad_norm": 1.173180731192026,
	"learning_rate": 6.333099569875284e-08,
	"loss": 1.4439,
	"step": 963
	},
	{
	"epoch": 2.2603092783505154,
	"grad_norm": 1.1001923514400465,
	"learning_rate": 6.314226260416382e-08,
	"loss": 1.4376,
	"step": 964
	},
	{
	"epoch": 2.2628865979381443,
	"grad_norm": 1.1389700541958854,
	"learning_rate": 6.295368131467235e-08,
	"loss": 1.4357,
	"step": 965
	},
	{
	"epoch": 2.265463917525773,
	"grad_norm": 1.1695985290298057,
	"learning_rate": 6.276525260698363e-08,
	"loss": 1.5309,
	"step": 966
	},
	{
	"epoch": 2.268041237113402,
	"grad_norm": 1.2012587244050719,
	"learning_rate": 6.257697725717468e-08,
	"loss": 1.5271,
	"step": 967
	},
	{
	"epoch": 2.270618556701031,
	"grad_norm": 1.2116419761383141,
	"learning_rate": 6.238885604069075e-08,
	"loss": 1.4536,
	"step": 968
	},
	{
	"epoch": 2.2731958762886597,
	"grad_norm": 1.169258658026815,
	"learning_rate": 6.220088973234215e-08,
	"loss": 1.4662,
	"step": 969
	},
	{
	"epoch": 2.2757731958762886,
	"grad_norm": 1.1455385835708687,
	"learning_rate": 6.201307910630145e-08,
	"loss": 1.4339,
	"step": 970
	},
	{
	"epoch": 2.2783505154639174,
	"grad_norm": 1.1833257380384377,
	"learning_rate": 6.182542493609984e-08,
	"loss": 1.3253,
	"step": 971
	},
	{
	"epoch": 2.2809278350515463,
	"grad_norm": 1.28784815413645,
	"learning_rate": 6.163792799462403e-08,
	"loss": 1.4603,
	"step": 972
	},
	{
	"epoch": 2.283505154639175,
	"grad_norm": 1.1970928590978123,
	"learning_rate": 6.145058905411342e-08,
	"loss": 1.4683,
	"step": 973
	},
	{
	"epoch": 2.286082474226804,
	"grad_norm": 1.149098853897877,
	"learning_rate": 6.126340888615641e-08,
	"loss": 1.4729,
	"step": 974
	},
	{
	"epoch": 2.288659793814433,
	"grad_norm": 1.209952156325127,
	"learning_rate": 6.107638826168756e-08,
	"loss": 1.5063,
	"step": 975
	},
	{
	"epoch": 2.2912371134020617,
	"grad_norm": 1.093427620169618,
	"learning_rate": 6.088952795098441e-08,
	"loss": 1.4402,
	"step": 976
	},
	{
	"epoch": 2.2938144329896906,
	"grad_norm": 1.1277798916215127,
	"learning_rate": 6.070282872366406e-08,
	"loss": 1.5049,
	"step": 977
	},
	{
	"epoch": 2.2963917525773194,
	"grad_norm": 1.1497157702484186,
	"learning_rate": 6.05162913486802e-08,
	"loss": 1.4331,
	"step": 978
	},
	{
	"epoch": 2.2989690721649483,
	"grad_norm": 1.2127687421273623,
	"learning_rate": 6.032991659432006e-08,
	"loss": 1.464,
	"step": 979
	},
	{
	"epoch": 2.301546391752577,
	"grad_norm": 1.2091736243527582,
	"learning_rate": 6.014370522820084e-08,
	"loss": 1.4257,
	"step": 980
	},
	{
	"epoch": 2.301546391752577,
	"eval_loss": 1.4530315399169922,
	"eval_runtime": 78.4954,
	"eval_samples_per_second": 21.186,
	"eval_steps_per_second": 1.325,
	"step": 980
	},
	{
	"epoch": 2.304123711340206,
	"grad_norm": 1.1621649511934278,
	"learning_rate": 5.995765801726698e-08,
	"loss": 1.4808,
	"step": 981
	},
	{
	"epoch": 2.306701030927835,
	"grad_norm": 1.1581272698070357,
	"learning_rate": 5.977177572778678e-08,
	"loss": 1.3401,
	"step": 982
	},
	{
	"epoch": 2.3092783505154637,
	"grad_norm": 1.1599391051626198,
	"learning_rate": 5.958605912534921e-08,
	"loss": 1.4917,
	"step": 983
	},
	{
	"epoch": 2.3118556701030926,
	"grad_norm": 1.3034698067830743,
	"learning_rate": 5.9400508974860885e-08,
	"loss": 1.4841,
	"step": 984
	},
	{
	"epoch": 2.3144329896907214,
	"grad_norm": 1.2060359148709237,
	"learning_rate": 5.9215126040542886e-08,
	"loss": 1.4479,
	"step": 985
	},
	{
	"epoch": 2.3170103092783503,
	"grad_norm": 1.2258119330781094,
	"learning_rate": 5.902991108592754e-08,
	"loss": 1.4949,
	"step": 986
	},
	{
	"epoch": 2.319587628865979,
	"grad_norm": 1.2150702094703367,
	"learning_rate": 5.8844864873855296e-08,
	"loss": 1.4329,
	"step": 987
	},
	{
	"epoch": 2.3221649484536084,
	"grad_norm": 1.1354804163624515,
	"learning_rate": 5.8659988166471706e-08,
	"loss": 1.3683,
	"step": 988
	},
	{
	"epoch": 2.3247422680412373,
	"grad_norm": 1.1304878710380117,
	"learning_rate": 5.847528172522407e-08,
	"loss": 1.4345,
	"step": 989
	},
	{
	"epoch": 2.327319587628866,
	"grad_norm": 1.2388489587800555,
	"learning_rate": 5.829074631085852e-08,
	"loss": 1.5177,
	"step": 990
	},
	{
	"epoch": 2.329896907216495,
	"grad_norm": 1.2418385155763394,
	"learning_rate": 5.8106382683416636e-08,
	"loss": 1.5666,
	"step": 991
	},
	{
	"epoch": 2.332474226804124,
	"grad_norm": 1.2067656028810445,
	"learning_rate": 5.7922191602232675e-08,
	"loss": 1.501,
	"step": 992
	},
	{
	"epoch": 2.3350515463917527,
	"grad_norm": 1.2443124436097661,
	"learning_rate": 5.773817382593007e-08,
	"loss": 1.4516,
	"step": 993
	},
	{
	"epoch": 2.3376288659793816,
	"grad_norm": 1.2589938629670394,
	"learning_rate": 5.7554330112418504e-08,
	"loss": 1.4955,
	"step": 994
	},
	{
	"epoch": 2.3402061855670104,
	"grad_norm": 1.1979526509329819,
	"learning_rate": 5.737066121889078e-08,
	"loss": 1.4224,
	"step": 995
	},
	{
	"epoch": 2.3427835051546393,
	"grad_norm": 1.1895398966073056,
	"learning_rate": 5.718716790181965e-08,
	"loss": 1.4243,
	"step": 996
	},
	{
	"epoch": 2.345360824742268,
	"grad_norm": 1.1828652518517522,
	"learning_rate": 5.70038509169547e-08,
	"loss": 1.4559,
	"step": 997
	},
	{
	"epoch": 2.347938144329897,
	"grad_norm": 1.2201556733969088,
	"learning_rate": 5.682071101931936e-08,
	"loss": 1.5799,
	"step": 998
	},
	{
	"epoch": 2.350515463917526,
	"grad_norm": 1.2211801179218442,
	"learning_rate": 5.6637748963207566e-08,
	"loss": 1.4684,
	"step": 999
	},
	{
	"epoch": 2.3530927835051547,
	"grad_norm": 1.2453622614111477,
	"learning_rate": 5.6454965502180884e-08,
	"loss": 1.4854,
	"step": 1000
	},
	{
	"epoch": 2.3556701030927836,
	"grad_norm": 1.1220592371624576,
	"learning_rate": 5.627236138906524e-08,
	"loss": 1.5089,
	"step": 1001
	},
	{
	"epoch": 2.3582474226804124,
	"grad_norm": 1.1369675384518176,
	"learning_rate": 5.60899373759479e-08,
	"loss": 1.4088,
	"step": 1002
	},
	{
	"epoch": 2.3608247422680413,
	"grad_norm": 1.1583531710119257,
	"learning_rate": 5.590769421417434e-08,
	"loss": 1.4299,
	"step": 1003
	},
	{
	"epoch": 2.36340206185567,
	"grad_norm": 1.2204630482972216,
	"learning_rate": 5.572563265434527e-08,
	"loss": 1.421,
	"step": 1004
	},
	{
	"epoch": 2.365979381443299,
	"grad_norm": 1.1654233558024554,
	"learning_rate": 5.55437534463133e-08,
	"loss": 1.4153,
	"step": 1005
	},
	{
	"epoch": 2.368556701030928,
	"grad_norm": 1.1255124035829496,
	"learning_rate": 5.536205733918007e-08,
	"loss": 1.4196,
	"step": 1006
	},
	{
	"epoch": 2.3711340206185567,
	"grad_norm": 1.1998683282168985,
	"learning_rate": 5.5180545081293074e-08,
	"loss": 1.4067,
	"step": 1007
	},
	{
	"epoch": 2.3737113402061856,
	"grad_norm": 1.2097328179188533,
	"learning_rate": 5.4999217420242574e-08,
	"loss": 1.4221,
	"step": 1008
	},
	{
	"epoch": 2.3762886597938144,
	"grad_norm": 1.2465777328454615,
	"learning_rate": 5.481807510285852e-08,
	"loss": 1.5432,
	"step": 1009
	},
	{
	"epoch": 2.3788659793814433,
	"grad_norm": 1.1017326736009339,
	"learning_rate": 5.4637118875207585e-08,
	"loss": 1.4498,
	"step": 1010
	},
	{
	"epoch": 2.381443298969072,
	"grad_norm": 1.1894534742510336,
	"learning_rate": 5.445634948258991e-08,
	"loss": 1.4779,
	"step": 1011
	},
	{
	"epoch": 2.384020618556701,
	"grad_norm": 1.2240426429209377,
	"learning_rate": 5.4275767669536145e-08,
	"loss": 1.4643,
	"step": 1012
	},
	{
	"epoch": 2.38659793814433,
	"grad_norm": 1.1865338401108185,
	"learning_rate": 5.4095374179804365e-08,
	"loss": 1.4218,
	"step": 1013
	},
	{
	"epoch": 2.3891752577319587,
	"grad_norm": 1.1332962977107732,
	"learning_rate": 5.391516975637699e-08,
	"loss": 1.4893,
	"step": 1014
	},
	{
	"epoch": 2.3917525773195876,
	"grad_norm": 1.1749099925869624,
	"learning_rate": 5.373515514145771e-08,
	"loss": 1.4223,
	"step": 1015
	},
	{
	"epoch": 2.3943298969072164,
	"grad_norm": 1.2704273457918143,
	"learning_rate": 5.355533107646858e-08,
	"loss": 1.4625,
	"step": 1016
	},
	{
	"epoch": 2.3969072164948453,
	"grad_norm": 1.2661897531951014,
	"learning_rate": 5.3375698302046745e-08,
	"loss": 1.4886,
	"step": 1017
	},
	{
	"epoch": 2.399484536082474,
	"grad_norm": 1.1604729483093374,
	"learning_rate": 5.319625755804138e-08,
	"loss": 1.433,
	"step": 1018
	},
	{
	"epoch": 2.402061855670103,
	"grad_norm": 1.1177913422918446,
	"learning_rate": 5.301700958351098e-08,
	"loss": 1.3745,
	"step": 1019
	},
	{
	"epoch": 2.404639175257732,
	"grad_norm": 1.350758760981664,
	"learning_rate": 5.283795511671994e-08,
	"loss": 1.5148,
	"step": 1020
	},
	{
	"epoch": 2.4072164948453607,
	"grad_norm": 1.1721177815291475,
	"learning_rate": 5.265909489513567e-08,
	"loss": 1.4789,
	"step": 1021
	},
	{
	"epoch": 2.4097938144329896,
	"grad_norm": 1.1121369880829992,
	"learning_rate": 5.248042965542558e-08,
	"loss": 1.4492,
	"step": 1022
	},
	{
	"epoch": 2.4123711340206184,
	"grad_norm": 1.172764927678444,
	"learning_rate": 5.230196013345398e-08,
	"loss": 1.495,
	"step": 1023
	},
	{
	"epoch": 2.4149484536082473,
	"grad_norm": 1.2211219953558563,
	"learning_rate": 5.212368706427912e-08,
	"loss": 1.4839,
	"step": 1024
	},
	{
	"epoch": 2.417525773195876,
	"grad_norm": 1.2134922811527864,
	"learning_rate": 5.194561118215004e-08,
	"loss": 1.4247,
	"step": 1025
	},
	{
	"epoch": 2.420103092783505,
	"grad_norm": 1.1269911256995855,
	"learning_rate": 5.176773322050381e-08,
	"loss": 1.4484,
	"step": 1026
	},
	{
	"epoch": 2.422680412371134,
	"grad_norm": 1.119051207691081,
	"learning_rate": 5.1590053911962127e-08,
	"loss": 1.3717,
	"step": 1027
	},
	{
	"epoch": 2.4252577319587627,
	"grad_norm": 1.1877122575741303,
	"learning_rate": 5.141257398832862e-08,
	"loss": 1.416,
	"step": 1028
	},
	{
	"epoch": 2.4278350515463916,
	"grad_norm": 1.1267435950520672,
	"learning_rate": 5.1235294180585674e-08,
	"loss": 1.4357,
	"step": 1029
	},
	{
	"epoch": 2.4278350515463916,
	"eval_loss": 1.4520158767700195,
	"eval_runtime": 78.5953,
	"eval_samples_per_second": 21.159,
	"eval_steps_per_second": 1.323,
	"step": 1029
	},
	{
	"epoch": 2.430412371134021,
	"grad_norm": 1.0857318983382882,
	"learning_rate": 5.1058215218891464e-08,
	"loss": 1.4512,
	"step": 1030
	},
	{
	"epoch": 2.4329896907216497,
	"grad_norm": 1.155498319174195,
	"learning_rate": 5.088133783257693e-08,
	"loss": 1.5014,
	"step": 1031
	},
	{
	"epoch": 2.4355670103092786,
	"grad_norm": 1.2379699109090305,
	"learning_rate": 5.070466275014287e-08,
	"loss": 1.5288,
	"step": 1032
	},
	{
	"epoch": 2.4381443298969074,
	"grad_norm": 1.3260836529994613,
	"learning_rate": 5.0528190699256756e-08,
	"loss": 1.456,
	"step": 1033
	},
	{
	"epoch": 2.4407216494845363,
	"grad_norm": 1.1737794063785383,
	"learning_rate": 5.03519224067499e-08,
	"loss": 1.4514,
	"step": 1034
	},
	{
	"epoch": 2.443298969072165,
	"grad_norm": 1.183113595964214,
	"learning_rate": 5.0175858598614363e-08,
	"loss": 1.4507,
	"step": 1035
	},
	{
	"epoch": 2.445876288659794,
	"grad_norm": 1.1143164931619889,
	"learning_rate": 5.000000000000002e-08,
	"loss": 1.3849,
	"step": 1036
	},
	{
	"epoch": 2.448453608247423,
	"grad_norm": 1.1724349277334387,
	"learning_rate": 4.9824347335211514e-08,
	"loss": 1.4424,
	"step": 1037
	},
	{
	"epoch": 2.4510309278350517,
	"grad_norm": 1.1212216527840104,
	"learning_rate": 4.964890132770543e-08,
	"loss": 1.4082,
	"step": 1038
	},
	{
	"epoch": 2.4536082474226806,
	"grad_norm": 1.1522290603715333,
	"learning_rate": 4.947366270008707e-08,
	"loss": 1.4314,
	"step": 1039
	},
	{
	"epoch": 2.4561855670103094,
	"grad_norm": 1.1633774724561892,
	"learning_rate": 4.929863217410767e-08,
	"loss": 1.4865,
	"step": 1040
	},
	{
	"epoch": 2.4587628865979383,
	"grad_norm": 1.1406335428126368,
	"learning_rate": 4.912381047066133e-08,
	"loss": 1.4458,
	"step": 1041
	},
	{
	"epoch": 2.461340206185567,
	"grad_norm": 1.1104681920852408,
	"learning_rate": 4.894919830978211e-08,
	"loss": 1.397,
	"step": 1042
	},
	{
	"epoch": 2.463917525773196,
	"grad_norm": 1.2181204959510732,
	"learning_rate": 4.8774796410640983e-08,
	"loss": 1.4955,
	"step": 1043
	},
	{
	"epoch": 2.466494845360825,
	"grad_norm": 1.15471572592744,
	"learning_rate": 4.860060549154301e-08,
	"loss": 1.3996,
	"step": 1044
	},
	{
	"epoch": 2.4690721649484537,
	"grad_norm": 1.19065290512176,
	"learning_rate": 4.842662626992426e-08,
	"loss": 1.4755,
	"step": 1045
	},
	{
	"epoch": 2.4716494845360826,
	"grad_norm": 1.351223096851913,
	"learning_rate": 4.825285946234874e-08,
	"loss": 1.4747,
	"step": 1046
	},
	{
	"epoch": 2.4742268041237114,
	"grad_norm": 1.141166837825934,
	"learning_rate": 4.807930578450584e-08,
	"loss": 1.4063,
	"step": 1047
	},
	{
	"epoch": 2.4768041237113403,
	"grad_norm": 1.1861721992764764,
	"learning_rate": 4.7905965951206986e-08,
	"loss": 1.4967,
	"step": 1048
	},
	{
	"epoch": 2.479381443298969,
	"grad_norm": 1.2595851597755765,
	"learning_rate": 4.773284067638281e-08,
	"loss": 1.4877,
	"step": 1049
	},
	{
	"epoch": 2.481958762886598,
	"grad_norm": 1.1088230107238257,
	"learning_rate": 4.755993067308047e-08,
	"loss": 1.4385,
	"step": 1050
	},
	{
	"epoch": 2.484536082474227,
	"grad_norm": 1.2852932163080484,
	"learning_rate": 4.7387236653460205e-08,
	"loss": 1.4141,
	"step": 1051
	},
	{
	"epoch": 2.4871134020618557,
	"grad_norm": 1.244645084527039,
	"learning_rate": 4.721475932879282e-08,
	"loss": 1.482,
	"step": 1052
	},
	{
	"epoch": 2.4896907216494846,
	"grad_norm": 1.2466688875419663,
	"learning_rate": 4.7042499409456695e-08,
	"loss": 1.4382,
	"step": 1053
	},
	{
	"epoch": 2.4922680412371134,
	"grad_norm": 1.2462831105011571,
	"learning_rate": 4.687045760493468e-08,
	"loss": 1.536,
	"step": 1054
	},
	{
	"epoch": 2.4948453608247423,
	"grad_norm": 1.1482492444378036,
	"learning_rate": 4.6698634623811307e-08,
	"loss": 1.4406,
	"step": 1055
	},
	{
	"epoch": 2.497422680412371,
	"grad_norm": 1.1978027196822072,
	"learning_rate": 4.652703117376986e-08,
	"loss": 1.4288,
	"step": 1056
	},
	{
	"epoch": 2.5,
	"grad_norm": 1.205112527214404,
	"learning_rate": 4.635564796158945e-08,
	"loss": 1.4066,
	"step": 1057
	},
	{
	"epoch": 2.502577319587629,
	"grad_norm": 1.1958287831198664,
	"learning_rate": 4.618448569314206e-08,
	"loss": 1.4194,
	"step": 1058
	},
	{
	"epoch": 2.5051546391752577,
	"grad_norm": 1.0972900424361671,
	"learning_rate": 4.60135450733897e-08,
	"loss": 1.4838,
	"step": 1059
	},
	{
	"epoch": 2.5077319587628866,
	"grad_norm": 1.2508036239600449,
	"learning_rate": 4.584282680638154e-08,
	"loss": 1.4443,
	"step": 1060
	},
	{
	"epoch": 2.5103092783505154,
	"grad_norm": 1.1703232750822017,
	"learning_rate": 4.567233159525088e-08,
	"loss": 1.434,
	"step": 1061
	},
	{
	"epoch": 2.5128865979381443,
	"grad_norm": 1.1666987794362405,
	"learning_rate": 4.550206014221232e-08,
	"loss": 1.4857,
	"step": 1062
	},
	{
	"epoch": 2.515463917525773,
	"grad_norm": 1.118899379693407,
	"learning_rate": 4.53320131485589e-08,
	"loss": 1.4753,
	"step": 1063
	},
	{
	"epoch": 2.518041237113402,
	"grad_norm": 1.2072619010906969,
	"learning_rate": 4.516219131465919e-08,
	"loss": 1.461,
	"step": 1064
	},
	{
	"epoch": 2.520618556701031,
	"grad_norm": 1.1330825353202136,
	"learning_rate": 4.499259533995434e-08,
	"loss": 1.3632,
	"step": 1065
	},
	{
	"epoch": 2.5231958762886597,
	"grad_norm": 1.087244159516567,
	"learning_rate": 4.48232259229554e-08,
	"loss": 1.4907,
	"step": 1066
	},
	{
	"epoch": 2.5257731958762886,
	"grad_norm": 1.113783698087956,
	"learning_rate": 4.465408376124016e-08,
	"loss": 1.425,
	"step": 1067
	},
	{
	"epoch": 2.5283505154639174,
	"grad_norm": 1.2174392360989843,
	"learning_rate": 4.448516955145047e-08,
	"loss": 1.5075,
	"step": 1068
	},
	{
	"epoch": 2.5309278350515463,
	"grad_norm": 1.2580642720936182,
	"learning_rate": 4.431648398928932e-08,
	"loss": 1.4312,
	"step": 1069
	},
	{
	"epoch": 2.533505154639175,
	"grad_norm": 1.2608189792754003,
	"learning_rate": 4.414802776951798e-08,
	"loss": 1.4614,
	"step": 1070
	},
	{
	"epoch": 2.536082474226804,
	"grad_norm": 1.1608489532256927,
	"learning_rate": 4.3979801585953094e-08,
	"loss": 1.4286,
	"step": 1071
	},
	{
	"epoch": 2.538659793814433,
	"grad_norm": 1.241756886612098,
	"learning_rate": 4.381180613146395e-08,
	"loss": 1.4545,
	"step": 1072
	},
	{
	"epoch": 2.5412371134020617,
	"grad_norm": 1.1267401284402057,
	"learning_rate": 4.364404209796948e-08,
	"loss": 1.4289,
	"step": 1073
	},
	{
	"epoch": 2.5438144329896906,
	"grad_norm": 1.1675743288280764,
	"learning_rate": 4.347651017643539e-08,
	"loss": 1.4545,
	"step": 1074
	},
	{
	"epoch": 2.5463917525773194,
	"grad_norm": 1.1014672234344964,
	"learning_rate": 4.3309211056871544e-08,
	"loss": 1.4588,
	"step": 1075
	},
	{
	"epoch": 2.5489690721649483,
	"grad_norm": 1.1537126237371678,
	"learning_rate": 4.314214542832888e-08,
	"loss": 1.4922,
	"step": 1076
	},
	{
	"epoch": 2.551546391752577,
	"grad_norm": 1.0803879548258355,
	"learning_rate": 4.2975313978896644e-08,
	"loss": 1.4505,
	"step": 1077
	},
	{
	"epoch": 2.554123711340206,
	"grad_norm": 1.1135211277789598,
	"learning_rate": 4.280871739569971e-08,
	"loss": 1.4256,
	"step": 1078
	},
	{
	"epoch": 2.554123711340206,
	"eval_loss": 1.4510596990585327,
	"eval_runtime": 78.5321,
	"eval_samples_per_second": 21.176,
	"eval_steps_per_second": 1.324,
	"step": 1078
	},
	{
	"epoch": 2.556701030927835,
	"grad_norm": 1.1587956973540048,
	"learning_rate": 4.2642356364895414e-08,
	"loss": 1.3874,
	"step": 1079
	},
	{
	"epoch": 2.5592783505154637,
	"grad_norm": 1.2208237784983438,
	"learning_rate": 4.247623157167102e-08,
	"loss": 1.4828,
	"step": 1080
	},
	{
	"epoch": 2.5618556701030926,
	"grad_norm": 1.1970857349297972,
	"learning_rate": 4.231034370024088e-08,
	"loss": 1.4412,
	"step": 1081
	},
	{
	"epoch": 2.5644329896907214,
	"grad_norm": 1.1543756364647166,
	"learning_rate": 4.214469343384346e-08,
	"loss": 1.4448,
	"step": 1082
	},
	{
	"epoch": 2.5670103092783503,
	"grad_norm": 1.125316478876826,
	"learning_rate": 4.197928145473856e-08,
	"loss": 1.3943,
	"step": 1083
	},
	{
	"epoch": 2.569587628865979,
	"grad_norm": 1.1220973164280506,
	"learning_rate": 4.181410844420473e-08,
	"loss": 1.4221,
	"step": 1084
	},
	{
	"epoch": 2.572164948453608,
	"grad_norm": 1.1654590544487953,
	"learning_rate": 4.164917508253607e-08,
	"loss": 1.433,
	"step": 1085
	},
	{
	"epoch": 2.574742268041237,
	"grad_norm": 1.1709294745599472,
	"learning_rate": 4.148448204903977e-08,
	"loss": 1.3952,
	"step": 1086
	},
	{
	"epoch": 2.5773195876288657,
	"grad_norm": 1.1679647806294131,
	"learning_rate": 4.132003002203314e-08,
	"loss": 1.4641,
	"step": 1087
	},
	{
	"epoch": 2.579896907216495,
	"grad_norm": 1.3695549935841669,
	"learning_rate": 4.115581967884093e-08,
	"loss": 1.5259,
	"step": 1088
	},
	{
	"epoch": 2.582474226804124,
	"grad_norm": 1.1307837909317393,
	"learning_rate": 4.099185169579241e-08,
	"loss": 1.4012,
	"step": 1089
	},
	{
	"epoch": 2.5850515463917527,
	"grad_norm": 1.1501589873026261,
	"learning_rate": 4.0828126748218647e-08,
	"loss": 1.4582,
	"step": 1090
	},
	{
	"epoch": 2.5876288659793816,
	"grad_norm": 1.1069474546473044,
	"learning_rate": 4.0664645510449745e-08,
	"loss": 1.4335,
	"step": 1091
	},
	{
	"epoch": 2.5902061855670104,
	"grad_norm": 1.1910808093335385,
	"learning_rate": 4.050140865581204e-08,
	"loss": 1.458,
	"step": 1092
	},
	{
	"epoch": 2.5927835051546393,
	"grad_norm": 1.1210216135242885,
	"learning_rate": 4.033841685662529e-08,
	"loss": 1.4671,
	"step": 1093
	},
	{
	"epoch": 2.595360824742268,
	"grad_norm": 1.1392325814801574,
	"learning_rate": 4.0175670784200066e-08,
	"loss": 1.4687,
	"step": 1094
	},
	{
	"epoch": 2.597938144329897,
	"grad_norm": 1.2066331988995807,
	"learning_rate": 4.001317110883477e-08,
	"loss": 1.6142,
	"step": 1095
	},
	{
	"epoch": 2.600515463917526,
	"grad_norm": 1.120036816028406,
	"learning_rate": 3.985091849981297e-08,
	"loss": 1.4617,
	"step": 1096
	},
	{
	"epoch": 2.6030927835051547,
	"grad_norm": 1.1171460565708284,
	"learning_rate": 3.96889136254007e-08,
	"loss": 1.459,
	"step": 1097
	},
	{
	"epoch": 2.6056701030927836,
	"grad_norm": 1.2472238722902789,
	"learning_rate": 3.952715715284363e-08,
	"loss": 1.5456,
	"step": 1098
	},
	{
	"epoch": 2.6082474226804124,
	"grad_norm": 1.2133346933773341,
	"learning_rate": 3.93656497483643e-08,
	"loss": 1.5134,
	"step": 1099
	},
	{
	"epoch": 2.6108247422680413,
	"grad_norm": 1.1470733566590117,
	"learning_rate": 3.9204392077159544e-08,
	"loss": 1.4653,
	"step": 1100
	},
	{
	"epoch": 2.61340206185567,
	"grad_norm": 1.1608282166724524,
	"learning_rate": 3.904338480339755e-08,
	"loss": 1.479,
	"step": 1101
	},
	{
	"epoch": 2.615979381443299,
	"grad_norm": 1.1508782189162872,
	"learning_rate": 3.888262859021507e-08,
	"loss": 1.4025,
	"step": 1102
	},
	{
	"epoch": 2.618556701030928,
	"grad_norm": 1.178209399181694,
	"learning_rate": 3.872212409971507e-08,
	"loss": 1.2948,
	"step": 1103
	},
	{
	"epoch": 2.6211340206185567,
	"grad_norm": 1.32807190899102,
	"learning_rate": 3.856187199296358e-08,
	"loss": 1.5456,
	"step": 1104
	},
	{
	"epoch": 2.6237113402061856,
	"grad_norm": 1.2185169437161736,
	"learning_rate": 3.8401872929987166e-08,
	"loss": 1.429,
	"step": 1105
	},
	{
	"epoch": 2.6262886597938144,
	"grad_norm": 1.2304397213352538,
	"learning_rate": 3.824212756977027e-08,
	"loss": 1.4558,
	"step": 1106
	},
	{
	"epoch": 2.6288659793814433,
	"grad_norm": 1.1724306586240414,
	"learning_rate": 3.8082636570252346e-08,
	"loss": 1.4984,
	"step": 1107
	},
	{
	"epoch": 2.631443298969072,
	"grad_norm": 1.1298977167004856,
	"learning_rate": 3.7923400588325147e-08,
	"loss": 1.4417,
	"step": 1108
	},
	{
	"epoch": 2.634020618556701,
	"grad_norm": 1.1784947581476026,
	"learning_rate": 3.7764420279830266e-08,
	"loss": 1.4164,
	"step": 1109
	},
	{
	"epoch": 2.63659793814433,
	"grad_norm": 1.155170570736418,
	"learning_rate": 3.7605696299556135e-08,
	"loss": 1.4371,
	"step": 1110
	},
	{
	"epoch": 2.6391752577319587,
	"grad_norm": 1.1663523776289366,
	"learning_rate": 3.744722930123544e-08,
	"loss": 1.4747,
	"step": 1111
	},
	{
	"epoch": 2.6417525773195876,
	"grad_norm": 1.2126168901096435,
	"learning_rate": 3.72890199375426e-08,
	"loss": 1.5058,
	"step": 1112
	},
	{
	"epoch": 2.6443298969072164,
	"grad_norm": 1.2017176914352923,
	"learning_rate": 3.71310688600907e-08,
	"loss": 1.4733,
	"step": 1113
	},
	{
	"epoch": 2.6469072164948453,
	"grad_norm": 1.1119469160793427,
	"learning_rate": 3.6973376719429125e-08,
	"loss": 1.476,
	"step": 1114
	},
	{
	"epoch": 2.649484536082474,
	"grad_norm": 1.130792424586462,
	"learning_rate": 3.681594416504088e-08,
	"loss": 1.4494,
	"step": 1115
	},
	{
	"epoch": 2.652061855670103,
	"grad_norm": 1.222509795849272,
	"learning_rate": 3.6658771845339676e-08,
	"loss": 1.4999,
	"step": 1116
	},
	{
	"epoch": 2.654639175257732,
	"grad_norm": 1.1385228914334713,
	"learning_rate": 3.650186040766746e-08,
	"loss": 1.4402,
	"step": 1117
	},
	{
	"epoch": 2.6572164948453607,
	"grad_norm": 1.1448576075492045,
	"learning_rate": 3.634521049829169e-08,
	"loss": 1.4132,
	"step": 1118
	},
	{
	"epoch": 2.6597938144329896,
	"grad_norm": 1.139064959062427,
	"learning_rate": 3.618882276240267e-08,
	"loss": 1.3994,
	"step": 1119
	},
	{
	"epoch": 2.6623711340206184,
	"grad_norm": 1.161606746690635,
	"learning_rate": 3.603269784411089e-08,
	"loss": 1.4385,
	"step": 1120
	},
	{
	"epoch": 2.6649484536082473,
	"grad_norm": 1.1300734708150515,
	"learning_rate": 3.587683638644437e-08,
	"loss": 1.4228,
	"step": 1121
	},
	{
	"epoch": 2.667525773195876,
	"grad_norm": 1.1979334493577922,
	"learning_rate": 3.572123903134606e-08,
	"loss": 1.3946,
	"step": 1122
	},
	{
	"epoch": 2.670103092783505,
	"grad_norm": 1.2108873546484593,
	"learning_rate": 3.556590641967114e-08,
	"loss": 1.4019,
	"step": 1123
	},
	{
	"epoch": 2.6726804123711343,
	"grad_norm": 1.252184087003669,
	"learning_rate": 3.5410839191184386e-08,
	"loss": 1.4863,
	"step": 1124
	},
	{
	"epoch": 2.675257731958763,
	"grad_norm": 1.1268238345165822,
	"learning_rate": 3.525603798455753e-08,
	"loss": 1.4624,
	"step": 1125
	},
	{
	"epoch": 2.677835051546392,
	"grad_norm": 1.2410354943951132,
	"learning_rate": 3.5101503437366676e-08,
	"loss": 1.5426,
	"step": 1126
	},
	{
	"epoch": 2.680412371134021,
	"grad_norm": 1.2054964281688654,
	"learning_rate": 3.49472361860896e-08,
	"loss": 1.4182,
	"step": 1127
	},
	{
	"epoch": 2.680412371134021,
	"eval_loss": 1.4503966569900513,
	"eval_runtime": 78.5776,
	"eval_samples_per_second": 21.164,
	"eval_steps_per_second": 1.324,
	"step": 1127
	},
	{
	"epoch": 2.6829896907216497,
	"grad_norm": 1.18692856703466,
	"learning_rate": 3.4793236866103294e-08,
	"loss": 1.5021,
	"step": 1128
	},
	{
	"epoch": 2.6855670103092786,
	"grad_norm": 1.099606075968585,
	"learning_rate": 3.463950611168111e-08,
	"loss": 1.4051,
	"step": 1129
	},
	{
	"epoch": 2.6881443298969074,
	"grad_norm": 1.1712675559534376,
	"learning_rate": 3.448604455599021e-08,
	"loss": 1.4565,
	"step": 1130
	},
	{
	"epoch": 2.6907216494845363,
	"grad_norm": 1.2365327819201322,
	"learning_rate": 3.43328528310892e-08,
	"loss": 1.4418,
	"step": 1131
	},
	{
	"epoch": 2.693298969072165,
	"grad_norm": 1.1186618547215839,
	"learning_rate": 3.4179931567925215e-08,
	"loss": 1.4987,
	"step": 1132
	},
	{
	"epoch": 2.695876288659794,
	"grad_norm": 1.2081208242761923,
	"learning_rate": 3.402728139633142e-08,
	"loss": 1.441,
	"step": 1133
	},
	{
	"epoch": 2.698453608247423,
	"grad_norm": 1.218636962355054,
	"learning_rate": 3.387490294502457e-08,
	"loss": 1.4067,
	"step": 1134
	},
	{
	"epoch": 2.7010309278350517,
	"grad_norm": 1.1637394002772754,
	"learning_rate": 3.372279684160221e-08,
	"loss": 1.5326,
	"step": 1135
	},
	{
	"epoch": 2.7036082474226806,
	"grad_norm": 1.2353156557559488,
	"learning_rate": 3.357096371254008e-08,
	"loss": 1.472,
	"step": 1136
	},
	{
	"epoch": 2.7061855670103094,
	"grad_norm": 1.19587166321243,
	"learning_rate": 3.3419404183189813e-08,
	"loss": 1.4886,
	"step": 1137
	},
	{
	"epoch": 2.7087628865979383,
	"grad_norm": 1.1730315855085072,
	"learning_rate": 3.326811887777606e-08,
	"loss": 1.3887,
	"step": 1138
	},
	{
	"epoch": 2.711340206185567,
	"grad_norm": 1.2017905489788439,
	"learning_rate": 3.3117108419394036e-08,
	"loss": 1.4376,
	"step": 1139
	},
	{
	"epoch": 2.713917525773196,
	"grad_norm": 1.223875153650053,
	"learning_rate": 3.2966373430007044e-08,
	"loss": 1.4841,
	"step": 1140
	},
	{
	"epoch": 2.716494845360825,
	"grad_norm": 1.163982928943064,
	"learning_rate": 3.2815914530443656e-08,
	"loss": 1.5057,
	"step": 1141
	},
	{
	"epoch": 2.7190721649484537,
	"grad_norm": 1.1065194981403395,
	"learning_rate": 3.2665732340395413e-08,
	"loss": 1.5145,
	"step": 1142
	},
	{
	"epoch": 2.7216494845360826,
	"grad_norm": 1.1802479694554426,
	"learning_rate": 3.2515827478414227e-08,
	"loss": 1.4639,
	"step": 1143
	},
	{
	"epoch": 2.7242268041237114,
	"grad_norm": 1.1042272626565486,
	"learning_rate": 3.236620056190972e-08,
	"loss": 1.3944,
	"step": 1144
	},
	{
	"epoch": 2.7268041237113403,
	"grad_norm": 1.2114102979959467,
	"learning_rate": 3.221685220714674e-08,
	"loss": 1.4298,
	"step": 1145
	},
	{
	"epoch": 2.729381443298969,
	"grad_norm": 1.1393577034048052,
	"learning_rate": 3.2067783029242866e-08,
	"loss": 1.3856,
	"step": 1146
	},
	{
	"epoch": 2.731958762886598,
	"grad_norm": 1.1037036354008587,
	"learning_rate": 3.1918993642165804e-08,
	"loss": 1.3889,
	"step": 1147
	},
	{
	"epoch": 2.734536082474227,
	"grad_norm": 1.2272871402765764,
	"learning_rate": 3.177048465873089e-08,
	"loss": 1.4043,
	"step": 1148
	},
	{
	"epoch": 2.7371134020618557,
	"grad_norm": 1.210586273197648,
	"learning_rate": 3.1622256690598633e-08,
	"loss": 1.4999,
	"step": 1149
	},
	{
	"epoch": 2.7396907216494846,
	"grad_norm": 1.1746574581016895,
	"learning_rate": 3.147431034827208e-08,
	"loss": 1.4216,
	"step": 1150
	},
	{
	"epoch": 2.7422680412371134,
	"grad_norm": 1.1586070909228363,
	"learning_rate": 3.1326646241094336e-08,
	"loss": 1.4696,
	"step": 1151
	},
	{
	"epoch": 2.7448453608247423,
	"grad_norm": 1.1312629920265729,
	"learning_rate": 3.11792649772461e-08,
	"loss": 1.5172,
	"step": 1152
	},
	{
	"epoch": 2.747422680412371,
	"grad_norm": 1.181603470826963,
	"learning_rate": 3.1032167163743115e-08,
	"loss": 1.4453,
	"step": 1153
	},
	{
	"epoch": 2.75,
	"grad_norm": 1.1958639955584416,
	"learning_rate": 3.0885353406433703e-08,
	"loss": 1.5075,
	"step": 1154
	},
	{
	"epoch": 2.752577319587629,
	"grad_norm": 1.200258914978432,
	"learning_rate": 3.073882430999619e-08,
	"loss": 1.409,
	"step": 1155
	},
	{
	"epoch": 2.7551546391752577,
	"grad_norm": 1.1425311029684388,
	"learning_rate": 3.05925804779366e-08,
	"loss": 1.4537,
	"step": 1156
	},
	{
	"epoch": 2.7577319587628866,
	"grad_norm": 1.1441189180372324,
	"learning_rate": 3.044662251258595e-08,
	"loss": 1.567,
	"step": 1157
	},
	{
	"epoch": 2.7603092783505154,
	"grad_norm": 1.1519696479164119,
	"learning_rate": 3.030095101509786e-08,
	"loss": 1.4678,
	"step": 1158
	},
	{
	"epoch": 2.7628865979381443,
	"grad_norm": 1.2588291000562302,
	"learning_rate": 3.0155566585446114e-08,
	"loss": 1.5141,
	"step": 1159
	},
	{
	"epoch": 2.765463917525773,
	"grad_norm": 1.1712961770904633,
	"learning_rate": 3.0010469822422156e-08,
	"loss": 1.4298,
	"step": 1160
	},
	{
	"epoch": 2.768041237113402,
	"grad_norm": 1.2155090578526457,
	"learning_rate": 2.986566132363259e-08,
	"loss": 1.5341,
	"step": 1161
	},
	{
	"epoch": 2.770618556701031,
	"grad_norm": 1.1558741286842076,
	"learning_rate": 2.972114168549682e-08,
	"loss": 1.4089,
	"step": 1162
	},
	{
	"epoch": 2.7731958762886597,
	"grad_norm": 1.281655267971227,
	"learning_rate": 2.9576911503244494e-08,
	"loss": 1.3596,
	"step": 1163
	},
	{
	"epoch": 2.7757731958762886,
	"grad_norm": 1.1885614767244468,
	"learning_rate": 2.9432971370912995e-08,
	"loss": 1.4181,
	"step": 1164
	}
	],
	"logging_steps": 1,
	"max_steps": 1552,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 4,
	"save_steps": 388,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 305116087320576.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}