Meta-Llama-3.1-8B-Claude / trainer_state.json

Upload folder using huggingface_hub

f086430 verified 4 months ago

56.6 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.9781591263650546,
	"eval_steps": 80,
	"global_step": 320,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0062402496099844,
	"grad_norm": 19.714784622192383,
	"learning_rate": 2.0000000000000002e-07,
	"loss": 1.3589,
	"step": 1
	},
	{
	"epoch": 0.0062402496099844,
	"eval_loss": 1.3540421724319458,
	"eval_runtime": 132.5999,
	"eval_samples_per_second": 102.195,
	"eval_steps_per_second": 6.388,
	"step": 1
	},
	{
	"epoch": 0.0124804992199688,
	"grad_norm": 20.498014450073242,
	"learning_rate": 4.0000000000000003e-07,
	"loss": 1.3662,
	"step": 2
	},
	{
	"epoch": 0.0187207488299532,
	"grad_norm": 19.82619285583496,
	"learning_rate": 6.000000000000001e-07,
	"loss": 1.3336,
	"step": 3
	},
	{
	"epoch": 0.0249609984399376,
	"grad_norm": 18.423460006713867,
	"learning_rate": 8.000000000000001e-07,
	"loss": 1.3555,
	"step": 4
	},
	{
	"epoch": 0.031201248049921998,
	"grad_norm": 16.555850982666016,
	"learning_rate": 1.0000000000000002e-06,
	"loss": 1.3527,
	"step": 5
	},
	{
	"epoch": 0.0374414976599064,
	"grad_norm": 10.684965133666992,
	"learning_rate": 1.2000000000000002e-06,
	"loss": 1.3491,
	"step": 6
	},
	{
	"epoch": 0.0436817472698908,
	"grad_norm": 8.396592140197754,
	"learning_rate": 1.4000000000000001e-06,
	"loss": 1.3181,
	"step": 7
	},
	{
	"epoch": 0.0499219968798752,
	"grad_norm": 3.145500421524048,
	"learning_rate": 1.6000000000000001e-06,
	"loss": 1.2984,
	"step": 8
	},
	{
	"epoch": 0.056162246489859596,
	"grad_norm": 2.981050491333008,
	"learning_rate": 1.8000000000000001e-06,
	"loss": 1.2901,
	"step": 9
	},
	{
	"epoch": 0.062402496099843996,
	"grad_norm": 2.741509199142456,
	"learning_rate": 2.0000000000000003e-06,
	"loss": 1.2948,
	"step": 10
	},
	{
	"epoch": 0.0686427457098284,
	"grad_norm": 3.8496174812316895,
	"learning_rate": 2.2e-06,
	"loss": 1.2524,
	"step": 11
	},
	{
	"epoch": 0.0748829953198128,
	"grad_norm": 3.039551258087158,
	"learning_rate": 2.4000000000000003e-06,
	"loss": 1.2369,
	"step": 12
	},
	{
	"epoch": 0.0811232449297972,
	"grad_norm": 2.215259313583374,
	"learning_rate": 2.6e-06,
	"loss": 1.244,
	"step": 13
	},
	{
	"epoch": 0.0873634945397816,
	"grad_norm": 1.4627336263656616,
	"learning_rate": 2.8000000000000003e-06,
	"loss": 1.2201,
	"step": 14
	},
	{
	"epoch": 0.093603744149766,
	"grad_norm": 2.0100812911987305,
	"learning_rate": 3e-06,
	"loss": 1.2097,
	"step": 15
	},
	{
	"epoch": 0.0998439937597504,
	"grad_norm": 2.0757627487182617,
	"learning_rate": 3.2000000000000003e-06,
	"loss": 1.2058,
	"step": 16
	},
	{
	"epoch": 0.1060842433697348,
	"grad_norm": 1.6582179069519043,
	"learning_rate": 3.4000000000000005e-06,
	"loss": 1.1775,
	"step": 17
	},
	{
	"epoch": 0.11232449297971919,
	"grad_norm": 1.2454713582992554,
	"learning_rate": 3.6000000000000003e-06,
	"loss": 1.1405,
	"step": 18
	},
	{
	"epoch": 0.11856474258970359,
	"grad_norm": 1.0032132863998413,
	"learning_rate": 3.8000000000000005e-06,
	"loss": 1.1442,
	"step": 19
	},
	{
	"epoch": 0.12480499219968799,
	"grad_norm": 1.3543955087661743,
	"learning_rate": 4.000000000000001e-06,
	"loss": 1.1874,
	"step": 20
	},
	{
	"epoch": 0.1310452418096724,
	"grad_norm": 1.2795507907867432,
	"learning_rate": 4.2000000000000004e-06,
	"loss": 1.1423,
	"step": 21
	},
	{
	"epoch": 0.1372854914196568,
	"grad_norm": 1.0040080547332764,
	"learning_rate": 4.4e-06,
	"loss": 1.1269,
	"step": 22
	},
	{
	"epoch": 0.1435257410296412,
	"grad_norm": 0.9706005454063416,
	"learning_rate": 4.600000000000001e-06,
	"loss": 1.1508,
	"step": 23
	},
	{
	"epoch": 0.1497659906396256,
	"grad_norm": 0.905784547328949,
	"learning_rate": 4.800000000000001e-06,
	"loss": 1.1003,
	"step": 24
	},
	{
	"epoch": 0.15600624024961,
	"grad_norm": 0.8688749074935913,
	"learning_rate": 5e-06,
	"loss": 1.1046,
	"step": 25
	},
	{
	"epoch": 0.1622464898595944,
	"grad_norm": 0.7418661713600159,
	"learning_rate": 5.2e-06,
	"loss": 1.0736,
	"step": 26
	},
	{
	"epoch": 0.1684867394695788,
	"grad_norm": 0.7218017578125,
	"learning_rate": 5.400000000000001e-06,
	"loss": 1.0924,
	"step": 27
	},
	{
	"epoch": 0.1747269890795632,
	"grad_norm": 0.7364180684089661,
	"learning_rate": 5.600000000000001e-06,
	"loss": 1.0666,
	"step": 28
	},
	{
	"epoch": 0.1809672386895476,
	"grad_norm": 0.6347681879997253,
	"learning_rate": 5.8e-06,
	"loss": 1.0533,
	"step": 29
	},
	{
	"epoch": 0.187207488299532,
	"grad_norm": 0.672021210193634,
	"learning_rate": 6e-06,
	"loss": 1.0719,
	"step": 30
	},
	{
	"epoch": 0.1934477379095164,
	"grad_norm": 0.6880649328231812,
	"learning_rate": 6.200000000000001e-06,
	"loss": 1.0555,
	"step": 31
	},
	{
	"epoch": 0.1996879875195008,
	"grad_norm": 0.5669052004814148,
	"learning_rate": 6.4000000000000006e-06,
	"loss": 1.0845,
	"step": 32
	},
	{
	"epoch": 0.2059282371294852,
	"grad_norm": 0.6051258444786072,
	"learning_rate": 6.600000000000001e-06,
	"loss": 1.0656,
	"step": 33
	},
	{
	"epoch": 0.2121684867394696,
	"grad_norm": 0.5937217473983765,
	"learning_rate": 6.800000000000001e-06,
	"loss": 1.0738,
	"step": 34
	},
	{
	"epoch": 0.21840873634945399,
	"grad_norm": 0.5861482620239258,
	"learning_rate": 7e-06,
	"loss": 1.0497,
	"step": 35
	},
	{
	"epoch": 0.22464898595943839,
	"grad_norm": 0.5939168334007263,
	"learning_rate": 7.2000000000000005e-06,
	"loss": 1.0657,
	"step": 36
	},
	{
	"epoch": 0.23088923556942278,
	"grad_norm": 0.5843105316162109,
	"learning_rate": 7.4e-06,
	"loss": 1.0498,
	"step": 37
	},
	{
	"epoch": 0.23712948517940718,
	"grad_norm": 0.5303648710250854,
	"learning_rate": 7.600000000000001e-06,
	"loss": 1.0604,
	"step": 38
	},
	{
	"epoch": 0.24336973478939158,
	"grad_norm": 0.558338463306427,
	"learning_rate": 7.800000000000002e-06,
	"loss": 1.0383,
	"step": 39
	},
	{
	"epoch": 0.24960998439937598,
	"grad_norm": 0.49629613757133484,
	"learning_rate": 8.000000000000001e-06,
	"loss": 1.0521,
	"step": 40
	},
	{
	"epoch": 0.25585023400936036,
	"grad_norm": 0.5873180627822876,
	"learning_rate": 8.2e-06,
	"loss": 1.0403,
	"step": 41
	},
	{
	"epoch": 0.2620904836193448,
	"grad_norm": 0.5466005802154541,
	"learning_rate": 8.400000000000001e-06,
	"loss": 1.0127,
	"step": 42
	},
	{
	"epoch": 0.26833073322932915,
	"grad_norm": 0.5514444708824158,
	"learning_rate": 8.6e-06,
	"loss": 1.0399,
	"step": 43
	},
	{
	"epoch": 0.2745709828393136,
	"grad_norm": 0.5304705500602722,
	"learning_rate": 8.8e-06,
	"loss": 1.0057,
	"step": 44
	},
	{
	"epoch": 0.28081123244929795,
	"grad_norm": 0.5105130076408386,
	"learning_rate": 9e-06,
	"loss": 1.0174,
	"step": 45
	},
	{
	"epoch": 0.2870514820592824,
	"grad_norm": 0.533640444278717,
	"learning_rate": 9.200000000000002e-06,
	"loss": 1.0342,
	"step": 46
	},
	{
	"epoch": 0.29329173166926675,
	"grad_norm": 0.48208147287368774,
	"learning_rate": 9.4e-06,
	"loss": 1.0195,
	"step": 47
	},
	{
	"epoch": 0.2995319812792512,
	"grad_norm": 0.5069381594657898,
	"learning_rate": 9.600000000000001e-06,
	"loss": 1.0382,
	"step": 48
	},
	{
	"epoch": 0.30577223088923555,
	"grad_norm": 0.4819696843624115,
	"learning_rate": 9.800000000000001e-06,
	"loss": 1.05,
	"step": 49
	},
	{
	"epoch": 0.31201248049922,
	"grad_norm": 0.5414313673973083,
	"learning_rate": 1e-05,
	"loss": 1.0245,
	"step": 50
	},
	{
	"epoch": 0.31825273010920435,
	"grad_norm": 0.4769354462623596,
	"learning_rate": 1.02e-05,
	"loss": 1.005,
	"step": 51
	},
	{
	"epoch": 0.3244929797191888,
	"grad_norm": 0.5051629543304443,
	"learning_rate": 1.04e-05,
	"loss": 1.0158,
	"step": 52
	},
	{
	"epoch": 0.33073322932917315,
	"grad_norm": 0.5432644486427307,
	"learning_rate": 1.0600000000000002e-05,
	"loss": 1.0122,
	"step": 53
	},
	{
	"epoch": 0.3369734789391576,
	"grad_norm": 0.4705195128917694,
	"learning_rate": 1.0800000000000002e-05,
	"loss": 1.0053,
	"step": 54
	},
	{
	"epoch": 0.34321372854914195,
	"grad_norm": 0.5468801856040955,
	"learning_rate": 1.1000000000000001e-05,
	"loss": 1.0173,
	"step": 55
	},
	{
	"epoch": 0.3494539781591264,
	"grad_norm": 0.6218928694725037,
	"learning_rate": 1.1200000000000001e-05,
	"loss": 0.9974,
	"step": 56
	},
	{
	"epoch": 0.35569422776911075,
	"grad_norm": 0.532873272895813,
	"learning_rate": 1.14e-05,
	"loss": 1.006,
	"step": 57
	},
	{
	"epoch": 0.3619344773790952,
	"grad_norm": 0.48144450783729553,
	"learning_rate": 1.16e-05,
	"loss": 1.0025,
	"step": 58
	},
	{
	"epoch": 0.36817472698907955,
	"grad_norm": 0.5385976433753967,
	"learning_rate": 1.18e-05,
	"loss": 0.9976,
	"step": 59
	},
	{
	"epoch": 0.374414976599064,
	"grad_norm": 0.5179689526557922,
	"learning_rate": 1.2e-05,
	"loss": 0.9988,
	"step": 60
	},
	{
	"epoch": 0.38065522620904835,
	"grad_norm": 0.4646259844303131,
	"learning_rate": 1.22e-05,
	"loss": 0.9959,
	"step": 61
	},
	{
	"epoch": 0.3868954758190328,
	"grad_norm": 0.5259431004524231,
	"learning_rate": 1.2400000000000002e-05,
	"loss": 0.9933,
	"step": 62
	},
	{
	"epoch": 0.39313572542901715,
	"grad_norm": 0.5602505803108215,
	"learning_rate": 1.2600000000000001e-05,
	"loss": 0.9732,
	"step": 63
	},
	{
	"epoch": 0.3993759750390016,
	"grad_norm": 0.5400233864784241,
	"learning_rate": 1.2800000000000001e-05,
	"loss": 1.0021,
	"step": 64
	},
	{
	"epoch": 0.40561622464898595,
	"grad_norm": 0.5008605718612671,
	"learning_rate": 1.3000000000000001e-05,
	"loss": 1.0098,
	"step": 65
	},
	{
	"epoch": 0.4118564742589704,
	"grad_norm": 0.5215092301368713,
	"learning_rate": 1.3200000000000002e-05,
	"loss": 0.9805,
	"step": 66
	},
	{
	"epoch": 0.41809672386895474,
	"grad_norm": 0.6043874025344849,
	"learning_rate": 1.3400000000000002e-05,
	"loss": 0.9651,
	"step": 67
	},
	{
	"epoch": 0.4243369734789392,
	"grad_norm": 0.5744293928146362,
	"learning_rate": 1.3600000000000002e-05,
	"loss": 0.9715,
	"step": 68
	},
	{
	"epoch": 0.43057722308892354,
	"grad_norm": 0.6228943467140198,
	"learning_rate": 1.38e-05,
	"loss": 0.9942,
	"step": 69
	},
	{
	"epoch": 0.43681747269890797,
	"grad_norm": 0.6340550780296326,
	"learning_rate": 1.4e-05,
	"loss": 1.0278,
	"step": 70
	},
	{
	"epoch": 0.44305772230889234,
	"grad_norm": 0.6537193655967712,
	"learning_rate": 1.4200000000000001e-05,
	"loss": 1.005,
	"step": 71
	},
	{
	"epoch": 0.44929797191887677,
	"grad_norm": 0.6706846356391907,
	"learning_rate": 1.4400000000000001e-05,
	"loss": 0.9736,
	"step": 72
	},
	{
	"epoch": 0.45553822152886114,
	"grad_norm": 0.5686175227165222,
	"learning_rate": 1.46e-05,
	"loss": 0.9753,
	"step": 73
	},
	{
	"epoch": 0.46177847113884557,
	"grad_norm": 0.5182248950004578,
	"learning_rate": 1.48e-05,
	"loss": 0.9964,
	"step": 74
	},
	{
	"epoch": 0.46801872074882994,
	"grad_norm": 0.5445067286491394,
	"learning_rate": 1.5000000000000002e-05,
	"loss": 0.9702,
	"step": 75
	},
	{
	"epoch": 0.47425897035881437,
	"grad_norm": 0.6168459057807922,
	"learning_rate": 1.5200000000000002e-05,
	"loss": 0.9791,
	"step": 76
	},
	{
	"epoch": 0.48049921996879874,
	"grad_norm": 0.6475315093994141,
	"learning_rate": 1.54e-05,
	"loss": 0.98,
	"step": 77
	},
	{
	"epoch": 0.48673946957878317,
	"grad_norm": 0.8365716934204102,
	"learning_rate": 1.5600000000000003e-05,
	"loss": 0.987,
	"step": 78
	},
	{
	"epoch": 0.49297971918876754,
	"grad_norm": 1.0882554054260254,
	"learning_rate": 1.58e-05,
	"loss": 0.9796,
	"step": 79
	},
	{
	"epoch": 0.49921996879875197,
	"grad_norm": 1.109529972076416,
	"learning_rate": 1.6000000000000003e-05,
	"loss": 0.9825,
	"step": 80
	},
	{
	"epoch": 0.49921996879875197,
	"eval_loss": 0.9798125624656677,
	"eval_runtime": 132.8615,
	"eval_samples_per_second": 101.993,
	"eval_steps_per_second": 6.375,
	"step": 80
	},
	{
	"epoch": 0.5054602184087363,
	"grad_norm": 0.9999867677688599,
	"learning_rate": 1.62e-05,
	"loss": 0.9591,
	"step": 81
	},
	{
	"epoch": 0.5117004680187207,
	"grad_norm": 0.8042426705360413,
	"learning_rate": 1.64e-05,
	"loss": 0.9832,
	"step": 82
	},
	{
	"epoch": 0.5179407176287052,
	"grad_norm": 0.5843170881271362,
	"learning_rate": 1.66e-05,
	"loss": 0.9769,
	"step": 83
	},
	{
	"epoch": 0.5241809672386896,
	"grad_norm": 0.6988096237182617,
	"learning_rate": 1.6800000000000002e-05,
	"loss": 0.9556,
	"step": 84
	},
	{
	"epoch": 0.5304212168486739,
	"grad_norm": 0.7298963665962219,
	"learning_rate": 1.7e-05,
	"loss": 0.983,
	"step": 85
	},
	{
	"epoch": 0.5366614664586583,
	"grad_norm": 0.7856214046478271,
	"learning_rate": 1.72e-05,
	"loss": 0.9541,
	"step": 86
	},
	{
	"epoch": 0.5429017160686428,
	"grad_norm": 0.6896259188652039,
	"learning_rate": 1.7400000000000003e-05,
	"loss": 0.983,
	"step": 87
	},
	{
	"epoch": 0.5491419656786272,
	"grad_norm": 0.5555576682090759,
	"learning_rate": 1.76e-05,
	"loss": 0.9395,
	"step": 88
	},
	{
	"epoch": 0.5553822152886115,
	"grad_norm": 0.6107622385025024,
	"learning_rate": 1.7800000000000002e-05,
	"loss": 0.9601,
	"step": 89
	},
	{
	"epoch": 0.5616224648985959,
	"grad_norm": 0.7116836309432983,
	"learning_rate": 1.8e-05,
	"loss": 0.9647,
	"step": 90
	},
	{
	"epoch": 0.5678627145085804,
	"grad_norm": 0.5782715082168579,
	"learning_rate": 1.8200000000000002e-05,
	"loss": 0.9604,
	"step": 91
	},
	{
	"epoch": 0.5741029641185648,
	"grad_norm": 0.512100338935852,
	"learning_rate": 1.8400000000000003e-05,
	"loss": 0.9433,
	"step": 92
	},
	{
	"epoch": 0.5803432137285491,
	"grad_norm": 0.6315212249755859,
	"learning_rate": 1.86e-05,
	"loss": 0.969,
	"step": 93
	},
	{
	"epoch": 0.5865834633385335,
	"grad_norm": 0.6883739233016968,
	"learning_rate": 1.88e-05,
	"loss": 0.9832,
	"step": 94
	},
	{
	"epoch": 0.592823712948518,
	"grad_norm": 0.6760767102241516,
	"learning_rate": 1.9e-05,
	"loss": 0.9414,
	"step": 95
	},
	{
	"epoch": 0.5990639625585024,
	"grad_norm": 0.6577237248420715,
	"learning_rate": 1.9200000000000003e-05,
	"loss": 0.9748,
	"step": 96
	},
	{
	"epoch": 0.6053042121684867,
	"grad_norm": 0.9515029788017273,
	"learning_rate": 1.94e-05,
	"loss": 0.9863,
	"step": 97
	},
	{
	"epoch": 0.6115444617784711,
	"grad_norm": 1.40570068359375,
	"learning_rate": 1.9600000000000002e-05,
	"loss": 0.9445,
	"step": 98
	},
	{
	"epoch": 0.6177847113884556,
	"grad_norm": 0.9026833176612854,
	"learning_rate": 1.98e-05,
	"loss": 0.9436,
	"step": 99
	},
	{
	"epoch": 0.62402496099844,
	"grad_norm": 0.6666714549064636,
	"learning_rate": 2e-05,
	"loss": 0.9832,
	"step": 100
	},
	{
	"epoch": 0.6302652106084243,
	"grad_norm": 0.8047837018966675,
	"learning_rate": 1.9998980430094333e-05,
	"loss": 0.9498,
	"step": 101
	},
	{
	"epoch": 0.6365054602184087,
	"grad_norm": 0.9035269618034363,
	"learning_rate": 1.9995921928281893e-05,
	"loss": 0.9541,
	"step": 102
	},
	{
	"epoch": 0.6427457098283932,
	"grad_norm": 1.027601718902588,
	"learning_rate": 1.9990825118233958e-05,
	"loss": 0.9786,
	"step": 103
	},
	{
	"epoch": 0.6489859594383776,
	"grad_norm": 1.1459457874298096,
	"learning_rate": 1.9983691039261358e-05,
	"loss": 0.9482,
	"step": 104
	},
	{
	"epoch": 0.6552262090483619,
	"grad_norm": 0.7179874777793884,
	"learning_rate": 1.9974521146102535e-05,
	"loss": 0.9743,
	"step": 105
	},
	{
	"epoch": 0.6614664586583463,
	"grad_norm": 0.6881632208824158,
	"learning_rate": 1.9963317308626916e-05,
	"loss": 0.9797,
	"step": 106
	},
	{
	"epoch": 0.6677067082683308,
	"grad_norm": 0.7822304368019104,
	"learning_rate": 1.9950081811453598e-05,
	"loss": 0.9682,
	"step": 107
	},
	{
	"epoch": 0.6739469578783152,
	"grad_norm": 0.8269001841545105,
	"learning_rate": 1.99348173534855e-05,
	"loss": 0.9455,
	"step": 108
	},
	{
	"epoch": 0.6801872074882995,
	"grad_norm": 0.8077254295349121,
	"learning_rate": 1.991752704735903e-05,
	"loss": 0.9243,
	"step": 109
	},
	{
	"epoch": 0.6864274570982839,
	"grad_norm": 0.8119699954986572,
	"learning_rate": 1.989821441880933e-05,
	"loss": 0.9273,
	"step": 110
	},
	{
	"epoch": 0.6926677067082684,
	"grad_norm": 0.8220670223236084,
	"learning_rate": 1.9876883405951378e-05,
	"loss": 0.9455,
	"step": 111
	},
	{
	"epoch": 0.6989079563182528,
	"grad_norm": 0.8622007966041565,
	"learning_rate": 1.9853538358476933e-05,
	"loss": 0.9624,
	"step": 112
	},
	{
	"epoch": 0.7051482059282371,
	"grad_norm": 0.8222960233688354,
	"learning_rate": 1.9828184036767556e-05,
	"loss": 0.955,
	"step": 113
	},
	{
	"epoch": 0.7113884555382215,
	"grad_norm": 0.62811678647995,
	"learning_rate": 1.9800825610923937e-05,
	"loss": 0.9551,
	"step": 114
	},
	{
	"epoch": 0.717628705148206,
	"grad_norm": 0.7614508271217346,
	"learning_rate": 1.9771468659711595e-05,
	"loss": 0.9413,
	"step": 115
	},
	{
	"epoch": 0.7238689547581904,
	"grad_norm": 0.6695716977119446,
	"learning_rate": 1.9740119169423337e-05,
	"loss": 0.9384,
	"step": 116
	},
	{
	"epoch": 0.7301092043681747,
	"grad_norm": 0.5493482947349548,
	"learning_rate": 1.9706783532658528e-05,
	"loss": 0.9601,
	"step": 117
	},
	{
	"epoch": 0.7363494539781591,
	"grad_norm": 0.7798200249671936,
	"learning_rate": 1.9671468547019575e-05,
	"loss": 0.9555,
	"step": 118
	},
	{
	"epoch": 0.7425897035881436,
	"grad_norm": 0.8122205138206482,
	"learning_rate": 1.963418141372579e-05,
	"loss": 0.9351,
	"step": 119
	},
	{
	"epoch": 0.748829953198128,
	"grad_norm": 0.6351688504219055,
	"learning_rate": 1.9594929736144978e-05,
	"loss": 0.9517,
	"step": 120
	},
	{
	"epoch": 0.7550702028081123,
	"grad_norm": 0.8507185578346252,
	"learning_rate": 1.955372151824297e-05,
	"loss": 0.9482,
	"step": 121
	},
	{
	"epoch": 0.7613104524180967,
	"grad_norm": 1.057692050933838,
	"learning_rate": 1.9510565162951538e-05,
	"loss": 0.9626,
	"step": 122
	},
	{
	"epoch": 0.7675507020280812,
	"grad_norm": 0.789968729019165,
	"learning_rate": 1.94654694704549e-05,
	"loss": 0.9504,
	"step": 123
	},
	{
	"epoch": 0.7737909516380655,
	"grad_norm": 0.8988214731216431,
	"learning_rate": 1.941844363639525e-05,
	"loss": 0.9339,
	"step": 124
	},
	{
	"epoch": 0.7800312012480499,
	"grad_norm": 0.6798993945121765,
	"learning_rate": 1.936949724999762e-05,
	"loss": 0.9387,
	"step": 125
	},
	{
	"epoch": 0.7862714508580343,
	"grad_norm": 0.7597091794013977,
	"learning_rate": 1.9318640292114526e-05,
	"loss": 0.9884,
	"step": 126
	},
	{
	"epoch": 0.7925117004680188,
	"grad_norm": 0.9357583522796631,
	"learning_rate": 1.9265883133190715e-05,
	"loss": 0.9382,
	"step": 127
	},
	{
	"epoch": 0.7987519500780031,
	"grad_norm": 0.8738594055175781,
	"learning_rate": 1.92112365311485e-05,
	"loss": 0.9482,
	"step": 128
	},
	{
	"epoch": 0.8049921996879875,
	"grad_norm": 0.8523539900779724,
	"learning_rate": 1.9154711629194062e-05,
	"loss": 0.9299,
	"step": 129
	},
	{
	"epoch": 0.8112324492979719,
	"grad_norm": 0.5781116485595703,
	"learning_rate": 1.9096319953545186e-05,
	"loss": 0.9636,
	"step": 130
	},
	{
	"epoch": 0.8174726989079563,
	"grad_norm": 0.7737751007080078,
	"learning_rate": 1.9036073411080917e-05,
	"loss": 0.9482,
	"step": 131
	},
	{
	"epoch": 0.8237129485179407,
	"grad_norm": 0.7203546762466431,
	"learning_rate": 1.8973984286913584e-05,
	"loss": 0.9298,
	"step": 132
	},
	{
	"epoch": 0.8299531981279251,
	"grad_norm": 0.5875493288040161,
	"learning_rate": 1.891006524188368e-05,
	"loss": 0.9239,
	"step": 133
	},
	{
	"epoch": 0.8361934477379095,
	"grad_norm": 0.7981539964675903,
	"learning_rate": 1.8844329309978146e-05,
	"loss": 0.9546,
	"step": 134
	},
	{
	"epoch": 0.8424336973478939,
	"grad_norm": 0.7623902559280396,
	"learning_rate": 1.8776789895672557e-05,
	"loss": 0.9335,
	"step": 135
	},
	{
	"epoch": 0.8486739469578783,
	"grad_norm": 0.6350914239883423,
	"learning_rate": 1.8707460771197773e-05,
	"loss": 0.9585,
	"step": 136
	},
	{
	"epoch": 0.8549141965678627,
	"grad_norm": 0.6981391310691833,
	"learning_rate": 1.863635607373157e-05,
	"loss": 0.9271,
	"step": 137
	},
	{
	"epoch": 0.8611544461778471,
	"grad_norm": 0.7900795936584473,
	"learning_rate": 1.856349030251589e-05,
	"loss": 0.9022,
	"step": 138
	},
	{
	"epoch": 0.8673946957878315,
	"grad_norm": 0.7494855523109436,
	"learning_rate": 1.8488878315900228e-05,
	"loss": 0.9534,
	"step": 139
	},
	{
	"epoch": 0.8736349453978159,
	"grad_norm": 0.5757277011871338,
	"learning_rate": 1.8412535328311813e-05,
	"loss": 0.9397,
	"step": 140
	},
	{
	"epoch": 0.8798751950078003,
	"grad_norm": 0.6893640756607056,
	"learning_rate": 1.8334476907153177e-05,
	"loss": 0.952,
	"step": 141
	},
	{
	"epoch": 0.8861154446177847,
	"grad_norm": 0.7050842046737671,
	"learning_rate": 1.825471896962774e-05,
	"loss": 0.9417,
	"step": 142
	},
	{
	"epoch": 0.8923556942277691,
	"grad_norm": 0.5544989109039307,
	"learning_rate": 1.817327777949407e-05,
	"loss": 0.9008,
	"step": 143
	},
	{
	"epoch": 0.8985959438377535,
	"grad_norm": 0.6469840407371521,
	"learning_rate": 1.8090169943749477e-05,
	"loss": 0.9471,
	"step": 144
	},
	{
	"epoch": 0.9048361934477379,
	"grad_norm": 0.6894209384918213,
	"learning_rate": 1.8005412409243604e-05,
	"loss": 0.9553,
	"step": 145
	},
	{
	"epoch": 0.9110764430577223,
	"grad_norm": 0.5356501936912537,
	"learning_rate": 1.7919022459222754e-05,
	"loss": 0.9496,
	"step": 146
	},
	{
	"epoch": 0.9173166926677067,
	"grad_norm": 0.6416233777999878,
	"learning_rate": 1.7831017709805555e-05,
	"loss": 0.9558,
	"step": 147
	},
	{
	"epoch": 0.9235569422776911,
	"grad_norm": 0.7085059881210327,
	"learning_rate": 1.7741416106390828e-05,
	"loss": 0.9168,
	"step": 148
	},
	{
	"epoch": 0.9297971918876755,
	"grad_norm": 0.6492967009544373,
	"learning_rate": 1.7650235919998234e-05,
	"loss": 0.9065,
	"step": 149
	},
	{
	"epoch": 0.9360374414976599,
	"grad_norm": 0.7753322124481201,
	"learning_rate": 1.7557495743542586e-05,
	"loss": 0.9285,
	"step": 150
	},
	{
	"epoch": 0.9422776911076443,
	"grad_norm": 0.6451005935668945,
	"learning_rate": 1.7463214488042472e-05,
	"loss": 0.9567,
	"step": 151
	},
	{
	"epoch": 0.9485179407176287,
	"grad_norm": 0.4824198782444,
	"learning_rate": 1.736741137876405e-05,
	"loss": 0.905,
	"step": 152
	},
	{
	"epoch": 0.9547581903276131,
	"grad_norm": 0.5846424102783203,
	"learning_rate": 1.727010595130074e-05,
	"loss": 0.9426,
	"step": 153
	},
	{
	"epoch": 0.9609984399375975,
	"grad_norm": 0.5984904170036316,
	"learning_rate": 1.7171318047589637e-05,
	"loss": 0.9398,
	"step": 154
	},
	{
	"epoch": 0.9672386895475819,
	"grad_norm": 0.545465886592865,
	"learning_rate": 1.7071067811865477e-05,
	"loss": 0.9185,
	"step": 155
	},
	{
	"epoch": 0.9734789391575663,
	"grad_norm": 0.5724261403083801,
	"learning_rate": 1.696937568655294e-05,
	"loss": 0.9222,
	"step": 156
	},
	{
	"epoch": 0.9797191887675507,
	"grad_norm": 0.5120018124580383,
	"learning_rate": 1.6866262408098134e-05,
	"loss": 0.93,
	"step": 157
	},
	{
	"epoch": 0.9859594383775351,
	"grad_norm": 0.5575640797615051,
	"learning_rate": 1.6761749002740195e-05,
	"loss": 0.9483,
	"step": 158
	},
	{
	"epoch": 0.9921996879875195,
	"grad_norm": 0.603184163570404,
	"learning_rate": 1.6655856782223682e-05,
	"loss": 0.9394,
	"step": 159
	},
	{
	"epoch": 0.9984399375975039,
	"grad_norm": 0.536756157875061,
	"learning_rate": 1.6548607339452853e-05,
	"loss": 0.9227,
	"step": 160
	},
	{
	"epoch": 0.9984399375975039,
	"eval_loss": 0.9286661744117737,
	"eval_runtime": 134.8358,
	"eval_samples_per_second": 100.5,
	"eval_steps_per_second": 6.282,
	"step": 160
	},
	{
	"epoch": 1.0046801872074882,
	"grad_norm": 0.5680767297744751,
	"learning_rate": 1.6440022544088553e-05,
	"loss": 0.9263,
	"step": 161
	},
	{
	"epoch": 1.0109204368174727,
	"grad_norm": 0.6374309062957764,
	"learning_rate": 1.6330124538088705e-05,
	"loss": 0.942,
	"step": 162
	},
	{
	"epoch": 1.0171606864274572,
	"grad_norm": 0.5749344825744629,
	"learning_rate": 1.6218935731193223e-05,
	"loss": 0.9264,
	"step": 163
	},
	{
	"epoch": 1.0046801872074882,
	"grad_norm": 0.9867531657218933,
	"learning_rate": 1.6106478796354382e-05,
	"loss": 0.8513,
	"step": 164
	},
	{
	"epoch": 1.0109204368174727,
	"grad_norm": 0.7155735492706299,
	"learning_rate": 1.599277666511347e-05,
	"loss": 0.8023,
	"step": 165
	},
	{
	"epoch": 1.0171606864274572,
	"grad_norm": 1.3990559577941895,
	"learning_rate": 1.5877852522924733e-05,
	"loss": 0.7992,
	"step": 166
	},
	{
	"epoch": 1.0234009360374414,
	"grad_norm": 0.9339443445205688,
	"learning_rate": 1.576172980442753e-05,
	"loss": 0.7982,
	"step": 167
	},
	{
	"epoch": 1.029641185647426,
	"grad_norm": 0.8383383750915527,
	"learning_rate": 1.5644432188667695e-05,
	"loss": 0.7764,
	"step": 168
	},
	{
	"epoch": 1.0358814352574104,
	"grad_norm": 0.8227719664573669,
	"learning_rate": 1.5525983594269026e-05,
	"loss": 0.7985,
	"step": 169
	},
	{
	"epoch": 1.0421216848673946,
	"grad_norm": 0.8231950998306274,
	"learning_rate": 1.5406408174555978e-05,
	"loss": 0.8097,
	"step": 170
	},
	{
	"epoch": 1.0483619344773791,
	"grad_norm": 1.1454997062683105,
	"learning_rate": 1.528573031262842e-05,
	"loss": 0.7779,
	"step": 171
	},
	{
	"epoch": 1.0546021840873634,
	"grad_norm": 0.6939067840576172,
	"learning_rate": 1.5163974616389621e-05,
	"loss": 0.8217,
	"step": 172
	},
	{
	"epoch": 1.0608424336973479,
	"grad_norm": 0.7526265978813171,
	"learning_rate": 1.504116591352832e-05,
	"loss": 0.7886,
	"step": 173
	},
	{
	"epoch": 1.0670826833073324,
	"grad_norm": 0.7892379760742188,
	"learning_rate": 1.491732924645604e-05,
	"loss": 0.7959,
	"step": 174
	},
	{
	"epoch": 1.0733229329173166,
	"grad_norm": 0.7279461026191711,
	"learning_rate": 1.479248986720057e-05,
	"loss": 0.7977,
	"step": 175
	},
	{
	"epoch": 1.079563182527301,
	"grad_norm": 0.7360721230506897,
	"learning_rate": 1.4666673232256738e-05,
	"loss": 0.7883,
	"step": 176
	},
	{
	"epoch": 1.0858034321372856,
	"grad_norm": 0.6525989174842834,
	"learning_rate": 1.4539904997395468e-05,
	"loss": 0.785,
	"step": 177
	},
	{
	"epoch": 1.0920436817472698,
	"grad_norm": 0.7803720235824585,
	"learning_rate": 1.4412211012432213e-05,
	"loss": 0.7998,
	"step": 178
	},
	{
	"epoch": 1.0982839313572543,
	"grad_norm": 0.6588256359100342,
	"learning_rate": 1.4283617315955815e-05,
	"loss": 0.7999,
	"step": 179
	},
	{
	"epoch": 1.1045241809672386,
	"grad_norm": 0.5983767509460449,
	"learning_rate": 1.4154150130018867e-05,
	"loss": 0.7848,
	"step": 180
	},
	{
	"epoch": 1.110764430577223,
	"grad_norm": 0.641603946685791,
	"learning_rate": 1.4023835854790682e-05,
	"loss": 0.7937,
	"step": 181
	},
	{
	"epoch": 1.1170046801872076,
	"grad_norm": 0.6453792452812195,
	"learning_rate": 1.3892701063173917e-05,
	"loss": 0.8004,
	"step": 182
	},
	{
	"epoch": 1.1232449297971918,
	"grad_norm": 0.6428067088127136,
	"learning_rate": 1.3760772495385998e-05,
	"loss": 0.792,
	"step": 183
	},
	{
	"epoch": 1.1294851794071763,
	"grad_norm": 0.6279442310333252,
	"learning_rate": 1.362807705350641e-05,
	"loss": 0.7859,
	"step": 184
	},
	{
	"epoch": 1.1357254290171608,
	"grad_norm": 0.6000891327857971,
	"learning_rate": 1.3494641795990986e-05,
	"loss": 0.8039,
	"step": 185
	},
	{
	"epoch": 1.141965678627145,
	"grad_norm": 0.6628398895263672,
	"learning_rate": 1.3360493932154301e-05,
	"loss": 0.7829,
	"step": 186
	},
	{
	"epoch": 1.1482059282371295,
	"grad_norm": 0.6268762946128845,
	"learning_rate": 1.3225660816621342e-05,
	"loss": 0.778,
	"step": 187
	},
	{
	"epoch": 1.154446177847114,
	"grad_norm": 0.639062225818634,
	"learning_rate": 1.3090169943749475e-05,
	"loss": 0.7796,
	"step": 188
	},
	{
	"epoch": 1.1606864274570983,
	"grad_norm": 0.6048714518547058,
	"learning_rate": 1.2954048942022002e-05,
	"loss": 0.7883,
	"step": 189
	},
	{
	"epoch": 1.1669266770670828,
	"grad_norm": 0.5929723381996155,
	"learning_rate": 1.2817325568414299e-05,
	"loss": 0.7736,
	"step": 190
	},
	{
	"epoch": 1.173166926677067,
	"grad_norm": 0.5971985459327698,
	"learning_rate": 1.2680027702733791e-05,
	"loss": 0.8008,
	"step": 191
	},
	{
	"epoch": 1.1794071762870515,
	"grad_norm": 0.6460970044136047,
	"learning_rate": 1.2542183341934873e-05,
	"loss": 0.7867,
	"step": 192
	},
	{
	"epoch": 1.185647425897036,
	"grad_norm": 0.5345771908760071,
	"learning_rate": 1.2403820594409926e-05,
	"loss": 0.7808,
	"step": 193
	},
	{
	"epoch": 1.1918876755070202,
	"grad_norm": 0.6704164743423462,
	"learning_rate": 1.2264967674257647e-05,
	"loss": 0.7785,
	"step": 194
	},
	{
	"epoch": 1.1981279251170047,
	"grad_norm": 0.5182461738586426,
	"learning_rate": 1.2125652895529766e-05,
	"loss": 0.7907,
	"step": 195
	},
	{
	"epoch": 1.204368174726989,
	"grad_norm": 0.6421562433242798,
	"learning_rate": 1.1985904666457455e-05,
	"loss": 0.7914,
	"step": 196
	},
	{
	"epoch": 1.2106084243369735,
	"grad_norm": 0.5846896171569824,
	"learning_rate": 1.1845751483658454e-05,
	"loss": 0.7631,
	"step": 197
	},
	{
	"epoch": 1.216848673946958,
	"grad_norm": 0.5582466721534729,
	"learning_rate": 1.170522192632624e-05,
	"loss": 0.7912,
	"step": 198
	},
	{
	"epoch": 1.2230889235569422,
	"grad_norm": 0.5527791976928711,
	"learning_rate": 1.156434465040231e-05,
	"loss": 0.7938,
	"step": 199
	},
	{
	"epoch": 1.2293291731669267,
	"grad_norm": 0.5673221945762634,
	"learning_rate": 1.1423148382732854e-05,
	"loss": 0.7947,
	"step": 200
	},
	{
	"epoch": 1.2355694227769112,
	"grad_norm": 0.5078392028808594,
	"learning_rate": 1.1281661915210931e-05,
	"loss": 0.7771,
	"step": 201
	},
	{
	"epoch": 1.2418096723868954,
	"grad_norm": 0.5475752353668213,
	"learning_rate": 1.1139914098905406e-05,
	"loss": 0.7781,
	"step": 202
	},
	{
	"epoch": 1.24804992199688,
	"grad_norm": 0.5290600657463074,
	"learning_rate": 1.0997933838177828e-05,
	"loss": 0.7622,
	"step": 203
	},
	{
	"epoch": 1.2542901716068644,
	"grad_norm": 0.4957723915576935,
	"learning_rate": 1.08557500847884e-05,
	"loss": 0.7857,
	"step": 204
	},
	{
	"epoch": 1.2605304212168487,
	"grad_norm": 0.5119233727455139,
	"learning_rate": 1.0713391831992324e-05,
	"loss": 0.7585,
	"step": 205
	},
	{
	"epoch": 1.2667706708268331,
	"grad_norm": 0.5187195539474487,
	"learning_rate": 1.0570888108627682e-05,
	"loss": 0.7885,
	"step": 206
	},
	{
	"epoch": 1.2730109204368174,
	"grad_norm": 0.5066515803337097,
	"learning_rate": 1.0428267973196027e-05,
	"loss": 0.7691,
	"step": 207
	},
	{
	"epoch": 1.2792511700468019,
	"grad_norm": 0.48673221468925476,
	"learning_rate": 1.0285560507936962e-05,
	"loss": 0.7715,
	"step": 208
	},
	{
	"epoch": 1.2854914196567861,
	"grad_norm": 0.5083721876144409,
	"learning_rate": 1.0142794812897874e-05,
	"loss": 0.7812,
	"step": 209
	},
	{
	"epoch": 1.2917316692667706,
	"grad_norm": 0.5033391118049622,
	"learning_rate": 1e-05,
	"loss": 0.7756,
	"step": 210
	},
	{
	"epoch": 1.2979719188767551,
	"grad_norm": 0.532008945941925,
	"learning_rate": 9.85720518710213e-06,
	"loss": 0.7898,
	"step": 211
	},
	{
	"epoch": 1.3042121684867394,
	"grad_norm": 0.5123456716537476,
	"learning_rate": 9.71443949206304e-06,
	"loss": 0.7779,
	"step": 212
	},
	{
	"epoch": 1.3104524180967239,
	"grad_norm": 0.48444995284080505,
	"learning_rate": 9.571732026803978e-06,
	"loss": 0.7598,
	"step": 213
	},
	{
	"epoch": 1.3166926677067083,
	"grad_norm": 0.5265589356422424,
	"learning_rate": 9.42911189137232e-06,
	"loss": 0.783,
	"step": 214
	},
	{
	"epoch": 1.3229329173166926,
	"grad_norm": 0.5039641261100769,
	"learning_rate": 9.286608168007678e-06,
	"loss": 0.7798,
	"step": 215
	},
	{
	"epoch": 1.329173166926677,
	"grad_norm": 0.5092752575874329,
	"learning_rate": 9.144249915211605e-06,
	"loss": 0.7635,
	"step": 216
	},
	{
	"epoch": 1.3354134165366616,
	"grad_norm": 0.5394583940505981,
	"learning_rate": 9.002066161822174e-06,
	"loss": 0.7999,
	"step": 217
	},
	{
	"epoch": 1.3416536661466458,
	"grad_norm": 0.5039361119270325,
	"learning_rate": 8.860085901094595e-06,
	"loss": 0.7745,
	"step": 218
	},
	{
	"epoch": 1.3478939157566303,
	"grad_norm": 0.5087692737579346,
	"learning_rate": 8.718338084789074e-06,
	"loss": 0.8093,
	"step": 219
	},
	{
	"epoch": 1.3541341653666148,
	"grad_norm": 0.5368974208831787,
	"learning_rate": 8.576851617267151e-06,
	"loss": 0.7596,
	"step": 220
	},
	{
	"epoch": 1.360374414976599,
	"grad_norm": 0.5123481750488281,
	"learning_rate": 8.43565534959769e-06,
	"loss": 0.7665,
	"step": 221
	},
	{
	"epoch": 1.3666146645865835,
	"grad_norm": 0.5048606395721436,
	"learning_rate": 8.294778073673762e-06,
	"loss": 0.769,
	"step": 222
	},
	{
	"epoch": 1.3728549141965678,
	"grad_norm": 0.5156130790710449,
	"learning_rate": 8.154248516341547e-06,
	"loss": 0.7989,
	"step": 223
	},
	{
	"epoch": 1.3790951638065523,
	"grad_norm": 0.5228000283241272,
	"learning_rate": 8.014095333542548e-06,
	"loss": 0.7775,
	"step": 224
	},
	{
	"epoch": 1.3853354134165365,
	"grad_norm": 0.5356248617172241,
	"learning_rate": 7.874347104470234e-06,
	"loss": 0.7629,
	"step": 225
	},
	{
	"epoch": 1.391575663026521,
	"grad_norm": 0.49624764919281006,
	"learning_rate": 7.735032325742355e-06,
	"loss": 0.8026,
	"step": 226
	},
	{
	"epoch": 1.3978159126365055,
	"grad_norm": 0.5164198279380798,
	"learning_rate": 7.596179405590076e-06,
	"loss": 0.7803,
	"step": 227
	},
	{
	"epoch": 1.4040561622464898,
	"grad_norm": 0.47972792387008667,
	"learning_rate": 7.4578166580651335e-06,
	"loss": 0.7783,
	"step": 228
	},
	{
	"epoch": 1.4102964118564743,
	"grad_norm": 0.4989663064479828,
	"learning_rate": 7.319972297266215e-06,
	"loss": 0.7728,
	"step": 229
	},
	{
	"epoch": 1.4165366614664587,
	"grad_norm": 0.5109092593193054,
	"learning_rate": 7.182674431585703e-06,
	"loss": 0.7919,
	"step": 230
	},
	{
	"epoch": 1.422776911076443,
	"grad_norm": 0.5069689750671387,
	"learning_rate": 7.045951057978001e-06,
	"loss": 0.8015,
	"step": 231
	},
	{
	"epoch": 1.4290171606864275,
	"grad_norm": 0.5074580907821655,
	"learning_rate": 6.909830056250527e-06,
	"loss": 0.7844,
	"step": 232
	},
	{
	"epoch": 1.435257410296412,
	"grad_norm": 0.47711381316185,
	"learning_rate": 6.774339183378663e-06,
	"loss": 0.7601,
	"step": 233
	},
	{
	"epoch": 1.4414976599063962,
	"grad_norm": 0.4926273822784424,
	"learning_rate": 6.639506067845698e-06,
	"loss": 0.7904,
	"step": 234
	},
	{
	"epoch": 1.4477379095163807,
	"grad_norm": 0.5004563927650452,
	"learning_rate": 6.505358204009018e-06,
	"loss": 0.7638,
	"step": 235
	},
	{
	"epoch": 1.4539781591263652,
	"grad_norm": 0.5014521479606628,
	"learning_rate": 6.3719229464935915e-06,
	"loss": 0.794,
	"step": 236
	},
	{
	"epoch": 1.4602184087363494,
	"grad_norm": 0.5181212425231934,
	"learning_rate": 6.239227504614004e-06,
	"loss": 0.7495,
	"step": 237
	},
	{
	"epoch": 1.466458658346334,
	"grad_norm": 0.5317255258560181,
	"learning_rate": 6.107298936826086e-06,
	"loss": 0.7884,
	"step": 238
	},
	{
	"epoch": 1.4726989079563182,
	"grad_norm": 0.5126049518585205,
	"learning_rate": 5.9761641452093225e-06,
	"loss": 0.7869,
	"step": 239
	},
	{
	"epoch": 1.4789391575663027,
	"grad_norm": 0.5322765707969666,
	"learning_rate": 5.845849869981137e-06,
	"loss": 0.7712,
	"step": 240
	},
	{
	"epoch": 1.4789391575663027,
	"eval_loss": 0.9110648036003113,
	"eval_runtime": 134.5659,
	"eval_samples_per_second": 100.702,
	"eval_steps_per_second": 6.294,
	"step": 240
	},
	{
	"epoch": 1.485179407176287,
	"grad_norm": 0.5006371140480042,
	"learning_rate": 5.716382684044191e-06,
	"loss": 0.7939,
	"step": 241
	},
	{
	"epoch": 1.4914196567862714,
	"grad_norm": 0.5099849104881287,
	"learning_rate": 5.587788987567785e-06,
	"loss": 0.771,
	"step": 242
	},
	{
	"epoch": 1.497659906396256,
	"grad_norm": 0.5397711396217346,
	"learning_rate": 5.460095002604533e-06,
	"loss": 0.7642,
	"step": 243
	},
	{
	"epoch": 1.5039001560062402,
	"grad_norm": 0.47754916548728943,
	"learning_rate": 5.333326767743263e-06,
	"loss": 0.7848,
	"step": 244
	},
	{
	"epoch": 1.5101404056162246,
	"grad_norm": 0.5114724636077881,
	"learning_rate": 5.207510132799436e-06,
	"loss": 0.7743,
	"step": 245
	},
	{
	"epoch": 1.5163806552262091,
	"grad_norm": 0.4859448969364166,
	"learning_rate": 5.082670753543961e-06,
	"loss": 0.7748,
	"step": 246
	},
	{
	"epoch": 1.5226209048361934,
	"grad_norm": 0.46158257126808167,
	"learning_rate": 4.958834086471683e-06,
	"loss": 0.7951,
	"step": 247
	},
	{
	"epoch": 1.5288611544461779,
	"grad_norm": 0.48695865273475647,
	"learning_rate": 4.836025383610382e-06,
	"loss": 0.7968,
	"step": 248
	},
	{
	"epoch": 1.5351014040561624,
	"grad_norm": 0.4924914240837097,
	"learning_rate": 4.714269687371581e-06,
	"loss": 0.792,
	"step": 249
	},
	{
	"epoch": 1.5413416536661466,
	"grad_norm": 0.5044175982475281,
	"learning_rate": 4.593591825444028e-06,
	"loss": 0.781,
	"step": 250
	},
	{
	"epoch": 1.547581903276131,
	"grad_norm": 0.4598456919193268,
	"learning_rate": 4.474016405730973e-06,
	"loss": 0.794,
	"step": 251
	},
	{
	"epoch": 1.5538221528861156,
	"grad_norm": 0.48866939544677734,
	"learning_rate": 4.355567811332311e-06,
	"loss": 0.7853,
	"step": 252
	},
	{
	"epoch": 1.5600624024960998,
	"grad_norm": 0.4878495931625366,
	"learning_rate": 4.2382701955724724e-06,
	"loss": 0.743,
	"step": 253
	},
	{
	"epoch": 1.566302652106084,
	"grad_norm": 0.4770466387271881,
	"learning_rate": 4.12214747707527e-06,
	"loss": 0.7442,
	"step": 254
	},
	{
	"epoch": 1.5725429017160688,
	"grad_norm": 0.4467732012271881,
	"learning_rate": 4.007223334886531e-06,
	"loss": 0.7611,
	"step": 255
	},
	{
	"epoch": 1.578783151326053,
	"grad_norm": 0.47116416692733765,
	"learning_rate": 3.893521203645618e-06,
	"loss": 0.7921,
	"step": 256
	},
	{
	"epoch": 1.5850234009360373,
	"grad_norm": 0.468517005443573,
	"learning_rate": 3.78106426880678e-06,
	"loss": 0.7811,
	"step": 257
	},
	{
	"epoch": 1.5912636505460218,
	"grad_norm": 0.46981289982795715,
	"learning_rate": 3.6698754619112974e-06,
	"loss": 0.7756,
	"step": 258
	},
	{
	"epoch": 1.5975039001560063,
	"grad_norm": 0.45571863651275635,
	"learning_rate": 3.5599774559114475e-06,
	"loss": 0.7469,
	"step": 259
	},
	{
	"epoch": 1.6037441497659906,
	"grad_norm": 0.4486157298088074,
	"learning_rate": 3.4513926605471504e-06,
	"loss": 0.7566,
	"step": 260
	},
	{
	"epoch": 1.609984399375975,
	"grad_norm": 0.47735777497291565,
	"learning_rate": 3.344143217776319e-06,
	"loss": 0.7753,
	"step": 261
	},
	{
	"epoch": 1.6162246489859595,
	"grad_norm": 0.4546492099761963,
	"learning_rate": 3.2382509972598087e-06,
	"loss": 0.7741,
	"step": 262
	},
	{
	"epoch": 1.6224648985959438,
	"grad_norm": 0.4690036177635193,
	"learning_rate": 3.133737591901864e-06,
	"loss": 0.7693,
	"step": 263
	},
	{
	"epoch": 1.6287051482059283,
	"grad_norm": 0.4607780873775482,
	"learning_rate": 3.0306243134470668e-06,
	"loss": 0.7312,
	"step": 264
	},
	{
	"epoch": 1.6349453978159127,
	"grad_norm": 0.4510229825973511,
	"learning_rate": 2.9289321881345257e-06,
	"loss": 0.7705,
	"step": 265
	},
	{
	"epoch": 1.641185647425897,
	"grad_norm": 0.43797171115875244,
	"learning_rate": 2.8286819524103657e-06,
	"loss": 0.7666,
	"step": 266
	},
	{
	"epoch": 1.6474258970358813,
	"grad_norm": 0.45275524258613586,
	"learning_rate": 2.7298940486992654e-06,
	"loss": 0.8028,
	"step": 267
	},
	{
	"epoch": 1.653666146645866,
	"grad_norm": 0.4479183852672577,
	"learning_rate": 2.6325886212359496e-06,
	"loss": 0.7647,
	"step": 268
	},
	{
	"epoch": 1.6599063962558502,
	"grad_norm": 0.4575185775756836,
	"learning_rate": 2.5367855119575314e-06,
	"loss": 0.7731,
	"step": 269
	},
	{
	"epoch": 1.6661466458658345,
	"grad_norm": 0.45092037320137024,
	"learning_rate": 2.4425042564574186e-06,
	"loss": 0.7895,
	"step": 270
	},
	{
	"epoch": 1.672386895475819,
	"grad_norm": 0.4297903776168823,
	"learning_rate": 2.3497640800017687e-06,
	"loss": 0.7597,
	"step": 271
	},
	{
	"epoch": 1.6786271450858035,
	"grad_norm": 0.43731772899627686,
	"learning_rate": 2.2585838936091753e-06,
	"loss": 0.7775,
	"step": 272
	},
	{
	"epoch": 1.6848673946957877,
	"grad_norm": 0.4288908541202545,
	"learning_rate": 2.1689822901944456e-06,
	"loss": 0.787,
	"step": 273
	},
	{
	"epoch": 1.6911076443057722,
	"grad_norm": 0.42555147409439087,
	"learning_rate": 2.0809775407772505e-06,
	"loss": 0.7751,
	"step": 274
	},
	{
	"epoch": 1.6973478939157567,
	"grad_norm": 0.45276904106140137,
	"learning_rate": 1.994587590756397e-06,
	"loss": 0.7893,
	"step": 275
	},
	{
	"epoch": 1.703588143525741,
	"grad_norm": 0.44294846057891846,
	"learning_rate": 1.9098300562505266e-06,
	"loss": 0.7794,
	"step": 276
	},
	{
	"epoch": 1.7098283931357254,
	"grad_norm": 0.4307778775691986,
	"learning_rate": 1.826722220505931e-06,
	"loss": 0.7791,
	"step": 277
	},
	{
	"epoch": 1.71606864274571,
	"grad_norm": 0.43245357275009155,
	"learning_rate": 1.74528103037226e-06,
	"loss": 0.7497,
	"step": 278
	},
	{
	"epoch": 1.7223088923556942,
	"grad_norm": 0.4251644015312195,
	"learning_rate": 1.6655230928468257e-06,
	"loss": 0.7743,
	"step": 279
	},
	{
	"epoch": 1.7285491419656787,
	"grad_norm": 0.4321819543838501,
	"learning_rate": 1.587464671688187e-06,
	"loss": 0.7522,
	"step": 280
	},
	{
	"epoch": 1.7347893915756631,
	"grad_norm": 0.4292062222957611,
	"learning_rate": 1.5111216840997745e-06,
	"loss": 0.7698,
	"step": 281
	},
	{
	"epoch": 1.7410296411856474,
	"grad_norm": 0.45093026757240295,
	"learning_rate": 1.436509697484111e-06,
	"loss": 0.7647,
	"step": 282
	},
	{
	"epoch": 1.7472698907956317,
	"grad_norm": 0.42376089096069336,
	"learning_rate": 1.3636439262684299e-06,
	"loss": 0.7556,
	"step": 283
	},
	{
	"epoch": 1.7535101404056164,
	"grad_norm": 0.4337958097457886,
	"learning_rate": 1.2925392288022299e-06,
	"loss": 0.7756,
	"step": 284
	},
	{
	"epoch": 1.7597503900156006,
	"grad_norm": 0.4319595992565155,
	"learning_rate": 1.2232101043274437e-06,
	"loss": 0.7816,
	"step": 285
	},
	{
	"epoch": 1.765990639625585,
	"grad_norm": 0.4335976243019104,
	"learning_rate": 1.1556706900218572e-06,
	"loss": 0.7902,
	"step": 286
	},
	{
	"epoch": 1.7722308892355694,
	"grad_norm": 0.4158109724521637,
	"learning_rate": 1.0899347581163222e-06,
	"loss": 0.7396,
	"step": 287
	},
	{
	"epoch": 1.7784711388455539,
	"grad_norm": 0.42235442996025085,
	"learning_rate": 1.0260157130864178e-06,
	"loss": 0.7747,
	"step": 288
	},
	{
	"epoch": 1.7847113884555381,
	"grad_norm": 0.43022453784942627,
	"learning_rate": 9.63926588919083e-07,
	"loss": 0.7616,
	"step": 289
	},
	{
	"epoch": 1.7909516380655226,
	"grad_norm": 0.42115500569343567,
	"learning_rate": 9.036800464548157e-07,
	"loss": 0.7609,
	"step": 290
	},
	{
	"epoch": 1.797191887675507,
	"grad_norm": 0.43961915373802185,
	"learning_rate": 8.4528837080594e-07,
	"loss": 0.7665,
	"step": 291
	},
	{
	"epoch": 1.8034321372854913,
	"grad_norm": 0.42159175872802734,
	"learning_rate": 7.887634688515e-07,
	"loss": 0.7684,
	"step": 292
	},
	{
	"epoch": 1.8096723868954758,
	"grad_norm": 0.4211348295211792,
	"learning_rate": 7.341168668092857e-07,
	"loss": 0.7701,
	"step": 293
	},
	{
	"epoch": 1.8159126365054603,
	"grad_norm": 0.447083055973053,
	"learning_rate": 6.813597078854772e-07,
	"loss": 0.8051,
	"step": 294
	},
	{
	"epoch": 1.8221528861154446,
	"grad_norm": 0.42439502477645874,
	"learning_rate": 6.305027500023841e-07,
	"loss": 0.7794,
	"step": 295
	},
	{
	"epoch": 1.828393135725429,
	"grad_norm": 0.43265220522880554,
	"learning_rate": 5.815563636047539e-07,
	"loss": 0.7722,
	"step": 296
	},
	{
	"epoch": 1.8346333853354135,
	"grad_norm": 0.4244794249534607,
	"learning_rate": 5.345305295450997e-07,
	"loss": 0.7638,
	"step": 297
	},
	{
	"epoch": 1.8408736349453978,
	"grad_norm": 0.41255486011505127,
	"learning_rate": 4.894348370484648e-07,
	"loss": 0.772,
	"step": 298
	},
	{
	"epoch": 1.847113884555382,
	"grad_norm": 0.4242880344390869,
	"learning_rate": 4.4627848175703315e-07,
	"loss": 0.7643,
	"step": 299
	},
	{
	"epoch": 1.8533541341653668,
	"grad_norm": 0.41673314571380615,
	"learning_rate": 4.0507026385502747e-07,
	"loss": 0.7601,
	"step": 300
	},
	{
	"epoch": 1.859594383775351,
	"grad_norm": 0.42518967390060425,
	"learning_rate": 3.658185862742103e-07,
	"loss": 0.7699,
	"step": 301
	},
	{
	"epoch": 1.8658346333853353,
	"grad_norm": 0.42029449343681335,
	"learning_rate": 3.2853145298042954e-07,
	"loss": 0.7498,
	"step": 302
	},
	{
	"epoch": 1.8720748829953198,
	"grad_norm": 0.4201337695121765,
	"learning_rate": 2.93216467341475e-07,
	"loss": 0.7626,
	"step": 303
	},
	{
	"epoch": 1.8783151326053042,
	"grad_norm": 0.42505332827568054,
	"learning_rate": 2.5988083057666534e-07,
	"loss": 0.774,
	"step": 304
	},
	{
	"epoch": 1.8845553822152885,
	"grad_norm": 0.41834697127342224,
	"learning_rate": 2.2853134028840594e-07,
	"loss": 0.7638,
	"step": 305
	},
	{
	"epoch": 1.890795631825273,
	"grad_norm": 0.4278232455253601,
	"learning_rate": 1.9917438907606556e-07,
	"loss": 0.7906,
	"step": 306
	},
	{
	"epoch": 1.8970358814352575,
	"grad_norm": 0.429078608751297,
	"learning_rate": 1.7181596323244453e-07,
	"loss": 0.7839,
	"step": 307
	},
	{
	"epoch": 1.9032761310452417,
	"grad_norm": 0.4142579138278961,
	"learning_rate": 1.464616415230702e-07,
	"loss": 0.7687,
	"step": 308
	},
	{
	"epoch": 1.9095163806552262,
	"grad_norm": 0.40971171855926514,
	"learning_rate": 1.231165940486234e-07,
	"loss": 0.7647,
	"step": 309
	},
	{
	"epoch": 1.9157566302652107,
	"grad_norm": 0.4336109161376953,
	"learning_rate": 1.0178558119067316e-07,
	"loss": 0.7691,
	"step": 310
	},
	{
	"epoch": 1.921996879875195,
	"grad_norm": 0.40623047947883606,
	"learning_rate": 8.247295264097288e-08,
	"loss": 0.7728,
	"step": 311
	},
	{
	"epoch": 1.9282371294851794,
	"grad_norm": 0.4205041527748108,
	"learning_rate": 6.51826465144978e-08,
	"loss": 0.7533,
	"step": 312
	},
	{
	"epoch": 1.934477379095164,
	"grad_norm": 0.416535347700119,
	"learning_rate": 4.991818854640396e-08,
	"loss": 0.7826,
	"step": 313
	},
	{
	"epoch": 1.9407176287051482,
	"grad_norm": 0.41483184695243835,
	"learning_rate": 3.668269137308666e-08,
	"loss": 0.7688,
	"step": 314
	},
	{
	"epoch": 1.9469578783151325,
	"grad_norm": 0.4072718322277069,
	"learning_rate": 2.547885389746485e-08,
	"loss": 0.7943,
	"step": 315
	},
	{
	"epoch": 1.9531981279251172,
	"grad_norm": 0.413289338350296,
	"learning_rate": 1.630896073864352e-08,
	"loss": 0.7867,
	"step": 316
	},
	{
	"epoch": 1.9594383775351014,
	"grad_norm": 0.4177180528640747,
	"learning_rate": 9.174881766043086e-09,
	"loss": 0.781,
	"step": 317
	},
	{
	"epoch": 1.9656786271450857,
	"grad_norm": 0.41807225346565247,
	"learning_rate": 4.0780717181077015e-09,
	"loss": 0.769,
	"step": 318
	},
	{
	"epoch": 1.9719188767550702,
	"grad_norm": 0.41558825969696045,
	"learning_rate": 1.019569905666984e-09,
	"loss": 0.7504,
	"step": 319
	},
	{
	"epoch": 1.9781591263650546,
	"grad_norm": 0.4160574674606323,
	"learning_rate": 0.0,
	"loss": 0.8025,
	"step": 320
	},
	{
	"epoch": 1.9781591263650546,
	"eval_loss": 0.903252899646759,
	"eval_runtime": 134.5566,
	"eval_samples_per_second": 100.709,
	"eval_steps_per_second": 6.295,
	"step": 320
	}
	],
	"logging_steps": 1,
	"max_steps": 320,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 80,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.9476972312723456e+18,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}