MiniCPM-V-2_6_lora_20240917_011727 / trainer_state.json

Model save

43282d5 verified 2 months ago

65.5 kB

	{
	"best_metric": 1.322394609451294,
	"best_model_checkpoint": "output/output__lora/checkpoint-400",
	"epoch": 0.139640425903299,
	"eval_steps": 100,
	"global_step": 400,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.00034910106475824753,
	"grad_norm": 2.6783504486083984,
	"learning_rate": 0.0,
	"loss": 1.5271,
	"step": 1
	},
	{
	"epoch": 0.0006982021295164951,
	"grad_norm": 1.3333820104599,
	"learning_rate": 8.859191006777897e-06,
	"loss": 1.3963,
	"step": 2
	},
	{
	"epoch": 0.0010473031942747426,
	"grad_norm": 1.2807133197784424,
	"learning_rate": 1.4041485532469073e-05,
	"loss": 1.4192,
	"step": 3
	},
	{
	"epoch": 0.0013964042590329901,
	"grad_norm": 1.1956514120101929,
	"learning_rate": 1.7718382013555794e-05,
	"loss": 1.5083,
	"step": 4
	},
	{
	"epoch": 0.0017455053237912376,
	"grad_norm": 1.2733005285263062,
	"learning_rate": 2.0570404496611053e-05,
	"loss": 1.4963,
	"step": 5
	},
	{
	"epoch": 0.0020946063885494853,
	"grad_norm": 0.8666600584983826,
	"learning_rate": 2.2900676539246968e-05,
	"loss": 1.5552,
	"step": 6
	},
	{
	"epoch": 0.0024437074533077328,
	"grad_norm": 0.7445533275604248,
	"learning_rate": 2.4870893478326387e-05,
	"loss": 1.2858,
	"step": 7
	},
	{
	"epoch": 0.0027928085180659802,
	"grad_norm": 0.8400186896324158,
	"learning_rate": 2.6577573020333684e-05,
	"loss": 1.3413,
	"step": 8
	},
	{
	"epoch": 0.0031419095828242277,
	"grad_norm": 0.8454774618148804,
	"learning_rate": 2.8082971064938146e-05,
	"loss": 1.467,
	"step": 9
	},
	{
	"epoch": 0.003491010647582475,
	"grad_norm": 0.8853550553321838,
	"learning_rate": 2.9429595503388953e-05,
	"loss": 1.4477,
	"step": 10
	},
	{
	"epoch": 0.0038401117123407227,
	"grad_norm": 1.4953877925872803,
	"learning_rate": 3.064776548439465e-05,
	"loss": 1.4012,
	"step": 11
	},
	{
	"epoch": 0.0041892127770989706,
	"grad_norm": 0.8356307148933411,
	"learning_rate": 3.1759867546024865e-05,
	"loss": 1.3855,
	"step": 12
	},
	{
	"epoch": 0.004538313841857218,
	"grad_norm": 0.7591987252235413,
	"learning_rate": 3.2782902272079295e-05,
	"loss": 1.3561,
	"step": 13
	},
	{
	"epoch": 0.0048874149066154655,
	"grad_norm": 0.9811077117919922,
	"learning_rate": 3.373008448510428e-05,
	"loss": 1.3175,
	"step": 14
	},
	{
	"epoch": 0.005236515971373713,
	"grad_norm": 0.8403587341308594,
	"learning_rate": 3.4611890029080124e-05,
	"loss": 1.341,
	"step": 15
	},
	{
	"epoch": 0.0055856170361319605,
	"grad_norm": 0.750234067440033,
	"learning_rate": 3.543676402711159e-05,
	"loss": 1.4247,
	"step": 16
	},
	{
	"epoch": 0.005934718100890208,
	"grad_norm": 0.7567417621612549,
	"learning_rate": 3.621161404374383e-05,
	"loss": 1.416,
	"step": 17
	},
	{
	"epoch": 0.006283819165648455,
	"grad_norm": 0.7126427292823792,
	"learning_rate": 3.694216207171603e-05,
	"loss": 1.4426,
	"step": 18
	},
	{
	"epoch": 0.006632920230406703,
	"grad_norm": 0.7808831930160522,
	"learning_rate": 3.76332012245438e-05,
	"loss": 1.4287,
	"step": 19
	},
	{
	"epoch": 0.00698202129516495,
	"grad_norm": 0.6165328025817871,
	"learning_rate": 3.8288786510166846e-05,
	"loss": 1.3391,
	"step": 20
	},
	{
	"epoch": 0.007331122359923198,
	"grad_norm": 0.7212307453155518,
	"learning_rate": 3.8912379010795455e-05,
	"loss": 1.3375,
	"step": 21
	},
	{
	"epoch": 0.007680223424681445,
	"grad_norm": 0.6797880530357361,
	"learning_rate": 3.9506956491172545e-05,
	"loss": 1.2713,
	"step": 22
	},
	{
	"epoch": 0.008029324489439693,
	"grad_norm": 0.7757507562637329,
	"learning_rate": 4.007509939970292e-05,
	"loss": 1.3599,
	"step": 23
	},
	{
	"epoch": 0.008378425554197941,
	"grad_norm": 0.539090096950531,
	"learning_rate": 4.061905855280276e-05,
	"loss": 1.5154,
	"step": 24
	},
	{
	"epoch": 0.008727526618956188,
	"grad_norm": 0.652180552482605,
	"learning_rate": 4.1140808993222106e-05,
	"loss": 1.3438,
	"step": 25
	},
	{
	"epoch": 0.009076627683714436,
	"grad_norm": 0.7319611310958862,
	"learning_rate": 4.164209327885719e-05,
	"loss": 1.5033,
	"step": 26
	},
	{
	"epoch": 0.009425728748472683,
	"grad_norm": 0.702570378780365,
	"learning_rate": 4.2124456597407214e-05,
	"loss": 1.2238,
	"step": 27
	},
	{
	"epoch": 0.009774829813230931,
	"grad_norm": 0.6835883855819702,
	"learning_rate": 4.258927549188218e-05,
	"loss": 1.3648,
	"step": 28
	},
	{
	"epoch": 0.010123930877989178,
	"grad_norm": 0.6773353219032288,
	"learning_rate": 4.303778154313212e-05,
	"loss": 1.3074,
	"step": 29
	},
	{
	"epoch": 0.010473031942747426,
	"grad_norm": 0.6387542486190796,
	"learning_rate": 4.347108103585803e-05,
	"loss": 1.2265,
	"step": 30
	},
	{
	"epoch": 0.010822133007505673,
	"grad_norm": 0.6249099969863892,
	"learning_rate": 4.389017139879164e-05,
	"loss": 1.3321,
	"step": 31
	},
	{
	"epoch": 0.011171234072263921,
	"grad_norm": 0.7121676802635193,
	"learning_rate": 4.429595503388948e-05,
	"loss": 1.3729,
	"step": 32
	},
	{
	"epoch": 0.011520335137022168,
	"grad_norm": 0.7367205619812012,
	"learning_rate": 4.468925101686371e-05,
	"loss": 1.3937,
	"step": 33
	},
	{
	"epoch": 0.011869436201780416,
	"grad_norm": 0.6183043718338013,
	"learning_rate": 4.507080505052173e-05,
	"loss": 1.4321,
	"step": 34
	},
	{
	"epoch": 0.012218537266538662,
	"grad_norm": 1.1439142227172852,
	"learning_rate": 4.544129797493744e-05,
	"loss": 1.3515,
	"step": 35
	},
	{
	"epoch": 0.01256763833129691,
	"grad_norm": 0.7980801463127136,
	"learning_rate": 4.5801353078493936e-05,
	"loss": 1.3929,
	"step": 36
	},
	{
	"epoch": 0.012916739396055157,
	"grad_norm": 0.8890343904495239,
	"learning_rate": 4.615154240700883e-05,
	"loss": 1.2895,
	"step": 37
	},
	{
	"epoch": 0.013265840460813406,
	"grad_norm": 0.7107703685760498,
	"learning_rate": 4.6492392231321696e-05,
	"loss": 1.3054,
	"step": 38
	},
	{
	"epoch": 0.013614941525571652,
	"grad_norm": 0.605403482913971,
	"learning_rate": 4.682438780454837e-05,
	"loss": 1.3817,
	"step": 39
	},
	{
	"epoch": 0.0139640425903299,
	"grad_norm": 0.6489142775535583,
	"learning_rate": 4.714797751694474e-05,
	"loss": 1.4109,
	"step": 40
	},
	{
	"epoch": 0.014313143655088147,
	"grad_norm": 0.5896831750869751,
	"learning_rate": 4.7463576537657414e-05,
	"loss": 1.3383,
	"step": 41
	},
	{
	"epoch": 0.014662244719846396,
	"grad_norm": 0.8319935202598572,
	"learning_rate": 4.777157001757336e-05,
	"loss": 1.4239,
	"step": 42
	},
	{
	"epoch": 0.015011345784604642,
	"grad_norm": 0.6128418445587158,
	"learning_rate": 4.8072315915252694e-05,
	"loss": 1.3541,
	"step": 43
	},
	{
	"epoch": 0.01536044684936289,
	"grad_norm": 0.6820589900016785,
	"learning_rate": 4.8366147497950435e-05,
	"loss": 1.2663,
	"step": 44
	},
	{
	"epoch": 0.015709547914121137,
	"grad_norm": 0.8375743627548218,
	"learning_rate": 4.8653375561549195e-05,
	"loss": 1.3803,
	"step": 45
	},
	{
	"epoch": 0.016058648978879386,
	"grad_norm": 0.6585806608200073,
	"learning_rate": 4.8934290406480814e-05,
	"loss": 1.3143,
	"step": 46
	},
	{
	"epoch": 0.016407750043637634,
	"grad_norm": 0.7528412342071533,
	"learning_rate": 4.920916360113129e-05,
	"loss": 1.293,
	"step": 47
	},
	{
	"epoch": 0.016756851108395882,
	"grad_norm": 0.6918306946754456,
	"learning_rate": 4.947824955958066e-05,
	"loss": 1.4991,
	"step": 48
	},
	{
	"epoch": 0.017105952173154127,
	"grad_norm": 0.6764557361602783,
	"learning_rate": 4.9741786956652774e-05,
	"loss": 1.2755,
	"step": 49
	},
	{
	"epoch": 0.017455053237912375,
	"grad_norm": 0.6525936722755432,
	"learning_rate": 5e-05,
	"loss": 1.3897,
	"step": 50
	},
	{
	"epoch": 0.017804154302670624,
	"grad_norm": 0.627804160118103,
	"learning_rate": 5e-05,
	"loss": 1.3027,
	"step": 51
	},
	{
	"epoch": 0.018153255367428872,
	"grad_norm": 0.8060218095779419,
	"learning_rate": 5e-05,
	"loss": 1.3477,
	"step": 52
	},
	{
	"epoch": 0.018502356432187117,
	"grad_norm": 0.6655098795890808,
	"learning_rate": 5e-05,
	"loss": 1.3631,
	"step": 53
	},
	{
	"epoch": 0.018851457496945365,
	"grad_norm": 0.7165637016296387,
	"learning_rate": 5e-05,
	"loss": 1.347,
	"step": 54
	},
	{
	"epoch": 0.019200558561703614,
	"grad_norm": 0.6562020778656006,
	"learning_rate": 5e-05,
	"loss": 1.3535,
	"step": 55
	},
	{
	"epoch": 0.019549659626461862,
	"grad_norm": 0.7588657736778259,
	"learning_rate": 5e-05,
	"loss": 1.3291,
	"step": 56
	},
	{
	"epoch": 0.019898760691220107,
	"grad_norm": 0.6295105814933777,
	"learning_rate": 5e-05,
	"loss": 1.3542,
	"step": 57
	},
	{
	"epoch": 0.020247861755978355,
	"grad_norm": 1.339097023010254,
	"learning_rate": 5e-05,
	"loss": 1.3649,
	"step": 58
	},
	{
	"epoch": 0.020596962820736604,
	"grad_norm": 0.6976660490036011,
	"learning_rate": 5e-05,
	"loss": 1.2852,
	"step": 59
	},
	{
	"epoch": 0.020946063885494852,
	"grad_norm": 0.7590420246124268,
	"learning_rate": 5e-05,
	"loss": 1.354,
	"step": 60
	},
	{
	"epoch": 0.021295164950253097,
	"grad_norm": 0.6279817819595337,
	"learning_rate": 5e-05,
	"loss": 1.2537,
	"step": 61
	},
	{
	"epoch": 0.021644266015011345,
	"grad_norm": 0.6099221110343933,
	"learning_rate": 5e-05,
	"loss": 1.2423,
	"step": 62
	},
	{
	"epoch": 0.021993367079769593,
	"grad_norm": 0.6252647638320923,
	"learning_rate": 5e-05,
	"loss": 1.3667,
	"step": 63
	},
	{
	"epoch": 0.022342468144527842,
	"grad_norm": 0.8939846158027649,
	"learning_rate": 5e-05,
	"loss": 1.2889,
	"step": 64
	},
	{
	"epoch": 0.022691569209286087,
	"grad_norm": 0.85840904712677,
	"learning_rate": 5e-05,
	"loss": 1.3747,
	"step": 65
	},
	{
	"epoch": 0.023040670274044335,
	"grad_norm": 0.8478113412857056,
	"learning_rate": 5e-05,
	"loss": 1.3417,
	"step": 66
	},
	{
	"epoch": 0.023389771338802583,
	"grad_norm": 0.6869573593139648,
	"learning_rate": 5e-05,
	"loss": 1.4033,
	"step": 67
	},
	{
	"epoch": 0.02373887240356083,
	"grad_norm": 0.6566379070281982,
	"learning_rate": 5e-05,
	"loss": 1.3617,
	"step": 68
	},
	{
	"epoch": 0.02408797346831908,
	"grad_norm": 0.6871697306632996,
	"learning_rate": 5e-05,
	"loss": 1.2932,
	"step": 69
	},
	{
	"epoch": 0.024437074533077325,
	"grad_norm": 0.7102701663970947,
	"learning_rate": 5e-05,
	"loss": 1.4062,
	"step": 70
	},
	{
	"epoch": 0.024786175597835573,
	"grad_norm": 0.8392966985702515,
	"learning_rate": 5e-05,
	"loss": 1.1992,
	"step": 71
	},
	{
	"epoch": 0.02513527666259382,
	"grad_norm": 0.670971155166626,
	"learning_rate": 5e-05,
	"loss": 1.4131,
	"step": 72
	},
	{
	"epoch": 0.02548437772735207,
	"grad_norm": 0.7271628975868225,
	"learning_rate": 5e-05,
	"loss": 1.2928,
	"step": 73
	},
	{
	"epoch": 0.025833478792110315,
	"grad_norm": 0.7184221744537354,
	"learning_rate": 5e-05,
	"loss": 1.2239,
	"step": 74
	},
	{
	"epoch": 0.026182579856868563,
	"grad_norm": 0.5685485005378723,
	"learning_rate": 5e-05,
	"loss": 1.2692,
	"step": 75
	},
	{
	"epoch": 0.02653168092162681,
	"grad_norm": 0.5677881836891174,
	"learning_rate": 5e-05,
	"loss": 1.2951,
	"step": 76
	},
	{
	"epoch": 0.02688078198638506,
	"grad_norm": 0.6896436810493469,
	"learning_rate": 5e-05,
	"loss": 1.3297,
	"step": 77
	},
	{
	"epoch": 0.027229883051143305,
	"grad_norm": 0.6284964084625244,
	"learning_rate": 5e-05,
	"loss": 1.2402,
	"step": 78
	},
	{
	"epoch": 0.027578984115901553,
	"grad_norm": 0.618015468120575,
	"learning_rate": 5e-05,
	"loss": 1.2999,
	"step": 79
	},
	{
	"epoch": 0.0279280851806598,
	"grad_norm": 0.7585094571113586,
	"learning_rate": 5e-05,
	"loss": 1.3378,
	"step": 80
	},
	{
	"epoch": 0.02827718624541805,
	"grad_norm": 0.6674929857254028,
	"learning_rate": 5e-05,
	"loss": 1.3585,
	"step": 81
	},
	{
	"epoch": 0.028626287310176295,
	"grad_norm": 0.583121120929718,
	"learning_rate": 5e-05,
	"loss": 1.3236,
	"step": 82
	},
	{
	"epoch": 0.028975388374934543,
	"grad_norm": 0.661668062210083,
	"learning_rate": 5e-05,
	"loss": 1.3264,
	"step": 83
	},
	{
	"epoch": 0.02932448943969279,
	"grad_norm": 0.8168457746505737,
	"learning_rate": 5e-05,
	"loss": 1.3132,
	"step": 84
	},
	{
	"epoch": 0.02967359050445104,
	"grad_norm": 0.6123843193054199,
	"learning_rate": 5e-05,
	"loss": 1.3224,
	"step": 85
	},
	{
	"epoch": 0.030022691569209285,
	"grad_norm": 0.7081793546676636,
	"learning_rate": 5e-05,
	"loss": 1.3641,
	"step": 86
	},
	{
	"epoch": 0.030371792633967533,
	"grad_norm": 0.7772612571716309,
	"learning_rate": 5e-05,
	"loss": 1.3634,
	"step": 87
	},
	{
	"epoch": 0.03072089369872578,
	"grad_norm": 0.603370726108551,
	"learning_rate": 5e-05,
	"loss": 1.4486,
	"step": 88
	},
	{
	"epoch": 0.03106999476348403,
	"grad_norm": 0.6567598581314087,
	"learning_rate": 5e-05,
	"loss": 1.4228,
	"step": 89
	},
	{
	"epoch": 0.031419095828242274,
	"grad_norm": 0.6245101690292358,
	"learning_rate": 5e-05,
	"loss": 1.2928,
	"step": 90
	},
	{
	"epoch": 0.031768196893000526,
	"grad_norm": 0.7198782563209534,
	"learning_rate": 5e-05,
	"loss": 1.3304,
	"step": 91
	},
	{
	"epoch": 0.03211729795775877,
	"grad_norm": 0.526452898979187,
	"learning_rate": 5e-05,
	"loss": 1.3418,
	"step": 92
	},
	{
	"epoch": 0.032466399022517016,
	"grad_norm": 0.7534317374229431,
	"learning_rate": 5e-05,
	"loss": 1.333,
	"step": 93
	},
	{
	"epoch": 0.03281550008727527,
	"grad_norm": 0.5721869468688965,
	"learning_rate": 5e-05,
	"loss": 1.1849,
	"step": 94
	},
	{
	"epoch": 0.03316460115203351,
	"grad_norm": 0.6943261027336121,
	"learning_rate": 5e-05,
	"loss": 1.3263,
	"step": 95
	},
	{
	"epoch": 0.033513702216791764,
	"grad_norm": 0.5904171466827393,
	"learning_rate": 5e-05,
	"loss": 1.3103,
	"step": 96
	},
	{
	"epoch": 0.03386280328155001,
	"grad_norm": 0.7743117809295654,
	"learning_rate": 5e-05,
	"loss": 1.3633,
	"step": 97
	},
	{
	"epoch": 0.034211904346308254,
	"grad_norm": 1.298839807510376,
	"learning_rate": 5e-05,
	"loss": 1.335,
	"step": 98
	},
	{
	"epoch": 0.034561005411066506,
	"grad_norm": 0.7134571671485901,
	"learning_rate": 5e-05,
	"loss": 1.4154,
	"step": 99
	},
	{
	"epoch": 0.03491010647582475,
	"grad_norm": 0.6801385879516602,
	"learning_rate": 5e-05,
	"loss": 1.3412,
	"step": 100
	},
	{
	"epoch": 0.03491010647582475,
	"eval_loss": 1.337953805923462,
	"eval_runtime": 3305.6905,
	"eval_samples_per_second": 6.932,
	"eval_steps_per_second": 0.867,
	"step": 100
	},
	{
	"epoch": 0.035259207540582996,
	"grad_norm": 1.0192288160324097,
	"learning_rate": 5e-05,
	"loss": 1.2821,
	"step": 101
	},
	{
	"epoch": 0.03560830860534125,
	"grad_norm": 0.6322550773620605,
	"learning_rate": 5e-05,
	"loss": 1.3561,
	"step": 102
	},
	{
	"epoch": 0.03595740967009949,
	"grad_norm": 0.6499407291412354,
	"learning_rate": 5e-05,
	"loss": 1.3164,
	"step": 103
	},
	{
	"epoch": 0.036306510734857744,
	"grad_norm": 0.7576645612716675,
	"learning_rate": 5e-05,
	"loss": 1.2924,
	"step": 104
	},
	{
	"epoch": 0.03665561179961599,
	"grad_norm": 0.6215568780899048,
	"learning_rate": 5e-05,
	"loss": 1.2551,
	"step": 105
	},
	{
	"epoch": 0.037004712864374234,
	"grad_norm": 0.6197790503501892,
	"learning_rate": 5e-05,
	"loss": 1.317,
	"step": 106
	},
	{
	"epoch": 0.037353813929132486,
	"grad_norm": 0.677772045135498,
	"learning_rate": 5e-05,
	"loss": 1.428,
	"step": 107
	},
	{
	"epoch": 0.03770291499389073,
	"grad_norm": 0.6386198401451111,
	"learning_rate": 5e-05,
	"loss": 1.4206,
	"step": 108
	},
	{
	"epoch": 0.038052016058648976,
	"grad_norm": 1.113053798675537,
	"learning_rate": 5e-05,
	"loss": 1.3992,
	"step": 109
	},
	{
	"epoch": 0.03840111712340723,
	"grad_norm": 0.668409526348114,
	"learning_rate": 5e-05,
	"loss": 1.3358,
	"step": 110
	},
	{
	"epoch": 0.03875021818816547,
	"grad_norm": 0.6381022930145264,
	"learning_rate": 5e-05,
	"loss": 1.245,
	"step": 111
	},
	{
	"epoch": 0.039099319252923724,
	"grad_norm": 0.7082274556159973,
	"learning_rate": 5e-05,
	"loss": 1.3107,
	"step": 112
	},
	{
	"epoch": 0.03944842031768197,
	"grad_norm": 0.6497403979301453,
	"learning_rate": 5e-05,
	"loss": 1.3174,
	"step": 113
	},
	{
	"epoch": 0.039797521382440214,
	"grad_norm": 0.7390655279159546,
	"learning_rate": 5e-05,
	"loss": 1.2791,
	"step": 114
	},
	{
	"epoch": 0.040146622447198466,
	"grad_norm": 0.6828505992889404,
	"learning_rate": 5e-05,
	"loss": 1.3903,
	"step": 115
	},
	{
	"epoch": 0.04049572351195671,
	"grad_norm": 0.6913119554519653,
	"learning_rate": 5e-05,
	"loss": 1.3147,
	"step": 116
	},
	{
	"epoch": 0.04084482457671496,
	"grad_norm": 0.6394439339637756,
	"learning_rate": 5e-05,
	"loss": 1.3308,
	"step": 117
	},
	{
	"epoch": 0.04119392564147321,
	"grad_norm": 0.6368663907051086,
	"learning_rate": 5e-05,
	"loss": 1.3021,
	"step": 118
	},
	{
	"epoch": 0.04154302670623145,
	"grad_norm": 0.625417947769165,
	"learning_rate": 5e-05,
	"loss": 1.4122,
	"step": 119
	},
	{
	"epoch": 0.041892127770989704,
	"grad_norm": 0.5640509724617004,
	"learning_rate": 5e-05,
	"loss": 1.3216,
	"step": 120
	},
	{
	"epoch": 0.04224122883574795,
	"grad_norm": 0.6355682611465454,
	"learning_rate": 5e-05,
	"loss": 1.2522,
	"step": 121
	},
	{
	"epoch": 0.042590329900506194,
	"grad_norm": 2.130183696746826,
	"learning_rate": 5e-05,
	"loss": 1.398,
	"step": 122
	},
	{
	"epoch": 0.042939430965264445,
	"grad_norm": 0.7858290672302246,
	"learning_rate": 5e-05,
	"loss": 1.3543,
	"step": 123
	},
	{
	"epoch": 0.04328853203002269,
	"grad_norm": 0.6912608742713928,
	"learning_rate": 5e-05,
	"loss": 1.3338,
	"step": 124
	},
	{
	"epoch": 0.04363763309478094,
	"grad_norm": 0.6326834559440613,
	"learning_rate": 5e-05,
	"loss": 1.2968,
	"step": 125
	},
	{
	"epoch": 0.04398673415953919,
	"grad_norm": 0.6076151728630066,
	"learning_rate": 5e-05,
	"loss": 1.2705,
	"step": 126
	},
	{
	"epoch": 0.04433583522429743,
	"grad_norm": 0.767652153968811,
	"learning_rate": 5e-05,
	"loss": 1.3601,
	"step": 127
	},
	{
	"epoch": 0.044684936289055684,
	"grad_norm": 0.621769905090332,
	"learning_rate": 5e-05,
	"loss": 1.2834,
	"step": 128
	},
	{
	"epoch": 0.04503403735381393,
	"grad_norm": 0.6216384768486023,
	"learning_rate": 5e-05,
	"loss": 1.3322,
	"step": 129
	},
	{
	"epoch": 0.04538313841857217,
	"grad_norm": 0.626325249671936,
	"learning_rate": 5e-05,
	"loss": 1.4601,
	"step": 130
	},
	{
	"epoch": 0.045732239483330425,
	"grad_norm": 0.8063498735427856,
	"learning_rate": 5e-05,
	"loss": 1.293,
	"step": 131
	},
	{
	"epoch": 0.04608134054808867,
	"grad_norm": 1.117038369178772,
	"learning_rate": 5e-05,
	"loss": 1.3635,
	"step": 132
	},
	{
	"epoch": 0.04643044161284692,
	"grad_norm": 1.4540647268295288,
	"learning_rate": 5e-05,
	"loss": 1.3346,
	"step": 133
	},
	{
	"epoch": 0.04677954267760517,
	"grad_norm": 0.6695774793624878,
	"learning_rate": 5e-05,
	"loss": 1.4109,
	"step": 134
	},
	{
	"epoch": 0.04712864374236341,
	"grad_norm": 0.8146533370018005,
	"learning_rate": 5e-05,
	"loss": 1.3515,
	"step": 135
	},
	{
	"epoch": 0.04747774480712166,
	"grad_norm": 0.6705998778343201,
	"learning_rate": 5e-05,
	"loss": 1.2752,
	"step": 136
	},
	{
	"epoch": 0.04782684587187991,
	"grad_norm": 0.7589219808578491,
	"learning_rate": 5e-05,
	"loss": 1.4393,
	"step": 137
	},
	{
	"epoch": 0.04817594693663816,
	"grad_norm": 0.9603825807571411,
	"learning_rate": 5e-05,
	"loss": 1.4609,
	"step": 138
	},
	{
	"epoch": 0.048525048001396405,
	"grad_norm": 0.6351510286331177,
	"learning_rate": 5e-05,
	"loss": 1.371,
	"step": 139
	},
	{
	"epoch": 0.04887414906615465,
	"grad_norm": 0.5652881860733032,
	"learning_rate": 5e-05,
	"loss": 1.2845,
	"step": 140
	},
	{
	"epoch": 0.0492232501309129,
	"grad_norm": 0.7579118609428406,
	"learning_rate": 5e-05,
	"loss": 1.2526,
	"step": 141
	},
	{
	"epoch": 0.04957235119567115,
	"grad_norm": 0.7851598262786865,
	"learning_rate": 5e-05,
	"loss": 1.3379,
	"step": 142
	},
	{
	"epoch": 0.04992145226042939,
	"grad_norm": 0.5865357518196106,
	"learning_rate": 5e-05,
	"loss": 1.4802,
	"step": 143
	},
	{
	"epoch": 0.05027055332518764,
	"grad_norm": 1.3862611055374146,
	"learning_rate": 5e-05,
	"loss": 1.357,
	"step": 144
	},
	{
	"epoch": 0.05061965438994589,
	"grad_norm": 0.6249399185180664,
	"learning_rate": 5e-05,
	"loss": 1.2587,
	"step": 145
	},
	{
	"epoch": 0.05096875545470414,
	"grad_norm": 0.5966644883155823,
	"learning_rate": 5e-05,
	"loss": 1.3534,
	"step": 146
	},
	{
	"epoch": 0.051317856519462385,
	"grad_norm": 0.6312971711158752,
	"learning_rate": 5e-05,
	"loss": 1.1815,
	"step": 147
	},
	{
	"epoch": 0.05166695758422063,
	"grad_norm": 0.6539703011512756,
	"learning_rate": 5e-05,
	"loss": 1.3946,
	"step": 148
	},
	{
	"epoch": 0.05201605864897888,
	"grad_norm": 0.8756076097488403,
	"learning_rate": 5e-05,
	"loss": 1.2384,
	"step": 149
	},
	{
	"epoch": 0.052365159713737126,
	"grad_norm": 0.7149311304092407,
	"learning_rate": 5e-05,
	"loss": 1.2998,
	"step": 150
	},
	{
	"epoch": 0.05271426077849537,
	"grad_norm": 0.79525226354599,
	"learning_rate": 5e-05,
	"loss": 1.3376,
	"step": 151
	},
	{
	"epoch": 0.05306336184325362,
	"grad_norm": 0.6921191811561584,
	"learning_rate": 5e-05,
	"loss": 1.3461,
	"step": 152
	},
	{
	"epoch": 0.05341246290801187,
	"grad_norm": 0.7444896697998047,
	"learning_rate": 5e-05,
	"loss": 1.4089,
	"step": 153
	},
	{
	"epoch": 0.05376156397277012,
	"grad_norm": 0.6216670274734497,
	"learning_rate": 5e-05,
	"loss": 1.3402,
	"step": 154
	},
	{
	"epoch": 0.054110665037528365,
	"grad_norm": 0.5917710661888123,
	"learning_rate": 5e-05,
	"loss": 1.3253,
	"step": 155
	},
	{
	"epoch": 0.05445976610228661,
	"grad_norm": 0.8648408055305481,
	"learning_rate": 5e-05,
	"loss": 1.4447,
	"step": 156
	},
	{
	"epoch": 0.05480886716704486,
	"grad_norm": 0.6752570271492004,
	"learning_rate": 5e-05,
	"loss": 1.3097,
	"step": 157
	},
	{
	"epoch": 0.055157968231803106,
	"grad_norm": 0.5603750944137573,
	"learning_rate": 5e-05,
	"loss": 1.4177,
	"step": 158
	},
	{
	"epoch": 0.05550706929656136,
	"grad_norm": 0.6317929029464722,
	"learning_rate": 5e-05,
	"loss": 1.3509,
	"step": 159
	},
	{
	"epoch": 0.0558561703613196,
	"grad_norm": 0.6017687320709229,
	"learning_rate": 5e-05,
	"loss": 1.3471,
	"step": 160
	},
	{
	"epoch": 0.05620527142607785,
	"grad_norm": 0.6761009693145752,
	"learning_rate": 5e-05,
	"loss": 1.4473,
	"step": 161
	},
	{
	"epoch": 0.0565543724908361,
	"grad_norm": 0.7266319990158081,
	"learning_rate": 5e-05,
	"loss": 1.2896,
	"step": 162
	},
	{
	"epoch": 0.056903473555594344,
	"grad_norm": 0.6436321139335632,
	"learning_rate": 5e-05,
	"loss": 1.2812,
	"step": 163
	},
	{
	"epoch": 0.05725257462035259,
	"grad_norm": 0.9664864540100098,
	"learning_rate": 5e-05,
	"loss": 1.294,
	"step": 164
	},
	{
	"epoch": 0.05760167568511084,
	"grad_norm": 0.6690096855163574,
	"learning_rate": 5e-05,
	"loss": 1.2801,
	"step": 165
	},
	{
	"epoch": 0.057950776749869086,
	"grad_norm": 0.6227753162384033,
	"learning_rate": 5e-05,
	"loss": 1.3384,
	"step": 166
	},
	{
	"epoch": 0.05829987781462734,
	"grad_norm": 0.7900117039680481,
	"learning_rate": 5e-05,
	"loss": 1.3424,
	"step": 167
	},
	{
	"epoch": 0.05864897887938558,
	"grad_norm": 0.6928064823150635,
	"learning_rate": 5e-05,
	"loss": 1.296,
	"step": 168
	},
	{
	"epoch": 0.05899807994414383,
	"grad_norm": 0.8754634261131287,
	"learning_rate": 5e-05,
	"loss": 1.4471,
	"step": 169
	},
	{
	"epoch": 0.05934718100890208,
	"grad_norm": 0.5537067651748657,
	"learning_rate": 5e-05,
	"loss": 1.2825,
	"step": 170
	},
	{
	"epoch": 0.059696282073660324,
	"grad_norm": 0.6705783009529114,
	"learning_rate": 5e-05,
	"loss": 1.3768,
	"step": 171
	},
	{
	"epoch": 0.06004538313841857,
	"grad_norm": 0.5732744932174683,
	"learning_rate": 5e-05,
	"loss": 1.3309,
	"step": 172
	},
	{
	"epoch": 0.06039448420317682,
	"grad_norm": 1.120721459388733,
	"learning_rate": 5e-05,
	"loss": 1.3702,
	"step": 173
	},
	{
	"epoch": 0.060743585267935066,
	"grad_norm": 0.7755718231201172,
	"learning_rate": 5e-05,
	"loss": 1.3425,
	"step": 174
	},
	{
	"epoch": 0.06109268633269332,
	"grad_norm": 0.5984740257263184,
	"learning_rate": 5e-05,
	"loss": 1.4886,
	"step": 175
	},
	{
	"epoch": 0.06144178739745156,
	"grad_norm": 0.7374542951583862,
	"learning_rate": 5e-05,
	"loss": 1.3667,
	"step": 176
	},
	{
	"epoch": 0.06179088846220981,
	"grad_norm": 0.5558515787124634,
	"learning_rate": 5e-05,
	"loss": 1.3737,
	"step": 177
	},
	{
	"epoch": 0.06213998952696806,
	"grad_norm": 0.700268566608429,
	"learning_rate": 5e-05,
	"loss": 1.364,
	"step": 178
	},
	{
	"epoch": 0.062489090591726304,
	"grad_norm": 0.5781232118606567,
	"learning_rate": 5e-05,
	"loss": 1.3443,
	"step": 179
	},
	{
	"epoch": 0.06283819165648455,
	"grad_norm": 0.7157448530197144,
	"learning_rate": 5e-05,
	"loss": 1.3702,
	"step": 180
	},
	{
	"epoch": 0.0631872927212428,
	"grad_norm": 0.5329631567001343,
	"learning_rate": 5e-05,
	"loss": 1.1786,
	"step": 181
	},
	{
	"epoch": 0.06353639378600105,
	"grad_norm": 0.5949011445045471,
	"learning_rate": 5e-05,
	"loss": 1.3809,
	"step": 182
	},
	{
	"epoch": 0.0638854948507593,
	"grad_norm": 0.6756107807159424,
	"learning_rate": 5e-05,
	"loss": 1.2792,
	"step": 183
	},
	{
	"epoch": 0.06423459591551754,
	"grad_norm": 0.7747790813446045,
	"learning_rate": 5e-05,
	"loss": 1.3714,
	"step": 184
	},
	{
	"epoch": 0.06458369698027579,
	"grad_norm": 1.1907461881637573,
	"learning_rate": 5e-05,
	"loss": 1.3055,
	"step": 185
	},
	{
	"epoch": 0.06493279804503403,
	"grad_norm": 0.5747818946838379,
	"learning_rate": 5e-05,
	"loss": 1.2003,
	"step": 186
	},
	{
	"epoch": 0.06528189910979229,
	"grad_norm": 0.614464521408081,
	"learning_rate": 5e-05,
	"loss": 1.3108,
	"step": 187
	},
	{
	"epoch": 0.06563100017455054,
	"grad_norm": 0.6040724515914917,
	"learning_rate": 5e-05,
	"loss": 1.2371,
	"step": 188
	},
	{
	"epoch": 0.06598010123930878,
	"grad_norm": 0.6369174122810364,
	"learning_rate": 5e-05,
	"loss": 1.1662,
	"step": 189
	},
	{
	"epoch": 0.06632920230406703,
	"grad_norm": 0.6132228374481201,
	"learning_rate": 5e-05,
	"loss": 1.3257,
	"step": 190
	},
	{
	"epoch": 0.06667830336882527,
	"grad_norm": 0.6686124801635742,
	"learning_rate": 5e-05,
	"loss": 1.3757,
	"step": 191
	},
	{
	"epoch": 0.06702740443358353,
	"grad_norm": 0.6709855794906616,
	"learning_rate": 5e-05,
	"loss": 1.3341,
	"step": 192
	},
	{
	"epoch": 0.06737650549834177,
	"grad_norm": 0.5295905470848083,
	"learning_rate": 5e-05,
	"loss": 1.2587,
	"step": 193
	},
	{
	"epoch": 0.06772560656310002,
	"grad_norm": 0.6111523509025574,
	"learning_rate": 5e-05,
	"loss": 1.3365,
	"step": 194
	},
	{
	"epoch": 0.06807470762785826,
	"grad_norm": 0.5655878782272339,
	"learning_rate": 5e-05,
	"loss": 1.3265,
	"step": 195
	},
	{
	"epoch": 0.06842380869261651,
	"grad_norm": 0.6125257015228271,
	"learning_rate": 5e-05,
	"loss": 1.3475,
	"step": 196
	},
	{
	"epoch": 0.06877290975737475,
	"grad_norm": 0.6268573999404907,
	"learning_rate": 5e-05,
	"loss": 1.3002,
	"step": 197
	},
	{
	"epoch": 0.06912201082213301,
	"grad_norm": 0.7267619967460632,
	"learning_rate": 5e-05,
	"loss": 1.4104,
	"step": 198
	},
	{
	"epoch": 0.06947111188689126,
	"grad_norm": 0.5741710066795349,
	"learning_rate": 5e-05,
	"loss": 1.318,
	"step": 199
	},
	{
	"epoch": 0.0698202129516495,
	"grad_norm": 0.6447280049324036,
	"learning_rate": 5e-05,
	"loss": 1.3477,
	"step": 200
	},
	{
	"epoch": 0.0698202129516495,
	"eval_loss": 1.3300124406814575,
	"eval_runtime": 3301.7334,
	"eval_samples_per_second": 6.941,
	"eval_steps_per_second": 0.868,
	"step": 200
	},
	{
	"epoch": 0.07016931401640775,
	"grad_norm": 1.4164685010910034,
	"learning_rate": 5e-05,
	"loss": 1.4048,
	"step": 201
	},
	{
	"epoch": 0.07051841508116599,
	"grad_norm": 0.5867809057235718,
	"learning_rate": 5e-05,
	"loss": 1.4018,
	"step": 202
	},
	{
	"epoch": 0.07086751614592425,
	"grad_norm": 0.6882596611976624,
	"learning_rate": 5e-05,
	"loss": 1.2737,
	"step": 203
	},
	{
	"epoch": 0.0712166172106825,
	"grad_norm": 0.6038634181022644,
	"learning_rate": 5e-05,
	"loss": 1.2399,
	"step": 204
	},
	{
	"epoch": 0.07156571827544074,
	"grad_norm": 0.6428863406181335,
	"learning_rate": 5e-05,
	"loss": 1.3729,
	"step": 205
	},
	{
	"epoch": 0.07191481934019898,
	"grad_norm": 0.7008076906204224,
	"learning_rate": 5e-05,
	"loss": 1.3353,
	"step": 206
	},
	{
	"epoch": 0.07226392040495723,
	"grad_norm": 0.6662419438362122,
	"learning_rate": 5e-05,
	"loss": 1.3442,
	"step": 207
	},
	{
	"epoch": 0.07261302146971549,
	"grad_norm": 0.7249788045883179,
	"learning_rate": 5e-05,
	"loss": 1.2526,
	"step": 208
	},
	{
	"epoch": 0.07296212253447373,
	"grad_norm": 0.6323925852775574,
	"learning_rate": 5e-05,
	"loss": 1.2929,
	"step": 209
	},
	{
	"epoch": 0.07331122359923198,
	"grad_norm": 0.8273724317550659,
	"learning_rate": 5e-05,
	"loss": 1.5291,
	"step": 210
	},
	{
	"epoch": 0.07366032466399022,
	"grad_norm": 0.8445104956626892,
	"learning_rate": 5e-05,
	"loss": 1.2417,
	"step": 211
	},
	{
	"epoch": 0.07400942572874847,
	"grad_norm": 0.6157236695289612,
	"learning_rate": 5e-05,
	"loss": 1.3739,
	"step": 212
	},
	{
	"epoch": 0.07435852679350673,
	"grad_norm": 0.6917769312858582,
	"learning_rate": 5e-05,
	"loss": 1.3078,
	"step": 213
	},
	{
	"epoch": 0.07470762785826497,
	"grad_norm": 0.7838917970657349,
	"learning_rate": 5e-05,
	"loss": 1.3086,
	"step": 214
	},
	{
	"epoch": 0.07505672892302322,
	"grad_norm": 0.6962039470672607,
	"learning_rate": 5e-05,
	"loss": 1.3907,
	"step": 215
	},
	{
	"epoch": 0.07540582998778146,
	"grad_norm": 0.6962039470672607,
	"learning_rate": 5e-05,
	"loss": 1.3615,
	"step": 216
	},
	{
	"epoch": 0.0757549310525397,
	"grad_norm": 0.6687365770339966,
	"learning_rate": 5e-05,
	"loss": 1.3408,
	"step": 217
	},
	{
	"epoch": 0.07610403211729795,
	"grad_norm": 0.5566404461860657,
	"learning_rate": 5e-05,
	"loss": 1.2872,
	"step": 218
	},
	{
	"epoch": 0.07645313318205621,
	"grad_norm": 0.6419705748558044,
	"learning_rate": 5e-05,
	"loss": 1.2883,
	"step": 219
	},
	{
	"epoch": 0.07680223424681445,
	"grad_norm": 0.7758398652076721,
	"learning_rate": 5e-05,
	"loss": 1.3832,
	"step": 220
	},
	{
	"epoch": 0.0771513353115727,
	"grad_norm": 0.9763804078102112,
	"learning_rate": 5e-05,
	"loss": 1.3414,
	"step": 221
	},
	{
	"epoch": 0.07750043637633094,
	"grad_norm": 0.8815904259681702,
	"learning_rate": 5e-05,
	"loss": 1.3297,
	"step": 222
	},
	{
	"epoch": 0.07784953744108919,
	"grad_norm": 0.590263307094574,
	"learning_rate": 5e-05,
	"loss": 1.3401,
	"step": 223
	},
	{
	"epoch": 0.07819863850584745,
	"grad_norm": 0.677057147026062,
	"learning_rate": 5e-05,
	"loss": 1.2449,
	"step": 224
	},
	{
	"epoch": 0.07854773957060569,
	"grad_norm": 1.5185271501541138,
	"learning_rate": 5e-05,
	"loss": 1.3127,
	"step": 225
	},
	{
	"epoch": 0.07889684063536394,
	"grad_norm": 0.5751495957374573,
	"learning_rate": 5e-05,
	"loss": 1.1587,
	"step": 226
	},
	{
	"epoch": 0.07924594170012218,
	"grad_norm": 0.8122138977050781,
	"learning_rate": 5e-05,
	"loss": 1.2316,
	"step": 227
	},
	{
	"epoch": 0.07959504276488043,
	"grad_norm": 0.6675130724906921,
	"learning_rate": 5e-05,
	"loss": 1.3539,
	"step": 228
	},
	{
	"epoch": 0.07994414382963869,
	"grad_norm": 0.8163532614707947,
	"learning_rate": 5e-05,
	"loss": 1.328,
	"step": 229
	},
	{
	"epoch": 0.08029324489439693,
	"grad_norm": 0.8377723693847656,
	"learning_rate": 5e-05,
	"loss": 1.353,
	"step": 230
	},
	{
	"epoch": 0.08064234595915518,
	"grad_norm": 0.7325611710548401,
	"learning_rate": 5e-05,
	"loss": 1.3396,
	"step": 231
	},
	{
	"epoch": 0.08099144702391342,
	"grad_norm": 0.8941824436187744,
	"learning_rate": 5e-05,
	"loss": 1.2906,
	"step": 232
	},
	{
	"epoch": 0.08134054808867167,
	"grad_norm": 0.6284440159797668,
	"learning_rate": 5e-05,
	"loss": 1.4264,
	"step": 233
	},
	{
	"epoch": 0.08168964915342992,
	"grad_norm": 0.689984917640686,
	"learning_rate": 5e-05,
	"loss": 1.3696,
	"step": 234
	},
	{
	"epoch": 0.08203875021818817,
	"grad_norm": 0.5813177227973938,
	"learning_rate": 5e-05,
	"loss": 1.2931,
	"step": 235
	},
	{
	"epoch": 0.08238785128294641,
	"grad_norm": 0.5287997126579285,
	"learning_rate": 5e-05,
	"loss": 1.3264,
	"step": 236
	},
	{
	"epoch": 0.08273695234770466,
	"grad_norm": 0.7944268584251404,
	"learning_rate": 5e-05,
	"loss": 1.2708,
	"step": 237
	},
	{
	"epoch": 0.0830860534124629,
	"grad_norm": 0.534864068031311,
	"learning_rate": 5e-05,
	"loss": 1.2535,
	"step": 238
	},
	{
	"epoch": 0.08343515447722115,
	"grad_norm": 0.6260988712310791,
	"learning_rate": 5e-05,
	"loss": 1.2757,
	"step": 239
	},
	{
	"epoch": 0.08378425554197941,
	"grad_norm": 0.579078197479248,
	"learning_rate": 5e-05,
	"loss": 1.2906,
	"step": 240
	},
	{
	"epoch": 0.08413335660673765,
	"grad_norm": 0.5578561425209045,
	"learning_rate": 5e-05,
	"loss": 1.289,
	"step": 241
	},
	{
	"epoch": 0.0844824576714959,
	"grad_norm": 0.626961350440979,
	"learning_rate": 5e-05,
	"loss": 1.2807,
	"step": 242
	},
	{
	"epoch": 0.08483155873625414,
	"grad_norm": 0.782669186592102,
	"learning_rate": 5e-05,
	"loss": 1.3933,
	"step": 243
	},
	{
	"epoch": 0.08518065980101239,
	"grad_norm": 0.6670363545417786,
	"learning_rate": 5e-05,
	"loss": 1.2732,
	"step": 244
	},
	{
	"epoch": 0.08552976086577065,
	"grad_norm": 0.7201350331306458,
	"learning_rate": 5e-05,
	"loss": 1.2962,
	"step": 245
	},
	{
	"epoch": 0.08587886193052889,
	"grad_norm": 0.6021212339401245,
	"learning_rate": 5e-05,
	"loss": 1.35,
	"step": 246
	},
	{
	"epoch": 0.08622796299528714,
	"grad_norm": 0.8081540465354919,
	"learning_rate": 5e-05,
	"loss": 1.3568,
	"step": 247
	},
	{
	"epoch": 0.08657706406004538,
	"grad_norm": 0.5358250737190247,
	"learning_rate": 5e-05,
	"loss": 1.4603,
	"step": 248
	},
	{
	"epoch": 0.08692616512480363,
	"grad_norm": 0.6927733421325684,
	"learning_rate": 5e-05,
	"loss": 1.2506,
	"step": 249
	},
	{
	"epoch": 0.08727526618956188,
	"grad_norm": 0.6187159419059753,
	"learning_rate": 5e-05,
	"loss": 1.3497,
	"step": 250
	},
	{
	"epoch": 0.08762436725432013,
	"grad_norm": 0.6304159760475159,
	"learning_rate": 5e-05,
	"loss": 1.3087,
	"step": 251
	},
	{
	"epoch": 0.08797346831907837,
	"grad_norm": 0.6446660161018372,
	"learning_rate": 5e-05,
	"loss": 1.3424,
	"step": 252
	},
	{
	"epoch": 0.08832256938383662,
	"grad_norm": 0.6535473465919495,
	"learning_rate": 5e-05,
	"loss": 1.3471,
	"step": 253
	},
	{
	"epoch": 0.08867167044859486,
	"grad_norm": 0.601290225982666,
	"learning_rate": 5e-05,
	"loss": 1.3557,
	"step": 254
	},
	{
	"epoch": 0.08902077151335312,
	"grad_norm": 0.641854465007782,
	"learning_rate": 5e-05,
	"loss": 1.3138,
	"step": 255
	},
	{
	"epoch": 0.08936987257811137,
	"grad_norm": 0.5452507138252258,
	"learning_rate": 5e-05,
	"loss": 1.2898,
	"step": 256
	},
	{
	"epoch": 0.08971897364286961,
	"grad_norm": 0.5870373249053955,
	"learning_rate": 5e-05,
	"loss": 1.2953,
	"step": 257
	},
	{
	"epoch": 0.09006807470762786,
	"grad_norm": 0.5798627734184265,
	"learning_rate": 5e-05,
	"loss": 1.2973,
	"step": 258
	},
	{
	"epoch": 0.0904171757723861,
	"grad_norm": 0.5798627734184265,
	"learning_rate": 5e-05,
	"loss": 1.3628,
	"step": 259
	},
	{
	"epoch": 0.09076627683714435,
	"grad_norm": 0.7382280230522156,
	"learning_rate": 5e-05,
	"loss": 1.3111,
	"step": 260
	},
	{
	"epoch": 0.0911153779019026,
	"grad_norm": 0.6882988810539246,
	"learning_rate": 5e-05,
	"loss": 1.329,
	"step": 261
	},
	{
	"epoch": 0.09146447896666085,
	"grad_norm": 0.6590788960456848,
	"learning_rate": 5e-05,
	"loss": 1.3089,
	"step": 262
	},
	{
	"epoch": 0.0918135800314191,
	"grad_norm": 0.682006299495697,
	"learning_rate": 5e-05,
	"loss": 1.344,
	"step": 263
	},
	{
	"epoch": 0.09216268109617734,
	"grad_norm": 0.6040222644805908,
	"learning_rate": 5e-05,
	"loss": 1.3919,
	"step": 264
	},
	{
	"epoch": 0.09251178216093559,
	"grad_norm": 0.5964936017990112,
	"learning_rate": 5e-05,
	"loss": 1.3397,
	"step": 265
	},
	{
	"epoch": 0.09286088322569384,
	"grad_norm": 0.5645217299461365,
	"learning_rate": 5e-05,
	"loss": 1.3488,
	"step": 266
	},
	{
	"epoch": 0.09320998429045209,
	"grad_norm": 0.7771989703178406,
	"learning_rate": 5e-05,
	"loss": 1.3485,
	"step": 267
	},
	{
	"epoch": 0.09355908535521033,
	"grad_norm": 0.6003885865211487,
	"learning_rate": 5e-05,
	"loss": 1.3109,
	"step": 268
	},
	{
	"epoch": 0.09390818641996858,
	"grad_norm": 0.5627903938293457,
	"learning_rate": 5e-05,
	"loss": 1.2906,
	"step": 269
	},
	{
	"epoch": 0.09425728748472682,
	"grad_norm": 0.6381875276565552,
	"learning_rate": 5e-05,
	"loss": 1.3063,
	"step": 270
	},
	{
	"epoch": 0.09460638854948508,
	"grad_norm": 1.2558772563934326,
	"learning_rate": 5e-05,
	"loss": 1.2985,
	"step": 271
	},
	{
	"epoch": 0.09495548961424333,
	"grad_norm": 0.6977007389068604,
	"learning_rate": 5e-05,
	"loss": 1.4955,
	"step": 272
	},
	{
	"epoch": 0.09530459067900157,
	"grad_norm": 0.7846536040306091,
	"learning_rate": 5e-05,
	"loss": 1.4439,
	"step": 273
	},
	{
	"epoch": 0.09565369174375982,
	"grad_norm": 0.7036994695663452,
	"learning_rate": 5e-05,
	"loss": 1.1942,
	"step": 274
	},
	{
	"epoch": 0.09600279280851806,
	"grad_norm": 0.6119917631149292,
	"learning_rate": 5e-05,
	"loss": 1.3607,
	"step": 275
	},
	{
	"epoch": 0.09635189387327632,
	"grad_norm": 0.6243535280227661,
	"learning_rate": 5e-05,
	"loss": 1.3029,
	"step": 276
	},
	{
	"epoch": 0.09670099493803457,
	"grad_norm": 0.5424296855926514,
	"learning_rate": 5e-05,
	"loss": 1.2995,
	"step": 277
	},
	{
	"epoch": 0.09705009600279281,
	"grad_norm": 0.7677564024925232,
	"learning_rate": 5e-05,
	"loss": 1.2686,
	"step": 278
	},
	{
	"epoch": 0.09739919706755105,
	"grad_norm": 0.625275194644928,
	"learning_rate": 5e-05,
	"loss": 1.2897,
	"step": 279
	},
	{
	"epoch": 0.0977482981323093,
	"grad_norm": 0.5734910368919373,
	"learning_rate": 5e-05,
	"loss": 1.3298,
	"step": 280
	},
	{
	"epoch": 0.09809739919706754,
	"grad_norm": 0.660658061504364,
	"learning_rate": 5e-05,
	"loss": 1.2643,
	"step": 281
	},
	{
	"epoch": 0.0984465002618258,
	"grad_norm": 0.679891049861908,
	"learning_rate": 5e-05,
	"loss": 1.3189,
	"step": 282
	},
	{
	"epoch": 0.09879560132658405,
	"grad_norm": 0.6248694658279419,
	"learning_rate": 5e-05,
	"loss": 1.1688,
	"step": 283
	},
	{
	"epoch": 0.0991447023913423,
	"grad_norm": 0.6428897380828857,
	"learning_rate": 5e-05,
	"loss": 1.3274,
	"step": 284
	},
	{
	"epoch": 0.09949380345610054,
	"grad_norm": 0.586065411567688,
	"learning_rate": 5e-05,
	"loss": 1.3852,
	"step": 285
	},
	{
	"epoch": 0.09984290452085878,
	"grad_norm": 0.5755594372749329,
	"learning_rate": 5e-05,
	"loss": 1.3665,
	"step": 286
	},
	{
	"epoch": 0.10019200558561704,
	"grad_norm": 0.7748963236808777,
	"learning_rate": 5e-05,
	"loss": 1.4551,
	"step": 287
	},
	{
	"epoch": 0.10054110665037529,
	"grad_norm": 0.6308531165122986,
	"learning_rate": 5e-05,
	"loss": 1.2793,
	"step": 288
	},
	{
	"epoch": 0.10089020771513353,
	"grad_norm": 0.6195006966590881,
	"learning_rate": 5e-05,
	"loss": 1.3649,
	"step": 289
	},
	{
	"epoch": 0.10123930877989178,
	"grad_norm": 0.6098636984825134,
	"learning_rate": 5e-05,
	"loss": 1.2956,
	"step": 290
	},
	{
	"epoch": 0.10158840984465002,
	"grad_norm": 0.8072320818901062,
	"learning_rate": 5e-05,
	"loss": 1.3469,
	"step": 291
	},
	{
	"epoch": 0.10193751090940828,
	"grad_norm": 0.6090126633644104,
	"learning_rate": 5e-05,
	"loss": 1.2958,
	"step": 292
	},
	{
	"epoch": 0.10228661197416652,
	"grad_norm": 0.5718780159950256,
	"learning_rate": 5e-05,
	"loss": 1.363,
	"step": 293
	},
	{
	"epoch": 0.10263571303892477,
	"grad_norm": 0.7197532653808594,
	"learning_rate": 5e-05,
	"loss": 1.3868,
	"step": 294
	},
	{
	"epoch": 0.10298481410368301,
	"grad_norm": 0.5578592419624329,
	"learning_rate": 5e-05,
	"loss": 1.2627,
	"step": 295
	},
	{
	"epoch": 0.10333391516844126,
	"grad_norm": 0.730226457118988,
	"learning_rate": 5e-05,
	"loss": 1.3182,
	"step": 296
	},
	{
	"epoch": 0.10368301623319952,
	"grad_norm": 0.6234796047210693,
	"learning_rate": 5e-05,
	"loss": 1.1777,
	"step": 297
	},
	{
	"epoch": 0.10403211729795776,
	"grad_norm": 0.5563578009605408,
	"learning_rate": 5e-05,
	"loss": 1.3275,
	"step": 298
	},
	{
	"epoch": 0.10438121836271601,
	"grad_norm": 0.6864249110221863,
	"learning_rate": 5e-05,
	"loss": 1.2813,
	"step": 299
	},
	{
	"epoch": 0.10473031942747425,
	"grad_norm": 0.8850319385528564,
	"learning_rate": 5e-05,
	"loss": 1.3057,
	"step": 300
	},
	{
	"epoch": 0.10473031942747425,
	"eval_loss": 1.3255380392074585,
	"eval_runtime": 3311.4237,
	"eval_samples_per_second": 6.92,
	"eval_steps_per_second": 0.865,
	"step": 300
	},
	{
	"epoch": 0.1050794204922325,
	"grad_norm": 0.9439303278923035,
	"learning_rate": 5e-05,
	"loss": 1.281,
	"step": 301
	},
	{
	"epoch": 0.10542852155699074,
	"grad_norm": 0.6651242971420288,
	"learning_rate": 5e-05,
	"loss": 1.3492,
	"step": 302
	},
	{
	"epoch": 0.105777622621749,
	"grad_norm": 0.9047183394432068,
	"learning_rate": 5e-05,
	"loss": 1.4246,
	"step": 303
	},
	{
	"epoch": 0.10612672368650725,
	"grad_norm": 0.6983138918876648,
	"learning_rate": 5e-05,
	"loss": 1.324,
	"step": 304
	},
	{
	"epoch": 0.10647582475126549,
	"grad_norm": 0.6347063779830933,
	"learning_rate": 5e-05,
	"loss": 1.3389,
	"step": 305
	},
	{
	"epoch": 0.10682492581602374,
	"grad_norm": 0.6051842570304871,
	"learning_rate": 5e-05,
	"loss": 1.3278,
	"step": 306
	},
	{
	"epoch": 0.10717402688078198,
	"grad_norm": 0.9355935454368591,
	"learning_rate": 5e-05,
	"loss": 1.2663,
	"step": 307
	},
	{
	"epoch": 0.10752312794554024,
	"grad_norm": 1.0706268548965454,
	"learning_rate": 5e-05,
	"loss": 1.3142,
	"step": 308
	},
	{
	"epoch": 0.10787222901029848,
	"grad_norm": 0.8131638765335083,
	"learning_rate": 5e-05,
	"loss": 1.3445,
	"step": 309
	},
	{
	"epoch": 0.10822133007505673,
	"grad_norm": 0.5791985392570496,
	"learning_rate": 5e-05,
	"loss": 1.2746,
	"step": 310
	},
	{
	"epoch": 0.10857043113981497,
	"grad_norm": 0.5536484718322754,
	"learning_rate": 5e-05,
	"loss": 1.2613,
	"step": 311
	},
	{
	"epoch": 0.10891953220457322,
	"grad_norm": 0.7847089767456055,
	"learning_rate": 5e-05,
	"loss": 1.4607,
	"step": 312
	},
	{
	"epoch": 0.10926863326933148,
	"grad_norm": 0.7828165888786316,
	"learning_rate": 5e-05,
	"loss": 1.4399,
	"step": 313
	},
	{
	"epoch": 0.10961773433408972,
	"grad_norm": 0.5692522525787354,
	"learning_rate": 5e-05,
	"loss": 1.3044,
	"step": 314
	},
	{
	"epoch": 0.10996683539884797,
	"grad_norm": 0.5592648386955261,
	"learning_rate": 5e-05,
	"loss": 1.3211,
	"step": 315
	},
	{
	"epoch": 0.11031593646360621,
	"grad_norm": 0.7055444717407227,
	"learning_rate": 5e-05,
	"loss": 1.2944,
	"step": 316
	},
	{
	"epoch": 0.11066503752836446,
	"grad_norm": 0.5370152592658997,
	"learning_rate": 5e-05,
	"loss": 1.2776,
	"step": 317
	},
	{
	"epoch": 0.11101413859312272,
	"grad_norm": 0.6320214867591858,
	"learning_rate": 5e-05,
	"loss": 1.347,
	"step": 318
	},
	{
	"epoch": 0.11136323965788096,
	"grad_norm": 0.6425771713256836,
	"learning_rate": 5e-05,
	"loss": 1.5038,
	"step": 319
	},
	{
	"epoch": 0.1117123407226392,
	"grad_norm": 0.585542619228363,
	"learning_rate": 5e-05,
	"loss": 1.3573,
	"step": 320
	},
	{
	"epoch": 0.11206144178739745,
	"grad_norm": 0.5627699494361877,
	"learning_rate": 5e-05,
	"loss": 1.2693,
	"step": 321
	},
	{
	"epoch": 0.1124105428521557,
	"grad_norm": 0.6050506830215454,
	"learning_rate": 5e-05,
	"loss": 1.2787,
	"step": 322
	},
	{
	"epoch": 0.11275964391691394,
	"grad_norm": 0.6247337460517883,
	"learning_rate": 5e-05,
	"loss": 1.4146,
	"step": 323
	},
	{
	"epoch": 0.1131087449816722,
	"grad_norm": 0.7732966542243958,
	"learning_rate": 5e-05,
	"loss": 1.2626,
	"step": 324
	},
	{
	"epoch": 0.11345784604643044,
	"grad_norm": 0.5666255354881287,
	"learning_rate": 5e-05,
	"loss": 1.4219,
	"step": 325
	},
	{
	"epoch": 0.11380694711118869,
	"grad_norm": 0.5973132848739624,
	"learning_rate": 5e-05,
	"loss": 1.3522,
	"step": 326
	},
	{
	"epoch": 0.11415604817594693,
	"grad_norm": 0.8540626764297485,
	"learning_rate": 5e-05,
	"loss": 1.304,
	"step": 327
	},
	{
	"epoch": 0.11450514924070518,
	"grad_norm": 0.574573278427124,
	"learning_rate": 5e-05,
	"loss": 1.3487,
	"step": 328
	},
	{
	"epoch": 0.11485425030546344,
	"grad_norm": 0.5949917435646057,
	"learning_rate": 5e-05,
	"loss": 1.254,
	"step": 329
	},
	{
	"epoch": 0.11520335137022168,
	"grad_norm": 0.6005589365959167,
	"learning_rate": 5e-05,
	"loss": 1.3073,
	"step": 330
	},
	{
	"epoch": 0.11555245243497993,
	"grad_norm": 0.5026714205741882,
	"learning_rate": 5e-05,
	"loss": 1.2418,
	"step": 331
	},
	{
	"epoch": 0.11590155349973817,
	"grad_norm": 0.7160278558731079,
	"learning_rate": 5e-05,
	"loss": 1.3437,
	"step": 332
	},
	{
	"epoch": 0.11625065456449642,
	"grad_norm": 0.6049554347991943,
	"learning_rate": 5e-05,
	"loss": 1.4858,
	"step": 333
	},
	{
	"epoch": 0.11659975562925468,
	"grad_norm": 0.7706385254859924,
	"learning_rate": 5e-05,
	"loss": 1.3971,
	"step": 334
	},
	{
	"epoch": 0.11694885669401292,
	"grad_norm": 0.6254088282585144,
	"learning_rate": 5e-05,
	"loss": 1.3359,
	"step": 335
	},
	{
	"epoch": 0.11729795775877117,
	"grad_norm": 0.5904930830001831,
	"learning_rate": 5e-05,
	"loss": 1.3262,
	"step": 336
	},
	{
	"epoch": 0.11764705882352941,
	"grad_norm": 1.9982556104660034,
	"learning_rate": 5e-05,
	"loss": 1.3656,
	"step": 337
	},
	{
	"epoch": 0.11799615988828766,
	"grad_norm": 0.5776758790016174,
	"learning_rate": 5e-05,
	"loss": 1.2654,
	"step": 338
	},
	{
	"epoch": 0.1183452609530459,
	"grad_norm": 0.6094497442245483,
	"learning_rate": 5e-05,
	"loss": 1.3505,
	"step": 339
	},
	{
	"epoch": 0.11869436201780416,
	"grad_norm": 0.9940481185913086,
	"learning_rate": 5e-05,
	"loss": 1.2853,
	"step": 340
	},
	{
	"epoch": 0.1190434630825624,
	"grad_norm": 1.1043668985366821,
	"learning_rate": 5e-05,
	"loss": 1.2813,
	"step": 341
	},
	{
	"epoch": 0.11939256414732065,
	"grad_norm": 0.5494128465652466,
	"learning_rate": 5e-05,
	"loss": 1.202,
	"step": 342
	},
	{
	"epoch": 0.1197416652120789,
	"grad_norm": 0.6436132192611694,
	"learning_rate": 5e-05,
	"loss": 1.2898,
	"step": 343
	},
	{
	"epoch": 0.12009076627683714,
	"grad_norm": 0.6878450512886047,
	"learning_rate": 5e-05,
	"loss": 1.3392,
	"step": 344
	},
	{
	"epoch": 0.1204398673415954,
	"grad_norm": 0.5806905627250671,
	"learning_rate": 5e-05,
	"loss": 1.2221,
	"step": 345
	},
	{
	"epoch": 0.12078896840635364,
	"grad_norm": 0.5916112065315247,
	"learning_rate": 5e-05,
	"loss": 1.2761,
	"step": 346
	},
	{
	"epoch": 0.12113806947111189,
	"grad_norm": 0.5216647386550903,
	"learning_rate": 5e-05,
	"loss": 1.223,
	"step": 347
	},
	{
	"epoch": 0.12148717053587013,
	"grad_norm": 0.707747220993042,
	"learning_rate": 5e-05,
	"loss": 1.2933,
	"step": 348
	},
	{
	"epoch": 0.12183627160062838,
	"grad_norm": 0.6644443273544312,
	"learning_rate": 5e-05,
	"loss": 1.3367,
	"step": 349
	},
	{
	"epoch": 0.12218537266538664,
	"grad_norm": 0.7112720012664795,
	"learning_rate": 5e-05,
	"loss": 1.2368,
	"step": 350
	},
	{
	"epoch": 0.12253447373014488,
	"grad_norm": 0.6551552414894104,
	"learning_rate": 5e-05,
	"loss": 1.3348,
	"step": 351
	},
	{
	"epoch": 0.12288357479490312,
	"grad_norm": 0.5377748012542725,
	"learning_rate": 5e-05,
	"loss": 1.2859,
	"step": 352
	},
	{
	"epoch": 0.12323267585966137,
	"grad_norm": 0.580769956111908,
	"learning_rate": 5e-05,
	"loss": 1.2442,
	"step": 353
	},
	{
	"epoch": 0.12358177692441961,
	"grad_norm": 0.6772916316986084,
	"learning_rate": 5e-05,
	"loss": 1.2994,
	"step": 354
	},
	{
	"epoch": 0.12393087798917787,
	"grad_norm": 0.6245989799499512,
	"learning_rate": 5e-05,
	"loss": 1.2093,
	"step": 355
	},
	{
	"epoch": 0.12427997905393612,
	"grad_norm": 0.6136452555656433,
	"learning_rate": 5e-05,
	"loss": 1.2258,
	"step": 356
	},
	{
	"epoch": 0.12462908011869436,
	"grad_norm": 0.5786277055740356,
	"learning_rate": 5e-05,
	"loss": 1.2856,
	"step": 357
	},
	{
	"epoch": 0.12497818118345261,
	"grad_norm": 0.5986611247062683,
	"learning_rate": 5e-05,
	"loss": 1.4524,
	"step": 358
	},
	{
	"epoch": 0.12532728224821085,
	"grad_norm": 0.6240454316139221,
	"learning_rate": 5e-05,
	"loss": 1.3325,
	"step": 359
	},
	{
	"epoch": 0.1256763833129691,
	"grad_norm": 0.6426084041595459,
	"learning_rate": 5e-05,
	"loss": 1.219,
	"step": 360
	},
	{
	"epoch": 0.12602548437772734,
	"grad_norm": 0.6227401494979858,
	"learning_rate": 5e-05,
	"loss": 1.3342,
	"step": 361
	},
	{
	"epoch": 0.1263745854424856,
	"grad_norm": 0.7462456226348877,
	"learning_rate": 5e-05,
	"loss": 1.3747,
	"step": 362
	},
	{
	"epoch": 0.12672368650724386,
	"grad_norm": 0.7022641897201538,
	"learning_rate": 5e-05,
	"loss": 1.2957,
	"step": 363
	},
	{
	"epoch": 0.1270727875720021,
	"grad_norm": 0.657645046710968,
	"learning_rate": 5e-05,
	"loss": 1.3125,
	"step": 364
	},
	{
	"epoch": 0.12742188863676035,
	"grad_norm": 0.662497878074646,
	"learning_rate": 5e-05,
	"loss": 1.321,
	"step": 365
	},
	{
	"epoch": 0.1277709897015186,
	"grad_norm": 0.6295817494392395,
	"learning_rate": 5e-05,
	"loss": 1.3814,
	"step": 366
	},
	{
	"epoch": 0.12812009076627684,
	"grad_norm": 0.7357390522956848,
	"learning_rate": 5e-05,
	"loss": 1.374,
	"step": 367
	},
	{
	"epoch": 0.12846919183103508,
	"grad_norm": 0.6728739142417908,
	"learning_rate": 5e-05,
	"loss": 1.1957,
	"step": 368
	},
	{
	"epoch": 0.12881829289579333,
	"grad_norm": 0.6290231943130493,
	"learning_rate": 5e-05,
	"loss": 1.2948,
	"step": 369
	},
	{
	"epoch": 0.12916739396055157,
	"grad_norm": 1.0889554023742676,
	"learning_rate": 5e-05,
	"loss": 1.3465,
	"step": 370
	},
	{
	"epoch": 0.12951649502530982,
	"grad_norm": 0.6978388428688049,
	"learning_rate": 5e-05,
	"loss": 1.2898,
	"step": 371
	},
	{
	"epoch": 0.12986559609006806,
	"grad_norm": 1.0806949138641357,
	"learning_rate": 5e-05,
	"loss": 1.2656,
	"step": 372
	},
	{
	"epoch": 0.1302146971548263,
	"grad_norm": 0.5989696979522705,
	"learning_rate": 5e-05,
	"loss": 1.354,
	"step": 373
	},
	{
	"epoch": 0.13056379821958458,
	"grad_norm": 0.5808868408203125,
	"learning_rate": 5e-05,
	"loss": 1.2911,
	"step": 374
	},
	{
	"epoch": 0.13091289928434283,
	"grad_norm": 0.6175510883331299,
	"learning_rate": 5e-05,
	"loss": 1.3392,
	"step": 375
	},
	{
	"epoch": 0.13126200034910107,
	"grad_norm": 0.7896063923835754,
	"learning_rate": 5e-05,
	"loss": 1.3598,
	"step": 376
	},
	{
	"epoch": 0.13161110141385932,
	"grad_norm": 0.6890353560447693,
	"learning_rate": 5e-05,
	"loss": 1.2259,
	"step": 377
	},
	{
	"epoch": 0.13196020247861756,
	"grad_norm": 0.7264868021011353,
	"learning_rate": 5e-05,
	"loss": 1.3747,
	"step": 378
	},
	{
	"epoch": 0.1323093035433758,
	"grad_norm": 0.5779114365577698,
	"learning_rate": 5e-05,
	"loss": 1.2566,
	"step": 379
	},
	{
	"epoch": 0.13265840460813405,
	"grad_norm": 0.6164990067481995,
	"learning_rate": 5e-05,
	"loss": 1.3123,
	"step": 380
	},
	{
	"epoch": 0.1330075056728923,
	"grad_norm": 0.5990901589393616,
	"learning_rate": 5e-05,
	"loss": 1.399,
	"step": 381
	},
	{
	"epoch": 0.13335660673765054,
	"grad_norm": 0.5799390077590942,
	"learning_rate": 5e-05,
	"loss": 1.2697,
	"step": 382
	},
	{
	"epoch": 0.13370570780240879,
	"grad_norm": 0.6446252465248108,
	"learning_rate": 5e-05,
	"loss": 1.3321,
	"step": 383
	},
	{
	"epoch": 0.13405480886716706,
	"grad_norm": 0.5626406669616699,
	"learning_rate": 5e-05,
	"loss": 1.2867,
	"step": 384
	},
	{
	"epoch": 0.1344039099319253,
	"grad_norm": 0.5967420935630798,
	"learning_rate": 5e-05,
	"loss": 1.3514,
	"step": 385
	},
	{
	"epoch": 0.13475301099668355,
	"grad_norm": 0.622344434261322,
	"learning_rate": 5e-05,
	"loss": 1.2814,
	"step": 386
	},
	{
	"epoch": 0.1351021120614418,
	"grad_norm": 0.5952975749969482,
	"learning_rate": 5e-05,
	"loss": 1.3616,
	"step": 387
	},
	{
	"epoch": 0.13545121312620004,
	"grad_norm": 1.6270025968551636,
	"learning_rate": 5e-05,
	"loss": 1.3057,
	"step": 388
	},
	{
	"epoch": 0.13580031419095828,
	"grad_norm": 0.6453176736831665,
	"learning_rate": 5e-05,
	"loss": 1.2203,
	"step": 389
	},
	{
	"epoch": 0.13614941525571653,
	"grad_norm": 0.6074663400650024,
	"learning_rate": 5e-05,
	"loss": 1.2705,
	"step": 390
	},
	{
	"epoch": 0.13649851632047477,
	"grad_norm": 0.5617640018463135,
	"learning_rate": 5e-05,
	"loss": 1.2692,
	"step": 391
	},
	{
	"epoch": 0.13684761738523302,
	"grad_norm": 0.5138052701950073,
	"learning_rate": 5e-05,
	"loss": 1.2914,
	"step": 392
	},
	{
	"epoch": 0.13719671844999126,
	"grad_norm": 0.6522411108016968,
	"learning_rate": 5e-05,
	"loss": 1.3055,
	"step": 393
	},
	{
	"epoch": 0.1375458195147495,
	"grad_norm": 0.6821246147155762,
	"learning_rate": 5e-05,
	"loss": 1.2674,
	"step": 394
	},
	{
	"epoch": 0.13789492057950778,
	"grad_norm": 0.6284828186035156,
	"learning_rate": 5e-05,
	"loss": 1.2842,
	"step": 395
	},
	{
	"epoch": 0.13824402164426602,
	"grad_norm": 0.6461937427520752,
	"learning_rate": 5e-05,
	"loss": 1.305,
	"step": 396
	},
	{
	"epoch": 0.13859312270902427,
	"grad_norm": 0.8084800243377686,
	"learning_rate": 5e-05,
	"loss": 1.3539,
	"step": 397
	},
	{
	"epoch": 0.1389422237737825,
	"grad_norm": 0.5511135458946228,
	"learning_rate": 5e-05,
	"loss": 1.2364,
	"step": 398
	},
	{
	"epoch": 0.13929132483854076,
	"grad_norm": 0.6121107339859009,
	"learning_rate": 5e-05,
	"loss": 1.3212,
	"step": 399
	},
	{
	"epoch": 0.139640425903299,
	"grad_norm": 0.5705773234367371,
	"learning_rate": 5e-05,
	"loss": 1.3116,
	"step": 400
	},
	{
	"epoch": 0.139640425903299,
	"eval_loss": 1.322394609451294,
	"eval_runtime": 3311.45,
	"eval_samples_per_second": 6.92,
	"eval_steps_per_second": 0.865,
	"step": 400
	},
	{
	"epoch": 0.139640425903299,
	"step": 400,
	"total_flos": 8.590417732871127e+17,
	"train_loss": 1.3312159395217895,
	"train_runtime": 17991.8527,
	"train_samples_per_second": 1.779,
	"train_steps_per_second": 0.056
	}
	],
	"logging_steps": 1.0,
	"max_steps": 1000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100,
	"total_flos": 8.590417732871127e+17,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}