{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.9999693053807668,
  "eval_steps": 500,
  "global_step": 16289,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 6.138923846649683e-05,
      "grad_norm": 5.419731382643109,
      "learning_rate": 4.08997955010225e-08,
      "loss": 1.6778,
      "step": 1
    },
    {
      "epoch": 0.00012277847693299365,
      "grad_norm": 6.088084298360978,
      "learning_rate": 8.1799591002045e-08,
      "loss": 1.6697,
      "step": 2
    },
    {
      "epoch": 0.00018416771539949046,
      "grad_norm": 5.992567488457631,
      "learning_rate": 1.226993865030675e-07,
      "loss": 1.7223,
      "step": 3
    },
    {
      "epoch": 0.0002455569538659873,
      "grad_norm": 6.041118260097492,
      "learning_rate": 1.6359918200409e-07,
      "loss": 1.6739,
      "step": 4
    },
    {
      "epoch": 0.00030694619233248414,
      "grad_norm": 5.555813179881878,
      "learning_rate": 2.0449897750511251e-07,
      "loss": 1.7091,
      "step": 5
    },
    {
      "epoch": 0.0003683354307989809,
      "grad_norm": 5.474330677779886,
      "learning_rate": 2.45398773006135e-07,
      "loss": 1.717,
      "step": 6
    },
    {
      "epoch": 0.00042972466926547776,
      "grad_norm": 5.470606816616102,
      "learning_rate": 2.862985685071575e-07,
      "loss": 1.6591,
      "step": 7
    },
    {
      "epoch": 0.0004911139077319746,
      "grad_norm": 5.413902671919053,
      "learning_rate": 3.2719836400818e-07,
      "loss": 1.5951,
      "step": 8
    },
    {
      "epoch": 0.0005525031461984714,
      "grad_norm": 5.129594963808689,
      "learning_rate": 3.680981595092025e-07,
      "loss": 1.6217,
      "step": 9
    },
    {
      "epoch": 0.0006138923846649683,
      "grad_norm": 5.427275108676571,
      "learning_rate": 4.0899795501022503e-07,
      "loss": 1.6719,
      "step": 10
    },
    {
      "epoch": 0.0006752816231314651,
      "grad_norm": 5.471144058866722,
      "learning_rate": 4.498977505112475e-07,
      "loss": 1.6865,
      "step": 11
    },
    {
      "epoch": 0.0007366708615979618,
      "grad_norm": 5.825101029676583,
      "learning_rate": 4.9079754601227e-07,
      "loss": 1.6633,
      "step": 12
    },
    {
      "epoch": 0.0007980601000644587,
      "grad_norm": 6.261871018703678,
      "learning_rate": 5.316973415132925e-07,
      "loss": 1.6951,
      "step": 13
    },
    {
      "epoch": 0.0008594493385309555,
      "grad_norm": 5.7149695394135245,
      "learning_rate": 5.72597137014315e-07,
      "loss": 1.7412,
      "step": 14
    },
    {
      "epoch": 0.0009208385769974523,
      "grad_norm": 5.055757884950573,
      "learning_rate": 6.134969325153375e-07,
      "loss": 1.619,
      "step": 15
    },
    {
      "epoch": 0.0009822278154639492,
      "grad_norm": 4.589612950195362,
      "learning_rate": 6.5439672801636e-07,
      "loss": 1.6729,
      "step": 16
    },
    {
      "epoch": 0.001043617053930446,
      "grad_norm": 5.154877864119565,
      "learning_rate": 6.952965235173826e-07,
      "loss": 1.6051,
      "step": 17
    },
    {
      "epoch": 0.0011050062923969428,
      "grad_norm": 4.790962910083796,
      "learning_rate": 7.36196319018405e-07,
      "loss": 1.6424,
      "step": 18
    },
    {
      "epoch": 0.0011663955308634396,
      "grad_norm": 4.061899551124692,
      "learning_rate": 7.770961145194275e-07,
      "loss": 1.6471,
      "step": 19
    },
    {
      "epoch": 0.0012277847693299366,
      "grad_norm": 4.180974810647579,
      "learning_rate": 8.179959100204501e-07,
      "loss": 1.6453,
      "step": 20
    },
    {
      "epoch": 0.0012891740077964333,
      "grad_norm": 4.196394111136924,
      "learning_rate": 8.588957055214725e-07,
      "loss": 1.6173,
      "step": 21
    },
    {
      "epoch": 0.0013505632462629301,
      "grad_norm": 2.3630192015891573,
      "learning_rate": 8.99795501022495e-07,
      "loss": 1.5609,
      "step": 22
    },
    {
      "epoch": 0.001411952484729427,
      "grad_norm": 2.289404102868081,
      "learning_rate": 9.406952965235175e-07,
      "loss": 1.6068,
      "step": 23
    },
    {
      "epoch": 0.0014733417231959237,
      "grad_norm": 2.122560044928578,
      "learning_rate": 9.8159509202454e-07,
      "loss": 1.5356,
      "step": 24
    },
    {
      "epoch": 0.0015347309616624205,
      "grad_norm": 2.1356886583888617,
      "learning_rate": 1.0224948875255625e-06,
      "loss": 1.6425,
      "step": 25
    },
    {
      "epoch": 0.0015961202001289175,
      "grad_norm": 1.9799173052629913,
      "learning_rate": 1.063394683026585e-06,
      "loss": 1.5471,
      "step": 26
    },
    {
      "epoch": 0.0016575094385954143,
      "grad_norm": 1.9068186914296608,
      "learning_rate": 1.1042944785276075e-06,
      "loss": 1.6339,
      "step": 27
    },
    {
      "epoch": 0.001718898677061911,
      "grad_norm": 1.9934928749546574,
      "learning_rate": 1.14519427402863e-06,
      "loss": 1.5512,
      "step": 28
    },
    {
      "epoch": 0.0017802879155284078,
      "grad_norm": 1.7262822175013637,
      "learning_rate": 1.1860940695296524e-06,
      "loss": 1.5419,
      "step": 29
    },
    {
      "epoch": 0.0018416771539949046,
      "grad_norm": 1.829661240041745,
      "learning_rate": 1.226993865030675e-06,
      "loss": 1.5467,
      "step": 30
    },
    {
      "epoch": 0.0019030663924614016,
      "grad_norm": 1.6046616343720403,
      "learning_rate": 1.2678936605316975e-06,
      "loss": 1.609,
      "step": 31
    },
    {
      "epoch": 0.0019644556309278984,
      "grad_norm": 1.5769640431836995,
      "learning_rate": 1.30879345603272e-06,
      "loss": 1.5313,
      "step": 32
    },
    {
      "epoch": 0.002025844869394395,
      "grad_norm": 1.5850922133770804,
      "learning_rate": 1.3496932515337425e-06,
      "loss": 1.5575,
      "step": 33
    },
    {
      "epoch": 0.002087234107860892,
      "grad_norm": 1.7487083132403785,
      "learning_rate": 1.3905930470347651e-06,
      "loss": 1.5068,
      "step": 34
    },
    {
      "epoch": 0.0021486233463273888,
      "grad_norm": 1.6715946212491897,
      "learning_rate": 1.4314928425357874e-06,
      "loss": 1.5054,
      "step": 35
    },
    {
      "epoch": 0.0022100125847938855,
      "grad_norm": 1.7250077343574728,
      "learning_rate": 1.47239263803681e-06,
      "loss": 1.4979,
      "step": 36
    },
    {
      "epoch": 0.0022714018232603823,
      "grad_norm": 1.9103604198484807,
      "learning_rate": 1.5132924335378324e-06,
      "loss": 1.5818,
      "step": 37
    },
    {
      "epoch": 0.002332791061726879,
      "grad_norm": 1.5416903080873583,
      "learning_rate": 1.554192229038855e-06,
      "loss": 1.4896,
      "step": 38
    },
    {
      "epoch": 0.002394180300193376,
      "grad_norm": 1.3868157950550353,
      "learning_rate": 1.5950920245398775e-06,
      "loss": 1.5309,
      "step": 39
    },
    {
      "epoch": 0.002455569538659873,
      "grad_norm": 1.4019592173454258,
      "learning_rate": 1.6359918200409001e-06,
      "loss": 1.4964,
      "step": 40
    },
    {
      "epoch": 0.00251695877712637,
      "grad_norm": 1.3381016691059902,
      "learning_rate": 1.6768916155419223e-06,
      "loss": 1.5109,
      "step": 41
    },
    {
      "epoch": 0.0025783480155928667,
      "grad_norm": 1.2340130663559845,
      "learning_rate": 1.717791411042945e-06,
      "loss": 1.5439,
      "step": 42
    },
    {
      "epoch": 0.0026397372540593635,
      "grad_norm": 1.282139302091685,
      "learning_rate": 1.7586912065439674e-06,
      "loss": 1.527,
      "step": 43
    },
    {
      "epoch": 0.0027011264925258602,
      "grad_norm": 1.4074506916891978,
      "learning_rate": 1.79959100204499e-06,
      "loss": 1.5234,
      "step": 44
    },
    {
      "epoch": 0.002762515730992357,
      "grad_norm": 1.4385929325724174,
      "learning_rate": 1.8404907975460124e-06,
      "loss": 1.3999,
      "step": 45
    },
    {
      "epoch": 0.002823904969458854,
      "grad_norm": 1.5536700359327238,
      "learning_rate": 1.881390593047035e-06,
      "loss": 1.4736,
      "step": 46
    },
    {
      "epoch": 0.0028852942079253506,
      "grad_norm": 1.4753426777403071,
      "learning_rate": 1.9222903885480575e-06,
      "loss": 1.4692,
      "step": 47
    },
    {
      "epoch": 0.0029466834463918474,
      "grad_norm": 1.3375192883071174,
      "learning_rate": 1.96319018404908e-06,
      "loss": 1.4065,
      "step": 48
    },
    {
      "epoch": 0.003008072684858344,
      "grad_norm": 1.3666824322629754,
      "learning_rate": 2.0040899795501023e-06,
      "loss": 1.4618,
      "step": 49
    },
    {
      "epoch": 0.003069461923324841,
      "grad_norm": 1.1325041832851601,
      "learning_rate": 2.044989775051125e-06,
      "loss": 1.3459,
      "step": 50
    },
    {
      "epoch": 0.003130851161791338,
      "grad_norm": 1.2179370463026602,
      "learning_rate": 2.085889570552147e-06,
      "loss": 1.4754,
      "step": 51
    },
    {
      "epoch": 0.003192240400257835,
      "grad_norm": 1.8809224945998855,
      "learning_rate": 2.12678936605317e-06,
      "loss": 0.8324,
      "step": 52
    },
    {
      "epoch": 0.0032536296387243317,
      "grad_norm": 1.111862154211469,
      "learning_rate": 2.1676891615541925e-06,
      "loss": 1.4465,
      "step": 53
    },
    {
      "epoch": 0.0033150188771908285,
      "grad_norm": 1.0622516874252448,
      "learning_rate": 2.208588957055215e-06,
      "loss": 1.4981,
      "step": 54
    },
    {
      "epoch": 0.0033764081156573253,
      "grad_norm": 1.1291292309013106,
      "learning_rate": 2.2494887525562373e-06,
      "loss": 1.4463,
      "step": 55
    },
    {
      "epoch": 0.003437797354123822,
      "grad_norm": 1.2497265527295522,
      "learning_rate": 2.29038854805726e-06,
      "loss": 1.4244,
      "step": 56
    },
    {
      "epoch": 0.003499186592590319,
      "grad_norm": 1.149934518463357,
      "learning_rate": 2.331288343558282e-06,
      "loss": 1.3336,
      "step": 57
    },
    {
      "epoch": 0.0035605758310568157,
      "grad_norm": 1.183657094655249,
      "learning_rate": 2.3721881390593048e-06,
      "loss": 1.4216,
      "step": 58
    },
    {
      "epoch": 0.0036219650695233124,
      "grad_norm": 1.165590516711574,
      "learning_rate": 2.4130879345603274e-06,
      "loss": 1.4058,
      "step": 59
    },
    {
      "epoch": 0.0036833543079898092,
      "grad_norm": 1.1106754415196056,
      "learning_rate": 2.45398773006135e-06,
      "loss": 1.3929,
      "step": 60
    },
    {
      "epoch": 0.003744743546456306,
      "grad_norm": 1.0503726505658932,
      "learning_rate": 2.4948875255623727e-06,
      "loss": 1.4761,
      "step": 61
    },
    {
      "epoch": 0.0038061327849228032,
      "grad_norm": 0.9512009030733303,
      "learning_rate": 2.535787321063395e-06,
      "loss": 1.3055,
      "step": 62
    },
    {
      "epoch": 0.0038675220233893,
      "grad_norm": 0.9696728967488274,
      "learning_rate": 2.5766871165644175e-06,
      "loss": 1.3976,
      "step": 63
    },
    {
      "epoch": 0.003928911261855797,
      "grad_norm": 1.0050215774037465,
      "learning_rate": 2.61758691206544e-06,
      "loss": 1.3994,
      "step": 64
    },
    {
      "epoch": 0.003990300500322294,
      "grad_norm": 1.37105510773757,
      "learning_rate": 2.6584867075664624e-06,
      "loss": 0.806,
      "step": 65
    },
    {
      "epoch": 0.00405168973878879,
      "grad_norm": 1.11752272952652,
      "learning_rate": 2.699386503067485e-06,
      "loss": 1.4399,
      "step": 66
    },
    {
      "epoch": 0.004113078977255287,
      "grad_norm": 1.1059760941495282,
      "learning_rate": 2.7402862985685077e-06,
      "loss": 1.4332,
      "step": 67
    },
    {
      "epoch": 0.004174468215721784,
      "grad_norm": 1.1164050343538612,
      "learning_rate": 2.7811860940695303e-06,
      "loss": 1.411,
      "step": 68
    },
    {
      "epoch": 0.004235857454188281,
      "grad_norm": 1.026165690855717,
      "learning_rate": 2.822085889570552e-06,
      "loss": 1.3684,
      "step": 69
    },
    {
      "epoch": 0.0042972466926547775,
      "grad_norm": 1.081728084881368,
      "learning_rate": 2.8629856850715747e-06,
      "loss": 1.4253,
      "step": 70
    },
    {
      "epoch": 0.004358635931121274,
      "grad_norm": 0.9555988045224345,
      "learning_rate": 2.9038854805725973e-06,
      "loss": 1.3663,
      "step": 71
    },
    {
      "epoch": 0.004420025169587771,
      "grad_norm": 0.9682739997206177,
      "learning_rate": 2.94478527607362e-06,
      "loss": 1.3835,
      "step": 72
    },
    {
      "epoch": 0.004481414408054268,
      "grad_norm": 0.9625143319993155,
      "learning_rate": 2.985685071574642e-06,
      "loss": 1.4134,
      "step": 73
    },
    {
      "epoch": 0.004542803646520765,
      "grad_norm": 0.9175058909462707,
      "learning_rate": 3.026584867075665e-06,
      "loss": 1.339,
      "step": 74
    },
    {
      "epoch": 0.004604192884987261,
      "grad_norm": 1.0701486061287444,
      "learning_rate": 3.0674846625766875e-06,
      "loss": 0.8422,
      "step": 75
    },
    {
      "epoch": 0.004665582123453758,
      "grad_norm": 0.9702781684775256,
      "learning_rate": 3.10838445807771e-06,
      "loss": 1.356,
      "step": 76
    },
    {
      "epoch": 0.004726971361920255,
      "grad_norm": 1.0360150434887103,
      "learning_rate": 3.1492842535787323e-06,
      "loss": 1.4023,
      "step": 77
    },
    {
      "epoch": 0.004788360600386752,
      "grad_norm": 0.9146945459707857,
      "learning_rate": 3.190184049079755e-06,
      "loss": 1.2879,
      "step": 78
    },
    {
      "epoch": 0.0048497498388532494,
      "grad_norm": 1.0059059628338427,
      "learning_rate": 3.2310838445807776e-06,
      "loss": 1.3925,
      "step": 79
    },
    {
      "epoch": 0.004911139077319746,
      "grad_norm": 0.9407272415218308,
      "learning_rate": 3.2719836400818002e-06,
      "loss": 1.3454,
      "step": 80
    },
    {
      "epoch": 0.004972528315786243,
      "grad_norm": 0.9468927727048108,
      "learning_rate": 3.312883435582822e-06,
      "loss": 1.3691,
      "step": 81
    },
    {
      "epoch": 0.00503391755425274,
      "grad_norm": 0.9258823699860028,
      "learning_rate": 3.3537832310838446e-06,
      "loss": 1.3719,
      "step": 82
    },
    {
      "epoch": 0.005095306792719237,
      "grad_norm": 0.9355674345177702,
      "learning_rate": 3.3946830265848673e-06,
      "loss": 1.3694,
      "step": 83
    },
    {
      "epoch": 0.005156696031185733,
      "grad_norm": 0.9810739843041114,
      "learning_rate": 3.43558282208589e-06,
      "loss": 1.3596,
      "step": 84
    },
    {
      "epoch": 0.00521808526965223,
      "grad_norm": 1.0296562681745476,
      "learning_rate": 3.476482617586912e-06,
      "loss": 1.4562,
      "step": 85
    },
    {
      "epoch": 0.005279474508118727,
      "grad_norm": 1.0965078889281514,
      "learning_rate": 3.5173824130879348e-06,
      "loss": 1.4432,
      "step": 86
    },
    {
      "epoch": 0.005340863746585224,
      "grad_norm": 0.9986550572935614,
      "learning_rate": 3.5582822085889574e-06,
      "loss": 1.3524,
      "step": 87
    },
    {
      "epoch": 0.0054022529850517205,
      "grad_norm": 0.9294966776929697,
      "learning_rate": 3.59918200408998e-06,
      "loss": 1.3867,
      "step": 88
    },
    {
      "epoch": 0.005463642223518217,
      "grad_norm": 0.9550344537704868,
      "learning_rate": 3.6400817995910027e-06,
      "loss": 1.3575,
      "step": 89
    },
    {
      "epoch": 0.005525031461984714,
      "grad_norm": 1.0151328526383596,
      "learning_rate": 3.680981595092025e-06,
      "loss": 1.4337,
      "step": 90
    },
    {
      "epoch": 0.005586420700451211,
      "grad_norm": 0.9043744733050825,
      "learning_rate": 3.7218813905930475e-06,
      "loss": 1.3832,
      "step": 91
    },
    {
      "epoch": 0.005647809938917708,
      "grad_norm": 0.938104655837314,
      "learning_rate": 3.76278118609407e-06,
      "loss": 1.4235,
      "step": 92
    },
    {
      "epoch": 0.005709199177384204,
      "grad_norm": 0.9482335036691907,
      "learning_rate": 3.8036809815950928e-06,
      "loss": 1.3511,
      "step": 93
    },
    {
      "epoch": 0.005770588415850701,
      "grad_norm": 0.9585112755571599,
      "learning_rate": 3.844580777096115e-06,
      "loss": 1.335,
      "step": 94
    },
    {
      "epoch": 0.005831977654317198,
      "grad_norm": 0.8867970567430236,
      "learning_rate": 3.885480572597138e-06,
      "loss": 1.3805,
      "step": 95
    },
    {
      "epoch": 0.005893366892783695,
      "grad_norm": 0.9515576536482325,
      "learning_rate": 3.92638036809816e-06,
      "loss": 1.3139,
      "step": 96
    },
    {
      "epoch": 0.0059547561312501916,
      "grad_norm": 0.9350752722419858,
      "learning_rate": 3.967280163599183e-06,
      "loss": 1.3402,
      "step": 97
    },
    {
      "epoch": 0.006016145369716688,
      "grad_norm": 0.9127982682996693,
      "learning_rate": 4.008179959100205e-06,
      "loss": 1.2927,
      "step": 98
    },
    {
      "epoch": 0.006077534608183185,
      "grad_norm": 0.9863790576398986,
      "learning_rate": 4.049079754601227e-06,
      "loss": 1.3686,
      "step": 99
    },
    {
      "epoch": 0.006138923846649682,
      "grad_norm": 0.9091736946261958,
      "learning_rate": 4.08997955010225e-06,
      "loss": 1.3587,
      "step": 100
    },
    {
      "epoch": 0.0062003130851161796,
      "grad_norm": 1.036778815077969,
      "learning_rate": 4.130879345603273e-06,
      "loss": 1.4177,
      "step": 101
    },
    {
      "epoch": 0.006261702323582676,
      "grad_norm": 0.9289271878174319,
      "learning_rate": 4.171779141104294e-06,
      "loss": 1.3508,
      "step": 102
    },
    {
      "epoch": 0.006323091562049173,
      "grad_norm": 0.9604407703189597,
      "learning_rate": 4.212678936605317e-06,
      "loss": 1.3867,
      "step": 103
    },
    {
      "epoch": 0.00638448080051567,
      "grad_norm": 0.9211020060737071,
      "learning_rate": 4.25357873210634e-06,
      "loss": 1.2711,
      "step": 104
    },
    {
      "epoch": 0.006445870038982167,
      "grad_norm": 0.9019200851503366,
      "learning_rate": 4.294478527607362e-06,
      "loss": 1.3382,
      "step": 105
    },
    {
      "epoch": 0.0065072592774486635,
      "grad_norm": 0.9132752102701412,
      "learning_rate": 4.335378323108385e-06,
      "loss": 1.3131,
      "step": 106
    },
    {
      "epoch": 0.00656864851591516,
      "grad_norm": 0.8928423693200058,
      "learning_rate": 4.3762781186094076e-06,
      "loss": 1.3776,
      "step": 107
    },
    {
      "epoch": 0.006630037754381657,
      "grad_norm": 0.9381955249323793,
      "learning_rate": 4.41717791411043e-06,
      "loss": 1.4203,
      "step": 108
    },
    {
      "epoch": 0.006691426992848154,
      "grad_norm": 0.9018663175836714,
      "learning_rate": 4.458077709611453e-06,
      "loss": 1.2718,
      "step": 109
    },
    {
      "epoch": 0.006752816231314651,
      "grad_norm": 0.9044812919187765,
      "learning_rate": 4.498977505112475e-06,
      "loss": 1.3009,
      "step": 110
    },
    {
      "epoch": 0.006814205469781147,
      "grad_norm": 0.8949443209654904,
      "learning_rate": 4.539877300613497e-06,
      "loss": 1.2834,
      "step": 111
    },
    {
      "epoch": 0.006875594708247644,
      "grad_norm": 0.9274769267446017,
      "learning_rate": 4.58077709611452e-06,
      "loss": 1.3221,
      "step": 112
    },
    {
      "epoch": 0.006936983946714141,
      "grad_norm": 0.937587977946187,
      "learning_rate": 4.6216768916155425e-06,
      "loss": 1.3273,
      "step": 113
    },
    {
      "epoch": 0.006998373185180638,
      "grad_norm": 0.9627959200030355,
      "learning_rate": 4.662576687116564e-06,
      "loss": 1.295,
      "step": 114
    },
    {
      "epoch": 0.0070597624236471345,
      "grad_norm": 0.8986753139895682,
      "learning_rate": 4.703476482617587e-06,
      "loss": 1.3132,
      "step": 115
    },
    {
      "epoch": 0.007121151662113631,
      "grad_norm": 0.9270067726244529,
      "learning_rate": 4.7443762781186096e-06,
      "loss": 1.3358,
      "step": 116
    },
    {
      "epoch": 0.007182540900580128,
      "grad_norm": 0.9128336173056443,
      "learning_rate": 4.785276073619632e-06,
      "loss": 1.3547,
      "step": 117
    },
    {
      "epoch": 0.007243930139046625,
      "grad_norm": 0.900156835000954,
      "learning_rate": 4.826175869120655e-06,
      "loss": 1.2843,
      "step": 118
    },
    {
      "epoch": 0.007305319377513122,
      "grad_norm": 0.9082996451148456,
      "learning_rate": 4.8670756646216775e-06,
      "loss": 1.2634,
      "step": 119
    },
    {
      "epoch": 0.0073667086159796185,
      "grad_norm": 0.9211211774221046,
      "learning_rate": 4.9079754601227e-06,
      "loss": 1.3289,
      "step": 120
    },
    {
      "epoch": 0.007428097854446115,
      "grad_norm": 0.8890271381321616,
      "learning_rate": 4.948875255623723e-06,
      "loss": 1.2788,
      "step": 121
    },
    {
      "epoch": 0.007489487092912612,
      "grad_norm": 0.8561358990839021,
      "learning_rate": 4.989775051124745e-06,
      "loss": 1.2819,
      "step": 122
    },
    {
      "epoch": 0.007550876331379109,
      "grad_norm": 0.8683597147918308,
      "learning_rate": 5.030674846625767e-06,
      "loss": 1.2832,
      "step": 123
    },
    {
      "epoch": 0.0076122655698456065,
      "grad_norm": 0.9230599813848475,
      "learning_rate": 5.07157464212679e-06,
      "loss": 1.2767,
      "step": 124
    },
    {
      "epoch": 0.007673654808312103,
      "grad_norm": 0.8992074648819915,
      "learning_rate": 5.1124744376278124e-06,
      "loss": 1.3186,
      "step": 125
    },
    {
      "epoch": 0.0077350440467786,
      "grad_norm": 0.9143850170541834,
      "learning_rate": 5.153374233128835e-06,
      "loss": 1.3408,
      "step": 126
    },
    {
      "epoch": 0.007796433285245097,
      "grad_norm": 0.9219411689305363,
      "learning_rate": 5.194274028629858e-06,
      "loss": 1.3444,
      "step": 127
    },
    {
      "epoch": 0.007857822523711594,
      "grad_norm": 0.9178710519098933,
      "learning_rate": 5.23517382413088e-06,
      "loss": 1.3489,
      "step": 128
    },
    {
      "epoch": 0.00791921176217809,
      "grad_norm": 0.9476556257513215,
      "learning_rate": 5.276073619631902e-06,
      "loss": 1.3883,
      "step": 129
    },
    {
      "epoch": 0.007980601000644587,
      "grad_norm": 0.8950014107893959,
      "learning_rate": 5.316973415132925e-06,
      "loss": 1.3154,
      "step": 130
    },
    {
      "epoch": 0.008041990239111084,
      "grad_norm": 0.9600269216258779,
      "learning_rate": 5.357873210633947e-06,
      "loss": 1.3302,
      "step": 131
    },
    {
      "epoch": 0.00810337947757758,
      "grad_norm": 0.8859819667839484,
      "learning_rate": 5.39877300613497e-06,
      "loss": 1.2865,
      "step": 132
    },
    {
      "epoch": 0.008164768716044078,
      "grad_norm": 0.8936358940609402,
      "learning_rate": 5.439672801635993e-06,
      "loss": 1.2896,
      "step": 133
    },
    {
      "epoch": 0.008226157954510574,
      "grad_norm": 0.9202089938383244,
      "learning_rate": 5.480572597137015e-06,
      "loss": 1.2697,
      "step": 134
    },
    {
      "epoch": 0.008287547192977071,
      "grad_norm": 0.8744396527413383,
      "learning_rate": 5.521472392638038e-06,
      "loss": 1.2504,
      "step": 135
    },
    {
      "epoch": 0.008348936431443568,
      "grad_norm": 0.9113140365787075,
      "learning_rate": 5.562372188139061e-06,
      "loss": 1.296,
      "step": 136
    },
    {
      "epoch": 0.008410325669910065,
      "grad_norm": 0.8821807497511048,
      "learning_rate": 5.6032719836400815e-06,
      "loss": 1.2798,
      "step": 137
    },
    {
      "epoch": 0.008471714908376561,
      "grad_norm": 0.9098566796035605,
      "learning_rate": 5.644171779141104e-06,
      "loss": 1.33,
      "step": 138
    },
    {
      "epoch": 0.008533104146843058,
      "grad_norm": 0.9193833002569138,
      "learning_rate": 5.685071574642127e-06,
      "loss": 1.3586,
      "step": 139
    },
    {
      "epoch": 0.008594493385309555,
      "grad_norm": 0.965682496753043,
      "learning_rate": 5.7259713701431494e-06,
      "loss": 1.3763,
      "step": 140
    },
    {
      "epoch": 0.008655882623776052,
      "grad_norm": 0.9272414234055115,
      "learning_rate": 5.766871165644172e-06,
      "loss": 1.2549,
      "step": 141
    },
    {
      "epoch": 0.008717271862242549,
      "grad_norm": 0.9523711322795424,
      "learning_rate": 5.807770961145195e-06,
      "loss": 1.2807,
      "step": 142
    },
    {
      "epoch": 0.008778661100709045,
      "grad_norm": 0.9470341935499339,
      "learning_rate": 5.848670756646217e-06,
      "loss": 1.2618,
      "step": 143
    },
    {
      "epoch": 0.008840050339175542,
      "grad_norm": 0.9199109048895818,
      "learning_rate": 5.88957055214724e-06,
      "loss": 1.2642,
      "step": 144
    },
    {
      "epoch": 0.008901439577642039,
      "grad_norm": 0.9181492413979947,
      "learning_rate": 5.930470347648263e-06,
      "loss": 1.298,
      "step": 145
    },
    {
      "epoch": 0.008962828816108536,
      "grad_norm": 1.0023545733944235,
      "learning_rate": 5.971370143149284e-06,
      "loss": 1.3352,
      "step": 146
    },
    {
      "epoch": 0.009024218054575033,
      "grad_norm": 0.9172735742063141,
      "learning_rate": 6.012269938650307e-06,
      "loss": 1.2631,
      "step": 147
    },
    {
      "epoch": 0.00908560729304153,
      "grad_norm": 0.9054565868180573,
      "learning_rate": 6.05316973415133e-06,
      "loss": 1.2877,
      "step": 148
    },
    {
      "epoch": 0.009146996531508026,
      "grad_norm": 0.9726695900689754,
      "learning_rate": 6.094069529652352e-06,
      "loss": 1.2943,
      "step": 149
    },
    {
      "epoch": 0.009208385769974523,
      "grad_norm": 0.9068177536373844,
      "learning_rate": 6.134969325153375e-06,
      "loss": 1.3316,
      "step": 150
    },
    {
      "epoch": 0.00926977500844102,
      "grad_norm": 0.9601322977515468,
      "learning_rate": 6.1758691206543976e-06,
      "loss": 1.3029,
      "step": 151
    },
    {
      "epoch": 0.009331164246907516,
      "grad_norm": 0.8833579242803341,
      "learning_rate": 6.21676891615542e-06,
      "loss": 1.2964,
      "step": 152
    },
    {
      "epoch": 0.009392553485374013,
      "grad_norm": 0.8678477814034519,
      "learning_rate": 6.257668711656443e-06,
      "loss": 1.2425,
      "step": 153
    },
    {
      "epoch": 0.00945394272384051,
      "grad_norm": 0.9390663897559126,
      "learning_rate": 6.298568507157465e-06,
      "loss": 1.3244,
      "step": 154
    },
    {
      "epoch": 0.009515331962307007,
      "grad_norm": 0.8688516344702104,
      "learning_rate": 6.339468302658487e-06,
      "loss": 1.2431,
      "step": 155
    },
    {
      "epoch": 0.009576721200773504,
      "grad_norm": 0.9075196241429163,
      "learning_rate": 6.38036809815951e-06,
      "loss": 1.2885,
      "step": 156
    },
    {
      "epoch": 0.009638110439240002,
      "grad_norm": 0.9338950888556943,
      "learning_rate": 6.4212678936605325e-06,
      "loss": 1.3004,
      "step": 157
    },
    {
      "epoch": 0.009699499677706499,
      "grad_norm": 0.9030273270700654,
      "learning_rate": 6.462167689161555e-06,
      "loss": 1.2568,
      "step": 158
    },
    {
      "epoch": 0.009760888916172996,
      "grad_norm": 0.8980856370608238,
      "learning_rate": 6.503067484662578e-06,
      "loss": 1.2963,
      "step": 159
    },
    {
      "epoch": 0.009822278154639492,
      "grad_norm": 0.8974008102682139,
      "learning_rate": 6.5439672801636004e-06,
      "loss": 1.2658,
      "step": 160
    },
    {
      "epoch": 0.00988366739310599,
      "grad_norm": 0.9038974497959962,
      "learning_rate": 6.584867075664623e-06,
      "loss": 1.2763,
      "step": 161
    },
    {
      "epoch": 0.009945056631572486,
      "grad_norm": 0.8966563549294199,
      "learning_rate": 6.625766871165644e-06,
      "loss": 1.2469,
      "step": 162
    },
    {
      "epoch": 0.010006445870038983,
      "grad_norm": 0.9846325727694345,
      "learning_rate": 6.666666666666667e-06,
      "loss": 1.2996,
      "step": 163
    },
    {
      "epoch": 0.01006783510850548,
      "grad_norm": 0.9727600148980952,
      "learning_rate": 6.707566462167689e-06,
      "loss": 1.3066,
      "step": 164
    },
    {
      "epoch": 0.010129224346971976,
      "grad_norm": 0.9454969490716599,
      "learning_rate": 6.748466257668712e-06,
      "loss": 1.2878,
      "step": 165
    },
    {
      "epoch": 0.010190613585438473,
      "grad_norm": 0.902773734228336,
      "learning_rate": 6.7893660531697346e-06,
      "loss": 1.2042,
      "step": 166
    },
    {
      "epoch": 0.01025200282390497,
      "grad_norm": 0.8959704798199241,
      "learning_rate": 6.830265848670757e-06,
      "loss": 1.2209,
      "step": 167
    },
    {
      "epoch": 0.010313392062371467,
      "grad_norm": 0.9492833272460209,
      "learning_rate": 6.87116564417178e-06,
      "loss": 1.3159,
      "step": 168
    },
    {
      "epoch": 0.010374781300837964,
      "grad_norm": 0.8636604915335748,
      "learning_rate": 6.9120654396728025e-06,
      "loss": 1.2297,
      "step": 169
    },
    {
      "epoch": 0.01043617053930446,
      "grad_norm": 0.8792858851541455,
      "learning_rate": 6.952965235173824e-06,
      "loss": 1.2345,
      "step": 170
    },
    {
      "epoch": 0.010497559777770957,
      "grad_norm": 0.8811876190566337,
      "learning_rate": 6.993865030674847e-06,
      "loss": 1.2591,
      "step": 171
    },
    {
      "epoch": 0.010558949016237454,
      "grad_norm": 0.8880059649097714,
      "learning_rate": 7.0347648261758695e-06,
      "loss": 1.2361,
      "step": 172
    },
    {
      "epoch": 0.01062033825470395,
      "grad_norm": 0.9703485407577527,
      "learning_rate": 7.075664621676892e-06,
      "loss": 1.3157,
      "step": 173
    },
    {
      "epoch": 0.010681727493170447,
      "grad_norm": 0.863691959842333,
      "learning_rate": 7.116564417177915e-06,
      "loss": 1.1742,
      "step": 174
    },
    {
      "epoch": 0.010743116731636944,
      "grad_norm": 0.8772561919250402,
      "learning_rate": 7.157464212678937e-06,
      "loss": 1.2703,
      "step": 175
    },
    {
      "epoch": 0.010804505970103441,
      "grad_norm": 0.8902282794257211,
      "learning_rate": 7.19836400817996e-06,
      "loss": 1.2279,
      "step": 176
    },
    {
      "epoch": 0.010865895208569938,
      "grad_norm": 0.8255348317914312,
      "learning_rate": 7.239263803680983e-06,
      "loss": 1.2032,
      "step": 177
    },
    {
      "epoch": 0.010927284447036435,
      "grad_norm": 0.8655986373759768,
      "learning_rate": 7.280163599182005e-06,
      "loss": 1.2429,
      "step": 178
    },
    {
      "epoch": 0.010988673685502931,
      "grad_norm": 0.9163616226028534,
      "learning_rate": 7.321063394683027e-06,
      "loss": 1.2501,
      "step": 179
    },
    {
      "epoch": 0.011050062923969428,
      "grad_norm": 0.9388189634167472,
      "learning_rate": 7.36196319018405e-06,
      "loss": 1.3244,
      "step": 180
    },
    {
      "epoch": 0.011111452162435925,
      "grad_norm": 0.9090625627207395,
      "learning_rate": 7.402862985685072e-06,
      "loss": 1.2691,
      "step": 181
    },
    {
      "epoch": 0.011172841400902422,
      "grad_norm": 0.8904395929951838,
      "learning_rate": 7.443762781186095e-06,
      "loss": 1.261,
      "step": 182
    },
    {
      "epoch": 0.011234230639368918,
      "grad_norm": 0.8486868606653925,
      "learning_rate": 7.484662576687118e-06,
      "loss": 1.2141,
      "step": 183
    },
    {
      "epoch": 0.011295619877835415,
      "grad_norm": 0.8948808182560015,
      "learning_rate": 7.52556237218814e-06,
      "loss": 1.2577,
      "step": 184
    },
    {
      "epoch": 0.011357009116301912,
      "grad_norm": 0.9360825770750187,
      "learning_rate": 7.566462167689163e-06,
      "loss": 1.3503,
      "step": 185
    },
    {
      "epoch": 0.011418398354768409,
      "grad_norm": 0.8872891758397956,
      "learning_rate": 7.6073619631901856e-06,
      "loss": 1.2544,
      "step": 186
    },
    {
      "epoch": 0.011479787593234906,
      "grad_norm": 0.9318179579325592,
      "learning_rate": 7.648261758691207e-06,
      "loss": 1.2633,
      "step": 187
    },
    {
      "epoch": 0.011541176831701402,
      "grad_norm": 0.9396032303982791,
      "learning_rate": 7.68916155419223e-06,
      "loss": 1.385,
      "step": 188
    },
    {
      "epoch": 0.0116025660701679,
      "grad_norm": 0.8855494288576685,
      "learning_rate": 7.730061349693252e-06,
      "loss": 1.3073,
      "step": 189
    },
    {
      "epoch": 0.011663955308634396,
      "grad_norm": 0.8981367369414004,
      "learning_rate": 7.770961145194275e-06,
      "loss": 1.2807,
      "step": 190
    },
    {
      "epoch": 0.011725344547100893,
      "grad_norm": 0.857773026649229,
      "learning_rate": 7.811860940695297e-06,
      "loss": 1.2526,
      "step": 191
    },
    {
      "epoch": 0.01178673378556739,
      "grad_norm": 0.9885937388090081,
      "learning_rate": 7.85276073619632e-06,
      "loss": 1.2942,
      "step": 192
    },
    {
      "epoch": 0.011848123024033886,
      "grad_norm": 0.9356016666858499,
      "learning_rate": 7.893660531697342e-06,
      "loss": 1.2712,
      "step": 193
    },
    {
      "epoch": 0.011909512262500383,
      "grad_norm": 0.8936203603861913,
      "learning_rate": 7.934560327198366e-06,
      "loss": 1.1965,
      "step": 194
    },
    {
      "epoch": 0.01197090150096688,
      "grad_norm": 0.8763376979175331,
      "learning_rate": 7.975460122699386e-06,
      "loss": 1.1691,
      "step": 195
    },
    {
      "epoch": 0.012032290739433377,
      "grad_norm": 1.0004836806199355,
      "learning_rate": 8.01635991820041e-06,
      "loss": 1.3284,
      "step": 196
    },
    {
      "epoch": 0.012093679977899873,
      "grad_norm": 0.9508868824674875,
      "learning_rate": 8.057259713701431e-06,
      "loss": 1.2386,
      "step": 197
    },
    {
      "epoch": 0.01215506921636637,
      "grad_norm": 0.936486486183284,
      "learning_rate": 8.098159509202455e-06,
      "loss": 1.2129,
      "step": 198
    },
    {
      "epoch": 0.012216458454832867,
      "grad_norm": 0.8974132797370455,
      "learning_rate": 8.139059304703476e-06,
      "loss": 1.3184,
      "step": 199
    },
    {
      "epoch": 0.012277847693299364,
      "grad_norm": 0.8882097835097548,
      "learning_rate": 8.1799591002045e-06,
      "loss": 1.2414,
      "step": 200
    },
    {
      "epoch": 0.01233923693176586,
      "grad_norm": 0.8121652361742757,
      "learning_rate": 8.220858895705522e-06,
      "loss": 1.1955,
      "step": 201
    },
    {
      "epoch": 0.012400626170232359,
      "grad_norm": 0.9209965225415554,
      "learning_rate": 8.261758691206545e-06,
      "loss": 1.2604,
      "step": 202
    },
    {
      "epoch": 0.012462015408698856,
      "grad_norm": 0.9101558576208457,
      "learning_rate": 8.302658486707567e-06,
      "loss": 1.2682,
      "step": 203
    },
    {
      "epoch": 0.012523404647165353,
      "grad_norm": 0.9245098785530109,
      "learning_rate": 8.343558282208589e-06,
      "loss": 1.2433,
      "step": 204
    },
    {
      "epoch": 0.01258479388563185,
      "grad_norm": 0.8709644052921381,
      "learning_rate": 8.384458077709612e-06,
      "loss": 1.2523,
      "step": 205
    },
    {
      "epoch": 0.012646183124098346,
      "grad_norm": 0.9235882250331198,
      "learning_rate": 8.425357873210634e-06,
      "loss": 1.2466,
      "step": 206
    },
    {
      "epoch": 0.012707572362564843,
      "grad_norm": 0.9151927765343967,
      "learning_rate": 8.466257668711658e-06,
      "loss": 1.2569,
      "step": 207
    },
    {
      "epoch": 0.01276896160103134,
      "grad_norm": 0.9317121626769984,
      "learning_rate": 8.50715746421268e-06,
      "loss": 1.2775,
      "step": 208
    },
    {
      "epoch": 0.012830350839497837,
      "grad_norm": 0.8932411598195014,
      "learning_rate": 8.548057259713703e-06,
      "loss": 1.2363,
      "step": 209
    },
    {
      "epoch": 0.012891740077964333,
      "grad_norm": 0.8826815207502858,
      "learning_rate": 8.588957055214725e-06,
      "loss": 1.2478,
      "step": 210
    },
    {
      "epoch": 0.01295312931643083,
      "grad_norm": 0.9141157091802387,
      "learning_rate": 8.629856850715748e-06,
      "loss": 1.1909,
      "step": 211
    },
    {
      "epoch": 0.013014518554897327,
      "grad_norm": 0.9460799227638723,
      "learning_rate": 8.67075664621677e-06,
      "loss": 1.2639,
      "step": 212
    },
    {
      "epoch": 0.013075907793363824,
      "grad_norm": 0.9357147394013448,
      "learning_rate": 8.711656441717792e-06,
      "loss": 1.2073,
      "step": 213
    },
    {
      "epoch": 0.01313729703183032,
      "grad_norm": 1.353422872602618,
      "learning_rate": 8.752556237218815e-06,
      "loss": 0.8287,
      "step": 214
    },
    {
      "epoch": 0.013198686270296817,
      "grad_norm": 0.8747892092960756,
      "learning_rate": 8.793456032719837e-06,
      "loss": 1.2258,
      "step": 215
    },
    {
      "epoch": 0.013260075508763314,
      "grad_norm": 0.8884398919791618,
      "learning_rate": 8.83435582822086e-06,
      "loss": 1.2302,
      "step": 216
    },
    {
      "epoch": 0.013321464747229811,
      "grad_norm": 0.8449276666995246,
      "learning_rate": 8.875255623721882e-06,
      "loss": 1.1287,
      "step": 217
    },
    {
      "epoch": 0.013382853985696308,
      "grad_norm": 0.9177524608170432,
      "learning_rate": 8.916155419222906e-06,
      "loss": 1.2256,
      "step": 218
    },
    {
      "epoch": 0.013444243224162804,
      "grad_norm": 0.9294659376563408,
      "learning_rate": 8.957055214723927e-06,
      "loss": 1.2215,
      "step": 219
    },
    {
      "epoch": 0.013505632462629301,
      "grad_norm": 0.8699498066404835,
      "learning_rate": 8.99795501022495e-06,
      "loss": 1.2693,
      "step": 220
    },
    {
      "epoch": 0.013567021701095798,
      "grad_norm": 0.9269998743357923,
      "learning_rate": 9.038854805725971e-06,
      "loss": 1.2651,
      "step": 221
    },
    {
      "epoch": 0.013628410939562295,
      "grad_norm": 0.9034515701168728,
      "learning_rate": 9.079754601226994e-06,
      "loss": 1.265,
      "step": 222
    },
    {
      "epoch": 0.013689800178028792,
      "grad_norm": 0.8503384224219481,
      "learning_rate": 9.120654396728016e-06,
      "loss": 1.2645,
      "step": 223
    },
    {
      "epoch": 0.013751189416495288,
      "grad_norm": 0.8465846045183726,
      "learning_rate": 9.16155419222904e-06,
      "loss": 1.1953,
      "step": 224
    },
    {
      "epoch": 0.013812578654961785,
      "grad_norm": 0.9023240815720838,
      "learning_rate": 9.202453987730062e-06,
      "loss": 1.2335,
      "step": 225
    },
    {
      "epoch": 0.013873967893428282,
      "grad_norm": 0.9526578053342919,
      "learning_rate": 9.243353783231085e-06,
      "loss": 1.2614,
      "step": 226
    },
    {
      "epoch": 0.013935357131894779,
      "grad_norm": 0.8998090085389139,
      "learning_rate": 9.284253578732107e-06,
      "loss": 1.2002,
      "step": 227
    },
    {
      "epoch": 0.013996746370361276,
      "grad_norm": 0.8686910613385985,
      "learning_rate": 9.325153374233129e-06,
      "loss": 1.1845,
      "step": 228
    },
    {
      "epoch": 0.014058135608827772,
      "grad_norm": 0.970587452754685,
      "learning_rate": 9.366053169734152e-06,
      "loss": 1.2627,
      "step": 229
    },
    {
      "epoch": 0.014119524847294269,
      "grad_norm": 0.8988839653579763,
      "learning_rate": 9.406952965235174e-06,
      "loss": 1.2673,
      "step": 230
    },
    {
      "epoch": 0.014180914085760766,
      "grad_norm": 0.8062676672890478,
      "learning_rate": 9.447852760736197e-06,
      "loss": 1.2094,
      "step": 231
    },
    {
      "epoch": 0.014242303324227263,
      "grad_norm": 0.8388172834661318,
      "learning_rate": 9.488752556237219e-06,
      "loss": 1.1993,
      "step": 232
    },
    {
      "epoch": 0.01430369256269376,
      "grad_norm": 0.8733832050235577,
      "learning_rate": 9.529652351738243e-06,
      "loss": 1.2207,
      "step": 233
    },
    {
      "epoch": 0.014365081801160256,
      "grad_norm": 0.874952551594984,
      "learning_rate": 9.570552147239264e-06,
      "loss": 1.2138,
      "step": 234
    },
    {
      "epoch": 0.014426471039626753,
      "grad_norm": 0.8445276012472485,
      "learning_rate": 9.611451942740288e-06,
      "loss": 1.1832,
      "step": 235
    },
    {
      "epoch": 0.01448786027809325,
      "grad_norm": 0.918600890799935,
      "learning_rate": 9.65235173824131e-06,
      "loss": 1.2596,
      "step": 236
    },
    {
      "epoch": 0.014549249516559747,
      "grad_norm": 0.8791499632343465,
      "learning_rate": 9.693251533742331e-06,
      "loss": 1.239,
      "step": 237
    },
    {
      "epoch": 0.014610638755026243,
      "grad_norm": 0.8931984974433442,
      "learning_rate": 9.734151329243355e-06,
      "loss": 1.2335,
      "step": 238
    },
    {
      "epoch": 0.01467202799349274,
      "grad_norm": 0.9427783770086312,
      "learning_rate": 9.775051124744377e-06,
      "loss": 1.2355,
      "step": 239
    },
    {
      "epoch": 0.014733417231959237,
      "grad_norm": 0.8541402043705444,
      "learning_rate": 9.8159509202454e-06,
      "loss": 1.2341,
      "step": 240
    },
    {
      "epoch": 0.014794806470425734,
      "grad_norm": 0.897371063040283,
      "learning_rate": 9.856850715746422e-06,
      "loss": 1.2694,
      "step": 241
    },
    {
      "epoch": 0.01485619570889223,
      "grad_norm": 0.9411009053605871,
      "learning_rate": 9.897750511247446e-06,
      "loss": 1.235,
      "step": 242
    },
    {
      "epoch": 0.014917584947358727,
      "grad_norm": 0.8408186302454851,
      "learning_rate": 9.938650306748467e-06,
      "loss": 1.1796,
      "step": 243
    },
    {
      "epoch": 0.014978974185825224,
      "grad_norm": 0.920276063873812,
      "learning_rate": 9.97955010224949e-06,
      "loss": 1.212,
      "step": 244
    },
    {
      "epoch": 0.01504036342429172,
      "grad_norm": 0.9466011803822727,
      "learning_rate": 1.0020449897750513e-05,
      "loss": 1.2667,
      "step": 245
    },
    {
      "epoch": 0.015101752662758218,
      "grad_norm": 0.9220814681559567,
      "learning_rate": 1.0061349693251534e-05,
      "loss": 1.2734,
      "step": 246
    },
    {
      "epoch": 0.015163141901224716,
      "grad_norm": 0.894837202840137,
      "learning_rate": 1.0102249488752558e-05,
      "loss": 1.2844,
      "step": 247
    },
    {
      "epoch": 0.015224531139691213,
      "grad_norm": 0.9155178228132693,
      "learning_rate": 1.014314928425358e-05,
      "loss": 1.2481,
      "step": 248
    },
    {
      "epoch": 0.01528592037815771,
      "grad_norm": 0.8944111659887758,
      "learning_rate": 1.0184049079754601e-05,
      "loss": 1.2085,
      "step": 249
    },
    {
      "epoch": 0.015347309616624207,
      "grad_norm": 0.8609865071776917,
      "learning_rate": 1.0224948875255625e-05,
      "loss": 1.2359,
      "step": 250
    },
    {
      "epoch": 0.015408698855090703,
      "grad_norm": 0.9056144887186771,
      "learning_rate": 1.0265848670756647e-05,
      "loss": 1.2935,
      "step": 251
    },
    {
      "epoch": 0.0154700880935572,
      "grad_norm": 0.940474388247613,
      "learning_rate": 1.030674846625767e-05,
      "loss": 1.3087,
      "step": 252
    },
    {
      "epoch": 0.015531477332023697,
      "grad_norm": 0.8855615263080374,
      "learning_rate": 1.0347648261758692e-05,
      "loss": 1.2256,
      "step": 253
    },
    {
      "epoch": 0.015592866570490194,
      "grad_norm": 0.8849558016034238,
      "learning_rate": 1.0388548057259715e-05,
      "loss": 1.1653,
      "step": 254
    },
    {
      "epoch": 0.01565425580895669,
      "grad_norm": 0.8601167960169848,
      "learning_rate": 1.0429447852760737e-05,
      "loss": 1.2618,
      "step": 255
    },
    {
      "epoch": 0.015715645047423187,
      "grad_norm": 0.8886227336896101,
      "learning_rate": 1.047034764826176e-05,
      "loss": 1.2446,
      "step": 256
    },
    {
      "epoch": 0.015777034285889682,
      "grad_norm": 0.8319043765206774,
      "learning_rate": 1.0511247443762782e-05,
      "loss": 1.1959,
      "step": 257
    },
    {
      "epoch": 0.01583842352435618,
      "grad_norm": 0.9050375133322529,
      "learning_rate": 1.0552147239263804e-05,
      "loss": 1.2499,
      "step": 258
    },
    {
      "epoch": 0.015899812762822676,
      "grad_norm": 0.8687657819158461,
      "learning_rate": 1.0593047034764828e-05,
      "loss": 1.2225,
      "step": 259
    },
    {
      "epoch": 0.015961202001289174,
      "grad_norm": 0.9147963612785399,
      "learning_rate": 1.063394683026585e-05,
      "loss": 1.3208,
      "step": 260
    },
    {
      "epoch": 0.01602259123975567,
      "grad_norm": 0.8621046269953997,
      "learning_rate": 1.0674846625766873e-05,
      "loss": 1.1804,
      "step": 261
    },
    {
      "epoch": 0.016083980478222168,
      "grad_norm": 0.8406150442371855,
      "learning_rate": 1.0715746421267895e-05,
      "loss": 1.2084,
      "step": 262
    },
    {
      "epoch": 0.016145369716688663,
      "grad_norm": 0.9039460075622624,
      "learning_rate": 1.0756646216768918e-05,
      "loss": 1.2183,
      "step": 263
    },
    {
      "epoch": 0.01620675895515516,
      "grad_norm": 0.869689663421716,
      "learning_rate": 1.079754601226994e-05,
      "loss": 1.2206,
      "step": 264
    },
    {
      "epoch": 0.016268148193621657,
      "grad_norm": 0.9424684952723243,
      "learning_rate": 1.0838445807770964e-05,
      "loss": 1.2067,
      "step": 265
    },
    {
      "epoch": 0.016329537432088155,
      "grad_norm": 0.8245668361011314,
      "learning_rate": 1.0879345603271985e-05,
      "loss": 1.1432,
      "step": 266
    },
    {
      "epoch": 0.01639092667055465,
      "grad_norm": 0.8343656994292982,
      "learning_rate": 1.0920245398773005e-05,
      "loss": 1.2191,
      "step": 267
    },
    {
      "epoch": 0.01645231590902115,
      "grad_norm": 0.8705599969736126,
      "learning_rate": 1.096114519427403e-05,
      "loss": 1.2274,
      "step": 268
    },
    {
      "epoch": 0.016513705147487647,
      "grad_norm": 0.9404281115762353,
      "learning_rate": 1.100204498977505e-05,
      "loss": 1.3076,
      "step": 269
    },
    {
      "epoch": 0.016575094385954142,
      "grad_norm": 0.9017813602393329,
      "learning_rate": 1.1042944785276076e-05,
      "loss": 1.2261,
      "step": 270
    },
    {
      "epoch": 0.01663648362442064,
      "grad_norm": 0.9174718832089009,
      "learning_rate": 1.1083844580777096e-05,
      "loss": 1.212,
      "step": 271
    },
    {
      "epoch": 0.016697872862887136,
      "grad_norm": 0.8767515281361006,
      "learning_rate": 1.1124744376278121e-05,
      "loss": 1.2326,
      "step": 272
    },
    {
      "epoch": 0.016759262101353634,
      "grad_norm": 0.831719367941329,
      "learning_rate": 1.1165644171779141e-05,
      "loss": 1.1528,
      "step": 273
    },
    {
      "epoch": 0.01682065133982013,
      "grad_norm": 0.8924988882215402,
      "learning_rate": 1.1206543967280163e-05,
      "loss": 1.2776,
      "step": 274
    },
    {
      "epoch": 0.016882040578286628,
      "grad_norm": 0.8358171208439977,
      "learning_rate": 1.1247443762781187e-05,
      "loss": 1.1941,
      "step": 275
    },
    {
      "epoch": 0.016943429816753123,
      "grad_norm": 0.8620610106751827,
      "learning_rate": 1.1288343558282208e-05,
      "loss": 1.2482,
      "step": 276
    },
    {
      "epoch": 0.01700481905521962,
      "grad_norm": 0.8898586029900778,
      "learning_rate": 1.1329243353783232e-05,
      "loss": 1.2135,
      "step": 277
    },
    {
      "epoch": 0.017066208293686116,
      "grad_norm": 0.8587422936229843,
      "learning_rate": 1.1370143149284254e-05,
      "loss": 1.2398,
      "step": 278
    },
    {
      "epoch": 0.017127597532152615,
      "grad_norm": 0.9070155644616447,
      "learning_rate": 1.1411042944785277e-05,
      "loss": 1.2224,
      "step": 279
    },
    {
      "epoch": 0.01718898677061911,
      "grad_norm": 0.8494583427131507,
      "learning_rate": 1.1451942740286299e-05,
      "loss": 1.2382,
      "step": 280
    },
    {
      "epoch": 0.01725037600908561,
      "grad_norm": 0.8228500792639477,
      "learning_rate": 1.1492842535787322e-05,
      "loss": 1.1488,
      "step": 281
    },
    {
      "epoch": 0.017311765247552104,
      "grad_norm": 0.8720139555861608,
      "learning_rate": 1.1533742331288344e-05,
      "loss": 1.2098,
      "step": 282
    },
    {
      "epoch": 0.017373154486018602,
      "grad_norm": 0.9517942093298918,
      "learning_rate": 1.1574642126789366e-05,
      "loss": 1.2324,
      "step": 283
    },
    {
      "epoch": 0.017434543724485097,
      "grad_norm": 0.9032252331654993,
      "learning_rate": 1.161554192229039e-05,
      "loss": 1.2321,
      "step": 284
    },
    {
      "epoch": 0.017495932962951596,
      "grad_norm": 0.8486068095885002,
      "learning_rate": 1.1656441717791411e-05,
      "loss": 1.284,
      "step": 285
    },
    {
      "epoch": 0.01755732220141809,
      "grad_norm": 0.8480521731405525,
      "learning_rate": 1.1697341513292435e-05,
      "loss": 1.2346,
      "step": 286
    },
    {
      "epoch": 0.01761871143988459,
      "grad_norm": 0.8765195646993937,
      "learning_rate": 1.1738241308793456e-05,
      "loss": 1.2437,
      "step": 287
    },
    {
      "epoch": 0.017680100678351084,
      "grad_norm": 0.8409558558951864,
      "learning_rate": 1.177914110429448e-05,
      "loss": 1.1643,
      "step": 288
    },
    {
      "epoch": 0.017741489916817583,
      "grad_norm": 0.9294002303958651,
      "learning_rate": 1.1820040899795502e-05,
      "loss": 1.2143,
      "step": 289
    },
    {
      "epoch": 0.017802879155284078,
      "grad_norm": 0.8778896032163639,
      "learning_rate": 1.1860940695296525e-05,
      "loss": 1.2536,
      "step": 290
    },
    {
      "epoch": 0.017864268393750576,
      "grad_norm": 0.8513093611780121,
      "learning_rate": 1.1901840490797547e-05,
      "loss": 1.1462,
      "step": 291
    },
    {
      "epoch": 0.01792565763221707,
      "grad_norm": 0.8604064233545102,
      "learning_rate": 1.1942740286298569e-05,
      "loss": 1.248,
      "step": 292
    },
    {
      "epoch": 0.01798704687068357,
      "grad_norm": 0.9017163611977864,
      "learning_rate": 1.1983640081799592e-05,
      "loss": 1.2149,
      "step": 293
    },
    {
      "epoch": 0.018048436109150065,
      "grad_norm": 0.8230898774484232,
      "learning_rate": 1.2024539877300614e-05,
      "loss": 1.183,
      "step": 294
    },
    {
      "epoch": 0.018109825347616564,
      "grad_norm": 0.8128401673011836,
      "learning_rate": 1.2065439672801638e-05,
      "loss": 1.2038,
      "step": 295
    },
    {
      "epoch": 0.01817121458608306,
      "grad_norm": 0.9104437509012364,
      "learning_rate": 1.210633946830266e-05,
      "loss": 1.2495,
      "step": 296
    },
    {
      "epoch": 0.018232603824549557,
      "grad_norm": 0.8731653118774719,
      "learning_rate": 1.2147239263803683e-05,
      "loss": 1.2358,
      "step": 297
    },
    {
      "epoch": 0.018293993063016052,
      "grad_norm": 0.8467863429796066,
      "learning_rate": 1.2188139059304705e-05,
      "loss": 1.1727,
      "step": 298
    },
    {
      "epoch": 0.01835538230148255,
      "grad_norm": 0.891847816920403,
      "learning_rate": 1.2229038854805726e-05,
      "loss": 1.2367,
      "step": 299
    },
    {
      "epoch": 0.018416771539949046,
      "grad_norm": 0.8138250671729387,
      "learning_rate": 1.226993865030675e-05,
      "loss": 1.1553,
      "step": 300
    },
    {
      "epoch": 0.018478160778415544,
      "grad_norm": 0.797391442870826,
      "learning_rate": 1.2310838445807772e-05,
      "loss": 1.1434,
      "step": 301
    },
    {
      "epoch": 0.01853955001688204,
      "grad_norm": 0.8681815390417232,
      "learning_rate": 1.2351738241308795e-05,
      "loss": 1.3009,
      "step": 302
    },
    {
      "epoch": 0.018600939255348538,
      "grad_norm": 0.8730224416563475,
      "learning_rate": 1.2392638036809817e-05,
      "loss": 1.2798,
      "step": 303
    },
    {
      "epoch": 0.018662328493815033,
      "grad_norm": 0.815170397513993,
      "learning_rate": 1.243353783231084e-05,
      "loss": 1.1532,
      "step": 304
    },
    {
      "epoch": 0.01872371773228153,
      "grad_norm": 0.8368990911976751,
      "learning_rate": 1.2474437627811862e-05,
      "loss": 1.1778,
      "step": 305
    },
    {
      "epoch": 0.018785106970748026,
      "grad_norm": 0.8750915124517663,
      "learning_rate": 1.2515337423312886e-05,
      "loss": 1.2007,
      "step": 306
    },
    {
      "epoch": 0.018846496209214525,
      "grad_norm": 0.8812375608841377,
      "learning_rate": 1.2556237218813907e-05,
      "loss": 1.2495,
      "step": 307
    },
    {
      "epoch": 0.01890788544768102,
      "grad_norm": 0.8162530203943192,
      "learning_rate": 1.259713701431493e-05,
      "loss": 1.1231,
      "step": 308
    },
    {
      "epoch": 0.01896927468614752,
      "grad_norm": 0.8510052960701708,
      "learning_rate": 1.2638036809815953e-05,
      "loss": 1.2427,
      "step": 309
    },
    {
      "epoch": 0.019030663924614014,
      "grad_norm": 0.8334382739588359,
      "learning_rate": 1.2678936605316975e-05,
      "loss": 1.2096,
      "step": 310
    },
    {
      "epoch": 0.019092053163080512,
      "grad_norm": 0.9141204604764559,
      "learning_rate": 1.2719836400817998e-05,
      "loss": 1.2494,
      "step": 311
    },
    {
      "epoch": 0.019153442401547007,
      "grad_norm": 0.8742906771831217,
      "learning_rate": 1.276073619631902e-05,
      "loss": 1.209,
      "step": 312
    },
    {
      "epoch": 0.019214831640013506,
      "grad_norm": 0.8284805404098343,
      "learning_rate": 1.2801635991820043e-05,
      "loss": 1.1875,
      "step": 313
    },
    {
      "epoch": 0.019276220878480004,
      "grad_norm": 0.8841166783784936,
      "learning_rate": 1.2842535787321065e-05,
      "loss": 1.2182,
      "step": 314
    },
    {
      "epoch": 0.0193376101169465,
      "grad_norm": 0.8468138511776635,
      "learning_rate": 1.2883435582822085e-05,
      "loss": 1.2157,
      "step": 315
    },
    {
      "epoch": 0.019398999355412998,
      "grad_norm": 0.7791877155196608,
      "learning_rate": 1.292433537832311e-05,
      "loss": 1.1334,
      "step": 316
    },
    {
      "epoch": 0.019460388593879493,
      "grad_norm": 0.8514987978368462,
      "learning_rate": 1.296523517382413e-05,
      "loss": 1.1919,
      "step": 317
    },
    {
      "epoch": 0.01952177783234599,
      "grad_norm": 0.8019334077702545,
      "learning_rate": 1.3006134969325156e-05,
      "loss": 1.119,
      "step": 318
    },
    {
      "epoch": 0.019583167070812486,
      "grad_norm": 0.8133062604033454,
      "learning_rate": 1.3047034764826176e-05,
      "loss": 1.1485,
      "step": 319
    },
    {
      "epoch": 0.019644556309278985,
      "grad_norm": 0.8960798828297384,
      "learning_rate": 1.3087934560327201e-05,
      "loss": 1.2891,
      "step": 320
    },
    {
      "epoch": 0.01970594554774548,
      "grad_norm": 0.779624313971041,
      "learning_rate": 1.3128834355828221e-05,
      "loss": 1.1765,
      "step": 321
    },
    {
      "epoch": 0.01976733478621198,
      "grad_norm": 0.8822680604560392,
      "learning_rate": 1.3169734151329246e-05,
      "loss": 1.2185,
      "step": 322
    },
    {
      "epoch": 0.019828724024678474,
      "grad_norm": 0.8384201648655251,
      "learning_rate": 1.3210633946830266e-05,
      "loss": 1.1993,
      "step": 323
    },
    {
      "epoch": 0.019890113263144972,
      "grad_norm": 0.8443913175021177,
      "learning_rate": 1.3251533742331288e-05,
      "loss": 1.2205,
      "step": 324
    },
    {
      "epoch": 0.019951502501611467,
      "grad_norm": 0.8883750333646179,
      "learning_rate": 1.3292433537832312e-05,
      "loss": 1.1609,
      "step": 325
    },
    {
      "epoch": 0.020012891740077966,
      "grad_norm": 0.8595477498614564,
      "learning_rate": 1.3333333333333333e-05,
      "loss": 1.2224,
      "step": 326
    },
    {
      "epoch": 0.02007428097854446,
      "grad_norm": 0.7690140860043272,
      "learning_rate": 1.3374233128834357e-05,
      "loss": 1.1603,
      "step": 327
    },
    {
      "epoch": 0.02013567021701096,
      "grad_norm": 0.8409877024253466,
      "learning_rate": 1.3415132924335379e-05,
      "loss": 1.2505,
      "step": 328
    },
    {
      "epoch": 0.020197059455477454,
      "grad_norm": 0.8488158411558923,
      "learning_rate": 1.3456032719836402e-05,
      "loss": 1.2652,
      "step": 329
    },
    {
      "epoch": 0.020258448693943953,
      "grad_norm": 0.8641348652981327,
      "learning_rate": 1.3496932515337424e-05,
      "loss": 1.2039,
      "step": 330
    },
    {
      "epoch": 0.020319837932410448,
      "grad_norm": 0.8310800626621245,
      "learning_rate": 1.3537832310838447e-05,
      "loss": 1.1482,
      "step": 331
    },
    {
      "epoch": 0.020381227170876946,
      "grad_norm": 0.8829024398415868,
      "learning_rate": 1.3578732106339469e-05,
      "loss": 0.804,
      "step": 332
    },
    {
      "epoch": 0.02044261640934344,
      "grad_norm": 0.9708274135958446,
      "learning_rate": 1.3619631901840491e-05,
      "loss": 1.2251,
      "step": 333
    },
    {
      "epoch": 0.02050400564780994,
      "grad_norm": 0.839984097536665,
      "learning_rate": 1.3660531697341514e-05,
      "loss": 1.1857,
      "step": 334
    },
    {
      "epoch": 0.020565394886276435,
      "grad_norm": 0.9050744427511135,
      "learning_rate": 1.3701431492842536e-05,
      "loss": 1.2254,
      "step": 335
    },
    {
      "epoch": 0.020626784124742933,
      "grad_norm": 0.8424436567728738,
      "learning_rate": 1.374233128834356e-05,
      "loss": 1.1489,
      "step": 336
    },
    {
      "epoch": 0.02068817336320943,
      "grad_norm": 0.8559675442401181,
      "learning_rate": 1.3783231083844581e-05,
      "loss": 1.1856,
      "step": 337
    },
    {
      "epoch": 0.020749562601675927,
      "grad_norm": 0.8205714595441423,
      "learning_rate": 1.3824130879345605e-05,
      "loss": 1.1866,
      "step": 338
    },
    {
      "epoch": 0.020810951840142422,
      "grad_norm": 0.8884183143864305,
      "learning_rate": 1.3865030674846627e-05,
      "loss": 1.2613,
      "step": 339
    },
    {
      "epoch": 0.02087234107860892,
      "grad_norm": 0.8005256198131441,
      "learning_rate": 1.3905930470347648e-05,
      "loss": 1.2123,
      "step": 340
    },
    {
      "epoch": 0.020933730317075416,
      "grad_norm": 0.8277993062453084,
      "learning_rate": 1.3946830265848672e-05,
      "loss": 1.1608,
      "step": 341
    },
    {
      "epoch": 0.020995119555541914,
      "grad_norm": 0.8840646635696525,
      "learning_rate": 1.3987730061349694e-05,
      "loss": 1.2321,
      "step": 342
    },
    {
      "epoch": 0.02105650879400841,
      "grad_norm": 0.8883261922024139,
      "learning_rate": 1.4028629856850717e-05,
      "loss": 1.2384,
      "step": 343
    },
    {
      "epoch": 0.021117898032474908,
      "grad_norm": 0.9450617927676062,
      "learning_rate": 1.4069529652351739e-05,
      "loss": 1.2333,
      "step": 344
    },
    {
      "epoch": 0.021179287270941403,
      "grad_norm": 0.811101621824158,
      "learning_rate": 1.4110429447852763e-05,
      "loss": 1.2372,
      "step": 345
    },
    {
      "epoch": 0.0212406765094079,
      "grad_norm": 0.85069806520605,
      "learning_rate": 1.4151329243353784e-05,
      "loss": 1.2133,
      "step": 346
    },
    {
      "epoch": 0.021302065747874396,
      "grad_norm": 0.8494879089521378,
      "learning_rate": 1.4192229038854808e-05,
      "loss": 1.2199,
      "step": 347
    },
    {
      "epoch": 0.021363454986340895,
      "grad_norm": 0.8353418233536639,
      "learning_rate": 1.423312883435583e-05,
      "loss": 1.1853,
      "step": 348
    },
    {
      "epoch": 0.02142484422480739,
      "grad_norm": 0.8371018762796191,
      "learning_rate": 1.4274028629856851e-05,
      "loss": 1.2259,
      "step": 349
    },
    {
      "epoch": 0.02148623346327389,
      "grad_norm": 2.147301154327512,
      "learning_rate": 1.4314928425357875e-05,
      "loss": 0.8418,
      "step": 350
    },
    {
      "epoch": 0.021547622701740383,
      "grad_norm": 0.8389407656463312,
      "learning_rate": 1.4355828220858897e-05,
      "loss": 1.1719,
      "step": 351
    },
    {
      "epoch": 0.021609011940206882,
      "grad_norm": 0.8918899642550105,
      "learning_rate": 1.439672801635992e-05,
      "loss": 1.2415,
      "step": 352
    },
    {
      "epoch": 0.021670401178673377,
      "grad_norm": 0.9205182064489833,
      "learning_rate": 1.4437627811860942e-05,
      "loss": 1.1973,
      "step": 353
    },
    {
      "epoch": 0.021731790417139876,
      "grad_norm": 0.8655022334522159,
      "learning_rate": 1.4478527607361965e-05,
      "loss": 1.1589,
      "step": 354
    },
    {
      "epoch": 0.02179317965560637,
      "grad_norm": 0.8391981972003733,
      "learning_rate": 1.4519427402862987e-05,
      "loss": 1.2174,
      "step": 355
    },
    {
      "epoch": 0.02185456889407287,
      "grad_norm": 0.830907270801634,
      "learning_rate": 1.456032719836401e-05,
      "loss": 1.1372,
      "step": 356
    },
    {
      "epoch": 0.021915958132539364,
      "grad_norm": 0.8695027254179146,
      "learning_rate": 1.4601226993865032e-05,
      "loss": 1.2091,
      "step": 357
    },
    {
      "epoch": 0.021977347371005863,
      "grad_norm": 0.8654288793733558,
      "learning_rate": 1.4642126789366054e-05,
      "loss": 1.1838,
      "step": 358
    },
    {
      "epoch": 0.02203873660947236,
      "grad_norm": 0.830466360405704,
      "learning_rate": 1.4683026584867078e-05,
      "loss": 1.144,
      "step": 359
    },
    {
      "epoch": 0.022100125847938856,
      "grad_norm": 0.8464740622617065,
      "learning_rate": 1.47239263803681e-05,
      "loss": 1.1898,
      "step": 360
    },
    {
      "epoch": 0.022161515086405355,
      "grad_norm": 0.8979305041679129,
      "learning_rate": 1.4764826175869123e-05,
      "loss": 1.1844,
      "step": 361
    },
    {
      "epoch": 0.02222290432487185,
      "grad_norm": 0.8286281654472444,
      "learning_rate": 1.4805725971370145e-05,
      "loss": 1.2018,
      "step": 362
    },
    {
      "epoch": 0.02228429356333835,
      "grad_norm": 0.7913506944330407,
      "learning_rate": 1.4846625766871168e-05,
      "loss": 1.1766,
      "step": 363
    },
    {
      "epoch": 0.022345682801804843,
      "grad_norm": 0.8215650180308247,
      "learning_rate": 1.488752556237219e-05,
      "loss": 1.2236,
      "step": 364
    },
    {
      "epoch": 0.022407072040271342,
      "grad_norm": 0.8286552924243976,
      "learning_rate": 1.492842535787321e-05,
      "loss": 1.1656,
      "step": 365
    },
    {
      "epoch": 0.022468461278737837,
      "grad_norm": 0.8756501976992611,
      "learning_rate": 1.4969325153374235e-05,
      "loss": 1.2337,
      "step": 366
    },
    {
      "epoch": 0.022529850517204335,
      "grad_norm": 0.8362557626062481,
      "learning_rate": 1.5010224948875255e-05,
      "loss": 1.2194,
      "step": 367
    },
    {
      "epoch": 0.02259123975567083,
      "grad_norm": 0.8793044525619472,
      "learning_rate": 1.505112474437628e-05,
      "loss": 1.228,
      "step": 368
    },
    {
      "epoch": 0.02265262899413733,
      "grad_norm": 0.8153760019222073,
      "learning_rate": 1.50920245398773e-05,
      "loss": 1.2116,
      "step": 369
    },
    {
      "epoch": 0.022714018232603824,
      "grad_norm": 0.8197976202139433,
      "learning_rate": 1.5132924335378326e-05,
      "loss": 1.1926,
      "step": 370
    },
    {
      "epoch": 0.022775407471070323,
      "grad_norm": 0.8514284177265541,
      "learning_rate": 1.5173824130879346e-05,
      "loss": 1.1786,
      "step": 371
    },
    {
      "epoch": 0.022836796709536818,
      "grad_norm": 0.8668213052155469,
      "learning_rate": 1.5214723926380371e-05,
      "loss": 1.2224,
      "step": 372
    },
    {
      "epoch": 0.022898185948003316,
      "grad_norm": 0.8546984925122584,
      "learning_rate": 1.5255623721881391e-05,
      "loss": 1.2152,
      "step": 373
    },
    {
      "epoch": 0.02295957518646981,
      "grad_norm": 0.7667577465629799,
      "learning_rate": 1.5296523517382413e-05,
      "loss": 1.1691,
      "step": 374
    },
    {
      "epoch": 0.02302096442493631,
      "grad_norm": 0.8756681508135885,
      "learning_rate": 1.5337423312883436e-05,
      "loss": 1.2185,
      "step": 375
    },
    {
      "epoch": 0.023082353663402805,
      "grad_norm": 0.8560867968496353,
      "learning_rate": 1.537832310838446e-05,
      "loss": 1.1952,
      "step": 376
    },
    {
      "epoch": 0.023143742901869303,
      "grad_norm": 0.7878677853596922,
      "learning_rate": 1.5419222903885483e-05,
      "loss": 1.2091,
      "step": 377
    },
    {
      "epoch": 0.0232051321403358,
      "grad_norm": 0.8319344434557406,
      "learning_rate": 1.5460122699386504e-05,
      "loss": 1.2324,
      "step": 378
    },
    {
      "epoch": 0.023266521378802297,
      "grad_norm": 0.8506728732599913,
      "learning_rate": 1.5501022494887527e-05,
      "loss": 1.2596,
      "step": 379
    },
    {
      "epoch": 0.023327910617268792,
      "grad_norm": 0.827374152766755,
      "learning_rate": 1.554192229038855e-05,
      "loss": 1.2255,
      "step": 380
    },
    {
      "epoch": 0.02338929985573529,
      "grad_norm": 0.8267812530244129,
      "learning_rate": 1.5582822085889574e-05,
      "loss": 1.2442,
      "step": 381
    },
    {
      "epoch": 0.023450689094201786,
      "grad_norm": 0.8459890697885701,
      "learning_rate": 1.5623721881390594e-05,
      "loss": 1.211,
      "step": 382
    },
    {
      "epoch": 0.023512078332668284,
      "grad_norm": 0.8443367231109451,
      "learning_rate": 1.5664621676891618e-05,
      "loss": 1.1976,
      "step": 383
    },
    {
      "epoch": 0.02357346757113478,
      "grad_norm": 0.7317122482131433,
      "learning_rate": 1.570552147239264e-05,
      "loss": 1.0836,
      "step": 384
    },
    {
      "epoch": 0.023634856809601278,
      "grad_norm": 0.8823447645961097,
      "learning_rate": 1.574642126789366e-05,
      "loss": 1.2245,
      "step": 385
    },
    {
      "epoch": 0.023696246048067773,
      "grad_norm": 0.8196939815954067,
      "learning_rate": 1.5787321063394685e-05,
      "loss": 1.1702,
      "step": 386
    },
    {
      "epoch": 0.02375763528653427,
      "grad_norm": 0.9161041167046815,
      "learning_rate": 1.5828220858895708e-05,
      "loss": 1.2884,
      "step": 387
    },
    {
      "epoch": 0.023819024525000766,
      "grad_norm": 0.8476867162254936,
      "learning_rate": 1.586912065439673e-05,
      "loss": 1.2021,
      "step": 388
    },
    {
      "epoch": 0.023880413763467265,
      "grad_norm": 0.845458473572594,
      "learning_rate": 1.591002044989775e-05,
      "loss": 1.2015,
      "step": 389
    },
    {
      "epoch": 0.02394180300193376,
      "grad_norm": 0.7989195397958314,
      "learning_rate": 1.5950920245398772e-05,
      "loss": 1.1472,
      "step": 390
    },
    {
      "epoch": 0.02400319224040026,
      "grad_norm": 2.1133742579666257,
      "learning_rate": 1.59918200408998e-05,
      "loss": 0.8498,
      "step": 391
    },
    {
      "epoch": 0.024064581478866753,
      "grad_norm": 0.9574974228127204,
      "learning_rate": 1.603271983640082e-05,
      "loss": 1.2101,
      "step": 392
    },
    {
      "epoch": 0.024125970717333252,
      "grad_norm": 0.9869075732456787,
      "learning_rate": 1.6073619631901842e-05,
      "loss": 1.1904,
      "step": 393
    },
    {
      "epoch": 0.024187359955799747,
      "grad_norm": 0.9573120455011499,
      "learning_rate": 1.6114519427402862e-05,
      "loss": 1.1493,
      "step": 394
    },
    {
      "epoch": 0.024248749194266245,
      "grad_norm": 0.978700590287899,
      "learning_rate": 1.615541922290389e-05,
      "loss": 1.2044,
      "step": 395
    },
    {
      "epoch": 0.02431013843273274,
      "grad_norm": 0.8859489903145291,
      "learning_rate": 1.619631901840491e-05,
      "loss": 1.2405,
      "step": 396
    },
    {
      "epoch": 0.02437152767119924,
      "grad_norm": 0.8290133306526156,
      "learning_rate": 1.6237218813905933e-05,
      "loss": 1.1968,
      "step": 397
    },
    {
      "epoch": 0.024432916909665734,
      "grad_norm": 0.873257014033557,
      "learning_rate": 1.6278118609406953e-05,
      "loss": 1.1782,
      "step": 398
    },
    {
      "epoch": 0.024494306148132233,
      "grad_norm": 0.7918183931666951,
      "learning_rate": 1.6319018404907976e-05,
      "loss": 1.2011,
      "step": 399
    },
    {
      "epoch": 0.024555695386598728,
      "grad_norm": 0.8561210213808951,
      "learning_rate": 1.6359918200409e-05,
      "loss": 1.2338,
      "step": 400
    },
    {
      "epoch": 0.024617084625065226,
      "grad_norm": 0.7792957918963211,
      "learning_rate": 1.640081799591002e-05,
      "loss": 1.1689,
      "step": 401
    },
    {
      "epoch": 0.02467847386353172,
      "grad_norm": 0.8339615368284344,
      "learning_rate": 1.6441717791411043e-05,
      "loss": 1.22,
      "step": 402
    },
    {
      "epoch": 0.02473986310199822,
      "grad_norm": 0.8636269783563201,
      "learning_rate": 1.6482617586912067e-05,
      "loss": 1.2568,
      "step": 403
    },
    {
      "epoch": 0.024801252340464718,
      "grad_norm": 0.7512973709664957,
      "learning_rate": 1.652351738241309e-05,
      "loss": 1.1216,
      "step": 404
    },
    {
      "epoch": 0.024862641578931213,
      "grad_norm": 0.8289624641623327,
      "learning_rate": 1.656441717791411e-05,
      "loss": 1.1566,
      "step": 405
    },
    {
      "epoch": 0.024924030817397712,
      "grad_norm": 0.8779813565045463,
      "learning_rate": 1.6605316973415134e-05,
      "loss": 1.2431,
      "step": 406
    },
    {
      "epoch": 0.024985420055864207,
      "grad_norm": 0.8221452944685408,
      "learning_rate": 1.6646216768916157e-05,
      "loss": 1.1992,
      "step": 407
    },
    {
      "epoch": 0.025046809294330705,
      "grad_norm": 0.8699029993016624,
      "learning_rate": 1.6687116564417178e-05,
      "loss": 1.202,
      "step": 408
    },
    {
      "epoch": 0.0251081985327972,
      "grad_norm": 0.8441894825273473,
      "learning_rate": 1.67280163599182e-05,
      "loss": 1.2544,
      "step": 409
    },
    {
      "epoch": 0.0251695877712637,
      "grad_norm": 0.801628671020808,
      "learning_rate": 1.6768916155419224e-05,
      "loss": 1.1668,
      "step": 410
    },
    {
      "epoch": 0.025230977009730194,
      "grad_norm": 0.8406000298284504,
      "learning_rate": 1.6809815950920248e-05,
      "loss": 1.2074,
      "step": 411
    },
    {
      "epoch": 0.025292366248196693,
      "grad_norm": 0.8202374223401271,
      "learning_rate": 1.6850715746421268e-05,
      "loss": 1.1787,
      "step": 412
    },
    {
      "epoch": 0.025353755486663188,
      "grad_norm": 0.7777730016769869,
      "learning_rate": 1.689161554192229e-05,
      "loss": 1.1405,
      "step": 413
    },
    {
      "epoch": 0.025415144725129686,
      "grad_norm": 0.7774414464792573,
      "learning_rate": 1.6932515337423315e-05,
      "loss": 1.1637,
      "step": 414
    },
    {
      "epoch": 0.02547653396359618,
      "grad_norm": 0.8055812763659518,
      "learning_rate": 1.6973415132924335e-05,
      "loss": 1.1777,
      "step": 415
    },
    {
      "epoch": 0.02553792320206268,
      "grad_norm": 0.8324697293345281,
      "learning_rate": 1.701431492842536e-05,
      "loss": 1.2341,
      "step": 416
    },
    {
      "epoch": 0.025599312440529175,
      "grad_norm": 0.8743983142196127,
      "learning_rate": 1.7055214723926382e-05,
      "loss": 1.2516,
      "step": 417
    },
    {
      "epoch": 0.025660701678995673,
      "grad_norm": 0.8130872802405766,
      "learning_rate": 1.7096114519427406e-05,
      "loss": 1.1323,
      "step": 418
    },
    {
      "epoch": 0.02572209091746217,
      "grad_norm": 0.789991308976025,
      "learning_rate": 1.7137014314928426e-05,
      "loss": 1.1663,
      "step": 419
    },
    {
      "epoch": 0.025783480155928667,
      "grad_norm": 0.7905300929863343,
      "learning_rate": 1.717791411042945e-05,
      "loss": 1.2055,
      "step": 420
    },
    {
      "epoch": 0.025844869394395162,
      "grad_norm": 0.8104096117387555,
      "learning_rate": 1.7218813905930473e-05,
      "loss": 1.1762,
      "step": 421
    },
    {
      "epoch": 0.02590625863286166,
      "grad_norm": 0.7962736928904254,
      "learning_rate": 1.7259713701431496e-05,
      "loss": 1.1694,
      "step": 422
    },
    {
      "epoch": 0.025967647871328155,
      "grad_norm": 0.7890257267253764,
      "learning_rate": 1.7300613496932516e-05,
      "loss": 1.1567,
      "step": 423
    },
    {
      "epoch": 0.026029037109794654,
      "grad_norm": 0.8858206460343886,
      "learning_rate": 1.734151329243354e-05,
      "loss": 1.2857,
      "step": 424
    },
    {
      "epoch": 0.02609042634826115,
      "grad_norm": 0.8200639006937106,
      "learning_rate": 1.7382413087934563e-05,
      "loss": 1.1665,
      "step": 425
    },
    {
      "epoch": 0.026151815586727648,
      "grad_norm": 0.8268367192927448,
      "learning_rate": 1.7423312883435583e-05,
      "loss": 1.1716,
      "step": 426
    },
    {
      "epoch": 0.026213204825194143,
      "grad_norm": 0.7920515250328882,
      "learning_rate": 1.7464212678936607e-05,
      "loss": 1.2295,
      "step": 427
    },
    {
      "epoch": 0.02627459406366064,
      "grad_norm": 0.86443683589795,
      "learning_rate": 1.750511247443763e-05,
      "loss": 1.2511,
      "step": 428
    },
    {
      "epoch": 0.026335983302127136,
      "grad_norm": 0.8814496384900139,
      "learning_rate": 1.7546012269938654e-05,
      "loss": 1.2583,
      "step": 429
    },
    {
      "epoch": 0.026397372540593635,
      "grad_norm": 0.7791324839019005,
      "learning_rate": 1.7586912065439674e-05,
      "loss": 1.1372,
      "step": 430
    },
    {
      "epoch": 0.02645876177906013,
      "grad_norm": 0.8283034622412645,
      "learning_rate": 1.7627811860940697e-05,
      "loss": 1.1484,
      "step": 431
    },
    {
      "epoch": 0.026520151017526628,
      "grad_norm": 0.7632817238523816,
      "learning_rate": 1.766871165644172e-05,
      "loss": 1.1445,
      "step": 432
    },
    {
      "epoch": 0.026581540255993123,
      "grad_norm": 0.8287252027218102,
      "learning_rate": 1.770961145194274e-05,
      "loss": 1.2048,
      "step": 433
    },
    {
      "epoch": 0.026642929494459622,
      "grad_norm": 0.8277530076903813,
      "learning_rate": 1.7750511247443764e-05,
      "loss": 1.1504,
      "step": 434
    },
    {
      "epoch": 0.026704318732926117,
      "grad_norm": 0.8328745435209625,
      "learning_rate": 1.7791411042944788e-05,
      "loss": 1.2185,
      "step": 435
    },
    {
      "epoch": 0.026765707971392615,
      "grad_norm": 0.8278157142608409,
      "learning_rate": 1.783231083844581e-05,
      "loss": 1.23,
      "step": 436
    },
    {
      "epoch": 0.02682709720985911,
      "grad_norm": 0.8105829247693117,
      "learning_rate": 1.787321063394683e-05,
      "loss": 1.1761,
      "step": 437
    },
    {
      "epoch": 0.02688848644832561,
      "grad_norm": 0.7338440382037114,
      "learning_rate": 1.7914110429447855e-05,
      "loss": 1.097,
      "step": 438
    },
    {
      "epoch": 0.026949875686792104,
      "grad_norm": 0.7975043191741912,
      "learning_rate": 1.795501022494888e-05,
      "loss": 1.1893,
      "step": 439
    },
    {
      "epoch": 0.027011264925258602,
      "grad_norm": 0.8264906031744635,
      "learning_rate": 1.79959100204499e-05,
      "loss": 1.2418,
      "step": 440
    },
    {
      "epoch": 0.027072654163725098,
      "grad_norm": 0.8425408006359938,
      "learning_rate": 1.8036809815950922e-05,
      "loss": 1.2654,
      "step": 441
    },
    {
      "epoch": 0.027134043402191596,
      "grad_norm": 0.8553549685128431,
      "learning_rate": 1.8077709611451942e-05,
      "loss": 1.1778,
      "step": 442
    },
    {
      "epoch": 0.02719543264065809,
      "grad_norm": 0.7913396595869623,
      "learning_rate": 1.811860940695297e-05,
      "loss": 1.1639,
      "step": 443
    },
    {
      "epoch": 0.02725682187912459,
      "grad_norm": 0.7764739330760835,
      "learning_rate": 1.815950920245399e-05,
      "loss": 1.1598,
      "step": 444
    },
    {
      "epoch": 0.027318211117591085,
      "grad_norm": 0.7871174733192688,
      "learning_rate": 1.8200408997955012e-05,
      "loss": 1.2255,
      "step": 445
    },
    {
      "epoch": 0.027379600356057583,
      "grad_norm": 0.7954431113661323,
      "learning_rate": 1.8241308793456033e-05,
      "loss": 1.196,
      "step": 446
    },
    {
      "epoch": 0.027440989594524078,
      "grad_norm": 0.7548485757636636,
      "learning_rate": 1.828220858895706e-05,
      "loss": 1.1653,
      "step": 447
    },
    {
      "epoch": 0.027502378832990577,
      "grad_norm": 0.7866390070127494,
      "learning_rate": 1.832310838445808e-05,
      "loss": 1.1617,
      "step": 448
    },
    {
      "epoch": 0.027563768071457075,
      "grad_norm": 0.8231119774693763,
      "learning_rate": 1.83640081799591e-05,
      "loss": 1.2162,
      "step": 449
    },
    {
      "epoch": 0.02762515730992357,
      "grad_norm": 0.7972489552337322,
      "learning_rate": 1.8404907975460123e-05,
      "loss": 1.1824,
      "step": 450
    },
    {
      "epoch": 0.02768654654839007,
      "grad_norm": 0.8049131517507562,
      "learning_rate": 1.8445807770961147e-05,
      "loss": 1.1856,
      "step": 451
    },
    {
      "epoch": 0.027747935786856564,
      "grad_norm": 0.7960940530596916,
      "learning_rate": 1.848670756646217e-05,
      "loss": 1.24,
      "step": 452
    },
    {
      "epoch": 0.027809325025323062,
      "grad_norm": 0.7858422997082436,
      "learning_rate": 1.852760736196319e-05,
      "loss": 1.1347,
      "step": 453
    },
    {
      "epoch": 0.027870714263789557,
      "grad_norm": 0.8277525439116892,
      "learning_rate": 1.8568507157464214e-05,
      "loss": 1.2234,
      "step": 454
    },
    {
      "epoch": 0.027932103502256056,
      "grad_norm": 0.789221429837857,
      "learning_rate": 1.8609406952965237e-05,
      "loss": 1.1927,
      "step": 455
    },
    {
      "epoch": 0.02799349274072255,
      "grad_norm": 0.805365388997287,
      "learning_rate": 1.8650306748466257e-05,
      "loss": 1.1951,
      "step": 456
    },
    {
      "epoch": 0.02805488197918905,
      "grad_norm": 0.7920452509045837,
      "learning_rate": 1.869120654396728e-05,
      "loss": 1.1993,
      "step": 457
    },
    {
      "epoch": 0.028116271217655545,
      "grad_norm": 0.782376837216006,
      "learning_rate": 1.8732106339468304e-05,
      "loss": 1.1459,
      "step": 458
    },
    {
      "epoch": 0.028177660456122043,
      "grad_norm": 0.8469691551927405,
      "learning_rate": 1.8773006134969328e-05,
      "loss": 1.2111,
      "step": 459
    },
    {
      "epoch": 0.028239049694588538,
      "grad_norm": 0.8448072862016627,
      "learning_rate": 1.8813905930470348e-05,
      "loss": 1.2562,
      "step": 460
    },
    {
      "epoch": 0.028300438933055037,
      "grad_norm": 0.7812444865331837,
      "learning_rate": 1.885480572597137e-05,
      "loss": 1.1136,
      "step": 461
    },
    {
      "epoch": 0.028361828171521532,
      "grad_norm": 0.8370843664752747,
      "learning_rate": 1.8895705521472395e-05,
      "loss": 1.205,
      "step": 462
    },
    {
      "epoch": 0.02842321740998803,
      "grad_norm": 0.8381248579094686,
      "learning_rate": 1.8936605316973418e-05,
      "loss": 1.2516,
      "step": 463
    },
    {
      "epoch": 0.028484606648454525,
      "grad_norm": 0.7974951132149466,
      "learning_rate": 1.8977505112474438e-05,
      "loss": 1.1906,
      "step": 464
    },
    {
      "epoch": 0.028545995886921024,
      "grad_norm": 0.8186989160058334,
      "learning_rate": 1.9018404907975462e-05,
      "loss": 1.1925,
      "step": 465
    },
    {
      "epoch": 0.02860738512538752,
      "grad_norm": 0.7801635045653744,
      "learning_rate": 1.9059304703476485e-05,
      "loss": 1.1937,
      "step": 466
    },
    {
      "epoch": 0.028668774363854017,
      "grad_norm": 0.7649071660981295,
      "learning_rate": 1.9100204498977505e-05,
      "loss": 1.1648,
      "step": 467
    },
    {
      "epoch": 0.028730163602320512,
      "grad_norm": 0.837636149421935,
      "learning_rate": 1.914110429447853e-05,
      "loss": 1.1829,
      "step": 468
    },
    {
      "epoch": 0.02879155284078701,
      "grad_norm": 0.7533319399575084,
      "learning_rate": 1.9182004089979552e-05,
      "loss": 1.1608,
      "step": 469
    },
    {
      "epoch": 0.028852942079253506,
      "grad_norm": 0.836676130334936,
      "learning_rate": 1.9222903885480576e-05,
      "loss": 1.1905,
      "step": 470
    },
    {
      "epoch": 0.028914331317720005,
      "grad_norm": 0.8290817879145083,
      "learning_rate": 1.9263803680981596e-05,
      "loss": 1.1555,
      "step": 471
    },
    {
      "epoch": 0.0289757205561865,
      "grad_norm": 0.853495044462067,
      "learning_rate": 1.930470347648262e-05,
      "loss": 1.184,
      "step": 472
    },
    {
      "epoch": 0.029037109794652998,
      "grad_norm": 0.8593914533379913,
      "learning_rate": 1.9345603271983643e-05,
      "loss": 1.1511,
      "step": 473
    },
    {
      "epoch": 0.029098499033119493,
      "grad_norm": 0.7980600889056769,
      "learning_rate": 1.9386503067484663e-05,
      "loss": 1.196,
      "step": 474
    },
    {
      "epoch": 0.02915988827158599,
      "grad_norm": 0.7903613511131234,
      "learning_rate": 1.9427402862985686e-05,
      "loss": 1.1659,
      "step": 475
    },
    {
      "epoch": 0.029221277510052487,
      "grad_norm": 0.8501764868346416,
      "learning_rate": 1.946830265848671e-05,
      "loss": 1.2248,
      "step": 476
    },
    {
      "epoch": 0.029282666748518985,
      "grad_norm": 0.7600458440365832,
      "learning_rate": 1.9509202453987733e-05,
      "loss": 1.1619,
      "step": 477
    },
    {
      "epoch": 0.02934405598698548,
      "grad_norm": 0.802046913745942,
      "learning_rate": 1.9550102249488753e-05,
      "loss": 1.174,
      "step": 478
    },
    {
      "epoch": 0.02940544522545198,
      "grad_norm": 0.772666934578416,
      "learning_rate": 1.9591002044989777e-05,
      "loss": 1.1584,
      "step": 479
    },
    {
      "epoch": 0.029466834463918474,
      "grad_norm": 0.7882842761115904,
      "learning_rate": 1.96319018404908e-05,
      "loss": 1.187,
      "step": 480
    },
    {
      "epoch": 0.029528223702384972,
      "grad_norm": 0.829670103261857,
      "learning_rate": 1.967280163599182e-05,
      "loss": 1.1974,
      "step": 481
    },
    {
      "epoch": 0.029589612940851467,
      "grad_norm": 0.7832045130151868,
      "learning_rate": 1.9713701431492844e-05,
      "loss": 1.1912,
      "step": 482
    },
    {
      "epoch": 0.029651002179317966,
      "grad_norm": 0.8065090126713159,
      "learning_rate": 1.9754601226993868e-05,
      "loss": 1.1815,
      "step": 483
    },
    {
      "epoch": 0.02971239141778446,
      "grad_norm": 0.7927486997450159,
      "learning_rate": 1.979550102249489e-05,
      "loss": 1.1591,
      "step": 484
    },
    {
      "epoch": 0.02977378065625096,
      "grad_norm": 0.7874089706416224,
      "learning_rate": 1.983640081799591e-05,
      "loss": 1.1939,
      "step": 485
    },
    {
      "epoch": 0.029835169894717455,
      "grad_norm": 0.7589995682730937,
      "learning_rate": 1.9877300613496935e-05,
      "loss": 1.1032,
      "step": 486
    },
    {
      "epoch": 0.029896559133183953,
      "grad_norm": 0.7723707855142388,
      "learning_rate": 1.9918200408997958e-05,
      "loss": 1.1798,
      "step": 487
    },
    {
      "epoch": 0.029957948371650448,
      "grad_norm": 0.7416023467357451,
      "learning_rate": 1.995910020449898e-05,
      "loss": 1.1317,
      "step": 488
    },
    {
      "epoch": 0.030019337610116947,
      "grad_norm": 0.7717719533038341,
      "learning_rate": 2e-05,
      "loss": 1.1465,
      "step": 489
    },
    {
      "epoch": 0.03008072684858344,
      "grad_norm": 0.8414649155466306,
      "learning_rate": 1.999999980232326e-05,
      "loss": 1.1812,
      "step": 490
    },
    {
      "epoch": 0.03014211608704994,
      "grad_norm": 0.7966449467979996,
      "learning_rate": 1.999999920929304e-05,
      "loss": 1.2282,
      "step": 491
    },
    {
      "epoch": 0.030203505325516435,
      "grad_norm": 0.7715489843481121,
      "learning_rate": 1.999999822090937e-05,
      "loss": 1.1392,
      "step": 492
    },
    {
      "epoch": 0.030264894563982934,
      "grad_norm": 0.7712110961717288,
      "learning_rate": 1.9999996837172285e-05,
      "loss": 1.1402,
      "step": 493
    },
    {
      "epoch": 0.030326283802449432,
      "grad_norm": 0.7522840368177419,
      "learning_rate": 1.9999995058081847e-05,
      "loss": 1.2134,
      "step": 494
    },
    {
      "epoch": 0.030387673040915927,
      "grad_norm": 0.8116540616173141,
      "learning_rate": 1.9999992883638116e-05,
      "loss": 1.1805,
      "step": 495
    },
    {
      "epoch": 0.030449062279382426,
      "grad_norm": 0.7136555782495311,
      "learning_rate": 1.999999031384118e-05,
      "loss": 1.1667,
      "step": 496
    },
    {
      "epoch": 0.03051045151784892,
      "grad_norm": 0.7588798276322625,
      "learning_rate": 1.9999987348691148e-05,
      "loss": 1.1233,
      "step": 497
    },
    {
      "epoch": 0.03057184075631542,
      "grad_norm": 0.819457292666737,
      "learning_rate": 1.999998398818813e-05,
      "loss": 1.1866,
      "step": 498
    },
    {
      "epoch": 0.030633229994781914,
      "grad_norm": 0.8583207822768066,
      "learning_rate": 1.999998023233226e-05,
      "loss": 1.2129,
      "step": 499
    },
    {
      "epoch": 0.030694619233248413,
      "grad_norm": 0.7766556730015548,
      "learning_rate": 1.9999976081123692e-05,
      "loss": 1.1467,
      "step": 500
    },
    {
      "epoch": 0.030756008471714908,
      "grad_norm": 0.7665340507140211,
      "learning_rate": 1.999997153456258e-05,
      "loss": 1.192,
      "step": 501
    },
    {
      "epoch": 0.030817397710181407,
      "grad_norm": 0.8519514024349921,
      "learning_rate": 1.9999966592649118e-05,
      "loss": 1.2239,
      "step": 502
    },
    {
      "epoch": 0.0308787869486479,
      "grad_norm": 0.7846944218613637,
      "learning_rate": 1.9999961255383485e-05,
      "loss": 1.1407,
      "step": 503
    },
    {
      "epoch": 0.0309401761871144,
      "grad_norm": 0.8513725432607374,
      "learning_rate": 1.99999555227659e-05,
      "loss": 1.207,
      "step": 504
    },
    {
      "epoch": 0.031001565425580895,
      "grad_norm": 0.7621796826238002,
      "learning_rate": 1.9999949394796597e-05,
      "loss": 1.1624,
      "step": 505
    },
    {
      "epoch": 0.031062954664047394,
      "grad_norm": 0.7523755417465795,
      "learning_rate": 1.9999942871475807e-05,
      "loss": 1.1535,
      "step": 506
    },
    {
      "epoch": 0.03112434390251389,
      "grad_norm": 0.76819616675726,
      "learning_rate": 1.9999935952803788e-05,
      "loss": 1.1703,
      "step": 507
    },
    {
      "epoch": 0.031185733140980387,
      "grad_norm": 0.7764474456781972,
      "learning_rate": 1.9999928638780822e-05,
      "loss": 1.1649,
      "step": 508
    },
    {
      "epoch": 0.031247122379446882,
      "grad_norm": 0.71954962542189,
      "learning_rate": 1.9999920929407192e-05,
      "loss": 1.0998,
      "step": 509
    },
    {
      "epoch": 0.03130851161791338,
      "grad_norm": 0.8085372605357346,
      "learning_rate": 1.9999912824683205e-05,
      "loss": 1.1921,
      "step": 510
    },
    {
      "epoch": 0.031369900856379876,
      "grad_norm": 0.854721482946347,
      "learning_rate": 1.9999904324609177e-05,
      "loss": 1.2426,
      "step": 511
    },
    {
      "epoch": 0.031431290094846374,
      "grad_norm": 0.7981261907347532,
      "learning_rate": 1.9999895429185453e-05,
      "loss": 1.1545,
      "step": 512
    },
    {
      "epoch": 0.03149267933331287,
      "grad_norm": 0.7902739760514762,
      "learning_rate": 1.999988613841238e-05,
      "loss": 1.1635,
      "step": 513
    },
    {
      "epoch": 0.031554068571779365,
      "grad_norm": 0.806963298502301,
      "learning_rate": 1.999987645229032e-05,
      "loss": 1.1935,
      "step": 514
    },
    {
      "epoch": 0.03161545781024586,
      "grad_norm": 0.7908212161442938,
      "learning_rate": 1.9999866370819662e-05,
      "loss": 1.2125,
      "step": 515
    },
    {
      "epoch": 0.03167684704871236,
      "grad_norm": 0.7784013436596409,
      "learning_rate": 1.9999855894000807e-05,
      "loss": 1.196,
      "step": 516
    },
    {
      "epoch": 0.03173823628717886,
      "grad_norm": 0.8200966914867415,
      "learning_rate": 1.9999845021834162e-05,
      "loss": 1.2714,
      "step": 517
    },
    {
      "epoch": 0.03179962552564535,
      "grad_norm": 0.7359192391111786,
      "learning_rate": 1.999983375432016e-05,
      "loss": 1.1438,
      "step": 518
    },
    {
      "epoch": 0.03186101476411185,
      "grad_norm": 0.7658677336856671,
      "learning_rate": 1.9999822091459248e-05,
      "loss": 1.1439,
      "step": 519
    },
    {
      "epoch": 0.03192240400257835,
      "grad_norm": 0.8394212896368244,
      "learning_rate": 1.9999810033251886e-05,
      "loss": 1.2652,
      "step": 520
    },
    {
      "epoch": 0.03198379324104485,
      "grad_norm": 0.7507314169898879,
      "learning_rate": 1.999979757969855e-05,
      "loss": 1.1682,
      "step": 521
    },
    {
      "epoch": 0.03204518247951134,
      "grad_norm": 0.8237155897849922,
      "learning_rate": 1.9999784730799736e-05,
      "loss": 1.2294,
      "step": 522
    },
    {
      "epoch": 0.03210657171797784,
      "grad_norm": 0.7896724222137275,
      "learning_rate": 1.9999771486555947e-05,
      "loss": 1.1893,
      "step": 523
    },
    {
      "epoch": 0.032167960956444336,
      "grad_norm": 0.7957047882221367,
      "learning_rate": 1.999975784696771e-05,
      "loss": 1.2313,
      "step": 524
    },
    {
      "epoch": 0.032229350194910834,
      "grad_norm": 0.7764034212584963,
      "learning_rate": 1.999974381203556e-05,
      "loss": 1.2051,
      "step": 525
    },
    {
      "epoch": 0.032290739433377326,
      "grad_norm": 0.7851827757856666,
      "learning_rate": 1.9999729381760057e-05,
      "loss": 1.1698,
      "step": 526
    },
    {
      "epoch": 0.032352128671843824,
      "grad_norm": 0.7934368314415116,
      "learning_rate": 1.9999714556141768e-05,
      "loss": 1.2099,
      "step": 527
    },
    {
      "epoch": 0.03241351791031032,
      "grad_norm": 0.8120343957691896,
      "learning_rate": 1.999969933518128e-05,
      "loss": 1.2065,
      "step": 528
    },
    {
      "epoch": 0.03247490714877682,
      "grad_norm": 0.8244403371570975,
      "learning_rate": 1.9999683718879195e-05,
      "loss": 1.2084,
      "step": 529
    },
    {
      "epoch": 0.03253629638724331,
      "grad_norm": 0.8108730896292196,
      "learning_rate": 1.9999667707236133e-05,
      "loss": 1.2184,
      "step": 530
    },
    {
      "epoch": 0.03259768562570981,
      "grad_norm": 0.7861424333150167,
      "learning_rate": 1.999965130025272e-05,
      "loss": 1.1972,
      "step": 531
    },
    {
      "epoch": 0.03265907486417631,
      "grad_norm": 0.7666301683160879,
      "learning_rate": 1.9999634497929613e-05,
      "loss": 1.1807,
      "step": 532
    },
    {
      "epoch": 0.03272046410264281,
      "grad_norm": 0.7194382265152288,
      "learning_rate": 1.999961730026747e-05,
      "loss": 1.1288,
      "step": 533
    },
    {
      "epoch": 0.0327818533411093,
      "grad_norm": 0.7474831907741142,
      "learning_rate": 1.9999599707266976e-05,
      "loss": 1.1175,
      "step": 534
    },
    {
      "epoch": 0.0328432425795758,
      "grad_norm": 0.7515291964224213,
      "learning_rate": 1.999958171892882e-05,
      "loss": 1.1653,
      "step": 535
    },
    {
      "epoch": 0.0329046318180423,
      "grad_norm": 0.7667241880501288,
      "learning_rate": 1.9999563335253722e-05,
      "loss": 1.1469,
      "step": 536
    },
    {
      "epoch": 0.032966021056508796,
      "grad_norm": 0.80853043141222,
      "learning_rate": 1.9999544556242404e-05,
      "loss": 1.18,
      "step": 537
    },
    {
      "epoch": 0.033027410294975294,
      "grad_norm": 0.8277058505783432,
      "learning_rate": 1.9999525381895605e-05,
      "loss": 1.173,
      "step": 538
    },
    {
      "epoch": 0.033088799533441786,
      "grad_norm": 0.7934307667482043,
      "learning_rate": 1.9999505812214087e-05,
      "loss": 1.2172,
      "step": 539
    },
    {
      "epoch": 0.033150188771908284,
      "grad_norm": 0.7861330968896678,
      "learning_rate": 1.9999485847198623e-05,
      "loss": 1.1491,
      "step": 540
    },
    {
      "epoch": 0.03321157801037478,
      "grad_norm": 0.7806549759475643,
      "learning_rate": 1.9999465486850003e-05,
      "loss": 1.1964,
      "step": 541
    },
    {
      "epoch": 0.03327296724884128,
      "grad_norm": 0.826040198062637,
      "learning_rate": 1.9999444731169032e-05,
      "loss": 1.2229,
      "step": 542
    },
    {
      "epoch": 0.03333435648730777,
      "grad_norm": 0.8257746936261856,
      "learning_rate": 1.999942358015653e-05,
      "loss": 1.1813,
      "step": 543
    },
    {
      "epoch": 0.03339574572577427,
      "grad_norm": 0.7867494208901982,
      "learning_rate": 1.9999402033813334e-05,
      "loss": 1.2007,
      "step": 544
    },
    {
      "epoch": 0.03345713496424077,
      "grad_norm": 0.7787271336693975,
      "learning_rate": 1.9999380092140294e-05,
      "loss": 1.2011,
      "step": 545
    },
    {
      "epoch": 0.03351852420270727,
      "grad_norm": 0.7302797749917745,
      "learning_rate": 1.9999357755138278e-05,
      "loss": 1.2455,
      "step": 546
    },
    {
      "epoch": 0.03357991344117376,
      "grad_norm": 0.8028854676537812,
      "learning_rate": 1.999933502280817e-05,
      "loss": 1.1469,
      "step": 547
    },
    {
      "epoch": 0.03364130267964026,
      "grad_norm": 0.7830588022607307,
      "learning_rate": 1.9999311895150866e-05,
      "loss": 1.2526,
      "step": 548
    },
    {
      "epoch": 0.03370269191810676,
      "grad_norm": 0.7835692405450327,
      "learning_rate": 1.9999288372167287e-05,
      "loss": 1.1985,
      "step": 549
    },
    {
      "epoch": 0.033764081156573256,
      "grad_norm": 0.7867134362885789,
      "learning_rate": 1.9999264453858354e-05,
      "loss": 1.1603,
      "step": 550
    },
    {
      "epoch": 0.03382547039503975,
      "grad_norm": 0.7707247532237194,
      "learning_rate": 1.9999240140225023e-05,
      "loss": 1.1729,
      "step": 551
    },
    {
      "epoch": 0.033886859633506246,
      "grad_norm": 0.7827628969418767,
      "learning_rate": 1.9999215431268246e-05,
      "loss": 1.1475,
      "step": 552
    },
    {
      "epoch": 0.033948248871972744,
      "grad_norm": 0.7705559820112987,
      "learning_rate": 1.9999190326989005e-05,
      "loss": 1.1881,
      "step": 553
    },
    {
      "epoch": 0.03400963811043924,
      "grad_norm": 0.764293788307644,
      "learning_rate": 1.999916482738829e-05,
      "loss": 1.1423,
      "step": 554
    },
    {
      "epoch": 0.034071027348905734,
      "grad_norm": 0.7751465369738654,
      "learning_rate": 1.999913893246711e-05,
      "loss": 1.1888,
      "step": 555
    },
    {
      "epoch": 0.03413241658737223,
      "grad_norm": 0.758845314079889,
      "learning_rate": 1.999911264222649e-05,
      "loss": 1.1736,
      "step": 556
    },
    {
      "epoch": 0.03419380582583873,
      "grad_norm": 0.7791035481138368,
      "learning_rate": 1.9999085956667463e-05,
      "loss": 1.1211,
      "step": 557
    },
    {
      "epoch": 0.03425519506430523,
      "grad_norm": 0.7835322520820835,
      "learning_rate": 1.9999058875791096e-05,
      "loss": 1.1893,
      "step": 558
    },
    {
      "epoch": 0.03431658430277172,
      "grad_norm": 0.7605369774090915,
      "learning_rate": 1.999903139959845e-05,
      "loss": 1.1553,
      "step": 559
    },
    {
      "epoch": 0.03437797354123822,
      "grad_norm": 0.7541013928648674,
      "learning_rate": 1.9999003528090613e-05,
      "loss": 1.1452,
      "step": 560
    },
    {
      "epoch": 0.03443936277970472,
      "grad_norm": 0.7315990574184156,
      "learning_rate": 1.9998975261268693e-05,
      "loss": 1.1537,
      "step": 561
    },
    {
      "epoch": 0.03450075201817122,
      "grad_norm": 0.7572168353971249,
      "learning_rate": 1.9998946599133795e-05,
      "loss": 1.0801,
      "step": 562
    },
    {
      "epoch": 0.03456214125663771,
      "grad_norm": 0.8357147548537776,
      "learning_rate": 1.9998917541687066e-05,
      "loss": 1.2045,
      "step": 563
    },
    {
      "epoch": 0.03462353049510421,
      "grad_norm": 0.7926522524782875,
      "learning_rate": 1.9998888088929647e-05,
      "loss": 1.1628,
      "step": 564
    },
    {
      "epoch": 0.034684919733570706,
      "grad_norm": 0.8071412815937687,
      "learning_rate": 1.9998858240862703e-05,
      "loss": 1.219,
      "step": 565
    },
    {
      "epoch": 0.034746308972037204,
      "grad_norm": 0.770975343708381,
      "learning_rate": 1.9998827997487415e-05,
      "loss": 1.1694,
      "step": 566
    },
    {
      "epoch": 0.034807698210503696,
      "grad_norm": 0.7427851419258489,
      "learning_rate": 1.999879735880498e-05,
      "loss": 1.1634,
      "step": 567
    },
    {
      "epoch": 0.034869087448970194,
      "grad_norm": 0.7652591936200561,
      "learning_rate": 1.9998766324816606e-05,
      "loss": 1.1715,
      "step": 568
    },
    {
      "epoch": 0.03493047668743669,
      "grad_norm": 0.7338838321637975,
      "learning_rate": 1.9998734895523525e-05,
      "loss": 1.1273,
      "step": 569
    },
    {
      "epoch": 0.03499186592590319,
      "grad_norm": 0.8041474697183796,
      "learning_rate": 1.999870307092698e-05,
      "loss": 1.2043,
      "step": 570
    },
    {
      "epoch": 0.03505325516436968,
      "grad_norm": 0.7937305418273234,
      "learning_rate": 1.9998670851028215e-05,
      "loss": 1.1873,
      "step": 571
    },
    {
      "epoch": 0.03511464440283618,
      "grad_norm": 0.7120223038036031,
      "learning_rate": 1.9998638235828524e-05,
      "loss": 1.12,
      "step": 572
    },
    {
      "epoch": 0.03517603364130268,
      "grad_norm": 0.7459446876162098,
      "learning_rate": 1.999860522532918e-05,
      "loss": 1.1442,
      "step": 573
    },
    {
      "epoch": 0.03523742287976918,
      "grad_norm": 0.7955998612785583,
      "learning_rate": 1.99985718195315e-05,
      "loss": 1.163,
      "step": 574
    },
    {
      "epoch": 0.03529881211823567,
      "grad_norm": 0.7792623251696111,
      "learning_rate": 1.99985380184368e-05,
      "loss": 1.1874,
      "step": 575
    },
    {
      "epoch": 0.03536020135670217,
      "grad_norm": 0.7560230763658033,
      "learning_rate": 1.9998503822046414e-05,
      "loss": 1.1587,
      "step": 576
    },
    {
      "epoch": 0.03542159059516867,
      "grad_norm": 0.752120173270299,
      "learning_rate": 1.9998469230361696e-05,
      "loss": 1.1831,
      "step": 577
    },
    {
      "epoch": 0.035482979833635166,
      "grad_norm": 0.7347427482925661,
      "learning_rate": 1.999843424338402e-05,
      "loss": 1.1284,
      "step": 578
    },
    {
      "epoch": 0.03554436907210166,
      "grad_norm": 0.7066631634578345,
      "learning_rate": 1.9998398861114754e-05,
      "loss": 1.09,
      "step": 579
    },
    {
      "epoch": 0.035605758310568156,
      "grad_norm": 0.7385682397981282,
      "learning_rate": 1.9998363083555308e-05,
      "loss": 1.194,
      "step": 580
    },
    {
      "epoch": 0.035667147549034654,
      "grad_norm": 0.8005454131589419,
      "learning_rate": 1.9998326910707096e-05,
      "loss": 1.2024,
      "step": 581
    },
    {
      "epoch": 0.03572853678750115,
      "grad_norm": 0.7572744650987927,
      "learning_rate": 1.9998290342571546e-05,
      "loss": 1.1504,
      "step": 582
    },
    {
      "epoch": 0.03578992602596765,
      "grad_norm": 0.7116929389292086,
      "learning_rate": 1.9998253379150107e-05,
      "loss": 1.0786,
      "step": 583
    },
    {
      "epoch": 0.03585131526443414,
      "grad_norm": 0.7726636222672393,
      "learning_rate": 1.9998216020444233e-05,
      "loss": 1.2405,
      "step": 584
    },
    {
      "epoch": 0.03591270450290064,
      "grad_norm": 0.789365242858962,
      "learning_rate": 1.9998178266455407e-05,
      "loss": 1.2093,
      "step": 585
    },
    {
      "epoch": 0.03597409374136714,
      "grad_norm": 0.7962166863487127,
      "learning_rate": 1.9998140117185125e-05,
      "loss": 1.1842,
      "step": 586
    },
    {
      "epoch": 0.03603548297983364,
      "grad_norm": 0.7553573374029694,
      "learning_rate": 1.9998101572634883e-05,
      "loss": 1.111,
      "step": 587
    },
    {
      "epoch": 0.03609687221830013,
      "grad_norm": 0.8214403966237992,
      "learning_rate": 1.9998062632806213e-05,
      "loss": 1.2186,
      "step": 588
    },
    {
      "epoch": 0.03615826145676663,
      "grad_norm": 0.796367331925462,
      "learning_rate": 1.9998023297700656e-05,
      "loss": 1.1835,
      "step": 589
    },
    {
      "epoch": 0.03621965069523313,
      "grad_norm": 0.7389838316181987,
      "learning_rate": 1.999798356731977e-05,
      "loss": 1.1635,
      "step": 590
    },
    {
      "epoch": 0.036281039933699626,
      "grad_norm": 0.7202362256161474,
      "learning_rate": 1.999794344166511e-05,
      "loss": 1.1455,
      "step": 591
    },
    {
      "epoch": 0.03634242917216612,
      "grad_norm": 0.8040138166866135,
      "learning_rate": 1.999790292073828e-05,
      "loss": 1.2291,
      "step": 592
    },
    {
      "epoch": 0.036403818410632616,
      "grad_norm": 0.7803770717736574,
      "learning_rate": 1.9997862004540872e-05,
      "loss": 1.1862,
      "step": 593
    },
    {
      "epoch": 0.036465207649099114,
      "grad_norm": 0.7733265108879258,
      "learning_rate": 1.999782069307451e-05,
      "loss": 1.2249,
      "step": 594
    },
    {
      "epoch": 0.03652659688756561,
      "grad_norm": 0.7572884715272582,
      "learning_rate": 1.9997778986340817e-05,
      "loss": 1.1105,
      "step": 595
    },
    {
      "epoch": 0.036587986126032104,
      "grad_norm": 0.7356037086821875,
      "learning_rate": 1.9997736884341457e-05,
      "loss": 1.0957,
      "step": 596
    },
    {
      "epoch": 0.0366493753644986,
      "grad_norm": 0.7812730581123835,
      "learning_rate": 1.9997694387078082e-05,
      "loss": 1.1679,
      "step": 597
    },
    {
      "epoch": 0.0367107646029651,
      "grad_norm": 0.7483661348133198,
      "learning_rate": 1.9997651494552376e-05,
      "loss": 1.1656,
      "step": 598
    },
    {
      "epoch": 0.0367721538414316,
      "grad_norm": 0.6881302134362874,
      "learning_rate": 1.999760820676604e-05,
      "loss": 1.057,
      "step": 599
    },
    {
      "epoch": 0.03683354307989809,
      "grad_norm": 1.4579271595256447,
      "learning_rate": 1.9997564523720778e-05,
      "loss": 0.8077,
      "step": 600
    },
    {
      "epoch": 0.03689493231836459,
      "grad_norm": 0.7783647397304394,
      "learning_rate": 1.9997520445418317e-05,
      "loss": 1.2754,
      "step": 601
    },
    {
      "epoch": 0.03695632155683109,
      "grad_norm": 0.8007632895108733,
      "learning_rate": 1.9997475971860404e-05,
      "loss": 1.1775,
      "step": 602
    },
    {
      "epoch": 0.03701771079529759,
      "grad_norm": 0.8758225690709026,
      "learning_rate": 1.9997431103048796e-05,
      "loss": 1.2348,
      "step": 603
    },
    {
      "epoch": 0.03707910003376408,
      "grad_norm": 0.7525456378167841,
      "learning_rate": 1.9997385838985265e-05,
      "loss": 1.1838,
      "step": 604
    },
    {
      "epoch": 0.03714048927223058,
      "grad_norm": 0.7889103804369774,
      "learning_rate": 1.9997340179671604e-05,
      "loss": 1.1229,
      "step": 605
    },
    {
      "epoch": 0.037201878510697076,
      "grad_norm": 0.7845459938105296,
      "learning_rate": 1.9997294125109615e-05,
      "loss": 1.1938,
      "step": 606
    },
    {
      "epoch": 0.037263267749163574,
      "grad_norm": 0.7508486658253677,
      "learning_rate": 1.999724767530112e-05,
      "loss": 1.1691,
      "step": 607
    },
    {
      "epoch": 0.037324656987630066,
      "grad_norm": 0.734081576505851,
      "learning_rate": 1.9997200830247955e-05,
      "loss": 1.1637,
      "step": 608
    },
    {
      "epoch": 0.037386046226096564,
      "grad_norm": 0.796376013226744,
      "learning_rate": 1.9997153589951973e-05,
      "loss": 1.1976,
      "step": 609
    },
    {
      "epoch": 0.03744743546456306,
      "grad_norm": 0.7315086718739767,
      "learning_rate": 1.999710595441504e-05,
      "loss": 1.1234,
      "step": 610
    },
    {
      "epoch": 0.03750882470302956,
      "grad_norm": 0.7533116819803349,
      "learning_rate": 1.9997057923639045e-05,
      "loss": 1.1549,
      "step": 611
    },
    {
      "epoch": 0.03757021394149605,
      "grad_norm": 0.7300541280323689,
      "learning_rate": 1.9997009497625876e-05,
      "loss": 1.097,
      "step": 612
    },
    {
      "epoch": 0.03763160317996255,
      "grad_norm": 0.747581368800018,
      "learning_rate": 1.999696067637746e-05,
      "loss": 1.1409,
      "step": 613
    },
    {
      "epoch": 0.03769299241842905,
      "grad_norm": 0.7233951370961962,
      "learning_rate": 1.9996911459895717e-05,
      "loss": 1.1864,
      "step": 614
    },
    {
      "epoch": 0.03775438165689555,
      "grad_norm": 0.776828312795986,
      "learning_rate": 1.9996861848182596e-05,
      "loss": 1.1196,
      "step": 615
    },
    {
      "epoch": 0.03781577089536204,
      "grad_norm": 0.7681275417209665,
      "learning_rate": 1.999681184124006e-05,
      "loss": 1.2464,
      "step": 616
    },
    {
      "epoch": 0.03787716013382854,
      "grad_norm": 0.801825108006464,
      "learning_rate": 1.9996761439070087e-05,
      "loss": 1.1246,
      "step": 617
    },
    {
      "epoch": 0.03793854937229504,
      "grad_norm": 0.8217285134147737,
      "learning_rate": 1.9996710641674666e-05,
      "loss": 1.1992,
      "step": 618
    },
    {
      "epoch": 0.037999938610761536,
      "grad_norm": 0.771677068460579,
      "learning_rate": 1.999665944905581e-05,
      "loss": 1.1619,
      "step": 619
    },
    {
      "epoch": 0.03806132784922803,
      "grad_norm": 0.7412790352819754,
      "learning_rate": 1.9996607861215535e-05,
      "loss": 1.1282,
      "step": 620
    },
    {
      "epoch": 0.038122717087694526,
      "grad_norm": 0.8363056284681533,
      "learning_rate": 1.9996555878155887e-05,
      "loss": 1.2313,
      "step": 621
    },
    {
      "epoch": 0.038184106326161024,
      "grad_norm": 0.722485149827105,
      "learning_rate": 1.9996503499878922e-05,
      "loss": 1.1703,
      "step": 622
    },
    {
      "epoch": 0.03824549556462752,
      "grad_norm": 0.7453484729146794,
      "learning_rate": 1.9996450726386708e-05,
      "loss": 1.1222,
      "step": 623
    },
    {
      "epoch": 0.038306884803094014,
      "grad_norm": 0.8275971309559446,
      "learning_rate": 1.999639755768133e-05,
      "loss": 1.2195,
      "step": 624
    },
    {
      "epoch": 0.03836827404156051,
      "grad_norm": 0.7548409920861079,
      "learning_rate": 1.9996343993764896e-05,
      "loss": 1.1663,
      "step": 625
    },
    {
      "epoch": 0.03842966328002701,
      "grad_norm": 0.7782396289254079,
      "learning_rate": 1.9996290034639517e-05,
      "loss": 1.1028,
      "step": 626
    },
    {
      "epoch": 0.03849105251849351,
      "grad_norm": 0.778566181460576,
      "learning_rate": 1.999623568030733e-05,
      "loss": 1.1697,
      "step": 627
    },
    {
      "epoch": 0.03855244175696001,
      "grad_norm": 0.7510053702911115,
      "learning_rate": 1.9996180930770484e-05,
      "loss": 1.1311,
      "step": 628
    },
    {
      "epoch": 0.0386138309954265,
      "grad_norm": 0.779438699506071,
      "learning_rate": 1.999612578603114e-05,
      "loss": 1.162,
      "step": 629
    },
    {
      "epoch": 0.038675220233893,
      "grad_norm": 0.7660350027614419,
      "learning_rate": 1.999607024609148e-05,
      "loss": 1.1548,
      "step": 630
    },
    {
      "epoch": 0.0387366094723595,
      "grad_norm": 0.728512915665705,
      "learning_rate": 1.9996014310953704e-05,
      "loss": 1.138,
      "step": 631
    },
    {
      "epoch": 0.038797998710825995,
      "grad_norm": 0.7722311296231772,
      "learning_rate": 1.9995957980620016e-05,
      "loss": 1.1711,
      "step": 632
    },
    {
      "epoch": 0.03885938794929249,
      "grad_norm": 0.7319656154212063,
      "learning_rate": 1.9995901255092648e-05,
      "loss": 1.1287,
      "step": 633
    },
    {
      "epoch": 0.038920777187758986,
      "grad_norm": 0.8687482786893576,
      "learning_rate": 1.999584413437384e-05,
      "loss": 1.1939,
      "step": 634
    },
    {
      "epoch": 0.038982166426225484,
      "grad_norm": 0.7348985331888599,
      "learning_rate": 1.9995786618465858e-05,
      "loss": 1.1705,
      "step": 635
    },
    {
      "epoch": 0.03904355566469198,
      "grad_norm": 0.7011962909676503,
      "learning_rate": 1.9995728707370966e-05,
      "loss": 1.0874,
      "step": 636
    },
    {
      "epoch": 0.039104944903158474,
      "grad_norm": 0.7221143137598672,
      "learning_rate": 1.999567040109146e-05,
      "loss": 1.0981,
      "step": 637
    },
    {
      "epoch": 0.03916633414162497,
      "grad_norm": 0.7275476620219322,
      "learning_rate": 1.9995611699629637e-05,
      "loss": 1.1178,
      "step": 638
    },
    {
      "epoch": 0.03922772338009147,
      "grad_norm": 0.739928514681386,
      "learning_rate": 1.9995552602987828e-05,
      "loss": 1.1038,
      "step": 639
    },
    {
      "epoch": 0.03928911261855797,
      "grad_norm": 0.7362001667040914,
      "learning_rate": 1.999549311116836e-05,
      "loss": 1.1083,
      "step": 640
    },
    {
      "epoch": 0.03935050185702446,
      "grad_norm": 0.7175991015572127,
      "learning_rate": 1.9995433224173594e-05,
      "loss": 1.1033,
      "step": 641
    },
    {
      "epoch": 0.03941189109549096,
      "grad_norm": 0.6968416036609814,
      "learning_rate": 1.9995372942005888e-05,
      "loss": 1.1233,
      "step": 642
    },
    {
      "epoch": 0.03947328033395746,
      "grad_norm": 0.8122775823454859,
      "learning_rate": 1.9995312264667636e-05,
      "loss": 1.2069,
      "step": 643
    },
    {
      "epoch": 0.03953466957242396,
      "grad_norm": 0.7413084866172499,
      "learning_rate": 1.9995251192161226e-05,
      "loss": 1.1367,
      "step": 644
    },
    {
      "epoch": 0.03959605881089045,
      "grad_norm": 0.745615312385089,
      "learning_rate": 1.9995189724489084e-05,
      "loss": 1.1482,
      "step": 645
    },
    {
      "epoch": 0.03965744804935695,
      "grad_norm": 0.775709089742677,
      "learning_rate": 1.9995127861653632e-05,
      "loss": 1.174,
      "step": 646
    },
    {
      "epoch": 0.039718837287823446,
      "grad_norm": 0.7396364640305115,
      "learning_rate": 1.9995065603657317e-05,
      "loss": 1.1206,
      "step": 647
    },
    {
      "epoch": 0.039780226526289944,
      "grad_norm": 0.7599464807604869,
      "learning_rate": 1.9995002950502602e-05,
      "loss": 1.0993,
      "step": 648
    },
    {
      "epoch": 0.039841615764756436,
      "grad_norm": 0.7293531175257174,
      "learning_rate": 1.9994939902191964e-05,
      "loss": 1.1508,
      "step": 649
    },
    {
      "epoch": 0.039903005003222934,
      "grad_norm": 0.8166565660139974,
      "learning_rate": 1.9994876458727896e-05,
      "loss": 1.2308,
      "step": 650
    },
    {
      "epoch": 0.03996439424168943,
      "grad_norm": 0.7649977975163564,
      "learning_rate": 1.99948126201129e-05,
      "loss": 1.1745,
      "step": 651
    },
    {
      "epoch": 0.04002578348015593,
      "grad_norm": 0.7437024496534809,
      "learning_rate": 1.999474838634951e-05,
      "loss": 1.16,
      "step": 652
    },
    {
      "epoch": 0.04008717271862242,
      "grad_norm": 0.8193141962551246,
      "learning_rate": 1.999468375744026e-05,
      "loss": 1.2246,
      "step": 653
    },
    {
      "epoch": 0.04014856195708892,
      "grad_norm": 0.7564800141712472,
      "learning_rate": 1.9994618733387705e-05,
      "loss": 1.161,
      "step": 654
    },
    {
      "epoch": 0.04020995119555542,
      "grad_norm": 0.7783680840836504,
      "learning_rate": 1.9994553314194415e-05,
      "loss": 1.1418,
      "step": 655
    },
    {
      "epoch": 0.04027134043402192,
      "grad_norm": 0.7667881789280312,
      "learning_rate": 1.999448749986298e-05,
      "loss": 1.1415,
      "step": 656
    },
    {
      "epoch": 0.04033272967248841,
      "grad_norm": 0.7554609848362362,
      "learning_rate": 1.9994421290395997e-05,
      "loss": 1.1253,
      "step": 657
    },
    {
      "epoch": 0.04039411891095491,
      "grad_norm": 0.7802874476711601,
      "learning_rate": 1.9994354685796093e-05,
      "loss": 1.1806,
      "step": 658
    },
    {
      "epoch": 0.04045550814942141,
      "grad_norm": 0.7503485087794631,
      "learning_rate": 1.9994287686065886e-05,
      "loss": 1.1705,
      "step": 659
    },
    {
      "epoch": 0.040516897387887905,
      "grad_norm": 0.6729100045595446,
      "learning_rate": 1.999422029120804e-05,
      "loss": 1.1078,
      "step": 660
    },
    {
      "epoch": 0.0405782866263544,
      "grad_norm": 0.743117831743013,
      "learning_rate": 1.999415250122521e-05,
      "loss": 1.1405,
      "step": 661
    },
    {
      "epoch": 0.040639675864820896,
      "grad_norm": 0.7589763428448535,
      "learning_rate": 1.999408431612008e-05,
      "loss": 1.2158,
      "step": 662
    },
    {
      "epoch": 0.040701065103287394,
      "grad_norm": 0.7216954839711865,
      "learning_rate": 1.9994015735895343e-05,
      "loss": 1.1388,
      "step": 663
    },
    {
      "epoch": 0.04076245434175389,
      "grad_norm": 0.7453862763157447,
      "learning_rate": 1.9993946760553717e-05,
      "loss": 1.1628,
      "step": 664
    },
    {
      "epoch": 0.040823843580220384,
      "grad_norm": 0.7158106447018608,
      "learning_rate": 1.999387739009792e-05,
      "loss": 1.1695,
      "step": 665
    },
    {
      "epoch": 0.04088523281868688,
      "grad_norm": 0.7193536275848171,
      "learning_rate": 1.99938076245307e-05,
      "loss": 1.1041,
      "step": 666
    },
    {
      "epoch": 0.04094662205715338,
      "grad_norm": 0.7873798179029791,
      "learning_rate": 1.9993737463854814e-05,
      "loss": 1.2006,
      "step": 667
    },
    {
      "epoch": 0.04100801129561988,
      "grad_norm": 0.7082291834362182,
      "learning_rate": 1.9993666908073037e-05,
      "loss": 1.1093,
      "step": 668
    },
    {
      "epoch": 0.04106940053408637,
      "grad_norm": 0.7961384596162016,
      "learning_rate": 1.9993595957188153e-05,
      "loss": 1.208,
      "step": 669
    },
    {
      "epoch": 0.04113078977255287,
      "grad_norm": 0.7177135199595838,
      "learning_rate": 1.9993524611202976e-05,
      "loss": 1.1321,
      "step": 670
    },
    {
      "epoch": 0.04119217901101937,
      "grad_norm": 0.8614145604540313,
      "learning_rate": 1.999345287012032e-05,
      "loss": 1.1978,
      "step": 671
    },
    {
      "epoch": 0.04125356824948587,
      "grad_norm": 0.7477736363103697,
      "learning_rate": 1.9993380733943023e-05,
      "loss": 1.1035,
      "step": 672
    },
    {
      "epoch": 0.041314957487952365,
      "grad_norm": 0.7480277910354071,
      "learning_rate": 1.9993308202673936e-05,
      "loss": 1.1555,
      "step": 673
    },
    {
      "epoch": 0.04137634672641886,
      "grad_norm": 0.787913827568302,
      "learning_rate": 1.9993235276315933e-05,
      "loss": 1.152,
      "step": 674
    },
    {
      "epoch": 0.041437735964885355,
      "grad_norm": 0.7205017455802788,
      "learning_rate": 1.9993161954871887e-05,
      "loss": 1.0941,
      "step": 675
    },
    {
      "epoch": 0.041499125203351854,
      "grad_norm": 0.7570435957722003,
      "learning_rate": 1.9993088238344704e-05,
      "loss": 1.1637,
      "step": 676
    },
    {
      "epoch": 0.04156051444181835,
      "grad_norm": 0.7828182009927438,
      "learning_rate": 1.9993014126737296e-05,
      "loss": 1.1528,
      "step": 677
    },
    {
      "epoch": 0.041621903680284844,
      "grad_norm": 0.7597241211822304,
      "learning_rate": 1.9992939620052593e-05,
      "loss": 1.1324,
      "step": 678
    },
    {
      "epoch": 0.04168329291875134,
      "grad_norm": 0.7414861334033302,
      "learning_rate": 1.9992864718293542e-05,
      "loss": 1.153,
      "step": 679
    },
    {
      "epoch": 0.04174468215721784,
      "grad_norm": 0.7966738987436641,
      "learning_rate": 1.99927894214631e-05,
      "loss": 1.2156,
      "step": 680
    },
    {
      "epoch": 0.04180607139568434,
      "grad_norm": 0.7451548811484917,
      "learning_rate": 1.9992713729564248e-05,
      "loss": 1.1818,
      "step": 681
    },
    {
      "epoch": 0.04186746063415083,
      "grad_norm": 0.7394141998968435,
      "learning_rate": 1.9992637642599977e-05,
      "loss": 1.1361,
      "step": 682
    },
    {
      "epoch": 0.04192884987261733,
      "grad_norm": 0.7828371953796316,
      "learning_rate": 1.99925611605733e-05,
      "loss": 1.1314,
      "step": 683
    },
    {
      "epoch": 0.04199023911108383,
      "grad_norm": 0.6682537222579537,
      "learning_rate": 1.999248428348723e-05,
      "loss": 1.052,
      "step": 684
    },
    {
      "epoch": 0.04205162834955033,
      "grad_norm": 0.7276202355568778,
      "learning_rate": 1.9992407011344818e-05,
      "loss": 1.1689,
      "step": 685
    },
    {
      "epoch": 0.04211301758801682,
      "grad_norm": 0.747740510626253,
      "learning_rate": 1.999232934414911e-05,
      "loss": 1.2042,
      "step": 686
    },
    {
      "epoch": 0.04217440682648332,
      "grad_norm": 0.7058222239023345,
      "learning_rate": 1.999225128190318e-05,
      "loss": 1.1354,
      "step": 687
    },
    {
      "epoch": 0.042235796064949815,
      "grad_norm": 0.6779022147844141,
      "learning_rate": 1.999217282461012e-05,
      "loss": 1.0549,
      "step": 688
    },
    {
      "epoch": 0.042297185303416314,
      "grad_norm": 0.7397154792114042,
      "learning_rate": 1.999209397227302e-05,
      "loss": 1.1447,
      "step": 689
    },
    {
      "epoch": 0.042358574541882806,
      "grad_norm": 0.7562122224609771,
      "learning_rate": 1.9992014724895007e-05,
      "loss": 1.1171,
      "step": 690
    },
    {
      "epoch": 0.042419963780349304,
      "grad_norm": 0.7102930462158082,
      "learning_rate": 1.999193508247921e-05,
      "loss": 1.1375,
      "step": 691
    },
    {
      "epoch": 0.0424813530188158,
      "grad_norm": 0.7302780143985326,
      "learning_rate": 1.9991855045028777e-05,
      "loss": 1.1213,
      "step": 692
    },
    {
      "epoch": 0.0425427422572823,
      "grad_norm": 0.6707567536134376,
      "learning_rate": 1.9991774612546878e-05,
      "loss": 1.104,
      "step": 693
    },
    {
      "epoch": 0.04260413149574879,
      "grad_norm": 0.7240291771553814,
      "learning_rate": 1.9991693785036686e-05,
      "loss": 1.1587,
      "step": 694
    },
    {
      "epoch": 0.04266552073421529,
      "grad_norm": 0.7094417503247543,
      "learning_rate": 1.99916125625014e-05,
      "loss": 1.1532,
      "step": 695
    },
    {
      "epoch": 0.04272690997268179,
      "grad_norm": 0.6884481750303952,
      "learning_rate": 1.999153094494423e-05,
      "loss": 1.0874,
      "step": 696
    },
    {
      "epoch": 0.04278829921114829,
      "grad_norm": 0.7097577898046603,
      "learning_rate": 1.9991448932368404e-05,
      "loss": 1.1084,
      "step": 697
    },
    {
      "epoch": 0.04284968844961478,
      "grad_norm": 0.7656956184375354,
      "learning_rate": 1.9991366524777162e-05,
      "loss": 1.1746,
      "step": 698
    },
    {
      "epoch": 0.04291107768808128,
      "grad_norm": 0.7734773990630841,
      "learning_rate": 1.9991283722173765e-05,
      "loss": 1.1493,
      "step": 699
    },
    {
      "epoch": 0.04297246692654778,
      "grad_norm": 0.7415565812460126,
      "learning_rate": 1.9991200524561486e-05,
      "loss": 1.1644,
      "step": 700
    },
    {
      "epoch": 0.043033856165014275,
      "grad_norm": 0.7254591424953727,
      "learning_rate": 1.9991116931943612e-05,
      "loss": 1.1357,
      "step": 701
    },
    {
      "epoch": 0.04309524540348077,
      "grad_norm": 0.7085582952539793,
      "learning_rate": 1.9991032944323453e-05,
      "loss": 1.1048,
      "step": 702
    },
    {
      "epoch": 0.043156634641947265,
      "grad_norm": 0.7539119308579981,
      "learning_rate": 1.999094856170432e-05,
      "loss": 1.1526,
      "step": 703
    },
    {
      "epoch": 0.043218023880413764,
      "grad_norm": 0.7607983574262258,
      "learning_rate": 1.999086378408956e-05,
      "loss": 1.1431,
      "step": 704
    },
    {
      "epoch": 0.04327941311888026,
      "grad_norm": 0.7197074510281708,
      "learning_rate": 1.999077861148252e-05,
      "loss": 1.1858,
      "step": 705
    },
    {
      "epoch": 0.043340802357346754,
      "grad_norm": 0.7050539335610922,
      "learning_rate": 1.999069304388656e-05,
      "loss": 1.0954,
      "step": 706
    },
    {
      "epoch": 0.04340219159581325,
      "grad_norm": 0.714898490172679,
      "learning_rate": 1.9990607081305077e-05,
      "loss": 1.1274,
      "step": 707
    },
    {
      "epoch": 0.04346358083427975,
      "grad_norm": 0.7347928252080688,
      "learning_rate": 1.999052072374146e-05,
      "loss": 1.1244,
      "step": 708
    },
    {
      "epoch": 0.04352497007274625,
      "grad_norm": 0.7169849337266591,
      "learning_rate": 1.9990433971199125e-05,
      "loss": 1.1253,
      "step": 709
    },
    {
      "epoch": 0.04358635931121274,
      "grad_norm": 0.7890256227521136,
      "learning_rate": 1.9990346823681506e-05,
      "loss": 1.1892,
      "step": 710
    },
    {
      "epoch": 0.04364774854967924,
      "grad_norm": 0.7660896558500344,
      "learning_rate": 1.999025928119204e-05,
      "loss": 1.1869,
      "step": 711
    },
    {
      "epoch": 0.04370913778814574,
      "grad_norm": 0.7582350408451911,
      "learning_rate": 1.9990171343734198e-05,
      "loss": 1.1758,
      "step": 712
    },
    {
      "epoch": 0.04377052702661224,
      "grad_norm": 0.718164720723471,
      "learning_rate": 1.999008301131145e-05,
      "loss": 1.1215,
      "step": 713
    },
    {
      "epoch": 0.04383191626507873,
      "grad_norm": 0.7152990578214419,
      "learning_rate": 1.9989994283927287e-05,
      "loss": 1.122,
      "step": 714
    },
    {
      "epoch": 0.04389330550354523,
      "grad_norm": 0.7599565586893884,
      "learning_rate": 1.9989905161585223e-05,
      "loss": 1.1619,
      "step": 715
    },
    {
      "epoch": 0.043954694742011725,
      "grad_norm": 0.7081042070882334,
      "learning_rate": 1.9989815644288778e-05,
      "loss": 1.0917,
      "step": 716
    },
    {
      "epoch": 0.044016083980478224,
      "grad_norm": 0.7560295217365395,
      "learning_rate": 1.998972573204149e-05,
      "loss": 1.1878,
      "step": 717
    },
    {
      "epoch": 0.04407747321894472,
      "grad_norm": 0.6671903814101862,
      "learning_rate": 1.9989635424846913e-05,
      "loss": 1.077,
      "step": 718
    },
    {
      "epoch": 0.044138862457411214,
      "grad_norm": 0.7297234844391133,
      "learning_rate": 1.9989544722708622e-05,
      "loss": 1.1534,
      "step": 719
    },
    {
      "epoch": 0.04420025169587771,
      "grad_norm": 0.7824904338568159,
      "learning_rate": 1.99894536256302e-05,
      "loss": 1.0942,
      "step": 720
    },
    {
      "epoch": 0.04426164093434421,
      "grad_norm": 0.7306751805047218,
      "learning_rate": 1.9989362133615248e-05,
      "loss": 1.1657,
      "step": 721
    },
    {
      "epoch": 0.04432303017281071,
      "grad_norm": 0.7111904137119877,
      "learning_rate": 1.9989270246667385e-05,
      "loss": 1.1559,
      "step": 722
    },
    {
      "epoch": 0.0443844194112772,
      "grad_norm": 0.7511373628245224,
      "learning_rate": 1.998917796479024e-05,
      "loss": 1.1662,
      "step": 723
    },
    {
      "epoch": 0.0444458086497437,
      "grad_norm": 0.8054539614811788,
      "learning_rate": 1.998908528798747e-05,
      "loss": 1.1647,
      "step": 724
    },
    {
      "epoch": 0.0445071978882102,
      "grad_norm": 0.7078039044246675,
      "learning_rate": 1.9988992216262727e-05,
      "loss": 1.0931,
      "step": 725
    },
    {
      "epoch": 0.0445685871266767,
      "grad_norm": 0.7132056078250603,
      "learning_rate": 1.9988898749619702e-05,
      "loss": 1.1253,
      "step": 726
    },
    {
      "epoch": 0.04462997636514319,
      "grad_norm": 0.7052837852929476,
      "learning_rate": 1.9988804888062083e-05,
      "loss": 1.1008,
      "step": 727
    },
    {
      "epoch": 0.04469136560360969,
      "grad_norm": 0.7544915384210167,
      "learning_rate": 1.998871063159358e-05,
      "loss": 1.1528,
      "step": 728
    },
    {
      "epoch": 0.044752754842076185,
      "grad_norm": 0.7747700518760225,
      "learning_rate": 1.9988615980217926e-05,
      "loss": 1.1416,
      "step": 729
    },
    {
      "epoch": 0.044814144080542684,
      "grad_norm": 0.749496302274901,
      "learning_rate": 1.998852093393886e-05,
      "loss": 1.1685,
      "step": 730
    },
    {
      "epoch": 0.044875533319009175,
      "grad_norm": 0.7354741728713704,
      "learning_rate": 1.9988425492760135e-05,
      "loss": 1.1039,
      "step": 731
    },
    {
      "epoch": 0.044936922557475674,
      "grad_norm": 0.7226116822755123,
      "learning_rate": 1.9988329656685534e-05,
      "loss": 1.1702,
      "step": 732
    },
    {
      "epoch": 0.04499831179594217,
      "grad_norm": 0.7281026368210655,
      "learning_rate": 1.9988233425718834e-05,
      "loss": 1.1506,
      "step": 733
    },
    {
      "epoch": 0.04505970103440867,
      "grad_norm": 0.744546446647622,
      "learning_rate": 1.998813679986385e-05,
      "loss": 1.1581,
      "step": 734
    },
    {
      "epoch": 0.04512109027287516,
      "grad_norm": 0.7067066118437789,
      "learning_rate": 1.9988039779124397e-05,
      "loss": 1.1205,
      "step": 735
    },
    {
      "epoch": 0.04518247951134166,
      "grad_norm": 0.7895017234654704,
      "learning_rate": 1.998794236350431e-05,
      "loss": 1.2113,
      "step": 736
    },
    {
      "epoch": 0.04524386874980816,
      "grad_norm": 0.7504811381097671,
      "learning_rate": 1.9987844553007444e-05,
      "loss": 1.1744,
      "step": 737
    },
    {
      "epoch": 0.04530525798827466,
      "grad_norm": 0.7579015137523307,
      "learning_rate": 1.9987746347637667e-05,
      "loss": 1.1952,
      "step": 738
    },
    {
      "epoch": 0.04536664722674115,
      "grad_norm": 0.7065761435424049,
      "learning_rate": 1.9987647747398854e-05,
      "loss": 1.0851,
      "step": 739
    },
    {
      "epoch": 0.04542803646520765,
      "grad_norm": 0.7250531078210584,
      "learning_rate": 1.998754875229491e-05,
      "loss": 1.1067,
      "step": 740
    },
    {
      "epoch": 0.04548942570367415,
      "grad_norm": 0.7337294784172627,
      "learning_rate": 1.9987449362329746e-05,
      "loss": 1.1613,
      "step": 741
    },
    {
      "epoch": 0.045550814942140645,
      "grad_norm": 0.6951092288500983,
      "learning_rate": 1.9987349577507292e-05,
      "loss": 1.1052,
      "step": 742
    },
    {
      "epoch": 0.04561220418060714,
      "grad_norm": 0.7328377114301406,
      "learning_rate": 1.9987249397831495e-05,
      "loss": 1.168,
      "step": 743
    },
    {
      "epoch": 0.045673593419073635,
      "grad_norm": 0.7223607275225179,
      "learning_rate": 1.998714882330631e-05,
      "loss": 1.1544,
      "step": 744
    },
    {
      "epoch": 0.045734982657540134,
      "grad_norm": 0.7534260001855979,
      "learning_rate": 1.998704785393572e-05,
      "loss": 1.1243,
      "step": 745
    },
    {
      "epoch": 0.04579637189600663,
      "grad_norm": 0.7252693647254349,
      "learning_rate": 1.9986946489723712e-05,
      "loss": 1.101,
      "step": 746
    },
    {
      "epoch": 0.045857761134473124,
      "grad_norm": 0.747757021482102,
      "learning_rate": 1.9986844730674297e-05,
      "loss": 1.1642,
      "step": 747
    },
    {
      "epoch": 0.04591915037293962,
      "grad_norm": 0.7324536638187307,
      "learning_rate": 1.9986742576791495e-05,
      "loss": 1.1518,
      "step": 748
    },
    {
      "epoch": 0.04598053961140612,
      "grad_norm": 0.7071091204417692,
      "learning_rate": 1.9986640028079348e-05,
      "loss": 1.0844,
      "step": 749
    },
    {
      "epoch": 0.04604192884987262,
      "grad_norm": 0.7808708077457156,
      "learning_rate": 1.9986537084541905e-05,
      "loss": 1.1554,
      "step": 750
    },
    {
      "epoch": 0.04610331808833911,
      "grad_norm": 0.7622222874443106,
      "learning_rate": 1.998643374618324e-05,
      "loss": 1.2015,
      "step": 751
    },
    {
      "epoch": 0.04616470732680561,
      "grad_norm": 0.6868487452202546,
      "learning_rate": 1.998633001300744e-05,
      "loss": 1.1172,
      "step": 752
    },
    {
      "epoch": 0.04622609656527211,
      "grad_norm": 0.803803836623923,
      "learning_rate": 1.9986225885018604e-05,
      "loss": 1.2499,
      "step": 753
    },
    {
      "epoch": 0.04628748580373861,
      "grad_norm": 0.7362045472183932,
      "learning_rate": 1.998612136222085e-05,
      "loss": 1.1688,
      "step": 754
    },
    {
      "epoch": 0.0463488750422051,
      "grad_norm": 0.7226807449138658,
      "learning_rate": 1.9986016444618302e-05,
      "loss": 1.1085,
      "step": 755
    },
    {
      "epoch": 0.0464102642806716,
      "grad_norm": 0.7253105705433878,
      "learning_rate": 1.9985911132215122e-05,
      "loss": 1.1924,
      "step": 756
    },
    {
      "epoch": 0.046471653519138095,
      "grad_norm": 0.7246520728892619,
      "learning_rate": 1.9985805425015466e-05,
      "loss": 1.1462,
      "step": 757
    },
    {
      "epoch": 0.046533042757604594,
      "grad_norm": 0.6949381300317188,
      "learning_rate": 1.9985699323023507e-05,
      "loss": 1.0891,
      "step": 758
    },
    {
      "epoch": 0.046594431996071085,
      "grad_norm": 0.7414285175616028,
      "learning_rate": 1.9985592826243454e-05,
      "loss": 1.1608,
      "step": 759
    },
    {
      "epoch": 0.046655821234537584,
      "grad_norm": 0.7256446189563095,
      "learning_rate": 1.9985485934679508e-05,
      "loss": 1.0694,
      "step": 760
    },
    {
      "epoch": 0.04671721047300408,
      "grad_norm": 0.7280218923111027,
      "learning_rate": 1.9985378648335897e-05,
      "loss": 1.1422,
      "step": 761
    },
    {
      "epoch": 0.04677859971147058,
      "grad_norm": 0.7287114536618953,
      "learning_rate": 1.998527096721686e-05,
      "loss": 1.1615,
      "step": 762
    },
    {
      "epoch": 0.04683998894993708,
      "grad_norm": 0.7548121358979691,
      "learning_rate": 1.998516289132666e-05,
      "loss": 1.1415,
      "step": 763
    },
    {
      "epoch": 0.04690137818840357,
      "grad_norm": 0.7433062098327233,
      "learning_rate": 1.9985054420669562e-05,
      "loss": 1.101,
      "step": 764
    },
    {
      "epoch": 0.04696276742687007,
      "grad_norm": 0.736090068086758,
      "learning_rate": 1.9984945555249865e-05,
      "loss": 1.1345,
      "step": 765
    },
    {
      "epoch": 0.04702415666533657,
      "grad_norm": 0.7157407893609404,
      "learning_rate": 1.9984836295071863e-05,
      "loss": 1.1314,
      "step": 766
    },
    {
      "epoch": 0.04708554590380307,
      "grad_norm": 0.7342913051956615,
      "learning_rate": 1.998472664013988e-05,
      "loss": 1.173,
      "step": 767
    },
    {
      "epoch": 0.04714693514226956,
      "grad_norm": 0.7494999818444803,
      "learning_rate": 1.998461659045825e-05,
      "loss": 1.1262,
      "step": 768
    },
    {
      "epoch": 0.04720832438073606,
      "grad_norm": 0.7134225000708558,
      "learning_rate": 1.9984506146031327e-05,
      "loss": 1.0905,
      "step": 769
    },
    {
      "epoch": 0.047269713619202555,
      "grad_norm": 0.7534344934027637,
      "learning_rate": 1.9984395306863473e-05,
      "loss": 1.1567,
      "step": 770
    },
    {
      "epoch": 0.047331102857669054,
      "grad_norm": 0.7190049357245003,
      "learning_rate": 1.9984284072959075e-05,
      "loss": 1.1281,
      "step": 771
    },
    {
      "epoch": 0.047392492096135545,
      "grad_norm": 0.7202800928225384,
      "learning_rate": 1.9984172444322524e-05,
      "loss": 0.8226,
      "step": 772
    },
    {
      "epoch": 0.047453881334602044,
      "grad_norm": 0.730276794289433,
      "learning_rate": 1.998406042095824e-05,
      "loss": 1.1289,
      "step": 773
    },
    {
      "epoch": 0.04751527057306854,
      "grad_norm": 0.7702504000778595,
      "learning_rate": 1.998394800287065e-05,
      "loss": 1.1452,
      "step": 774
    },
    {
      "epoch": 0.04757665981153504,
      "grad_norm": 0.6841256067565002,
      "learning_rate": 1.9983835190064194e-05,
      "loss": 1.1142,
      "step": 775
    },
    {
      "epoch": 0.04763804905000153,
      "grad_norm": 0.7247000261475215,
      "learning_rate": 1.998372198254334e-05,
      "loss": 1.1496,
      "step": 776
    },
    {
      "epoch": 0.04769943828846803,
      "grad_norm": 0.7411563683283392,
      "learning_rate": 1.9983608380312557e-05,
      "loss": 1.1197,
      "step": 777
    },
    {
      "epoch": 0.04776082752693453,
      "grad_norm": 0.6872731810451462,
      "learning_rate": 1.9983494383376337e-05,
      "loss": 1.1191,
      "step": 778
    },
    {
      "epoch": 0.04782221676540103,
      "grad_norm": 0.7207563831434974,
      "learning_rate": 1.998337999173919e-05,
      "loss": 1.1286,
      "step": 779
    },
    {
      "epoch": 0.04788360600386752,
      "grad_norm": 0.7635404282661882,
      "learning_rate": 1.998326520540564e-05,
      "loss": 1.1917,
      "step": 780
    },
    {
      "epoch": 0.04794499524233402,
      "grad_norm": 0.7244539463007917,
      "learning_rate": 1.9983150024380216e-05,
      "loss": 1.0968,
      "step": 781
    },
    {
      "epoch": 0.04800638448080052,
      "grad_norm": 0.7261632413702777,
      "learning_rate": 1.998303444866748e-05,
      "loss": 1.0779,
      "step": 782
    },
    {
      "epoch": 0.048067773719267015,
      "grad_norm": 0.6823554599565703,
      "learning_rate": 1.9982918478272e-05,
      "loss": 1.0755,
      "step": 783
    },
    {
      "epoch": 0.04812916295773351,
      "grad_norm": 0.6822694841607303,
      "learning_rate": 1.9982802113198364e-05,
      "loss": 1.0987,
      "step": 784
    },
    {
      "epoch": 0.048190552196200005,
      "grad_norm": 0.7836920389042026,
      "learning_rate": 1.9982685353451162e-05,
      "loss": 1.2005,
      "step": 785
    },
    {
      "epoch": 0.048251941434666504,
      "grad_norm": 0.7634079405319806,
      "learning_rate": 1.9982568199035023e-05,
      "loss": 1.1533,
      "step": 786
    },
    {
      "epoch": 0.048313330673133,
      "grad_norm": 0.7190974093136395,
      "learning_rate": 1.9982450649954568e-05,
      "loss": 1.1292,
      "step": 787
    },
    {
      "epoch": 0.048374719911599494,
      "grad_norm": 0.7289411652631115,
      "learning_rate": 1.998233270621445e-05,
      "loss": 1.1575,
      "step": 788
    },
    {
      "epoch": 0.04843610915006599,
      "grad_norm": 0.7656628408242938,
      "learning_rate": 1.998221436781933e-05,
      "loss": 1.1682,
      "step": 789
    },
    {
      "epoch": 0.04849749838853249,
      "grad_norm": 0.7515065288080464,
      "learning_rate": 1.998209563477389e-05,
      "loss": 1.1761,
      "step": 790
    },
    {
      "epoch": 0.04855888762699899,
      "grad_norm": 0.6272621729292625,
      "learning_rate": 1.998197650708282e-05,
      "loss": 0.7934,
      "step": 791
    },
    {
      "epoch": 0.04862027686546548,
      "grad_norm": 0.7241484098709282,
      "learning_rate": 1.998185698475083e-05,
      "loss": 1.0988,
      "step": 792
    },
    {
      "epoch": 0.04868166610393198,
      "grad_norm": 0.7437297867976583,
      "learning_rate": 1.998173706778265e-05,
      "loss": 1.1743,
      "step": 793
    },
    {
      "epoch": 0.04874305534239848,
      "grad_norm": 0.7582568971867396,
      "learning_rate": 1.9981616756183015e-05,
      "loss": 1.2054,
      "step": 794
    },
    {
      "epoch": 0.04880444458086498,
      "grad_norm": 0.7437917872014516,
      "learning_rate": 1.9981496049956686e-05,
      "loss": 1.1493,
      "step": 795
    },
    {
      "epoch": 0.04886583381933147,
      "grad_norm": 0.7852479556260966,
      "learning_rate": 1.9981374949108434e-05,
      "loss": 1.1948,
      "step": 796
    },
    {
      "epoch": 0.04892722305779797,
      "grad_norm": 0.7578763959492948,
      "learning_rate": 1.9981253453643043e-05,
      "loss": 1.1979,
      "step": 797
    },
    {
      "epoch": 0.048988612296264465,
      "grad_norm": 0.7277533577108973,
      "learning_rate": 1.9981131563565324e-05,
      "loss": 1.0896,
      "step": 798
    },
    {
      "epoch": 0.049050001534730964,
      "grad_norm": 0.707677703062527,
      "learning_rate": 1.9981009278880087e-05,
      "loss": 1.0671,
      "step": 799
    },
    {
      "epoch": 0.049111390773197455,
      "grad_norm": 0.748204957645314,
      "learning_rate": 1.9980886599592172e-05,
      "loss": 1.1081,
      "step": 800
    },
    {
      "epoch": 0.049172780011663954,
      "grad_norm": 0.7381205771138163,
      "learning_rate": 1.9980763525706427e-05,
      "loss": 1.1719,
      "step": 801
    },
    {
      "epoch": 0.04923416925013045,
      "grad_norm": 0.7530172327482457,
      "learning_rate": 1.9980640057227724e-05,
      "loss": 1.1128,
      "step": 802
    },
    {
      "epoch": 0.04929555848859695,
      "grad_norm": 0.6992475939345937,
      "learning_rate": 1.9980516194160934e-05,
      "loss": 1.0989,
      "step": 803
    },
    {
      "epoch": 0.04935694772706344,
      "grad_norm": 0.7306616617180522,
      "learning_rate": 1.998039193651096e-05,
      "loss": 1.0689,
      "step": 804
    },
    {
      "epoch": 0.04941833696552994,
      "grad_norm": 0.7932469361744703,
      "learning_rate": 1.9980267284282718e-05,
      "loss": 1.1843,
      "step": 805
    },
    {
      "epoch": 0.04947972620399644,
      "grad_norm": 0.7222638032703429,
      "learning_rate": 1.9980142237481127e-05,
      "loss": 1.0842,
      "step": 806
    },
    {
      "epoch": 0.04954111544246294,
      "grad_norm": 0.8001336788959622,
      "learning_rate": 1.9980016796111138e-05,
      "loss": 1.1381,
      "step": 807
    },
    {
      "epoch": 0.049602504680929436,
      "grad_norm": 0.7148563212413472,
      "learning_rate": 1.997989096017771e-05,
      "loss": 1.1316,
      "step": 808
    },
    {
      "epoch": 0.04966389391939593,
      "grad_norm": 0.6975950811294557,
      "learning_rate": 1.9979764729685812e-05,
      "loss": 1.1293,
      "step": 809
    },
    {
      "epoch": 0.04972528315786243,
      "grad_norm": 0.7556131054819691,
      "learning_rate": 1.9979638104640443e-05,
      "loss": 1.0694,
      "step": 810
    },
    {
      "epoch": 0.049786672396328925,
      "grad_norm": 0.7192221570835338,
      "learning_rate": 1.99795110850466e-05,
      "loss": 1.1266,
      "step": 811
    },
    {
      "epoch": 0.049848061634795424,
      "grad_norm": 0.7134368014470679,
      "learning_rate": 1.9979383670909316e-05,
      "loss": 1.118,
      "step": 812
    },
    {
      "epoch": 0.049909450873261915,
      "grad_norm": 0.7794160903676629,
      "learning_rate": 1.9979255862233618e-05,
      "loss": 1.1587,
      "step": 813
    },
    {
      "epoch": 0.049970840111728414,
      "grad_norm": 0.7199056012880688,
      "learning_rate": 1.9979127659024563e-05,
      "loss": 1.1346,
      "step": 814
    },
    {
      "epoch": 0.05003222935019491,
      "grad_norm": 0.7267680979015805,
      "learning_rate": 1.9978999061287218e-05,
      "loss": 1.0688,
      "step": 815
    },
    {
      "epoch": 0.05009361858866141,
      "grad_norm": 0.7489975119219207,
      "learning_rate": 1.9978870069026674e-05,
      "loss": 1.1411,
      "step": 816
    },
    {
      "epoch": 0.0501550078271279,
      "grad_norm": 0.7886121207793451,
      "learning_rate": 1.9978740682248022e-05,
      "loss": 1.1988,
      "step": 817
    },
    {
      "epoch": 0.0502163970655944,
      "grad_norm": 0.715532146122128,
      "learning_rate": 1.9978610900956382e-05,
      "loss": 1.0892,
      "step": 818
    },
    {
      "epoch": 0.0502777863040609,
      "grad_norm": 0.7317696749303969,
      "learning_rate": 1.997848072515688e-05,
      "loss": 1.1325,
      "step": 819
    },
    {
      "epoch": 0.0503391755425274,
      "grad_norm": 0.7065643166474604,
      "learning_rate": 1.997835015485467e-05,
      "loss": 1.1191,
      "step": 820
    },
    {
      "epoch": 0.05040056478099389,
      "grad_norm": 0.7532452031757954,
      "learning_rate": 1.9978219190054908e-05,
      "loss": 1.0988,
      "step": 821
    },
    {
      "epoch": 0.05046195401946039,
      "grad_norm": 0.7350099745565847,
      "learning_rate": 1.9978087830762775e-05,
      "loss": 1.1152,
      "step": 822
    },
    {
      "epoch": 0.050523343257926887,
      "grad_norm": 0.8046183211043797,
      "learning_rate": 1.9977956076983464e-05,
      "loss": 1.1605,
      "step": 823
    },
    {
      "epoch": 0.050584732496393385,
      "grad_norm": 0.7369028226538585,
      "learning_rate": 1.9977823928722184e-05,
      "loss": 1.0826,
      "step": 824
    },
    {
      "epoch": 0.05064612173485988,
      "grad_norm": 0.7397196010015087,
      "learning_rate": 1.9977691385984158e-05,
      "loss": 1.1444,
      "step": 825
    },
    {
      "epoch": 0.050707510973326375,
      "grad_norm": 0.7436687966081014,
      "learning_rate": 1.997755844877463e-05,
      "loss": 1.1412,
      "step": 826
    },
    {
      "epoch": 0.050768900211792874,
      "grad_norm": 0.7189071995400316,
      "learning_rate": 1.9977425117098847e-05,
      "loss": 1.117,
      "step": 827
    },
    {
      "epoch": 0.05083028945025937,
      "grad_norm": 0.7251934743500912,
      "learning_rate": 1.9977291390962092e-05,
      "loss": 1.17,
      "step": 828
    },
    {
      "epoch": 0.050891678688725864,
      "grad_norm": 0.7631810714382377,
      "learning_rate": 1.9977157270369642e-05,
      "loss": 1.1646,
      "step": 829
    },
    {
      "epoch": 0.05095306792719236,
      "grad_norm": 0.7665264546353673,
      "learning_rate": 1.9977022755326803e-05,
      "loss": 1.1921,
      "step": 830
    },
    {
      "epoch": 0.05101445716565886,
      "grad_norm": 0.7148682303569512,
      "learning_rate": 1.9976887845838898e-05,
      "loss": 1.1285,
      "step": 831
    },
    {
      "epoch": 0.05107584640412536,
      "grad_norm": 0.719361592318689,
      "learning_rate": 1.9976752541911253e-05,
      "loss": 1.1123,
      "step": 832
    },
    {
      "epoch": 0.05113723564259185,
      "grad_norm": 0.7210683893069484,
      "learning_rate": 1.9976616843549218e-05,
      "loss": 1.2469,
      "step": 833
    },
    {
      "epoch": 0.05119862488105835,
      "grad_norm": 0.7225935498824239,
      "learning_rate": 1.9976480750758166e-05,
      "loss": 1.1148,
      "step": 834
    },
    {
      "epoch": 0.05126001411952485,
      "grad_norm": 0.6897373172711717,
      "learning_rate": 1.9976344263543467e-05,
      "loss": 1.0903,
      "step": 835
    },
    {
      "epoch": 0.051321403357991346,
      "grad_norm": 0.7559365271103914,
      "learning_rate": 1.9976207381910526e-05,
      "loss": 1.1596,
      "step": 836
    },
    {
      "epoch": 0.05138279259645784,
      "grad_norm": 0.7779309783872772,
      "learning_rate": 1.9976070105864747e-05,
      "loss": 1.1178,
      "step": 837
    },
    {
      "epoch": 0.05144418183492434,
      "grad_norm": 0.7147371030259492,
      "learning_rate": 1.9975932435411564e-05,
      "loss": 1.1271,
      "step": 838
    },
    {
      "epoch": 0.051505571073390835,
      "grad_norm": 0.7028019141869498,
      "learning_rate": 1.997579437055642e-05,
      "loss": 1.0896,
      "step": 839
    },
    {
      "epoch": 0.051566960311857334,
      "grad_norm": 0.7505884369771837,
      "learning_rate": 1.9975655911304767e-05,
      "loss": 1.1319,
      "step": 840
    },
    {
      "epoch": 0.051628349550323825,
      "grad_norm": 0.8182624944407202,
      "learning_rate": 1.9975517057662078e-05,
      "loss": 1.1878,
      "step": 841
    },
    {
      "epoch": 0.051689738788790324,
      "grad_norm": 0.7345421530229264,
      "learning_rate": 1.997537780963385e-05,
      "loss": 1.0855,
      "step": 842
    },
    {
      "epoch": 0.05175112802725682,
      "grad_norm": 0.7243904113033043,
      "learning_rate": 1.9975238167225587e-05,
      "loss": 1.164,
      "step": 843
    },
    {
      "epoch": 0.05181251726572332,
      "grad_norm": 0.6968553336751191,
      "learning_rate": 1.997509813044281e-05,
      "loss": 1.1313,
      "step": 844
    },
    {
      "epoch": 0.05187390650418981,
      "grad_norm": 0.7259872008329731,
      "learning_rate": 1.9974957699291045e-05,
      "loss": 1.1593,
      "step": 845
    },
    {
      "epoch": 0.05193529574265631,
      "grad_norm": 0.6965643754368576,
      "learning_rate": 1.997481687377586e-05,
      "loss": 1.1206,
      "step": 846
    },
    {
      "epoch": 0.05199668498112281,
      "grad_norm": 0.7004571058983039,
      "learning_rate": 1.997467565390281e-05,
      "loss": 1.0792,
      "step": 847
    },
    {
      "epoch": 0.05205807421958931,
      "grad_norm": 0.7139861425669346,
      "learning_rate": 1.9974534039677486e-05,
      "loss": 1.0965,
      "step": 848
    },
    {
      "epoch": 0.0521194634580558,
      "grad_norm": 0.6837842819899979,
      "learning_rate": 1.9974392031105484e-05,
      "loss": 1.1215,
      "step": 849
    },
    {
      "epoch": 0.0521808526965223,
      "grad_norm": 0.7479022778400282,
      "learning_rate": 1.9974249628192414e-05,
      "loss": 1.1321,
      "step": 850
    },
    {
      "epoch": 0.052242241934988796,
      "grad_norm": 0.7439068737939654,
      "learning_rate": 1.9974106830943914e-05,
      "loss": 1.146,
      "step": 851
    },
    {
      "epoch": 0.052303631173455295,
      "grad_norm": 0.7588824911093115,
      "learning_rate": 1.9973963639365626e-05,
      "loss": 1.1745,
      "step": 852
    },
    {
      "epoch": 0.052365020411921794,
      "grad_norm": 0.7681807243008826,
      "learning_rate": 1.9973820053463212e-05,
      "loss": 1.158,
      "step": 853
    },
    {
      "epoch": 0.052426409650388285,
      "grad_norm": 0.7531582560003983,
      "learning_rate": 1.9973676073242342e-05,
      "loss": 1.1554,
      "step": 854
    },
    {
      "epoch": 0.052487798888854784,
      "grad_norm": 0.7353881797782771,
      "learning_rate": 1.997353169870872e-05,
      "loss": 1.1243,
      "step": 855
    },
    {
      "epoch": 0.05254918812732128,
      "grad_norm": 0.6833125317822988,
      "learning_rate": 1.9973386929868046e-05,
      "loss": 1.0877,
      "step": 856
    },
    {
      "epoch": 0.05261057736578778,
      "grad_norm": 0.7235139504337162,
      "learning_rate": 1.997324176672604e-05,
      "loss": 1.1483,
      "step": 857
    },
    {
      "epoch": 0.05267196660425427,
      "grad_norm": 0.7700146281803621,
      "learning_rate": 1.9973096209288454e-05,
      "loss": 1.161,
      "step": 858
    },
    {
      "epoch": 0.05273335584272077,
      "grad_norm": 0.7618306995019547,
      "learning_rate": 1.9972950257561032e-05,
      "loss": 1.1675,
      "step": 859
    },
    {
      "epoch": 0.05279474508118727,
      "grad_norm": 0.7447131799469741,
      "learning_rate": 1.9972803911549547e-05,
      "loss": 1.1309,
      "step": 860
    },
    {
      "epoch": 0.05285613431965377,
      "grad_norm": 0.735199485511177,
      "learning_rate": 1.9972657171259784e-05,
      "loss": 1.1305,
      "step": 861
    },
    {
      "epoch": 0.05291752355812026,
      "grad_norm": 0.7206501293695079,
      "learning_rate": 1.9972510036697546e-05,
      "loss": 1.1486,
      "step": 862
    },
    {
      "epoch": 0.05297891279658676,
      "grad_norm": 0.7385602356649935,
      "learning_rate": 1.997236250786865e-05,
      "loss": 1.163,
      "step": 863
    },
    {
      "epoch": 0.053040302035053256,
      "grad_norm": 0.726721769705734,
      "learning_rate": 1.997221458477893e-05,
      "loss": 1.1457,
      "step": 864
    },
    {
      "epoch": 0.053101691273519755,
      "grad_norm": 0.6982707495048232,
      "learning_rate": 1.997206626743423e-05,
      "loss": 1.1148,
      "step": 865
    },
    {
      "epoch": 0.053163080511986247,
      "grad_norm": 0.6809491889364396,
      "learning_rate": 1.9971917555840415e-05,
      "loss": 1.0748,
      "step": 866
    },
    {
      "epoch": 0.053224469750452745,
      "grad_norm": 0.7606449384314324,
      "learning_rate": 1.9971768450003367e-05,
      "loss": 1.1515,
      "step": 867
    },
    {
      "epoch": 0.053285858988919244,
      "grad_norm": 0.7185811141864792,
      "learning_rate": 1.9971618949928978e-05,
      "loss": 1.1361,
      "step": 868
    },
    {
      "epoch": 0.05334724822738574,
      "grad_norm": 0.6731231324512101,
      "learning_rate": 1.997146905562316e-05,
      "loss": 1.1255,
      "step": 869
    },
    {
      "epoch": 0.053408637465852234,
      "grad_norm": 0.6960748267258489,
      "learning_rate": 1.9971318767091843e-05,
      "loss": 1.0763,
      "step": 870
    },
    {
      "epoch": 0.05347002670431873,
      "grad_norm": 0.7104089511458213,
      "learning_rate": 1.9971168084340963e-05,
      "loss": 1.1238,
      "step": 871
    },
    {
      "epoch": 0.05353141594278523,
      "grad_norm": 0.7800330825221081,
      "learning_rate": 1.997101700737648e-05,
      "loss": 1.1913,
      "step": 872
    },
    {
      "epoch": 0.05359280518125173,
      "grad_norm": 0.6604326064947451,
      "learning_rate": 1.997086553620436e-05,
      "loss": 1.0054,
      "step": 873
    },
    {
      "epoch": 0.05365419441971822,
      "grad_norm": 0.6857288098916402,
      "learning_rate": 1.9970713670830603e-05,
      "loss": 1.0822,
      "step": 874
    },
    {
      "epoch": 0.05371558365818472,
      "grad_norm": 0.7386780163839396,
      "learning_rate": 1.9970561411261206e-05,
      "loss": 1.1633,
      "step": 875
    },
    {
      "epoch": 0.05377697289665122,
      "grad_norm": 1.0436846782103062,
      "learning_rate": 1.9970408757502188e-05,
      "loss": 1.194,
      "step": 876
    },
    {
      "epoch": 0.053838362135117716,
      "grad_norm": 0.7343641351259214,
      "learning_rate": 1.997025570955959e-05,
      "loss": 1.1432,
      "step": 877
    },
    {
      "epoch": 0.05389975137358421,
      "grad_norm": 0.7151298443527637,
      "learning_rate": 1.9970102267439458e-05,
      "loss": 1.0868,
      "step": 878
    },
    {
      "epoch": 0.053961140612050706,
      "grad_norm": 0.8001054861676057,
      "learning_rate": 1.996994843114786e-05,
      "loss": 1.1121,
      "step": 879
    },
    {
      "epoch": 0.054022529850517205,
      "grad_norm": 0.7605549303635953,
      "learning_rate": 1.9969794200690874e-05,
      "loss": 1.1674,
      "step": 880
    },
    {
      "epoch": 0.054083919088983703,
      "grad_norm": 0.7112898510604219,
      "learning_rate": 1.9969639576074608e-05,
      "loss": 1.0996,
      "step": 881
    },
    {
      "epoch": 0.054145308327450195,
      "grad_norm": 0.7550327615149613,
      "learning_rate": 1.996948455730516e-05,
      "loss": 1.1344,
      "step": 882
    },
    {
      "epoch": 0.054206697565916694,
      "grad_norm": 0.7117865810773125,
      "learning_rate": 1.9969329144388673e-05,
      "loss": 1.1366,
      "step": 883
    },
    {
      "epoch": 0.05426808680438319,
      "grad_norm": 0.7435842374866539,
      "learning_rate": 1.9969173337331283e-05,
      "loss": 1.1428,
      "step": 884
    },
    {
      "epoch": 0.05432947604284969,
      "grad_norm": 0.6967227947356882,
      "learning_rate": 1.996901713613915e-05,
      "loss": 1.0782,
      "step": 885
    },
    {
      "epoch": 0.05439086528131618,
      "grad_norm": 0.7529251480643699,
      "learning_rate": 1.9968860540818453e-05,
      "loss": 1.1839,
      "step": 886
    },
    {
      "epoch": 0.05445225451978268,
      "grad_norm": 0.7260816890939995,
      "learning_rate": 1.9968703551375384e-05,
      "loss": 1.134,
      "step": 887
    },
    {
      "epoch": 0.05451364375824918,
      "grad_norm": 0.6869932343743724,
      "learning_rate": 1.9968546167816142e-05,
      "loss": 1.0676,
      "step": 888
    },
    {
      "epoch": 0.05457503299671568,
      "grad_norm": 0.7061646772829867,
      "learning_rate": 1.996838839014696e-05,
      "loss": 1.1175,
      "step": 889
    },
    {
      "epoch": 0.05463642223518217,
      "grad_norm": 0.6977003475674367,
      "learning_rate": 1.9968230218374067e-05,
      "loss": 1.0668,
      "step": 890
    },
    {
      "epoch": 0.05469781147364867,
      "grad_norm": 0.6966480348577078,
      "learning_rate": 1.9968071652503723e-05,
      "loss": 1.1238,
      "step": 891
    },
    {
      "epoch": 0.054759200712115166,
      "grad_norm": 0.6894984112662726,
      "learning_rate": 1.996791269254219e-05,
      "loss": 1.1079,
      "step": 892
    },
    {
      "epoch": 0.054820589950581665,
      "grad_norm": 0.7162228127717987,
      "learning_rate": 1.9967753338495755e-05,
      "loss": 1.1559,
      "step": 893
    },
    {
      "epoch": 0.054881979189048156,
      "grad_norm": 0.6845694484498657,
      "learning_rate": 1.9967593590370725e-05,
      "loss": 1.056,
      "step": 894
    },
    {
      "epoch": 0.054943368427514655,
      "grad_norm": 0.7208622178889027,
      "learning_rate": 1.9967433448173404e-05,
      "loss": 1.1262,
      "step": 895
    },
    {
      "epoch": 0.055004757665981154,
      "grad_norm": 0.6698901703400801,
      "learning_rate": 1.9967272911910133e-05,
      "loss": 1.1539,
      "step": 896
    },
    {
      "epoch": 0.05506614690444765,
      "grad_norm": 0.7500049954354371,
      "learning_rate": 1.9967111981587256e-05,
      "loss": 1.088,
      "step": 897
    },
    {
      "epoch": 0.05512753614291415,
      "grad_norm": 0.7635722318753629,
      "learning_rate": 1.996695065721113e-05,
      "loss": 1.172,
      "step": 898
    },
    {
      "epoch": 0.05518892538138064,
      "grad_norm": 0.7201758666841303,
      "learning_rate": 1.996678893878814e-05,
      "loss": 1.1444,
      "step": 899
    },
    {
      "epoch": 0.05525031461984714,
      "grad_norm": 0.7196665317843489,
      "learning_rate": 1.9966626826324676e-05,
      "loss": 1.1641,
      "step": 900
    },
    {
      "epoch": 0.05531170385831364,
      "grad_norm": 0.7056190012486814,
      "learning_rate": 1.996646431982715e-05,
      "loss": 1.0929,
      "step": 901
    },
    {
      "epoch": 0.05537309309678014,
      "grad_norm": 0.7218731785286906,
      "learning_rate": 1.9966301419301985e-05,
      "loss": 1.1166,
      "step": 902
    },
    {
      "epoch": 0.05543448233524663,
      "grad_norm": 0.7499354472211508,
      "learning_rate": 1.996613812475562e-05,
      "loss": 1.1263,
      "step": 903
    },
    {
      "epoch": 0.05549587157371313,
      "grad_norm": 0.6596187253018067,
      "learning_rate": 1.9965974436194514e-05,
      "loss": 1.0505,
      "step": 904
    },
    {
      "epoch": 0.055557260812179626,
      "grad_norm": 0.7821266939607426,
      "learning_rate": 1.9965810353625134e-05,
      "loss": 0.8042,
      "step": 905
    },
    {
      "epoch": 0.055618650050646125,
      "grad_norm": 0.7608807580134528,
      "learning_rate": 1.996564587705397e-05,
      "loss": 1.1622,
      "step": 906
    },
    {
      "epoch": 0.055680039289112616,
      "grad_norm": 0.7500384954858944,
      "learning_rate": 1.996548100648753e-05,
      "loss": 1.0953,
      "step": 907
    },
    {
      "epoch": 0.055741428527579115,
      "grad_norm": 0.7455223378494344,
      "learning_rate": 1.9965315741932324e-05,
      "loss": 1.1092,
      "step": 908
    },
    {
      "epoch": 0.05580281776604561,
      "grad_norm": 0.7916791216368545,
      "learning_rate": 1.9965150083394883e-05,
      "loss": 1.1869,
      "step": 909
    },
    {
      "epoch": 0.05586420700451211,
      "grad_norm": 0.6893898619258079,
      "learning_rate": 1.9964984030881767e-05,
      "loss": 1.1213,
      "step": 910
    },
    {
      "epoch": 0.055925596242978604,
      "grad_norm": 0.727164533166789,
      "learning_rate": 1.9964817584399535e-05,
      "loss": 1.146,
      "step": 911
    },
    {
      "epoch": 0.0559869854814451,
      "grad_norm": 0.7248938450995017,
      "learning_rate": 1.996465074395477e-05,
      "loss": 1.0843,
      "step": 912
    },
    {
      "epoch": 0.0560483747199116,
      "grad_norm": 0.6888212009091869,
      "learning_rate": 1.9964483509554064e-05,
      "loss": 1.1505,
      "step": 913
    },
    {
      "epoch": 0.0561097639583781,
      "grad_norm": 0.7239495764410521,
      "learning_rate": 1.996431588120403e-05,
      "loss": 1.146,
      "step": 914
    },
    {
      "epoch": 0.05617115319684459,
      "grad_norm": 0.6966121374390623,
      "learning_rate": 1.99641478589113e-05,
      "loss": 1.1217,
      "step": 915
    },
    {
      "epoch": 0.05623254243531109,
      "grad_norm": 0.6916760899700891,
      "learning_rate": 1.9963979442682508e-05,
      "loss": 1.1157,
      "step": 916
    },
    {
      "epoch": 0.05629393167377759,
      "grad_norm": 0.721763091640295,
      "learning_rate": 1.9963810632524324e-05,
      "loss": 1.1349,
      "step": 917
    },
    {
      "epoch": 0.056355320912244086,
      "grad_norm": 0.7106422509260326,
      "learning_rate": 1.996364142844341e-05,
      "loss": 1.1412,
      "step": 918
    },
    {
      "epoch": 0.05641671015071058,
      "grad_norm": 0.6849687754097832,
      "learning_rate": 1.9963471830446463e-05,
      "loss": 1.0972,
      "step": 919
    },
    {
      "epoch": 0.056478099389177076,
      "grad_norm": 0.711171665959118,
      "learning_rate": 1.9963301838540187e-05,
      "loss": 1.1485,
      "step": 920
    },
    {
      "epoch": 0.056539488627643575,
      "grad_norm": 0.7008559573432226,
      "learning_rate": 1.99631314527313e-05,
      "loss": 1.1213,
      "step": 921
    },
    {
      "epoch": 0.05660087786611007,
      "grad_norm": 0.7042056575969771,
      "learning_rate": 1.9962960673026538e-05,
      "loss": 1.122,
      "step": 922
    },
    {
      "epoch": 0.056662267104576565,
      "grad_norm": 0.7146497140518919,
      "learning_rate": 1.9962789499432663e-05,
      "loss": 1.1151,
      "step": 923
    },
    {
      "epoch": 0.056723656343043063,
      "grad_norm": 0.6849946761388952,
      "learning_rate": 1.9962617931956427e-05,
      "loss": 1.0889,
      "step": 924
    },
    {
      "epoch": 0.05678504558150956,
      "grad_norm": 0.6813407802993461,
      "learning_rate": 1.9962445970604622e-05,
      "loss": 1.1161,
      "step": 925
    },
    {
      "epoch": 0.05684643481997606,
      "grad_norm": 0.6924139785861264,
      "learning_rate": 1.9962273615384046e-05,
      "loss": 1.118,
      "step": 926
    },
    {
      "epoch": 0.05690782405844255,
      "grad_norm": 0.6788305476349128,
      "learning_rate": 1.9962100866301513e-05,
      "loss": 1.0993,
      "step": 927
    },
    {
      "epoch": 0.05696921329690905,
      "grad_norm": 0.707691218955064,
      "learning_rate": 1.996192772336385e-05,
      "loss": 1.1113,
      "step": 928
    },
    {
      "epoch": 0.05703060253537555,
      "grad_norm": 0.7287411513391213,
      "learning_rate": 1.9961754186577906e-05,
      "loss": 1.1938,
      "step": 929
    },
    {
      "epoch": 0.05709199177384205,
      "grad_norm": 0.6770458160924661,
      "learning_rate": 1.996158025595054e-05,
      "loss": 1.1378,
      "step": 930
    },
    {
      "epoch": 0.05715338101230854,
      "grad_norm": 0.7084735624351934,
      "learning_rate": 1.9961405931488622e-05,
      "loss": 1.108,
      "step": 931
    },
    {
      "epoch": 0.05721477025077504,
      "grad_norm": 0.7068453181333421,
      "learning_rate": 1.9961231213199053e-05,
      "loss": 1.1746,
      "step": 932
    },
    {
      "epoch": 0.057276159489241536,
      "grad_norm": 0.6806565342790187,
      "learning_rate": 1.9961056101088738e-05,
      "loss": 1.0798,
      "step": 933
    },
    {
      "epoch": 0.057337548727708035,
      "grad_norm": 0.6998449418046805,
      "learning_rate": 1.9960880595164603e-05,
      "loss": 1.0967,
      "step": 934
    },
    {
      "epoch": 0.057398937966174526,
      "grad_norm": 0.7239855003922621,
      "learning_rate": 1.996070469543358e-05,
      "loss": 1.1971,
      "step": 935
    },
    {
      "epoch": 0.057460327204641025,
      "grad_norm": 0.7415418058441445,
      "learning_rate": 1.996052840190263e-05,
      "loss": 1.1704,
      "step": 936
    },
    {
      "epoch": 0.05752171644310752,
      "grad_norm": 0.731885126990757,
      "learning_rate": 1.9960351714578718e-05,
      "loss": 1.1612,
      "step": 937
    },
    {
      "epoch": 0.05758310568157402,
      "grad_norm": 0.7225173073551179,
      "learning_rate": 1.996017463346883e-05,
      "loss": 1.1117,
      "step": 938
    },
    {
      "epoch": 0.057644494920040514,
      "grad_norm": 0.7044017121674717,
      "learning_rate": 1.995999715857997e-05,
      "loss": 1.068,
      "step": 939
    },
    {
      "epoch": 0.05770588415850701,
      "grad_norm": 0.7406272211253818,
      "learning_rate": 1.995981928991915e-05,
      "loss": 1.1124,
      "step": 940
    },
    {
      "epoch": 0.05776727339697351,
      "grad_norm": 0.7359537783262093,
      "learning_rate": 1.9959641027493405e-05,
      "loss": 1.144,
      "step": 941
    },
    {
      "epoch": 0.05782866263544001,
      "grad_norm": 0.7120773982565373,
      "learning_rate": 1.9959462371309785e-05,
      "loss": 1.137,
      "step": 942
    },
    {
      "epoch": 0.05789005187390651,
      "grad_norm": 0.6935791651999402,
      "learning_rate": 1.995928332137535e-05,
      "loss": 1.0986,
      "step": 943
    },
    {
      "epoch": 0.057951441112373,
      "grad_norm": 0.7483880681714625,
      "learning_rate": 1.9959103877697178e-05,
      "loss": 1.1445,
      "step": 944
    },
    {
      "epoch": 0.0580128303508395,
      "grad_norm": 0.7078352943189852,
      "learning_rate": 1.9958924040282365e-05,
      "loss": 1.0991,
      "step": 945
    },
    {
      "epoch": 0.058074219589305996,
      "grad_norm": 0.6785193339228087,
      "learning_rate": 1.9958743809138018e-05,
      "loss": 1.0558,
      "step": 946
    },
    {
      "epoch": 0.058135608827772495,
      "grad_norm": 0.7068963452347747,
      "learning_rate": 1.995856318427127e-05,
      "loss": 1.0829,
      "step": 947
    },
    {
      "epoch": 0.058196998066238986,
      "grad_norm": 0.6967666348171478,
      "learning_rate": 1.9958382165689253e-05,
      "loss": 1.1048,
      "step": 948
    },
    {
      "epoch": 0.058258387304705485,
      "grad_norm": 0.6971334991241783,
      "learning_rate": 1.995820075339913e-05,
      "loss": 1.0887,
      "step": 949
    },
    {
      "epoch": 0.05831977654317198,
      "grad_norm": 0.7015921635005818,
      "learning_rate": 1.995801894740807e-05,
      "loss": 1.0974,
      "step": 950
    },
    {
      "epoch": 0.05838116578163848,
      "grad_norm": 0.7213093026302275,
      "learning_rate": 1.9957836747723266e-05,
      "loss": 1.1101,
      "step": 951
    },
    {
      "epoch": 0.05844255502010497,
      "grad_norm": 0.7509438385596041,
      "learning_rate": 1.995765415435191e-05,
      "loss": 1.1288,
      "step": 952
    },
    {
      "epoch": 0.05850394425857147,
      "grad_norm": 0.6870751369501742,
      "learning_rate": 1.9957471167301232e-05,
      "loss": 1.0282,
      "step": 953
    },
    {
      "epoch": 0.05856533349703797,
      "grad_norm": 0.6591707022646244,
      "learning_rate": 1.995728778657846e-05,
      "loss": 1.1076,
      "step": 954
    },
    {
      "epoch": 0.05862672273550447,
      "grad_norm": 0.7050556699692314,
      "learning_rate": 1.995710401219085e-05,
      "loss": 1.1075,
      "step": 955
    },
    {
      "epoch": 0.05868811197397096,
      "grad_norm": 0.7402608046706802,
      "learning_rate": 1.9956919844145663e-05,
      "loss": 1.1314,
      "step": 956
    },
    {
      "epoch": 0.05874950121243746,
      "grad_norm": 0.6751546511799987,
      "learning_rate": 1.995673528245018e-05,
      "loss": 1.108,
      "step": 957
    },
    {
      "epoch": 0.05881089045090396,
      "grad_norm": 0.6969905768694461,
      "learning_rate": 1.99565503271117e-05,
      "loss": 1.0887,
      "step": 958
    },
    {
      "epoch": 0.058872279689370456,
      "grad_norm": 0.79703428404519,
      "learning_rate": 1.9956364978137536e-05,
      "loss": 1.188,
      "step": 959
    },
    {
      "epoch": 0.05893366892783695,
      "grad_norm": 0.6279344321195458,
      "learning_rate": 1.995617923553501e-05,
      "loss": 0.8149,
      "step": 960
    },
    {
      "epoch": 0.058995058166303446,
      "grad_norm": 0.7365661488474026,
      "learning_rate": 1.995599309931147e-05,
      "loss": 1.0603,
      "step": 961
    },
    {
      "epoch": 0.059056447404769945,
      "grad_norm": 0.7142361932026522,
      "learning_rate": 1.9955806569474277e-05,
      "loss": 1.1123,
      "step": 962
    },
    {
      "epoch": 0.05911783664323644,
      "grad_norm": 0.7264740080104672,
      "learning_rate": 1.99556196460308e-05,
      "loss": 1.1707,
      "step": 963
    },
    {
      "epoch": 0.059179225881702935,
      "grad_norm": 0.7393558541132236,
      "learning_rate": 1.9955432328988437e-05,
      "loss": 1.1471,
      "step": 964
    },
    {
      "epoch": 0.05924061512016943,
      "grad_norm": 0.6960864881894588,
      "learning_rate": 1.9955244618354582e-05,
      "loss": 1.152,
      "step": 965
    },
    {
      "epoch": 0.05930200435863593,
      "grad_norm": 0.7304967047157572,
      "learning_rate": 1.9955056514136667e-05,
      "loss": 1.122,
      "step": 966
    },
    {
      "epoch": 0.05936339359710243,
      "grad_norm": 0.6540802725625529,
      "learning_rate": 1.9954868016342125e-05,
      "loss": 1.0475,
      "step": 967
    },
    {
      "epoch": 0.05942478283556892,
      "grad_norm": 0.6920068502609049,
      "learning_rate": 1.9954679124978407e-05,
      "loss": 1.1108,
      "step": 968
    },
    {
      "epoch": 0.05948617207403542,
      "grad_norm": 0.7017959411744159,
      "learning_rate": 1.995448984005298e-05,
      "loss": 1.1078,
      "step": 969
    },
    {
      "epoch": 0.05954756131250192,
      "grad_norm": 0.7460729664072924,
      "learning_rate": 1.9954300161573333e-05,
      "loss": 1.1008,
      "step": 970
    },
    {
      "epoch": 0.05960895055096842,
      "grad_norm": 0.6558500008588308,
      "learning_rate": 1.9954110089546958e-05,
      "loss": 1.0257,
      "step": 971
    },
    {
      "epoch": 0.05967033978943491,
      "grad_norm": 0.7447250626380195,
      "learning_rate": 1.9953919623981373e-05,
      "loss": 1.1039,
      "step": 972
    },
    {
      "epoch": 0.05973172902790141,
      "grad_norm": 0.7411730797812174,
      "learning_rate": 1.995372876488411e-05,
      "loss": 1.1689,
      "step": 973
    },
    {
      "epoch": 0.059793118266367906,
      "grad_norm": 0.7786439026324248,
      "learning_rate": 1.995353751226271e-05,
      "loss": 1.2032,
      "step": 974
    },
    {
      "epoch": 0.059854507504834405,
      "grad_norm": 0.7177618005902054,
      "learning_rate": 1.995334586612474e-05,
      "loss": 1.1492,
      "step": 975
    },
    {
      "epoch": 0.059915896743300896,
      "grad_norm": 0.6726860700465708,
      "learning_rate": 1.995315382647777e-05,
      "loss": 1.0604,
      "step": 976
    },
    {
      "epoch": 0.059977285981767395,
      "grad_norm": 0.733470200458601,
      "learning_rate": 1.99529613933294e-05,
      "loss": 1.1689,
      "step": 977
    },
    {
      "epoch": 0.06003867522023389,
      "grad_norm": 0.7699211320291077,
      "learning_rate": 1.995276856668723e-05,
      "loss": 1.0804,
      "step": 978
    },
    {
      "epoch": 0.06010006445870039,
      "grad_norm": 0.7414477692770061,
      "learning_rate": 1.995257534655889e-05,
      "loss": 1.1559,
      "step": 979
    },
    {
      "epoch": 0.06016145369716688,
      "grad_norm": 0.7173826006268019,
      "learning_rate": 1.9952381732952016e-05,
      "loss": 1.1343,
      "step": 980
    },
    {
      "epoch": 0.06022284293563338,
      "grad_norm": 0.6998322346904831,
      "learning_rate": 1.9952187725874262e-05,
      "loss": 1.1095,
      "step": 981
    },
    {
      "epoch": 0.06028423217409988,
      "grad_norm": 0.7363755782682772,
      "learning_rate": 1.99519933253333e-05,
      "loss": 1.1455,
      "step": 982
    },
    {
      "epoch": 0.06034562141256638,
      "grad_norm": 0.7189375997688671,
      "learning_rate": 1.9951798531336814e-05,
      "loss": 1.1637,
      "step": 983
    },
    {
      "epoch": 0.06040701065103287,
      "grad_norm": 0.704326563886428,
      "learning_rate": 1.9951603343892506e-05,
      "loss": 1.1491,
      "step": 984
    },
    {
      "epoch": 0.06046839988949937,
      "grad_norm": 0.6576303104546052,
      "learning_rate": 1.9951407763008098e-05,
      "loss": 1.1538,
      "step": 985
    },
    {
      "epoch": 0.06052978912796587,
      "grad_norm": 0.6686701072895219,
      "learning_rate": 1.995121178869131e-05,
      "loss": 1.0676,
      "step": 986
    },
    {
      "epoch": 0.060591178366432366,
      "grad_norm": 0.6710985747776785,
      "learning_rate": 1.99510154209499e-05,
      "loss": 1.1204,
      "step": 987
    },
    {
      "epoch": 0.060652567604898865,
      "grad_norm": 0.6841316829336822,
      "learning_rate": 1.995081865979163e-05,
      "loss": 1.1338,
      "step": 988
    },
    {
      "epoch": 0.060713956843365356,
      "grad_norm": 0.7075478394116035,
      "learning_rate": 1.9950621505224276e-05,
      "loss": 1.0721,
      "step": 989
    },
    {
      "epoch": 0.060775346081831855,
      "grad_norm": 0.7492995154052825,
      "learning_rate": 1.9950423957255635e-05,
      "loss": 1.1461,
      "step": 990
    },
    {
      "epoch": 0.06083673532029835,
      "grad_norm": 0.7216120241834718,
      "learning_rate": 1.9950226015893515e-05,
      "loss": 1.132,
      "step": 991
    },
    {
      "epoch": 0.06089812455876485,
      "grad_norm": 0.7064561634320181,
      "learning_rate": 1.9950027681145743e-05,
      "loss": 1.0942,
      "step": 992
    },
    {
      "epoch": 0.06095951379723134,
      "grad_norm": 0.6859829103024435,
      "learning_rate": 1.9949828953020164e-05,
      "loss": 1.1107,
      "step": 993
    },
    {
      "epoch": 0.06102090303569784,
      "grad_norm": 0.6993945338826659,
      "learning_rate": 1.994962983152463e-05,
      "loss": 1.0792,
      "step": 994
    },
    {
      "epoch": 0.06108229227416434,
      "grad_norm": 0.6829199658460964,
      "learning_rate": 1.9949430316667012e-05,
      "loss": 1.0903,
      "step": 995
    },
    {
      "epoch": 0.06114368151263084,
      "grad_norm": 0.7070501212289965,
      "learning_rate": 1.99492304084552e-05,
      "loss": 1.0363,
      "step": 996
    },
    {
      "epoch": 0.06120507075109733,
      "grad_norm": 0.7851989321454843,
      "learning_rate": 1.99490301068971e-05,
      "loss": 1.1322,
      "step": 997
    },
    {
      "epoch": 0.06126645998956383,
      "grad_norm": 0.7196182890007453,
      "learning_rate": 1.9948829412000624e-05,
      "loss": 1.1109,
      "step": 998
    },
    {
      "epoch": 0.06132784922803033,
      "grad_norm": 0.6905794692581491,
      "learning_rate": 1.9948628323773717e-05,
      "loss": 1.1277,
      "step": 999
    },
    {
      "epoch": 0.061389238466496826,
      "grad_norm": 0.743499545328414,
      "learning_rate": 1.9948426842224322e-05,
      "loss": 1.1412,
      "step": 1000
    },
    {
      "epoch": 0.06145062770496332,
      "grad_norm": 0.7088802713527481,
      "learning_rate": 1.9948224967360407e-05,
      "loss": 1.1041,
      "step": 1001
    },
    {
      "epoch": 0.061512016943429816,
      "grad_norm": 0.6957241474265962,
      "learning_rate": 1.994802269918995e-05,
      "loss": 1.1222,
      "step": 1002
    },
    {
      "epoch": 0.061573406181896315,
      "grad_norm": 0.7458829236634117,
      "learning_rate": 1.994782003772095e-05,
      "loss": 1.1124,
      "step": 1003
    },
    {
      "epoch": 0.06163479542036281,
      "grad_norm": 0.7164834634075483,
      "learning_rate": 1.994761698296142e-05,
      "loss": 1.121,
      "step": 1004
    },
    {
      "epoch": 0.061696184658829305,
      "grad_norm": 0.7817532669527326,
      "learning_rate": 1.9947413534919386e-05,
      "loss": 1.1659,
      "step": 1005
    },
    {
      "epoch": 0.0617575738972958,
      "grad_norm": 0.7086299385013355,
      "learning_rate": 1.9947209693602892e-05,
      "loss": 1.1583,
      "step": 1006
    },
    {
      "epoch": 0.0618189631357623,
      "grad_norm": 0.691766885238514,
      "learning_rate": 1.994700545902e-05,
      "loss": 1.0824,
      "step": 1007
    },
    {
      "epoch": 0.0618803523742288,
      "grad_norm": 0.7360968559356352,
      "learning_rate": 1.9946800831178778e-05,
      "loss": 1.2075,
      "step": 1008
    },
    {
      "epoch": 0.06194174161269529,
      "grad_norm": 0.7280256517861071,
      "learning_rate": 1.9946595810087324e-05,
      "loss": 1.1258,
      "step": 1009
    },
    {
      "epoch": 0.06200313085116179,
      "grad_norm": 0.6865879294110315,
      "learning_rate": 1.9946390395753737e-05,
      "loss": 1.1237,
      "step": 1010
    },
    {
      "epoch": 0.06206452008962829,
      "grad_norm": 0.7076701118912161,
      "learning_rate": 1.994618458818614e-05,
      "loss": 1.091,
      "step": 1011
    },
    {
      "epoch": 0.06212590932809479,
      "grad_norm": 0.6459236707333548,
      "learning_rate": 1.994597838739267e-05,
      "loss": 1.0506,
      "step": 1012
    },
    {
      "epoch": 0.06218729856656128,
      "grad_norm": 0.7197144565066088,
      "learning_rate": 1.9945771793381486e-05,
      "loss": 1.1471,
      "step": 1013
    },
    {
      "epoch": 0.06224868780502778,
      "grad_norm": 0.7208086847282473,
      "learning_rate": 1.9945564806160744e-05,
      "loss": 1.117,
      "step": 1014
    },
    {
      "epoch": 0.062310077043494276,
      "grad_norm": 0.6789498537113078,
      "learning_rate": 1.9945357425738634e-05,
      "loss": 1.0852,
      "step": 1015
    },
    {
      "epoch": 0.062371466281960775,
      "grad_norm": 0.7627799591750611,
      "learning_rate": 1.994514965212335e-05,
      "loss": 1.1289,
      "step": 1016
    },
    {
      "epoch": 0.062432855520427266,
      "grad_norm": 0.7166699520383353,
      "learning_rate": 1.9944941485323114e-05,
      "loss": 1.0645,
      "step": 1017
    },
    {
      "epoch": 0.062494244758893765,
      "grad_norm": 0.6728630686305658,
      "learning_rate": 1.994473292534615e-05,
      "loss": 1.0877,
      "step": 1018
    },
    {
      "epoch": 0.06255563399736026,
      "grad_norm": 0.7245626078678764,
      "learning_rate": 1.9944523972200708e-05,
      "loss": 1.0905,
      "step": 1019
    },
    {
      "epoch": 0.06261702323582675,
      "grad_norm": 0.7145276966686405,
      "learning_rate": 1.9944314625895043e-05,
      "loss": 1.0526,
      "step": 1020
    },
    {
      "epoch": 0.06267841247429326,
      "grad_norm": 0.7090346961380832,
      "learning_rate": 1.9944104886437434e-05,
      "loss": 1.0912,
      "step": 1021
    },
    {
      "epoch": 0.06273980171275975,
      "grad_norm": 0.7115961297779134,
      "learning_rate": 1.9943894753836176e-05,
      "loss": 1.1422,
      "step": 1022
    },
    {
      "epoch": 0.06280119095122624,
      "grad_norm": 0.726900764859675,
      "learning_rate": 1.9943684228099576e-05,
      "loss": 1.1192,
      "step": 1023
    },
    {
      "epoch": 0.06286258018969275,
      "grad_norm": 0.6660641917586639,
      "learning_rate": 1.9943473309235953e-05,
      "loss": 0.8423,
      "step": 1024
    },
    {
      "epoch": 0.06292396942815924,
      "grad_norm": 0.6806702798140986,
      "learning_rate": 1.994326199725365e-05,
      "loss": 1.0969,
      "step": 1025
    },
    {
      "epoch": 0.06298535866662575,
      "grad_norm": 0.7514047024143096,
      "learning_rate": 1.994305029216102e-05,
      "loss": 1.1007,
      "step": 1026
    },
    {
      "epoch": 0.06304674790509224,
      "grad_norm": 0.6829563418319989,
      "learning_rate": 1.9942838193966434e-05,
      "loss": 1.0789,
      "step": 1027
    },
    {
      "epoch": 0.06310813714355873,
      "grad_norm": 0.7294818907616922,
      "learning_rate": 1.9942625702678275e-05,
      "loss": 1.1534,
      "step": 1028
    },
    {
      "epoch": 0.06316952638202523,
      "grad_norm": 0.7552260206178909,
      "learning_rate": 1.9942412818304944e-05,
      "loss": 1.1196,
      "step": 1029
    },
    {
      "epoch": 0.06323091562049173,
      "grad_norm": 0.7134642034078001,
      "learning_rate": 1.9942199540854858e-05,
      "loss": 1.0892,
      "step": 1030
    },
    {
      "epoch": 0.06329230485895823,
      "grad_norm": 0.6506084894819081,
      "learning_rate": 1.9941985870336452e-05,
      "loss": 1.052,
      "step": 1031
    },
    {
      "epoch": 0.06335369409742472,
      "grad_norm": 0.7415110672359404,
      "learning_rate": 1.994177180675817e-05,
      "loss": 1.0891,
      "step": 1032
    },
    {
      "epoch": 0.06341508333589121,
      "grad_norm": 0.6517756471309314,
      "learning_rate": 1.9941557350128477e-05,
      "loss": 1.0961,
      "step": 1033
    },
    {
      "epoch": 0.06347647257435772,
      "grad_norm": 0.7232348485086876,
      "learning_rate": 1.994134250045585e-05,
      "loss": 1.1405,
      "step": 1034
    },
    {
      "epoch": 0.06353786181282421,
      "grad_norm": 0.7088705182406771,
      "learning_rate": 1.9941127257748784e-05,
      "loss": 1.0954,
      "step": 1035
    },
    {
      "epoch": 0.0635992510512907,
      "grad_norm": 0.6869120819840114,
      "learning_rate": 1.9940911622015786e-05,
      "loss": 1.1184,
      "step": 1036
    },
    {
      "epoch": 0.06366064028975721,
      "grad_norm": 0.6659544347666773,
      "learning_rate": 1.9940695593265386e-05,
      "loss": 1.0736,
      "step": 1037
    },
    {
      "epoch": 0.0637220295282237,
      "grad_norm": 0.6897668340992034,
      "learning_rate": 1.9940479171506126e-05,
      "loss": 1.0874,
      "step": 1038
    },
    {
      "epoch": 0.0637834187666902,
      "grad_norm": 0.6803816625860779,
      "learning_rate": 1.9940262356746553e-05,
      "loss": 1.0734,
      "step": 1039
    },
    {
      "epoch": 0.0638448080051567,
      "grad_norm": 0.7551654443448673,
      "learning_rate": 1.994004514899525e-05,
      "loss": 1.1931,
      "step": 1040
    },
    {
      "epoch": 0.06390619724362319,
      "grad_norm": 0.7494914013822495,
      "learning_rate": 1.9939827548260793e-05,
      "loss": 1.1606,
      "step": 1041
    },
    {
      "epoch": 0.0639675864820897,
      "grad_norm": 0.7306780273109572,
      "learning_rate": 1.99396095545518e-05,
      "loss": 1.1127,
      "step": 1042
    },
    {
      "epoch": 0.06402897572055619,
      "grad_norm": 0.6985851375302441,
      "learning_rate": 1.9939391167876875e-05,
      "loss": 1.0907,
      "step": 1043
    },
    {
      "epoch": 0.06409036495902268,
      "grad_norm": 0.7136793106643905,
      "learning_rate": 1.993917238824466e-05,
      "loss": 1.1246,
      "step": 1044
    },
    {
      "epoch": 0.06415175419748918,
      "grad_norm": 0.7242846505916726,
      "learning_rate": 1.9938953215663795e-05,
      "loss": 1.0715,
      "step": 1045
    },
    {
      "epoch": 0.06421314343595567,
      "grad_norm": 0.7272892945428503,
      "learning_rate": 1.993873365014296e-05,
      "loss": 1.121,
      "step": 1046
    },
    {
      "epoch": 0.06427453267442218,
      "grad_norm": 0.7183911622527438,
      "learning_rate": 1.9938513691690823e-05,
      "loss": 1.0944,
      "step": 1047
    },
    {
      "epoch": 0.06433592191288867,
      "grad_norm": 0.698719395037527,
      "learning_rate": 1.993829334031609e-05,
      "loss": 1.1414,
      "step": 1048
    },
    {
      "epoch": 0.06439731115135516,
      "grad_norm": 0.7885828125102973,
      "learning_rate": 1.9938072596027464e-05,
      "loss": 1.1566,
      "step": 1049
    },
    {
      "epoch": 0.06445870038982167,
      "grad_norm": 0.6557408259883557,
      "learning_rate": 1.9937851458833675e-05,
      "loss": 1.0792,
      "step": 1050
    },
    {
      "epoch": 0.06452008962828816,
      "grad_norm": 0.7480243331440886,
      "learning_rate": 1.9937629928743468e-05,
      "loss": 1.1242,
      "step": 1051
    },
    {
      "epoch": 0.06458147886675465,
      "grad_norm": 0.7225940251915665,
      "learning_rate": 1.9937408005765596e-05,
      "loss": 1.1172,
      "step": 1052
    },
    {
      "epoch": 0.06464286810522116,
      "grad_norm": 0.6944460030787366,
      "learning_rate": 1.9937185689908842e-05,
      "loss": 1.0946,
      "step": 1053
    },
    {
      "epoch": 0.06470425734368765,
      "grad_norm": 0.6366727953922009,
      "learning_rate": 1.9936962981181985e-05,
      "loss": 0.8062,
      "step": 1054
    },
    {
      "epoch": 0.06476564658215415,
      "grad_norm": 0.6933860332490706,
      "learning_rate": 1.993673987959384e-05,
      "loss": 1.1533,
      "step": 1055
    },
    {
      "epoch": 0.06482703582062065,
      "grad_norm": 0.6889092877088043,
      "learning_rate": 1.9936516385153218e-05,
      "loss": 1.1607,
      "step": 1056
    },
    {
      "epoch": 0.06488842505908714,
      "grad_norm": 0.7072731341909343,
      "learning_rate": 1.993629249786896e-05,
      "loss": 1.1352,
      "step": 1057
    },
    {
      "epoch": 0.06494981429755364,
      "grad_norm": 0.6284030408815563,
      "learning_rate": 1.993606821774992e-05,
      "loss": 1.0757,
      "step": 1058
    },
    {
      "epoch": 0.06501120353602013,
      "grad_norm": 0.7532190317066815,
      "learning_rate": 1.993584354480496e-05,
      "loss": 1.1279,
      "step": 1059
    },
    {
      "epoch": 0.06507259277448663,
      "grad_norm": 0.7306901396713728,
      "learning_rate": 1.9935618479042958e-05,
      "loss": 1.1266,
      "step": 1060
    },
    {
      "epoch": 0.06513398201295313,
      "grad_norm": 0.686231631251216,
      "learning_rate": 1.9935393020472827e-05,
      "loss": 0.8026,
      "step": 1061
    },
    {
      "epoch": 0.06519537125141962,
      "grad_norm": 0.7281728401478437,
      "learning_rate": 1.9935167169103465e-05,
      "loss": 1.0659,
      "step": 1062
    },
    {
      "epoch": 0.06525676048988613,
      "grad_norm": 0.7325480483507273,
      "learning_rate": 1.9934940924943814e-05,
      "loss": 1.0917,
      "step": 1063
    },
    {
      "epoch": 0.06531814972835262,
      "grad_norm": 0.7288824021769186,
      "learning_rate": 1.993471428800281e-05,
      "loss": 1.1254,
      "step": 1064
    },
    {
      "epoch": 0.06537953896681911,
      "grad_norm": 0.7375803614212979,
      "learning_rate": 1.993448725828941e-05,
      "loss": 1.1715,
      "step": 1065
    },
    {
      "epoch": 0.06544092820528562,
      "grad_norm": 0.6874473356902658,
      "learning_rate": 1.99342598358126e-05,
      "loss": 1.1012,
      "step": 1066
    },
    {
      "epoch": 0.06550231744375211,
      "grad_norm": 0.6449538660004794,
      "learning_rate": 1.9934032020581366e-05,
      "loss": 1.0623,
      "step": 1067
    },
    {
      "epoch": 0.0655637066822186,
      "grad_norm": 0.7262726754245834,
      "learning_rate": 1.9933803812604714e-05,
      "loss": 1.1194,
      "step": 1068
    },
    {
      "epoch": 0.0656250959206851,
      "grad_norm": 0.7115153279002217,
      "learning_rate": 1.993357521189167e-05,
      "loss": 1.1356,
      "step": 1069
    },
    {
      "epoch": 0.0656864851591516,
      "grad_norm": 0.6240316754368432,
      "learning_rate": 1.993334621845127e-05,
      "loss": 1.0449,
      "step": 1070
    },
    {
      "epoch": 0.0657478743976181,
      "grad_norm": 0.638686688683007,
      "learning_rate": 1.9933116832292566e-05,
      "loss": 1.077,
      "step": 1071
    },
    {
      "epoch": 0.0658092636360846,
      "grad_norm": 0.6928811114735507,
      "learning_rate": 1.9932887053424626e-05,
      "loss": 1.0637,
      "step": 1072
    },
    {
      "epoch": 0.06587065287455109,
      "grad_norm": 0.6975055095249653,
      "learning_rate": 1.9932656881856534e-05,
      "loss": 1.0774,
      "step": 1073
    },
    {
      "epoch": 0.06593204211301759,
      "grad_norm": 0.7100350878794324,
      "learning_rate": 1.99324263175974e-05,
      "loss": 1.1148,
      "step": 1074
    },
    {
      "epoch": 0.06599343135148408,
      "grad_norm": 0.6968474080444191,
      "learning_rate": 1.9932195360656324e-05,
      "loss": 1.0785,
      "step": 1075
    },
    {
      "epoch": 0.06605482058995059,
      "grad_norm": 0.7546490785087129,
      "learning_rate": 1.9931964011042443e-05,
      "loss": 1.0926,
      "step": 1076
    },
    {
      "epoch": 0.06611620982841708,
      "grad_norm": 0.7707294318747008,
      "learning_rate": 1.9931732268764908e-05,
      "loss": 1.1141,
      "step": 1077
    },
    {
      "epoch": 0.06617759906688357,
      "grad_norm": 0.6954725628962702,
      "learning_rate": 1.993150013383288e-05,
      "loss": 1.1016,
      "step": 1078
    },
    {
      "epoch": 0.06623898830535008,
      "grad_norm": 0.7498801159089421,
      "learning_rate": 1.993126760625553e-05,
      "loss": 1.1135,
      "step": 1079
    },
    {
      "epoch": 0.06630037754381657,
      "grad_norm": 0.707274736631329,
      "learning_rate": 1.993103468604206e-05,
      "loss": 1.1034,
      "step": 1080
    },
    {
      "epoch": 0.06636176678228306,
      "grad_norm": 0.6485222463314516,
      "learning_rate": 1.9930801373201668e-05,
      "loss": 1.0563,
      "step": 1081
    },
    {
      "epoch": 0.06642315602074957,
      "grad_norm": 0.713020448375718,
      "learning_rate": 1.993056766774359e-05,
      "loss": 1.1211,
      "step": 1082
    },
    {
      "epoch": 0.06648454525921606,
      "grad_norm": 0.6944396571671687,
      "learning_rate": 1.993033356967706e-05,
      "loss": 1.114,
      "step": 1083
    },
    {
      "epoch": 0.06654593449768256,
      "grad_norm": 0.6705599983320162,
      "learning_rate": 1.9930099079011326e-05,
      "loss": 1.0897,
      "step": 1084
    },
    {
      "epoch": 0.06660732373614905,
      "grad_norm": 0.7280085520697323,
      "learning_rate": 1.992986419575567e-05,
      "loss": 1.1075,
      "step": 1085
    },
    {
      "epoch": 0.06666871297461555,
      "grad_norm": 0.6706895946310851,
      "learning_rate": 1.9929628919919373e-05,
      "loss": 1.089,
      "step": 1086
    },
    {
      "epoch": 0.06673010221308205,
      "grad_norm": 0.6800373731164967,
      "learning_rate": 1.992939325151174e-05,
      "loss": 1.1339,
      "step": 1087
    },
    {
      "epoch": 0.06679149145154854,
      "grad_norm": 0.7584303969473462,
      "learning_rate": 1.9929157190542082e-05,
      "loss": 1.1307,
      "step": 1088
    },
    {
      "epoch": 0.06685288069001503,
      "grad_norm": 0.7685964658390146,
      "learning_rate": 1.9928920737019735e-05,
      "loss": 1.1365,
      "step": 1089
    },
    {
      "epoch": 0.06691426992848154,
      "grad_norm": 0.7212006671379351,
      "learning_rate": 1.992868389095405e-05,
      "loss": 1.1564,
      "step": 1090
    },
    {
      "epoch": 0.06697565916694803,
      "grad_norm": 0.7384040272279176,
      "learning_rate": 1.9928446652354387e-05,
      "loss": 1.1294,
      "step": 1091
    },
    {
      "epoch": 0.06703704840541454,
      "grad_norm": 0.6888312497707948,
      "learning_rate": 1.992820902123013e-05,
      "loss": 1.128,
      "step": 1092
    },
    {
      "epoch": 0.06709843764388103,
      "grad_norm": 0.7562184371595614,
      "learning_rate": 1.9927970997590666e-05,
      "loss": 1.1301,
      "step": 1093
    },
    {
      "epoch": 0.06715982688234752,
      "grad_norm": 0.7057451608541302,
      "learning_rate": 1.992773258144541e-05,
      "loss": 1.0613,
      "step": 1094
    },
    {
      "epoch": 0.06722121612081403,
      "grad_norm": 0.645105889516922,
      "learning_rate": 1.9927493772803794e-05,
      "loss": 1.0402,
      "step": 1095
    },
    {
      "epoch": 0.06728260535928052,
      "grad_norm": 0.735780820905807,
      "learning_rate": 1.9927254571675247e-05,
      "loss": 1.1681,
      "step": 1096
    },
    {
      "epoch": 0.06734399459774701,
      "grad_norm": 0.637729289390822,
      "learning_rate": 1.9927014978069235e-05,
      "loss": 0.7858,
      "step": 1097
    },
    {
      "epoch": 0.06740538383621351,
      "grad_norm": 0.6673307441910408,
      "learning_rate": 1.9926774991995226e-05,
      "loss": 1.0815,
      "step": 1098
    },
    {
      "epoch": 0.06746677307468,
      "grad_norm": 0.7134040423972434,
      "learning_rate": 1.992653461346271e-05,
      "loss": 1.1259,
      "step": 1099
    },
    {
      "epoch": 0.06752816231314651,
      "grad_norm": 0.5715380078032336,
      "learning_rate": 1.992629384248119e-05,
      "loss": 0.7823,
      "step": 1100
    },
    {
      "epoch": 0.067589551551613,
      "grad_norm": 0.6904866876448433,
      "learning_rate": 1.9926052679060186e-05,
      "loss": 1.0561,
      "step": 1101
    },
    {
      "epoch": 0.0676509407900795,
      "grad_norm": 0.6549555456517199,
      "learning_rate": 1.9925811123209228e-05,
      "loss": 1.0406,
      "step": 1102
    },
    {
      "epoch": 0.067712330028546,
      "grad_norm": 0.7188486857969572,
      "learning_rate": 1.9925569174937873e-05,
      "loss": 1.125,
      "step": 1103
    },
    {
      "epoch": 0.06777371926701249,
      "grad_norm": 0.7617944869910434,
      "learning_rate": 1.992532683425568e-05,
      "loss": 1.1983,
      "step": 1104
    },
    {
      "epoch": 0.06783510850547898,
      "grad_norm": 0.6424361007245674,
      "learning_rate": 1.9925084101172234e-05,
      "loss": 1.1134,
      "step": 1105
    },
    {
      "epoch": 0.06789649774394549,
      "grad_norm": 0.7123433486785062,
      "learning_rate": 1.9924840975697132e-05,
      "loss": 1.1262,
      "step": 1106
    },
    {
      "epoch": 0.06795788698241198,
      "grad_norm": 0.7123376944205971,
      "learning_rate": 1.9924597457839984e-05,
      "loss": 1.1069,
      "step": 1107
    },
    {
      "epoch": 0.06801927622087849,
      "grad_norm": 0.6959688445300888,
      "learning_rate": 1.9924353547610415e-05,
      "loss": 1.1113,
      "step": 1108
    },
    {
      "epoch": 0.06808066545934498,
      "grad_norm": 0.6476171773071601,
      "learning_rate": 1.9924109245018072e-05,
      "loss": 1.0815,
      "step": 1109
    },
    {
      "epoch": 0.06814205469781147,
      "grad_norm": 0.7269757540738526,
      "learning_rate": 1.9923864550072617e-05,
      "loss": 1.0559,
      "step": 1110
    },
    {
      "epoch": 0.06820344393627797,
      "grad_norm": 0.7355112859740638,
      "learning_rate": 1.9923619462783714e-05,
      "loss": 1.1414,
      "step": 1111
    },
    {
      "epoch": 0.06826483317474447,
      "grad_norm": 0.6999978360617188,
      "learning_rate": 1.992337398316106e-05,
      "loss": 1.1488,
      "step": 1112
    },
    {
      "epoch": 0.06832622241321096,
      "grad_norm": 0.6903762581307635,
      "learning_rate": 1.992312811121436e-05,
      "loss": 1.106,
      "step": 1113
    },
    {
      "epoch": 0.06838761165167746,
      "grad_norm": 0.6720183275649737,
      "learning_rate": 1.9922881846953333e-05,
      "loss": 1.0544,
      "step": 1114
    },
    {
      "epoch": 0.06844900089014395,
      "grad_norm": 0.728567448134204,
      "learning_rate": 1.9922635190387715e-05,
      "loss": 1.1001,
      "step": 1115
    },
    {
      "epoch": 0.06851039012861046,
      "grad_norm": 0.6845154375071957,
      "learning_rate": 1.9922388141527257e-05,
      "loss": 1.0278,
      "step": 1116
    },
    {
      "epoch": 0.06857177936707695,
      "grad_norm": 0.7313011206591832,
      "learning_rate": 1.9922140700381728e-05,
      "loss": 1.1219,
      "step": 1117
    },
    {
      "epoch": 0.06863316860554344,
      "grad_norm": 0.67613713184297,
      "learning_rate": 1.9921892866960913e-05,
      "loss": 1.0853,
      "step": 1118
    },
    {
      "epoch": 0.06869455784400995,
      "grad_norm": 0.6841205959234943,
      "learning_rate": 1.99216446412746e-05,
      "loss": 1.0876,
      "step": 1119
    },
    {
      "epoch": 0.06875594708247644,
      "grad_norm": 0.6625250435062684,
      "learning_rate": 1.9921396023332615e-05,
      "loss": 0.7823,
      "step": 1120
    },
    {
      "epoch": 0.06881733632094295,
      "grad_norm": 0.7037827353316438,
      "learning_rate": 1.9921147013144782e-05,
      "loss": 1.116,
      "step": 1121
    },
    {
      "epoch": 0.06887872555940944,
      "grad_norm": 0.6976056815179477,
      "learning_rate": 1.9920897610720943e-05,
      "loss": 1.1388,
      "step": 1122
    },
    {
      "epoch": 0.06894011479787593,
      "grad_norm": 0.7058342935078334,
      "learning_rate": 1.992064781607096e-05,
      "loss": 1.1652,
      "step": 1123
    },
    {
      "epoch": 0.06900150403634243,
      "grad_norm": 0.7250701996819292,
      "learning_rate": 1.992039762920471e-05,
      "loss": 1.0662,
      "step": 1124
    },
    {
      "epoch": 0.06906289327480893,
      "grad_norm": 0.704042584045477,
      "learning_rate": 1.9920147050132087e-05,
      "loss": 1.0919,
      "step": 1125
    },
    {
      "epoch": 0.06912428251327542,
      "grad_norm": 0.6799494765502979,
      "learning_rate": 1.991989607886299e-05,
      "loss": 1.0949,
      "step": 1126
    },
    {
      "epoch": 0.06918567175174192,
      "grad_norm": 0.6669932862297407,
      "learning_rate": 1.991964471540735e-05,
      "loss": 1.0708,
      "step": 1127
    },
    {
      "epoch": 0.06924706099020841,
      "grad_norm": 0.660503418415572,
      "learning_rate": 1.99193929597751e-05,
      "loss": 1.0341,
      "step": 1128
    },
    {
      "epoch": 0.06930845022867492,
      "grad_norm": 0.6840980861296618,
      "learning_rate": 1.991914081197619e-05,
      "loss": 1.0258,
      "step": 1129
    },
    {
      "epoch": 0.06936983946714141,
      "grad_norm": 0.6828816780112044,
      "learning_rate": 1.9918888272020593e-05,
      "loss": 1.0964,
      "step": 1130
    },
    {
      "epoch": 0.0694312287056079,
      "grad_norm": 0.7045918788834254,
      "learning_rate": 1.9918635339918294e-05,
      "loss": 1.1197,
      "step": 1131
    },
    {
      "epoch": 0.06949261794407441,
      "grad_norm": 0.6753526663914764,
      "learning_rate": 1.991838201567929e-05,
      "loss": 1.0671,
      "step": 1132
    },
    {
      "epoch": 0.0695540071825409,
      "grad_norm": 0.690039597898019,
      "learning_rate": 1.9918128299313598e-05,
      "loss": 1.0902,
      "step": 1133
    },
    {
      "epoch": 0.06961539642100739,
      "grad_norm": 0.6809965530532393,
      "learning_rate": 1.991787419083125e-05,
      "loss": 1.0733,
      "step": 1134
    },
    {
      "epoch": 0.0696767856594739,
      "grad_norm": 0.6997556634171798,
      "learning_rate": 1.9917619690242293e-05,
      "loss": 1.0848,
      "step": 1135
    },
    {
      "epoch": 0.06973817489794039,
      "grad_norm": 0.7000295550433211,
      "learning_rate": 1.9917364797556782e-05,
      "loss": 1.1183,
      "step": 1136
    },
    {
      "epoch": 0.0697995641364069,
      "grad_norm": 0.6960224021054293,
      "learning_rate": 1.99171095127848e-05,
      "loss": 1.1173,
      "step": 1137
    },
    {
      "epoch": 0.06986095337487339,
      "grad_norm": 0.6565494795819338,
      "learning_rate": 1.991685383593644e-05,
      "loss": 1.0497,
      "step": 1138
    },
    {
      "epoch": 0.06992234261333988,
      "grad_norm": 0.6766920522594907,
      "learning_rate": 1.991659776702181e-05,
      "loss": 1.142,
      "step": 1139
    },
    {
      "epoch": 0.06998373185180638,
      "grad_norm": 0.7210297633099194,
      "learning_rate": 1.991634130605103e-05,
      "loss": 1.1424,
      "step": 1140
    },
    {
      "epoch": 0.07004512109027287,
      "grad_norm": 0.7206917741788861,
      "learning_rate": 1.991608445303424e-05,
      "loss": 1.099,
      "step": 1141
    },
    {
      "epoch": 0.07010651032873937,
      "grad_norm": 0.7749368336878748,
      "learning_rate": 1.99158272079816e-05,
      "loss": 0.7919,
      "step": 1142
    },
    {
      "epoch": 0.07016789956720587,
      "grad_norm": 0.7210480051719285,
      "learning_rate": 1.9915569570903274e-05,
      "loss": 1.106,
      "step": 1143
    },
    {
      "epoch": 0.07022928880567236,
      "grad_norm": 0.6917653707976241,
      "learning_rate": 1.9915311541809452e-05,
      "loss": 1.1773,
      "step": 1144
    },
    {
      "epoch": 0.07029067804413887,
      "grad_norm": 0.6885973810299612,
      "learning_rate": 1.9915053120710333e-05,
      "loss": 1.066,
      "step": 1145
    },
    {
      "epoch": 0.07035206728260536,
      "grad_norm": 0.735391052524721,
      "learning_rate": 1.9914794307616137e-05,
      "loss": 1.1627,
      "step": 1146
    },
    {
      "epoch": 0.07041345652107185,
      "grad_norm": 0.6043447390959539,
      "learning_rate": 1.9914535102537095e-05,
      "loss": 1.056,
      "step": 1147
    },
    {
      "epoch": 0.07047484575953836,
      "grad_norm": 0.6881183168927006,
      "learning_rate": 1.991427550548345e-05,
      "loss": 1.1559,
      "step": 1148
    },
    {
      "epoch": 0.07053623499800485,
      "grad_norm": 0.6656238683904386,
      "learning_rate": 1.9914015516465472e-05,
      "loss": 1.1353,
      "step": 1149
    },
    {
      "epoch": 0.07059762423647134,
      "grad_norm": 0.6748348414822135,
      "learning_rate": 1.9913755135493432e-05,
      "loss": 1.0761,
      "step": 1150
    },
    {
      "epoch": 0.07065901347493785,
      "grad_norm": 0.7188376528809904,
      "learning_rate": 1.9913494362577635e-05,
      "loss": 1.0887,
      "step": 1151
    },
    {
      "epoch": 0.07072040271340434,
      "grad_norm": 0.6353700874354095,
      "learning_rate": 1.991323319772838e-05,
      "loss": 1.0167,
      "step": 1152
    },
    {
      "epoch": 0.07078179195187084,
      "grad_norm": 0.6947828291135815,
      "learning_rate": 1.9912971640956002e-05,
      "loss": 1.1275,
      "step": 1153
    },
    {
      "epoch": 0.07084318119033733,
      "grad_norm": 0.6866566653689176,
      "learning_rate": 1.9912709692270834e-05,
      "loss": 1.105,
      "step": 1154
    },
    {
      "epoch": 0.07090457042880383,
      "grad_norm": 0.7064048026099542,
      "learning_rate": 1.9912447351683233e-05,
      "loss": 1.1139,
      "step": 1155
    },
    {
      "epoch": 0.07096595966727033,
      "grad_norm": 0.7625288679274266,
      "learning_rate": 1.9912184619203577e-05,
      "loss": 1.1991,
      "step": 1156
    },
    {
      "epoch": 0.07102734890573682,
      "grad_norm": 0.7028321729205788,
      "learning_rate": 1.9911921494842247e-05,
      "loss": 1.1604,
      "step": 1157
    },
    {
      "epoch": 0.07108873814420331,
      "grad_norm": 0.6912232784645922,
      "learning_rate": 1.9911657978609646e-05,
      "loss": 1.1142,
      "step": 1158
    },
    {
      "epoch": 0.07115012738266982,
      "grad_norm": 0.6500293756159081,
      "learning_rate": 1.9911394070516195e-05,
      "loss": 1.1027,
      "step": 1159
    },
    {
      "epoch": 0.07121151662113631,
      "grad_norm": 0.7023446815823676,
      "learning_rate": 1.9911129770572326e-05,
      "loss": 1.1546,
      "step": 1160
    },
    {
      "epoch": 0.07127290585960282,
      "grad_norm": 0.575732978639924,
      "learning_rate": 1.9910865078788488e-05,
      "loss": 1.0818,
      "step": 1161
    },
    {
      "epoch": 0.07133429509806931,
      "grad_norm": 0.7043992804383442,
      "learning_rate": 1.991059999517515e-05,
      "loss": 1.1026,
      "step": 1162
    },
    {
      "epoch": 0.0713956843365358,
      "grad_norm": 0.6214035018688333,
      "learning_rate": 1.9910334519742785e-05,
      "loss": 1.0971,
      "step": 1163
    },
    {
      "epoch": 0.0714570735750023,
      "grad_norm": 0.6961953348346916,
      "learning_rate": 1.9910068652501894e-05,
      "loss": 1.1158,
      "step": 1164
    },
    {
      "epoch": 0.0715184628134688,
      "grad_norm": 0.6983634950014883,
      "learning_rate": 1.9909802393462985e-05,
      "loss": 1.1339,
      "step": 1165
    },
    {
      "epoch": 0.0715798520519353,
      "grad_norm": 0.7080956301908629,
      "learning_rate": 1.990953574263659e-05,
      "loss": 1.0862,
      "step": 1166
    },
    {
      "epoch": 0.0716412412904018,
      "grad_norm": 0.6345636759262663,
      "learning_rate": 1.990926870003324e-05,
      "loss": 1.0697,
      "step": 1167
    },
    {
      "epoch": 0.07170263052886829,
      "grad_norm": 0.6524717491398623,
      "learning_rate": 1.9909001265663503e-05,
      "loss": 1.0493,
      "step": 1168
    },
    {
      "epoch": 0.07176401976733479,
      "grad_norm": 0.7212720032882652,
      "learning_rate": 1.990873343953795e-05,
      "loss": 1.1421,
      "step": 1169
    },
    {
      "epoch": 0.07182540900580128,
      "grad_norm": 0.6388857897991497,
      "learning_rate": 1.990846522166717e-05,
      "loss": 1.0449,
      "step": 1170
    },
    {
      "epoch": 0.07188679824426777,
      "grad_norm": 0.612162676657075,
      "learning_rate": 1.990819661206176e-05,
      "loss": 1.0561,
      "step": 1171
    },
    {
      "epoch": 0.07194818748273428,
      "grad_norm": 0.7107228693354353,
      "learning_rate": 1.990792761073235e-05,
      "loss": 1.0977,
      "step": 1172
    },
    {
      "epoch": 0.07200957672120077,
      "grad_norm": 0.7278721693709481,
      "learning_rate": 1.9907658217689572e-05,
      "loss": 1.0883,
      "step": 1173
    },
    {
      "epoch": 0.07207096595966728,
      "grad_norm": 0.6447558373391024,
      "learning_rate": 1.990738843294407e-05,
      "loss": 1.0435,
      "step": 1174
    },
    {
      "epoch": 0.07213235519813377,
      "grad_norm": 0.6311201362243619,
      "learning_rate": 1.9907118256506517e-05,
      "loss": 1.024,
      "step": 1175
    },
    {
      "epoch": 0.07219374443660026,
      "grad_norm": 0.6531122364811534,
      "learning_rate": 1.9906847688387595e-05,
      "loss": 1.0723,
      "step": 1176
    },
    {
      "epoch": 0.07225513367506677,
      "grad_norm": 0.6666159659538331,
      "learning_rate": 1.9906576728597993e-05,
      "loss": 1.0781,
      "step": 1177
    },
    {
      "epoch": 0.07231652291353326,
      "grad_norm": 0.6547825375264916,
      "learning_rate": 1.9906305377148433e-05,
      "loss": 1.0598,
      "step": 1178
    },
    {
      "epoch": 0.07237791215199975,
      "grad_norm": 0.6904419033367016,
      "learning_rate": 1.990603363404964e-05,
      "loss": 1.0298,
      "step": 1179
    },
    {
      "epoch": 0.07243930139046625,
      "grad_norm": 0.6856397324398299,
      "learning_rate": 1.990576149931235e-05,
      "loss": 1.042,
      "step": 1180
    },
    {
      "epoch": 0.07250069062893275,
      "grad_norm": 0.654833337442677,
      "learning_rate": 1.990548897294733e-05,
      "loss": 1.0251,
      "step": 1181
    },
    {
      "epoch": 0.07256207986739925,
      "grad_norm": 0.7066209121485609,
      "learning_rate": 1.9905216054965355e-05,
      "loss": 1.055,
      "step": 1182
    },
    {
      "epoch": 0.07262346910586574,
      "grad_norm": 0.6874369644497799,
      "learning_rate": 1.990494274537721e-05,
      "loss": 1.1331,
      "step": 1183
    },
    {
      "epoch": 0.07268485834433223,
      "grad_norm": 0.7069161731415348,
      "learning_rate": 1.9904669044193708e-05,
      "loss": 1.0878,
      "step": 1184
    },
    {
      "epoch": 0.07274624758279874,
      "grad_norm": 0.7348960038203817,
      "learning_rate": 1.990439495142566e-05,
      "loss": 1.0989,
      "step": 1185
    },
    {
      "epoch": 0.07280763682126523,
      "grad_norm": 0.6883636103220163,
      "learning_rate": 1.9904120467083907e-05,
      "loss": 1.129,
      "step": 1186
    },
    {
      "epoch": 0.07286902605973172,
      "grad_norm": 0.6861980383478783,
      "learning_rate": 1.9903845591179304e-05,
      "loss": 1.1348,
      "step": 1187
    },
    {
      "epoch": 0.07293041529819823,
      "grad_norm": 0.6535656162123444,
      "learning_rate": 1.9903570323722713e-05,
      "loss": 1.1232,
      "step": 1188
    },
    {
      "epoch": 0.07299180453666472,
      "grad_norm": 0.6985496503733047,
      "learning_rate": 1.9903294664725023e-05,
      "loss": 1.1286,
      "step": 1189
    },
    {
      "epoch": 0.07305319377513123,
      "grad_norm": 0.673339520302694,
      "learning_rate": 1.9903018614197124e-05,
      "loss": 1.0911,
      "step": 1190
    },
    {
      "epoch": 0.07311458301359772,
      "grad_norm": 0.6747924937256289,
      "learning_rate": 1.9902742172149933e-05,
      "loss": 1.1176,
      "step": 1191
    },
    {
      "epoch": 0.07317597225206421,
      "grad_norm": 0.6781197284329273,
      "learning_rate": 1.9902465338594382e-05,
      "loss": 1.0621,
      "step": 1192
    },
    {
      "epoch": 0.07323736149053071,
      "grad_norm": 0.7280516332121005,
      "learning_rate": 1.9902188113541417e-05,
      "loss": 1.1649,
      "step": 1193
    },
    {
      "epoch": 0.0732987507289972,
      "grad_norm": 0.6711948761214023,
      "learning_rate": 1.9901910497001993e-05,
      "loss": 1.0235,
      "step": 1194
    },
    {
      "epoch": 0.0733601399674637,
      "grad_norm": 0.6936214323264366,
      "learning_rate": 1.990163248898709e-05,
      "loss": 1.0633,
      "step": 1195
    },
    {
      "epoch": 0.0734215292059302,
      "grad_norm": 0.703150500439566,
      "learning_rate": 1.9901354089507692e-05,
      "loss": 1.0917,
      "step": 1196
    },
    {
      "epoch": 0.0734829184443967,
      "grad_norm": 0.6570469375314075,
      "learning_rate": 1.990107529857481e-05,
      "loss": 1.0887,
      "step": 1197
    },
    {
      "epoch": 0.0735443076828632,
      "grad_norm": 0.7602470479560757,
      "learning_rate": 1.9900796116199473e-05,
      "loss": 1.1161,
      "step": 1198
    },
    {
      "epoch": 0.07360569692132969,
      "grad_norm": 0.6994961383062325,
      "learning_rate": 1.990051654239271e-05,
      "loss": 1.044,
      "step": 1199
    },
    {
      "epoch": 0.07366708615979618,
      "grad_norm": 0.7010593743640783,
      "learning_rate": 1.990023657716558e-05,
      "loss": 1.1104,
      "step": 1200
    },
    {
      "epoch": 0.07372847539826269,
      "grad_norm": 0.7105241013830977,
      "learning_rate": 1.9899956220529143e-05,
      "loss": 1.1396,
      "step": 1201
    },
    {
      "epoch": 0.07378986463672918,
      "grad_norm": 0.7113248748465393,
      "learning_rate": 1.9899675472494487e-05,
      "loss": 1.0744,
      "step": 1202
    },
    {
      "epoch": 0.07385125387519567,
      "grad_norm": 0.6742523196921123,
      "learning_rate": 1.9899394333072716e-05,
      "loss": 1.0809,
      "step": 1203
    },
    {
      "epoch": 0.07391264311366218,
      "grad_norm": 0.6777294640533121,
      "learning_rate": 1.9899112802274937e-05,
      "loss": 1.1084,
      "step": 1204
    },
    {
      "epoch": 0.07397403235212867,
      "grad_norm": 0.8906727128537909,
      "learning_rate": 1.989883088011229e-05,
      "loss": 0.8171,
      "step": 1205
    },
    {
      "epoch": 0.07403542159059517,
      "grad_norm": 0.7005369838618182,
      "learning_rate": 1.989854856659591e-05,
      "loss": 1.1049,
      "step": 1206
    },
    {
      "epoch": 0.07409681082906167,
      "grad_norm": 0.6657432971889637,
      "learning_rate": 1.9898265861736968e-05,
      "loss": 1.0818,
      "step": 1207
    },
    {
      "epoch": 0.07415820006752816,
      "grad_norm": 0.7027338347722327,
      "learning_rate": 1.989798276554664e-05,
      "loss": 1.083,
      "step": 1208
    },
    {
      "epoch": 0.07421958930599466,
      "grad_norm": 0.6538221000260378,
      "learning_rate": 1.989769927803611e-05,
      "loss": 1.1013,
      "step": 1209
    },
    {
      "epoch": 0.07428097854446115,
      "grad_norm": 0.67623321466795,
      "learning_rate": 1.989741539921659e-05,
      "loss": 1.0993,
      "step": 1210
    },
    {
      "epoch": 0.07434236778292766,
      "grad_norm": 0.7074209966907702,
      "learning_rate": 1.9897131129099305e-05,
      "loss": 1.1035,
      "step": 1211
    },
    {
      "epoch": 0.07440375702139415,
      "grad_norm": 0.6513998342372012,
      "learning_rate": 1.9896846467695498e-05,
      "loss": 1.0894,
      "step": 1212
    },
    {
      "epoch": 0.07446514625986064,
      "grad_norm": 0.666818805494858,
      "learning_rate": 1.9896561415016412e-05,
      "loss": 1.0329,
      "step": 1213
    },
    {
      "epoch": 0.07452653549832715,
      "grad_norm": 0.727428742129116,
      "learning_rate": 1.9896275971073326e-05,
      "loss": 1.132,
      "step": 1214
    },
    {
      "epoch": 0.07458792473679364,
      "grad_norm": 0.6895607244929954,
      "learning_rate": 1.989599013587752e-05,
      "loss": 1.1348,
      "step": 1215
    },
    {
      "epoch": 0.07464931397526013,
      "grad_norm": 0.640164539894167,
      "learning_rate": 1.9895703909440297e-05,
      "loss": 1.0897,
      "step": 1216
    },
    {
      "epoch": 0.07471070321372664,
      "grad_norm": 0.6771501379472306,
      "learning_rate": 1.9895417291772973e-05,
      "loss": 1.1139,
      "step": 1217
    },
    {
      "epoch": 0.07477209245219313,
      "grad_norm": 0.665542579461997,
      "learning_rate": 1.9895130282886877e-05,
      "loss": 1.0978,
      "step": 1218
    },
    {
      "epoch": 0.07483348169065963,
      "grad_norm": 0.6500873773346818,
      "learning_rate": 1.989484288279336e-05,
      "loss": 1.0829,
      "step": 1219
    },
    {
      "epoch": 0.07489487092912613,
      "grad_norm": 0.7020016957014867,
      "learning_rate": 1.9894555091503785e-05,
      "loss": 1.0949,
      "step": 1220
    },
    {
      "epoch": 0.07495626016759262,
      "grad_norm": 0.6721564784808093,
      "learning_rate": 1.9894266909029522e-05,
      "loss": 1.1045,
      "step": 1221
    },
    {
      "epoch": 0.07501764940605912,
      "grad_norm": 0.7020712752366058,
      "learning_rate": 1.9893978335381973e-05,
      "loss": 1.0621,
      "step": 1222
    },
    {
      "epoch": 0.07507903864452561,
      "grad_norm": 0.7100175775858872,
      "learning_rate": 1.9893689370572543e-05,
      "loss": 1.1239,
      "step": 1223
    },
    {
      "epoch": 0.0751404278829921,
      "grad_norm": 0.6543590794852634,
      "learning_rate": 1.989340001461266e-05,
      "loss": 1.092,
      "step": 1224
    },
    {
      "epoch": 0.07520181712145861,
      "grad_norm": 0.6543028522505795,
      "learning_rate": 1.9893110267513755e-05,
      "loss": 1.0747,
      "step": 1225
    },
    {
      "epoch": 0.0752632063599251,
      "grad_norm": 0.6694508848878663,
      "learning_rate": 1.9892820129287292e-05,
      "loss": 1.0922,
      "step": 1226
    },
    {
      "epoch": 0.07532459559839161,
      "grad_norm": 0.636100047204753,
      "learning_rate": 1.9892529599944738e-05,
      "loss": 1.0039,
      "step": 1227
    },
    {
      "epoch": 0.0753859848368581,
      "grad_norm": 0.6960003971768086,
      "learning_rate": 1.9892238679497582e-05,
      "loss": 1.1133,
      "step": 1228
    },
    {
      "epoch": 0.07544737407532459,
      "grad_norm": 0.7316420725944748,
      "learning_rate": 1.9891947367957323e-05,
      "loss": 1.164,
      "step": 1229
    },
    {
      "epoch": 0.0755087633137911,
      "grad_norm": 0.7103523109210728,
      "learning_rate": 1.9891655665335478e-05,
      "loss": 1.1286,
      "step": 1230
    },
    {
      "epoch": 0.07557015255225759,
      "grad_norm": 0.6716599479159319,
      "learning_rate": 1.989136357164358e-05,
      "loss": 1.0416,
      "step": 1231
    },
    {
      "epoch": 0.07563154179072408,
      "grad_norm": 0.6693866634865656,
      "learning_rate": 1.989107108689318e-05,
      "loss": 0.8689,
      "step": 1232
    },
    {
      "epoch": 0.07569293102919059,
      "grad_norm": 0.6916343428005325,
      "learning_rate": 1.9890778211095836e-05,
      "loss": 1.0859,
      "step": 1233
    },
    {
      "epoch": 0.07575432026765708,
      "grad_norm": 0.7207366642452433,
      "learning_rate": 1.989048494426313e-05,
      "loss": 1.1203,
      "step": 1234
    },
    {
      "epoch": 0.07581570950612358,
      "grad_norm": 0.6581840648672491,
      "learning_rate": 1.9890191286406654e-05,
      "loss": 1.0563,
      "step": 1235
    },
    {
      "epoch": 0.07587709874459007,
      "grad_norm": 0.717640598530229,
      "learning_rate": 1.9889897237538023e-05,
      "loss": 1.1403,
      "step": 1236
    },
    {
      "epoch": 0.07593848798305657,
      "grad_norm": 0.7101334147568602,
      "learning_rate": 1.988960279766886e-05,
      "loss": 1.1299,
      "step": 1237
    },
    {
      "epoch": 0.07599987722152307,
      "grad_norm": 0.7209425226034124,
      "learning_rate": 1.98893079668108e-05,
      "loss": 1.1058,
      "step": 1238
    },
    {
      "epoch": 0.07606126645998956,
      "grad_norm": 0.6823036108695696,
      "learning_rate": 1.9889012744975508e-05,
      "loss": 1.071,
      "step": 1239
    },
    {
      "epoch": 0.07612265569845605,
      "grad_norm": 0.6661713410414749,
      "learning_rate": 1.9888717132174655e-05,
      "loss": 1.0486,
      "step": 1240
    },
    {
      "epoch": 0.07618404493692256,
      "grad_norm": 0.7074052720363125,
      "learning_rate": 1.988842112841992e-05,
      "loss": 1.0599,
      "step": 1241
    },
    {
      "epoch": 0.07624543417538905,
      "grad_norm": 0.7091297016328018,
      "learning_rate": 1.9888124733723015e-05,
      "loss": 1.1082,
      "step": 1242
    },
    {
      "epoch": 0.07630682341385556,
      "grad_norm": 0.6802820464044725,
      "learning_rate": 1.988782794809565e-05,
      "loss": 1.0723,
      "step": 1243
    },
    {
      "epoch": 0.07636821265232205,
      "grad_norm": 0.6443787451486733,
      "learning_rate": 1.9887530771549567e-05,
      "loss": 1.0375,
      "step": 1244
    },
    {
      "epoch": 0.07642960189078854,
      "grad_norm": 0.6341201227286372,
      "learning_rate": 1.9887233204096504e-05,
      "loss": 1.0622,
      "step": 1245
    },
    {
      "epoch": 0.07649099112925505,
      "grad_norm": 0.7448995152839728,
      "learning_rate": 1.988693524574824e-05,
      "loss": 1.1788,
      "step": 1246
    },
    {
      "epoch": 0.07655238036772154,
      "grad_norm": 0.7158397005462301,
      "learning_rate": 1.988663689651654e-05,
      "loss": 1.1202,
      "step": 1247
    },
    {
      "epoch": 0.07661376960618803,
      "grad_norm": 0.669757354674869,
      "learning_rate": 1.9886338156413206e-05,
      "loss": 1.0617,
      "step": 1248
    },
    {
      "epoch": 0.07667515884465453,
      "grad_norm": 0.6701615301518142,
      "learning_rate": 1.9886039025450053e-05,
      "loss": 1.0603,
      "step": 1249
    },
    {
      "epoch": 0.07673654808312103,
      "grad_norm": 0.7000855116984185,
      "learning_rate": 1.98857395036389e-05,
      "loss": 1.0794,
      "step": 1250
    },
    {
      "epoch": 0.07679793732158753,
      "grad_norm": 0.648663984074384,
      "learning_rate": 1.9885439590991592e-05,
      "loss": 1.0674,
      "step": 1251
    },
    {
      "epoch": 0.07685932656005402,
      "grad_norm": 0.6725933266830767,
      "learning_rate": 1.9885139287519988e-05,
      "loss": 1.075,
      "step": 1252
    },
    {
      "epoch": 0.07692071579852051,
      "grad_norm": 0.7142853265463477,
      "learning_rate": 1.9884838593235957e-05,
      "loss": 1.0973,
      "step": 1253
    },
    {
      "epoch": 0.07698210503698702,
      "grad_norm": 0.6902679514169369,
      "learning_rate": 1.988453750815139e-05,
      "loss": 1.0782,
      "step": 1254
    },
    {
      "epoch": 0.07704349427545351,
      "grad_norm": 0.6876998235902526,
      "learning_rate": 1.9884236032278186e-05,
      "loss": 1.1495,
      "step": 1255
    },
    {
      "epoch": 0.07710488351392002,
      "grad_norm": 0.7129175842853513,
      "learning_rate": 1.9883934165628268e-05,
      "loss": 1.128,
      "step": 1256
    },
    {
      "epoch": 0.07716627275238651,
      "grad_norm": 0.7085462050754693,
      "learning_rate": 1.9883631908213573e-05,
      "loss": 1.1456,
      "step": 1257
    },
    {
      "epoch": 0.077227661990853,
      "grad_norm": 0.7004641917895098,
      "learning_rate": 1.9883329260046046e-05,
      "loss": 1.1297,
      "step": 1258
    },
    {
      "epoch": 0.0772890512293195,
      "grad_norm": 0.7015884470138131,
      "learning_rate": 1.988302622113765e-05,
      "loss": 1.1224,
      "step": 1259
    },
    {
      "epoch": 0.077350440467786,
      "grad_norm": 0.6555938895634458,
      "learning_rate": 1.988272279150037e-05,
      "loss": 1.035,
      "step": 1260
    },
    {
      "epoch": 0.07741182970625249,
      "grad_norm": 0.7328026073666979,
      "learning_rate": 1.9882418971146205e-05,
      "loss": 1.082,
      "step": 1261
    },
    {
      "epoch": 0.077473218944719,
      "grad_norm": 0.692497369233986,
      "learning_rate": 1.9882114760087162e-05,
      "loss": 1.1215,
      "step": 1262
    },
    {
      "epoch": 0.07753460818318549,
      "grad_norm": 0.6599840064577794,
      "learning_rate": 1.9881810158335266e-05,
      "loss": 1.066,
      "step": 1263
    },
    {
      "epoch": 0.07759599742165199,
      "grad_norm": 0.666019724089613,
      "learning_rate": 1.9881505165902566e-05,
      "loss": 1.0795,
      "step": 1264
    },
    {
      "epoch": 0.07765738666011848,
      "grad_norm": 0.7326925821928183,
      "learning_rate": 1.9881199782801117e-05,
      "loss": 1.1111,
      "step": 1265
    },
    {
      "epoch": 0.07771877589858497,
      "grad_norm": 0.6498928515385523,
      "learning_rate": 1.9880894009042993e-05,
      "loss": 1.0222,
      "step": 1266
    },
    {
      "epoch": 0.07778016513705148,
      "grad_norm": 0.6987105751930327,
      "learning_rate": 1.9880587844640278e-05,
      "loss": 1.0634,
      "step": 1267
    },
    {
      "epoch": 0.07784155437551797,
      "grad_norm": 0.6750939539372697,
      "learning_rate": 1.9880281289605086e-05,
      "loss": 1.0823,
      "step": 1268
    },
    {
      "epoch": 0.07790294361398446,
      "grad_norm": 0.6640451746769649,
      "learning_rate": 1.9879974343949527e-05,
      "loss": 1.0275,
      "step": 1269
    },
    {
      "epoch": 0.07796433285245097,
      "grad_norm": 0.662294306612269,
      "learning_rate": 1.987966700768574e-05,
      "loss": 1.044,
      "step": 1270
    },
    {
      "epoch": 0.07802572209091746,
      "grad_norm": 0.7042470251359225,
      "learning_rate": 1.987935928082588e-05,
      "loss": 1.0586,
      "step": 1271
    },
    {
      "epoch": 0.07808711132938397,
      "grad_norm": 0.6805166778420365,
      "learning_rate": 1.9879051163382105e-05,
      "loss": 1.0949,
      "step": 1272
    },
    {
      "epoch": 0.07814850056785046,
      "grad_norm": 0.6915497583222754,
      "learning_rate": 1.98787426553666e-05,
      "loss": 1.1636,
      "step": 1273
    },
    {
      "epoch": 0.07820988980631695,
      "grad_norm": 0.6629775228656147,
      "learning_rate": 1.9878433756791568e-05,
      "loss": 1.0638,
      "step": 1274
    },
    {
      "epoch": 0.07827127904478345,
      "grad_norm": 0.6788124287821918,
      "learning_rate": 1.9878124467669212e-05,
      "loss": 1.0847,
      "step": 1275
    },
    {
      "epoch": 0.07833266828324995,
      "grad_norm": 0.7028293777687599,
      "learning_rate": 1.9877814788011762e-05,
      "loss": 1.1235,
      "step": 1276
    },
    {
      "epoch": 0.07839405752171644,
      "grad_norm": 0.6621964612796791,
      "learning_rate": 1.9877504717831466e-05,
      "loss": 1.107,
      "step": 1277
    },
    {
      "epoch": 0.07845544676018294,
      "grad_norm": 0.7082503364992688,
      "learning_rate": 1.9877194257140582e-05,
      "loss": 1.1105,
      "step": 1278
    },
    {
      "epoch": 0.07851683599864943,
      "grad_norm": 0.6674980410732266,
      "learning_rate": 1.9876883405951378e-05,
      "loss": 1.0783,
      "step": 1279
    },
    {
      "epoch": 0.07857822523711594,
      "grad_norm": 0.6941684043931318,
      "learning_rate": 1.987657216427615e-05,
      "loss": 1.1108,
      "step": 1280
    },
    {
      "epoch": 0.07863961447558243,
      "grad_norm": 0.7130976670089118,
      "learning_rate": 1.98762605321272e-05,
      "loss": 1.1114,
      "step": 1281
    },
    {
      "epoch": 0.07870100371404892,
      "grad_norm": 0.6352938258815553,
      "learning_rate": 1.987594850951685e-05,
      "loss": 1.083,
      "step": 1282
    },
    {
      "epoch": 0.07876239295251543,
      "grad_norm": 0.7050536046257111,
      "learning_rate": 1.9875636096457437e-05,
      "loss": 1.113,
      "step": 1283
    },
    {
      "epoch": 0.07882378219098192,
      "grad_norm": 0.6888520705893915,
      "learning_rate": 1.9875323292961302e-05,
      "loss": 1.1008,
      "step": 1284
    },
    {
      "epoch": 0.07888517142944841,
      "grad_norm": 0.7198183848737302,
      "learning_rate": 1.987501009904083e-05,
      "loss": 1.0972,
      "step": 1285
    },
    {
      "epoch": 0.07894656066791492,
      "grad_norm": 0.6202798965157912,
      "learning_rate": 1.987469651470839e-05,
      "loss": 1.0331,
      "step": 1286
    },
    {
      "epoch": 0.07900794990638141,
      "grad_norm": 0.676330980467933,
      "learning_rate": 1.9874382539976383e-05,
      "loss": 1.1084,
      "step": 1287
    },
    {
      "epoch": 0.07906933914484791,
      "grad_norm": 0.679862807611879,
      "learning_rate": 1.9874068174857222e-05,
      "loss": 1.0936,
      "step": 1288
    },
    {
      "epoch": 0.0791307283833144,
      "grad_norm": 0.660141554837642,
      "learning_rate": 1.9873753419363336e-05,
      "loss": 1.0753,
      "step": 1289
    },
    {
      "epoch": 0.0791921176217809,
      "grad_norm": 0.6481050015964666,
      "learning_rate": 1.9873438273507168e-05,
      "loss": 1.087,
      "step": 1290
    },
    {
      "epoch": 0.0792535068602474,
      "grad_norm": 0.6911096344091918,
      "learning_rate": 1.987312273730118e-05,
      "loss": 1.112,
      "step": 1291
    },
    {
      "epoch": 0.0793148960987139,
      "grad_norm": 0.6312228523528657,
      "learning_rate": 1.9872806810757847e-05,
      "loss": 1.0378,
      "step": 1292
    },
    {
      "epoch": 0.07937628533718039,
      "grad_norm": 0.6637829169702961,
      "learning_rate": 1.987249049388965e-05,
      "loss": 1.0554,
      "step": 1293
    },
    {
      "epoch": 0.07943767457564689,
      "grad_norm": 0.6798116393849004,
      "learning_rate": 1.987217378670911e-05,
      "loss": 1.0917,
      "step": 1294
    },
    {
      "epoch": 0.07949906381411338,
      "grad_norm": 0.6489974406193164,
      "learning_rate": 1.9871856689228735e-05,
      "loss": 1.0566,
      "step": 1295
    },
    {
      "epoch": 0.07956045305257989,
      "grad_norm": 0.6502007204833166,
      "learning_rate": 1.987153920146107e-05,
      "loss": 1.1184,
      "step": 1296
    },
    {
      "epoch": 0.07962184229104638,
      "grad_norm": 0.6741393645519193,
      "learning_rate": 1.9871221323418658e-05,
      "loss": 1.0805,
      "step": 1297
    },
    {
      "epoch": 0.07968323152951287,
      "grad_norm": 0.6930388477647191,
      "learning_rate": 1.9870903055114077e-05,
      "loss": 1.0598,
      "step": 1298
    },
    {
      "epoch": 0.07974462076797938,
      "grad_norm": 0.653811523070972,
      "learning_rate": 1.9870584396559903e-05,
      "loss": 1.1074,
      "step": 1299
    },
    {
      "epoch": 0.07980601000644587,
      "grad_norm": 0.6829674326470295,
      "learning_rate": 1.987026534776874e-05,
      "loss": 1.1208,
      "step": 1300
    },
    {
      "epoch": 0.07986739924491237,
      "grad_norm": 0.6349345937862585,
      "learning_rate": 1.9869945908753193e-05,
      "loss": 1.0396,
      "step": 1301
    },
    {
      "epoch": 0.07992878848337887,
      "grad_norm": 0.6878358785578925,
      "learning_rate": 1.98696260795259e-05,
      "loss": 1.1037,
      "step": 1302
    },
    {
      "epoch": 0.07999017772184536,
      "grad_norm": 0.6726757634521369,
      "learning_rate": 1.9869305860099498e-05,
      "loss": 1.0814,
      "step": 1303
    },
    {
      "epoch": 0.08005156696031186,
      "grad_norm": 0.7103424875900444,
      "learning_rate": 1.986898525048665e-05,
      "loss": 1.0935,
      "step": 1304
    },
    {
      "epoch": 0.08011295619877835,
      "grad_norm": 0.6737142189254659,
      "learning_rate": 1.9868664250700034e-05,
      "loss": 1.0483,
      "step": 1305
    },
    {
      "epoch": 0.08017434543724485,
      "grad_norm": 0.7066946946342334,
      "learning_rate": 1.9868342860752342e-05,
      "loss": 1.0746,
      "step": 1306
    },
    {
      "epoch": 0.08023573467571135,
      "grad_norm": 0.7109646117577534,
      "learning_rate": 1.9868021080656274e-05,
      "loss": 1.0903,
      "step": 1307
    },
    {
      "epoch": 0.08029712391417784,
      "grad_norm": 0.7275024180304587,
      "learning_rate": 1.986769891042455e-05,
      "loss": 1.1297,
      "step": 1308
    },
    {
      "epoch": 0.08035851315264435,
      "grad_norm": 0.7074365720767986,
      "learning_rate": 1.986737635006992e-05,
      "loss": 1.0511,
      "step": 1309
    },
    {
      "epoch": 0.08041990239111084,
      "grad_norm": 0.6709777948642535,
      "learning_rate": 1.9867053399605126e-05,
      "loss": 1.0834,
      "step": 1310
    },
    {
      "epoch": 0.08048129162957733,
      "grad_norm": 0.6489332161627046,
      "learning_rate": 1.986673005904294e-05,
      "loss": 1.0629,
      "step": 1311
    },
    {
      "epoch": 0.08054268086804384,
      "grad_norm": 0.7850815039322419,
      "learning_rate": 1.986640632839614e-05,
      "loss": 1.1343,
      "step": 1312
    },
    {
      "epoch": 0.08060407010651033,
      "grad_norm": 0.7162291221933411,
      "learning_rate": 1.986608220767753e-05,
      "loss": 1.119,
      "step": 1313
    },
    {
      "epoch": 0.08066545934497682,
      "grad_norm": 0.6790680972780807,
      "learning_rate": 1.986575769689992e-05,
      "loss": 1.0587,
      "step": 1314
    },
    {
      "epoch": 0.08072684858344333,
      "grad_norm": 0.7281130418720468,
      "learning_rate": 1.986543279607615e-05,
      "loss": 1.1105,
      "step": 1315
    },
    {
      "epoch": 0.08078823782190982,
      "grad_norm": 0.725800923810406,
      "learning_rate": 1.986510750521905e-05,
      "loss": 1.11,
      "step": 1316
    },
    {
      "epoch": 0.08084962706037632,
      "grad_norm": 0.632908587116752,
      "learning_rate": 1.986478182434149e-05,
      "loss": 1.0475,
      "step": 1317
    },
    {
      "epoch": 0.08091101629884281,
      "grad_norm": 0.6543347050100792,
      "learning_rate": 1.9864455753456345e-05,
      "loss": 1.0493,
      "step": 1318
    },
    {
      "epoch": 0.0809724055373093,
      "grad_norm": 0.7047320480982899,
      "learning_rate": 1.9864129292576508e-05,
      "loss": 1.1123,
      "step": 1319
    },
    {
      "epoch": 0.08103379477577581,
      "grad_norm": 0.7236858376381492,
      "learning_rate": 1.9863802441714878e-05,
      "loss": 1.0885,
      "step": 1320
    },
    {
      "epoch": 0.0810951840142423,
      "grad_norm": 0.6545010516870394,
      "learning_rate": 1.9863475200884386e-05,
      "loss": 1.1188,
      "step": 1321
    },
    {
      "epoch": 0.0811565732527088,
      "grad_norm": 0.655768608977828,
      "learning_rate": 1.9863147570097963e-05,
      "loss": 1.0872,
      "step": 1322
    },
    {
      "epoch": 0.0812179624911753,
      "grad_norm": 0.7182760536293469,
      "learning_rate": 1.9862819549368566e-05,
      "loss": 1.0914,
      "step": 1323
    },
    {
      "epoch": 0.08127935172964179,
      "grad_norm": 0.6922718149616057,
      "learning_rate": 1.986249113870916e-05,
      "loss": 1.1046,
      "step": 1324
    },
    {
      "epoch": 0.0813407409681083,
      "grad_norm": 0.6737482689748285,
      "learning_rate": 1.9862162338132734e-05,
      "loss": 1.032,
      "step": 1325
    },
    {
      "epoch": 0.08140213020657479,
      "grad_norm": 0.6843065949012123,
      "learning_rate": 1.9861833147652283e-05,
      "loss": 1.1228,
      "step": 1326
    },
    {
      "epoch": 0.08146351944504128,
      "grad_norm": 0.7475906702548317,
      "learning_rate": 1.9861503567280822e-05,
      "loss": 1.1291,
      "step": 1327
    },
    {
      "epoch": 0.08152490868350779,
      "grad_norm": 0.6815067062732831,
      "learning_rate": 1.986117359703138e-05,
      "loss": 1.0917,
      "step": 1328
    },
    {
      "epoch": 0.08158629792197428,
      "grad_norm": 0.7169673315326284,
      "learning_rate": 1.986084323691701e-05,
      "loss": 1.0962,
      "step": 1329
    },
    {
      "epoch": 0.08164768716044077,
      "grad_norm": 0.641606474906938,
      "learning_rate": 1.9860512486950764e-05,
      "loss": 1.0435,
      "step": 1330
    },
    {
      "epoch": 0.08170907639890727,
      "grad_norm": 0.6557365518258229,
      "learning_rate": 1.9860181347145725e-05,
      "loss": 1.0251,
      "step": 1331
    },
    {
      "epoch": 0.08177046563737377,
      "grad_norm": 0.683838850850088,
      "learning_rate": 1.9859849817514977e-05,
      "loss": 1.1121,
      "step": 1332
    },
    {
      "epoch": 0.08183185487584027,
      "grad_norm": 0.6711620334078024,
      "learning_rate": 1.9859517898071634e-05,
      "loss": 1.0566,
      "step": 1333
    },
    {
      "epoch": 0.08189324411430676,
      "grad_norm": 0.7279589047164153,
      "learning_rate": 1.9859185588828814e-05,
      "loss": 1.1165,
      "step": 1334
    },
    {
      "epoch": 0.08195463335277325,
      "grad_norm": 0.6434741446026196,
      "learning_rate": 1.985885288979966e-05,
      "loss": 1.0447,
      "step": 1335
    },
    {
      "epoch": 0.08201602259123976,
      "grad_norm": 0.6864964356942505,
      "learning_rate": 1.985851980099732e-05,
      "loss": 1.061,
      "step": 1336
    },
    {
      "epoch": 0.08207741182970625,
      "grad_norm": 0.6756015705624285,
      "learning_rate": 1.9858186322434964e-05,
      "loss": 1.0769,
      "step": 1337
    },
    {
      "epoch": 0.08213880106817274,
      "grad_norm": 0.6504993835635161,
      "learning_rate": 1.985785245412578e-05,
      "loss": 1.0722,
      "step": 1338
    },
    {
      "epoch": 0.08220019030663925,
      "grad_norm": 0.6788715624993804,
      "learning_rate": 1.9857518196082964e-05,
      "loss": 1.1193,
      "step": 1339
    },
    {
      "epoch": 0.08226157954510574,
      "grad_norm": 0.6323721059744252,
      "learning_rate": 1.9857183548319735e-05,
      "loss": 1.0717,
      "step": 1340
    },
    {
      "epoch": 0.08232296878357225,
      "grad_norm": 0.6938829011124276,
      "learning_rate": 1.9856848510849315e-05,
      "loss": 1.0769,
      "step": 1341
    },
    {
      "epoch": 0.08238435802203874,
      "grad_norm": 0.6321963724765762,
      "learning_rate": 1.9856513083684962e-05,
      "loss": 1.0207,
      "step": 1342
    },
    {
      "epoch": 0.08244574726050523,
      "grad_norm": 0.7051980891136295,
      "learning_rate": 1.9856177266839924e-05,
      "loss": 1.0867,
      "step": 1343
    },
    {
      "epoch": 0.08250713649897173,
      "grad_norm": 0.7055727078541086,
      "learning_rate": 1.985584106032749e-05,
      "loss": 1.1143,
      "step": 1344
    },
    {
      "epoch": 0.08256852573743823,
      "grad_norm": 0.6806766937729986,
      "learning_rate": 1.985550446416094e-05,
      "loss": 1.0192,
      "step": 1345
    },
    {
      "epoch": 0.08262991497590473,
      "grad_norm": 0.7509973452768306,
      "learning_rate": 1.985516747835359e-05,
      "loss": 1.171,
      "step": 1346
    },
    {
      "epoch": 0.08269130421437122,
      "grad_norm": 0.6623209874960058,
      "learning_rate": 1.985483010291876e-05,
      "loss": 1.0275,
      "step": 1347
    },
    {
      "epoch": 0.08275269345283771,
      "grad_norm": 0.710743999240831,
      "learning_rate": 1.985449233786979e-05,
      "loss": 1.0858,
      "step": 1348
    },
    {
      "epoch": 0.08281408269130422,
      "grad_norm": 0.6867397238881834,
      "learning_rate": 1.985415418322003e-05,
      "loss": 1.1041,
      "step": 1349
    },
    {
      "epoch": 0.08287547192977071,
      "grad_norm": 0.6719360632282575,
      "learning_rate": 1.9853815638982855e-05,
      "loss": 1.0689,
      "step": 1350
    },
    {
      "epoch": 0.0829368611682372,
      "grad_norm": 0.6762297783530292,
      "learning_rate": 1.9853476705171642e-05,
      "loss": 1.0745,
      "step": 1351
    },
    {
      "epoch": 0.08299825040670371,
      "grad_norm": 0.6647345753028688,
      "learning_rate": 1.98531373817998e-05,
      "loss": 1.0806,
      "step": 1352
    },
    {
      "epoch": 0.0830596396451702,
      "grad_norm": 0.6977504433803491,
      "learning_rate": 1.9852797668880735e-05,
      "loss": 1.1242,
      "step": 1353
    },
    {
      "epoch": 0.0831210288836367,
      "grad_norm": 0.6959342000001993,
      "learning_rate": 1.9852457566427882e-05,
      "loss": 1.0828,
      "step": 1354
    },
    {
      "epoch": 0.0831824181221032,
      "grad_norm": 0.6766571213985072,
      "learning_rate": 1.9852117074454686e-05,
      "loss": 1.0902,
      "step": 1355
    },
    {
      "epoch": 0.08324380736056969,
      "grad_norm": 0.7016066993641292,
      "learning_rate": 1.9851776192974613e-05,
      "loss": 1.1328,
      "step": 1356
    },
    {
      "epoch": 0.0833051965990362,
      "grad_norm": 0.6950899094534391,
      "learning_rate": 1.985143492200113e-05,
      "loss": 1.1323,
      "step": 1357
    },
    {
      "epoch": 0.08336658583750269,
      "grad_norm": 0.6571739140317696,
      "learning_rate": 1.985109326154774e-05,
      "loss": 0.9996,
      "step": 1358
    },
    {
      "epoch": 0.08342797507596918,
      "grad_norm": 0.675915395394673,
      "learning_rate": 1.9850751211627945e-05,
      "loss": 1.0499,
      "step": 1359
    },
    {
      "epoch": 0.08348936431443568,
      "grad_norm": 0.6348880557550625,
      "learning_rate": 1.985040877225527e-05,
      "loss": 1.093,
      "step": 1360
    },
    {
      "epoch": 0.08355075355290217,
      "grad_norm": 0.6474103655863352,
      "learning_rate": 1.9850065943443253e-05,
      "loss": 1.0948,
      "step": 1361
    },
    {
      "epoch": 0.08361214279136868,
      "grad_norm": 0.7342553816715575,
      "learning_rate": 1.9849722725205446e-05,
      "loss": 1.1265,
      "step": 1362
    },
    {
      "epoch": 0.08367353202983517,
      "grad_norm": 0.6290783624555605,
      "learning_rate": 1.984937911755542e-05,
      "loss": 1.0718,
      "step": 1363
    },
    {
      "epoch": 0.08373492126830166,
      "grad_norm": 0.6113986601788274,
      "learning_rate": 1.9849035120506756e-05,
      "loss": 1.0483,
      "step": 1364
    },
    {
      "epoch": 0.08379631050676817,
      "grad_norm": 0.7225623452831963,
      "learning_rate": 1.9848690734073058e-05,
      "loss": 1.0891,
      "step": 1365
    },
    {
      "epoch": 0.08385769974523466,
      "grad_norm": 0.7089434984736036,
      "learning_rate": 1.9848345958267944e-05,
      "loss": 1.1009,
      "step": 1366
    },
    {
      "epoch": 0.08391908898370115,
      "grad_norm": 0.7236254118045253,
      "learning_rate": 1.9848000793105043e-05,
      "loss": 1.0917,
      "step": 1367
    },
    {
      "epoch": 0.08398047822216766,
      "grad_norm": 0.7020592626032717,
      "learning_rate": 1.9847655238597997e-05,
      "loss": 1.1479,
      "step": 1368
    },
    {
      "epoch": 0.08404186746063415,
      "grad_norm": 0.6988354782643169,
      "learning_rate": 1.9847309294760473e-05,
      "loss": 1.1327,
      "step": 1369
    },
    {
      "epoch": 0.08410325669910065,
      "grad_norm": 0.6845263959670228,
      "learning_rate": 1.984696296160614e-05,
      "loss": 1.1391,
      "step": 1370
    },
    {
      "epoch": 0.08416464593756715,
      "grad_norm": 0.6679914072669327,
      "learning_rate": 1.9846616239148702e-05,
      "loss": 1.0878,
      "step": 1371
    },
    {
      "epoch": 0.08422603517603364,
      "grad_norm": 0.7061419133143796,
      "learning_rate": 1.9846269127401858e-05,
      "loss": 1.1657,
      "step": 1372
    },
    {
      "epoch": 0.08428742441450014,
      "grad_norm": 0.6545805617076057,
      "learning_rate": 1.9845921626379333e-05,
      "loss": 1.1126,
      "step": 1373
    },
    {
      "epoch": 0.08434881365296663,
      "grad_norm": 0.6799555534798515,
      "learning_rate": 1.984557373609487e-05,
      "loss": 1.0623,
      "step": 1374
    },
    {
      "epoch": 0.08441020289143313,
      "grad_norm": 0.6641302195447969,
      "learning_rate": 1.9845225456562213e-05,
      "loss": 1.0993,
      "step": 1375
    },
    {
      "epoch": 0.08447159212989963,
      "grad_norm": 0.6279977972778701,
      "learning_rate": 1.984487678779514e-05,
      "loss": 1.0339,
      "step": 1376
    },
    {
      "epoch": 0.08453298136836612,
      "grad_norm": 0.7624631167362479,
      "learning_rate": 1.9844527729807436e-05,
      "loss": 1.158,
      "step": 1377
    },
    {
      "epoch": 0.08459437060683263,
      "grad_norm": 0.6871003867299504,
      "learning_rate": 1.9844178282612897e-05,
      "loss": 1.084,
      "step": 1378
    },
    {
      "epoch": 0.08465575984529912,
      "grad_norm": 0.7056734462487091,
      "learning_rate": 1.984382844622534e-05,
      "loss": 1.1401,
      "step": 1379
    },
    {
      "epoch": 0.08471714908376561,
      "grad_norm": 0.6729246912359819,
      "learning_rate": 1.98434782206586e-05,
      "loss": 1.0353,
      "step": 1380
    },
    {
      "epoch": 0.08477853832223212,
      "grad_norm": 0.6939409691940995,
      "learning_rate": 1.9843127605926513e-05,
      "loss": 1.0709,
      "step": 1381
    },
    {
      "epoch": 0.08483992756069861,
      "grad_norm": 0.7285644866909117,
      "learning_rate": 1.9842776602042952e-05,
      "loss": 1.1191,
      "step": 1382
    },
    {
      "epoch": 0.0849013167991651,
      "grad_norm": 0.7088384235200776,
      "learning_rate": 1.9842425209021785e-05,
      "loss": 1.1172,
      "step": 1383
    },
    {
      "epoch": 0.0849627060376316,
      "grad_norm": 0.7006751892717372,
      "learning_rate": 1.984207342687691e-05,
      "loss": 1.1061,
      "step": 1384
    },
    {
      "epoch": 0.0850240952760981,
      "grad_norm": 0.6219489390790895,
      "learning_rate": 1.9841721255622235e-05,
      "loss": 1.0092,
      "step": 1385
    },
    {
      "epoch": 0.0850854845145646,
      "grad_norm": 0.6671692138988189,
      "learning_rate": 1.9841368695271682e-05,
      "loss": 1.1134,
      "step": 1386
    },
    {
      "epoch": 0.0851468737530311,
      "grad_norm": 0.7133594967349834,
      "learning_rate": 1.9841015745839188e-05,
      "loss": 1.0822,
      "step": 1387
    },
    {
      "epoch": 0.08520826299149759,
      "grad_norm": 0.6941178356416575,
      "learning_rate": 1.9840662407338707e-05,
      "loss": 1.1221,
      "step": 1388
    },
    {
      "epoch": 0.08526965222996409,
      "grad_norm": 0.6545155413423954,
      "learning_rate": 1.9840308679784207e-05,
      "loss": 1.0084,
      "step": 1389
    },
    {
      "epoch": 0.08533104146843058,
      "grad_norm": 0.7066362436566641,
      "learning_rate": 1.983995456318968e-05,
      "loss": 1.1492,
      "step": 1390
    },
    {
      "epoch": 0.08539243070689709,
      "grad_norm": 0.7416163431838715,
      "learning_rate": 1.983960005756912e-05,
      "loss": 1.1394,
      "step": 1391
    },
    {
      "epoch": 0.08545381994536358,
      "grad_norm": 0.7060757238916422,
      "learning_rate": 1.9839245162936543e-05,
      "loss": 1.1365,
      "step": 1392
    },
    {
      "epoch": 0.08551520918383007,
      "grad_norm": 0.6511953162933705,
      "learning_rate": 1.983888987930598e-05,
      "loss": 1.0405,
      "step": 1393
    },
    {
      "epoch": 0.08557659842229658,
      "grad_norm": 0.740508158667697,
      "learning_rate": 1.983853420669148e-05,
      "loss": 1.1064,
      "step": 1394
    },
    {
      "epoch": 0.08563798766076307,
      "grad_norm": 0.6920004713960293,
      "learning_rate": 1.98381781451071e-05,
      "loss": 1.1356,
      "step": 1395
    },
    {
      "epoch": 0.08569937689922956,
      "grad_norm": 0.7433249719459694,
      "learning_rate": 1.9837821694566924e-05,
      "loss": 1.1815,
      "step": 1396
    },
    {
      "epoch": 0.08576076613769607,
      "grad_norm": 0.696767344020618,
      "learning_rate": 1.9837464855085035e-05,
      "loss": 1.1239,
      "step": 1397
    },
    {
      "epoch": 0.08582215537616256,
      "grad_norm": 0.6554708155609612,
      "learning_rate": 1.983710762667555e-05,
      "loss": 1.1266,
      "step": 1398
    },
    {
      "epoch": 0.08588354461462906,
      "grad_norm": 0.7502510070744033,
      "learning_rate": 1.9836750009352585e-05,
      "loss": 1.1065,
      "step": 1399
    },
    {
      "epoch": 0.08594493385309555,
      "grad_norm": 0.6702825651915627,
      "learning_rate": 1.983639200313028e-05,
      "loss": 1.0789,
      "step": 1400
    },
    {
      "epoch": 0.08600632309156205,
      "grad_norm": 0.7008901126732915,
      "learning_rate": 1.98360336080228e-05,
      "loss": 1.1162,
      "step": 1401
    },
    {
      "epoch": 0.08606771233002855,
      "grad_norm": 0.6459172364111131,
      "learning_rate": 1.9835674824044293e-05,
      "loss": 1.1031,
      "step": 1402
    },
    {
      "epoch": 0.08612910156849504,
      "grad_norm": 0.755740616152835,
      "learning_rate": 1.9835315651208963e-05,
      "loss": 1.1534,
      "step": 1403
    },
    {
      "epoch": 0.08619049080696153,
      "grad_norm": 0.6681157190343344,
      "learning_rate": 1.9834956089530998e-05,
      "loss": 1.0865,
      "step": 1404
    },
    {
      "epoch": 0.08625188004542804,
      "grad_norm": 0.6810239227754487,
      "learning_rate": 1.983459613902462e-05,
      "loss": 1.0974,
      "step": 1405
    },
    {
      "epoch": 0.08631326928389453,
      "grad_norm": 0.6795051653103429,
      "learning_rate": 1.9834235799704056e-05,
      "loss": 1.0997,
      "step": 1406
    },
    {
      "epoch": 0.08637465852236104,
      "grad_norm": 0.6639100696344961,
      "learning_rate": 1.9833875071583556e-05,
      "loss": 1.0411,
      "step": 1407
    },
    {
      "epoch": 0.08643604776082753,
      "grad_norm": 0.6347491755951824,
      "learning_rate": 1.983351395467738e-05,
      "loss": 1.0456,
      "step": 1408
    },
    {
      "epoch": 0.08649743699929402,
      "grad_norm": 0.6380651279310441,
      "learning_rate": 1.9833152448999796e-05,
      "loss": 1.0433,
      "step": 1409
    },
    {
      "epoch": 0.08655882623776052,
      "grad_norm": 0.6711280327408194,
      "learning_rate": 1.9832790554565112e-05,
      "loss": 1.0768,
      "step": 1410
    },
    {
      "epoch": 0.08662021547622702,
      "grad_norm": 0.6798867691554195,
      "learning_rate": 1.9832428271387625e-05,
      "loss": 1.0705,
      "step": 1411
    },
    {
      "epoch": 0.08668160471469351,
      "grad_norm": 0.6897507264526679,
      "learning_rate": 1.9832065599481663e-05,
      "loss": 1.0773,
      "step": 1412
    },
    {
      "epoch": 0.08674299395316001,
      "grad_norm": 0.6824525846258331,
      "learning_rate": 1.983170253886156e-05,
      "loss": 1.0805,
      "step": 1413
    },
    {
      "epoch": 0.0868043831916265,
      "grad_norm": 0.7675650820406114,
      "learning_rate": 1.9831339089541673e-05,
      "loss": 1.1879,
      "step": 1414
    },
    {
      "epoch": 0.08686577243009301,
      "grad_norm": 0.7042479393398464,
      "learning_rate": 1.983097525153637e-05,
      "loss": 1.1305,
      "step": 1415
    },
    {
      "epoch": 0.0869271616685595,
      "grad_norm": 0.6707784362587442,
      "learning_rate": 1.9830611024860037e-05,
      "loss": 1.0562,
      "step": 1416
    },
    {
      "epoch": 0.086988550907026,
      "grad_norm": 0.6961226745811974,
      "learning_rate": 1.983024640952707e-05,
      "loss": 1.1017,
      "step": 1417
    },
    {
      "epoch": 0.0870499401454925,
      "grad_norm": 0.7020307909166009,
      "learning_rate": 1.9829881405551887e-05,
      "loss": 1.1063,
      "step": 1418
    },
    {
      "epoch": 0.08711132938395899,
      "grad_norm": 0.6347973658325522,
      "learning_rate": 1.982951601294892e-05,
      "loss": 1.0173,
      "step": 1419
    },
    {
      "epoch": 0.08717271862242548,
      "grad_norm": 0.6858927660375337,
      "learning_rate": 1.9829150231732612e-05,
      "loss": 1.1454,
      "step": 1420
    },
    {
      "epoch": 0.08723410786089199,
      "grad_norm": 0.7174716624697643,
      "learning_rate": 1.9828784061917423e-05,
      "loss": 1.1247,
      "step": 1421
    },
    {
      "epoch": 0.08729549709935848,
      "grad_norm": 0.7163979785386497,
      "learning_rate": 1.9828417503517836e-05,
      "loss": 1.0547,
      "step": 1422
    },
    {
      "epoch": 0.08735688633782498,
      "grad_norm": 0.6429185761920143,
      "learning_rate": 1.9828050556548335e-05,
      "loss": 1.0767,
      "step": 1423
    },
    {
      "epoch": 0.08741827557629148,
      "grad_norm": 0.6396050573719158,
      "learning_rate": 1.9827683221023432e-05,
      "loss": 1.0252,
      "step": 1424
    },
    {
      "epoch": 0.08747966481475797,
      "grad_norm": 0.7035129073289565,
      "learning_rate": 1.9827315496957652e-05,
      "loss": 1.0823,
      "step": 1425
    },
    {
      "epoch": 0.08754105405322447,
      "grad_norm": 0.6659627933380661,
      "learning_rate": 1.982694738436553e-05,
      "loss": 1.0393,
      "step": 1426
    },
    {
      "epoch": 0.08760244329169097,
      "grad_norm": 0.6730428974384626,
      "learning_rate": 1.9826578883261618e-05,
      "loss": 1.0745,
      "step": 1427
    },
    {
      "epoch": 0.08766383253015746,
      "grad_norm": 0.703221803918432,
      "learning_rate": 1.9826209993660484e-05,
      "loss": 1.0675,
      "step": 1428
    },
    {
      "epoch": 0.08772522176862396,
      "grad_norm": 0.7177103349632418,
      "learning_rate": 1.9825840715576722e-05,
      "loss": 1.1008,
      "step": 1429
    },
    {
      "epoch": 0.08778661100709045,
      "grad_norm": 0.6996324464355298,
      "learning_rate": 1.9825471049024918e-05,
      "loss": 1.0919,
      "step": 1430
    },
    {
      "epoch": 0.08784800024555696,
      "grad_norm": 0.6845376950075036,
      "learning_rate": 1.9825100994019694e-05,
      "loss": 1.1226,
      "step": 1431
    },
    {
      "epoch": 0.08790938948402345,
      "grad_norm": 0.6899998701941675,
      "learning_rate": 1.982473055057568e-05,
      "loss": 1.0735,
      "step": 1432
    },
    {
      "epoch": 0.08797077872248994,
      "grad_norm": 0.6585829535693053,
      "learning_rate": 1.982435971870752e-05,
      "loss": 1.0695,
      "step": 1433
    },
    {
      "epoch": 0.08803216796095645,
      "grad_norm": 0.6599823278194163,
      "learning_rate": 1.982398849842988e-05,
      "loss": 1.0977,
      "step": 1434
    },
    {
      "epoch": 0.08809355719942294,
      "grad_norm": 0.6637914800304112,
      "learning_rate": 1.982361688975743e-05,
      "loss": 1.0769,
      "step": 1435
    },
    {
      "epoch": 0.08815494643788944,
      "grad_norm": 0.5964520794947993,
      "learning_rate": 1.9823244892704863e-05,
      "loss": 1.0262,
      "step": 1436
    },
    {
      "epoch": 0.08821633567635594,
      "grad_norm": 0.6529024768502161,
      "learning_rate": 1.982287250728689e-05,
      "loss": 1.0878,
      "step": 1437
    },
    {
      "epoch": 0.08827772491482243,
      "grad_norm": 0.6751338465987011,
      "learning_rate": 1.982249973351823e-05,
      "loss": 1.0753,
      "step": 1438
    },
    {
      "epoch": 0.08833911415328893,
      "grad_norm": 0.7355963415883586,
      "learning_rate": 1.9822126571413616e-05,
      "loss": 1.101,
      "step": 1439
    },
    {
      "epoch": 0.08840050339175543,
      "grad_norm": 0.6504811393388658,
      "learning_rate": 1.9821753020987808e-05,
      "loss": 1.0589,
      "step": 1440
    },
    {
      "epoch": 0.08846189263022192,
      "grad_norm": 0.6694662809270664,
      "learning_rate": 1.9821379082255575e-05,
      "loss": 1.0548,
      "step": 1441
    },
    {
      "epoch": 0.08852328186868842,
      "grad_norm": 0.7204307142460576,
      "learning_rate": 1.98210047552317e-05,
      "loss": 1.1446,
      "step": 1442
    },
    {
      "epoch": 0.08858467110715491,
      "grad_norm": 0.6712386612464672,
      "learning_rate": 1.9820630039930976e-05,
      "loss": 1.0586,
      "step": 1443
    },
    {
      "epoch": 0.08864606034562142,
      "grad_norm": 0.7027733041294053,
      "learning_rate": 1.9820254936368223e-05,
      "loss": 1.1056,
      "step": 1444
    },
    {
      "epoch": 0.08870744958408791,
      "grad_norm": 0.6824264039323775,
      "learning_rate": 1.9819879444558272e-05,
      "loss": 1.0989,
      "step": 1445
    },
    {
      "epoch": 0.0887688388225544,
      "grad_norm": 0.7083388652146014,
      "learning_rate": 1.9819503564515964e-05,
      "loss": 1.1399,
      "step": 1446
    },
    {
      "epoch": 0.08883022806102091,
      "grad_norm": 0.6947879957096403,
      "learning_rate": 1.9819127296256165e-05,
      "loss": 1.0444,
      "step": 1447
    },
    {
      "epoch": 0.0888916172994874,
      "grad_norm": 0.672225908787004,
      "learning_rate": 1.9818750639793744e-05,
      "loss": 1.1086,
      "step": 1448
    },
    {
      "epoch": 0.08895300653795389,
      "grad_norm": 0.6696618048568708,
      "learning_rate": 1.98183735951436e-05,
      "loss": 1.0806,
      "step": 1449
    },
    {
      "epoch": 0.0890143957764204,
      "grad_norm": 0.6757648388212889,
      "learning_rate": 1.981799616232063e-05,
      "loss": 1.1029,
      "step": 1450
    },
    {
      "epoch": 0.08907578501488689,
      "grad_norm": 0.69597366126493,
      "learning_rate": 1.9817618341339764e-05,
      "loss": 1.1844,
      "step": 1451
    },
    {
      "epoch": 0.0891371742533534,
      "grad_norm": 0.726481848759993,
      "learning_rate": 1.9817240132215934e-05,
      "loss": 1.0777,
      "step": 1452
    },
    {
      "epoch": 0.08919856349181988,
      "grad_norm": 0.7372397339140822,
      "learning_rate": 1.9816861534964102e-05,
      "loss": 1.1164,
      "step": 1453
    },
    {
      "epoch": 0.08925995273028638,
      "grad_norm": 0.644109053043591,
      "learning_rate": 1.9816482549599225e-05,
      "loss": 1.0813,
      "step": 1454
    },
    {
      "epoch": 0.08932134196875288,
      "grad_norm": 0.702277768142161,
      "learning_rate": 1.981610317613629e-05,
      "loss": 1.0896,
      "step": 1455
    },
    {
      "epoch": 0.08938273120721937,
      "grad_norm": 0.655061580794906,
      "learning_rate": 1.9815723414590295e-05,
      "loss": 1.0344,
      "step": 1456
    },
    {
      "epoch": 0.08944412044568587,
      "grad_norm": 0.648525442978186,
      "learning_rate": 1.981534326497626e-05,
      "loss": 1.0839,
      "step": 1457
    },
    {
      "epoch": 0.08950550968415237,
      "grad_norm": 0.7079219592630253,
      "learning_rate": 1.9814962727309206e-05,
      "loss": 1.1268,
      "step": 1458
    },
    {
      "epoch": 0.08956689892261886,
      "grad_norm": 0.6554847063845534,
      "learning_rate": 1.981458180160418e-05,
      "loss": 1.0294,
      "step": 1459
    },
    {
      "epoch": 0.08962828816108537,
      "grad_norm": 0.7211549492023124,
      "learning_rate": 1.9814200487876247e-05,
      "loss": 1.0722,
      "step": 1460
    },
    {
      "epoch": 0.08968967739955186,
      "grad_norm": 0.6273663863995919,
      "learning_rate": 1.9813818786140476e-05,
      "loss": 0.9938,
      "step": 1461
    },
    {
      "epoch": 0.08975106663801835,
      "grad_norm": 0.6417616229928915,
      "learning_rate": 1.9813436696411964e-05,
      "loss": 1.0279,
      "step": 1462
    },
    {
      "epoch": 0.08981245587648486,
      "grad_norm": 0.6771649069489594,
      "learning_rate": 1.981305421870581e-05,
      "loss": 1.0559,
      "step": 1463
    },
    {
      "epoch": 0.08987384511495135,
      "grad_norm": 0.6640860098308586,
      "learning_rate": 1.981267135303714e-05,
      "loss": 1.0913,
      "step": 1464
    },
    {
      "epoch": 0.08993523435341784,
      "grad_norm": 0.6676451177827608,
      "learning_rate": 1.981228809942109e-05,
      "loss": 1.0468,
      "step": 1465
    },
    {
      "epoch": 0.08999662359188434,
      "grad_norm": 0.664363334420688,
      "learning_rate": 1.981190445787281e-05,
      "loss": 1.1373,
      "step": 1466
    },
    {
      "epoch": 0.09005801283035084,
      "grad_norm": 0.6423979260091903,
      "learning_rate": 1.9811520428407472e-05,
      "loss": 1.0535,
      "step": 1467
    },
    {
      "epoch": 0.09011940206881734,
      "grad_norm": 0.7174891754252274,
      "learning_rate": 1.9811136011040254e-05,
      "loss": 1.0691,
      "step": 1468
    },
    {
      "epoch": 0.09018079130728383,
      "grad_norm": 0.6847076466481411,
      "learning_rate": 1.9810751205786352e-05,
      "loss": 1.0385,
      "step": 1469
    },
    {
      "epoch": 0.09024218054575033,
      "grad_norm": 0.698589939323995,
      "learning_rate": 1.9810366012660987e-05,
      "loss": 1.149,
      "step": 1470
    },
    {
      "epoch": 0.09030356978421683,
      "grad_norm": 0.6963404970759796,
      "learning_rate": 1.9809980431679388e-05,
      "loss": 1.0799,
      "step": 1471
    },
    {
      "epoch": 0.09036495902268332,
      "grad_norm": 0.7541008648098109,
      "learning_rate": 1.9809594462856788e-05,
      "loss": 1.1323,
      "step": 1472
    },
    {
      "epoch": 0.09042634826114981,
      "grad_norm": 0.6755304860047896,
      "learning_rate": 1.980920810620846e-05,
      "loss": 1.0905,
      "step": 1473
    },
    {
      "epoch": 0.09048773749961632,
      "grad_norm": 0.6875184747235094,
      "learning_rate": 1.980882136174967e-05,
      "loss": 1.1496,
      "step": 1474
    },
    {
      "epoch": 0.09054912673808281,
      "grad_norm": 0.6976423246143635,
      "learning_rate": 1.9808434229495704e-05,
      "loss": 1.15,
      "step": 1475
    },
    {
      "epoch": 0.09061051597654932,
      "grad_norm": 0.661392754280013,
      "learning_rate": 1.980804670946188e-05,
      "loss": 0.9886,
      "step": 1476
    },
    {
      "epoch": 0.09067190521501581,
      "grad_norm": 0.6860335775171864,
      "learning_rate": 1.9807658801663513e-05,
      "loss": 1.1009,
      "step": 1477
    },
    {
      "epoch": 0.0907332944534823,
      "grad_norm": 0.6597202467347331,
      "learning_rate": 1.9807270506115936e-05,
      "loss": 1.1023,
      "step": 1478
    },
    {
      "epoch": 0.0907946836919488,
      "grad_norm": 0.6463165708086689,
      "learning_rate": 1.9806881822834503e-05,
      "loss": 1.075,
      "step": 1479
    },
    {
      "epoch": 0.0908560729304153,
      "grad_norm": 0.6536856399427041,
      "learning_rate": 1.980649275183458e-05,
      "loss": 1.0765,
      "step": 1480
    },
    {
      "epoch": 0.0909174621688818,
      "grad_norm": 0.6599503872857708,
      "learning_rate": 1.9806103293131552e-05,
      "loss": 1.1271,
      "step": 1481
    },
    {
      "epoch": 0.0909788514073483,
      "grad_norm": 0.6690625606622247,
      "learning_rate": 1.9805713446740814e-05,
      "loss": 1.106,
      "step": 1482
    },
    {
      "epoch": 0.09104024064581479,
      "grad_norm": 0.6268207302663262,
      "learning_rate": 1.9805323212677777e-05,
      "loss": 1.048,
      "step": 1483
    },
    {
      "epoch": 0.09110162988428129,
      "grad_norm": 0.6210246594176962,
      "learning_rate": 1.9804932590957874e-05,
      "loss": 0.9917,
      "step": 1484
    },
    {
      "epoch": 0.09116301912274778,
      "grad_norm": 0.7524858051228759,
      "learning_rate": 1.980454158159654e-05,
      "loss": 1.095,
      "step": 1485
    },
    {
      "epoch": 0.09122440836121427,
      "grad_norm": 0.6525148193035898,
      "learning_rate": 1.9804150184609244e-05,
      "loss": 1.0692,
      "step": 1486
    },
    {
      "epoch": 0.09128579759968078,
      "grad_norm": 0.6694583417972336,
      "learning_rate": 1.9803758400011452e-05,
      "loss": 1.0827,
      "step": 1487
    },
    {
      "epoch": 0.09134718683814727,
      "grad_norm": 0.6607730834494454,
      "learning_rate": 1.9803366227818657e-05,
      "loss": 1.0983,
      "step": 1488
    },
    {
      "epoch": 0.09140857607661378,
      "grad_norm": 0.6167057526349067,
      "learning_rate": 1.9802973668046364e-05,
      "loss": 1.0414,
      "step": 1489
    },
    {
      "epoch": 0.09146996531508027,
      "grad_norm": 0.6880560155164281,
      "learning_rate": 1.980258072071009e-05,
      "loss": 1.1352,
      "step": 1490
    },
    {
      "epoch": 0.09153135455354676,
      "grad_norm": 0.6851891067623528,
      "learning_rate": 1.9802187385825374e-05,
      "loss": 1.0388,
      "step": 1491
    },
    {
      "epoch": 0.09159274379201326,
      "grad_norm": 0.6487668664053071,
      "learning_rate": 1.9801793663407763e-05,
      "loss": 1.0518,
      "step": 1492
    },
    {
      "epoch": 0.09165413303047976,
      "grad_norm": 0.6812306094738328,
      "learning_rate": 1.9801399553472826e-05,
      "loss": 1.1217,
      "step": 1493
    },
    {
      "epoch": 0.09171552226894625,
      "grad_norm": 0.6606893266641892,
      "learning_rate": 1.980100505603614e-05,
      "loss": 1.06,
      "step": 1494
    },
    {
      "epoch": 0.09177691150741275,
      "grad_norm": 0.7092960651338106,
      "learning_rate": 1.980061017111331e-05,
      "loss": 1.0791,
      "step": 1495
    },
    {
      "epoch": 0.09183830074587924,
      "grad_norm": 0.6477164730701566,
      "learning_rate": 1.980021489871994e-05,
      "loss": 1.0479,
      "step": 1496
    },
    {
      "epoch": 0.09189968998434575,
      "grad_norm": 0.6529749998374129,
      "learning_rate": 1.979981923887166e-05,
      "loss": 1.0217,
      "step": 1497
    },
    {
      "epoch": 0.09196107922281224,
      "grad_norm": 0.6474852748325008,
      "learning_rate": 1.9799423191584113e-05,
      "loss": 1.0336,
      "step": 1498
    },
    {
      "epoch": 0.09202246846127873,
      "grad_norm": 0.6959626520967063,
      "learning_rate": 1.9799026756872957e-05,
      "loss": 1.1107,
      "step": 1499
    },
    {
      "epoch": 0.09208385769974524,
      "grad_norm": 0.6875486650024424,
      "learning_rate": 1.979862993475386e-05,
      "loss": 1.0783,
      "step": 1500
    },
    {
      "epoch": 0.09214524693821173,
      "grad_norm": 0.7151820508151217,
      "learning_rate": 1.979823272524252e-05,
      "loss": 1.1069,
      "step": 1501
    },
    {
      "epoch": 0.09220663617667822,
      "grad_norm": 0.6998245610406829,
      "learning_rate": 1.979783512835463e-05,
      "loss": 1.077,
      "step": 1502
    },
    {
      "epoch": 0.09226802541514473,
      "grad_norm": 0.6469047876805166,
      "learning_rate": 1.979743714410592e-05,
      "loss": 1.0732,
      "step": 1503
    },
    {
      "epoch": 0.09232941465361122,
      "grad_norm": 0.6675342811906272,
      "learning_rate": 1.979703877251212e-05,
      "loss": 1.0707,
      "step": 1504
    },
    {
      "epoch": 0.09239080389207772,
      "grad_norm": 0.5998506742160346,
      "learning_rate": 1.9796640013588976e-05,
      "loss": 0.9699,
      "step": 1505
    },
    {
      "epoch": 0.09245219313054422,
      "grad_norm": 0.7276016949039296,
      "learning_rate": 1.9796240867352256e-05,
      "loss": 1.0995,
      "step": 1506
    },
    {
      "epoch": 0.09251358236901071,
      "grad_norm": 0.6710977125435101,
      "learning_rate": 1.979584133381774e-05,
      "loss": 1.0974,
      "step": 1507
    },
    {
      "epoch": 0.09257497160747721,
      "grad_norm": 0.5995111607188922,
      "learning_rate": 1.979544141300123e-05,
      "loss": 1.0402,
      "step": 1508
    },
    {
      "epoch": 0.0926363608459437,
      "grad_norm": 0.714730143618666,
      "learning_rate": 1.9795041104918527e-05,
      "loss": 1.1303,
      "step": 1509
    },
    {
      "epoch": 0.0926977500844102,
      "grad_norm": 0.6651290187613784,
      "learning_rate": 1.9794640409585463e-05,
      "loss": 1.0569,
      "step": 1510
    },
    {
      "epoch": 0.0927591393228767,
      "grad_norm": 0.698043034269697,
      "learning_rate": 1.9794239327017873e-05,
      "loss": 1.132,
      "step": 1511
    },
    {
      "epoch": 0.0928205285613432,
      "grad_norm": 0.6433203090893231,
      "learning_rate": 1.9793837857231625e-05,
      "loss": 1.0764,
      "step": 1512
    },
    {
      "epoch": 0.0928819177998097,
      "grad_norm": 0.6490100685160684,
      "learning_rate": 1.979343600024258e-05,
      "loss": 1.0705,
      "step": 1513
    },
    {
      "epoch": 0.09294330703827619,
      "grad_norm": 0.6766291211338387,
      "learning_rate": 1.9793033756066635e-05,
      "loss": 1.053,
      "step": 1514
    },
    {
      "epoch": 0.09300469627674268,
      "grad_norm": 0.6826235695057074,
      "learning_rate": 1.9792631124719688e-05,
      "loss": 1.1059,
      "step": 1515
    },
    {
      "epoch": 0.09306608551520919,
      "grad_norm": 0.6918934537947246,
      "learning_rate": 1.979222810621766e-05,
      "loss": 1.0668,
      "step": 1516
    },
    {
      "epoch": 0.09312747475367568,
      "grad_norm": 0.6522311468853118,
      "learning_rate": 1.979182470057648e-05,
      "loss": 1.0863,
      "step": 1517
    },
    {
      "epoch": 0.09318886399214217,
      "grad_norm": 0.6378302999055452,
      "learning_rate": 1.97914209078121e-05,
      "loss": 1.0668,
      "step": 1518
    },
    {
      "epoch": 0.09325025323060868,
      "grad_norm": 0.6581153221807214,
      "learning_rate": 1.9791016727940482e-05,
      "loss": 1.055,
      "step": 1519
    },
    {
      "epoch": 0.09331164246907517,
      "grad_norm": 0.6990674735441055,
      "learning_rate": 1.9790612160977608e-05,
      "loss": 1.0796,
      "step": 1520
    },
    {
      "epoch": 0.09337303170754167,
      "grad_norm": 0.6298574976865817,
      "learning_rate": 1.979020720693947e-05,
      "loss": 1.0583,
      "step": 1521
    },
    {
      "epoch": 0.09343442094600816,
      "grad_norm": 0.6683062209678141,
      "learning_rate": 1.978980186584208e-05,
      "loss": 1.1064,
      "step": 1522
    },
    {
      "epoch": 0.09349581018447466,
      "grad_norm": 0.6080161178926998,
      "learning_rate": 1.9789396137701465e-05,
      "loss": 0.998,
      "step": 1523
    },
    {
      "epoch": 0.09355719942294116,
      "grad_norm": 0.6378332271315269,
      "learning_rate": 1.9788990022533664e-05,
      "loss": 1.0548,
      "step": 1524
    },
    {
      "epoch": 0.09361858866140765,
      "grad_norm": 0.633585676792397,
      "learning_rate": 1.9788583520354727e-05,
      "loss": 1.0417,
      "step": 1525
    },
    {
      "epoch": 0.09367997789987416,
      "grad_norm": 0.5727414225481741,
      "learning_rate": 1.9788176631180735e-05,
      "loss": 0.9781,
      "step": 1526
    },
    {
      "epoch": 0.09374136713834065,
      "grad_norm": 0.8097402881552433,
      "learning_rate": 1.9787769355027767e-05,
      "loss": 0.8263,
      "step": 1527
    },
    {
      "epoch": 0.09380275637680714,
      "grad_norm": 0.6466656305482733,
      "learning_rate": 1.9787361691911927e-05,
      "loss": 1.0837,
      "step": 1528
    },
    {
      "epoch": 0.09386414561527365,
      "grad_norm": 0.6767814246648258,
      "learning_rate": 1.9786953641849336e-05,
      "loss": 1.0869,
      "step": 1529
    },
    {
      "epoch": 0.09392553485374014,
      "grad_norm": 0.7225580495958375,
      "learning_rate": 1.9786545204856122e-05,
      "loss": 1.1216,
      "step": 1530
    },
    {
      "epoch": 0.09398692409220663,
      "grad_norm": 0.7292351810136534,
      "learning_rate": 1.978613638094843e-05,
      "loss": 1.1362,
      "step": 1531
    },
    {
      "epoch": 0.09404831333067314,
      "grad_norm": 0.6895935978715966,
      "learning_rate": 1.9785727170142434e-05,
      "loss": 1.0769,
      "step": 1532
    },
    {
      "epoch": 0.09410970256913963,
      "grad_norm": 0.6469392129403697,
      "learning_rate": 1.9785317572454303e-05,
      "loss": 1.0601,
      "step": 1533
    },
    {
      "epoch": 0.09417109180760613,
      "grad_norm": 0.6810756241515765,
      "learning_rate": 1.978490758790023e-05,
      "loss": 1.0318,
      "step": 1534
    },
    {
      "epoch": 0.09423248104607262,
      "grad_norm": 0.6796258078854075,
      "learning_rate": 1.978449721649643e-05,
      "loss": 1.0378,
      "step": 1535
    },
    {
      "epoch": 0.09429387028453912,
      "grad_norm": 0.6548539003688316,
      "learning_rate": 1.9784086458259123e-05,
      "loss": 1.0907,
      "step": 1536
    },
    {
      "epoch": 0.09435525952300562,
      "grad_norm": 0.6075934309840347,
      "learning_rate": 1.9783675313204547e-05,
      "loss": 1.0301,
      "step": 1537
    },
    {
      "epoch": 0.09441664876147211,
      "grad_norm": 0.6508368885783509,
      "learning_rate": 1.978326378134896e-05,
      "loss": 1.0466,
      "step": 1538
    },
    {
      "epoch": 0.0944780379999386,
      "grad_norm": 0.7079168706070067,
      "learning_rate": 1.9782851862708633e-05,
      "loss": 1.1039,
      "step": 1539
    },
    {
      "epoch": 0.09453942723840511,
      "grad_norm": 0.6845945634988676,
      "learning_rate": 1.9782439557299848e-05,
      "loss": 1.1167,
      "step": 1540
    },
    {
      "epoch": 0.0946008164768716,
      "grad_norm": 0.6884690884564774,
      "learning_rate": 1.978202686513891e-05,
      "loss": 1.0759,
      "step": 1541
    },
    {
      "epoch": 0.09466220571533811,
      "grad_norm": 0.641745978150224,
      "learning_rate": 1.9781613786242127e-05,
      "loss": 1.0574,
      "step": 1542
    },
    {
      "epoch": 0.0947235949538046,
      "grad_norm": 0.6676144641029957,
      "learning_rate": 1.9781200320625836e-05,
      "loss": 1.1122,
      "step": 1543
    },
    {
      "epoch": 0.09478498419227109,
      "grad_norm": 0.6221778766343938,
      "learning_rate": 1.9780786468306387e-05,
      "loss": 0.9822,
      "step": 1544
    },
    {
      "epoch": 0.0948463734307376,
      "grad_norm": 0.6842586303727637,
      "learning_rate": 1.9780372229300135e-05,
      "loss": 1.1065,
      "step": 1545
    },
    {
      "epoch": 0.09490776266920409,
      "grad_norm": 0.6912507552126315,
      "learning_rate": 1.977995760362346e-05,
      "loss": 1.0855,
      "step": 1546
    },
    {
      "epoch": 0.09496915190767058,
      "grad_norm": 0.6331346274814276,
      "learning_rate": 1.9779542591292753e-05,
      "loss": 1.0804,
      "step": 1547
    },
    {
      "epoch": 0.09503054114613708,
      "grad_norm": 0.6846571922423504,
      "learning_rate": 1.9779127192324427e-05,
      "loss": 1.1213,
      "step": 1548
    },
    {
      "epoch": 0.09509193038460358,
      "grad_norm": 0.6706159608972311,
      "learning_rate": 1.9778711406734895e-05,
      "loss": 1.0557,
      "step": 1549
    },
    {
      "epoch": 0.09515331962307008,
      "grad_norm": 0.6404591143648865,
      "learning_rate": 1.97782952345406e-05,
      "loss": 1.0499,
      "step": 1550
    },
    {
      "epoch": 0.09521470886153657,
      "grad_norm": 0.6165578138769072,
      "learning_rate": 1.9777878675758002e-05,
      "loss": 1.0919,
      "step": 1551
    },
    {
      "epoch": 0.09527609810000306,
      "grad_norm": 0.7198403692883087,
      "learning_rate": 1.9777461730403563e-05,
      "loss": 1.1072,
      "step": 1552
    },
    {
      "epoch": 0.09533748733846957,
      "grad_norm": 0.6573468162567877,
      "learning_rate": 1.9777044398493766e-05,
      "loss": 1.0585,
      "step": 1553
    },
    {
      "epoch": 0.09539887657693606,
      "grad_norm": 0.646744765214212,
      "learning_rate": 1.9776626680045115e-05,
      "loss": 1.0897,
      "step": 1554
    },
    {
      "epoch": 0.09546026581540255,
      "grad_norm": 0.7243888699275286,
      "learning_rate": 1.9776208575074118e-05,
      "loss": 1.1459,
      "step": 1555
    },
    {
      "epoch": 0.09552165505386906,
      "grad_norm": 0.6501189235955964,
      "learning_rate": 1.9775790083597314e-05,
      "loss": 1.0558,
      "step": 1556
    },
    {
      "epoch": 0.09558304429233555,
      "grad_norm": 0.6932354430502092,
      "learning_rate": 1.977537120563124e-05,
      "loss": 1.1067,
      "step": 1557
    },
    {
      "epoch": 0.09564443353080206,
      "grad_norm": 0.686718183634412,
      "learning_rate": 1.9774951941192462e-05,
      "loss": 1.1147,
      "step": 1558
    },
    {
      "epoch": 0.09570582276926855,
      "grad_norm": 0.6073034918139839,
      "learning_rate": 1.9774532290297554e-05,
      "loss": 1.0492,
      "step": 1559
    },
    {
      "epoch": 0.09576721200773504,
      "grad_norm": 0.7443362391103888,
      "learning_rate": 1.9774112252963104e-05,
      "loss": 1.0344,
      "step": 1560
    },
    {
      "epoch": 0.09582860124620154,
      "grad_norm": 0.6842483348725422,
      "learning_rate": 1.977369182920572e-05,
      "loss": 1.079,
      "step": 1561
    },
    {
      "epoch": 0.09588999048466804,
      "grad_norm": 0.6634081295489329,
      "learning_rate": 1.977327101904203e-05,
      "loss": 1.0968,
      "step": 1562
    },
    {
      "epoch": 0.09595137972313453,
      "grad_norm": 0.6882259205946252,
      "learning_rate": 1.9772849822488662e-05,
      "loss": 1.0776,
      "step": 1563
    },
    {
      "epoch": 0.09601276896160103,
      "grad_norm": 0.6786736349950286,
      "learning_rate": 1.9772428239562273e-05,
      "loss": 1.0629,
      "step": 1564
    },
    {
      "epoch": 0.09607415820006752,
      "grad_norm": 0.7089258701638588,
      "learning_rate": 1.9772006270279526e-05,
      "loss": 1.119,
      "step": 1565
    },
    {
      "epoch": 0.09613554743853403,
      "grad_norm": 0.6682224173627127,
      "learning_rate": 1.9771583914657113e-05,
      "loss": 1.0733,
      "step": 1566
    },
    {
      "epoch": 0.09619693667700052,
      "grad_norm": 0.6554683112350379,
      "learning_rate": 1.977116117271172e-05,
      "loss": 1.0726,
      "step": 1567
    },
    {
      "epoch": 0.09625832591546701,
      "grad_norm": 0.6603473010893419,
      "learning_rate": 1.9770738044460066e-05,
      "loss": 1.1205,
      "step": 1568
    },
    {
      "epoch": 0.09631971515393352,
      "grad_norm": 0.617755819815162,
      "learning_rate": 1.9770314529918883e-05,
      "loss": 1.0625,
      "step": 1569
    },
    {
      "epoch": 0.09638110439240001,
      "grad_norm": 0.7003340852853016,
      "learning_rate": 1.976989062910491e-05,
      "loss": 1.0677,
      "step": 1570
    },
    {
      "epoch": 0.09644249363086652,
      "grad_norm": 0.6844989014988917,
      "learning_rate": 1.9769466342034907e-05,
      "loss": 1.0902,
      "step": 1571
    },
    {
      "epoch": 0.09650388286933301,
      "grad_norm": 0.672133631781731,
      "learning_rate": 1.976904166872565e-05,
      "loss": 1.0563,
      "step": 1572
    },
    {
      "epoch": 0.0965652721077995,
      "grad_norm": 0.628700828299184,
      "learning_rate": 1.976861660919393e-05,
      "loss": 1.031,
      "step": 1573
    },
    {
      "epoch": 0.096626661346266,
      "grad_norm": 0.6707534016959084,
      "learning_rate": 1.976819116345654e-05,
      "loss": 1.0884,
      "step": 1574
    },
    {
      "epoch": 0.0966880505847325,
      "grad_norm": 0.7277224296656359,
      "learning_rate": 1.9767765331530317e-05,
      "loss": 1.1157,
      "step": 1575
    },
    {
      "epoch": 0.09674943982319899,
      "grad_norm": 0.656954685695334,
      "learning_rate": 1.9767339113432084e-05,
      "loss": 1.0359,
      "step": 1576
    },
    {
      "epoch": 0.0968108290616655,
      "grad_norm": 0.6912320195413862,
      "learning_rate": 1.97669125091787e-05,
      "loss": 1.0527,
      "step": 1577
    },
    {
      "epoch": 0.09687221830013198,
      "grad_norm": 0.6642481340438577,
      "learning_rate": 1.976648551878703e-05,
      "loss": 1.097,
      "step": 1578
    },
    {
      "epoch": 0.09693360753859849,
      "grad_norm": 0.679636948541939,
      "learning_rate": 1.9766058142273948e-05,
      "loss": 1.1095,
      "step": 1579
    },
    {
      "epoch": 0.09699499677706498,
      "grad_norm": 0.6653121344644807,
      "learning_rate": 1.9765630379656353e-05,
      "loss": 1.103,
      "step": 1580
    },
    {
      "epoch": 0.09705638601553147,
      "grad_norm": 0.665806221528902,
      "learning_rate": 1.976520223095116e-05,
      "loss": 1.0414,
      "step": 1581
    },
    {
      "epoch": 0.09711777525399798,
      "grad_norm": 0.6287254109908779,
      "learning_rate": 1.9764773696175302e-05,
      "loss": 0.7743,
      "step": 1582
    },
    {
      "epoch": 0.09717916449246447,
      "grad_norm": 0.6732398993635443,
      "learning_rate": 1.9764344775345706e-05,
      "loss": 1.0955,
      "step": 1583
    },
    {
      "epoch": 0.09724055373093096,
      "grad_norm": 0.6363346403157867,
      "learning_rate": 1.976391546847934e-05,
      "loss": 1.0477,
      "step": 1584
    },
    {
      "epoch": 0.09730194296939747,
      "grad_norm": 0.6768918108188828,
      "learning_rate": 1.9763485775593176e-05,
      "loss": 1.1097,
      "step": 1585
    },
    {
      "epoch": 0.09736333220786396,
      "grad_norm": 0.6576467482170497,
      "learning_rate": 1.97630556967042e-05,
      "loss": 1.0746,
      "step": 1586
    },
    {
      "epoch": 0.09742472144633046,
      "grad_norm": 0.6324758282165331,
      "learning_rate": 1.9762625231829412e-05,
      "loss": 1.0375,
      "step": 1587
    },
    {
      "epoch": 0.09748611068479696,
      "grad_norm": 0.6308554672667904,
      "learning_rate": 1.976219438098584e-05,
      "loss": 1.0472,
      "step": 1588
    },
    {
      "epoch": 0.09754749992326345,
      "grad_norm": 0.6654040027344059,
      "learning_rate": 1.976176314419051e-05,
      "loss": 1.0786,
      "step": 1589
    },
    {
      "epoch": 0.09760888916172995,
      "grad_norm": 0.6763435970268867,
      "learning_rate": 1.9761331521460474e-05,
      "loss": 1.16,
      "step": 1590
    },
    {
      "epoch": 0.09767027840019644,
      "grad_norm": 0.7131439024902984,
      "learning_rate": 1.9760899512812794e-05,
      "loss": 1.085,
      "step": 1591
    },
    {
      "epoch": 0.09773166763866294,
      "grad_norm": 0.6674014703881015,
      "learning_rate": 1.9760467118264554e-05,
      "loss": 1.0596,
      "step": 1592
    },
    {
      "epoch": 0.09779305687712944,
      "grad_norm": 0.6475917412970098,
      "learning_rate": 1.9760034337832844e-05,
      "loss": 1.009,
      "step": 1593
    },
    {
      "epoch": 0.09785444611559593,
      "grad_norm": 0.6672266968433707,
      "learning_rate": 1.9759601171534776e-05,
      "loss": 1.0905,
      "step": 1594
    },
    {
      "epoch": 0.09791583535406244,
      "grad_norm": 0.7158093921701296,
      "learning_rate": 1.9759167619387474e-05,
      "loss": 1.1205,
      "step": 1595
    },
    {
      "epoch": 0.09797722459252893,
      "grad_norm": 0.6328266397230381,
      "learning_rate": 1.9758733681408083e-05,
      "loss": 1.0705,
      "step": 1596
    },
    {
      "epoch": 0.09803861383099542,
      "grad_norm": 0.6886281888052316,
      "learning_rate": 1.9758299357613757e-05,
      "loss": 1.1022,
      "step": 1597
    },
    {
      "epoch": 0.09810000306946193,
      "grad_norm": 0.736330241228606,
      "learning_rate": 1.9757864648021666e-05,
      "loss": 1.1228,
      "step": 1598
    },
    {
      "epoch": 0.09816139230792842,
      "grad_norm": 0.6553195374741685,
      "learning_rate": 1.9757429552648995e-05,
      "loss": 1.0841,
      "step": 1599
    },
    {
      "epoch": 0.09822278154639491,
      "grad_norm": 0.6373930754911287,
      "learning_rate": 1.9756994071512946e-05,
      "loss": 1.0415,
      "step": 1600
    },
    {
      "epoch": 0.09828417078486142,
      "grad_norm": 0.6932171634439412,
      "learning_rate": 1.975655820463074e-05,
      "loss": 1.0904,
      "step": 1601
    },
    {
      "epoch": 0.09834556002332791,
      "grad_norm": 0.7194510761146138,
      "learning_rate": 1.9756121952019608e-05,
      "loss": 1.1196,
      "step": 1602
    },
    {
      "epoch": 0.09840694926179441,
      "grad_norm": 0.6557840947593196,
      "learning_rate": 1.9755685313696796e-05,
      "loss": 1.0659,
      "step": 1603
    },
    {
      "epoch": 0.0984683385002609,
      "grad_norm": 0.6536755180956519,
      "learning_rate": 1.9755248289679564e-05,
      "loss": 1.0579,
      "step": 1604
    },
    {
      "epoch": 0.0985297277387274,
      "grad_norm": 0.6446284289666224,
      "learning_rate": 1.9754810879985192e-05,
      "loss": 1.0464,
      "step": 1605
    },
    {
      "epoch": 0.0985911169771939,
      "grad_norm": 0.6867657958003978,
      "learning_rate": 1.9754373084630973e-05,
      "loss": 1.0206,
      "step": 1606
    },
    {
      "epoch": 0.0986525062156604,
      "grad_norm": 0.7000685189154718,
      "learning_rate": 1.9753934903634217e-05,
      "loss": 1.1208,
      "step": 1607
    },
    {
      "epoch": 0.09871389545412688,
      "grad_norm": 0.6108040293091603,
      "learning_rate": 1.9753496337012247e-05,
      "loss": 0.9642,
      "step": 1608
    },
    {
      "epoch": 0.09877528469259339,
      "grad_norm": 0.6753599568903506,
      "learning_rate": 1.97530573847824e-05,
      "loss": 1.0392,
      "step": 1609
    },
    {
      "epoch": 0.09883667393105988,
      "grad_norm": 0.7113390210441279,
      "learning_rate": 1.9752618046962035e-05,
      "loss": 1.1124,
      "step": 1610
    },
    {
      "epoch": 0.09889806316952639,
      "grad_norm": 0.6824292144161844,
      "learning_rate": 1.9752178323568514e-05,
      "loss": 1.1009,
      "step": 1611
    },
    {
      "epoch": 0.09895945240799288,
      "grad_norm": 0.6661109006915189,
      "learning_rate": 1.9751738214619226e-05,
      "loss": 1.0567,
      "step": 1612
    },
    {
      "epoch": 0.09902084164645937,
      "grad_norm": 0.6356888600586702,
      "learning_rate": 1.9751297720131572e-05,
      "loss": 1.0449,
      "step": 1613
    },
    {
      "epoch": 0.09908223088492588,
      "grad_norm": 0.6617268229289587,
      "learning_rate": 1.9750856840122968e-05,
      "loss": 1.0745,
      "step": 1614
    },
    {
      "epoch": 0.09914362012339237,
      "grad_norm": 0.6560472058372806,
      "learning_rate": 1.975041557461084e-05,
      "loss": 1.0767,
      "step": 1615
    },
    {
      "epoch": 0.09920500936185887,
      "grad_norm": 0.6588989283626459,
      "learning_rate": 1.9749973923612632e-05,
      "loss": 1.1047,
      "step": 1616
    },
    {
      "epoch": 0.09926639860032536,
      "grad_norm": 0.6773125256963219,
      "learning_rate": 1.974953188714581e-05,
      "loss": 1.0444,
      "step": 1617
    },
    {
      "epoch": 0.09932778783879186,
      "grad_norm": 0.6331024115383699,
      "learning_rate": 1.974908946522785e-05,
      "loss": 1.0131,
      "step": 1618
    },
    {
      "epoch": 0.09938917707725836,
      "grad_norm": 0.6841344348672144,
      "learning_rate": 1.974864665787624e-05,
      "loss": 1.0468,
      "step": 1619
    },
    {
      "epoch": 0.09945056631572485,
      "grad_norm": 0.6711995887428673,
      "learning_rate": 1.9748203465108488e-05,
      "loss": 1.037,
      "step": 1620
    },
    {
      "epoch": 0.09951195555419134,
      "grad_norm": 0.6198261975194627,
      "learning_rate": 1.9747759886942116e-05,
      "loss": 0.7774,
      "step": 1621
    },
    {
      "epoch": 0.09957334479265785,
      "grad_norm": 0.6428817291880489,
      "learning_rate": 1.9747315923394662e-05,
      "loss": 1.0273,
      "step": 1622
    },
    {
      "epoch": 0.09963473403112434,
      "grad_norm": 0.6647128965194282,
      "learning_rate": 1.9746871574483677e-05,
      "loss": 1.0321,
      "step": 1623
    },
    {
      "epoch": 0.09969612326959085,
      "grad_norm": 0.6455451998298153,
      "learning_rate": 1.9746426840226728e-05,
      "loss": 1.0086,
      "step": 1624
    },
    {
      "epoch": 0.09975751250805734,
      "grad_norm": 0.7151931213299797,
      "learning_rate": 1.97459817206414e-05,
      "loss": 1.0601,
      "step": 1625
    },
    {
      "epoch": 0.09981890174652383,
      "grad_norm": 0.6253995506963189,
      "learning_rate": 1.974553621574529e-05,
      "loss": 1.0147,
      "step": 1626
    },
    {
      "epoch": 0.09988029098499034,
      "grad_norm": 0.6356217973836809,
      "learning_rate": 1.974509032555601e-05,
      "loss": 1.0396,
      "step": 1627
    },
    {
      "epoch": 0.09994168022345683,
      "grad_norm": 0.712972175133839,
      "learning_rate": 1.9744644050091185e-05,
      "loss": 1.1472,
      "step": 1628
    },
    {
      "epoch": 0.10000306946192332,
      "grad_norm": 0.6997509044907965,
      "learning_rate": 1.9744197389368467e-05,
      "loss": 1.083,
      "step": 1629
    },
    {
      "epoch": 0.10006445870038982,
      "grad_norm": 0.6518335367132762,
      "learning_rate": 1.974375034340551e-05,
      "loss": 1.0542,
      "step": 1630
    },
    {
      "epoch": 0.10012584793885632,
      "grad_norm": 0.6473429183442037,
      "learning_rate": 1.974330291221999e-05,
      "loss": 1.0682,
      "step": 1631
    },
    {
      "epoch": 0.10018723717732282,
      "grad_norm": 0.6607272790622764,
      "learning_rate": 1.974285509582959e-05,
      "loss": 1.0506,
      "step": 1632
    },
    {
      "epoch": 0.10024862641578931,
      "grad_norm": 0.6786654561909413,
      "learning_rate": 1.9742406894252024e-05,
      "loss": 1.0429,
      "step": 1633
    },
    {
      "epoch": 0.1003100156542558,
      "grad_norm": 0.6564715112489035,
      "learning_rate": 1.9741958307505005e-05,
      "loss": 1.0513,
      "step": 1634
    },
    {
      "epoch": 0.10037140489272231,
      "grad_norm": 0.6693884608373423,
      "learning_rate": 1.9741509335606273e-05,
      "loss": 1.1266,
      "step": 1635
    },
    {
      "epoch": 0.1004327941311888,
      "grad_norm": 0.6593423658496848,
      "learning_rate": 1.9741059978573577e-05,
      "loss": 1.0692,
      "step": 1636
    },
    {
      "epoch": 0.1004941833696553,
      "grad_norm": 0.6029247326145943,
      "learning_rate": 1.9740610236424676e-05,
      "loss": 1.0514,
      "step": 1637
    },
    {
      "epoch": 0.1005555726081218,
      "grad_norm": 0.6962802023264703,
      "learning_rate": 1.974016010917736e-05,
      "loss": 1.0833,
      "step": 1638
    },
    {
      "epoch": 0.10061696184658829,
      "grad_norm": 0.6364651794711859,
      "learning_rate": 1.9739709596849418e-05,
      "loss": 1.0616,
      "step": 1639
    },
    {
      "epoch": 0.1006783510850548,
      "grad_norm": 0.6367462001100417,
      "learning_rate": 1.9739258699458667e-05,
      "loss": 1.0267,
      "step": 1640
    },
    {
      "epoch": 0.10073974032352129,
      "grad_norm": 0.682080963639909,
      "learning_rate": 1.9738807417022927e-05,
      "loss": 1.0113,
      "step": 1641
    },
    {
      "epoch": 0.10080112956198778,
      "grad_norm": 0.6633808618954428,
      "learning_rate": 1.9738355749560046e-05,
      "loss": 1.0911,
      "step": 1642
    },
    {
      "epoch": 0.10086251880045428,
      "grad_norm": 0.6295727346581277,
      "learning_rate": 1.9737903697087876e-05,
      "loss": 1.087,
      "step": 1643
    },
    {
      "epoch": 0.10092390803892078,
      "grad_norm": 0.6548512870545472,
      "learning_rate": 1.973745125962429e-05,
      "loss": 1.059,
      "step": 1644
    },
    {
      "epoch": 0.10098529727738727,
      "grad_norm": 0.6813268536124771,
      "learning_rate": 1.9736998437187178e-05,
      "loss": 1.0774,
      "step": 1645
    },
    {
      "epoch": 0.10104668651585377,
      "grad_norm": 0.6461746680100586,
      "learning_rate": 1.973654522979444e-05,
      "loss": 1.056,
      "step": 1646
    },
    {
      "epoch": 0.10110807575432026,
      "grad_norm": 0.6986882786158967,
      "learning_rate": 1.9736091637463993e-05,
      "loss": 1.0868,
      "step": 1647
    },
    {
      "epoch": 0.10116946499278677,
      "grad_norm": 0.7028349982782078,
      "learning_rate": 1.9735637660213775e-05,
      "loss": 1.0379,
      "step": 1648
    },
    {
      "epoch": 0.10123085423125326,
      "grad_norm": 0.7150215475563348,
      "learning_rate": 1.9735183298061726e-05,
      "loss": 1.0745,
      "step": 1649
    },
    {
      "epoch": 0.10129224346971975,
      "grad_norm": 0.6891418417089598,
      "learning_rate": 1.9734728551025818e-05,
      "loss": 1.085,
      "step": 1650
    },
    {
      "epoch": 0.10135363270818626,
      "grad_norm": 0.6561320201003523,
      "learning_rate": 1.9734273419124023e-05,
      "loss": 1.033,
      "step": 1651
    },
    {
      "epoch": 0.10141502194665275,
      "grad_norm": 0.666729669282836,
      "learning_rate": 1.9733817902374337e-05,
      "loss": 1.0521,
      "step": 1652
    },
    {
      "epoch": 0.10147641118511924,
      "grad_norm": 0.6479406891640596,
      "learning_rate": 1.973336200079477e-05,
      "loss": 1.02,
      "step": 1653
    },
    {
      "epoch": 0.10153780042358575,
      "grad_norm": 0.6620928246688776,
      "learning_rate": 1.973290571440335e-05,
      "loss": 1.0473,
      "step": 1654
    },
    {
      "epoch": 0.10159918966205224,
      "grad_norm": 0.7135407306868937,
      "learning_rate": 1.9732449043218103e-05,
      "loss": 1.1027,
      "step": 1655
    },
    {
      "epoch": 0.10166057890051874,
      "grad_norm": 0.7428856327190166,
      "learning_rate": 1.97319919872571e-05,
      "loss": 1.0884,
      "step": 1656
    },
    {
      "epoch": 0.10172196813898524,
      "grad_norm": 0.616525864179647,
      "learning_rate": 1.97315345465384e-05,
      "loss": 0.9996,
      "step": 1657
    },
    {
      "epoch": 0.10178335737745173,
      "grad_norm": 0.7079097351735893,
      "learning_rate": 1.973107672108009e-05,
      "loss": 1.0997,
      "step": 1658
    },
    {
      "epoch": 0.10184474661591823,
      "grad_norm": 0.6273623130515025,
      "learning_rate": 1.973061851090027e-05,
      "loss": 1.0738,
      "step": 1659
    },
    {
      "epoch": 0.10190613585438472,
      "grad_norm": 0.656344538856186,
      "learning_rate": 1.9730159916017063e-05,
      "loss": 1.0852,
      "step": 1660
    },
    {
      "epoch": 0.10196752509285123,
      "grad_norm": 0.6764415188701378,
      "learning_rate": 1.9729700936448593e-05,
      "loss": 1.1164,
      "step": 1661
    },
    {
      "epoch": 0.10202891433131772,
      "grad_norm": 0.6587147458795213,
      "learning_rate": 1.9729241572213005e-05,
      "loss": 1.0864,
      "step": 1662
    },
    {
      "epoch": 0.10209030356978421,
      "grad_norm": 0.6916995262824025,
      "learning_rate": 1.9728781823328464e-05,
      "loss": 1.0826,
      "step": 1663
    },
    {
      "epoch": 0.10215169280825072,
      "grad_norm": 0.6782485528558928,
      "learning_rate": 1.9728321689813142e-05,
      "loss": 1.0914,
      "step": 1664
    },
    {
      "epoch": 0.10221308204671721,
      "grad_norm": 0.6453213830020318,
      "learning_rate": 1.972786117168523e-05,
      "loss": 1.0433,
      "step": 1665
    },
    {
      "epoch": 0.1022744712851837,
      "grad_norm": 0.6482273014283798,
      "learning_rate": 1.9727400268962943e-05,
      "loss": 1.0706,
      "step": 1666
    },
    {
      "epoch": 0.10233586052365021,
      "grad_norm": 0.6368757914001425,
      "learning_rate": 1.9726938981664497e-05,
      "loss": 1.0082,
      "step": 1667
    },
    {
      "epoch": 0.1023972497621167,
      "grad_norm": 0.6346345416956836,
      "learning_rate": 1.9726477309808127e-05,
      "loss": 1.0273,
      "step": 1668
    },
    {
      "epoch": 0.1024586390005832,
      "grad_norm": 0.6698116694330823,
      "learning_rate": 1.972601525341209e-05,
      "loss": 1.0528,
      "step": 1669
    },
    {
      "epoch": 0.1025200282390497,
      "grad_norm": 0.6406916688997675,
      "learning_rate": 1.9725552812494652e-05,
      "loss": 1.002,
      "step": 1670
    },
    {
      "epoch": 0.10258141747751619,
      "grad_norm": 0.6851728850052049,
      "learning_rate": 1.9725089987074096e-05,
      "loss": 1.0755,
      "step": 1671
    },
    {
      "epoch": 0.10264280671598269,
      "grad_norm": 0.6759117234486005,
      "learning_rate": 1.972462677716872e-05,
      "loss": 1.09,
      "step": 1672
    },
    {
      "epoch": 0.10270419595444918,
      "grad_norm": 0.7019320662593123,
      "learning_rate": 1.972416318279683e-05,
      "loss": 1.0947,
      "step": 1673
    },
    {
      "epoch": 0.10276558519291568,
      "grad_norm": 0.6275464666938428,
      "learning_rate": 1.9723699203976768e-05,
      "loss": 1.0359,
      "step": 1674
    },
    {
      "epoch": 0.10282697443138218,
      "grad_norm": 0.600422227188617,
      "learning_rate": 1.972323484072687e-05,
      "loss": 0.9899,
      "step": 1675
    },
    {
      "epoch": 0.10288836366984867,
      "grad_norm": 0.6702035613609182,
      "learning_rate": 1.972277009306549e-05,
      "loss": 1.0852,
      "step": 1676
    },
    {
      "epoch": 0.10294975290831518,
      "grad_norm": 0.711859909361396,
      "learning_rate": 1.9722304961011012e-05,
      "loss": 1.1315,
      "step": 1677
    },
    {
      "epoch": 0.10301114214678167,
      "grad_norm": 0.5914663651278892,
      "learning_rate": 1.972183944458182e-05,
      "loss": 0.9642,
      "step": 1678
    },
    {
      "epoch": 0.10307253138524816,
      "grad_norm": 0.5657931666465181,
      "learning_rate": 1.9721373543796318e-05,
      "loss": 0.9716,
      "step": 1679
    },
    {
      "epoch": 0.10313392062371467,
      "grad_norm": 0.6277887733683116,
      "learning_rate": 1.9720907258672924e-05,
      "loss": 0.9961,
      "step": 1680
    },
    {
      "epoch": 0.10319530986218116,
      "grad_norm": 0.7492813732289968,
      "learning_rate": 1.9720440589230075e-05,
      "loss": 1.1848,
      "step": 1681
    },
    {
      "epoch": 0.10325669910064765,
      "grad_norm": 0.6450135534212371,
      "learning_rate": 1.9719973535486227e-05,
      "loss": 1.0459,
      "step": 1682
    },
    {
      "epoch": 0.10331808833911416,
      "grad_norm": 0.5733240738936843,
      "learning_rate": 1.9719506097459834e-05,
      "loss": 0.7701,
      "step": 1683
    },
    {
      "epoch": 0.10337947757758065,
      "grad_norm": 0.675935808942954,
      "learning_rate": 1.971903827516938e-05,
      "loss": 1.0722,
      "step": 1684
    },
    {
      "epoch": 0.10344086681604715,
      "grad_norm": 0.6766369187459362,
      "learning_rate": 1.9718570068633364e-05,
      "loss": 1.0529,
      "step": 1685
    },
    {
      "epoch": 0.10350225605451364,
      "grad_norm": 0.7022336678047414,
      "learning_rate": 1.9718101477870296e-05,
      "loss": 1.1623,
      "step": 1686
    },
    {
      "epoch": 0.10356364529298014,
      "grad_norm": 0.6299226831160681,
      "learning_rate": 1.9717632502898697e-05,
      "loss": 1.0387,
      "step": 1687
    },
    {
      "epoch": 0.10362503453144664,
      "grad_norm": 0.700728202140647,
      "learning_rate": 1.9717163143737114e-05,
      "loss": 1.1421,
      "step": 1688
    },
    {
      "epoch": 0.10368642376991313,
      "grad_norm": 0.6906354812657411,
      "learning_rate": 1.97166934004041e-05,
      "loss": 1.0526,
      "step": 1689
    },
    {
      "epoch": 0.10374781300837962,
      "grad_norm": 0.638666216576867,
      "learning_rate": 1.9716223272918233e-05,
      "loss": 1.0282,
      "step": 1690
    },
    {
      "epoch": 0.10380920224684613,
      "grad_norm": 0.6935437246399043,
      "learning_rate": 1.9715752761298086e-05,
      "loss": 1.0723,
      "step": 1691
    },
    {
      "epoch": 0.10387059148531262,
      "grad_norm": 0.6085801539009389,
      "learning_rate": 1.9715281865562273e-05,
      "loss": 1.0399,
      "step": 1692
    },
    {
      "epoch": 0.10393198072377913,
      "grad_norm": 0.6794655285413895,
      "learning_rate": 1.9714810585729406e-05,
      "loss": 1.1322,
      "step": 1693
    },
    {
      "epoch": 0.10399336996224562,
      "grad_norm": 0.7076188391772694,
      "learning_rate": 1.9714338921818116e-05,
      "loss": 1.0404,
      "step": 1694
    },
    {
      "epoch": 0.10405475920071211,
      "grad_norm": 0.6376213263934019,
      "learning_rate": 1.9713866873847057e-05,
      "loss": 1.0679,
      "step": 1695
    },
    {
      "epoch": 0.10411614843917862,
      "grad_norm": 0.6802062808390388,
      "learning_rate": 1.9713394441834883e-05,
      "loss": 1.0905,
      "step": 1696
    },
    {
      "epoch": 0.10417753767764511,
      "grad_norm": 0.64913339994702,
      "learning_rate": 1.9712921625800277e-05,
      "loss": 1.1173,
      "step": 1697
    },
    {
      "epoch": 0.1042389269161116,
      "grad_norm": 0.717981657575148,
      "learning_rate": 1.971244842576193e-05,
      "loss": 1.0679,
      "step": 1698
    },
    {
      "epoch": 0.1043003161545781,
      "grad_norm": 0.6651598403639382,
      "learning_rate": 1.9711974841738553e-05,
      "loss": 1.0596,
      "step": 1699
    },
    {
      "epoch": 0.1043617053930446,
      "grad_norm": 0.6995269513648533,
      "learning_rate": 1.9711500873748867e-05,
      "loss": 1.0508,
      "step": 1700
    },
    {
      "epoch": 0.1044230946315111,
      "grad_norm": 0.6482110991903767,
      "learning_rate": 1.971102652181161e-05,
      "loss": 1.0565,
      "step": 1701
    },
    {
      "epoch": 0.10448448386997759,
      "grad_norm": 0.6828834971252803,
      "learning_rate": 1.9710551785945534e-05,
      "loss": 1.0905,
      "step": 1702
    },
    {
      "epoch": 0.10454587310844408,
      "grad_norm": 0.7300746262517918,
      "learning_rate": 1.9710076666169414e-05,
      "loss": 1.152,
      "step": 1703
    },
    {
      "epoch": 0.10460726234691059,
      "grad_norm": 0.6885461369346965,
      "learning_rate": 1.970960116250203e-05,
      "loss": 1.0517,
      "step": 1704
    },
    {
      "epoch": 0.10466865158537708,
      "grad_norm": 0.643464767262659,
      "learning_rate": 1.9709125274962178e-05,
      "loss": 0.989,
      "step": 1705
    },
    {
      "epoch": 0.10473004082384359,
      "grad_norm": 0.6446912450216997,
      "learning_rate": 1.970864900356868e-05,
      "loss": 1.0063,
      "step": 1706
    },
    {
      "epoch": 0.10479143006231008,
      "grad_norm": 0.6757538385812738,
      "learning_rate": 1.9708172348340357e-05,
      "loss": 1.0703,
      "step": 1707
    },
    {
      "epoch": 0.10485281930077657,
      "grad_norm": 0.7128364396601229,
      "learning_rate": 1.970769530929606e-05,
      "loss": 1.0693,
      "step": 1708
    },
    {
      "epoch": 0.10491420853924308,
      "grad_norm": 0.6987423792563889,
      "learning_rate": 1.970721788645465e-05,
      "loss": 1.038,
      "step": 1709
    },
    {
      "epoch": 0.10497559777770957,
      "grad_norm": 0.6511067320963313,
      "learning_rate": 1.9706740079834995e-05,
      "loss": 1.0408,
      "step": 1710
    },
    {
      "epoch": 0.10503698701617606,
      "grad_norm": 0.6961763517262471,
      "learning_rate": 1.970626188945599e-05,
      "loss": 1.1345,
      "step": 1711
    },
    {
      "epoch": 0.10509837625464256,
      "grad_norm": 0.6914620567193636,
      "learning_rate": 1.9705783315336543e-05,
      "loss": 1.0976,
      "step": 1712
    },
    {
      "epoch": 0.10515976549310906,
      "grad_norm": 0.6465658423158713,
      "learning_rate": 1.9705304357495568e-05,
      "loss": 1.0948,
      "step": 1713
    },
    {
      "epoch": 0.10522115473157556,
      "grad_norm": 0.6474492333313288,
      "learning_rate": 1.9704825015952005e-05,
      "loss": 1.0459,
      "step": 1714
    },
    {
      "epoch": 0.10528254397004205,
      "grad_norm": 0.7072484095115057,
      "learning_rate": 1.9704345290724805e-05,
      "loss": 1.1555,
      "step": 1715
    },
    {
      "epoch": 0.10534393320850854,
      "grad_norm": 0.696794931787843,
      "learning_rate": 1.9703865181832933e-05,
      "loss": 1.0777,
      "step": 1716
    },
    {
      "epoch": 0.10540532244697505,
      "grad_norm": 0.6612679114027739,
      "learning_rate": 1.970338468929537e-05,
      "loss": 1.0504,
      "step": 1717
    },
    {
      "epoch": 0.10546671168544154,
      "grad_norm": 0.7081985032024267,
      "learning_rate": 1.970290381313111e-05,
      "loss": 1.076,
      "step": 1718
    },
    {
      "epoch": 0.10552810092390803,
      "grad_norm": 0.6224720904939659,
      "learning_rate": 1.9702422553359174e-05,
      "loss": 1.0405,
      "step": 1719
    },
    {
      "epoch": 0.10558949016237454,
      "grad_norm": 0.6612388177877045,
      "learning_rate": 1.970194090999858e-05,
      "loss": 1.0624,
      "step": 1720
    },
    {
      "epoch": 0.10565087940084103,
      "grad_norm": 0.6702562034097995,
      "learning_rate": 1.9701458883068368e-05,
      "loss": 1.033,
      "step": 1721
    },
    {
      "epoch": 0.10571226863930754,
      "grad_norm": 0.6376421959372578,
      "learning_rate": 1.97009764725876e-05,
      "loss": 1.0103,
      "step": 1722
    },
    {
      "epoch": 0.10577365787777403,
      "grad_norm": 0.7603658696339795,
      "learning_rate": 1.9700493678575353e-05,
      "loss": 1.1383,
      "step": 1723
    },
    {
      "epoch": 0.10583504711624052,
      "grad_norm": 0.6600233774536512,
      "learning_rate": 1.9700010501050704e-05,
      "loss": 1.0692,
      "step": 1724
    },
    {
      "epoch": 0.10589643635470702,
      "grad_norm": 0.7083394591462101,
      "learning_rate": 1.969952694003276e-05,
      "loss": 1.0416,
      "step": 1725
    },
    {
      "epoch": 0.10595782559317352,
      "grad_norm": 0.6762695457155594,
      "learning_rate": 1.9699042995540646e-05,
      "loss": 1.0889,
      "step": 1726
    },
    {
      "epoch": 0.10601921483164001,
      "grad_norm": 0.6671837135016261,
      "learning_rate": 1.9698558667593483e-05,
      "loss": 1.0593,
      "step": 1727
    },
    {
      "epoch": 0.10608060407010651,
      "grad_norm": 0.6357683482782477,
      "learning_rate": 1.9698073956210422e-05,
      "loss": 1.0413,
      "step": 1728
    },
    {
      "epoch": 0.106141993308573,
      "grad_norm": 0.6642522503510306,
      "learning_rate": 1.9697588861410633e-05,
      "loss": 1.0357,
      "step": 1729
    },
    {
      "epoch": 0.10620338254703951,
      "grad_norm": 0.6675219985712313,
      "learning_rate": 1.969710338321329e-05,
      "loss": 1.1268,
      "step": 1730
    },
    {
      "epoch": 0.106264771785506,
      "grad_norm": 0.669268189227579,
      "learning_rate": 1.9696617521637584e-05,
      "loss": 1.096,
      "step": 1731
    },
    {
      "epoch": 0.10632616102397249,
      "grad_norm": 0.6303261737365393,
      "learning_rate": 1.9696131276702727e-05,
      "loss": 1.0151,
      "step": 1732
    },
    {
      "epoch": 0.106387550262439,
      "grad_norm": 0.5965309622460534,
      "learning_rate": 1.969564464842794e-05,
      "loss": 0.739,
      "step": 1733
    },
    {
      "epoch": 0.10644893950090549,
      "grad_norm": 0.686452170270794,
      "learning_rate": 1.9695157636832468e-05,
      "loss": 1.0805,
      "step": 1734
    },
    {
      "epoch": 0.10651032873937198,
      "grad_norm": 0.6782706747447941,
      "learning_rate": 1.9694670241935562e-05,
      "loss": 1.089,
      "step": 1735
    },
    {
      "epoch": 0.10657171797783849,
      "grad_norm": 0.6779300746277583,
      "learning_rate": 1.9694182463756488e-05,
      "loss": 1.0566,
      "step": 1736
    },
    {
      "epoch": 0.10663310721630498,
      "grad_norm": 0.7026931637992899,
      "learning_rate": 1.9693694302314534e-05,
      "loss": 1.0778,
      "step": 1737
    },
    {
      "epoch": 0.10669449645477148,
      "grad_norm": 0.6578008746002926,
      "learning_rate": 1.9693205757628996e-05,
      "loss": 1.0392,
      "step": 1738
    },
    {
      "epoch": 0.10675588569323798,
      "grad_norm": 0.6649720025650901,
      "learning_rate": 1.9692716829719197e-05,
      "loss": 1.1275,
      "step": 1739
    },
    {
      "epoch": 0.10681727493170447,
      "grad_norm": 0.6060724670633018,
      "learning_rate": 1.9692227518604458e-05,
      "loss": 1.0489,
      "step": 1740
    },
    {
      "epoch": 0.10687866417017097,
      "grad_norm": 0.6462211171217932,
      "learning_rate": 1.9691737824304127e-05,
      "loss": 1.0613,
      "step": 1741
    },
    {
      "epoch": 0.10694005340863746,
      "grad_norm": 0.7066114153252122,
      "learning_rate": 1.9691247746837563e-05,
      "loss": 1.0469,
      "step": 1742
    },
    {
      "epoch": 0.10700144264710396,
      "grad_norm": 0.6594533879548483,
      "learning_rate": 1.9690757286224146e-05,
      "loss": 1.06,
      "step": 1743
    },
    {
      "epoch": 0.10706283188557046,
      "grad_norm": 0.6631551590043091,
      "learning_rate": 1.9690266442483263e-05,
      "loss": 1.0682,
      "step": 1744
    },
    {
      "epoch": 0.10712422112403695,
      "grad_norm": 0.6642268854647024,
      "learning_rate": 1.968977521563432e-05,
      "loss": 1.0623,
      "step": 1745
    },
    {
      "epoch": 0.10718561036250346,
      "grad_norm": 0.6657506574130256,
      "learning_rate": 1.9689283605696738e-05,
      "loss": 1.0544,
      "step": 1746
    },
    {
      "epoch": 0.10724699960096995,
      "grad_norm": 0.686139496261423,
      "learning_rate": 1.9688791612689955e-05,
      "loss": 1.0918,
      "step": 1747
    },
    {
      "epoch": 0.10730838883943644,
      "grad_norm": 0.6370920886566801,
      "learning_rate": 1.968829923663342e-05,
      "loss": 1.0644,
      "step": 1748
    },
    {
      "epoch": 0.10736977807790295,
      "grad_norm": 0.6767385582747146,
      "learning_rate": 1.96878064775466e-05,
      "loss": 1.1245,
      "step": 1749
    },
    {
      "epoch": 0.10743116731636944,
      "grad_norm": 0.6340742446535826,
      "learning_rate": 1.9687313335448973e-05,
      "loss": 1.0433,
      "step": 1750
    },
    {
      "epoch": 0.10749255655483594,
      "grad_norm": 0.6535664105626725,
      "learning_rate": 1.9686819810360037e-05,
      "loss": 1.1159,
      "step": 1751
    },
    {
      "epoch": 0.10755394579330244,
      "grad_norm": 0.6473793161897706,
      "learning_rate": 1.968632590229931e-05,
      "loss": 1.019,
      "step": 1752
    },
    {
      "epoch": 0.10761533503176893,
      "grad_norm": 0.6358078351790285,
      "learning_rate": 1.9685831611286312e-05,
      "loss": 0.9997,
      "step": 1753
    },
    {
      "epoch": 0.10767672427023543,
      "grad_norm": 0.6818871106559742,
      "learning_rate": 1.9685336937340586e-05,
      "loss": 1.0826,
      "step": 1754
    },
    {
      "epoch": 0.10773811350870192,
      "grad_norm": 0.6368192532864603,
      "learning_rate": 1.9684841880481693e-05,
      "loss": 1.0278,
      "step": 1755
    },
    {
      "epoch": 0.10779950274716842,
      "grad_norm": 0.6855783185359837,
      "learning_rate": 1.96843464407292e-05,
      "loss": 1.0943,
      "step": 1756
    },
    {
      "epoch": 0.10786089198563492,
      "grad_norm": 0.6944482355660173,
      "learning_rate": 1.9683850618102696e-05,
      "loss": 1.0724,
      "step": 1757
    },
    {
      "epoch": 0.10792228122410141,
      "grad_norm": 0.642221502618615,
      "learning_rate": 1.9683354412621786e-05,
      "loss": 1.0721,
      "step": 1758
    },
    {
      "epoch": 0.10798367046256792,
      "grad_norm": 0.6874159887851347,
      "learning_rate": 1.9682857824306084e-05,
      "loss": 1.0861,
      "step": 1759
    },
    {
      "epoch": 0.10804505970103441,
      "grad_norm": 0.6163073160685565,
      "learning_rate": 1.9682360853175227e-05,
      "loss": 0.9984,
      "step": 1760
    },
    {
      "epoch": 0.1081064489395009,
      "grad_norm": 0.7585335084622852,
      "learning_rate": 1.968186349924886e-05,
      "loss": 1.1894,
      "step": 1761
    },
    {
      "epoch": 0.10816783817796741,
      "grad_norm": 0.688187965856527,
      "learning_rate": 1.9681365762546644e-05,
      "loss": 1.1201,
      "step": 1762
    },
    {
      "epoch": 0.1082292274164339,
      "grad_norm": 0.698933936546462,
      "learning_rate": 1.968086764308826e-05,
      "loss": 1.0695,
      "step": 1763
    },
    {
      "epoch": 0.10829061665490039,
      "grad_norm": 0.7013935282312594,
      "learning_rate": 1.9680369140893405e-05,
      "loss": 1.0917,
      "step": 1764
    },
    {
      "epoch": 0.1083520058933669,
      "grad_norm": 0.6618273818572179,
      "learning_rate": 1.9679870255981782e-05,
      "loss": 1.0739,
      "step": 1765
    },
    {
      "epoch": 0.10841339513183339,
      "grad_norm": 0.6664353939449226,
      "learning_rate": 1.9679370988373115e-05,
      "loss": 1.0777,
      "step": 1766
    },
    {
      "epoch": 0.10847478437029989,
      "grad_norm": 0.6604318102832281,
      "learning_rate": 1.9678871338087146e-05,
      "loss": 1.028,
      "step": 1767
    },
    {
      "epoch": 0.10853617360876638,
      "grad_norm": 0.658495422968217,
      "learning_rate": 1.9678371305143625e-05,
      "loss": 1.0294,
      "step": 1768
    },
    {
      "epoch": 0.10859756284723288,
      "grad_norm": 0.7026693819186146,
      "learning_rate": 1.9677870889562324e-05,
      "loss": 1.0722,
      "step": 1769
    },
    {
      "epoch": 0.10865895208569938,
      "grad_norm": 0.6363796820661601,
      "learning_rate": 1.9677370091363024e-05,
      "loss": 1.0382,
      "step": 1770
    },
    {
      "epoch": 0.10872034132416587,
      "grad_norm": 0.668557044453682,
      "learning_rate": 1.9676868910565528e-05,
      "loss": 1.0221,
      "step": 1771
    },
    {
      "epoch": 0.10878173056263236,
      "grad_norm": 0.691550425357689,
      "learning_rate": 1.9676367347189647e-05,
      "loss": 1.0856,
      "step": 1772
    },
    {
      "epoch": 0.10884311980109887,
      "grad_norm": 0.6727595134799047,
      "learning_rate": 1.967586540125521e-05,
      "loss": 1.0791,
      "step": 1773
    },
    {
      "epoch": 0.10890450903956536,
      "grad_norm": 0.641654897434445,
      "learning_rate": 1.967536307278207e-05,
      "loss": 1.0435,
      "step": 1774
    },
    {
      "epoch": 0.10896589827803187,
      "grad_norm": 0.5905662463002433,
      "learning_rate": 1.9674860361790073e-05,
      "loss": 1.0424,
      "step": 1775
    },
    {
      "epoch": 0.10902728751649836,
      "grad_norm": 0.6352890211506577,
      "learning_rate": 1.9674357268299104e-05,
      "loss": 0.9871,
      "step": 1776
    },
    {
      "epoch": 0.10908867675496485,
      "grad_norm": 0.6472539604494693,
      "learning_rate": 1.967385379232905e-05,
      "loss": 1.0727,
      "step": 1777
    },
    {
      "epoch": 0.10915006599343136,
      "grad_norm": 0.666032163932595,
      "learning_rate": 1.9673349933899816e-05,
      "loss": 1.0453,
      "step": 1778
    },
    {
      "epoch": 0.10921145523189785,
      "grad_norm": 0.6878948117376131,
      "learning_rate": 1.9672845693031325e-05,
      "loss": 1.1271,
      "step": 1779
    },
    {
      "epoch": 0.10927284447036434,
      "grad_norm": 0.6298278871090712,
      "learning_rate": 1.9672341069743507e-05,
      "loss": 1.0693,
      "step": 1780
    },
    {
      "epoch": 0.10933423370883084,
      "grad_norm": 0.6038787017677917,
      "learning_rate": 1.9671836064056316e-05,
      "loss": 1.03,
      "step": 1781
    },
    {
      "epoch": 0.10939562294729734,
      "grad_norm": 0.6756074964617869,
      "learning_rate": 1.9671330675989715e-05,
      "loss": 1.0929,
      "step": 1782
    },
    {
      "epoch": 0.10945701218576384,
      "grad_norm": 0.6229245729971308,
      "learning_rate": 1.967082490556369e-05,
      "loss": 1.0783,
      "step": 1783
    },
    {
      "epoch": 0.10951840142423033,
      "grad_norm": 0.6723178254988791,
      "learning_rate": 1.967031875279823e-05,
      "loss": 1.1093,
      "step": 1784
    },
    {
      "epoch": 0.10957979066269682,
      "grad_norm": 0.6756035175428252,
      "learning_rate": 1.966981221771335e-05,
      "loss": 1.0579,
      "step": 1785
    },
    {
      "epoch": 0.10964117990116333,
      "grad_norm": 0.6384779543139931,
      "learning_rate": 1.9669305300329076e-05,
      "loss": 1.0666,
      "step": 1786
    },
    {
      "epoch": 0.10970256913962982,
      "grad_norm": 0.6597088407446464,
      "learning_rate": 1.9668798000665448e-05,
      "loss": 1.0136,
      "step": 1787
    },
    {
      "epoch": 0.10976395837809631,
      "grad_norm": 0.6754859878724604,
      "learning_rate": 1.9668290318742525e-05,
      "loss": 1.0856,
      "step": 1788
    },
    {
      "epoch": 0.10982534761656282,
      "grad_norm": 0.6892055707272048,
      "learning_rate": 1.9667782254580373e-05,
      "loss": 1.1113,
      "step": 1789
    },
    {
      "epoch": 0.10988673685502931,
      "grad_norm": 0.6304759138899089,
      "learning_rate": 1.9667273808199082e-05,
      "loss": 1.0373,
      "step": 1790
    },
    {
      "epoch": 0.10994812609349582,
      "grad_norm": 0.6667498002611777,
      "learning_rate": 1.9666764979618755e-05,
      "loss": 1.0835,
      "step": 1791
    },
    {
      "epoch": 0.11000951533196231,
      "grad_norm": 0.693294307750499,
      "learning_rate": 1.9666255768859503e-05,
      "loss": 1.1546,
      "step": 1792
    },
    {
      "epoch": 0.1100709045704288,
      "grad_norm": 0.6326292360486804,
      "learning_rate": 1.966574617594147e-05,
      "loss": 0.9991,
      "step": 1793
    },
    {
      "epoch": 0.1101322938088953,
      "grad_norm": 0.6148424421691002,
      "learning_rate": 1.9665236200884785e-05,
      "loss": 1.0585,
      "step": 1794
    },
    {
      "epoch": 0.1101936830473618,
      "grad_norm": 0.6817851150038332,
      "learning_rate": 1.9664725843709624e-05,
      "loss": 1.0673,
      "step": 1795
    },
    {
      "epoch": 0.1102550722858283,
      "grad_norm": 0.6348570658971768,
      "learning_rate": 1.966421510443616e-05,
      "loss": 1.0875,
      "step": 1796
    },
    {
      "epoch": 0.11031646152429479,
      "grad_norm": 0.6437990543367612,
      "learning_rate": 1.9663703983084583e-05,
      "loss": 1.049,
      "step": 1797
    },
    {
      "epoch": 0.11037785076276128,
      "grad_norm": 0.6214185493169452,
      "learning_rate": 1.96631924796751e-05,
      "loss": 1.0253,
      "step": 1798
    },
    {
      "epoch": 0.11043924000122779,
      "grad_norm": 0.6844008206030429,
      "learning_rate": 1.9662680594227944e-05,
      "loss": 1.0683,
      "step": 1799
    },
    {
      "epoch": 0.11050062923969428,
      "grad_norm": 0.7026452743136326,
      "learning_rate": 1.966216832676334e-05,
      "loss": 1.0862,
      "step": 1800
    },
    {
      "epoch": 0.11056201847816077,
      "grad_norm": 0.6919241061545108,
      "learning_rate": 1.9661655677301543e-05,
      "loss": 1.122,
      "step": 1801
    },
    {
      "epoch": 0.11062340771662728,
      "grad_norm": 0.683184822346084,
      "learning_rate": 1.9661142645862824e-05,
      "loss": 1.0706,
      "step": 1802
    },
    {
      "epoch": 0.11068479695509377,
      "grad_norm": 0.6172596699720789,
      "learning_rate": 1.9660629232467466e-05,
      "loss": 1.0005,
      "step": 1803
    },
    {
      "epoch": 0.11074618619356028,
      "grad_norm": 0.5785835800846093,
      "learning_rate": 1.9660115437135767e-05,
      "loss": 1.048,
      "step": 1804
    },
    {
      "epoch": 0.11080757543202677,
      "grad_norm": 0.7271383298952434,
      "learning_rate": 1.9659601259888038e-05,
      "loss": 1.0806,
      "step": 1805
    },
    {
      "epoch": 0.11086896467049326,
      "grad_norm": 0.6366909690056385,
      "learning_rate": 1.965908670074461e-05,
      "loss": 1.0738,
      "step": 1806
    },
    {
      "epoch": 0.11093035390895976,
      "grad_norm": 0.6812801166799909,
      "learning_rate": 1.9658571759725818e-05,
      "loss": 1.1338,
      "step": 1807
    },
    {
      "epoch": 0.11099174314742626,
      "grad_norm": 0.6313060024166406,
      "learning_rate": 1.9658056436852032e-05,
      "loss": 0.9844,
      "step": 1808
    },
    {
      "epoch": 0.11105313238589275,
      "grad_norm": 0.6946147641919466,
      "learning_rate": 1.965754073214362e-05,
      "loss": 1.0995,
      "step": 1809
    },
    {
      "epoch": 0.11111452162435925,
      "grad_norm": 0.6631366939623939,
      "learning_rate": 1.9657024645620968e-05,
      "loss": 1.1044,
      "step": 1810
    },
    {
      "epoch": 0.11117591086282574,
      "grad_norm": 0.5882574571415858,
      "learning_rate": 1.9656508177304483e-05,
      "loss": 1.0207,
      "step": 1811
    },
    {
      "epoch": 0.11123730010129225,
      "grad_norm": 0.6231802548592107,
      "learning_rate": 1.9655991327214586e-05,
      "loss": 1.089,
      "step": 1812
    },
    {
      "epoch": 0.11129868933975874,
      "grad_norm": 0.6795467975301593,
      "learning_rate": 1.9655474095371706e-05,
      "loss": 1.0485,
      "step": 1813
    },
    {
      "epoch": 0.11136007857822523,
      "grad_norm": 0.6983984721764349,
      "learning_rate": 1.965495648179629e-05,
      "loss": 1.096,
      "step": 1814
    },
    {
      "epoch": 0.11142146781669174,
      "grad_norm": 0.7015177411946432,
      "learning_rate": 1.965443848650881e-05,
      "loss": 1.1064,
      "step": 1815
    },
    {
      "epoch": 0.11148285705515823,
      "grad_norm": 0.6124609343674413,
      "learning_rate": 1.9653920109529742e-05,
      "loss": 1.0379,
      "step": 1816
    },
    {
      "epoch": 0.11154424629362472,
      "grad_norm": 0.6761865364625159,
      "learning_rate": 1.9653401350879577e-05,
      "loss": 1.0972,
      "step": 1817
    },
    {
      "epoch": 0.11160563553209123,
      "grad_norm": 0.6610955444334832,
      "learning_rate": 1.965288221057883e-05,
      "loss": 1.0199,
      "step": 1818
    },
    {
      "epoch": 0.11166702477055772,
      "grad_norm": 0.6420795105715655,
      "learning_rate": 1.9652362688648016e-05,
      "loss": 1.048,
      "step": 1819
    },
    {
      "epoch": 0.11172841400902422,
      "grad_norm": 0.6217321261448014,
      "learning_rate": 1.9651842785107685e-05,
      "loss": 1.0435,
      "step": 1820
    },
    {
      "epoch": 0.11178980324749072,
      "grad_norm": 0.6561896213398608,
      "learning_rate": 1.9651322499978388e-05,
      "loss": 0.9867,
      "step": 1821
    },
    {
      "epoch": 0.11185119248595721,
      "grad_norm": 0.6502986275699549,
      "learning_rate": 1.965080183328069e-05,
      "loss": 1.109,
      "step": 1822
    },
    {
      "epoch": 0.11191258172442371,
      "grad_norm": 0.6409043687726348,
      "learning_rate": 1.9650280785035183e-05,
      "loss": 1.0292,
      "step": 1823
    },
    {
      "epoch": 0.1119739709628902,
      "grad_norm": 0.6225248690261957,
      "learning_rate": 1.9649759355262458e-05,
      "loss": 1.0563,
      "step": 1824
    },
    {
      "epoch": 0.1120353602013567,
      "grad_norm": 0.6129869322544521,
      "learning_rate": 1.964923754398314e-05,
      "loss": 1.0377,
      "step": 1825
    },
    {
      "epoch": 0.1120967494398232,
      "grad_norm": 0.705586311775994,
      "learning_rate": 1.9648715351217853e-05,
      "loss": 1.119,
      "step": 1826
    },
    {
      "epoch": 0.11215813867828969,
      "grad_norm": 0.6591038277241175,
      "learning_rate": 1.9648192776987243e-05,
      "loss": 1.0716,
      "step": 1827
    },
    {
      "epoch": 0.1122195279167562,
      "grad_norm": 0.6099461316065341,
      "learning_rate": 1.964766982131197e-05,
      "loss": 1.0649,
      "step": 1828
    },
    {
      "epoch": 0.11228091715522269,
      "grad_norm": 0.6847513132959621,
      "learning_rate": 1.964714648421271e-05,
      "loss": 1.0674,
      "step": 1829
    },
    {
      "epoch": 0.11234230639368918,
      "grad_norm": 0.6398888541505877,
      "learning_rate": 1.9646622765710154e-05,
      "loss": 1.0462,
      "step": 1830
    },
    {
      "epoch": 0.11240369563215569,
      "grad_norm": 0.6989046112028227,
      "learning_rate": 1.9646098665825003e-05,
      "loss": 1.0685,
      "step": 1831
    },
    {
      "epoch": 0.11246508487062218,
      "grad_norm": 0.644711796630837,
      "learning_rate": 1.9645574184577982e-05,
      "loss": 1.0207,
      "step": 1832
    },
    {
      "epoch": 0.11252647410908867,
      "grad_norm": 0.6697507041520833,
      "learning_rate": 1.9645049321989827e-05,
      "loss": 1.043,
      "step": 1833
    },
    {
      "epoch": 0.11258786334755518,
      "grad_norm": 0.6266530324016685,
      "learning_rate": 1.9644524078081286e-05,
      "loss": 1.0394,
      "step": 1834
    },
    {
      "epoch": 0.11264925258602167,
      "grad_norm": 0.6301982816381373,
      "learning_rate": 1.9643998452873126e-05,
      "loss": 1.0533,
      "step": 1835
    },
    {
      "epoch": 0.11271064182448817,
      "grad_norm": 0.6351229667347279,
      "learning_rate": 1.964347244638613e-05,
      "loss": 1.0429,
      "step": 1836
    },
    {
      "epoch": 0.11277203106295466,
      "grad_norm": 0.6235586506248213,
      "learning_rate": 1.9642946058641087e-05,
      "loss": 1.0369,
      "step": 1837
    },
    {
      "epoch": 0.11283342030142116,
      "grad_norm": 0.6412850261972394,
      "learning_rate": 1.9642419289658812e-05,
      "loss": 1.038,
      "step": 1838
    },
    {
      "epoch": 0.11289480953988766,
      "grad_norm": 0.6719031617663972,
      "learning_rate": 1.9641892139460133e-05,
      "loss": 1.0559,
      "step": 1839
    },
    {
      "epoch": 0.11295619877835415,
      "grad_norm": 0.6997964902767628,
      "learning_rate": 1.964136460806589e-05,
      "loss": 1.1345,
      "step": 1840
    },
    {
      "epoch": 0.11301758801682066,
      "grad_norm": 0.6350224556015239,
      "learning_rate": 1.9640836695496935e-05,
      "loss": 1.0374,
      "step": 1841
    },
    {
      "epoch": 0.11307897725528715,
      "grad_norm": 0.6644135860634752,
      "learning_rate": 1.9640308401774145e-05,
      "loss": 1.0277,
      "step": 1842
    },
    {
      "epoch": 0.11314036649375364,
      "grad_norm": 0.6552741562185086,
      "learning_rate": 1.9639779726918404e-05,
      "loss": 1.0734,
      "step": 1843
    },
    {
      "epoch": 0.11320175573222015,
      "grad_norm": 0.6752517347768893,
      "learning_rate": 1.9639250670950613e-05,
      "loss": 1.1162,
      "step": 1844
    },
    {
      "epoch": 0.11326314497068664,
      "grad_norm": 0.6154531126925279,
      "learning_rate": 1.9638721233891692e-05,
      "loss": 0.9978,
      "step": 1845
    },
    {
      "epoch": 0.11332453420915313,
      "grad_norm": 0.6434982889688481,
      "learning_rate": 1.963819141576256e-05,
      "loss": 1.052,
      "step": 1846
    },
    {
      "epoch": 0.11338592344761964,
      "grad_norm": 0.6830796137520401,
      "learning_rate": 1.9637661216584183e-05,
      "loss": 1.0305,
      "step": 1847
    },
    {
      "epoch": 0.11344731268608613,
      "grad_norm": 0.6566807333796397,
      "learning_rate": 1.9637130636377508e-05,
      "loss": 1.1044,
      "step": 1848
    },
    {
      "epoch": 0.11350870192455263,
      "grad_norm": 0.6747972544421063,
      "learning_rate": 1.9636599675163516e-05,
      "loss": 1.0438,
      "step": 1849
    },
    {
      "epoch": 0.11357009116301912,
      "grad_norm": 0.7103059373109292,
      "learning_rate": 1.9636068332963196e-05,
      "loss": 1.105,
      "step": 1850
    },
    {
      "epoch": 0.11363148040148562,
      "grad_norm": 0.6971684459415275,
      "learning_rate": 1.9635536609797562e-05,
      "loss": 1.0776,
      "step": 1851
    },
    {
      "epoch": 0.11369286963995212,
      "grad_norm": 0.6389318239942683,
      "learning_rate": 1.9635004505687626e-05,
      "loss": 1.0603,
      "step": 1852
    },
    {
      "epoch": 0.11375425887841861,
      "grad_norm": 0.6578788439848239,
      "learning_rate": 1.9634472020654438e-05,
      "loss": 1.0418,
      "step": 1853
    },
    {
      "epoch": 0.1138156481168851,
      "grad_norm": 0.6047962315759039,
      "learning_rate": 1.9633939154719037e-05,
      "loss": 1.0214,
      "step": 1854
    },
    {
      "epoch": 0.11387703735535161,
      "grad_norm": 0.7318527932629812,
      "learning_rate": 1.9633405907902494e-05,
      "loss": 1.1124,
      "step": 1855
    },
    {
      "epoch": 0.1139384265938181,
      "grad_norm": 0.6626334472611035,
      "learning_rate": 1.9632872280225895e-05,
      "loss": 1.0468,
      "step": 1856
    },
    {
      "epoch": 0.1139998158322846,
      "grad_norm": 0.639980669606725,
      "learning_rate": 1.9632338271710333e-05,
      "loss": 1.08,
      "step": 1857
    },
    {
      "epoch": 0.1140612050707511,
      "grad_norm": 0.6683394781079426,
      "learning_rate": 1.9631803882376924e-05,
      "loss": 1.0756,
      "step": 1858
    },
    {
      "epoch": 0.11412259430921759,
      "grad_norm": 0.5998176586799651,
      "learning_rate": 1.9631269112246795e-05,
      "loss": 0.9965,
      "step": 1859
    },
    {
      "epoch": 0.1141839835476841,
      "grad_norm": 0.5984420520866669,
      "learning_rate": 1.963073396134108e-05,
      "loss": 0.9913,
      "step": 1860
    },
    {
      "epoch": 0.11424537278615059,
      "grad_norm": 0.6657031174219831,
      "learning_rate": 1.9630198429680947e-05,
      "loss": 1.0572,
      "step": 1861
    },
    {
      "epoch": 0.11430676202461708,
      "grad_norm": 0.6675143788647575,
      "learning_rate": 1.9629662517287563e-05,
      "loss": 1.0643,
      "step": 1862
    },
    {
      "epoch": 0.11436815126308358,
      "grad_norm": 0.6371651549446888,
      "learning_rate": 1.9629126224182116e-05,
      "loss": 1.0661,
      "step": 1863
    },
    {
      "epoch": 0.11442954050155008,
      "grad_norm": 0.7360620523207374,
      "learning_rate": 1.962858955038581e-05,
      "loss": 1.1347,
      "step": 1864
    },
    {
      "epoch": 0.11449092974001658,
      "grad_norm": 0.7083669694296537,
      "learning_rate": 1.9628052495919862e-05,
      "loss": 1.1154,
      "step": 1865
    },
    {
      "epoch": 0.11455231897848307,
      "grad_norm": 0.694137420573908,
      "learning_rate": 1.9627515060805503e-05,
      "loss": 1.0923,
      "step": 1866
    },
    {
      "epoch": 0.11461370821694956,
      "grad_norm": 0.6668717923745492,
      "learning_rate": 1.9626977245063983e-05,
      "loss": 1.0536,
      "step": 1867
    },
    {
      "epoch": 0.11467509745541607,
      "grad_norm": 0.6686677389610787,
      "learning_rate": 1.9626439048716564e-05,
      "loss": 1.0541,
      "step": 1868
    },
    {
      "epoch": 0.11473648669388256,
      "grad_norm": 0.6429315215914408,
      "learning_rate": 1.9625900471784525e-05,
      "loss": 1.0601,
      "step": 1869
    },
    {
      "epoch": 0.11479787593234905,
      "grad_norm": 0.683595942941552,
      "learning_rate": 1.9625361514289153e-05,
      "loss": 1.0468,
      "step": 1870
    },
    {
      "epoch": 0.11485926517081556,
      "grad_norm": 0.6969961107854227,
      "learning_rate": 1.9624822176251763e-05,
      "loss": 1.0755,
      "step": 1871
    },
    {
      "epoch": 0.11492065440928205,
      "grad_norm": 0.6138981251123783,
      "learning_rate": 1.962428245769368e-05,
      "loss": 1.0093,
      "step": 1872
    },
    {
      "epoch": 0.11498204364774856,
      "grad_norm": 0.6261285447164688,
      "learning_rate": 1.962374235863623e-05,
      "loss": 1.0508,
      "step": 1873
    },
    {
      "epoch": 0.11504343288621505,
      "grad_norm": 0.6398888223358671,
      "learning_rate": 1.9623201879100776e-05,
      "loss": 1.0883,
      "step": 1874
    },
    {
      "epoch": 0.11510482212468154,
      "grad_norm": 0.6474518796570424,
      "learning_rate": 1.962266101910868e-05,
      "loss": 1.0569,
      "step": 1875
    },
    {
      "epoch": 0.11516621136314804,
      "grad_norm": 0.6720248129126767,
      "learning_rate": 1.962211977868133e-05,
      "loss": 1.0859,
      "step": 1876
    },
    {
      "epoch": 0.11522760060161454,
      "grad_norm": 0.6453806492883474,
      "learning_rate": 1.9621578157840126e-05,
      "loss": 1.0739,
      "step": 1877
    },
    {
      "epoch": 0.11528898984008103,
      "grad_norm": 0.6301708176044991,
      "learning_rate": 1.9621036156606474e-05,
      "loss": 1.0528,
      "step": 1878
    },
    {
      "epoch": 0.11535037907854753,
      "grad_norm": 0.64504863960437,
      "learning_rate": 1.962049377500181e-05,
      "loss": 1.077,
      "step": 1879
    },
    {
      "epoch": 0.11541176831701402,
      "grad_norm": 0.6197632953786444,
      "learning_rate": 1.9619951013047568e-05,
      "loss": 1.0458,
      "step": 1880
    },
    {
      "epoch": 0.11547315755548053,
      "grad_norm": 0.5749405257272451,
      "learning_rate": 1.9619407870765214e-05,
      "loss": 0.8151,
      "step": 1881
    },
    {
      "epoch": 0.11553454679394702,
      "grad_norm": 0.662529171028436,
      "learning_rate": 1.9618864348176218e-05,
      "loss": 1.0845,
      "step": 1882
    },
    {
      "epoch": 0.11559593603241351,
      "grad_norm": 0.6607093758507789,
      "learning_rate": 1.961832044530207e-05,
      "loss": 1.1281,
      "step": 1883
    },
    {
      "epoch": 0.11565732527088002,
      "grad_norm": 0.6838715347701932,
      "learning_rate": 1.961777616216427e-05,
      "loss": 1.0812,
      "step": 1884
    },
    {
      "epoch": 0.11571871450934651,
      "grad_norm": 0.6903969572752241,
      "learning_rate": 1.961723149878434e-05,
      "loss": 1.0472,
      "step": 1885
    },
    {
      "epoch": 0.11578010374781302,
      "grad_norm": 0.6089097594902004,
      "learning_rate": 1.9616686455183817e-05,
      "loss": 0.9886,
      "step": 1886
    },
    {
      "epoch": 0.1158414929862795,
      "grad_norm": 0.6674606827272447,
      "learning_rate": 1.9616141031384237e-05,
      "loss": 1.0905,
      "step": 1887
    },
    {
      "epoch": 0.115902882224746,
      "grad_norm": 0.5823229334008551,
      "learning_rate": 1.9615595227407176e-05,
      "loss": 1.0213,
      "step": 1888
    },
    {
      "epoch": 0.1159642714632125,
      "grad_norm": 0.6526243482158463,
      "learning_rate": 1.9615049043274207e-05,
      "loss": 1.0602,
      "step": 1889
    },
    {
      "epoch": 0.116025660701679,
      "grad_norm": 0.6508300635610895,
      "learning_rate": 1.9614502479006922e-05,
      "loss": 1.0744,
      "step": 1890
    },
    {
      "epoch": 0.11608704994014549,
      "grad_norm": 0.6748546412206035,
      "learning_rate": 1.9613955534626938e-05,
      "loss": 1.0877,
      "step": 1891
    },
    {
      "epoch": 0.11614843917861199,
      "grad_norm": 0.639859717752849,
      "learning_rate": 1.9613408210155867e-05,
      "loss": 1.0685,
      "step": 1892
    },
    {
      "epoch": 0.11620982841707848,
      "grad_norm": 0.6183443043836783,
      "learning_rate": 1.9612860505615356e-05,
      "loss": 0.9993,
      "step": 1893
    },
    {
      "epoch": 0.11627121765554499,
      "grad_norm": 0.6966367944240418,
      "learning_rate": 1.9612312421027052e-05,
      "loss": 1.0264,
      "step": 1894
    },
    {
      "epoch": 0.11633260689401148,
      "grad_norm": 0.6326611190316397,
      "learning_rate": 1.9611763956412632e-05,
      "loss": 1.0369,
      "step": 1895
    },
    {
      "epoch": 0.11639399613247797,
      "grad_norm": 0.6826096556574496,
      "learning_rate": 1.9611215111793774e-05,
      "loss": 1.0179,
      "step": 1896
    },
    {
      "epoch": 0.11645538537094448,
      "grad_norm": 0.6277136152753776,
      "learning_rate": 1.9610665887192178e-05,
      "loss": 1.1019,
      "step": 1897
    },
    {
      "epoch": 0.11651677460941097,
      "grad_norm": 0.6201019854835564,
      "learning_rate": 1.961011628262956e-05,
      "loss": 1.01,
      "step": 1898
    },
    {
      "epoch": 0.11657816384787746,
      "grad_norm": 0.6231591698392173,
      "learning_rate": 1.9609566298127645e-05,
      "loss": 1.0361,
      "step": 1899
    },
    {
      "epoch": 0.11663955308634397,
      "grad_norm": 0.6241497477499282,
      "learning_rate": 1.9609015933708178e-05,
      "loss": 1.0156,
      "step": 1900
    },
    {
      "epoch": 0.11670094232481046,
      "grad_norm": 0.704629456906848,
      "learning_rate": 1.960846518939292e-05,
      "loss": 1.0714,
      "step": 1901
    },
    {
      "epoch": 0.11676233156327696,
      "grad_norm": 0.6189047313469099,
      "learning_rate": 1.960791406520364e-05,
      "loss": 1.0231,
      "step": 1902
    },
    {
      "epoch": 0.11682372080174346,
      "grad_norm": 0.6719266580335608,
      "learning_rate": 1.9607362561162137e-05,
      "loss": 1.0551,
      "step": 1903
    },
    {
      "epoch": 0.11688511004020995,
      "grad_norm": 0.6713054112837376,
      "learning_rate": 1.9606810677290205e-05,
      "loss": 1.0938,
      "step": 1904
    },
    {
      "epoch": 0.11694649927867645,
      "grad_norm": 0.6469533527501932,
      "learning_rate": 1.9606258413609662e-05,
      "loss": 1.0726,
      "step": 1905
    },
    {
      "epoch": 0.11700788851714294,
      "grad_norm": 0.6757817566892824,
      "learning_rate": 1.960570577014235e-05,
      "loss": 1.0321,
      "step": 1906
    },
    {
      "epoch": 0.11706927775560944,
      "grad_norm": 0.7394437492979102,
      "learning_rate": 1.9605152746910114e-05,
      "loss": 1.108,
      "step": 1907
    },
    {
      "epoch": 0.11713066699407594,
      "grad_norm": 0.6695063275779202,
      "learning_rate": 1.9604599343934817e-05,
      "loss": 1.0903,
      "step": 1908
    },
    {
      "epoch": 0.11719205623254243,
      "grad_norm": 0.613012955135097,
      "learning_rate": 1.960404556123834e-05,
      "loss": 1.0357,
      "step": 1909
    },
    {
      "epoch": 0.11725344547100894,
      "grad_norm": 0.6745600383598245,
      "learning_rate": 1.9603491398842575e-05,
      "loss": 1.0958,
      "step": 1910
    },
    {
      "epoch": 0.11731483470947543,
      "grad_norm": 0.6259422211711424,
      "learning_rate": 1.9602936856769432e-05,
      "loss": 1.0376,
      "step": 1911
    },
    {
      "epoch": 0.11737622394794192,
      "grad_norm": 0.6355628219558473,
      "learning_rate": 1.9602381935040835e-05,
      "loss": 1.0533,
      "step": 1912
    },
    {
      "epoch": 0.11743761318640843,
      "grad_norm": 0.6194979089958219,
      "learning_rate": 1.9601826633678725e-05,
      "loss": 1.0168,
      "step": 1913
    },
    {
      "epoch": 0.11749900242487492,
      "grad_norm": 0.6698115888105222,
      "learning_rate": 1.960127095270505e-05,
      "loss": 1.0035,
      "step": 1914
    },
    {
      "epoch": 0.11756039166334141,
      "grad_norm": 0.656744089968906,
      "learning_rate": 1.9600714892141787e-05,
      "loss": 1.095,
      "step": 1915
    },
    {
      "epoch": 0.11762178090180792,
      "grad_norm": 0.678794372811007,
      "learning_rate": 1.9600158452010914e-05,
      "loss": 1.064,
      "step": 1916
    },
    {
      "epoch": 0.1176831701402744,
      "grad_norm": 0.6704908863767824,
      "learning_rate": 1.959960163233443e-05,
      "loss": 1.0828,
      "step": 1917
    },
    {
      "epoch": 0.11774455937874091,
      "grad_norm": 0.6583022816582024,
      "learning_rate": 1.9599044433134353e-05,
      "loss": 1.0833,
      "step": 1918
    },
    {
      "epoch": 0.1178059486172074,
      "grad_norm": 0.6644485217222019,
      "learning_rate": 1.9598486854432712e-05,
      "loss": 1.0786,
      "step": 1919
    },
    {
      "epoch": 0.1178673378556739,
      "grad_norm": 0.6182453263963419,
      "learning_rate": 1.959792889625155e-05,
      "loss": 1.0496,
      "step": 1920
    },
    {
      "epoch": 0.1179287270941404,
      "grad_norm": 0.7437755573315429,
      "learning_rate": 1.9597370558612924e-05,
      "loss": 1.1082,
      "step": 1921
    },
    {
      "epoch": 0.11799011633260689,
      "grad_norm": 0.6708388604413922,
      "learning_rate": 1.9596811841538907e-05,
      "loss": 1.0634,
      "step": 1922
    },
    {
      "epoch": 0.11805150557107338,
      "grad_norm": 0.6375260171024288,
      "learning_rate": 1.9596252745051593e-05,
      "loss": 1.0609,
      "step": 1923
    },
    {
      "epoch": 0.11811289480953989,
      "grad_norm": 0.6282377546295369,
      "learning_rate": 1.959569326917308e-05,
      "loss": 1.025,
      "step": 1924
    },
    {
      "epoch": 0.11817428404800638,
      "grad_norm": 0.6429294670642507,
      "learning_rate": 1.9595133413925494e-05,
      "loss": 1.0882,
      "step": 1925
    },
    {
      "epoch": 0.11823567328647289,
      "grad_norm": 0.6197450954315249,
      "learning_rate": 1.959457317933097e-05,
      "loss": 1.029,
      "step": 1926
    },
    {
      "epoch": 0.11829706252493938,
      "grad_norm": 0.6495793961421903,
      "learning_rate": 1.9594012565411645e-05,
      "loss": 1.0243,
      "step": 1927
    },
    {
      "epoch": 0.11835845176340587,
      "grad_norm": 0.6849657071621369,
      "learning_rate": 1.9593451572189696e-05,
      "loss": 1.085,
      "step": 1928
    },
    {
      "epoch": 0.11841984100187238,
      "grad_norm": 0.6811841430707201,
      "learning_rate": 1.9592890199687295e-05,
      "loss": 1.063,
      "step": 1929
    },
    {
      "epoch": 0.11848123024033887,
      "grad_norm": 0.634660383097605,
      "learning_rate": 1.9592328447926637e-05,
      "loss": 1.1234,
      "step": 1930
    },
    {
      "epoch": 0.11854261947880537,
      "grad_norm": 0.6513379199282409,
      "learning_rate": 1.9591766316929935e-05,
      "loss": 0.8425,
      "step": 1931
    },
    {
      "epoch": 0.11860400871727186,
      "grad_norm": 0.6547364737351696,
      "learning_rate": 1.9591203806719408e-05,
      "loss": 0.985,
      "step": 1932
    },
    {
      "epoch": 0.11866539795573836,
      "grad_norm": 0.6264008122094146,
      "learning_rate": 1.9590640917317296e-05,
      "loss": 1.0235,
      "step": 1933
    },
    {
      "epoch": 0.11872678719420486,
      "grad_norm": 0.651759404718605,
      "learning_rate": 1.959007764874586e-05,
      "loss": 1.0268,
      "step": 1934
    },
    {
      "epoch": 0.11878817643267135,
      "grad_norm": 0.686679563882004,
      "learning_rate": 1.9589514001027357e-05,
      "loss": 1.1151,
      "step": 1935
    },
    {
      "epoch": 0.11884956567113784,
      "grad_norm": 0.6166043845977632,
      "learning_rate": 1.958894997418408e-05,
      "loss": 1.0059,
      "step": 1936
    },
    {
      "epoch": 0.11891095490960435,
      "grad_norm": 0.6565504905803514,
      "learning_rate": 1.9588385568238323e-05,
      "loss": 1.081,
      "step": 1937
    },
    {
      "epoch": 0.11897234414807084,
      "grad_norm": 0.6871258681045519,
      "learning_rate": 1.9587820783212403e-05,
      "loss": 1.1034,
      "step": 1938
    },
    {
      "epoch": 0.11903373338653735,
      "grad_norm": 0.6299017470014698,
      "learning_rate": 1.9587255619128648e-05,
      "loss": 1.0609,
      "step": 1939
    },
    {
      "epoch": 0.11909512262500384,
      "grad_norm": 0.6247299255884637,
      "learning_rate": 1.9586690076009405e-05,
      "loss": 1.0001,
      "step": 1940
    },
    {
      "epoch": 0.11915651186347033,
      "grad_norm": 0.6707735302319325,
      "learning_rate": 1.9586124153877027e-05,
      "loss": 1.0769,
      "step": 1941
    },
    {
      "epoch": 0.11921790110193684,
      "grad_norm": 0.6670676867666356,
      "learning_rate": 1.9585557852753893e-05,
      "loss": 1.1017,
      "step": 1942
    },
    {
      "epoch": 0.11927929034040333,
      "grad_norm": 0.5651814688922324,
      "learning_rate": 1.958499117266239e-05,
      "loss": 1.0181,
      "step": 1943
    },
    {
      "epoch": 0.11934067957886982,
      "grad_norm": 0.6690584372927738,
      "learning_rate": 1.958442411362492e-05,
      "loss": 1.0646,
      "step": 1944
    },
    {
      "epoch": 0.11940206881733632,
      "grad_norm": 0.6704014643051305,
      "learning_rate": 1.9583856675663905e-05,
      "loss": 1.1046,
      "step": 1945
    },
    {
      "epoch": 0.11946345805580282,
      "grad_norm": 0.6720291100324671,
      "learning_rate": 1.9583288858801775e-05,
      "loss": 1.1193,
      "step": 1946
    },
    {
      "epoch": 0.11952484729426932,
      "grad_norm": 0.6464446102602475,
      "learning_rate": 1.9582720663060982e-05,
      "loss": 1.0386,
      "step": 1947
    },
    {
      "epoch": 0.11958623653273581,
      "grad_norm": 0.6750450715454116,
      "learning_rate": 1.958215208846399e-05,
      "loss": 1.0457,
      "step": 1948
    },
    {
      "epoch": 0.1196476257712023,
      "grad_norm": 0.6207605052624571,
      "learning_rate": 1.958158313503328e-05,
      "loss": 1.0496,
      "step": 1949
    },
    {
      "epoch": 0.11970901500966881,
      "grad_norm": 0.6447568030765828,
      "learning_rate": 1.958101380279134e-05,
      "loss": 1.0442,
      "step": 1950
    },
    {
      "epoch": 0.1197704042481353,
      "grad_norm": 0.7164163550376458,
      "learning_rate": 1.9580444091760682e-05,
      "loss": 1.1256,
      "step": 1951
    },
    {
      "epoch": 0.11983179348660179,
      "grad_norm": 0.624157795495926,
      "learning_rate": 1.957987400196383e-05,
      "loss": 0.9944,
      "step": 1952
    },
    {
      "epoch": 0.1198931827250683,
      "grad_norm": 0.6497503980853285,
      "learning_rate": 1.957930353342332e-05,
      "loss": 1.0408,
      "step": 1953
    },
    {
      "epoch": 0.11995457196353479,
      "grad_norm": 0.6395621684037343,
      "learning_rate": 1.957873268616171e-05,
      "loss": 1.0285,
      "step": 1954
    },
    {
      "epoch": 0.1200159612020013,
      "grad_norm": 0.6760937405167025,
      "learning_rate": 1.9578161460201564e-05,
      "loss": 1.0698,
      "step": 1955
    },
    {
      "epoch": 0.12007735044046779,
      "grad_norm": 0.6838104163080541,
      "learning_rate": 1.957758985556547e-05,
      "loss": 1.0863,
      "step": 1956
    },
    {
      "epoch": 0.12013873967893428,
      "grad_norm": 0.6827405881679873,
      "learning_rate": 1.9577017872276022e-05,
      "loss": 1.0749,
      "step": 1957
    },
    {
      "epoch": 0.12020012891740078,
      "grad_norm": 0.6494088437719625,
      "learning_rate": 1.9576445510355837e-05,
      "loss": 1.0626,
      "step": 1958
    },
    {
      "epoch": 0.12026151815586728,
      "grad_norm": 0.6619638225395111,
      "learning_rate": 1.957587276982754e-05,
      "loss": 1.0763,
      "step": 1959
    },
    {
      "epoch": 0.12032290739433377,
      "grad_norm": 0.6537232645368045,
      "learning_rate": 1.9575299650713783e-05,
      "loss": 1.0004,
      "step": 1960
    },
    {
      "epoch": 0.12038429663280027,
      "grad_norm": 0.6922241057773088,
      "learning_rate": 1.9574726153037216e-05,
      "loss": 1.0683,
      "step": 1961
    },
    {
      "epoch": 0.12044568587126676,
      "grad_norm": 0.6542008738108696,
      "learning_rate": 1.9574152276820513e-05,
      "loss": 1.0032,
      "step": 1962
    },
    {
      "epoch": 0.12050707510973327,
      "grad_norm": 0.6618792507849897,
      "learning_rate": 1.9573578022086365e-05,
      "loss": 1.0501,
      "step": 1963
    },
    {
      "epoch": 0.12056846434819976,
      "grad_norm": 0.6487700013615715,
      "learning_rate": 1.9573003388857476e-05,
      "loss": 0.75,
      "step": 1964
    },
    {
      "epoch": 0.12062985358666625,
      "grad_norm": 0.623069855868633,
      "learning_rate": 1.957242837715656e-05,
      "loss": 1.0342,
      "step": 1965
    },
    {
      "epoch": 0.12069124282513276,
      "grad_norm": 0.6223324344220776,
      "learning_rate": 1.9571852987006358e-05,
      "loss": 0.9922,
      "step": 1966
    },
    {
      "epoch": 0.12075263206359925,
      "grad_norm": 0.6841867851983701,
      "learning_rate": 1.957127721842961e-05,
      "loss": 1.1076,
      "step": 1967
    },
    {
      "epoch": 0.12081402130206574,
      "grad_norm": 0.6185108811805364,
      "learning_rate": 1.9570701071449084e-05,
      "loss": 1.0416,
      "step": 1968
    },
    {
      "epoch": 0.12087541054053225,
      "grad_norm": 0.6399707221812938,
      "learning_rate": 1.9570124546087555e-05,
      "loss": 1.006,
      "step": 1969
    },
    {
      "epoch": 0.12093679977899874,
      "grad_norm": 0.6849631850477909,
      "learning_rate": 1.956954764236782e-05,
      "loss": 1.0715,
      "step": 1970
    },
    {
      "epoch": 0.12099818901746524,
      "grad_norm": 0.6868612837625426,
      "learning_rate": 1.9568970360312688e-05,
      "loss": 1.0822,
      "step": 1971
    },
    {
      "epoch": 0.12105957825593174,
      "grad_norm": 0.679246033707021,
      "learning_rate": 1.9568392699944977e-05,
      "loss": 1.0677,
      "step": 1972
    },
    {
      "epoch": 0.12112096749439823,
      "grad_norm": 0.6453634967973472,
      "learning_rate": 1.9567814661287527e-05,
      "loss": 1.0493,
      "step": 1973
    },
    {
      "epoch": 0.12118235673286473,
      "grad_norm": 0.6509959402101978,
      "learning_rate": 1.9567236244363188e-05,
      "loss": 1.0506,
      "step": 1974
    },
    {
      "epoch": 0.12124374597133122,
      "grad_norm": 0.6289458739233429,
      "learning_rate": 1.9566657449194832e-05,
      "loss": 1.0187,
      "step": 1975
    },
    {
      "epoch": 0.12130513520979773,
      "grad_norm": 0.6692122657689065,
      "learning_rate": 1.9566078275805344e-05,
      "loss": 1.0698,
      "step": 1976
    },
    {
      "epoch": 0.12136652444826422,
      "grad_norm": 0.7018075879715904,
      "learning_rate": 1.9565498724217617e-05,
      "loss": 1.0339,
      "step": 1977
    },
    {
      "epoch": 0.12142791368673071,
      "grad_norm": 0.7217670201634833,
      "learning_rate": 1.956491879445457e-05,
      "loss": 1.0459,
      "step": 1978
    },
    {
      "epoch": 0.12148930292519722,
      "grad_norm": 0.6340143881342591,
      "learning_rate": 1.956433848653912e-05,
      "loss": 1.0368,
      "step": 1979
    },
    {
      "epoch": 0.12155069216366371,
      "grad_norm": 0.6664819116255364,
      "learning_rate": 1.9563757800494216e-05,
      "loss": 1.023,
      "step": 1980
    },
    {
      "epoch": 0.1216120814021302,
      "grad_norm": 0.6647722609512741,
      "learning_rate": 1.956317673634282e-05,
      "loss": 1.0189,
      "step": 1981
    },
    {
      "epoch": 0.1216734706405967,
      "grad_norm": 0.64764642165414,
      "learning_rate": 1.95625952941079e-05,
      "loss": 1.0524,
      "step": 1982
    },
    {
      "epoch": 0.1217348598790632,
      "grad_norm": 0.7027013264316109,
      "learning_rate": 1.956201347381244e-05,
      "loss": 1.0642,
      "step": 1983
    },
    {
      "epoch": 0.1217962491175297,
      "grad_norm": 0.7009708737900316,
      "learning_rate": 1.9561431275479448e-05,
      "loss": 1.0627,
      "step": 1984
    },
    {
      "epoch": 0.1218576383559962,
      "grad_norm": 0.6920309450968118,
      "learning_rate": 1.9560848699131937e-05,
      "loss": 1.0667,
      "step": 1985
    },
    {
      "epoch": 0.12191902759446269,
      "grad_norm": 0.6584963387951692,
      "learning_rate": 1.9560265744792944e-05,
      "loss": 1.0603,
      "step": 1986
    },
    {
      "epoch": 0.12198041683292919,
      "grad_norm": 0.7114920699546503,
      "learning_rate": 1.9559682412485515e-05,
      "loss": 1.0816,
      "step": 1987
    },
    {
      "epoch": 0.12204180607139568,
      "grad_norm": 0.6126404372485326,
      "learning_rate": 1.955909870223271e-05,
      "loss": 1.0021,
      "step": 1988
    },
    {
      "epoch": 0.12210319530986218,
      "grad_norm": 0.6270229399723151,
      "learning_rate": 1.955851461405761e-05,
      "loss": 1.0053,
      "step": 1989
    },
    {
      "epoch": 0.12216458454832868,
      "grad_norm": 0.6457606075877107,
      "learning_rate": 1.9557930147983303e-05,
      "loss": 1.0629,
      "step": 1990
    },
    {
      "epoch": 0.12222597378679517,
      "grad_norm": 0.6572773283671037,
      "learning_rate": 1.9557345304032898e-05,
      "loss": 1.0194,
      "step": 1991
    },
    {
      "epoch": 0.12228736302526168,
      "grad_norm": 0.6436183686934034,
      "learning_rate": 1.9556760082229517e-05,
      "loss": 1.0549,
      "step": 1992
    },
    {
      "epoch": 0.12234875226372817,
      "grad_norm": 0.690862665967229,
      "learning_rate": 1.9556174482596296e-05,
      "loss": 1.0951,
      "step": 1993
    },
    {
      "epoch": 0.12241014150219466,
      "grad_norm": 0.7103415611749009,
      "learning_rate": 1.955558850515639e-05,
      "loss": 1.0926,
      "step": 1994
    },
    {
      "epoch": 0.12247153074066117,
      "grad_norm": 0.5877713718450229,
      "learning_rate": 1.955500214993296e-05,
      "loss": 1.0294,
      "step": 1995
    },
    {
      "epoch": 0.12253291997912766,
      "grad_norm": 0.6762916209008383,
      "learning_rate": 1.9554415416949195e-05,
      "loss": 1.0763,
      "step": 1996
    },
    {
      "epoch": 0.12259430921759415,
      "grad_norm": 0.7004192216660686,
      "learning_rate": 1.9553828306228288e-05,
      "loss": 1.1204,
      "step": 1997
    },
    {
      "epoch": 0.12265569845606066,
      "grad_norm": 0.7302834633392845,
      "learning_rate": 1.9553240817793445e-05,
      "loss": 1.0896,
      "step": 1998
    },
    {
      "epoch": 0.12271708769452715,
      "grad_norm": 0.6077680715637219,
      "learning_rate": 1.95526529516679e-05,
      "loss": 1.0353,
      "step": 1999
    },
    {
      "epoch": 0.12277847693299365,
      "grad_norm": 0.6497708890181638,
      "learning_rate": 1.9552064707874897e-05,
      "loss": 1.049,
      "step": 2000
    },
    {
      "epoch": 0.12283986617146014,
      "grad_norm": 0.6330457395925089,
      "learning_rate": 1.9551476086437685e-05,
      "loss": 1.0432,
      "step": 2001
    },
    {
      "epoch": 0.12290125540992664,
      "grad_norm": 0.65830015728857,
      "learning_rate": 1.9550887087379543e-05,
      "loss": 1.0784,
      "step": 2002
    },
    {
      "epoch": 0.12296264464839314,
      "grad_norm": 0.661835502225516,
      "learning_rate": 1.9550297710723747e-05,
      "loss": 1.0941,
      "step": 2003
    },
    {
      "epoch": 0.12302403388685963,
      "grad_norm": 0.9848917645670259,
      "learning_rate": 1.9549707956493605e-05,
      "loss": 0.8222,
      "step": 2004
    },
    {
      "epoch": 0.12308542312532612,
      "grad_norm": 0.6250349371006906,
      "learning_rate": 1.9549117824712435e-05,
      "loss": 1.0696,
      "step": 2005
    },
    {
      "epoch": 0.12314681236379263,
      "grad_norm": 0.647355660032091,
      "learning_rate": 1.954852731540356e-05,
      "loss": 0.99,
      "step": 2006
    },
    {
      "epoch": 0.12320820160225912,
      "grad_norm": 0.6757169346266542,
      "learning_rate": 1.9547936428590335e-05,
      "loss": 1.0823,
      "step": 2007
    },
    {
      "epoch": 0.12326959084072563,
      "grad_norm": 0.7187142762398493,
      "learning_rate": 1.9547345164296116e-05,
      "loss": 1.0739,
      "step": 2008
    },
    {
      "epoch": 0.12333098007919212,
      "grad_norm": 0.6566760131208907,
      "learning_rate": 1.954675352254428e-05,
      "loss": 1.0727,
      "step": 2009
    },
    {
      "epoch": 0.12339236931765861,
      "grad_norm": 0.6862359353990475,
      "learning_rate": 1.954616150335822e-05,
      "loss": 1.1153,
      "step": 2010
    },
    {
      "epoch": 0.12345375855612511,
      "grad_norm": 0.6401822876243388,
      "learning_rate": 1.9545569106761334e-05,
      "loss": 1.0082,
      "step": 2011
    },
    {
      "epoch": 0.1235151477945916,
      "grad_norm": 0.6235323837264527,
      "learning_rate": 1.954497633277705e-05,
      "loss": 1.0344,
      "step": 2012
    },
    {
      "epoch": 0.1235765370330581,
      "grad_norm": 0.6353907996330412,
      "learning_rate": 1.9544383181428805e-05,
      "loss": 1.0523,
      "step": 2013
    },
    {
      "epoch": 0.1236379262715246,
      "grad_norm": 0.6324139298401074,
      "learning_rate": 1.9543789652740043e-05,
      "loss": 1.0301,
      "step": 2014
    },
    {
      "epoch": 0.1236993155099911,
      "grad_norm": 0.659804577492112,
      "learning_rate": 1.954319574673423e-05,
      "loss": 1.0621,
      "step": 2015
    },
    {
      "epoch": 0.1237607047484576,
      "grad_norm": 0.9144269647378866,
      "learning_rate": 1.954260146343485e-05,
      "loss": 0.7754,
      "step": 2016
    },
    {
      "epoch": 0.12382209398692409,
      "grad_norm": 0.6696059803576969,
      "learning_rate": 1.95420068028654e-05,
      "loss": 1.0553,
      "step": 2017
    },
    {
      "epoch": 0.12388348322539058,
      "grad_norm": 0.6248758621742418,
      "learning_rate": 1.9541411765049383e-05,
      "loss": 1.0622,
      "step": 2018
    },
    {
      "epoch": 0.12394487246385709,
      "grad_norm": 0.6497162846111315,
      "learning_rate": 1.954081635001033e-05,
      "loss": 1.0524,
      "step": 2019
    },
    {
      "epoch": 0.12400626170232358,
      "grad_norm": 0.5859985336005865,
      "learning_rate": 1.954022055777178e-05,
      "loss": 0.7963,
      "step": 2020
    },
    {
      "epoch": 0.12406765094079009,
      "grad_norm": 0.669430198947167,
      "learning_rate": 1.9539624388357282e-05,
      "loss": 1.1291,
      "step": 2021
    },
    {
      "epoch": 0.12412904017925658,
      "grad_norm": 0.7223228814991333,
      "learning_rate": 1.953902784179041e-05,
      "loss": 1.0515,
      "step": 2022
    },
    {
      "epoch": 0.12419042941772307,
      "grad_norm": 0.6597708085979928,
      "learning_rate": 1.9538430918094757e-05,
      "loss": 1.0565,
      "step": 2023
    },
    {
      "epoch": 0.12425181865618957,
      "grad_norm": 0.6455359339284538,
      "learning_rate": 1.953783361729391e-05,
      "loss": 1.0553,
      "step": 2024
    },
    {
      "epoch": 0.12431320789465607,
      "grad_norm": 0.6650413173971816,
      "learning_rate": 1.9537235939411488e-05,
      "loss": 1.0395,
      "step": 2025
    },
    {
      "epoch": 0.12437459713312256,
      "grad_norm": 0.6704680251949752,
      "learning_rate": 1.953663788447112e-05,
      "loss": 1.0393,
      "step": 2026
    },
    {
      "epoch": 0.12443598637158906,
      "grad_norm": 0.6686898551211115,
      "learning_rate": 1.9536039452496453e-05,
      "loss": 1.0722,
      "step": 2027
    },
    {
      "epoch": 0.12449737561005556,
      "grad_norm": 0.6483376568662281,
      "learning_rate": 1.9535440643511142e-05,
      "loss": 0.9953,
      "step": 2028
    },
    {
      "epoch": 0.12455876484852206,
      "grad_norm": 0.6846784707365917,
      "learning_rate": 1.9534841457538863e-05,
      "loss": 1.0432,
      "step": 2029
    },
    {
      "epoch": 0.12462015408698855,
      "grad_norm": 0.6365525520950996,
      "learning_rate": 1.9534241894603306e-05,
      "loss": 1.0456,
      "step": 2030
    },
    {
      "epoch": 0.12468154332545504,
      "grad_norm": 0.6276165265064703,
      "learning_rate": 1.9533641954728176e-05,
      "loss": 1.0918,
      "step": 2031
    },
    {
      "epoch": 0.12474293256392155,
      "grad_norm": 0.711772314625832,
      "learning_rate": 1.953304163793719e-05,
      "loss": 1.0701,
      "step": 2032
    },
    {
      "epoch": 0.12480432180238804,
      "grad_norm": 0.6175527903903266,
      "learning_rate": 1.953244094425408e-05,
      "loss": 1.0615,
      "step": 2033
    },
    {
      "epoch": 0.12486571104085453,
      "grad_norm": 0.6589998928204739,
      "learning_rate": 1.9531839873702594e-05,
      "loss": 1.0497,
      "step": 2034
    },
    {
      "epoch": 0.12492710027932104,
      "grad_norm": 0.6689892808100009,
      "learning_rate": 1.95312384263065e-05,
      "loss": 1.0427,
      "step": 2035
    },
    {
      "epoch": 0.12498848951778753,
      "grad_norm": 0.6480343825400595,
      "learning_rate": 1.9530636602089577e-05,
      "loss": 1.0598,
      "step": 2036
    },
    {
      "epoch": 0.12504987875625403,
      "grad_norm": 0.6345709462552178,
      "learning_rate": 1.9530034401075614e-05,
      "loss": 1.0579,
      "step": 2037
    },
    {
      "epoch": 0.12511126799472053,
      "grad_norm": 0.619459078801304,
      "learning_rate": 1.952943182328842e-05,
      "loss": 1.0492,
      "step": 2038
    },
    {
      "epoch": 0.12517265723318702,
      "grad_norm": 0.6131116326660624,
      "learning_rate": 1.952882886875182e-05,
      "loss": 1.0477,
      "step": 2039
    },
    {
      "epoch": 0.1252340464716535,
      "grad_norm": 0.626412190233174,
      "learning_rate": 1.9528225537489648e-05,
      "loss": 1.0499,
      "step": 2040
    },
    {
      "epoch": 0.12529543571012003,
      "grad_norm": 0.6174737969766576,
      "learning_rate": 1.9527621829525766e-05,
      "loss": 1.0536,
      "step": 2041
    },
    {
      "epoch": 0.12535682494858652,
      "grad_norm": 0.6295336392246361,
      "learning_rate": 1.952701774488403e-05,
      "loss": 1.0699,
      "step": 2042
    },
    {
      "epoch": 0.125418214187053,
      "grad_norm": 0.6968432570916597,
      "learning_rate": 1.9526413283588334e-05,
      "loss": 1.0464,
      "step": 2043
    },
    {
      "epoch": 0.1254796034255195,
      "grad_norm": 0.6681616924171264,
      "learning_rate": 1.9525808445662564e-05,
      "loss": 1.082,
      "step": 2044
    },
    {
      "epoch": 0.125540992663986,
      "grad_norm": 0.5980404247694973,
      "learning_rate": 1.952520323113064e-05,
      "loss": 1.0169,
      "step": 2045
    },
    {
      "epoch": 0.1256023819024525,
      "grad_norm": 0.6758884489127195,
      "learning_rate": 1.952459764001649e-05,
      "loss": 1.1028,
      "step": 2046
    },
    {
      "epoch": 0.125663771140919,
      "grad_norm": 0.6288237757056161,
      "learning_rate": 1.9523991672344057e-05,
      "loss": 1.0362,
      "step": 2047
    },
    {
      "epoch": 0.1257251603793855,
      "grad_norm": 0.6365464156394199,
      "learning_rate": 1.952338532813729e-05,
      "loss": 1.0689,
      "step": 2048
    },
    {
      "epoch": 0.125786549617852,
      "grad_norm": 0.6770039193881284,
      "learning_rate": 1.952277860742017e-05,
      "loss": 1.1256,
      "step": 2049
    },
    {
      "epoch": 0.12584793885631848,
      "grad_norm": 0.6533187751291486,
      "learning_rate": 1.9522171510216677e-05,
      "loss": 1.0591,
      "step": 2050
    },
    {
      "epoch": 0.12590932809478497,
      "grad_norm": 0.6010333759536537,
      "learning_rate": 1.9521564036550818e-05,
      "loss": 1.0053,
      "step": 2051
    },
    {
      "epoch": 0.1259707173332515,
      "grad_norm": 0.5743317252618152,
      "learning_rate": 1.9520956186446607e-05,
      "loss": 0.9774,
      "step": 2052
    },
    {
      "epoch": 0.12603210657171798,
      "grad_norm": 0.6539444189677168,
      "learning_rate": 1.9520347959928075e-05,
      "loss": 1.0488,
      "step": 2053
    },
    {
      "epoch": 0.12609349581018447,
      "grad_norm": 0.6077204459002038,
      "learning_rate": 1.9519739357019273e-05,
      "loss": 1.0315,
      "step": 2054
    },
    {
      "epoch": 0.12615488504865097,
      "grad_norm": 0.61623526872307,
      "learning_rate": 1.9519130377744256e-05,
      "loss": 1.044,
      "step": 2055
    },
    {
      "epoch": 0.12621627428711746,
      "grad_norm": 0.6742412415408119,
      "learning_rate": 1.9518521022127106e-05,
      "loss": 1.0327,
      "step": 2056
    },
    {
      "epoch": 0.12627766352558398,
      "grad_norm": 0.6739909383384154,
      "learning_rate": 1.951791129019191e-05,
      "loss": 1.0672,
      "step": 2057
    },
    {
      "epoch": 0.12633905276405047,
      "grad_norm": 0.6483211476281605,
      "learning_rate": 1.9517301181962775e-05,
      "loss": 1.1065,
      "step": 2058
    },
    {
      "epoch": 0.12640044200251696,
      "grad_norm": 0.6361133538692608,
      "learning_rate": 1.9516690697463824e-05,
      "loss": 1.0197,
      "step": 2059
    },
    {
      "epoch": 0.12646183124098345,
      "grad_norm": 0.6890175679601748,
      "learning_rate": 1.951607983671919e-05,
      "loss": 1.1196,
      "step": 2060
    },
    {
      "epoch": 0.12652322047944994,
      "grad_norm": 0.6000533514929275,
      "learning_rate": 1.9515468599753024e-05,
      "loss": 1.0472,
      "step": 2061
    },
    {
      "epoch": 0.12658460971791646,
      "grad_norm": 0.8111259012718448,
      "learning_rate": 1.951485698658949e-05,
      "loss": 1.0522,
      "step": 2062
    },
    {
      "epoch": 0.12664599895638295,
      "grad_norm": 0.667433130761097,
      "learning_rate": 1.951424499725277e-05,
      "loss": 1.078,
      "step": 2063
    },
    {
      "epoch": 0.12670738819484945,
      "grad_norm": 0.6414377438699247,
      "learning_rate": 1.9513632631767062e-05,
      "loss": 1.0483,
      "step": 2064
    },
    {
      "epoch": 0.12676877743331594,
      "grad_norm": 0.6119435544361184,
      "learning_rate": 1.9513019890156573e-05,
      "loss": 1.0232,
      "step": 2065
    },
    {
      "epoch": 0.12683016667178243,
      "grad_norm": 0.679539887497363,
      "learning_rate": 1.951240677244553e-05,
      "loss": 1.1017,
      "step": 2066
    },
    {
      "epoch": 0.12689155591024892,
      "grad_norm": 0.7375395080593599,
      "learning_rate": 1.9511793278658172e-05,
      "loss": 1.102,
      "step": 2067
    },
    {
      "epoch": 0.12695294514871544,
      "grad_norm": 0.644973149529972,
      "learning_rate": 1.951117940881875e-05,
      "loss": 1.0562,
      "step": 2068
    },
    {
      "epoch": 0.12701433438718193,
      "grad_norm": 0.7036509117003446,
      "learning_rate": 1.9510565162951538e-05,
      "loss": 0.7843,
      "step": 2069
    },
    {
      "epoch": 0.12707572362564842,
      "grad_norm": 0.7327874885345103,
      "learning_rate": 1.950995054108082e-05,
      "loss": 1.0438,
      "step": 2070
    },
    {
      "epoch": 0.12713711286411492,
      "grad_norm": 0.6687458075195108,
      "learning_rate": 1.950933554323089e-05,
      "loss": 0.9971,
      "step": 2071
    },
    {
      "epoch": 0.1271985021025814,
      "grad_norm": 0.6643841816383422,
      "learning_rate": 1.950872016942607e-05,
      "loss": 1.0465,
      "step": 2072
    },
    {
      "epoch": 0.12725989134104793,
      "grad_norm": 0.6963724684246266,
      "learning_rate": 1.9508104419690685e-05,
      "loss": 1.0786,
      "step": 2073
    },
    {
      "epoch": 0.12732128057951442,
      "grad_norm": 0.6473352590883991,
      "learning_rate": 1.950748829404908e-05,
      "loss": 1.0162,
      "step": 2074
    },
    {
      "epoch": 0.1273826698179809,
      "grad_norm": 0.6614757039084458,
      "learning_rate": 1.9506871792525613e-05,
      "loss": 1.072,
      "step": 2075
    },
    {
      "epoch": 0.1274440590564474,
      "grad_norm": 0.6526528822408899,
      "learning_rate": 1.9506254915144656e-05,
      "loss": 1.025,
      "step": 2076
    },
    {
      "epoch": 0.1275054482949139,
      "grad_norm": 0.6801029288240208,
      "learning_rate": 1.95056376619306e-05,
      "loss": 1.0446,
      "step": 2077
    },
    {
      "epoch": 0.1275668375333804,
      "grad_norm": 0.6555607068878372,
      "learning_rate": 1.950502003290785e-05,
      "loss": 1.0542,
      "step": 2078
    },
    {
      "epoch": 0.1276282267718469,
      "grad_norm": 0.6512722224889482,
      "learning_rate": 1.950440202810082e-05,
      "loss": 1.0675,
      "step": 2079
    },
    {
      "epoch": 0.1276896160103134,
      "grad_norm": 0.6524853487813023,
      "learning_rate": 1.9503783647533945e-05,
      "loss": 1.0743,
      "step": 2080
    },
    {
      "epoch": 0.1277510052487799,
      "grad_norm": 0.7395655526954698,
      "learning_rate": 1.950316489123167e-05,
      "loss": 1.0875,
      "step": 2081
    },
    {
      "epoch": 0.12781239448724638,
      "grad_norm": 0.6504807267527309,
      "learning_rate": 1.950254575921846e-05,
      "loss": 1.0728,
      "step": 2082
    },
    {
      "epoch": 0.12787378372571287,
      "grad_norm": 0.6218228915856724,
      "learning_rate": 1.95019262515188e-05,
      "loss": 1.0689,
      "step": 2083
    },
    {
      "epoch": 0.1279351729641794,
      "grad_norm": 0.6610310944853409,
      "learning_rate": 1.950130636815717e-05,
      "loss": 1.0844,
      "step": 2084
    },
    {
      "epoch": 0.12799656220264588,
      "grad_norm": 0.6147263631358629,
      "learning_rate": 1.950068610915808e-05,
      "loss": 1.0132,
      "step": 2085
    },
    {
      "epoch": 0.12805795144111237,
      "grad_norm": 0.6262660457843078,
      "learning_rate": 1.950006547454606e-05,
      "loss": 1.026,
      "step": 2086
    },
    {
      "epoch": 0.12811934067957886,
      "grad_norm": 0.7002535196223657,
      "learning_rate": 1.949944446434564e-05,
      "loss": 1.064,
      "step": 2087
    },
    {
      "epoch": 0.12818072991804536,
      "grad_norm": 0.700126105624822,
      "learning_rate": 1.9498823078581374e-05,
      "loss": 1.0507,
      "step": 2088
    },
    {
      "epoch": 0.12824211915651187,
      "grad_norm": 0.6260997466547924,
      "learning_rate": 1.949820131727783e-05,
      "loss": 1.0,
      "step": 2089
    },
    {
      "epoch": 0.12830350839497837,
      "grad_norm": 0.6751901816316019,
      "learning_rate": 1.9497579180459584e-05,
      "loss": 1.0438,
      "step": 2090
    },
    {
      "epoch": 0.12836489763344486,
      "grad_norm": 0.6685994315503737,
      "learning_rate": 1.949695666815124e-05,
      "loss": 1.0621,
      "step": 2091
    },
    {
      "epoch": 0.12842628687191135,
      "grad_norm": 0.672683950723216,
      "learning_rate": 1.9496333780377402e-05,
      "loss": 1.0869,
      "step": 2092
    },
    {
      "epoch": 0.12848767611037784,
      "grad_norm": 0.7577951105403329,
      "learning_rate": 1.9495710517162703e-05,
      "loss": 1.108,
      "step": 2093
    },
    {
      "epoch": 0.12854906534884436,
      "grad_norm": 0.6486973130176933,
      "learning_rate": 1.949508687853178e-05,
      "loss": 1.0582,
      "step": 2094
    },
    {
      "epoch": 0.12861045458731085,
      "grad_norm": 0.6702061317790606,
      "learning_rate": 1.949446286450929e-05,
      "loss": 1.0239,
      "step": 2095
    },
    {
      "epoch": 0.12867184382577734,
      "grad_norm": 0.6997079342827043,
      "learning_rate": 1.9493838475119903e-05,
      "loss": 1.0834,
      "step": 2096
    },
    {
      "epoch": 0.12873323306424383,
      "grad_norm": 0.6791542629952094,
      "learning_rate": 1.9493213710388302e-05,
      "loss": 1.0792,
      "step": 2097
    },
    {
      "epoch": 0.12879462230271033,
      "grad_norm": 0.6580507989985408,
      "learning_rate": 1.949258857033919e-05,
      "loss": 1.087,
      "step": 2098
    },
    {
      "epoch": 0.12885601154117682,
      "grad_norm": 0.6003701101526526,
      "learning_rate": 1.949196305499728e-05,
      "loss": 1.0081,
      "step": 2099
    },
    {
      "epoch": 0.12891740077964334,
      "grad_norm": 0.640660802558352,
      "learning_rate": 1.9491337164387308e-05,
      "loss": 1.0343,
      "step": 2100
    },
    {
      "epoch": 0.12897879001810983,
      "grad_norm": 0.6750483250388992,
      "learning_rate": 1.9490710898534014e-05,
      "loss": 1.0764,
      "step": 2101
    },
    {
      "epoch": 0.12904017925657632,
      "grad_norm": 0.6443596388714039,
      "learning_rate": 1.9490084257462157e-05,
      "loss": 0.9988,
      "step": 2102
    },
    {
      "epoch": 0.1291015684950428,
      "grad_norm": 0.6272480451349954,
      "learning_rate": 1.9489457241196517e-05,
      "loss": 1.025,
      "step": 2103
    },
    {
      "epoch": 0.1291629577335093,
      "grad_norm": 0.5871125997096324,
      "learning_rate": 1.9488829849761875e-05,
      "loss": 0.9827,
      "step": 2104
    },
    {
      "epoch": 0.12922434697197582,
      "grad_norm": 0.6664737010904778,
      "learning_rate": 1.948820208318304e-05,
      "loss": 1.0242,
      "step": 2105
    },
    {
      "epoch": 0.12928573621044231,
      "grad_norm": 0.674356661389267,
      "learning_rate": 1.948757394148483e-05,
      "loss": 1.0974,
      "step": 2106
    },
    {
      "epoch": 0.1293471254489088,
      "grad_norm": 0.665112386900836,
      "learning_rate": 1.948694542469208e-05,
      "loss": 1.0726,
      "step": 2107
    },
    {
      "epoch": 0.1294085146873753,
      "grad_norm": 0.6652156841123542,
      "learning_rate": 1.9486316532829637e-05,
      "loss": 1.0928,
      "step": 2108
    },
    {
      "epoch": 0.1294699039258418,
      "grad_norm": 0.7417010539734685,
      "learning_rate": 1.948568726592236e-05,
      "loss": 1.0956,
      "step": 2109
    },
    {
      "epoch": 0.1295312931643083,
      "grad_norm": 0.6232359510746549,
      "learning_rate": 1.948505762399514e-05,
      "loss": 1.0401,
      "step": 2110
    },
    {
      "epoch": 0.1295926824027748,
      "grad_norm": 0.711371729533449,
      "learning_rate": 1.9484427607072857e-05,
      "loss": 1.031,
      "step": 2111
    },
    {
      "epoch": 0.1296540716412413,
      "grad_norm": 0.6006979821406989,
      "learning_rate": 1.948379721518043e-05,
      "loss": 1.0091,
      "step": 2112
    },
    {
      "epoch": 0.12971546087970778,
      "grad_norm": 0.6526035745551062,
      "learning_rate": 1.9483166448342773e-05,
      "loss": 1.0411,
      "step": 2113
    },
    {
      "epoch": 0.12977685011817428,
      "grad_norm": 0.6609910805058397,
      "learning_rate": 1.9482535306584826e-05,
      "loss": 1.0413,
      "step": 2114
    },
    {
      "epoch": 0.1298382393566408,
      "grad_norm": 0.6070660431607634,
      "learning_rate": 1.948190378993154e-05,
      "loss": 0.9822,
      "step": 2115
    },
    {
      "epoch": 0.12989962859510729,
      "grad_norm": 0.7041212627730479,
      "learning_rate": 1.948127189840789e-05,
      "loss": 1.113,
      "step": 2116
    },
    {
      "epoch": 0.12996101783357378,
      "grad_norm": 0.6140348326101174,
      "learning_rate": 1.9480639632038853e-05,
      "loss": 1.0299,
      "step": 2117
    },
    {
      "epoch": 0.13002240707204027,
      "grad_norm": 0.7176202217660693,
      "learning_rate": 1.948000699084942e-05,
      "loss": 1.0869,
      "step": 2118
    },
    {
      "epoch": 0.13008379631050676,
      "grad_norm": 0.6686920445171377,
      "learning_rate": 1.947937397486461e-05,
      "loss": 1.057,
      "step": 2119
    },
    {
      "epoch": 0.13014518554897325,
      "grad_norm": 0.6492011199160097,
      "learning_rate": 1.9478740584109448e-05,
      "loss": 1.0543,
      "step": 2120
    },
    {
      "epoch": 0.13020657478743977,
      "grad_norm": 0.6515146449315571,
      "learning_rate": 1.9478106818608973e-05,
      "loss": 0.8686,
      "step": 2121
    },
    {
      "epoch": 0.13026796402590626,
      "grad_norm": 0.7151488231735574,
      "learning_rate": 1.9477472678388248e-05,
      "loss": 1.1051,
      "step": 2122
    },
    {
      "epoch": 0.13032935326437275,
      "grad_norm": 0.6202841936653359,
      "learning_rate": 1.9476838163472334e-05,
      "loss": 1.0016,
      "step": 2123
    },
    {
      "epoch": 0.13039074250283925,
      "grad_norm": 0.7007846243587591,
      "learning_rate": 1.947620327388632e-05,
      "loss": 1.0607,
      "step": 2124
    },
    {
      "epoch": 0.13045213174130574,
      "grad_norm": 0.66786599048417,
      "learning_rate": 1.9475568009655314e-05,
      "loss": 1.0283,
      "step": 2125
    },
    {
      "epoch": 0.13051352097977226,
      "grad_norm": 0.6752579092686591,
      "learning_rate": 1.9474932370804424e-05,
      "loss": 1.0591,
      "step": 2126
    },
    {
      "epoch": 0.13057491021823875,
      "grad_norm": 0.6471198555094931,
      "learning_rate": 1.947429635735878e-05,
      "loss": 1.0529,
      "step": 2127
    },
    {
      "epoch": 0.13063629945670524,
      "grad_norm": 0.6529137199251183,
      "learning_rate": 1.947365996934353e-05,
      "loss": 1.0542,
      "step": 2128
    },
    {
      "epoch": 0.13069768869517173,
      "grad_norm": 0.6463970328278776,
      "learning_rate": 1.9473023206783834e-05,
      "loss": 1.0167,
      "step": 2129
    },
    {
      "epoch": 0.13075907793363822,
      "grad_norm": 0.6515187834690777,
      "learning_rate": 1.9472386069704864e-05,
      "loss": 1.0302,
      "step": 2130
    },
    {
      "epoch": 0.13082046717210474,
      "grad_norm": 0.6987873638233718,
      "learning_rate": 1.9471748558131808e-05,
      "loss": 1.0821,
      "step": 2131
    },
    {
      "epoch": 0.13088185641057123,
      "grad_norm": 0.6675816987404859,
      "learning_rate": 1.9471110672089877e-05,
      "loss": 1.0601,
      "step": 2132
    },
    {
      "epoch": 0.13094324564903773,
      "grad_norm": 0.6676725392695786,
      "learning_rate": 1.9470472411604286e-05,
      "loss": 1.0424,
      "step": 2133
    },
    {
      "epoch": 0.13100463488750422,
      "grad_norm": 0.6304622377712776,
      "learning_rate": 1.9469833776700266e-05,
      "loss": 0.7622,
      "step": 2134
    },
    {
      "epoch": 0.1310660241259707,
      "grad_norm": 0.6788127330235699,
      "learning_rate": 1.9469194767403072e-05,
      "loss": 1.0787,
      "step": 2135
    },
    {
      "epoch": 0.1311274133644372,
      "grad_norm": 0.6516970689418227,
      "learning_rate": 1.9468555383737962e-05,
      "loss": 1.046,
      "step": 2136
    },
    {
      "epoch": 0.13118880260290372,
      "grad_norm": 0.6350619226627289,
      "learning_rate": 1.9467915625730216e-05,
      "loss": 1.0723,
      "step": 2137
    },
    {
      "epoch": 0.1312501918413702,
      "grad_norm": 0.6487062673673677,
      "learning_rate": 1.946727549340513e-05,
      "loss": 1.0431,
      "step": 2138
    },
    {
      "epoch": 0.1313115810798367,
      "grad_norm": 0.6263548821667644,
      "learning_rate": 1.9466634986788007e-05,
      "loss": 0.9991,
      "step": 2139
    },
    {
      "epoch": 0.1313729703183032,
      "grad_norm": 0.6146007580026798,
      "learning_rate": 1.946599410590417e-05,
      "loss": 0.9785,
      "step": 2140
    },
    {
      "epoch": 0.1314343595567697,
      "grad_norm": 0.6023828819442926,
      "learning_rate": 1.946535285077896e-05,
      "loss": 0.8244,
      "step": 2141
    },
    {
      "epoch": 0.1314957487952362,
      "grad_norm": 0.725689595805044,
      "learning_rate": 1.946471122143773e-05,
      "loss": 1.086,
      "step": 2142
    },
    {
      "epoch": 0.1315571380337027,
      "grad_norm": 0.6505690344672251,
      "learning_rate": 1.946406921790584e-05,
      "loss": 1.0014,
      "step": 2143
    },
    {
      "epoch": 0.1316185272721692,
      "grad_norm": 0.6667481021316803,
      "learning_rate": 1.9463426840208682e-05,
      "loss": 1.0258,
      "step": 2144
    },
    {
      "epoch": 0.13167991651063568,
      "grad_norm": 0.6272068186175093,
      "learning_rate": 1.946278408837164e-05,
      "loss": 1.0506,
      "step": 2145
    },
    {
      "epoch": 0.13174130574910217,
      "grad_norm": 0.620079722438038,
      "learning_rate": 1.946214096242014e-05,
      "loss": 0.9876,
      "step": 2146
    },
    {
      "epoch": 0.1318026949875687,
      "grad_norm": 0.6173501323983864,
      "learning_rate": 1.9461497462379597e-05,
      "loss": 1.0293,
      "step": 2147
    },
    {
      "epoch": 0.13186408422603518,
      "grad_norm": 0.6374617121486531,
      "learning_rate": 1.9460853588275454e-05,
      "loss": 1.0498,
      "step": 2148
    },
    {
      "epoch": 0.13192547346450167,
      "grad_norm": 0.6117761260400422,
      "learning_rate": 1.9460209340133173e-05,
      "loss": 1.0301,
      "step": 2149
    },
    {
      "epoch": 0.13198686270296817,
      "grad_norm": 0.6112529200269715,
      "learning_rate": 1.9459564717978215e-05,
      "loss": 1.0517,
      "step": 2150
    },
    {
      "epoch": 0.13204825194143466,
      "grad_norm": 0.6688563486412807,
      "learning_rate": 1.945891972183607e-05,
      "loss": 1.0241,
      "step": 2151
    },
    {
      "epoch": 0.13210964117990118,
      "grad_norm": 0.6933640257202425,
      "learning_rate": 1.9458274351732243e-05,
      "loss": 1.1008,
      "step": 2152
    },
    {
      "epoch": 0.13217103041836767,
      "grad_norm": 0.6221057229500788,
      "learning_rate": 1.9457628607692243e-05,
      "loss": 1.026,
      "step": 2153
    },
    {
      "epoch": 0.13223241965683416,
      "grad_norm": 0.6076559426493027,
      "learning_rate": 1.9456982489741603e-05,
      "loss": 0.7251,
      "step": 2154
    },
    {
      "epoch": 0.13229380889530065,
      "grad_norm": 0.7030745118245655,
      "learning_rate": 1.945633599790586e-05,
      "loss": 1.0917,
      "step": 2155
    },
    {
      "epoch": 0.13235519813376714,
      "grad_norm": 0.6835369325369329,
      "learning_rate": 1.9455689132210585e-05,
      "loss": 1.0668,
      "step": 2156
    },
    {
      "epoch": 0.13241658737223364,
      "grad_norm": 0.6735524343905539,
      "learning_rate": 1.9455041892681343e-05,
      "loss": 1.0304,
      "step": 2157
    },
    {
      "epoch": 0.13247797661070015,
      "grad_norm": 0.6496179529211357,
      "learning_rate": 1.9454394279343726e-05,
      "loss": 1.0483,
      "step": 2158
    },
    {
      "epoch": 0.13253936584916665,
      "grad_norm": 0.6614503805631319,
      "learning_rate": 1.9453746292223337e-05,
      "loss": 1.0581,
      "step": 2159
    },
    {
      "epoch": 0.13260075508763314,
      "grad_norm": 0.6002876955567961,
      "learning_rate": 1.9453097931345797e-05,
      "loss": 1.0297,
      "step": 2160
    },
    {
      "epoch": 0.13266214432609963,
      "grad_norm": 0.7015948630000531,
      "learning_rate": 1.9452449196736735e-05,
      "loss": 1.1095,
      "step": 2161
    },
    {
      "epoch": 0.13272353356456612,
      "grad_norm": 0.6595062859783177,
      "learning_rate": 1.9451800088421802e-05,
      "loss": 1.0389,
      "step": 2162
    },
    {
      "epoch": 0.13278492280303264,
      "grad_norm": 0.6193483631259593,
      "learning_rate": 1.945115060642666e-05,
      "loss": 1.04,
      "step": 2163
    },
    {
      "epoch": 0.13284631204149913,
      "grad_norm": 0.8901328150041377,
      "learning_rate": 1.9450500750776987e-05,
      "loss": 1.0553,
      "step": 2164
    },
    {
      "epoch": 0.13290770127996562,
      "grad_norm": 0.5666738126839932,
      "learning_rate": 1.944985052149847e-05,
      "loss": 0.9832,
      "step": 2165
    },
    {
      "epoch": 0.13296909051843211,
      "grad_norm": 0.6214079601731378,
      "learning_rate": 1.9449199918616827e-05,
      "loss": 1.0252,
      "step": 2166
    },
    {
      "epoch": 0.1330304797568986,
      "grad_norm": 0.614878860300171,
      "learning_rate": 1.944854894215777e-05,
      "loss": 0.9829,
      "step": 2167
    },
    {
      "epoch": 0.13309186899536513,
      "grad_norm": 0.6514595770927464,
      "learning_rate": 1.9447897592147038e-05,
      "loss": 1.0355,
      "step": 2168
    },
    {
      "epoch": 0.13315325823383162,
      "grad_norm": 0.6813427735029771,
      "learning_rate": 1.9447245868610385e-05,
      "loss": 1.0722,
      "step": 2169
    },
    {
      "epoch": 0.1332146474722981,
      "grad_norm": 0.6501729505856476,
      "learning_rate": 1.9446593771573572e-05,
      "loss": 1.0596,
      "step": 2170
    },
    {
      "epoch": 0.1332760367107646,
      "grad_norm": 0.6630614215598346,
      "learning_rate": 1.944594130106239e-05,
      "loss": 1.0375,
      "step": 2171
    },
    {
      "epoch": 0.1333374259492311,
      "grad_norm": 0.6087893683313073,
      "learning_rate": 1.944528845710262e-05,
      "loss": 1.0448,
      "step": 2172
    },
    {
      "epoch": 0.13339881518769758,
      "grad_norm": 0.6549616238668505,
      "learning_rate": 1.9444635239720084e-05,
      "loss": 1.053,
      "step": 2173
    },
    {
      "epoch": 0.1334602044261641,
      "grad_norm": 0.6344866614430694,
      "learning_rate": 1.9443981648940605e-05,
      "loss": 1.0713,
      "step": 2174
    },
    {
      "epoch": 0.1335215936646306,
      "grad_norm": 0.6157152267818109,
      "learning_rate": 1.944332768479002e-05,
      "loss": 0.9866,
      "step": 2175
    },
    {
      "epoch": 0.13358298290309709,
      "grad_norm": 0.6391622408258663,
      "learning_rate": 1.9442673347294187e-05,
      "loss": 1.0451,
      "step": 2176
    },
    {
      "epoch": 0.13364437214156358,
      "grad_norm": 0.6814699132829393,
      "learning_rate": 1.9442018636478968e-05,
      "loss": 1.0724,
      "step": 2177
    },
    {
      "epoch": 0.13370576138003007,
      "grad_norm": 0.6685482571648959,
      "learning_rate": 1.944136355237026e-05,
      "loss": 1.0263,
      "step": 2178
    },
    {
      "epoch": 0.1337671506184966,
      "grad_norm": 0.6264214934960247,
      "learning_rate": 1.9440708094993952e-05,
      "loss": 0.973,
      "step": 2179
    },
    {
      "epoch": 0.13382853985696308,
      "grad_norm": 0.6520027661203299,
      "learning_rate": 1.944005226437596e-05,
      "loss": 1.0205,
      "step": 2180
    },
    {
      "epoch": 0.13388992909542957,
      "grad_norm": 0.6626773374761099,
      "learning_rate": 1.9439396060542213e-05,
      "loss": 1.0336,
      "step": 2181
    },
    {
      "epoch": 0.13395131833389606,
      "grad_norm": 0.6624782916849483,
      "learning_rate": 1.9438739483518655e-05,
      "loss": 1.0504,
      "step": 2182
    },
    {
      "epoch": 0.13401270757236255,
      "grad_norm": 0.6438527195511329,
      "learning_rate": 1.9438082533331243e-05,
      "loss": 0.9969,
      "step": 2183
    },
    {
      "epoch": 0.13407409681082907,
      "grad_norm": 0.6442771545239769,
      "learning_rate": 1.9437425210005946e-05,
      "loss": 1.079,
      "step": 2184
    },
    {
      "epoch": 0.13413548604929557,
      "grad_norm": 0.6947137107443355,
      "learning_rate": 1.943676751356876e-05,
      "loss": 1.1211,
      "step": 2185
    },
    {
      "epoch": 0.13419687528776206,
      "grad_norm": 0.6907134920789729,
      "learning_rate": 1.9436109444045686e-05,
      "loss": 1.0684,
      "step": 2186
    },
    {
      "epoch": 0.13425826452622855,
      "grad_norm": 0.6891377446006857,
      "learning_rate": 1.943545100146273e-05,
      "loss": 1.0656,
      "step": 2187
    },
    {
      "epoch": 0.13431965376469504,
      "grad_norm": 0.6547380977225008,
      "learning_rate": 1.9434792185845937e-05,
      "loss": 1.0207,
      "step": 2188
    },
    {
      "epoch": 0.13438104300316153,
      "grad_norm": 0.6454762455541797,
      "learning_rate": 1.9434132997221347e-05,
      "loss": 1.0449,
      "step": 2189
    },
    {
      "epoch": 0.13444243224162805,
      "grad_norm": 0.6807179625306878,
      "learning_rate": 1.9433473435615024e-05,
      "loss": 1.0235,
      "step": 2190
    },
    {
      "epoch": 0.13450382148009454,
      "grad_norm": 0.6557628371544373,
      "learning_rate": 1.943281350105304e-05,
      "loss": 1.0858,
      "step": 2191
    },
    {
      "epoch": 0.13456521071856103,
      "grad_norm": 0.5867408147046542,
      "learning_rate": 1.9432153193561487e-05,
      "loss": 1.0186,
      "step": 2192
    },
    {
      "epoch": 0.13462659995702753,
      "grad_norm": 0.5758243057803611,
      "learning_rate": 1.943149251316647e-05,
      "loss": 0.996,
      "step": 2193
    },
    {
      "epoch": 0.13468798919549402,
      "grad_norm": 0.6697319610368605,
      "learning_rate": 1.9430831459894115e-05,
      "loss": 1.0644,
      "step": 2194
    },
    {
      "epoch": 0.13474937843396054,
      "grad_norm": 0.6634455361952204,
      "learning_rate": 1.9430170033770553e-05,
      "loss": 1.0655,
      "step": 2195
    },
    {
      "epoch": 0.13481076767242703,
      "grad_norm": 0.6775993623865675,
      "learning_rate": 1.9429508234821934e-05,
      "loss": 1.0799,
      "step": 2196
    },
    {
      "epoch": 0.13487215691089352,
      "grad_norm": 0.6204659369107881,
      "learning_rate": 1.9428846063074415e-05,
      "loss": 1.0576,
      "step": 2197
    },
    {
      "epoch": 0.13493354614936,
      "grad_norm": 0.6208501567780712,
      "learning_rate": 1.942818351855419e-05,
      "loss": 1.0015,
      "step": 2198
    },
    {
      "epoch": 0.1349949353878265,
      "grad_norm": 0.6363572816206443,
      "learning_rate": 1.942752060128744e-05,
      "loss": 1.079,
      "step": 2199
    },
    {
      "epoch": 0.13505632462629302,
      "grad_norm": 0.6269875820069688,
      "learning_rate": 1.942685731130038e-05,
      "loss": 1.0407,
      "step": 2200
    },
    {
      "epoch": 0.13511771386475951,
      "grad_norm": 0.664518023798119,
      "learning_rate": 1.9426193648619235e-05,
      "loss": 1.1036,
      "step": 2201
    },
    {
      "epoch": 0.135179103103226,
      "grad_norm": 0.6683080855772929,
      "learning_rate": 1.9425529613270236e-05,
      "loss": 1.0621,
      "step": 2202
    },
    {
      "epoch": 0.1352404923416925,
      "grad_norm": 0.6376126600745561,
      "learning_rate": 1.9424865205279643e-05,
      "loss": 1.0455,
      "step": 2203
    },
    {
      "epoch": 0.135301881580159,
      "grad_norm": 0.594072775375165,
      "learning_rate": 1.9424200424673723e-05,
      "loss": 0.9777,
      "step": 2204
    },
    {
      "epoch": 0.1353632708186255,
      "grad_norm": 0.6083890993279174,
      "learning_rate": 1.942353527147875e-05,
      "loss": 0.9789,
      "step": 2205
    },
    {
      "epoch": 0.135424660057092,
      "grad_norm": 0.6983657497885034,
      "learning_rate": 1.9422869745721032e-05,
      "loss": 1.1115,
      "step": 2206
    },
    {
      "epoch": 0.1354860492955585,
      "grad_norm": 0.634717050956026,
      "learning_rate": 1.9422203847426872e-05,
      "loss": 1.0248,
      "step": 2207
    },
    {
      "epoch": 0.13554743853402498,
      "grad_norm": 0.7065347287468314,
      "learning_rate": 1.9421537576622603e-05,
      "loss": 1.1015,
      "step": 2208
    },
    {
      "epoch": 0.13560882777249147,
      "grad_norm": 0.6601377448542122,
      "learning_rate": 1.9420870933334563e-05,
      "loss": 1.0954,
      "step": 2209
    },
    {
      "epoch": 0.13567021701095797,
      "grad_norm": 0.6211950253574523,
      "learning_rate": 1.942020391758911e-05,
      "loss": 0.9827,
      "step": 2210
    },
    {
      "epoch": 0.13573160624942449,
      "grad_norm": 0.6756940789162362,
      "learning_rate": 1.9419536529412612e-05,
      "loss": 1.0676,
      "step": 2211
    },
    {
      "epoch": 0.13579299548789098,
      "grad_norm": 0.6603762252846681,
      "learning_rate": 1.9418868768831454e-05,
      "loss": 1.0246,
      "step": 2212
    },
    {
      "epoch": 0.13585438472635747,
      "grad_norm": 0.6531260826185225,
      "learning_rate": 1.941820063587204e-05,
      "loss": 1.0551,
      "step": 2213
    },
    {
      "epoch": 0.13591577396482396,
      "grad_norm": 0.6625499104074294,
      "learning_rate": 1.9417532130560784e-05,
      "loss": 1.0666,
      "step": 2214
    },
    {
      "epoch": 0.13597716320329045,
      "grad_norm": 0.6907996739221449,
      "learning_rate": 1.9416863252924112e-05,
      "loss": 1.0484,
      "step": 2215
    },
    {
      "epoch": 0.13603855244175697,
      "grad_norm": 0.6446160435572101,
      "learning_rate": 1.941619400298847e-05,
      "loss": 1.0275,
      "step": 2216
    },
    {
      "epoch": 0.13609994168022346,
      "grad_norm": 0.6348143880561704,
      "learning_rate": 1.941552438078032e-05,
      "loss": 1.0293,
      "step": 2217
    },
    {
      "epoch": 0.13616133091868995,
      "grad_norm": 0.6133024820716715,
      "learning_rate": 1.941485438632613e-05,
      "loss": 1.0599,
      "step": 2218
    },
    {
      "epoch": 0.13622272015715645,
      "grad_norm": 0.6219468222761804,
      "learning_rate": 1.94141840196524e-05,
      "loss": 1.026,
      "step": 2219
    },
    {
      "epoch": 0.13628410939562294,
      "grad_norm": 0.6491382222372944,
      "learning_rate": 1.941351328078562e-05,
      "loss": 1.0039,
      "step": 2220
    },
    {
      "epoch": 0.13634549863408946,
      "grad_norm": 0.6305406652557549,
      "learning_rate": 1.941284216975231e-05,
      "loss": 1.0617,
      "step": 2221
    },
    {
      "epoch": 0.13640688787255595,
      "grad_norm": 0.6025441335356244,
      "learning_rate": 1.941217068657901e-05,
      "loss": 1.0384,
      "step": 2222
    },
    {
      "epoch": 0.13646827711102244,
      "grad_norm": 0.6900739445758773,
      "learning_rate": 1.9411498831292263e-05,
      "loss": 1.0831,
      "step": 2223
    },
    {
      "epoch": 0.13652966634948893,
      "grad_norm": 0.6346049773965359,
      "learning_rate": 1.9410826603918626e-05,
      "loss": 0.8016,
      "step": 2224
    },
    {
      "epoch": 0.13659105558795542,
      "grad_norm": 0.658803834163219,
      "learning_rate": 1.9410154004484684e-05,
      "loss": 1.0439,
      "step": 2225
    },
    {
      "epoch": 0.13665244482642191,
      "grad_norm": 0.6222874535242581,
      "learning_rate": 1.9409481033017025e-05,
      "loss": 1.0054,
      "step": 2226
    },
    {
      "epoch": 0.13671383406488843,
      "grad_norm": 0.7424513947253568,
      "learning_rate": 1.9408807689542257e-05,
      "loss": 1.0663,
      "step": 2227
    },
    {
      "epoch": 0.13677522330335493,
      "grad_norm": 0.65762540810017,
      "learning_rate": 1.9408133974086997e-05,
      "loss": 1.0514,
      "step": 2228
    },
    {
      "epoch": 0.13683661254182142,
      "grad_norm": 0.6726141888276879,
      "learning_rate": 1.9407459886677885e-05,
      "loss": 1.009,
      "step": 2229
    },
    {
      "epoch": 0.1368980017802879,
      "grad_norm": 0.6581811802252054,
      "learning_rate": 1.9406785427341567e-05,
      "loss": 1.0411,
      "step": 2230
    },
    {
      "epoch": 0.1369593910187544,
      "grad_norm": 0.6127318140542404,
      "learning_rate": 1.940611059610471e-05,
      "loss": 1.0145,
      "step": 2231
    },
    {
      "epoch": 0.13702078025722092,
      "grad_norm": 0.645295216489361,
      "learning_rate": 1.9405435392993995e-05,
      "loss": 1.0204,
      "step": 2232
    },
    {
      "epoch": 0.1370821694956874,
      "grad_norm": 0.6833719439561324,
      "learning_rate": 1.940475981803611e-05,
      "loss": 1.0773,
      "step": 2233
    },
    {
      "epoch": 0.1371435587341539,
      "grad_norm": 0.6990478494770109,
      "learning_rate": 1.9404083871257774e-05,
      "loss": 1.0524,
      "step": 2234
    },
    {
      "epoch": 0.1372049479726204,
      "grad_norm": 0.6357954851483404,
      "learning_rate": 1.940340755268571e-05,
      "loss": 1.014,
      "step": 2235
    },
    {
      "epoch": 0.1372663372110869,
      "grad_norm": 0.6597348725204174,
      "learning_rate": 1.9402730862346647e-05,
      "loss": 0.9976,
      "step": 2236
    },
    {
      "epoch": 0.1373277264495534,
      "grad_norm": 0.6012235255699381,
      "learning_rate": 1.9402053800267343e-05,
      "loss": 1.0001,
      "step": 2237
    },
    {
      "epoch": 0.1373891156880199,
      "grad_norm": 0.6468278678470862,
      "learning_rate": 1.940137636647457e-05,
      "loss": 1.0486,
      "step": 2238
    },
    {
      "epoch": 0.1374505049264864,
      "grad_norm": 0.6437188053718162,
      "learning_rate": 1.9400698560995105e-05,
      "loss": 0.9818,
      "step": 2239
    },
    {
      "epoch": 0.13751189416495288,
      "grad_norm": 0.6999144820427821,
      "learning_rate": 1.9400020383855747e-05,
      "loss": 1.0939,
      "step": 2240
    },
    {
      "epoch": 0.13757328340341937,
      "grad_norm": 0.7085497307684188,
      "learning_rate": 1.939934183508331e-05,
      "loss": 1.069,
      "step": 2241
    },
    {
      "epoch": 0.1376346726418859,
      "grad_norm": 0.6898995433878238,
      "learning_rate": 1.939866291470462e-05,
      "loss": 1.127,
      "step": 2242
    },
    {
      "epoch": 0.13769606188035238,
      "grad_norm": 0.5782490199946504,
      "learning_rate": 1.9397983622746514e-05,
      "loss": 0.9774,
      "step": 2243
    },
    {
      "epoch": 0.13775745111881887,
      "grad_norm": 0.6423922289183048,
      "learning_rate": 1.939730395923585e-05,
      "loss": 1.0642,
      "step": 2244
    },
    {
      "epoch": 0.13781884035728537,
      "grad_norm": 0.6549460018563348,
      "learning_rate": 1.939662392419951e-05,
      "loss": 1.0308,
      "step": 2245
    },
    {
      "epoch": 0.13788022959575186,
      "grad_norm": 0.6382827689970153,
      "learning_rate": 1.9395943517664358e-05,
      "loss": 1.0626,
      "step": 2246
    },
    {
      "epoch": 0.13794161883421835,
      "grad_norm": 0.6326953854345957,
      "learning_rate": 1.939526273965731e-05,
      "loss": 1.0375,
      "step": 2247
    },
    {
      "epoch": 0.13800300807268487,
      "grad_norm": 0.5900955787047674,
      "learning_rate": 1.9394581590205277e-05,
      "loss": 0.9936,
      "step": 2248
    },
    {
      "epoch": 0.13806439731115136,
      "grad_norm": 0.6513993323558223,
      "learning_rate": 1.939390006933519e-05,
      "loss": 1.044,
      "step": 2249
    },
    {
      "epoch": 0.13812578654961785,
      "grad_norm": 0.6499980504719527,
      "learning_rate": 1.9393218177073988e-05,
      "loss": 1.0038,
      "step": 2250
    },
    {
      "epoch": 0.13818717578808434,
      "grad_norm": 0.6405772639446126,
      "learning_rate": 1.9392535913448635e-05,
      "loss": 1.0066,
      "step": 2251
    },
    {
      "epoch": 0.13824856502655083,
      "grad_norm": 0.6492622609968575,
      "learning_rate": 1.93918532784861e-05,
      "loss": 1.0094,
      "step": 2252
    },
    {
      "epoch": 0.13830995426501735,
      "grad_norm": 0.5928286104493238,
      "learning_rate": 1.9391170272213377e-05,
      "loss": 1.0106,
      "step": 2253
    },
    {
      "epoch": 0.13837134350348385,
      "grad_norm": 0.6754880704852047,
      "learning_rate": 1.9390486894657465e-05,
      "loss": 1.0714,
      "step": 2254
    },
    {
      "epoch": 0.13843273274195034,
      "grad_norm": 0.674137574956232,
      "learning_rate": 1.9389803145845382e-05,
      "loss": 1.0326,
      "step": 2255
    },
    {
      "epoch": 0.13849412198041683,
      "grad_norm": 0.6659235669905181,
      "learning_rate": 1.9389119025804156e-05,
      "loss": 1.111,
      "step": 2256
    },
    {
      "epoch": 0.13855551121888332,
      "grad_norm": 0.6372324106157625,
      "learning_rate": 1.938843453456084e-05,
      "loss": 1.019,
      "step": 2257
    },
    {
      "epoch": 0.13861690045734984,
      "grad_norm": 0.651213581477942,
      "learning_rate": 1.93877496721425e-05,
      "loss": 1.0322,
      "step": 2258
    },
    {
      "epoch": 0.13867828969581633,
      "grad_norm": 0.6965691754403734,
      "learning_rate": 1.9387064438576205e-05,
      "loss": 1.0411,
      "step": 2259
    },
    {
      "epoch": 0.13873967893428282,
      "grad_norm": 0.6289085787189879,
      "learning_rate": 1.9386378833889043e-05,
      "loss": 1.0069,
      "step": 2260
    },
    {
      "epoch": 0.13880106817274931,
      "grad_norm": 0.6364907382621118,
      "learning_rate": 1.938569285810812e-05,
      "loss": 1.0375,
      "step": 2261
    },
    {
      "epoch": 0.1388624574112158,
      "grad_norm": 0.641646553661949,
      "learning_rate": 1.938500651126057e-05,
      "loss": 1.0329,
      "step": 2262
    },
    {
      "epoch": 0.1389238466496823,
      "grad_norm": 0.6879111027921717,
      "learning_rate": 1.9384319793373514e-05,
      "loss": 1.0758,
      "step": 2263
    },
    {
      "epoch": 0.13898523588814882,
      "grad_norm": 0.6275562945808291,
      "learning_rate": 1.9383632704474103e-05,
      "loss": 1.0668,
      "step": 2264
    },
    {
      "epoch": 0.1390466251266153,
      "grad_norm": 0.6690375791703473,
      "learning_rate": 1.9382945244589505e-05,
      "loss": 1.0222,
      "step": 2265
    },
    {
      "epoch": 0.1391080143650818,
      "grad_norm": 0.6548113482440122,
      "learning_rate": 1.9382257413746902e-05,
      "loss": 1.0591,
      "step": 2266
    },
    {
      "epoch": 0.1391694036035483,
      "grad_norm": 0.6247375175707723,
      "learning_rate": 1.938156921197348e-05,
      "loss": 0.9621,
      "step": 2267
    },
    {
      "epoch": 0.13923079284201478,
      "grad_norm": 0.6903340246420189,
      "learning_rate": 1.9380880639296455e-05,
      "loss": 1.031,
      "step": 2268
    },
    {
      "epoch": 0.1392921820804813,
      "grad_norm": 0.6443621928646522,
      "learning_rate": 1.9380191695743037e-05,
      "loss": 1.0255,
      "step": 2269
    },
    {
      "epoch": 0.1393535713189478,
      "grad_norm": 0.6820883709658864,
      "learning_rate": 1.937950238134048e-05,
      "loss": 1.0797,
      "step": 2270
    },
    {
      "epoch": 0.13941496055741429,
      "grad_norm": 0.6539805239944122,
      "learning_rate": 1.9378812696116028e-05,
      "loss": 1.0261,
      "step": 2271
    },
    {
      "epoch": 0.13947634979588078,
      "grad_norm": 0.6326862559193317,
      "learning_rate": 1.9378122640096947e-05,
      "loss": 0.9882,
      "step": 2272
    },
    {
      "epoch": 0.13953773903434727,
      "grad_norm": 0.7308955449293528,
      "learning_rate": 1.9377432213310522e-05,
      "loss": 1.1125,
      "step": 2273
    },
    {
      "epoch": 0.1395991282728138,
      "grad_norm": 0.6236370850859027,
      "learning_rate": 1.9376741415784045e-05,
      "loss": 1.0015,
      "step": 2274
    },
    {
      "epoch": 0.13966051751128028,
      "grad_norm": 0.6592084072719357,
      "learning_rate": 1.9376050247544832e-05,
      "loss": 1.0261,
      "step": 2275
    },
    {
      "epoch": 0.13972190674974677,
      "grad_norm": 0.6565367782186076,
      "learning_rate": 1.9375358708620204e-05,
      "loss": 1.0355,
      "step": 2276
    },
    {
      "epoch": 0.13978329598821326,
      "grad_norm": 0.6492200799644595,
      "learning_rate": 1.9374666799037505e-05,
      "loss": 1.0476,
      "step": 2277
    },
    {
      "epoch": 0.13984468522667975,
      "grad_norm": 0.6229677490854304,
      "learning_rate": 1.937397451882409e-05,
      "loss": 1.0108,
      "step": 2278
    },
    {
      "epoch": 0.13990607446514625,
      "grad_norm": 0.6900922236968072,
      "learning_rate": 1.937328186800732e-05,
      "loss": 1.1168,
      "step": 2279
    },
    {
      "epoch": 0.13996746370361277,
      "grad_norm": 0.6262160778849483,
      "learning_rate": 1.937258884661459e-05,
      "loss": 0.9801,
      "step": 2280
    },
    {
      "epoch": 0.14002885294207926,
      "grad_norm": 0.695304873081682,
      "learning_rate": 1.9371895454673296e-05,
      "loss": 1.0502,
      "step": 2281
    },
    {
      "epoch": 0.14009024218054575,
      "grad_norm": 0.7213200625313525,
      "learning_rate": 1.9371201692210847e-05,
      "loss": 1.0578,
      "step": 2282
    },
    {
      "epoch": 0.14015163141901224,
      "grad_norm": 0.6503954633632947,
      "learning_rate": 1.937050755925468e-05,
      "loss": 1.0273,
      "step": 2283
    },
    {
      "epoch": 0.14021302065747873,
      "grad_norm": 0.6585088364051558,
      "learning_rate": 1.936981305583223e-05,
      "loss": 1.1302,
      "step": 2284
    },
    {
      "epoch": 0.14027440989594525,
      "grad_norm": 0.6213711365685272,
      "learning_rate": 1.936911818197095e-05,
      "loss": 1.0299,
      "step": 2285
    },
    {
      "epoch": 0.14033579913441174,
      "grad_norm": 0.6326077169952068,
      "learning_rate": 1.9368422937698327e-05,
      "loss": 1.0646,
      "step": 2286
    },
    {
      "epoch": 0.14039718837287823,
      "grad_norm": 0.6109662218018749,
      "learning_rate": 1.9367727323041837e-05,
      "loss": 1.0,
      "step": 2287
    },
    {
      "epoch": 0.14045857761134473,
      "grad_norm": 0.596803261067223,
      "learning_rate": 1.936703133802898e-05,
      "loss": 1.0036,
      "step": 2288
    },
    {
      "epoch": 0.14051996684981122,
      "grad_norm": 0.6547803616950026,
      "learning_rate": 1.936633498268728e-05,
      "loss": 1.0447,
      "step": 2289
    },
    {
      "epoch": 0.14058135608827774,
      "grad_norm": 0.6183101375824617,
      "learning_rate": 1.9365638257044264e-05,
      "loss": 1.0167,
      "step": 2290
    },
    {
      "epoch": 0.14064274532674423,
      "grad_norm": 0.6281680282270098,
      "learning_rate": 1.9364941161127473e-05,
      "loss": 1.0232,
      "step": 2291
    },
    {
      "epoch": 0.14070413456521072,
      "grad_norm": 0.6028063496294621,
      "learning_rate": 1.9364243694964476e-05,
      "loss": 1.051,
      "step": 2292
    },
    {
      "epoch": 0.1407655238036772,
      "grad_norm": 0.616864908244225,
      "learning_rate": 1.9363545858582836e-05,
      "loss": 1.0675,
      "step": 2293
    },
    {
      "epoch": 0.1408269130421437,
      "grad_norm": 0.6367705792105868,
      "learning_rate": 1.9362847652010153e-05,
      "loss": 1.0657,
      "step": 2294
    },
    {
      "epoch": 0.14088830228061022,
      "grad_norm": 0.6909218710729942,
      "learning_rate": 1.9362149075274025e-05,
      "loss": 1.0047,
      "step": 2295
    },
    {
      "epoch": 0.14094969151907671,
      "grad_norm": 0.66362717917607,
      "learning_rate": 1.936145012840207e-05,
      "loss": 1.0313,
      "step": 2296
    },
    {
      "epoch": 0.1410110807575432,
      "grad_norm": 0.6771345092438271,
      "learning_rate": 1.9360750811421923e-05,
      "loss": 1.0362,
      "step": 2297
    },
    {
      "epoch": 0.1410724699960097,
      "grad_norm": 0.6823612962090947,
      "learning_rate": 1.9360051124361236e-05,
      "loss": 1.0811,
      "step": 2298
    },
    {
      "epoch": 0.1411338592344762,
      "grad_norm": 0.6929515957380811,
      "learning_rate": 1.9359351067247662e-05,
      "loss": 1.0504,
      "step": 2299
    },
    {
      "epoch": 0.14119524847294268,
      "grad_norm": 0.6581470685868669,
      "learning_rate": 1.9358650640108888e-05,
      "loss": 1.0063,
      "step": 2300
    },
    {
      "epoch": 0.1412566377114092,
      "grad_norm": 0.7042514062900911,
      "learning_rate": 1.9357949842972597e-05,
      "loss": 1.0849,
      "step": 2301
    },
    {
      "epoch": 0.1413180269498757,
      "grad_norm": 0.6481168177916891,
      "learning_rate": 1.9357248675866497e-05,
      "loss": 1.0554,
      "step": 2302
    },
    {
      "epoch": 0.14137941618834218,
      "grad_norm": 0.6913609515019165,
      "learning_rate": 1.9356547138818314e-05,
      "loss": 1.0967,
      "step": 2303
    },
    {
      "epoch": 0.14144080542680867,
      "grad_norm": 0.7015185058693422,
      "learning_rate": 1.9355845231855782e-05,
      "loss": 1.0999,
      "step": 2304
    },
    {
      "epoch": 0.14150219466527517,
      "grad_norm": 0.7144850275195465,
      "learning_rate": 1.9355142955006645e-05,
      "loss": 1.1053,
      "step": 2305
    },
    {
      "epoch": 0.14156358390374169,
      "grad_norm": 0.6053764975504287,
      "learning_rate": 1.9354440308298676e-05,
      "loss": 1.032,
      "step": 2306
    },
    {
      "epoch": 0.14162497314220818,
      "grad_norm": 0.6713284550598371,
      "learning_rate": 1.935373729175965e-05,
      "loss": 1.0563,
      "step": 2307
    },
    {
      "epoch": 0.14168636238067467,
      "grad_norm": 0.6682658739768413,
      "learning_rate": 1.935303390541736e-05,
      "loss": 1.0412,
      "step": 2308
    },
    {
      "epoch": 0.14174775161914116,
      "grad_norm": 0.6502411013348062,
      "learning_rate": 1.9352330149299613e-05,
      "loss": 1.0411,
      "step": 2309
    },
    {
      "epoch": 0.14180914085760765,
      "grad_norm": 0.66948587139552,
      "learning_rate": 1.935162602343424e-05,
      "loss": 0.9934,
      "step": 2310
    },
    {
      "epoch": 0.14187053009607417,
      "grad_norm": 0.6856081953649383,
      "learning_rate": 1.9350921527849075e-05,
      "loss": 1.0393,
      "step": 2311
    },
    {
      "epoch": 0.14193191933454066,
      "grad_norm": 0.6664375290642277,
      "learning_rate": 1.9350216662571967e-05,
      "loss": 1.0334,
      "step": 2312
    },
    {
      "epoch": 0.14199330857300715,
      "grad_norm": 0.6447116415191673,
      "learning_rate": 1.9349511427630785e-05,
      "loss": 1.0121,
      "step": 2313
    },
    {
      "epoch": 0.14205469781147365,
      "grad_norm": 0.6023764792427241,
      "learning_rate": 1.9348805823053415e-05,
      "loss": 0.9814,
      "step": 2314
    },
    {
      "epoch": 0.14211608704994014,
      "grad_norm": 0.6323605633650967,
      "learning_rate": 1.934809984886775e-05,
      "loss": 1.0585,
      "step": 2315
    },
    {
      "epoch": 0.14217747628840663,
      "grad_norm": 0.6101933215850548,
      "learning_rate": 1.9347393505101696e-05,
      "loss": 1.005,
      "step": 2316
    },
    {
      "epoch": 0.14223886552687315,
      "grad_norm": 0.6288097347032535,
      "learning_rate": 1.9346686791783188e-05,
      "loss": 1.0185,
      "step": 2317
    },
    {
      "epoch": 0.14230025476533964,
      "grad_norm": 0.6972876379537799,
      "learning_rate": 1.934597970894016e-05,
      "loss": 1.0414,
      "step": 2318
    },
    {
      "epoch": 0.14236164400380613,
      "grad_norm": 0.6725521669054308,
      "learning_rate": 1.9345272256600567e-05,
      "loss": 1.0485,
      "step": 2319
    },
    {
      "epoch": 0.14242303324227262,
      "grad_norm": 0.6931894470880194,
      "learning_rate": 1.9344564434792382e-05,
      "loss": 0.9975,
      "step": 2320
    },
    {
      "epoch": 0.14248442248073911,
      "grad_norm": 0.6846145546466801,
      "learning_rate": 1.9343856243543584e-05,
      "loss": 1.0516,
      "step": 2321
    },
    {
      "epoch": 0.14254581171920563,
      "grad_norm": 0.6561077667575634,
      "learning_rate": 1.9343147682882177e-05,
      "loss": 1.0545,
      "step": 2322
    },
    {
      "epoch": 0.14260720095767213,
      "grad_norm": 0.6616453079609981,
      "learning_rate": 1.934243875283617e-05,
      "loss": 1.088,
      "step": 2323
    },
    {
      "epoch": 0.14266859019613862,
      "grad_norm": 0.5956046225354135,
      "learning_rate": 1.934172945343359e-05,
      "loss": 1.0387,
      "step": 2324
    },
    {
      "epoch": 0.1427299794346051,
      "grad_norm": 0.6122330649544179,
      "learning_rate": 1.9341019784702485e-05,
      "loss": 0.9896,
      "step": 2325
    },
    {
      "epoch": 0.1427913686730716,
      "grad_norm": 0.6871743079324415,
      "learning_rate": 1.9340309746670907e-05,
      "loss": 1.0412,
      "step": 2326
    },
    {
      "epoch": 0.14285275791153812,
      "grad_norm": 0.7819279491642153,
      "learning_rate": 1.9339599339366933e-05,
      "loss": 1.0409,
      "step": 2327
    },
    {
      "epoch": 0.1429141471500046,
      "grad_norm": 0.6540173218681172,
      "learning_rate": 1.933888856281864e-05,
      "loss": 1.0373,
      "step": 2328
    },
    {
      "epoch": 0.1429755363884711,
      "grad_norm": 0.6702614072855673,
      "learning_rate": 1.9338177417054135e-05,
      "loss": 0.9919,
      "step": 2329
    },
    {
      "epoch": 0.1430369256269376,
      "grad_norm": 0.6481742711486255,
      "learning_rate": 1.9337465902101534e-05,
      "loss": 1.0125,
      "step": 2330
    },
    {
      "epoch": 0.14309831486540409,
      "grad_norm": 0.7263701289438785,
      "learning_rate": 1.933675401798897e-05,
      "loss": 1.0937,
      "step": 2331
    },
    {
      "epoch": 0.1431597041038706,
      "grad_norm": 0.6823287681559965,
      "learning_rate": 1.933604176474458e-05,
      "loss": 1.0498,
      "step": 2332
    },
    {
      "epoch": 0.1432210933423371,
      "grad_norm": 0.66993767382102,
      "learning_rate": 1.9335329142396522e-05,
      "loss": 1.0621,
      "step": 2333
    },
    {
      "epoch": 0.1432824825808036,
      "grad_norm": 0.6776445596386246,
      "learning_rate": 1.9334616150972977e-05,
      "loss": 1.1161,
      "step": 2334
    },
    {
      "epoch": 0.14334387181927008,
      "grad_norm": 0.6475955495783515,
      "learning_rate": 1.933390279050213e-05,
      "loss": 1.0294,
      "step": 2335
    },
    {
      "epoch": 0.14340526105773657,
      "grad_norm": 0.6304683101304341,
      "learning_rate": 1.9333189061012186e-05,
      "loss": 1.026,
      "step": 2336
    },
    {
      "epoch": 0.14346665029620306,
      "grad_norm": 0.6205596982269116,
      "learning_rate": 1.9332474962531362e-05,
      "loss": 1.0359,
      "step": 2337
    },
    {
      "epoch": 0.14352803953466958,
      "grad_norm": 0.5926670739984975,
      "learning_rate": 1.933176049508789e-05,
      "loss": 0.9859,
      "step": 2338
    },
    {
      "epoch": 0.14358942877313607,
      "grad_norm": 0.6445204492999345,
      "learning_rate": 1.933104565871001e-05,
      "loss": 1.0546,
      "step": 2339
    },
    {
      "epoch": 0.14365081801160257,
      "grad_norm": 0.5845130614865603,
      "learning_rate": 1.9330330453425995e-05,
      "loss": 1.0095,
      "step": 2340
    },
    {
      "epoch": 0.14371220725006906,
      "grad_norm": 0.5808018302247066,
      "learning_rate": 1.932961487926411e-05,
      "loss": 0.9743,
      "step": 2341
    },
    {
      "epoch": 0.14377359648853555,
      "grad_norm": 0.6553888919962648,
      "learning_rate": 1.9328898936252654e-05,
      "loss": 1.045,
      "step": 2342
    },
    {
      "epoch": 0.14383498572700207,
      "grad_norm": 0.6349243024558245,
      "learning_rate": 1.932818262441993e-05,
      "loss": 1.0481,
      "step": 2343
    },
    {
      "epoch": 0.14389637496546856,
      "grad_norm": 0.6359221063887937,
      "learning_rate": 1.9327465943794252e-05,
      "loss": 1.0501,
      "step": 2344
    },
    {
      "epoch": 0.14395776420393505,
      "grad_norm": 0.6377346289914488,
      "learning_rate": 1.9326748894403963e-05,
      "loss": 1.0364,
      "step": 2345
    },
    {
      "epoch": 0.14401915344240154,
      "grad_norm": 0.6798724581539481,
      "learning_rate": 1.9326031476277403e-05,
      "loss": 1.0746,
      "step": 2346
    },
    {
      "epoch": 0.14408054268086803,
      "grad_norm": 0.6540643076827193,
      "learning_rate": 1.932531368944294e-05,
      "loss": 0.9784,
      "step": 2347
    },
    {
      "epoch": 0.14414193191933455,
      "grad_norm": 0.6057577140872974,
      "learning_rate": 1.9324595533928954e-05,
      "loss": 1.0739,
      "step": 2348
    },
    {
      "epoch": 0.14420332115780105,
      "grad_norm": 0.6160726018960525,
      "learning_rate": 1.9323877009763834e-05,
      "loss": 1.0029,
      "step": 2349
    },
    {
      "epoch": 0.14426471039626754,
      "grad_norm": 0.6886544254602401,
      "learning_rate": 1.932315811697599e-05,
      "loss": 1.0849,
      "step": 2350
    },
    {
      "epoch": 0.14432609963473403,
      "grad_norm": 0.6674566988006292,
      "learning_rate": 1.932243885559384e-05,
      "loss": 0.8033,
      "step": 2351
    },
    {
      "epoch": 0.14438748887320052,
      "grad_norm": 0.663545936413544,
      "learning_rate": 1.932171922564582e-05,
      "loss": 1.0617,
      "step": 2352
    },
    {
      "epoch": 0.144448878111667,
      "grad_norm": 0.6731292027788266,
      "learning_rate": 1.9320999227160387e-05,
      "loss": 1.072,
      "step": 2353
    },
    {
      "epoch": 0.14451026735013353,
      "grad_norm": 0.6715843447683376,
      "learning_rate": 1.9320278860166e-05,
      "loss": 1.0679,
      "step": 2354
    },
    {
      "epoch": 0.14457165658860002,
      "grad_norm": 0.6433241569142086,
      "learning_rate": 1.9319558124691143e-05,
      "loss": 1.0135,
      "step": 2355
    },
    {
      "epoch": 0.14463304582706651,
      "grad_norm": 0.6535007965105676,
      "learning_rate": 1.9318837020764305e-05,
      "loss": 1.0369,
      "step": 2356
    },
    {
      "epoch": 0.144694435065533,
      "grad_norm": 0.6571644403977026,
      "learning_rate": 1.9318115548414004e-05,
      "loss": 1.0314,
      "step": 2357
    },
    {
      "epoch": 0.1447558243039995,
      "grad_norm": 0.6306870439305933,
      "learning_rate": 1.9317393707668753e-05,
      "loss": 1.0413,
      "step": 2358
    },
    {
      "epoch": 0.14481721354246602,
      "grad_norm": 0.6290860493088216,
      "learning_rate": 1.9316671498557103e-05,
      "loss": 1.0355,
      "step": 2359
    },
    {
      "epoch": 0.1448786027809325,
      "grad_norm": 0.638249507247941,
      "learning_rate": 1.9315948921107592e-05,
      "loss": 1.0769,
      "step": 2360
    },
    {
      "epoch": 0.144939992019399,
      "grad_norm": 0.629256278740197,
      "learning_rate": 1.9315225975348802e-05,
      "loss": 1.0735,
      "step": 2361
    },
    {
      "epoch": 0.1450013812578655,
      "grad_norm": 0.7800287347082454,
      "learning_rate": 1.9314502661309303e-05,
      "loss": 1.1336,
      "step": 2362
    },
    {
      "epoch": 0.14506277049633198,
      "grad_norm": 0.6356694074874728,
      "learning_rate": 1.93137789790177e-05,
      "loss": 1.0627,
      "step": 2363
    },
    {
      "epoch": 0.1451241597347985,
      "grad_norm": 0.6849058221794181,
      "learning_rate": 1.9313054928502596e-05,
      "loss": 1.0881,
      "step": 2364
    },
    {
      "epoch": 0.145185548973265,
      "grad_norm": 0.6570944004280659,
      "learning_rate": 1.9312330509792624e-05,
      "loss": 1.0385,
      "step": 2365
    },
    {
      "epoch": 0.14524693821173149,
      "grad_norm": 0.6452845802432047,
      "learning_rate": 1.931160572291642e-05,
      "loss": 0.9829,
      "step": 2366
    },
    {
      "epoch": 0.14530832745019798,
      "grad_norm": 0.6982431743203388,
      "learning_rate": 1.931088056790264e-05,
      "loss": 1.0546,
      "step": 2367
    },
    {
      "epoch": 0.14536971668866447,
      "grad_norm": 0.6713951083556193,
      "learning_rate": 1.9310155044779952e-05,
      "loss": 1.0362,
      "step": 2368
    },
    {
      "epoch": 0.14543110592713096,
      "grad_norm": 0.6653154005403199,
      "learning_rate": 1.9309429153577042e-05,
      "loss": 1.0719,
      "step": 2369
    },
    {
      "epoch": 0.14549249516559748,
      "grad_norm": 0.6338169062289775,
      "learning_rate": 1.9308702894322606e-05,
      "loss": 0.973,
      "step": 2370
    },
    {
      "epoch": 0.14555388440406397,
      "grad_norm": 0.6053837461534213,
      "learning_rate": 1.930797626704536e-05,
      "loss": 1.0343,
      "step": 2371
    },
    {
      "epoch": 0.14561527364253046,
      "grad_norm": 0.6433854172302838,
      "learning_rate": 1.9307249271774032e-05,
      "loss": 1.0033,
      "step": 2372
    },
    {
      "epoch": 0.14567666288099695,
      "grad_norm": 0.6045276246447674,
      "learning_rate": 1.9306521908537358e-05,
      "loss": 0.993,
      "step": 2373
    },
    {
      "epoch": 0.14573805211946345,
      "grad_norm": 0.6783018172868627,
      "learning_rate": 1.93057941773641e-05,
      "loss": 1.0135,
      "step": 2374
    },
    {
      "epoch": 0.14579944135792997,
      "grad_norm": 0.6940095465676364,
      "learning_rate": 1.9305066078283025e-05,
      "loss": 1.08,
      "step": 2375
    },
    {
      "epoch": 0.14586083059639646,
      "grad_norm": 0.6238155298808882,
      "learning_rate": 1.9304337611322918e-05,
      "loss": 1.0525,
      "step": 2376
    },
    {
      "epoch": 0.14592221983486295,
      "grad_norm": 0.6410576015233653,
      "learning_rate": 1.9303608776512587e-05,
      "loss": 1.0189,
      "step": 2377
    },
    {
      "epoch": 0.14598360907332944,
      "grad_norm": 0.7109379430428798,
      "learning_rate": 1.930287957388084e-05,
      "loss": 1.046,
      "step": 2378
    },
    {
      "epoch": 0.14604499831179593,
      "grad_norm": 0.6066614296783172,
      "learning_rate": 1.9302150003456514e-05,
      "loss": 1.0096,
      "step": 2379
    },
    {
      "epoch": 0.14610638755026245,
      "grad_norm": 0.5909292954019603,
      "learning_rate": 1.9301420065268438e-05,
      "loss": 0.9462,
      "step": 2380
    },
    {
      "epoch": 0.14616777678872894,
      "grad_norm": 0.627638932260758,
      "learning_rate": 1.9300689759345484e-05,
      "loss": 1.0534,
      "step": 2381
    },
    {
      "epoch": 0.14622916602719543,
      "grad_norm": 0.6441422028132846,
      "learning_rate": 1.929995908571652e-05,
      "loss": 1.0604,
      "step": 2382
    },
    {
      "epoch": 0.14629055526566193,
      "grad_norm": 0.7156595771651351,
      "learning_rate": 1.9299228044410435e-05,
      "loss": 1.1011,
      "step": 2383
    },
    {
      "epoch": 0.14635194450412842,
      "grad_norm": 0.6579397991522339,
      "learning_rate": 1.929849663545613e-05,
      "loss": 1.0477,
      "step": 2384
    },
    {
      "epoch": 0.14641333374259494,
      "grad_norm": 0.6587045299578047,
      "learning_rate": 1.9297764858882516e-05,
      "loss": 1.0805,
      "step": 2385
    },
    {
      "epoch": 0.14647472298106143,
      "grad_norm": 0.6595577225258167,
      "learning_rate": 1.929703271471853e-05,
      "loss": 1.0544,
      "step": 2386
    },
    {
      "epoch": 0.14653611221952792,
      "grad_norm": 0.660747942359393,
      "learning_rate": 1.929630020299312e-05,
      "loss": 1.0563,
      "step": 2387
    },
    {
      "epoch": 0.1465975014579944,
      "grad_norm": 0.6320154112368621,
      "learning_rate": 1.9295567323735242e-05,
      "loss": 1.0136,
      "step": 2388
    },
    {
      "epoch": 0.1466588906964609,
      "grad_norm": 0.6253506358269086,
      "learning_rate": 1.9294834076973872e-05,
      "loss": 1.0513,
      "step": 2389
    },
    {
      "epoch": 0.1467202799349274,
      "grad_norm": 0.6327102782599977,
      "learning_rate": 1.9294100462737998e-05,
      "loss": 1.0175,
      "step": 2390
    },
    {
      "epoch": 0.1467816691733939,
      "grad_norm": 0.602075271008103,
      "learning_rate": 1.9293366481056622e-05,
      "loss": 1.017,
      "step": 2391
    },
    {
      "epoch": 0.1468430584118604,
      "grad_norm": 0.6851148169117821,
      "learning_rate": 1.9292632131958768e-05,
      "loss": 1.0736,
      "step": 2392
    },
    {
      "epoch": 0.1469044476503269,
      "grad_norm": 0.6565177902033571,
      "learning_rate": 1.9291897415473465e-05,
      "loss": 1.0738,
      "step": 2393
    },
    {
      "epoch": 0.1469658368887934,
      "grad_norm": 0.6052802458321247,
      "learning_rate": 1.9291162331629762e-05,
      "loss": 0.9577,
      "step": 2394
    },
    {
      "epoch": 0.14702722612725988,
      "grad_norm": 0.6278929239560069,
      "learning_rate": 1.9290426880456717e-05,
      "loss": 1.0062,
      "step": 2395
    },
    {
      "epoch": 0.1470886153657264,
      "grad_norm": 0.6277293682541475,
      "learning_rate": 1.928969106198341e-05,
      "loss": 1.0206,
      "step": 2396
    },
    {
      "epoch": 0.1471500046041929,
      "grad_norm": 0.655246727763989,
      "learning_rate": 1.9288954876238926e-05,
      "loss": 1.0695,
      "step": 2397
    },
    {
      "epoch": 0.14721139384265938,
      "grad_norm": 0.6390645019158971,
      "learning_rate": 1.9288218323252383e-05,
      "loss": 1.0221,
      "step": 2398
    },
    {
      "epoch": 0.14727278308112587,
      "grad_norm": 0.6302813540178421,
      "learning_rate": 1.9287481403052885e-05,
      "loss": 1.0025,
      "step": 2399
    },
    {
      "epoch": 0.14733417231959237,
      "grad_norm": 0.6518334207179535,
      "learning_rate": 1.928674411566958e-05,
      "loss": 1.0263,
      "step": 2400
    },
    {
      "epoch": 0.14739556155805889,
      "grad_norm": 0.6209104615455299,
      "learning_rate": 1.928600646113161e-05,
      "loss": 0.995,
      "step": 2401
    },
    {
      "epoch": 0.14745695079652538,
      "grad_norm": 0.6668128204398558,
      "learning_rate": 1.9285268439468136e-05,
      "loss": 1.0127,
      "step": 2402
    },
    {
      "epoch": 0.14751834003499187,
      "grad_norm": 0.6634109537633233,
      "learning_rate": 1.9284530050708342e-05,
      "loss": 1.0456,
      "step": 2403
    },
    {
      "epoch": 0.14757972927345836,
      "grad_norm": 0.6640036349556786,
      "learning_rate": 1.9283791294881417e-05,
      "loss": 1.0218,
      "step": 2404
    },
    {
      "epoch": 0.14764111851192485,
      "grad_norm": 0.6805937862926167,
      "learning_rate": 1.9283052172016566e-05,
      "loss": 1.0484,
      "step": 2405
    },
    {
      "epoch": 0.14770250775039134,
      "grad_norm": 0.6186736798148632,
      "learning_rate": 1.928231268214302e-05,
      "loss": 1.0218,
      "step": 2406
    },
    {
      "epoch": 0.14776389698885786,
      "grad_norm": 0.6807421076699329,
      "learning_rate": 1.9281572825290003e-05,
      "loss": 1.0627,
      "step": 2407
    },
    {
      "epoch": 0.14782528622732435,
      "grad_norm": 0.6399102266088456,
      "learning_rate": 1.9280832601486774e-05,
      "loss": 1.0095,
      "step": 2408
    },
    {
      "epoch": 0.14788667546579085,
      "grad_norm": 0.6498464381597284,
      "learning_rate": 1.9280092010762597e-05,
      "loss": 1.0042,
      "step": 2409
    },
    {
      "epoch": 0.14794806470425734,
      "grad_norm": 0.6071735452217789,
      "learning_rate": 1.9279351053146747e-05,
      "loss": 0.7962,
      "step": 2410
    },
    {
      "epoch": 0.14800945394272383,
      "grad_norm": 0.7047233875994636,
      "learning_rate": 1.927860972866852e-05,
      "loss": 1.0316,
      "step": 2411
    },
    {
      "epoch": 0.14807084318119035,
      "grad_norm": 0.702765874880503,
      "learning_rate": 1.9277868037357222e-05,
      "loss": 1.0734,
      "step": 2412
    },
    {
      "epoch": 0.14813223241965684,
      "grad_norm": 0.6468098960655514,
      "learning_rate": 1.9277125979242184e-05,
      "loss": 1.0186,
      "step": 2413
    },
    {
      "epoch": 0.14819362165812333,
      "grad_norm": 0.6651082004558513,
      "learning_rate": 1.9276383554352734e-05,
      "loss": 1.0363,
      "step": 2414
    },
    {
      "epoch": 0.14825501089658982,
      "grad_norm": 0.6579135946163679,
      "learning_rate": 1.9275640762718232e-05,
      "loss": 1.0669,
      "step": 2415
    },
    {
      "epoch": 0.14831640013505631,
      "grad_norm": 0.6126934713698816,
      "learning_rate": 1.927489760436804e-05,
      "loss": 1.0093,
      "step": 2416
    },
    {
      "epoch": 0.14837778937352283,
      "grad_norm": 0.6412259285551705,
      "learning_rate": 1.927415407933154e-05,
      "loss": 0.9936,
      "step": 2417
    },
    {
      "epoch": 0.14843917861198933,
      "grad_norm": 0.6730368884938452,
      "learning_rate": 1.9273410187638125e-05,
      "loss": 1.0217,
      "step": 2418
    },
    {
      "epoch": 0.14850056785045582,
      "grad_norm": 0.6693668370734419,
      "learning_rate": 1.927266592931721e-05,
      "loss": 1.0687,
      "step": 2419
    },
    {
      "epoch": 0.1485619570889223,
      "grad_norm": 0.650047908052238,
      "learning_rate": 1.927192130439822e-05,
      "loss": 1.0753,
      "step": 2420
    },
    {
      "epoch": 0.1486233463273888,
      "grad_norm": 0.6269173578773531,
      "learning_rate": 1.9271176312910587e-05,
      "loss": 0.9929,
      "step": 2421
    },
    {
      "epoch": 0.14868473556585532,
      "grad_norm": 0.6356216507367236,
      "learning_rate": 1.927043095488377e-05,
      "loss": 1.0376,
      "step": 2422
    },
    {
      "epoch": 0.1487461248043218,
      "grad_norm": 0.6401202461879223,
      "learning_rate": 1.9269685230347234e-05,
      "loss": 1.0056,
      "step": 2423
    },
    {
      "epoch": 0.1488075140427883,
      "grad_norm": 0.6346389015477599,
      "learning_rate": 1.9268939139330463e-05,
      "loss": 1.0297,
      "step": 2424
    },
    {
      "epoch": 0.1488689032812548,
      "grad_norm": 0.6377432624279178,
      "learning_rate": 1.9268192681862957e-05,
      "loss": 1.0695,
      "step": 2425
    },
    {
      "epoch": 0.14893029251972129,
      "grad_norm": 0.6372496416904702,
      "learning_rate": 1.9267445857974225e-05,
      "loss": 1.0726,
      "step": 2426
    },
    {
      "epoch": 0.14899168175818778,
      "grad_norm": 0.6189406978440664,
      "learning_rate": 1.926669866769379e-05,
      "loss": 0.9593,
      "step": 2427
    },
    {
      "epoch": 0.1490530709966543,
      "grad_norm": 0.611720740433777,
      "learning_rate": 1.9265951111051194e-05,
      "loss": 1.0339,
      "step": 2428
    },
    {
      "epoch": 0.1491144602351208,
      "grad_norm": 0.6310598775839716,
      "learning_rate": 1.9265203188075997e-05,
      "loss": 1.0141,
      "step": 2429
    },
    {
      "epoch": 0.14917584947358728,
      "grad_norm": 0.6279817005719708,
      "learning_rate": 1.926445489879776e-05,
      "loss": 1.0343,
      "step": 2430
    },
    {
      "epoch": 0.14923723871205377,
      "grad_norm": 0.696365619127072,
      "learning_rate": 1.9263706243246073e-05,
      "loss": 1.0848,
      "step": 2431
    },
    {
      "epoch": 0.14929862795052026,
      "grad_norm": 0.6195660700914934,
      "learning_rate": 1.926295722145053e-05,
      "loss": 1.0277,
      "step": 2432
    },
    {
      "epoch": 0.14936001718898678,
      "grad_norm": 0.5911753997530943,
      "learning_rate": 1.9262207833440748e-05,
      "loss": 0.9712,
      "step": 2433
    },
    {
      "epoch": 0.14942140642745327,
      "grad_norm": 0.6779061873220399,
      "learning_rate": 1.9261458079246353e-05,
      "loss": 1.0901,
      "step": 2434
    },
    {
      "epoch": 0.14948279566591977,
      "grad_norm": 0.6927854000759354,
      "learning_rate": 1.9260707958896986e-05,
      "loss": 1.0803,
      "step": 2435
    },
    {
      "epoch": 0.14954418490438626,
      "grad_norm": 0.6333155131170419,
      "learning_rate": 1.9259957472422304e-05,
      "loss": 1.029,
      "step": 2436
    },
    {
      "epoch": 0.14960557414285275,
      "grad_norm": 0.6974510809706622,
      "learning_rate": 1.925920661985198e-05,
      "loss": 1.0581,
      "step": 2437
    },
    {
      "epoch": 0.14966696338131927,
      "grad_norm": 0.6701319884929049,
      "learning_rate": 1.925845540121569e-05,
      "loss": 1.0283,
      "step": 2438
    },
    {
      "epoch": 0.14972835261978576,
      "grad_norm": 0.6743968706001552,
      "learning_rate": 1.9257703816543144e-05,
      "loss": 1.0703,
      "step": 2439
    },
    {
      "epoch": 0.14978974185825225,
      "grad_norm": 0.6425737419616216,
      "learning_rate": 1.9256951865864053e-05,
      "loss": 1.0446,
      "step": 2440
    },
    {
      "epoch": 0.14985113109671874,
      "grad_norm": 0.6484724514688185,
      "learning_rate": 1.9256199549208144e-05,
      "loss": 1.0528,
      "step": 2441
    },
    {
      "epoch": 0.14991252033518523,
      "grad_norm": 0.6547239539464281,
      "learning_rate": 1.9255446866605163e-05,
      "loss": 1.0228,
      "step": 2442
    },
    {
      "epoch": 0.14997390957365173,
      "grad_norm": 0.6637224570656284,
      "learning_rate": 1.9254693818084866e-05,
      "loss": 1.0169,
      "step": 2443
    },
    {
      "epoch": 0.15003529881211825,
      "grad_norm": 0.6249180008774116,
      "learning_rate": 1.9253940403677022e-05,
      "loss": 1.0343,
      "step": 2444
    },
    {
      "epoch": 0.15009668805058474,
      "grad_norm": 0.6562338172204573,
      "learning_rate": 1.925318662341142e-05,
      "loss": 1.04,
      "step": 2445
    },
    {
      "epoch": 0.15015807728905123,
      "grad_norm": 0.6199174354095517,
      "learning_rate": 1.9252432477317865e-05,
      "loss": 1.0153,
      "step": 2446
    },
    {
      "epoch": 0.15021946652751772,
      "grad_norm": 0.6360506857566449,
      "learning_rate": 1.9251677965426165e-05,
      "loss": 1.0266,
      "step": 2447
    },
    {
      "epoch": 0.1502808557659842,
      "grad_norm": 0.6214418987374133,
      "learning_rate": 1.9250923087766154e-05,
      "loss": 1.0479,
      "step": 2448
    },
    {
      "epoch": 0.15034224500445073,
      "grad_norm": 0.6115725352946305,
      "learning_rate": 1.925016784436768e-05,
      "loss": 0.9672,
      "step": 2449
    },
    {
      "epoch": 0.15040363424291722,
      "grad_norm": 0.6731278917408156,
      "learning_rate": 1.924941223526059e-05,
      "loss": 1.073,
      "step": 2450
    },
    {
      "epoch": 0.15046502348138371,
      "grad_norm": 0.6244920230771589,
      "learning_rate": 1.924865626047477e-05,
      "loss": 1.0052,
      "step": 2451
    },
    {
      "epoch": 0.1505264127198502,
      "grad_norm": 0.6445673677105549,
      "learning_rate": 1.9247899920040106e-05,
      "loss": 1.0543,
      "step": 2452
    },
    {
      "epoch": 0.1505878019583167,
      "grad_norm": 0.5764353963692432,
      "learning_rate": 1.924714321398649e-05,
      "loss": 0.9867,
      "step": 2453
    },
    {
      "epoch": 0.15064919119678322,
      "grad_norm": 0.6474909568729634,
      "learning_rate": 1.924638614234385e-05,
      "loss": 1.0385,
      "step": 2454
    },
    {
      "epoch": 0.1507105804352497,
      "grad_norm": 0.6189734309957735,
      "learning_rate": 1.9245628705142115e-05,
      "loss": 1.0215,
      "step": 2455
    },
    {
      "epoch": 0.1507719696737162,
      "grad_norm": 0.62086384817658,
      "learning_rate": 1.9244870902411223e-05,
      "loss": 0.9961,
      "step": 2456
    },
    {
      "epoch": 0.1508333589121827,
      "grad_norm": 0.6300865746605275,
      "learning_rate": 1.9244112734181142e-05,
      "loss": 1.0345,
      "step": 2457
    },
    {
      "epoch": 0.15089474815064918,
      "grad_norm": 0.7140649758420746,
      "learning_rate": 1.924335420048184e-05,
      "loss": 1.0595,
      "step": 2458
    },
    {
      "epoch": 0.15095613738911567,
      "grad_norm": 0.6206539497349078,
      "learning_rate": 1.9242595301343315e-05,
      "loss": 0.9936,
      "step": 2459
    },
    {
      "epoch": 0.1510175266275822,
      "grad_norm": 0.6489424216029159,
      "learning_rate": 1.924183603679556e-05,
      "loss": 1.0525,
      "step": 2460
    },
    {
      "epoch": 0.15107891586604869,
      "grad_norm": 0.6399027467719576,
      "learning_rate": 1.92410764068686e-05,
      "loss": 1.038,
      "step": 2461
    },
    {
      "epoch": 0.15114030510451518,
      "grad_norm": 0.6889756589934453,
      "learning_rate": 1.9240316411592465e-05,
      "loss": 1.0556,
      "step": 2462
    },
    {
      "epoch": 0.15120169434298167,
      "grad_norm": 0.6368540484494133,
      "learning_rate": 1.9239556050997202e-05,
      "loss": 1.0219,
      "step": 2463
    },
    {
      "epoch": 0.15126308358144816,
      "grad_norm": 0.6447937798047026,
      "learning_rate": 1.9238795325112867e-05,
      "loss": 1.0635,
      "step": 2464
    },
    {
      "epoch": 0.15132447281991468,
      "grad_norm": 0.6660321689784777,
      "learning_rate": 1.9238034233969546e-05,
      "loss": 1.0637,
      "step": 2465
    },
    {
      "epoch": 0.15138586205838117,
      "grad_norm": 0.6222145929732695,
      "learning_rate": 1.9237272777597323e-05,
      "loss": 1.0212,
      "step": 2466
    },
    {
      "epoch": 0.15144725129684766,
      "grad_norm": 0.6159183895422791,
      "learning_rate": 1.92365109560263e-05,
      "loss": 0.9929,
      "step": 2467
    },
    {
      "epoch": 0.15150864053531415,
      "grad_norm": 0.6127214921332468,
      "learning_rate": 1.92357487692866e-05,
      "loss": 1.0726,
      "step": 2468
    },
    {
      "epoch": 0.15157002977378065,
      "grad_norm": 0.5963466436248287,
      "learning_rate": 1.9234986217408353e-05,
      "loss": 0.9471,
      "step": 2469
    },
    {
      "epoch": 0.15163141901224717,
      "grad_norm": 0.6546875693950513,
      "learning_rate": 1.923422330042171e-05,
      "loss": 1.0718,
      "step": 2470
    },
    {
      "epoch": 0.15169280825071366,
      "grad_norm": 0.6193969567033092,
      "learning_rate": 1.9233460018356832e-05,
      "loss": 0.9844,
      "step": 2471
    },
    {
      "epoch": 0.15175419748918015,
      "grad_norm": 0.6027826921015089,
      "learning_rate": 1.9232696371243894e-05,
      "loss": 1.0296,
      "step": 2472
    },
    {
      "epoch": 0.15181558672764664,
      "grad_norm": 0.6559732893515976,
      "learning_rate": 1.923193235911309e-05,
      "loss": 1.0277,
      "step": 2473
    },
    {
      "epoch": 0.15187697596611313,
      "grad_norm": 0.6244244633910031,
      "learning_rate": 1.9231167981994626e-05,
      "loss": 1.0233,
      "step": 2474
    },
    {
      "epoch": 0.15193836520457965,
      "grad_norm": 0.6283498213465613,
      "learning_rate": 1.9230403239918714e-05,
      "loss": 1.0032,
      "step": 2475
    },
    {
      "epoch": 0.15199975444304614,
      "grad_norm": 0.5762757687926916,
      "learning_rate": 1.9229638132915604e-05,
      "loss": 1.0073,
      "step": 2476
    },
    {
      "epoch": 0.15206114368151263,
      "grad_norm": 0.6780632947049265,
      "learning_rate": 1.9228872661015528e-05,
      "loss": 1.0743,
      "step": 2477
    },
    {
      "epoch": 0.15212253291997913,
      "grad_norm": 0.6696270739123714,
      "learning_rate": 1.9228106824248757e-05,
      "loss": 1.0312,
      "step": 2478
    },
    {
      "epoch": 0.15218392215844562,
      "grad_norm": 0.58305788625824,
      "learning_rate": 1.9227340622645565e-05,
      "loss": 1.0281,
      "step": 2479
    },
    {
      "epoch": 0.1522453113969121,
      "grad_norm": 0.624255556481392,
      "learning_rate": 1.922657405623625e-05,
      "loss": 0.9879,
      "step": 2480
    },
    {
      "epoch": 0.15230670063537863,
      "grad_norm": 0.6281130763567945,
      "learning_rate": 1.9225807125051117e-05,
      "loss": 1.017,
      "step": 2481
    },
    {
      "epoch": 0.15236808987384512,
      "grad_norm": 0.6907080777597226,
      "learning_rate": 1.922503982912048e-05,
      "loss": 1.0239,
      "step": 2482
    },
    {
      "epoch": 0.1524294791123116,
      "grad_norm": 0.6373765629523243,
      "learning_rate": 1.9224272168474685e-05,
      "loss": 1.0071,
      "step": 2483
    },
    {
      "epoch": 0.1524908683507781,
      "grad_norm": 0.7103134672994211,
      "learning_rate": 1.9223504143144076e-05,
      "loss": 1.1042,
      "step": 2484
    },
    {
      "epoch": 0.1525522575892446,
      "grad_norm": 0.621732585583175,
      "learning_rate": 1.9222735753159017e-05,
      "loss": 1.0349,
      "step": 2485
    },
    {
      "epoch": 0.1526136468277111,
      "grad_norm": 0.6084248642846694,
      "learning_rate": 1.9221966998549886e-05,
      "loss": 1.0108,
      "step": 2486
    },
    {
      "epoch": 0.1526750360661776,
      "grad_norm": 0.6483614950031915,
      "learning_rate": 1.9221197879347078e-05,
      "loss": 1.0347,
      "step": 2487
    },
    {
      "epoch": 0.1527364253046441,
      "grad_norm": 0.5810643062380396,
      "learning_rate": 1.9220428395580998e-05,
      "loss": 0.9835,
      "step": 2488
    },
    {
      "epoch": 0.1527978145431106,
      "grad_norm": 0.631647701171471,
      "learning_rate": 1.921965854728207e-05,
      "loss": 1.0657,
      "step": 2489
    },
    {
      "epoch": 0.15285920378157708,
      "grad_norm": 0.6474445794446856,
      "learning_rate": 1.9218888334480728e-05,
      "loss": 1.047,
      "step": 2490
    },
    {
      "epoch": 0.1529205930200436,
      "grad_norm": 0.6436122482374141,
      "learning_rate": 1.9218117757207425e-05,
      "loss": 1.0411,
      "step": 2491
    },
    {
      "epoch": 0.1529819822585101,
      "grad_norm": 0.619166672344626,
      "learning_rate": 1.9217346815492624e-05,
      "loss": 1.0719,
      "step": 2492
    },
    {
      "epoch": 0.15304337149697658,
      "grad_norm": 0.7075599009696333,
      "learning_rate": 1.9216575509366807e-05,
      "loss": 1.0697,
      "step": 2493
    },
    {
      "epoch": 0.15310476073544307,
      "grad_norm": 0.6446631130293198,
      "learning_rate": 1.9215803838860467e-05,
      "loss": 1.0392,
      "step": 2494
    },
    {
      "epoch": 0.15316614997390957,
      "grad_norm": 0.6260718885155114,
      "learning_rate": 1.921503180400411e-05,
      "loss": 1.0084,
      "step": 2495
    },
    {
      "epoch": 0.15322753921237606,
      "grad_norm": 0.6553232295425512,
      "learning_rate": 1.921425940482826e-05,
      "loss": 1.0567,
      "step": 2496
    },
    {
      "epoch": 0.15328892845084258,
      "grad_norm": 0.7110263003530105,
      "learning_rate": 1.9213486641363458e-05,
      "loss": 1.065,
      "step": 2497
    },
    {
      "epoch": 0.15335031768930907,
      "grad_norm": 0.6364807766488042,
      "learning_rate": 1.921271351364025e-05,
      "loss": 1.0064,
      "step": 2498
    },
    {
      "epoch": 0.15341170692777556,
      "grad_norm": 0.6316025354924213,
      "learning_rate": 1.92119400216892e-05,
      "loss": 1.0203,
      "step": 2499
    },
    {
      "epoch": 0.15347309616624205,
      "grad_norm": 0.6602294082849645,
      "learning_rate": 1.9211166165540897e-05,
      "loss": 1.057,
      "step": 2500
    },
    {
      "epoch": 0.15353448540470854,
      "grad_norm": 0.6534693587288308,
      "learning_rate": 1.9210391945225926e-05,
      "loss": 1.0022,
      "step": 2501
    },
    {
      "epoch": 0.15359587464317506,
      "grad_norm": 0.6570657329007846,
      "learning_rate": 1.9209617360774907e-05,
      "loss": 0.995,
      "step": 2502
    },
    {
      "epoch": 0.15365726388164155,
      "grad_norm": 0.6163334799849097,
      "learning_rate": 1.9208842412218453e-05,
      "loss": 1.0305,
      "step": 2503
    },
    {
      "epoch": 0.15371865312010805,
      "grad_norm": 0.6213258001467955,
      "learning_rate": 1.9208067099587205e-05,
      "loss": 1.0136,
      "step": 2504
    },
    {
      "epoch": 0.15378004235857454,
      "grad_norm": 0.6463847489092447,
      "learning_rate": 1.920729142291182e-05,
      "loss": 1.0302,
      "step": 2505
    },
    {
      "epoch": 0.15384143159704103,
      "grad_norm": 0.6731807717125613,
      "learning_rate": 1.920651538222296e-05,
      "loss": 1.078,
      "step": 2506
    },
    {
      "epoch": 0.15390282083550755,
      "grad_norm": 0.6642765220029364,
      "learning_rate": 1.9205738977551308e-05,
      "loss": 1.0723,
      "step": 2507
    },
    {
      "epoch": 0.15396421007397404,
      "grad_norm": 0.6393799926202192,
      "learning_rate": 1.9204962208927557e-05,
      "loss": 1.0507,
      "step": 2508
    },
    {
      "epoch": 0.15402559931244053,
      "grad_norm": 0.8367627995336754,
      "learning_rate": 1.9204185076382416e-05,
      "loss": 1.0892,
      "step": 2509
    },
    {
      "epoch": 0.15408698855090702,
      "grad_norm": 0.6295288930644514,
      "learning_rate": 1.9203407579946612e-05,
      "loss": 0.9659,
      "step": 2510
    },
    {
      "epoch": 0.15414837778937351,
      "grad_norm": 0.615895791242721,
      "learning_rate": 1.920262971965089e-05,
      "loss": 1.0085,
      "step": 2511
    },
    {
      "epoch": 0.15420976702784003,
      "grad_norm": 0.6386700861188382,
      "learning_rate": 1.9201851495525986e-05,
      "loss": 1.0399,
      "step": 2512
    },
    {
      "epoch": 0.15427115626630653,
      "grad_norm": 0.6577068919823692,
      "learning_rate": 1.9201072907602683e-05,
      "loss": 1.0578,
      "step": 2513
    },
    {
      "epoch": 0.15433254550477302,
      "grad_norm": 0.6112803966344444,
      "learning_rate": 1.920029395591176e-05,
      "loss": 0.9857,
      "step": 2514
    },
    {
      "epoch": 0.1543939347432395,
      "grad_norm": 0.6660750154783138,
      "learning_rate": 1.9199514640484003e-05,
      "loss": 1.0115,
      "step": 2515
    },
    {
      "epoch": 0.154455323981706,
      "grad_norm": 0.6273573204939784,
      "learning_rate": 1.9198734961350234e-05,
      "loss": 1.0114,
      "step": 2516
    },
    {
      "epoch": 0.1545167132201725,
      "grad_norm": 0.6446281370806977,
      "learning_rate": 1.9197954918541274e-05,
      "loss": 1.0209,
      "step": 2517
    },
    {
      "epoch": 0.154578102458639,
      "grad_norm": 0.6699496081150669,
      "learning_rate": 1.9197174512087963e-05,
      "loss": 1.0258,
      "step": 2518
    },
    {
      "epoch": 0.1546394916971055,
      "grad_norm": 0.6800244142520903,
      "learning_rate": 1.919639374202115e-05,
      "loss": 1.0664,
      "step": 2519
    },
    {
      "epoch": 0.154700880935572,
      "grad_norm": 0.6644577930518119,
      "learning_rate": 1.9195612608371706e-05,
      "loss": 1.0592,
      "step": 2520
    },
    {
      "epoch": 0.15476227017403849,
      "grad_norm": 0.6379908590372313,
      "learning_rate": 1.919483111117052e-05,
      "loss": 1.0119,
      "step": 2521
    },
    {
      "epoch": 0.15482365941250498,
      "grad_norm": 0.6000857472825883,
      "learning_rate": 1.9194049250448476e-05,
      "loss": 1.0241,
      "step": 2522
    },
    {
      "epoch": 0.1548850486509715,
      "grad_norm": 0.6359924728161246,
      "learning_rate": 1.9193267026236494e-05,
      "loss": 1.0391,
      "step": 2523
    },
    {
      "epoch": 0.154946437889438,
      "grad_norm": 0.6617950864261968,
      "learning_rate": 1.91924844385655e-05,
      "loss": 1.0347,
      "step": 2524
    },
    {
      "epoch": 0.15500782712790448,
      "grad_norm": 0.6703366265295848,
      "learning_rate": 1.919170148746643e-05,
      "loss": 1.0368,
      "step": 2525
    },
    {
      "epoch": 0.15506921636637097,
      "grad_norm": 0.6590705475596182,
      "learning_rate": 1.919091817297024e-05,
      "loss": 1.037,
      "step": 2526
    },
    {
      "epoch": 0.15513060560483746,
      "grad_norm": 0.6341817616896445,
      "learning_rate": 1.9190134495107896e-05,
      "loss": 1.0345,
      "step": 2527
    },
    {
      "epoch": 0.15519199484330398,
      "grad_norm": 0.6546096618641609,
      "learning_rate": 1.9189350453910384e-05,
      "loss": 1.0161,
      "step": 2528
    },
    {
      "epoch": 0.15525338408177047,
      "grad_norm": 0.6941723291679252,
      "learning_rate": 1.91885660494087e-05,
      "loss": 1.0392,
      "step": 2529
    },
    {
      "epoch": 0.15531477332023697,
      "grad_norm": 0.5907351675258543,
      "learning_rate": 1.9187781281633858e-05,
      "loss": 0.9611,
      "step": 2530
    },
    {
      "epoch": 0.15537616255870346,
      "grad_norm": 0.6441608302808493,
      "learning_rate": 1.918699615061688e-05,
      "loss": 1.0162,
      "step": 2531
    },
    {
      "epoch": 0.15543755179716995,
      "grad_norm": 0.6359108566480507,
      "learning_rate": 1.918621065638881e-05,
      "loss": 0.9916,
      "step": 2532
    },
    {
      "epoch": 0.15549894103563644,
      "grad_norm": 0.5907911323695956,
      "learning_rate": 1.9185424798980704e-05,
      "loss": 1.0101,
      "step": 2533
    },
    {
      "epoch": 0.15556033027410296,
      "grad_norm": 0.6957567391485657,
      "learning_rate": 1.9184638578423624e-05,
      "loss": 1.071,
      "step": 2534
    },
    {
      "epoch": 0.15562171951256945,
      "grad_norm": 0.6326362898421383,
      "learning_rate": 1.918385199474866e-05,
      "loss": 0.9638,
      "step": 2535
    },
    {
      "epoch": 0.15568310875103594,
      "grad_norm": 0.670801720434077,
      "learning_rate": 1.9183065047986907e-05,
      "loss": 1.0455,
      "step": 2536
    },
    {
      "epoch": 0.15574449798950243,
      "grad_norm": 0.6733113516190349,
      "learning_rate": 1.918227773816948e-05,
      "loss": 1.059,
      "step": 2537
    },
    {
      "epoch": 0.15580588722796893,
      "grad_norm": 0.6128712804764592,
      "learning_rate": 1.9181490065327503e-05,
      "loss": 1.0084,
      "step": 2538
    },
    {
      "epoch": 0.15586727646643544,
      "grad_norm": 0.682865424102996,
      "learning_rate": 1.9180702029492118e-05,
      "loss": 1.0622,
      "step": 2539
    },
    {
      "epoch": 0.15592866570490194,
      "grad_norm": 0.5747028664851611,
      "learning_rate": 1.917991363069448e-05,
      "loss": 0.9836,
      "step": 2540
    },
    {
      "epoch": 0.15599005494336843,
      "grad_norm": 0.755414397662838,
      "learning_rate": 1.9179124868965757e-05,
      "loss": 1.02,
      "step": 2541
    },
    {
      "epoch": 0.15605144418183492,
      "grad_norm": 0.6080501417879874,
      "learning_rate": 1.9178335744337136e-05,
      "loss": 1.0519,
      "step": 2542
    },
    {
      "epoch": 0.1561128334203014,
      "grad_norm": 0.5969565766044141,
      "learning_rate": 1.9177546256839814e-05,
      "loss": 1.0135,
      "step": 2543
    },
    {
      "epoch": 0.15617422265876793,
      "grad_norm": 0.598444880042539,
      "learning_rate": 1.9176756406505e-05,
      "loss": 1.037,
      "step": 2544
    },
    {
      "epoch": 0.15623561189723442,
      "grad_norm": 0.6213073503632384,
      "learning_rate": 1.917596619336393e-05,
      "loss": 1.0155,
      "step": 2545
    },
    {
      "epoch": 0.1562970011357009,
      "grad_norm": 0.6663129233902283,
      "learning_rate": 1.9175175617447835e-05,
      "loss": 1.0226,
      "step": 2546
    },
    {
      "epoch": 0.1563583903741674,
      "grad_norm": 0.6606357777054739,
      "learning_rate": 1.917438467878798e-05,
      "loss": 1.0271,
      "step": 2547
    },
    {
      "epoch": 0.1564197796126339,
      "grad_norm": 0.6088438987097228,
      "learning_rate": 1.9173593377415628e-05,
      "loss": 1.0163,
      "step": 2548
    },
    {
      "epoch": 0.1564811688511004,
      "grad_norm": 0.5894715389721634,
      "learning_rate": 1.9172801713362064e-05,
      "loss": 0.9922,
      "step": 2549
    },
    {
      "epoch": 0.1565425580895669,
      "grad_norm": 0.6001566041468879,
      "learning_rate": 1.9172009686658592e-05,
      "loss": 0.9733,
      "step": 2550
    },
    {
      "epoch": 0.1566039473280334,
      "grad_norm": 0.6568133342091976,
      "learning_rate": 1.917121729733652e-05,
      "loss": 1.045,
      "step": 2551
    },
    {
      "epoch": 0.1566653365664999,
      "grad_norm": 0.6650556057939729,
      "learning_rate": 1.917042454542718e-05,
      "loss": 1.0334,
      "step": 2552
    },
    {
      "epoch": 0.15672672580496638,
      "grad_norm": 0.6338415615333536,
      "learning_rate": 1.916963143096191e-05,
      "loss": 1.0453,
      "step": 2553
    },
    {
      "epoch": 0.15678811504343287,
      "grad_norm": 0.6619149688050149,
      "learning_rate": 1.9168837953972063e-05,
      "loss": 1.0938,
      "step": 2554
    },
    {
      "epoch": 0.1568495042818994,
      "grad_norm": 0.6974505726002352,
      "learning_rate": 1.9168044114489016e-05,
      "loss": 1.0088,
      "step": 2555
    },
    {
      "epoch": 0.15691089352036589,
      "grad_norm": 0.705299986459603,
      "learning_rate": 1.916724991254415e-05,
      "loss": 1.1002,
      "step": 2556
    },
    {
      "epoch": 0.15697228275883238,
      "grad_norm": 0.670132466392121,
      "learning_rate": 1.916645534816887e-05,
      "loss": 1.0591,
      "step": 2557
    },
    {
      "epoch": 0.15703367199729887,
      "grad_norm": 0.668817458723396,
      "learning_rate": 1.9165660421394577e-05,
      "loss": 1.0667,
      "step": 2558
    },
    {
      "epoch": 0.15709506123576536,
      "grad_norm": 0.6593441038942227,
      "learning_rate": 1.916486513225271e-05,
      "loss": 0.993,
      "step": 2559
    },
    {
      "epoch": 0.15715645047423188,
      "grad_norm": 0.6264871447521456,
      "learning_rate": 1.916406948077471e-05,
      "loss": 1.0015,
      "step": 2560
    },
    {
      "epoch": 0.15721783971269837,
      "grad_norm": 0.637097069484657,
      "learning_rate": 1.916327346699202e-05,
      "loss": 0.9976,
      "step": 2561
    },
    {
      "epoch": 0.15727922895116486,
      "grad_norm": 0.6523321799522896,
      "learning_rate": 1.9162477090936134e-05,
      "loss": 1.0619,
      "step": 2562
    },
    {
      "epoch": 0.15734061818963135,
      "grad_norm": 0.6651026604889475,
      "learning_rate": 1.916168035263852e-05,
      "loss": 1.0231,
      "step": 2563
    },
    {
      "epoch": 0.15740200742809785,
      "grad_norm": 0.6429583848162784,
      "learning_rate": 1.9160883252130678e-05,
      "loss": 1.07,
      "step": 2564
    },
    {
      "epoch": 0.15746339666656436,
      "grad_norm": 0.6521050818115032,
      "learning_rate": 1.9160085789444128e-05,
      "loss": 1.0003,
      "step": 2565
    },
    {
      "epoch": 0.15752478590503086,
      "grad_norm": 0.6314909949503192,
      "learning_rate": 1.9159287964610393e-05,
      "loss": 1.004,
      "step": 2566
    },
    {
      "epoch": 0.15758617514349735,
      "grad_norm": 0.5983625969981717,
      "learning_rate": 1.915848977766102e-05,
      "loss": 0.9322,
      "step": 2567
    },
    {
      "epoch": 0.15764756438196384,
      "grad_norm": 0.6025567192144956,
      "learning_rate": 1.9157691228627562e-05,
      "loss": 0.9786,
      "step": 2568
    },
    {
      "epoch": 0.15770895362043033,
      "grad_norm": 0.632879206366799,
      "learning_rate": 1.915689231754159e-05,
      "loss": 1.0347,
      "step": 2569
    },
    {
      "epoch": 0.15777034285889682,
      "grad_norm": 0.6501821272865458,
      "learning_rate": 1.9156093044434693e-05,
      "loss": 1.0499,
      "step": 2570
    },
    {
      "epoch": 0.15783173209736334,
      "grad_norm": 0.635305543621918,
      "learning_rate": 1.9155293409338464e-05,
      "loss": 1.0515,
      "step": 2571
    },
    {
      "epoch": 0.15789312133582983,
      "grad_norm": 0.647220373549265,
      "learning_rate": 1.9154493412284524e-05,
      "loss": 1.0599,
      "step": 2572
    },
    {
      "epoch": 0.15795451057429633,
      "grad_norm": 0.6751889208264031,
      "learning_rate": 1.9153693053304495e-05,
      "loss": 1.0521,
      "step": 2573
    },
    {
      "epoch": 0.15801589981276282,
      "grad_norm": 0.6430156188539489,
      "learning_rate": 1.9152892332430026e-05,
      "loss": 0.983,
      "step": 2574
    },
    {
      "epoch": 0.1580772890512293,
      "grad_norm": 0.6433874635395674,
      "learning_rate": 1.9152091249692764e-05,
      "loss": 1.0694,
      "step": 2575
    },
    {
      "epoch": 0.15813867828969583,
      "grad_norm": 0.7464205256144203,
      "learning_rate": 1.915128980512439e-05,
      "loss": 1.0275,
      "step": 2576
    },
    {
      "epoch": 0.15820006752816232,
      "grad_norm": 0.6824171286551738,
      "learning_rate": 1.9150487998756586e-05,
      "loss": 1.0373,
      "step": 2577
    },
    {
      "epoch": 0.1582614567666288,
      "grad_norm": 0.6401155542135448,
      "learning_rate": 1.914968583062105e-05,
      "loss": 1.0598,
      "step": 2578
    },
    {
      "epoch": 0.1583228460050953,
      "grad_norm": 0.6639588267276691,
      "learning_rate": 1.9148883300749496e-05,
      "loss": 1.0315,
      "step": 2579
    },
    {
      "epoch": 0.1583842352435618,
      "grad_norm": 0.6645909724116391,
      "learning_rate": 1.9148080409173657e-05,
      "loss": 1.0216,
      "step": 2580
    },
    {
      "epoch": 0.1584456244820283,
      "grad_norm": 0.6682301326881921,
      "learning_rate": 1.914727715592527e-05,
      "loss": 1.0272,
      "step": 2581
    },
    {
      "epoch": 0.1585070137204948,
      "grad_norm": 0.6545804509249772,
      "learning_rate": 1.914647354103609e-05,
      "loss": 1.0806,
      "step": 2582
    },
    {
      "epoch": 0.1585684029589613,
      "grad_norm": 0.6075697549028327,
      "learning_rate": 1.91456695645379e-05,
      "loss": 1.0203,
      "step": 2583
    },
    {
      "epoch": 0.1586297921974278,
      "grad_norm": 0.6213649050719771,
      "learning_rate": 1.9144865226462473e-05,
      "loss": 0.989,
      "step": 2584
    },
    {
      "epoch": 0.15869118143589428,
      "grad_norm": 0.6116580709642113,
      "learning_rate": 1.9144060526841614e-05,
      "loss": 0.9649,
      "step": 2585
    },
    {
      "epoch": 0.15875257067436077,
      "grad_norm": 0.6724068320889792,
      "learning_rate": 1.9143255465707134e-05,
      "loss": 1.104,
      "step": 2586
    },
    {
      "epoch": 0.1588139599128273,
      "grad_norm": 0.6428622422296018,
      "learning_rate": 1.9142450043090868e-05,
      "loss": 1.0217,
      "step": 2587
    },
    {
      "epoch": 0.15887534915129378,
      "grad_norm": 0.6873212045186732,
      "learning_rate": 1.9141644259024654e-05,
      "loss": 1.0292,
      "step": 2588
    },
    {
      "epoch": 0.15893673838976027,
      "grad_norm": 0.6518719316436413,
      "learning_rate": 1.9140838113540347e-05,
      "loss": 1.0535,
      "step": 2589
    },
    {
      "epoch": 0.15899812762822677,
      "grad_norm": 0.6575831056981831,
      "learning_rate": 1.9140031606669823e-05,
      "loss": 1.0518,
      "step": 2590
    },
    {
      "epoch": 0.15905951686669326,
      "grad_norm": 0.6626655244862663,
      "learning_rate": 1.9139224738444967e-05,
      "loss": 1.0365,
      "step": 2591
    },
    {
      "epoch": 0.15912090610515978,
      "grad_norm": 0.6258337248459328,
      "learning_rate": 1.9138417508897672e-05,
      "loss": 1.0193,
      "step": 2592
    },
    {
      "epoch": 0.15918229534362627,
      "grad_norm": 0.6458415274517721,
      "learning_rate": 1.9137609918059857e-05,
      "loss": 0.997,
      "step": 2593
    },
    {
      "epoch": 0.15924368458209276,
      "grad_norm": 0.6253870529495719,
      "learning_rate": 1.9136801965963456e-05,
      "loss": 0.994,
      "step": 2594
    },
    {
      "epoch": 0.15930507382055925,
      "grad_norm": 0.6799250519104919,
      "learning_rate": 1.9135993652640402e-05,
      "loss": 1.0927,
      "step": 2595
    },
    {
      "epoch": 0.15936646305902574,
      "grad_norm": 0.6246811152079061,
      "learning_rate": 1.913518497812266e-05,
      "loss": 0.9977,
      "step": 2596
    },
    {
      "epoch": 0.15942785229749226,
      "grad_norm": 0.6483329862821977,
      "learning_rate": 1.9134375942442192e-05,
      "loss": 1.0209,
      "step": 2597
    },
    {
      "epoch": 0.15948924153595875,
      "grad_norm": 0.6911496671146282,
      "learning_rate": 1.9133566545630994e-05,
      "loss": 1.1043,
      "step": 2598
    },
    {
      "epoch": 0.15955063077442524,
      "grad_norm": 0.6932934754396348,
      "learning_rate": 1.9132756787721058e-05,
      "loss": 1.027,
      "step": 2599
    },
    {
      "epoch": 0.15961202001289174,
      "grad_norm": 0.6411653254676326,
      "learning_rate": 1.9131946668744402e-05,
      "loss": 1.0326,
      "step": 2600
    },
    {
      "epoch": 0.15967340925135823,
      "grad_norm": 0.677004619302338,
      "learning_rate": 1.913113618873305e-05,
      "loss": 1.083,
      "step": 2601
    },
    {
      "epoch": 0.15973479848982475,
      "grad_norm": 0.664060106197235,
      "learning_rate": 1.9130325347719053e-05,
      "loss": 1.0253,
      "step": 2602
    },
    {
      "epoch": 0.15979618772829124,
      "grad_norm": 0.6710524607074189,
      "learning_rate": 1.912951414573446e-05,
      "loss": 1.0616,
      "step": 2603
    },
    {
      "epoch": 0.15985757696675773,
      "grad_norm": 0.6458877233474231,
      "learning_rate": 1.9128702582811344e-05,
      "loss": 1.0155,
      "step": 2604
    },
    {
      "epoch": 0.15991896620522422,
      "grad_norm": 0.6316446363787053,
      "learning_rate": 1.912789065898179e-05,
      "loss": 0.9613,
      "step": 2605
    },
    {
      "epoch": 0.1599803554436907,
      "grad_norm": 0.6607074613710066,
      "learning_rate": 1.91270783742779e-05,
      "loss": 1.0491,
      "step": 2606
    },
    {
      "epoch": 0.1600417446821572,
      "grad_norm": 0.6228842923539727,
      "learning_rate": 1.912626572873179e-05,
      "loss": 0.9999,
      "step": 2607
    },
    {
      "epoch": 0.16010313392062372,
      "grad_norm": 0.5696852508748973,
      "learning_rate": 1.912545272237558e-05,
      "loss": 0.9528,
      "step": 2608
    },
    {
      "epoch": 0.16016452315909022,
      "grad_norm": 0.6164658382806788,
      "learning_rate": 1.912463935524142e-05,
      "loss": 0.9752,
      "step": 2609
    },
    {
      "epoch": 0.1602259123975567,
      "grad_norm": 0.636880163855388,
      "learning_rate": 1.9123825627361468e-05,
      "loss": 1.0432,
      "step": 2610
    },
    {
      "epoch": 0.1602873016360232,
      "grad_norm": 0.6480581353817911,
      "learning_rate": 1.9123011538767886e-05,
      "loss": 1.0229,
      "step": 2611
    },
    {
      "epoch": 0.1603486908744897,
      "grad_norm": 0.6752186974649553,
      "learning_rate": 1.9122197089492866e-05,
      "loss": 0.9975,
      "step": 2612
    },
    {
      "epoch": 0.1604100801129562,
      "grad_norm": 0.6836405734753412,
      "learning_rate": 1.912138227956861e-05,
      "loss": 1.0696,
      "step": 2613
    },
    {
      "epoch": 0.1604714693514227,
      "grad_norm": 0.6207842146995335,
      "learning_rate": 1.912056710902732e-05,
      "loss": 1.0003,
      "step": 2614
    },
    {
      "epoch": 0.1605328585898892,
      "grad_norm": 0.673842938545317,
      "learning_rate": 1.9119751577901237e-05,
      "loss": 1.0279,
      "step": 2615
    },
    {
      "epoch": 0.16059424782835569,
      "grad_norm": 0.6707448551722393,
      "learning_rate": 1.9118935686222597e-05,
      "loss": 1.0497,
      "step": 2616
    },
    {
      "epoch": 0.16065563706682218,
      "grad_norm": 0.6525359362542443,
      "learning_rate": 1.9118119434023658e-05,
      "loss": 1.0399,
      "step": 2617
    },
    {
      "epoch": 0.1607170263052887,
      "grad_norm": 0.6543349081336465,
      "learning_rate": 1.911730282133669e-05,
      "loss": 1.0176,
      "step": 2618
    },
    {
      "epoch": 0.1607784155437552,
      "grad_norm": 0.6930483842723919,
      "learning_rate": 1.911648584819398e-05,
      "loss": 1.0853,
      "step": 2619
    },
    {
      "epoch": 0.16083980478222168,
      "grad_norm": 0.630975211975196,
      "learning_rate": 1.9115668514627826e-05,
      "loss": 1.0335,
      "step": 2620
    },
    {
      "epoch": 0.16090119402068817,
      "grad_norm": 0.6686247436878457,
      "learning_rate": 1.911485082067054e-05,
      "loss": 1.0553,
      "step": 2621
    },
    {
      "epoch": 0.16096258325915466,
      "grad_norm": 0.6841310163415428,
      "learning_rate": 1.9114032766354453e-05,
      "loss": 1.0714,
      "step": 2622
    },
    {
      "epoch": 0.16102397249762115,
      "grad_norm": 0.6498528394322276,
      "learning_rate": 1.9113214351711905e-05,
      "loss": 1.0444,
      "step": 2623
    },
    {
      "epoch": 0.16108536173608767,
      "grad_norm": 0.6948853601096813,
      "learning_rate": 1.9112395576775254e-05,
      "loss": 1.0072,
      "step": 2624
    },
    {
      "epoch": 0.16114675097455416,
      "grad_norm": 0.6473665422957088,
      "learning_rate": 1.9111576441576866e-05,
      "loss": 1.0012,
      "step": 2625
    },
    {
      "epoch": 0.16120814021302066,
      "grad_norm": 0.6456688611210007,
      "learning_rate": 1.9110756946149134e-05,
      "loss": 1.0675,
      "step": 2626
    },
    {
      "epoch": 0.16126952945148715,
      "grad_norm": 0.6862238030248197,
      "learning_rate": 1.910993709052445e-05,
      "loss": 1.0686,
      "step": 2627
    },
    {
      "epoch": 0.16133091868995364,
      "grad_norm": 0.638520730708681,
      "learning_rate": 1.9109116874735228e-05,
      "loss": 1.0322,
      "step": 2628
    },
    {
      "epoch": 0.16139230792842016,
      "grad_norm": 0.6285527612365349,
      "learning_rate": 1.9108296298813898e-05,
      "loss": 1.0173,
      "step": 2629
    },
    {
      "epoch": 0.16145369716688665,
      "grad_norm": 0.6105513651244476,
      "learning_rate": 1.91074753627929e-05,
      "loss": 1.046,
      "step": 2630
    },
    {
      "epoch": 0.16151508640535314,
      "grad_norm": 0.6247741645698296,
      "learning_rate": 1.9106654066704694e-05,
      "loss": 1.0388,
      "step": 2631
    },
    {
      "epoch": 0.16157647564381963,
      "grad_norm": 0.6164910071149512,
      "learning_rate": 1.9105832410581742e-05,
      "loss": 0.9912,
      "step": 2632
    },
    {
      "epoch": 0.16163786488228613,
      "grad_norm": 0.5989514330212877,
      "learning_rate": 1.9105010394456537e-05,
      "loss": 0.9794,
      "step": 2633
    },
    {
      "epoch": 0.16169925412075264,
      "grad_norm": 0.6073508303792224,
      "learning_rate": 1.910418801836157e-05,
      "loss": 1.0148,
      "step": 2634
    },
    {
      "epoch": 0.16176064335921914,
      "grad_norm": 0.6026435193516634,
      "learning_rate": 1.910336528232936e-05,
      "loss": 1.0175,
      "step": 2635
    },
    {
      "epoch": 0.16182203259768563,
      "grad_norm": 0.6021418157183861,
      "learning_rate": 1.9102542186392433e-05,
      "loss": 0.9969,
      "step": 2636
    },
    {
      "epoch": 0.16188342183615212,
      "grad_norm": 0.6438907071284953,
      "learning_rate": 1.910171873058333e-05,
      "loss": 1.0685,
      "step": 2637
    },
    {
      "epoch": 0.1619448110746186,
      "grad_norm": 0.6973175510249269,
      "learning_rate": 1.9100894914934607e-05,
      "loss": 1.0453,
      "step": 2638
    },
    {
      "epoch": 0.1620062003130851,
      "grad_norm": 0.6008796270823658,
      "learning_rate": 1.9100070739478833e-05,
      "loss": 0.9928,
      "step": 2639
    },
    {
      "epoch": 0.16206758955155162,
      "grad_norm": 0.638719327346818,
      "learning_rate": 1.909924620424859e-05,
      "loss": 1.035,
      "step": 2640
    },
    {
      "epoch": 0.1621289787900181,
      "grad_norm": 0.6230888757721719,
      "learning_rate": 1.9098421309276477e-05,
      "loss": 1.0262,
      "step": 2641
    },
    {
      "epoch": 0.1621903680284846,
      "grad_norm": 0.6517712384034873,
      "learning_rate": 1.909759605459511e-05,
      "loss": 1.0255,
      "step": 2642
    },
    {
      "epoch": 0.1622517572669511,
      "grad_norm": 0.6892163490191484,
      "learning_rate": 1.9096770440237112e-05,
      "loss": 1.0674,
      "step": 2643
    },
    {
      "epoch": 0.1623131465054176,
      "grad_norm": 0.6093141073207575,
      "learning_rate": 1.909594446623513e-05,
      "loss": 0.9831,
      "step": 2644
    },
    {
      "epoch": 0.1623745357438841,
      "grad_norm": 0.6470980279871287,
      "learning_rate": 1.909511813262181e-05,
      "loss": 1.0534,
      "step": 2645
    },
    {
      "epoch": 0.1624359249823506,
      "grad_norm": 0.6716672192100945,
      "learning_rate": 1.9094291439429827e-05,
      "loss": 1.0271,
      "step": 2646
    },
    {
      "epoch": 0.1624973142208171,
      "grad_norm": 0.6511211968315581,
      "learning_rate": 1.9093464386691866e-05,
      "loss": 1.0672,
      "step": 2647
    },
    {
      "epoch": 0.16255870345928358,
      "grad_norm": 0.6218827398230705,
      "learning_rate": 1.9092636974440624e-05,
      "loss": 0.9603,
      "step": 2648
    },
    {
      "epoch": 0.16262009269775007,
      "grad_norm": 0.6868097999684738,
      "learning_rate": 1.9091809202708805e-05,
      "loss": 1.0294,
      "step": 2649
    },
    {
      "epoch": 0.1626814819362166,
      "grad_norm": 0.6760373537157727,
      "learning_rate": 1.909098107152915e-05,
      "loss": 1.0074,
      "step": 2650
    },
    {
      "epoch": 0.16274287117468308,
      "grad_norm": 0.641916359777576,
      "learning_rate": 1.9090152580934383e-05,
      "loss": 0.9676,
      "step": 2651
    },
    {
      "epoch": 0.16280426041314958,
      "grad_norm": 0.5788424625610106,
      "learning_rate": 1.9089323730957273e-05,
      "loss": 0.9613,
      "step": 2652
    },
    {
      "epoch": 0.16286564965161607,
      "grad_norm": 0.6793177067504148,
      "learning_rate": 1.908849452163058e-05,
      "loss": 1.07,
      "step": 2653
    },
    {
      "epoch": 0.16292703889008256,
      "grad_norm": 0.6482660848903287,
      "learning_rate": 1.9087664952987087e-05,
      "loss": 1.0013,
      "step": 2654
    },
    {
      "epoch": 0.16298842812854908,
      "grad_norm": 0.666191834693747,
      "learning_rate": 1.90868350250596e-05,
      "loss": 1.0074,
      "step": 2655
    },
    {
      "epoch": 0.16304981736701557,
      "grad_norm": 0.6928866537915502,
      "learning_rate": 1.9086004737880925e-05,
      "loss": 1.0894,
      "step": 2656
    },
    {
      "epoch": 0.16311120660548206,
      "grad_norm": 0.5964556990851881,
      "learning_rate": 1.9085174091483882e-05,
      "loss": 0.9646,
      "step": 2657
    },
    {
      "epoch": 0.16317259584394855,
      "grad_norm": 0.6241057312316552,
      "learning_rate": 1.9084343085901322e-05,
      "loss": 0.9726,
      "step": 2658
    },
    {
      "epoch": 0.16323398508241505,
      "grad_norm": 0.5942143694398221,
      "learning_rate": 1.908351172116609e-05,
      "loss": 0.98,
      "step": 2659
    },
    {
      "epoch": 0.16329537432088154,
      "grad_norm": 0.6481225347189842,
      "learning_rate": 1.9082679997311055e-05,
      "loss": 0.9973,
      "step": 2660
    },
    {
      "epoch": 0.16335676355934806,
      "grad_norm": 0.6602008341801867,
      "learning_rate": 1.90818479143691e-05,
      "loss": 1.0817,
      "step": 2661
    },
    {
      "epoch": 0.16341815279781455,
      "grad_norm": 0.5936743896965656,
      "learning_rate": 1.908101547237313e-05,
      "loss": 0.9895,
      "step": 2662
    },
    {
      "epoch": 0.16347954203628104,
      "grad_norm": 0.6892090464117184,
      "learning_rate": 1.9080182671356052e-05,
      "loss": 1.0836,
      "step": 2663
    },
    {
      "epoch": 0.16354093127474753,
      "grad_norm": 0.6687305475927923,
      "learning_rate": 1.9079349511350784e-05,
      "loss": 1.0858,
      "step": 2664
    },
    {
      "epoch": 0.16360232051321402,
      "grad_norm": 0.5996749387977044,
      "learning_rate": 1.907851599239027e-05,
      "loss": 1.055,
      "step": 2665
    },
    {
      "epoch": 0.16366370975168054,
      "grad_norm": 0.6455731504461902,
      "learning_rate": 1.9077682114507466e-05,
      "loss": 1.0468,
      "step": 2666
    },
    {
      "epoch": 0.16372509899014703,
      "grad_norm": 0.6082755154379443,
      "learning_rate": 1.9076847877735336e-05,
      "loss": 0.9871,
      "step": 2667
    },
    {
      "epoch": 0.16378648822861352,
      "grad_norm": 0.6511165498960704,
      "learning_rate": 1.907601328210686e-05,
      "loss": 1.0087,
      "step": 2668
    },
    {
      "epoch": 0.16384787746708002,
      "grad_norm": 0.6565147033428638,
      "learning_rate": 1.907517832765504e-05,
      "loss": 1.0262,
      "step": 2669
    },
    {
      "epoch": 0.1639092667055465,
      "grad_norm": 0.592080905579595,
      "learning_rate": 1.9074343014412885e-05,
      "loss": 1.0519,
      "step": 2670
    },
    {
      "epoch": 0.16397065594401303,
      "grad_norm": 0.6216404726227341,
      "learning_rate": 1.9073507342413417e-05,
      "loss": 1.0029,
      "step": 2671
    },
    {
      "epoch": 0.16403204518247952,
      "grad_norm": 0.7130165224137147,
      "learning_rate": 1.9072671311689675e-05,
      "loss": 1.0789,
      "step": 2672
    },
    {
      "epoch": 0.164093434420946,
      "grad_norm": 0.7087233414666838,
      "learning_rate": 1.9071834922274707e-05,
      "loss": 1.0724,
      "step": 2673
    },
    {
      "epoch": 0.1641548236594125,
      "grad_norm": 0.5774311341634871,
      "learning_rate": 1.907099817420159e-05,
      "loss": 0.9844,
      "step": 2674
    },
    {
      "epoch": 0.164216212897879,
      "grad_norm": 0.5916652763424907,
      "learning_rate": 1.90701610675034e-05,
      "loss": 0.9881,
      "step": 2675
    },
    {
      "epoch": 0.16427760213634549,
      "grad_norm": 0.6515725439913017,
      "learning_rate": 1.906932360221323e-05,
      "loss": 1.0322,
      "step": 2676
    },
    {
      "epoch": 0.164338991374812,
      "grad_norm": 0.650245141022926,
      "learning_rate": 1.9068485778364194e-05,
      "loss": 1.0291,
      "step": 2677
    },
    {
      "epoch": 0.1644003806132785,
      "grad_norm": 0.6091424814766488,
      "learning_rate": 1.9067647595989413e-05,
      "loss": 1.02,
      "step": 2678
    },
    {
      "epoch": 0.164461769851745,
      "grad_norm": 0.6512956102898417,
      "learning_rate": 1.9066809055122024e-05,
      "loss": 1.0169,
      "step": 2679
    },
    {
      "epoch": 0.16452315909021148,
      "grad_norm": 0.6756437803228628,
      "learning_rate": 1.906597015579518e-05,
      "loss": 1.0594,
      "step": 2680
    },
    {
      "epoch": 0.16458454832867797,
      "grad_norm": 0.6764504699851935,
      "learning_rate": 1.906513089804205e-05,
      "loss": 1.0146,
      "step": 2681
    },
    {
      "epoch": 0.1646459375671445,
      "grad_norm": 0.6886529857272967,
      "learning_rate": 1.906429128189581e-05,
      "loss": 1.0485,
      "step": 2682
    },
    {
      "epoch": 0.16470732680561098,
      "grad_norm": 0.6524561770939039,
      "learning_rate": 1.906345130738966e-05,
      "loss": 0.9662,
      "step": 2683
    },
    {
      "epoch": 0.16476871604407747,
      "grad_norm": 0.6788360301587062,
      "learning_rate": 1.90626109745568e-05,
      "loss": 1.072,
      "step": 2684
    },
    {
      "epoch": 0.16483010528254396,
      "grad_norm": 0.6398735571864369,
      "learning_rate": 1.906177028343046e-05,
      "loss": 0.9912,
      "step": 2685
    },
    {
      "epoch": 0.16489149452101046,
      "grad_norm": 0.6305458633368571,
      "learning_rate": 1.9060929234043875e-05,
      "loss": 1.0208,
      "step": 2686
    },
    {
      "epoch": 0.16495288375947698,
      "grad_norm": 0.7148890304456428,
      "learning_rate": 1.90600878264303e-05,
      "loss": 1.1249,
      "step": 2687
    },
    {
      "epoch": 0.16501427299794347,
      "grad_norm": 0.7190069490275686,
      "learning_rate": 1.905924606062299e-05,
      "loss": 1.0679,
      "step": 2688
    },
    {
      "epoch": 0.16507566223640996,
      "grad_norm": 0.6803270939312501,
      "learning_rate": 1.9058403936655235e-05,
      "loss": 1.0223,
      "step": 2689
    },
    {
      "epoch": 0.16513705147487645,
      "grad_norm": 0.646321737673637,
      "learning_rate": 1.905756145456032e-05,
      "loss": 1.055,
      "step": 2690
    },
    {
      "epoch": 0.16519844071334294,
      "grad_norm": 0.6779800592940897,
      "learning_rate": 1.9056718614371563e-05,
      "loss": 1.0213,
      "step": 2691
    },
    {
      "epoch": 0.16525982995180946,
      "grad_norm": 0.6433953239432687,
      "learning_rate": 1.905587541612228e-05,
      "loss": 1.025,
      "step": 2692
    },
    {
      "epoch": 0.16532121919027595,
      "grad_norm": 0.5915421999987988,
      "learning_rate": 1.9055031859845802e-05,
      "loss": 1.0191,
      "step": 2693
    },
    {
      "epoch": 0.16538260842874244,
      "grad_norm": 0.6729225473942011,
      "learning_rate": 1.9054187945575492e-05,
      "loss": 1.0591,
      "step": 2694
    },
    {
      "epoch": 0.16544399766720894,
      "grad_norm": 0.6138824688251583,
      "learning_rate": 1.90533436733447e-05,
      "loss": 0.9558,
      "step": 2695
    },
    {
      "epoch": 0.16550538690567543,
      "grad_norm": 0.6719392182022292,
      "learning_rate": 1.905249904318682e-05,
      "loss": 1.023,
      "step": 2696
    },
    {
      "epoch": 0.16556677614414192,
      "grad_norm": 0.6477402077657697,
      "learning_rate": 1.905165405513523e-05,
      "loss": 1.0203,
      "step": 2697
    },
    {
      "epoch": 0.16562816538260844,
      "grad_norm": 0.5940984987696495,
      "learning_rate": 1.905080870922335e-05,
      "loss": 0.9956,
      "step": 2698
    },
    {
      "epoch": 0.16568955462107493,
      "grad_norm": 0.6570943122995113,
      "learning_rate": 1.904996300548459e-05,
      "loss": 1.0405,
      "step": 2699
    },
    {
      "epoch": 0.16575094385954142,
      "grad_norm": 0.6427192746220575,
      "learning_rate": 1.9049116943952386e-05,
      "loss": 1.0624,
      "step": 2700
    },
    {
      "epoch": 0.1658123330980079,
      "grad_norm": 0.5964169243159367,
      "learning_rate": 1.9048270524660197e-05,
      "loss": 1.0077,
      "step": 2701
    },
    {
      "epoch": 0.1658737223364744,
      "grad_norm": 0.6778296435972114,
      "learning_rate": 1.904742374764148e-05,
      "loss": 1.1101,
      "step": 2702
    },
    {
      "epoch": 0.16593511157494092,
      "grad_norm": 0.5919462906665086,
      "learning_rate": 1.904657661292971e-05,
      "loss": 0.9677,
      "step": 2703
    },
    {
      "epoch": 0.16599650081340742,
      "grad_norm": 0.7183146217533602,
      "learning_rate": 1.9045729120558385e-05,
      "loss": 1.061,
      "step": 2704
    },
    {
      "epoch": 0.1660578900518739,
      "grad_norm": 0.6377887484118555,
      "learning_rate": 1.9044881270561008e-05,
      "loss": 1.0295,
      "step": 2705
    },
    {
      "epoch": 0.1661192792903404,
      "grad_norm": 0.6234493329475599,
      "learning_rate": 1.90440330629711e-05,
      "loss": 1.0143,
      "step": 2706
    },
    {
      "epoch": 0.1661806685288069,
      "grad_norm": 0.6355940792227911,
      "learning_rate": 1.9043184497822192e-05,
      "loss": 1.0309,
      "step": 2707
    },
    {
      "epoch": 0.1662420577672734,
      "grad_norm": 0.589540777439389,
      "learning_rate": 1.9042335575147834e-05,
      "loss": 0.9845,
      "step": 2708
    },
    {
      "epoch": 0.1663034470057399,
      "grad_norm": 0.663790874090039,
      "learning_rate": 1.9041486294981588e-05,
      "loss": 1.0211,
      "step": 2709
    },
    {
      "epoch": 0.1663648362442064,
      "grad_norm": 0.6288168813938662,
      "learning_rate": 1.9040636657357036e-05,
      "loss": 1.0063,
      "step": 2710
    },
    {
      "epoch": 0.16642622548267288,
      "grad_norm": 0.6835556485261773,
      "learning_rate": 1.903978666230776e-05,
      "loss": 1.009,
      "step": 2711
    },
    {
      "epoch": 0.16648761472113938,
      "grad_norm": 0.6272234015023175,
      "learning_rate": 1.903893630986737e-05,
      "loss": 0.987,
      "step": 2712
    },
    {
      "epoch": 0.16654900395960587,
      "grad_norm": 0.6602144402295818,
      "learning_rate": 1.9038085600069486e-05,
      "loss": 1.0341,
      "step": 2713
    },
    {
      "epoch": 0.1666103931980724,
      "grad_norm": 0.6867726782239496,
      "learning_rate": 1.9037234532947737e-05,
      "loss": 1.0282,
      "step": 2714
    },
    {
      "epoch": 0.16667178243653888,
      "grad_norm": 0.611507428276087,
      "learning_rate": 1.9036383108535773e-05,
      "loss": 0.998,
      "step": 2715
    },
    {
      "epoch": 0.16673317167500537,
      "grad_norm": 0.5997598477605866,
      "learning_rate": 1.9035531326867252e-05,
      "loss": 0.9574,
      "step": 2716
    },
    {
      "epoch": 0.16679456091347186,
      "grad_norm": 0.676345668403721,
      "learning_rate": 1.9034679187975857e-05,
      "loss": 1.0145,
      "step": 2717
    },
    {
      "epoch": 0.16685595015193835,
      "grad_norm": 0.6277028593319885,
      "learning_rate": 1.9033826691895273e-05,
      "loss": 0.9654,
      "step": 2718
    },
    {
      "epoch": 0.16691733939040487,
      "grad_norm": 0.656205647585148,
      "learning_rate": 1.9032973838659198e-05,
      "loss": 1.0208,
      "step": 2719
    },
    {
      "epoch": 0.16697872862887136,
      "grad_norm": 0.6241766653883738,
      "learning_rate": 1.903212062830136e-05,
      "loss": 1.0145,
      "step": 2720
    },
    {
      "epoch": 0.16704011786733786,
      "grad_norm": 0.6273049654904839,
      "learning_rate": 1.9031267060855487e-05,
      "loss": 0.9843,
      "step": 2721
    },
    {
      "epoch": 0.16710150710580435,
      "grad_norm": 0.6170304864982159,
      "learning_rate": 1.9030413136355322e-05,
      "loss": 1.0134,
      "step": 2722
    },
    {
      "epoch": 0.16716289634427084,
      "grad_norm": 0.6519113445862144,
      "learning_rate": 1.9029558854834626e-05,
      "loss": 1.0623,
      "step": 2723
    },
    {
      "epoch": 0.16722428558273736,
      "grad_norm": 0.6506536953756434,
      "learning_rate": 1.9028704216327177e-05,
      "loss": 1.0132,
      "step": 2724
    },
    {
      "epoch": 0.16728567482120385,
      "grad_norm": 0.6949709383134189,
      "learning_rate": 1.9027849220866767e-05,
      "loss": 1.092,
      "step": 2725
    },
    {
      "epoch": 0.16734706405967034,
      "grad_norm": 0.6367357076519243,
      "learning_rate": 1.9026993868487184e-05,
      "loss": 1.0295,
      "step": 2726
    },
    {
      "epoch": 0.16740845329813683,
      "grad_norm": 0.6663047416674142,
      "learning_rate": 1.902613815922226e-05,
      "loss": 1.1341,
      "step": 2727
    },
    {
      "epoch": 0.16746984253660332,
      "grad_norm": 0.660030539469941,
      "learning_rate": 1.9025282093105814e-05,
      "loss": 1.0332,
      "step": 2728
    },
    {
      "epoch": 0.16753123177506982,
      "grad_norm": 0.6402745120313829,
      "learning_rate": 1.90244256701717e-05,
      "loss": 1.0345,
      "step": 2729
    },
    {
      "epoch": 0.16759262101353634,
      "grad_norm": 0.6122176326242627,
      "learning_rate": 1.902356889045377e-05,
      "loss": 0.9662,
      "step": 2730
    },
    {
      "epoch": 0.16765401025200283,
      "grad_norm": 0.6492403735401746,
      "learning_rate": 1.9022711753985904e-05,
      "loss": 1.0367,
      "step": 2731
    },
    {
      "epoch": 0.16771539949046932,
      "grad_norm": 0.6042194497193925,
      "learning_rate": 1.9021854260801986e-05,
      "loss": 1.0204,
      "step": 2732
    },
    {
      "epoch": 0.1677767887289358,
      "grad_norm": 0.6058823115536844,
      "learning_rate": 1.9020996410935915e-05,
      "loss": 0.9991,
      "step": 2733
    },
    {
      "epoch": 0.1678381779674023,
      "grad_norm": 0.6281307447369712,
      "learning_rate": 1.902013820442161e-05,
      "loss": 1.0202,
      "step": 2734
    },
    {
      "epoch": 0.16789956720586882,
      "grad_norm": 0.5893575928861977,
      "learning_rate": 1.9019279641292993e-05,
      "loss": 1.0095,
      "step": 2735
    },
    {
      "epoch": 0.1679609564443353,
      "grad_norm": 0.6523605448452005,
      "learning_rate": 1.901842072158402e-05,
      "loss": 1.0548,
      "step": 2736
    },
    {
      "epoch": 0.1680223456828018,
      "grad_norm": 0.6498424343608917,
      "learning_rate": 1.9017561445328638e-05,
      "loss": 0.9997,
      "step": 2737
    },
    {
      "epoch": 0.1680837349212683,
      "grad_norm": 0.6557356120026736,
      "learning_rate": 1.9016701812560824e-05,
      "loss": 1.029,
      "step": 2738
    },
    {
      "epoch": 0.1681451241597348,
      "grad_norm": 0.6799091755758022,
      "learning_rate": 1.901584182331456e-05,
      "loss": 1.0663,
      "step": 2739
    },
    {
      "epoch": 0.1682065133982013,
      "grad_norm": 0.6228759361511104,
      "learning_rate": 1.9014981477623852e-05,
      "loss": 0.9693,
      "step": 2740
    },
    {
      "epoch": 0.1682679026366678,
      "grad_norm": 0.6018972559728284,
      "learning_rate": 1.9014120775522712e-05,
      "loss": 0.9875,
      "step": 2741
    },
    {
      "epoch": 0.1683292918751343,
      "grad_norm": 0.6220006025375242,
      "learning_rate": 1.901325971704516e-05,
      "loss": 0.9933,
      "step": 2742
    },
    {
      "epoch": 0.16839068111360078,
      "grad_norm": 0.5922527163664331,
      "learning_rate": 1.901239830222525e-05,
      "loss": 0.9666,
      "step": 2743
    },
    {
      "epoch": 0.16845207035206727,
      "grad_norm": 0.6267904241332026,
      "learning_rate": 1.9011536531097035e-05,
      "loss": 0.995,
      "step": 2744
    },
    {
      "epoch": 0.1685134595905338,
      "grad_norm": 0.6401495132849244,
      "learning_rate": 1.901067440369458e-05,
      "loss": 0.9853,
      "step": 2745
    },
    {
      "epoch": 0.16857484882900028,
      "grad_norm": 0.7034652987173236,
      "learning_rate": 1.9009811920051977e-05,
      "loss": 1.0718,
      "step": 2746
    },
    {
      "epoch": 0.16863623806746678,
      "grad_norm": 0.6047223248037474,
      "learning_rate": 1.900894908020332e-05,
      "loss": 0.9655,
      "step": 2747
    },
    {
      "epoch": 0.16869762730593327,
      "grad_norm": 0.6669487046333815,
      "learning_rate": 1.9008085884182722e-05,
      "loss": 1.0444,
      "step": 2748
    },
    {
      "epoch": 0.16875901654439976,
      "grad_norm": 0.627422586115118,
      "learning_rate": 1.9007222332024308e-05,
      "loss": 1.0021,
      "step": 2749
    },
    {
      "epoch": 0.16882040578286625,
      "grad_norm": 0.6813256382777165,
      "learning_rate": 1.9006358423762225e-05,
      "loss": 1.0382,
      "step": 2750
    },
    {
      "epoch": 0.16888179502133277,
      "grad_norm": 0.6011821269748924,
      "learning_rate": 1.900549415943062e-05,
      "loss": 1.03,
      "step": 2751
    },
    {
      "epoch": 0.16894318425979926,
      "grad_norm": 0.6156563233213174,
      "learning_rate": 1.900462953906367e-05,
      "loss": 0.9879,
      "step": 2752
    },
    {
      "epoch": 0.16900457349826575,
      "grad_norm": 0.722727609686364,
      "learning_rate": 1.900376456269555e-05,
      "loss": 1.1263,
      "step": 2753
    },
    {
      "epoch": 0.16906596273673224,
      "grad_norm": 0.6518025360282289,
      "learning_rate": 1.9002899230360467e-05,
      "loss": 1.0441,
      "step": 2754
    },
    {
      "epoch": 0.16912735197519874,
      "grad_norm": 0.6430283747402227,
      "learning_rate": 1.9002033542092625e-05,
      "loss": 1.0486,
      "step": 2755
    },
    {
      "epoch": 0.16918874121366526,
      "grad_norm": 0.6991707037016683,
      "learning_rate": 1.9001167497926248e-05,
      "loss": 1.0828,
      "step": 2756
    },
    {
      "epoch": 0.16925013045213175,
      "grad_norm": 0.6147391886396523,
      "learning_rate": 1.900030109789558e-05,
      "loss": 0.9957,
      "step": 2757
    },
    {
      "epoch": 0.16931151969059824,
      "grad_norm": 0.6086067849766207,
      "learning_rate": 1.899943434203487e-05,
      "loss": 1.0091,
      "step": 2758
    },
    {
      "epoch": 0.16937290892906473,
      "grad_norm": 0.6209787029425794,
      "learning_rate": 1.8998567230378394e-05,
      "loss": 0.9671,
      "step": 2759
    },
    {
      "epoch": 0.16943429816753122,
      "grad_norm": 0.6376668163090708,
      "learning_rate": 1.8997699762960424e-05,
      "loss": 1.0304,
      "step": 2760
    },
    {
      "epoch": 0.16949568740599774,
      "grad_norm": 0.640319341838031,
      "learning_rate": 1.8996831939815258e-05,
      "loss": 1.0065,
      "step": 2761
    },
    {
      "epoch": 0.16955707664446423,
      "grad_norm": 0.612179779640302,
      "learning_rate": 1.899596376097721e-05,
      "loss": 1.0042,
      "step": 2762
    },
    {
      "epoch": 0.16961846588293072,
      "grad_norm": 0.6837198857936965,
      "learning_rate": 1.8995095226480598e-05,
      "loss": 1.057,
      "step": 2763
    },
    {
      "epoch": 0.16967985512139722,
      "grad_norm": 0.642034268391028,
      "learning_rate": 1.899422633635976e-05,
      "loss": 1.0492,
      "step": 2764
    },
    {
      "epoch": 0.1697412443598637,
      "grad_norm": 0.6577718006020382,
      "learning_rate": 1.899335709064906e-05,
      "loss": 1.0618,
      "step": 2765
    },
    {
      "epoch": 0.1698026335983302,
      "grad_norm": 0.6363740700146967,
      "learning_rate": 1.8992487489382846e-05,
      "loss": 1.0262,
      "step": 2766
    },
    {
      "epoch": 0.16986402283679672,
      "grad_norm": 0.7150342591819387,
      "learning_rate": 1.899161753259551e-05,
      "loss": 1.1063,
      "step": 2767
    },
    {
      "epoch": 0.1699254120752632,
      "grad_norm": 0.6302400394196856,
      "learning_rate": 1.8990747220321438e-05,
      "loss": 0.9971,
      "step": 2768
    },
    {
      "epoch": 0.1699868013137297,
      "grad_norm": 0.6333516825688452,
      "learning_rate": 1.8989876552595045e-05,
      "loss": 1.0406,
      "step": 2769
    },
    {
      "epoch": 0.1700481905521962,
      "grad_norm": 0.6217624014598755,
      "learning_rate": 1.8989005529450752e-05,
      "loss": 1.0154,
      "step": 2770
    },
    {
      "epoch": 0.17010957979066268,
      "grad_norm": 0.680202953970514,
      "learning_rate": 1.8988134150922994e-05,
      "loss": 1.022,
      "step": 2771
    },
    {
      "epoch": 0.1701709690291292,
      "grad_norm": 0.7322670190250878,
      "learning_rate": 1.898726241704622e-05,
      "loss": 0.7656,
      "step": 2772
    },
    {
      "epoch": 0.1702323582675957,
      "grad_norm": 0.7469897187081539,
      "learning_rate": 1.8986390327854894e-05,
      "loss": 1.0376,
      "step": 2773
    },
    {
      "epoch": 0.1702937475060622,
      "grad_norm": 0.6053833461389735,
      "learning_rate": 1.8985517883383498e-05,
      "loss": 0.758,
      "step": 2774
    },
    {
      "epoch": 0.17035513674452868,
      "grad_norm": 0.6869320872577005,
      "learning_rate": 1.898464508366652e-05,
      "loss": 1.0172,
      "step": 2775
    },
    {
      "epoch": 0.17041652598299517,
      "grad_norm": 0.665502352570566,
      "learning_rate": 1.8983771928738474e-05,
      "loss": 1.0587,
      "step": 2776
    },
    {
      "epoch": 0.1704779152214617,
      "grad_norm": 0.6366705486686193,
      "learning_rate": 1.898289841863387e-05,
      "loss": 0.9724,
      "step": 2777
    },
    {
      "epoch": 0.17053930445992818,
      "grad_norm": 0.6626507046369352,
      "learning_rate": 1.8982024553387246e-05,
      "loss": 0.8137,
      "step": 2778
    },
    {
      "epoch": 0.17060069369839467,
      "grad_norm": 0.6426039793217395,
      "learning_rate": 1.8981150333033155e-05,
      "loss": 1.0476,
      "step": 2779
    },
    {
      "epoch": 0.17066208293686116,
      "grad_norm": 0.6413995684403894,
      "learning_rate": 1.8980275757606157e-05,
      "loss": 1.0196,
      "step": 2780
    },
    {
      "epoch": 0.17072347217532766,
      "grad_norm": 0.6574805034140515,
      "learning_rate": 1.897940082714083e-05,
      "loss": 1.0223,
      "step": 2781
    },
    {
      "epoch": 0.17078486141379418,
      "grad_norm": 0.6445898571021179,
      "learning_rate": 1.897852554167176e-05,
      "loss": 1.0001,
      "step": 2782
    },
    {
      "epoch": 0.17084625065226067,
      "grad_norm": 0.6342377071112159,
      "learning_rate": 1.8977649901233556e-05,
      "loss": 1.0219,
      "step": 2783
    },
    {
      "epoch": 0.17090763989072716,
      "grad_norm": 0.6373851110332668,
      "learning_rate": 1.8976773905860836e-05,
      "loss": 0.9789,
      "step": 2784
    },
    {
      "epoch": 0.17096902912919365,
      "grad_norm": 0.7036683567397019,
      "learning_rate": 1.8975897555588233e-05,
      "loss": 1.098,
      "step": 2785
    },
    {
      "epoch": 0.17103041836766014,
      "grad_norm": 0.6434978361551237,
      "learning_rate": 1.8975020850450388e-05,
      "loss": 1.0487,
      "step": 2786
    },
    {
      "epoch": 0.17109180760612663,
      "grad_norm": 0.6243256114221225,
      "learning_rate": 1.8974143790481974e-05,
      "loss": 0.9941,
      "step": 2787
    },
    {
      "epoch": 0.17115319684459315,
      "grad_norm": 0.650438978474015,
      "learning_rate": 1.8973266375717653e-05,
      "loss": 0.9962,
      "step": 2788
    },
    {
      "epoch": 0.17121458608305964,
      "grad_norm": 0.7158607972847874,
      "learning_rate": 1.8972388606192124e-05,
      "loss": 1.0608,
      "step": 2789
    },
    {
      "epoch": 0.17127597532152614,
      "grad_norm": 0.6912777721320019,
      "learning_rate": 1.8971510481940087e-05,
      "loss": 1.0203,
      "step": 2790
    },
    {
      "epoch": 0.17133736455999263,
      "grad_norm": 0.6671466291161968,
      "learning_rate": 1.8970632002996252e-05,
      "loss": 1.0479,
      "step": 2791
    },
    {
      "epoch": 0.17139875379845912,
      "grad_norm": 0.6678859552504947,
      "learning_rate": 1.896975316939536e-05,
      "loss": 1.0342,
      "step": 2792
    },
    {
      "epoch": 0.17146014303692564,
      "grad_norm": 0.659309549300069,
      "learning_rate": 1.8968873981172148e-05,
      "loss": 0.9754,
      "step": 2793
    },
    {
      "epoch": 0.17152153227539213,
      "grad_norm": 0.6199552442132106,
      "learning_rate": 1.8967994438361382e-05,
      "loss": 0.9877,
      "step": 2794
    },
    {
      "epoch": 0.17158292151385862,
      "grad_norm": 0.6522524431378485,
      "learning_rate": 1.896711454099783e-05,
      "loss": 0.9945,
      "step": 2795
    },
    {
      "epoch": 0.1716443107523251,
      "grad_norm": 0.627779657396489,
      "learning_rate": 1.896623428911628e-05,
      "loss": 0.9171,
      "step": 2796
    },
    {
      "epoch": 0.1717056999907916,
      "grad_norm": 0.6505102954262387,
      "learning_rate": 1.8965353682751535e-05,
      "loss": 1.0119,
      "step": 2797
    },
    {
      "epoch": 0.17176708922925812,
      "grad_norm": 0.6201537110147124,
      "learning_rate": 1.896447272193841e-05,
      "loss": 0.9832,
      "step": 2798
    },
    {
      "epoch": 0.17182847846772462,
      "grad_norm": 0.6525190950427432,
      "learning_rate": 1.896359140671173e-05,
      "loss": 1.0362,
      "step": 2799
    },
    {
      "epoch": 0.1718898677061911,
      "grad_norm": 0.6126486901916891,
      "learning_rate": 1.8962709737106345e-05,
      "loss": 0.9376,
      "step": 2800
    },
    {
      "epoch": 0.1719512569446576,
      "grad_norm": 0.6360377470973033,
      "learning_rate": 1.8961827713157105e-05,
      "loss": 1.003,
      "step": 2801
    },
    {
      "epoch": 0.1720126461831241,
      "grad_norm": 0.6747356840184294,
      "learning_rate": 1.8960945334898887e-05,
      "loss": 1.0349,
      "step": 2802
    },
    {
      "epoch": 0.17207403542159058,
      "grad_norm": 0.6131373096683411,
      "learning_rate": 1.896006260236657e-05,
      "loss": 0.987,
      "step": 2803
    },
    {
      "epoch": 0.1721354246600571,
      "grad_norm": 0.6646428752613819,
      "learning_rate": 1.8959179515595056e-05,
      "loss": 1.0553,
      "step": 2804
    },
    {
      "epoch": 0.1721968138985236,
      "grad_norm": 0.6876035917729574,
      "learning_rate": 1.8958296074619263e-05,
      "loss": 1.0116,
      "step": 2805
    },
    {
      "epoch": 0.17225820313699008,
      "grad_norm": 0.6224375092447737,
      "learning_rate": 1.895741227947411e-05,
      "loss": 1.0524,
      "step": 2806
    },
    {
      "epoch": 0.17231959237545658,
      "grad_norm": 0.6288973722519637,
      "learning_rate": 1.895652813019454e-05,
      "loss": 1.027,
      "step": 2807
    },
    {
      "epoch": 0.17238098161392307,
      "grad_norm": 0.6096378902534938,
      "learning_rate": 1.8955643626815517e-05,
      "loss": 0.9429,
      "step": 2808
    },
    {
      "epoch": 0.1724423708523896,
      "grad_norm": 0.6412551545657416,
      "learning_rate": 1.8954758769372e-05,
      "loss": 1.0252,
      "step": 2809
    },
    {
      "epoch": 0.17250376009085608,
      "grad_norm": 0.5978173894548418,
      "learning_rate": 1.8953873557898977e-05,
      "loss": 1.0468,
      "step": 2810
    },
    {
      "epoch": 0.17256514932932257,
      "grad_norm": 0.6451012125150922,
      "learning_rate": 1.895298799243144e-05,
      "loss": 1.0336,
      "step": 2811
    },
    {
      "epoch": 0.17262653856778906,
      "grad_norm": 0.6711813187482549,
      "learning_rate": 1.8952102073004408e-05,
      "loss": 1.0221,
      "step": 2812
    },
    {
      "epoch": 0.17268792780625555,
      "grad_norm": 0.6516712677686776,
      "learning_rate": 1.89512157996529e-05,
      "loss": 0.9739,
      "step": 2813
    },
    {
      "epoch": 0.17274931704472207,
      "grad_norm": 0.6530406170353373,
      "learning_rate": 1.8950329172411954e-05,
      "loss": 1.0113,
      "step": 2814
    },
    {
      "epoch": 0.17281070628318856,
      "grad_norm": 0.6364376446888598,
      "learning_rate": 1.8949442191316628e-05,
      "loss": 0.9958,
      "step": 2815
    },
    {
      "epoch": 0.17287209552165506,
      "grad_norm": 0.6395286014244277,
      "learning_rate": 1.894855485640199e-05,
      "loss": 0.9883,
      "step": 2816
    },
    {
      "epoch": 0.17293348476012155,
      "grad_norm": 0.6337876330463292,
      "learning_rate": 1.8947667167703116e-05,
      "loss": 1.065,
      "step": 2817
    },
    {
      "epoch": 0.17299487399858804,
      "grad_norm": 0.6484993107746936,
      "learning_rate": 1.89467791252551e-05,
      "loss": 0.9876,
      "step": 2818
    },
    {
      "epoch": 0.17305626323705453,
      "grad_norm": 0.706446505601606,
      "learning_rate": 1.894589072909306e-05,
      "loss": 1.0566,
      "step": 2819
    },
    {
      "epoch": 0.17311765247552105,
      "grad_norm": 0.6099426431013543,
      "learning_rate": 1.894500197925211e-05,
      "loss": 0.7898,
      "step": 2820
    },
    {
      "epoch": 0.17317904171398754,
      "grad_norm": 0.649009946800884,
      "learning_rate": 1.8944112875767395e-05,
      "loss": 1.0147,
      "step": 2821
    },
    {
      "epoch": 0.17324043095245403,
      "grad_norm": 0.6467028450456799,
      "learning_rate": 1.8943223418674055e-05,
      "loss": 0.9767,
      "step": 2822
    },
    {
      "epoch": 0.17330182019092052,
      "grad_norm": 0.6510052783912277,
      "learning_rate": 1.8942333608007267e-05,
      "loss": 0.9919,
      "step": 2823
    },
    {
      "epoch": 0.17336320942938702,
      "grad_norm": 0.6802873356656346,
      "learning_rate": 1.89414434438022e-05,
      "loss": 1.0691,
      "step": 2824
    },
    {
      "epoch": 0.17342459866785354,
      "grad_norm": 0.7363877444120154,
      "learning_rate": 1.8940552926094055e-05,
      "loss": 1.0275,
      "step": 2825
    },
    {
      "epoch": 0.17348598790632003,
      "grad_norm": 0.6102888589058315,
      "learning_rate": 1.8939662054918035e-05,
      "loss": 0.9965,
      "step": 2826
    },
    {
      "epoch": 0.17354737714478652,
      "grad_norm": 0.6276079006774243,
      "learning_rate": 1.893877083030936e-05,
      "loss": 0.9913,
      "step": 2827
    },
    {
      "epoch": 0.173608766383253,
      "grad_norm": 0.6284183105057786,
      "learning_rate": 1.8937879252303268e-05,
      "loss": 1.0076,
      "step": 2828
    },
    {
      "epoch": 0.1736701556217195,
      "grad_norm": 0.7268213121152889,
      "learning_rate": 1.8936987320935003e-05,
      "loss": 1.0574,
      "step": 2829
    },
    {
      "epoch": 0.17373154486018602,
      "grad_norm": 0.6167429339963033,
      "learning_rate": 1.8936095036239833e-05,
      "loss": 1.0241,
      "step": 2830
    },
    {
      "epoch": 0.1737929340986525,
      "grad_norm": 0.6214126749066894,
      "learning_rate": 1.893520239825303e-05,
      "loss": 1.0413,
      "step": 2831
    },
    {
      "epoch": 0.173854323337119,
      "grad_norm": 0.6126709482178174,
      "learning_rate": 1.8934309407009893e-05,
      "loss": 1.0187,
      "step": 2832
    },
    {
      "epoch": 0.1739157125755855,
      "grad_norm": 0.6849007660268519,
      "learning_rate": 1.8933416062545717e-05,
      "loss": 1.0506,
      "step": 2833
    },
    {
      "epoch": 0.173977101814052,
      "grad_norm": 0.6615933666998487,
      "learning_rate": 1.8932522364895826e-05,
      "loss": 0.9933,
      "step": 2834
    },
    {
      "epoch": 0.1740384910525185,
      "grad_norm": 0.6525997046458963,
      "learning_rate": 1.8931628314095548e-05,
      "loss": 1.0132,
      "step": 2835
    },
    {
      "epoch": 0.174099880290985,
      "grad_norm": 0.6248833766158324,
      "learning_rate": 1.8930733910180238e-05,
      "loss": 1.0149,
      "step": 2836
    },
    {
      "epoch": 0.1741612695294515,
      "grad_norm": 0.684934693482054,
      "learning_rate": 1.892983915318525e-05,
      "loss": 1.0411,
      "step": 2837
    },
    {
      "epoch": 0.17422265876791798,
      "grad_norm": 0.5985630468045305,
      "learning_rate": 1.892894404314596e-05,
      "loss": 1.0337,
      "step": 2838
    },
    {
      "epoch": 0.17428404800638447,
      "grad_norm": 0.640209924068235,
      "learning_rate": 1.8928048580097758e-05,
      "loss": 1.0322,
      "step": 2839
    },
    {
      "epoch": 0.17434543724485096,
      "grad_norm": 0.6595297334211015,
      "learning_rate": 1.892715276407604e-05,
      "loss": 0.9894,
      "step": 2840
    },
    {
      "epoch": 0.17440682648331748,
      "grad_norm": 0.6506736136490635,
      "learning_rate": 1.8926256595116233e-05,
      "loss": 1.0124,
      "step": 2841
    },
    {
      "epoch": 0.17446821572178398,
      "grad_norm": 0.6122118245439402,
      "learning_rate": 1.8925360073253758e-05,
      "loss": 0.9938,
      "step": 2842
    },
    {
      "epoch": 0.17452960496025047,
      "grad_norm": 0.6619152076729038,
      "learning_rate": 1.8924463198524066e-05,
      "loss": 1.0865,
      "step": 2843
    },
    {
      "epoch": 0.17459099419871696,
      "grad_norm": 0.7107366047351192,
      "learning_rate": 1.892356597096261e-05,
      "loss": 1.0535,
      "step": 2844
    },
    {
      "epoch": 0.17465238343718345,
      "grad_norm": 0.6300653883821389,
      "learning_rate": 1.892266839060487e-05,
      "loss": 1.0212,
      "step": 2845
    },
    {
      "epoch": 0.17471377267564997,
      "grad_norm": 0.6949743231480875,
      "learning_rate": 1.892177045748632e-05,
      "loss": 1.0241,
      "step": 2846
    },
    {
      "epoch": 0.17477516191411646,
      "grad_norm": 0.6741008600606477,
      "learning_rate": 1.892087217164247e-05,
      "loss": 1.0115,
      "step": 2847
    },
    {
      "epoch": 0.17483655115258295,
      "grad_norm": 0.6105180091898569,
      "learning_rate": 1.891997353310883e-05,
      "loss": 1.0064,
      "step": 2848
    },
    {
      "epoch": 0.17489794039104944,
      "grad_norm": 0.5867709920347677,
      "learning_rate": 1.8919074541920928e-05,
      "loss": 0.93,
      "step": 2849
    },
    {
      "epoch": 0.17495932962951594,
      "grad_norm": 0.6296030592688623,
      "learning_rate": 1.8918175198114304e-05,
      "loss": 1.0595,
      "step": 2850
    },
    {
      "epoch": 0.17502071886798246,
      "grad_norm": 0.6172812227184541,
      "learning_rate": 1.8917275501724524e-05,
      "loss": 1.0201,
      "step": 2851
    },
    {
      "epoch": 0.17508210810644895,
      "grad_norm": 0.6288554719742862,
      "learning_rate": 1.8916375452787146e-05,
      "loss": 1.0008,
      "step": 2852
    },
    {
      "epoch": 0.17514349734491544,
      "grad_norm": 0.6213396392708963,
      "learning_rate": 1.891547505133776e-05,
      "loss": 0.9945,
      "step": 2853
    },
    {
      "epoch": 0.17520488658338193,
      "grad_norm": 0.69326571003425,
      "learning_rate": 1.891457429741196e-05,
      "loss": 0.7965,
      "step": 2854
    },
    {
      "epoch": 0.17526627582184842,
      "grad_norm": 0.623936762155564,
      "learning_rate": 1.8913673191045362e-05,
      "loss": 0.9901,
      "step": 2855
    },
    {
      "epoch": 0.1753276650603149,
      "grad_norm": 0.6888810069692611,
      "learning_rate": 1.891277173227359e-05,
      "loss": 1.0534,
      "step": 2856
    },
    {
      "epoch": 0.17538905429878143,
      "grad_norm": 0.6473450734678878,
      "learning_rate": 1.891186992113228e-05,
      "loss": 0.9809,
      "step": 2857
    },
    {
      "epoch": 0.17545044353724792,
      "grad_norm": 0.6360810650327369,
      "learning_rate": 1.891096775765709e-05,
      "loss": 1.0156,
      "step": 2858
    },
    {
      "epoch": 0.17551183277571442,
      "grad_norm": 0.6487367392192949,
      "learning_rate": 1.891006524188368e-05,
      "loss": 1.0113,
      "step": 2859
    },
    {
      "epoch": 0.1755732220141809,
      "grad_norm": 0.6089767336229578,
      "learning_rate": 1.890916237384774e-05,
      "loss": 1.0033,
      "step": 2860
    },
    {
      "epoch": 0.1756346112526474,
      "grad_norm": 0.6585681008030607,
      "learning_rate": 1.8908259153584964e-05,
      "loss": 1.0259,
      "step": 2861
    },
    {
      "epoch": 0.17569600049111392,
      "grad_norm": 0.6599702061158911,
      "learning_rate": 1.8907355581131055e-05,
      "loss": 1.0471,
      "step": 2862
    },
    {
      "epoch": 0.1757573897295804,
      "grad_norm": 0.6394765636599388,
      "learning_rate": 1.890645165652174e-05,
      "loss": 1.0527,
      "step": 2863
    },
    {
      "epoch": 0.1758187789680469,
      "grad_norm": 0.63532580955942,
      "learning_rate": 1.890554737979276e-05,
      "loss": 1.0077,
      "step": 2864
    },
    {
      "epoch": 0.1758801682065134,
      "grad_norm": 0.6561865338622677,
      "learning_rate": 1.8904642750979862e-05,
      "loss": 1.0163,
      "step": 2865
    },
    {
      "epoch": 0.17594155744497988,
      "grad_norm": 0.6609041507573928,
      "learning_rate": 1.8903737770118806e-05,
      "loss": 1.0288,
      "step": 2866
    },
    {
      "epoch": 0.1760029466834464,
      "grad_norm": 0.6036567989300884,
      "learning_rate": 1.890283243724538e-05,
      "loss": 0.9925,
      "step": 2867
    },
    {
      "epoch": 0.1760643359219129,
      "grad_norm": 0.6232636671407659,
      "learning_rate": 1.8901926752395366e-05,
      "loss": 1.0304,
      "step": 2868
    },
    {
      "epoch": 0.1761257251603794,
      "grad_norm": 0.642402572216999,
      "learning_rate": 1.8901020715604583e-05,
      "loss": 1.0438,
      "step": 2869
    },
    {
      "epoch": 0.17618711439884588,
      "grad_norm": 0.6335851463696127,
      "learning_rate": 1.8900114326908846e-05,
      "loss": 1.0213,
      "step": 2870
    },
    {
      "epoch": 0.17624850363731237,
      "grad_norm": 0.6840738387633699,
      "learning_rate": 1.889920758634398e-05,
      "loss": 1.0504,
      "step": 2871
    },
    {
      "epoch": 0.1763098928757789,
      "grad_norm": 0.7020357547077206,
      "learning_rate": 1.889830049394585e-05,
      "loss": 0.7367,
      "step": 2872
    },
    {
      "epoch": 0.17637128211424538,
      "grad_norm": 0.648681406636883,
      "learning_rate": 1.8897393049750308e-05,
      "loss": 1.0815,
      "step": 2873
    },
    {
      "epoch": 0.17643267135271187,
      "grad_norm": 0.6346232084502201,
      "learning_rate": 1.889648525379323e-05,
      "loss": 0.9992,
      "step": 2874
    },
    {
      "epoch": 0.17649406059117836,
      "grad_norm": 0.6951842700905448,
      "learning_rate": 1.889557710611051e-05,
      "loss": 1.0527,
      "step": 2875
    },
    {
      "epoch": 0.17655544982964486,
      "grad_norm": 0.6238438702876002,
      "learning_rate": 1.8894668606738048e-05,
      "loss": 0.994,
      "step": 2876
    },
    {
      "epoch": 0.17661683906811135,
      "grad_norm": 0.6325613130202625,
      "learning_rate": 1.8893759755711767e-05,
      "loss": 1.0348,
      "step": 2877
    },
    {
      "epoch": 0.17667822830657787,
      "grad_norm": 0.6799022328176781,
      "learning_rate": 1.8892850553067595e-05,
      "loss": 1.0964,
      "step": 2878
    },
    {
      "epoch": 0.17673961754504436,
      "grad_norm": 0.5953289299505896,
      "learning_rate": 1.8891940998841476e-05,
      "loss": 0.7616,
      "step": 2879
    },
    {
      "epoch": 0.17680100678351085,
      "grad_norm": 0.6291331662288389,
      "learning_rate": 1.8891031093069375e-05,
      "loss": 0.9632,
      "step": 2880
    },
    {
      "epoch": 0.17686239602197734,
      "grad_norm": 0.675452538742634,
      "learning_rate": 1.889012083578726e-05,
      "loss": 1.0567,
      "step": 2881
    },
    {
      "epoch": 0.17692378526044383,
      "grad_norm": 0.6645389327957436,
      "learning_rate": 1.8889210227031118e-05,
      "loss": 1.0101,
      "step": 2882
    },
    {
      "epoch": 0.17698517449891035,
      "grad_norm": 0.6306511609531364,
      "learning_rate": 1.8888299266836955e-05,
      "loss": 0.9843,
      "step": 2883
    },
    {
      "epoch": 0.17704656373737684,
      "grad_norm": 0.578915968211286,
      "learning_rate": 1.888738795524079e-05,
      "loss": 0.7705,
      "step": 2884
    },
    {
      "epoch": 0.17710795297584334,
      "grad_norm": 0.6137958402186432,
      "learning_rate": 1.888647629227864e-05,
      "loss": 0.9759,
      "step": 2885
    },
    {
      "epoch": 0.17716934221430983,
      "grad_norm": 0.668209441700054,
      "learning_rate": 1.8885564277986553e-05,
      "loss": 1.061,
      "step": 2886
    },
    {
      "epoch": 0.17723073145277632,
      "grad_norm": 0.6569635916920714,
      "learning_rate": 1.8884651912400592e-05,
      "loss": 1.0678,
      "step": 2887
    },
    {
      "epoch": 0.17729212069124284,
      "grad_norm": 0.6217993165403395,
      "learning_rate": 1.8883739195556818e-05,
      "loss": 1.0178,
      "step": 2888
    },
    {
      "epoch": 0.17735350992970933,
      "grad_norm": 0.6446595798184271,
      "learning_rate": 1.888282612749132e-05,
      "loss": 1.0242,
      "step": 2889
    },
    {
      "epoch": 0.17741489916817582,
      "grad_norm": 0.6777145241860777,
      "learning_rate": 1.8881912708240198e-05,
      "loss": 1.0375,
      "step": 2890
    },
    {
      "epoch": 0.1774762884066423,
      "grad_norm": 0.6481246359840809,
      "learning_rate": 1.8880998937839564e-05,
      "loss": 1.0274,
      "step": 2891
    },
    {
      "epoch": 0.1775376776451088,
      "grad_norm": 0.6273220993994886,
      "learning_rate": 1.8880084816325542e-05,
      "loss": 0.9992,
      "step": 2892
    },
    {
      "epoch": 0.1775990668835753,
      "grad_norm": 0.6398316969707498,
      "learning_rate": 1.8879170343734273e-05,
      "loss": 1.0406,
      "step": 2893
    },
    {
      "epoch": 0.17766045612204182,
      "grad_norm": 0.651097891065258,
      "learning_rate": 1.8878255520101908e-05,
      "loss": 1.0558,
      "step": 2894
    },
    {
      "epoch": 0.1777218453605083,
      "grad_norm": 0.6665365943549091,
      "learning_rate": 1.8877340345464623e-05,
      "loss": 1.0371,
      "step": 2895
    },
    {
      "epoch": 0.1777832345989748,
      "grad_norm": 0.6347470987312134,
      "learning_rate": 1.8876424819858596e-05,
      "loss": 1.0002,
      "step": 2896
    },
    {
      "epoch": 0.1778446238374413,
      "grad_norm": 0.6623526846503753,
      "learning_rate": 1.8875508943320015e-05,
      "loss": 1.0238,
      "step": 2897
    },
    {
      "epoch": 0.17790601307590778,
      "grad_norm": 0.6797707313793812,
      "learning_rate": 1.88745927158851e-05,
      "loss": 1.0322,
      "step": 2898
    },
    {
      "epoch": 0.1779674023143743,
      "grad_norm": 0.6336995877341024,
      "learning_rate": 1.887367613759007e-05,
      "loss": 1.0089,
      "step": 2899
    },
    {
      "epoch": 0.1780287915528408,
      "grad_norm": 0.6425514441702245,
      "learning_rate": 1.887275920847116e-05,
      "loss": 1.0176,
      "step": 2900
    },
    {
      "epoch": 0.17809018079130728,
      "grad_norm": 0.5900846563162565,
      "learning_rate": 1.887184192856463e-05,
      "loss": 0.9712,
      "step": 2901
    },
    {
      "epoch": 0.17815157002977378,
      "grad_norm": 0.6401363115732711,
      "learning_rate": 1.887092429790673e-05,
      "loss": 1.0173,
      "step": 2902
    },
    {
      "epoch": 0.17821295926824027,
      "grad_norm": 0.6664424841666082,
      "learning_rate": 1.8870006316533753e-05,
      "loss": 1.0809,
      "step": 2903
    },
    {
      "epoch": 0.1782743485067068,
      "grad_norm": 0.610308523128169,
      "learning_rate": 1.8869087984481983e-05,
      "loss": 0.981,
      "step": 2904
    },
    {
      "epoch": 0.17833573774517328,
      "grad_norm": 0.5855693620992573,
      "learning_rate": 1.8868169301787734e-05,
      "loss": 0.9683,
      "step": 2905
    },
    {
      "epoch": 0.17839712698363977,
      "grad_norm": 0.67058921194564,
      "learning_rate": 1.886725026848732e-05,
      "loss": 1.0459,
      "step": 2906
    },
    {
      "epoch": 0.17845851622210626,
      "grad_norm": 0.629215601647153,
      "learning_rate": 1.8866330884617078e-05,
      "loss": 0.9971,
      "step": 2907
    },
    {
      "epoch": 0.17851990546057275,
      "grad_norm": 0.64554992521713,
      "learning_rate": 1.8865411150213356e-05,
      "loss": 1.0115,
      "step": 2908
    },
    {
      "epoch": 0.17858129469903924,
      "grad_norm": 0.7212868298284487,
      "learning_rate": 1.8864491065312512e-05,
      "loss": 1.0616,
      "step": 2909
    },
    {
      "epoch": 0.17864268393750576,
      "grad_norm": 0.6025489925435489,
      "learning_rate": 1.886357062995093e-05,
      "loss": 0.9653,
      "step": 2910
    },
    {
      "epoch": 0.17870407317597226,
      "grad_norm": 0.6609975081387738,
      "learning_rate": 1.8862649844164994e-05,
      "loss": 1.0282,
      "step": 2911
    },
    {
      "epoch": 0.17876546241443875,
      "grad_norm": 0.5804956358663129,
      "learning_rate": 1.8861728707991106e-05,
      "loss": 0.9429,
      "step": 2912
    },
    {
      "epoch": 0.17882685165290524,
      "grad_norm": 0.6569867778570684,
      "learning_rate": 1.886080722146569e-05,
      "loss": 1.0578,
      "step": 2913
    },
    {
      "epoch": 0.17888824089137173,
      "grad_norm": 0.6677529001637048,
      "learning_rate": 1.885988538462517e-05,
      "loss": 1.0721,
      "step": 2914
    },
    {
      "epoch": 0.17894963012983825,
      "grad_norm": 0.6181220391986906,
      "learning_rate": 1.8858963197506e-05,
      "loss": 1.0124,
      "step": 2915
    },
    {
      "epoch": 0.17901101936830474,
      "grad_norm": 0.6694863294040287,
      "learning_rate": 1.885804066014463e-05,
      "loss": 1.0581,
      "step": 2916
    },
    {
      "epoch": 0.17907240860677123,
      "grad_norm": 0.5941576819860148,
      "learning_rate": 1.8857117772577537e-05,
      "loss": 0.9763,
      "step": 2917
    },
    {
      "epoch": 0.17913379784523772,
      "grad_norm": 0.6400802873790971,
      "learning_rate": 1.885619453484121e-05,
      "loss": 1.0262,
      "step": 2918
    },
    {
      "epoch": 0.17919518708370422,
      "grad_norm": 0.6043036397540938,
      "learning_rate": 1.8855270946972146e-05,
      "loss": 0.988,
      "step": 2919
    },
    {
      "epoch": 0.17925657632217074,
      "grad_norm": 0.63825862768753,
      "learning_rate": 1.8854347009006856e-05,
      "loss": 0.9932,
      "step": 2920
    },
    {
      "epoch": 0.17931796556063723,
      "grad_norm": 0.6374969160956632,
      "learning_rate": 1.8853422720981873e-05,
      "loss": 1.0098,
      "step": 2921
    },
    {
      "epoch": 0.17937935479910372,
      "grad_norm": 0.6403721436974766,
      "learning_rate": 1.8852498082933742e-05,
      "loss": 0.98,
      "step": 2922
    },
    {
      "epoch": 0.1794407440375702,
      "grad_norm": 0.6756869748449125,
      "learning_rate": 1.8851573094899014e-05,
      "loss": 0.9858,
      "step": 2923
    },
    {
      "epoch": 0.1795021332760367,
      "grad_norm": 0.7020046056909733,
      "learning_rate": 1.885064775691426e-05,
      "loss": 1.0929,
      "step": 2924
    },
    {
      "epoch": 0.17956352251450322,
      "grad_norm": 0.6478973306161031,
      "learning_rate": 1.8849722069016062e-05,
      "loss": 1.0004,
      "step": 2925
    },
    {
      "epoch": 0.1796249117529697,
      "grad_norm": 0.6130498397788985,
      "learning_rate": 1.8848796031241022e-05,
      "loss": 1.0255,
      "step": 2926
    },
    {
      "epoch": 0.1796863009914362,
      "grad_norm": 0.6051421772472124,
      "learning_rate": 1.8847869643625745e-05,
      "loss": 1.0012,
      "step": 2927
    },
    {
      "epoch": 0.1797476902299027,
      "grad_norm": 0.6288622843145136,
      "learning_rate": 1.884694290620686e-05,
      "loss": 0.9856,
      "step": 2928
    },
    {
      "epoch": 0.1798090794683692,
      "grad_norm": 0.6515986404700134,
      "learning_rate": 1.884601581902101e-05,
      "loss": 1.0165,
      "step": 2929
    },
    {
      "epoch": 0.17987046870683568,
      "grad_norm": 0.6527054961097352,
      "learning_rate": 1.8845088382104837e-05,
      "loss": 1.0091,
      "step": 2930
    },
    {
      "epoch": 0.1799318579453022,
      "grad_norm": 0.6795319496669606,
      "learning_rate": 1.8844160595495013e-05,
      "loss": 1.0729,
      "step": 2931
    },
    {
      "epoch": 0.1799932471837687,
      "grad_norm": 0.6802808959813577,
      "learning_rate": 1.884323245922822e-05,
      "loss": 1.0486,
      "step": 2932
    },
    {
      "epoch": 0.18005463642223518,
      "grad_norm": 0.6765728072843629,
      "learning_rate": 1.8842303973341154e-05,
      "loss": 1.0502,
      "step": 2933
    },
    {
      "epoch": 0.18011602566070167,
      "grad_norm": 0.6528885123301668,
      "learning_rate": 1.8841375137870517e-05,
      "loss": 1.0056,
      "step": 2934
    },
    {
      "epoch": 0.18017741489916816,
      "grad_norm": 0.6159407589449344,
      "learning_rate": 1.8840445952853034e-05,
      "loss": 0.9917,
      "step": 2935
    },
    {
      "epoch": 0.18023880413763468,
      "grad_norm": 0.6407462171204653,
      "learning_rate": 1.8839516418325444e-05,
      "loss": 1.0047,
      "step": 2936
    },
    {
      "epoch": 0.18030019337610118,
      "grad_norm": 0.6961098554425319,
      "learning_rate": 1.8838586534324488e-05,
      "loss": 1.0479,
      "step": 2937
    },
    {
      "epoch": 0.18036158261456767,
      "grad_norm": 0.6835535966810946,
      "learning_rate": 1.8837656300886937e-05,
      "loss": 1.034,
      "step": 2938
    },
    {
      "epoch": 0.18042297185303416,
      "grad_norm": 0.6926570136475062,
      "learning_rate": 1.8836725718049562e-05,
      "loss": 1.028,
      "step": 2939
    },
    {
      "epoch": 0.18048436109150065,
      "grad_norm": 0.6501775632512374,
      "learning_rate": 1.8835794785849163e-05,
      "loss": 1.0203,
      "step": 2940
    },
    {
      "epoch": 0.18054575032996717,
      "grad_norm": 0.694059427399925,
      "learning_rate": 1.8834863504322533e-05,
      "loss": 1.0327,
      "step": 2941
    },
    {
      "epoch": 0.18060713956843366,
      "grad_norm": 0.6115544005030329,
      "learning_rate": 1.8833931873506502e-05,
      "loss": 1.0201,
      "step": 2942
    },
    {
      "epoch": 0.18066852880690015,
      "grad_norm": 0.6178993286848433,
      "learning_rate": 1.8832999893437893e-05,
      "loss": 1.0046,
      "step": 2943
    },
    {
      "epoch": 0.18072991804536664,
      "grad_norm": 0.6341172489267239,
      "learning_rate": 1.8832067564153557e-05,
      "loss": 0.9866,
      "step": 2944
    },
    {
      "epoch": 0.18079130728383314,
      "grad_norm": 0.6876171213089904,
      "learning_rate": 1.883113488569035e-05,
      "loss": 1.0033,
      "step": 2945
    },
    {
      "epoch": 0.18085269652229963,
      "grad_norm": 0.5906275605396738,
      "learning_rate": 1.8830201858085156e-05,
      "loss": 0.9649,
      "step": 2946
    },
    {
      "epoch": 0.18091408576076615,
      "grad_norm": 0.6681924018420219,
      "learning_rate": 1.882926848137485e-05,
      "loss": 0.9729,
      "step": 2947
    },
    {
      "epoch": 0.18097547499923264,
      "grad_norm": 0.610578635575952,
      "learning_rate": 1.8828334755596337e-05,
      "loss": 0.9469,
      "step": 2948
    },
    {
      "epoch": 0.18103686423769913,
      "grad_norm": 0.6741332982875893,
      "learning_rate": 1.8827400680786538e-05,
      "loss": 1.0115,
      "step": 2949
    },
    {
      "epoch": 0.18109825347616562,
      "grad_norm": 0.6466550826558922,
      "learning_rate": 1.8826466256982377e-05,
      "loss": 0.9735,
      "step": 2950
    },
    {
      "epoch": 0.1811596427146321,
      "grad_norm": 0.7049771123403109,
      "learning_rate": 1.8825531484220797e-05,
      "loss": 1.0422,
      "step": 2951
    },
    {
      "epoch": 0.18122103195309863,
      "grad_norm": 0.6587944962965203,
      "learning_rate": 1.8824596362538753e-05,
      "loss": 1.0122,
      "step": 2952
    },
    {
      "epoch": 0.18128242119156512,
      "grad_norm": 0.7008920647342877,
      "learning_rate": 1.8823660891973223e-05,
      "loss": 1.0585,
      "step": 2953
    },
    {
      "epoch": 0.18134381043003162,
      "grad_norm": 0.6369443484126487,
      "learning_rate": 1.882272507256118e-05,
      "loss": 0.9881,
      "step": 2954
    },
    {
      "epoch": 0.1814051996684981,
      "grad_norm": 0.6653822258889992,
      "learning_rate": 1.8821788904339633e-05,
      "loss": 1.0259,
      "step": 2955
    },
    {
      "epoch": 0.1814665889069646,
      "grad_norm": 0.5892598352069875,
      "learning_rate": 1.8820852387345585e-05,
      "loss": 0.9906,
      "step": 2956
    },
    {
      "epoch": 0.18152797814543112,
      "grad_norm": 0.6207896597636771,
      "learning_rate": 1.8819915521616066e-05,
      "loss": 1.0027,
      "step": 2957
    },
    {
      "epoch": 0.1815893673838976,
      "grad_norm": 0.6862106690135322,
      "learning_rate": 1.8818978307188113e-05,
      "loss": 1.0146,
      "step": 2958
    },
    {
      "epoch": 0.1816507566223641,
      "grad_norm": 0.6566735656618771,
      "learning_rate": 1.881804074409878e-05,
      "loss": 1.033,
      "step": 2959
    },
    {
      "epoch": 0.1817121458608306,
      "grad_norm": 0.6597847606614057,
      "learning_rate": 1.8817102832385134e-05,
      "loss": 1.0127,
      "step": 2960
    },
    {
      "epoch": 0.18177353509929708,
      "grad_norm": 0.6596955255153351,
      "learning_rate": 1.8816164572084256e-05,
      "loss": 0.9985,
      "step": 2961
    },
    {
      "epoch": 0.1818349243377636,
      "grad_norm": 0.6530529851865079,
      "learning_rate": 1.881522596323324e-05,
      "loss": 1.0861,
      "step": 2962
    },
    {
      "epoch": 0.1818963135762301,
      "grad_norm": 0.6938026066954229,
      "learning_rate": 1.8814287005869198e-05,
      "loss": 1.0658,
      "step": 2963
    },
    {
      "epoch": 0.1819577028146966,
      "grad_norm": 0.6974966671978401,
      "learning_rate": 1.8813347700029244e-05,
      "loss": 1.0315,
      "step": 2964
    },
    {
      "epoch": 0.18201909205316308,
      "grad_norm": 0.6919173730311103,
      "learning_rate": 1.8812408045750524e-05,
      "loss": 1.0359,
      "step": 2965
    },
    {
      "epoch": 0.18208048129162957,
      "grad_norm": 0.6560817626270385,
      "learning_rate": 1.881146804307018e-05,
      "loss": 1.0364,
      "step": 2966
    },
    {
      "epoch": 0.18214187053009606,
      "grad_norm": 0.6406368938638352,
      "learning_rate": 1.8810527692025372e-05,
      "loss": 0.9918,
      "step": 2967
    },
    {
      "epoch": 0.18220325976856258,
      "grad_norm": 0.6414392592675638,
      "learning_rate": 1.8809586992653285e-05,
      "loss": 1.0282,
      "step": 2968
    },
    {
      "epoch": 0.18226464900702907,
      "grad_norm": 0.619888371890077,
      "learning_rate": 1.880864594499111e-05,
      "loss": 1.0063,
      "step": 2969
    },
    {
      "epoch": 0.18232603824549556,
      "grad_norm": 0.6522970149886717,
      "learning_rate": 1.8807704549076047e-05,
      "loss": 1.0481,
      "step": 2970
    },
    {
      "epoch": 0.18238742748396206,
      "grad_norm": 0.652687788948403,
      "learning_rate": 1.8806762804945317e-05,
      "loss": 1.0121,
      "step": 2971
    },
    {
      "epoch": 0.18244881672242855,
      "grad_norm": 0.6756343067636703,
      "learning_rate": 1.880582071263615e-05,
      "loss": 1.1069,
      "step": 2972
    },
    {
      "epoch": 0.18251020596089507,
      "grad_norm": 0.6222608317389693,
      "learning_rate": 1.8804878272185794e-05,
      "loss": 1.0684,
      "step": 2973
    },
    {
      "epoch": 0.18257159519936156,
      "grad_norm": 0.6615170405462117,
      "learning_rate": 1.8803935483631507e-05,
      "loss": 1.0432,
      "step": 2974
    },
    {
      "epoch": 0.18263298443782805,
      "grad_norm": 0.6723449797018803,
      "learning_rate": 1.8802992347010568e-05,
      "loss": 1.0425,
      "step": 2975
    },
    {
      "epoch": 0.18269437367629454,
      "grad_norm": 0.6223854228560325,
      "learning_rate": 1.8802048862360254e-05,
      "loss": 0.9827,
      "step": 2976
    },
    {
      "epoch": 0.18275576291476103,
      "grad_norm": 0.5758439987250785,
      "learning_rate": 1.8801105029717875e-05,
      "loss": 0.9549,
      "step": 2977
    },
    {
      "epoch": 0.18281715215322755,
      "grad_norm": 0.6068786690003296,
      "learning_rate": 1.8800160849120742e-05,
      "loss": 0.9977,
      "step": 2978
    },
    {
      "epoch": 0.18287854139169404,
      "grad_norm": 0.6135775231246164,
      "learning_rate": 1.8799216320606187e-05,
      "loss": 1.0019,
      "step": 2979
    },
    {
      "epoch": 0.18293993063016054,
      "grad_norm": 0.6270163921272924,
      "learning_rate": 1.8798271444211545e-05,
      "loss": 0.9847,
      "step": 2980
    },
    {
      "epoch": 0.18300131986862703,
      "grad_norm": 0.6639253388999623,
      "learning_rate": 1.8797326219974177e-05,
      "loss": 1.0438,
      "step": 2981
    },
    {
      "epoch": 0.18306270910709352,
      "grad_norm": 0.7027080135233669,
      "learning_rate": 1.879638064793145e-05,
      "loss": 1.0244,
      "step": 2982
    },
    {
      "epoch": 0.18312409834556,
      "grad_norm": 0.6653160525044325,
      "learning_rate": 1.8795434728120756e-05,
      "loss": 1.0155,
      "step": 2983
    },
    {
      "epoch": 0.18318548758402653,
      "grad_norm": 0.6871487646905192,
      "learning_rate": 1.8794488460579483e-05,
      "loss": 1.0194,
      "step": 2984
    },
    {
      "epoch": 0.18324687682249302,
      "grad_norm": 0.6377846159440055,
      "learning_rate": 1.8793541845345045e-05,
      "loss": 1.0488,
      "step": 2985
    },
    {
      "epoch": 0.1833082660609595,
      "grad_norm": 0.6567483435409736,
      "learning_rate": 1.8792594882454863e-05,
      "loss": 1.0503,
      "step": 2986
    },
    {
      "epoch": 0.183369655299426,
      "grad_norm": 0.6530083787156734,
      "learning_rate": 1.8791647571946384e-05,
      "loss": 1.0294,
      "step": 2987
    },
    {
      "epoch": 0.1834310445378925,
      "grad_norm": 0.6546314066959757,
      "learning_rate": 1.8790699913857054e-05,
      "loss": 1.0487,
      "step": 2988
    },
    {
      "epoch": 0.18349243377635902,
      "grad_norm": 0.6585845399251619,
      "learning_rate": 1.878975190822434e-05,
      "loss": 0.9977,
      "step": 2989
    },
    {
      "epoch": 0.1835538230148255,
      "grad_norm": 0.6342790449026267,
      "learning_rate": 1.8788803555085722e-05,
      "loss": 0.9595,
      "step": 2990
    },
    {
      "epoch": 0.183615212253292,
      "grad_norm": 0.6079334111450714,
      "learning_rate": 1.8787854854478693e-05,
      "loss": 0.9735,
      "step": 2991
    },
    {
      "epoch": 0.1836766014917585,
      "grad_norm": 0.6319821987862201,
      "learning_rate": 1.8786905806440762e-05,
      "loss": 0.9996,
      "step": 2992
    },
    {
      "epoch": 0.18373799073022498,
      "grad_norm": 0.6778832282257241,
      "learning_rate": 1.878595641100945e-05,
      "loss": 1.0672,
      "step": 2993
    },
    {
      "epoch": 0.1837993799686915,
      "grad_norm": 0.6824214632850691,
      "learning_rate": 1.8785006668222287e-05,
      "loss": 1.0441,
      "step": 2994
    },
    {
      "epoch": 0.183860769207158,
      "grad_norm": 0.6325275677210477,
      "learning_rate": 1.8784056578116827e-05,
      "loss": 1.0188,
      "step": 2995
    },
    {
      "epoch": 0.18392215844562448,
      "grad_norm": 0.6325800446676586,
      "learning_rate": 1.878310614073063e-05,
      "loss": 1.0276,
      "step": 2996
    },
    {
      "epoch": 0.18398354768409098,
      "grad_norm": 0.6812228635690333,
      "learning_rate": 1.8782155356101272e-05,
      "loss": 1.079,
      "step": 2997
    },
    {
      "epoch": 0.18404493692255747,
      "grad_norm": 0.6278450449941393,
      "learning_rate": 1.8781204224266342e-05,
      "loss": 0.9941,
      "step": 2998
    },
    {
      "epoch": 0.18410632616102396,
      "grad_norm": 0.6365720547806734,
      "learning_rate": 1.8780252745263445e-05,
      "loss": 1.0033,
      "step": 2999
    },
    {
      "epoch": 0.18416771539949048,
      "grad_norm": 0.6040148431470179,
      "learning_rate": 1.8779300919130198e-05,
      "loss": 0.9682,
      "step": 3000
    },
    {
      "epoch": 0.18422910463795697,
      "grad_norm": 0.6474941006664838,
      "learning_rate": 1.8778348745904228e-05,
      "loss": 1.0098,
      "step": 3001
    },
    {
      "epoch": 0.18429049387642346,
      "grad_norm": 0.6421879446449578,
      "learning_rate": 1.877739622562318e-05,
      "loss": 1.0049,
      "step": 3002
    },
    {
      "epoch": 0.18435188311488995,
      "grad_norm": 0.6938516874605374,
      "learning_rate": 1.8776443358324718e-05,
      "loss": 1.08,
      "step": 3003
    },
    {
      "epoch": 0.18441327235335644,
      "grad_norm": 0.6708090564976759,
      "learning_rate": 1.877549014404651e-05,
      "loss": 1.0089,
      "step": 3004
    },
    {
      "epoch": 0.18447466159182296,
      "grad_norm": 0.6245461512893096,
      "learning_rate": 1.877453658282624e-05,
      "loss": 1.0069,
      "step": 3005
    },
    {
      "epoch": 0.18453605083028946,
      "grad_norm": 0.681914817624046,
      "learning_rate": 1.8773582674701614e-05,
      "loss": 1.0388,
      "step": 3006
    },
    {
      "epoch": 0.18459744006875595,
      "grad_norm": 0.6664896339257783,
      "learning_rate": 1.8772628419710335e-05,
      "loss": 1.0272,
      "step": 3007
    },
    {
      "epoch": 0.18465882930722244,
      "grad_norm": 0.6093090332641934,
      "learning_rate": 1.877167381789014e-05,
      "loss": 0.9813,
      "step": 3008
    },
    {
      "epoch": 0.18472021854568893,
      "grad_norm": 0.6958316756373225,
      "learning_rate": 1.8770718869278762e-05,
      "loss": 1.0047,
      "step": 3009
    },
    {
      "epoch": 0.18478160778415545,
      "grad_norm": 0.6259077649948722,
      "learning_rate": 1.8769763573913956e-05,
      "loss": 0.9792,
      "step": 3010
    },
    {
      "epoch": 0.18484299702262194,
      "grad_norm": 0.6799052753676257,
      "learning_rate": 1.8768807931833496e-05,
      "loss": 1.0436,
      "step": 3011
    },
    {
      "epoch": 0.18490438626108843,
      "grad_norm": 0.6388033617278622,
      "learning_rate": 1.8767851943075157e-05,
      "loss": 1.0329,
      "step": 3012
    },
    {
      "epoch": 0.18496577549955492,
      "grad_norm": 0.6057986390494285,
      "learning_rate": 1.876689560767674e-05,
      "loss": 0.9412,
      "step": 3013
    },
    {
      "epoch": 0.18502716473802142,
      "grad_norm": 0.6235320342049627,
      "learning_rate": 1.8765938925676046e-05,
      "loss": 0.9911,
      "step": 3014
    },
    {
      "epoch": 0.18508855397648794,
      "grad_norm": 0.6386580445186353,
      "learning_rate": 1.8764981897110906e-05,
      "loss": 1.0265,
      "step": 3015
    },
    {
      "epoch": 0.18514994321495443,
      "grad_norm": 0.6622051851917055,
      "learning_rate": 1.8764024522019152e-05,
      "loss": 1.067,
      "step": 3016
    },
    {
      "epoch": 0.18521133245342092,
      "grad_norm": 0.5933721812816456,
      "learning_rate": 1.8763066800438638e-05,
      "loss": 0.9325,
      "step": 3017
    },
    {
      "epoch": 0.1852727216918874,
      "grad_norm": 0.6449214970149374,
      "learning_rate": 1.8762108732407224e-05,
      "loss": 1.0596,
      "step": 3018
    },
    {
      "epoch": 0.1853341109303539,
      "grad_norm": 0.6827935640365898,
      "learning_rate": 1.8761150317962788e-05,
      "loss": 1.0815,
      "step": 3019
    },
    {
      "epoch": 0.1853955001688204,
      "grad_norm": 0.6959810263077477,
      "learning_rate": 1.876019155714322e-05,
      "loss": 1.0468,
      "step": 3020
    },
    {
      "epoch": 0.1854568894072869,
      "grad_norm": 0.6756787441449694,
      "learning_rate": 1.8759232449986432e-05,
      "loss": 1.0259,
      "step": 3021
    },
    {
      "epoch": 0.1855182786457534,
      "grad_norm": 0.6465283204263316,
      "learning_rate": 1.8758272996530332e-05,
      "loss": 0.9887,
      "step": 3022
    },
    {
      "epoch": 0.1855796678842199,
      "grad_norm": 0.6162466566593263,
      "learning_rate": 1.8757313196812862e-05,
      "loss": 0.985,
      "step": 3023
    },
    {
      "epoch": 0.1856410571226864,
      "grad_norm": 0.6642897442659681,
      "learning_rate": 1.875635305087196e-05,
      "loss": 0.9541,
      "step": 3024
    },
    {
      "epoch": 0.18570244636115288,
      "grad_norm": 0.6510884659034227,
      "learning_rate": 1.8755392558745593e-05,
      "loss": 0.9749,
      "step": 3025
    },
    {
      "epoch": 0.1857638355996194,
      "grad_norm": 0.6404685387015387,
      "learning_rate": 1.875443172047173e-05,
      "loss": 1.0342,
      "step": 3026
    },
    {
      "epoch": 0.1858252248380859,
      "grad_norm": 0.6723157189953273,
      "learning_rate": 1.875347053608836e-05,
      "loss": 1.074,
      "step": 3027
    },
    {
      "epoch": 0.18588661407655238,
      "grad_norm": 0.6086582364731545,
      "learning_rate": 1.8752509005633482e-05,
      "loss": 1.0057,
      "step": 3028
    },
    {
      "epoch": 0.18594800331501887,
      "grad_norm": 0.6690696685147193,
      "learning_rate": 1.875154712914511e-05,
      "loss": 0.9948,
      "step": 3029
    },
    {
      "epoch": 0.18600939255348536,
      "grad_norm": 0.6215752002147285,
      "learning_rate": 1.8750584906661274e-05,
      "loss": 0.9779,
      "step": 3030
    },
    {
      "epoch": 0.18607078179195188,
      "grad_norm": 0.5554144945571319,
      "learning_rate": 1.8749622338220016e-05,
      "loss": 0.9297,
      "step": 3031
    },
    {
      "epoch": 0.18613217103041838,
      "grad_norm": 0.6221820627596821,
      "learning_rate": 1.8748659423859393e-05,
      "loss": 0.9785,
      "step": 3032
    },
    {
      "epoch": 0.18619356026888487,
      "grad_norm": 0.7171186125685817,
      "learning_rate": 1.8747696163617467e-05,
      "loss": 1.0585,
      "step": 3033
    },
    {
      "epoch": 0.18625494950735136,
      "grad_norm": 0.6789809011170463,
      "learning_rate": 1.874673255753233e-05,
      "loss": 1.0262,
      "step": 3034
    },
    {
      "epoch": 0.18631633874581785,
      "grad_norm": 0.6733265233580129,
      "learning_rate": 1.8745768605642074e-05,
      "loss": 1.0568,
      "step": 3035
    },
    {
      "epoch": 0.18637772798428434,
      "grad_norm": 0.6208266154432261,
      "learning_rate": 1.8744804307984806e-05,
      "loss": 0.996,
      "step": 3036
    },
    {
      "epoch": 0.18643911722275086,
      "grad_norm": 0.6519810183775715,
      "learning_rate": 1.8743839664598654e-05,
      "loss": 1.0515,
      "step": 3037
    },
    {
      "epoch": 0.18650050646121735,
      "grad_norm": 0.6311443469307586,
      "learning_rate": 1.8742874675521757e-05,
      "loss": 0.9668,
      "step": 3038
    },
    {
      "epoch": 0.18656189569968384,
      "grad_norm": 0.6283495478074906,
      "learning_rate": 1.874190934079226e-05,
      "loss": 0.9928,
      "step": 3039
    },
    {
      "epoch": 0.18662328493815034,
      "grad_norm": 0.6197043154757318,
      "learning_rate": 1.8740943660448336e-05,
      "loss": 0.9878,
      "step": 3040
    },
    {
      "epoch": 0.18668467417661683,
      "grad_norm": 0.7106731757126827,
      "learning_rate": 1.873997763452816e-05,
      "loss": 0.9694,
      "step": 3041
    },
    {
      "epoch": 0.18674606341508335,
      "grad_norm": 0.6291535051468445,
      "learning_rate": 1.873901126306992e-05,
      "loss": 1.0508,
      "step": 3042
    },
    {
      "epoch": 0.18680745265354984,
      "grad_norm": 0.6361192484381066,
      "learning_rate": 1.8738044546111824e-05,
      "loss": 1.0133,
      "step": 3043
    },
    {
      "epoch": 0.18686884189201633,
      "grad_norm": 0.6553236484727044,
      "learning_rate": 1.8737077483692097e-05,
      "loss": 1.0277,
      "step": 3044
    },
    {
      "epoch": 0.18693023113048282,
      "grad_norm": 0.6536413727627303,
      "learning_rate": 1.8736110075848967e-05,
      "loss": 1.0604,
      "step": 3045
    },
    {
      "epoch": 0.1869916203689493,
      "grad_norm": 0.6057097233209997,
      "learning_rate": 1.8735142322620678e-05,
      "loss": 0.9953,
      "step": 3046
    },
    {
      "epoch": 0.18705300960741583,
      "grad_norm": 0.6497807003644235,
      "learning_rate": 1.8734174224045496e-05,
      "loss": 1.0638,
      "step": 3047
    },
    {
      "epoch": 0.18711439884588232,
      "grad_norm": 0.6333516865385892,
      "learning_rate": 1.8733205780161694e-05,
      "loss": 1.015,
      "step": 3048
    },
    {
      "epoch": 0.18717578808434882,
      "grad_norm": 0.6114600023113391,
      "learning_rate": 1.873223699100756e-05,
      "loss": 0.9865,
      "step": 3049
    },
    {
      "epoch": 0.1872371773228153,
      "grad_norm": 0.6417190119888322,
      "learning_rate": 1.8731267856621392e-05,
      "loss": 1.036,
      "step": 3050
    },
    {
      "epoch": 0.1872985665612818,
      "grad_norm": 0.606825121010391,
      "learning_rate": 1.873029837704151e-05,
      "loss": 0.9896,
      "step": 3051
    },
    {
      "epoch": 0.18735995579974832,
      "grad_norm": 0.6571470971906597,
      "learning_rate": 1.872932855230624e-05,
      "loss": 1.0587,
      "step": 3052
    },
    {
      "epoch": 0.1874213450382148,
      "grad_norm": 0.630452749447464,
      "learning_rate": 1.8728358382453923e-05,
      "loss": 1.0101,
      "step": 3053
    },
    {
      "epoch": 0.1874827342766813,
      "grad_norm": 0.6865550940418699,
      "learning_rate": 1.872738786752292e-05,
      "loss": 1.0414,
      "step": 3054
    },
    {
      "epoch": 0.1875441235151478,
      "grad_norm": 0.654049031057672,
      "learning_rate": 1.872641700755159e-05,
      "loss": 1.0341,
      "step": 3055
    },
    {
      "epoch": 0.18760551275361428,
      "grad_norm": 0.6141299677751586,
      "learning_rate": 1.872544580257833e-05,
      "loss": 0.9823,
      "step": 3056
    },
    {
      "epoch": 0.18766690199208078,
      "grad_norm": 0.6970729552645406,
      "learning_rate": 1.872447425264153e-05,
      "loss": 1.1176,
      "step": 3057
    },
    {
      "epoch": 0.1877282912305473,
      "grad_norm": 0.6414625650075974,
      "learning_rate": 1.87235023577796e-05,
      "loss": 1.0064,
      "step": 3058
    },
    {
      "epoch": 0.1877896804690138,
      "grad_norm": 0.5937312381153752,
      "learning_rate": 1.8722530118030966e-05,
      "loss": 1.0111,
      "step": 3059
    },
    {
      "epoch": 0.18785106970748028,
      "grad_norm": 0.6621449334898074,
      "learning_rate": 1.872155753343406e-05,
      "loss": 0.9702,
      "step": 3060
    },
    {
      "epoch": 0.18791245894594677,
      "grad_norm": 0.6833772184161298,
      "learning_rate": 1.8720584604027344e-05,
      "loss": 1.0543,
      "step": 3061
    },
    {
      "epoch": 0.18797384818441326,
      "grad_norm": 0.6256791781867702,
      "learning_rate": 1.871961132984928e-05,
      "loss": 0.9631,
      "step": 3062
    },
    {
      "epoch": 0.18803523742287978,
      "grad_norm": 0.6413530118652686,
      "learning_rate": 1.8718637710938336e-05,
      "loss": 1.0431,
      "step": 3063
    },
    {
      "epoch": 0.18809662666134627,
      "grad_norm": 0.6800986392542634,
      "learning_rate": 1.871766374733302e-05,
      "loss": 1.04,
      "step": 3064
    },
    {
      "epoch": 0.18815801589981276,
      "grad_norm": 0.6475182550590897,
      "learning_rate": 1.8716689439071827e-05,
      "loss": 1.0149,
      "step": 3065
    },
    {
      "epoch": 0.18821940513827926,
      "grad_norm": 0.6661550749524124,
      "learning_rate": 1.871571478619328e-05,
      "loss": 1.0384,
      "step": 3066
    },
    {
      "epoch": 0.18828079437674575,
      "grad_norm": 0.619410444554572,
      "learning_rate": 1.8714739788735917e-05,
      "loss": 1.0197,
      "step": 3067
    },
    {
      "epoch": 0.18834218361521227,
      "grad_norm": 0.593243052030775,
      "learning_rate": 1.8713764446738277e-05,
      "loss": 0.9374,
      "step": 3068
    },
    {
      "epoch": 0.18840357285367876,
      "grad_norm": 0.6122547387227083,
      "learning_rate": 1.8712788760238923e-05,
      "loss": 0.9984,
      "step": 3069
    },
    {
      "epoch": 0.18846496209214525,
      "grad_norm": 0.6741233161363057,
      "learning_rate": 1.8711812729276433e-05,
      "loss": 1.0176,
      "step": 3070
    },
    {
      "epoch": 0.18852635133061174,
      "grad_norm": 0.6268314096762931,
      "learning_rate": 1.871083635388939e-05,
      "loss": 1.0384,
      "step": 3071
    },
    {
      "epoch": 0.18858774056907823,
      "grad_norm": 0.6222625149612587,
      "learning_rate": 1.8709859634116396e-05,
      "loss": 0.9648,
      "step": 3072
    },
    {
      "epoch": 0.18864912980754472,
      "grad_norm": 0.6246893321396811,
      "learning_rate": 1.870888256999607e-05,
      "loss": 0.9913,
      "step": 3073
    },
    {
      "epoch": 0.18871051904601124,
      "grad_norm": 0.6687572911985188,
      "learning_rate": 1.8707905161567033e-05,
      "loss": 1.0488,
      "step": 3074
    },
    {
      "epoch": 0.18877190828447774,
      "grad_norm": 0.6419077192196042,
      "learning_rate": 1.8706927408867936e-05,
      "loss": 0.9549,
      "step": 3075
    },
    {
      "epoch": 0.18883329752294423,
      "grad_norm": 0.6674339804655629,
      "learning_rate": 1.8705949311937427e-05,
      "loss": 1.0334,
      "step": 3076
    },
    {
      "epoch": 0.18889468676141072,
      "grad_norm": 0.7277407729486617,
      "learning_rate": 1.8704970870814186e-05,
      "loss": 1.0419,
      "step": 3077
    },
    {
      "epoch": 0.1889560759998772,
      "grad_norm": 0.6084216339338225,
      "learning_rate": 1.870399208553688e-05,
      "loss": 0.9869,
      "step": 3078
    },
    {
      "epoch": 0.18901746523834373,
      "grad_norm": 0.6238983256899753,
      "learning_rate": 1.870301295614422e-05,
      "loss": 0.9571,
      "step": 3079
    },
    {
      "epoch": 0.18907885447681022,
      "grad_norm": 0.6329615383871664,
      "learning_rate": 1.870203348267491e-05,
      "loss": 1.0211,
      "step": 3080
    },
    {
      "epoch": 0.1891402437152767,
      "grad_norm": 0.7031155327907265,
      "learning_rate": 1.8701053665167673e-05,
      "loss": 1.0332,
      "step": 3081
    },
    {
      "epoch": 0.1892016329537432,
      "grad_norm": 0.7300780729664603,
      "learning_rate": 1.8700073503661254e-05,
      "loss": 1.0454,
      "step": 3082
    },
    {
      "epoch": 0.1892630221922097,
      "grad_norm": 0.687700531547152,
      "learning_rate": 1.869909299819439e-05,
      "loss": 1.0289,
      "step": 3083
    },
    {
      "epoch": 0.18932441143067621,
      "grad_norm": 0.6789887110500639,
      "learning_rate": 1.869811214880586e-05,
      "loss": 1.0206,
      "step": 3084
    },
    {
      "epoch": 0.1893858006691427,
      "grad_norm": 0.5969044785999513,
      "learning_rate": 1.8697130955534432e-05,
      "loss": 0.9626,
      "step": 3085
    },
    {
      "epoch": 0.1894471899076092,
      "grad_norm": 0.6201823272029678,
      "learning_rate": 1.8696149418418903e-05,
      "loss": 0.9856,
      "step": 3086
    },
    {
      "epoch": 0.1895085791460757,
      "grad_norm": 0.6447192118023075,
      "learning_rate": 1.869516753749808e-05,
      "loss": 1.0494,
      "step": 3087
    },
    {
      "epoch": 0.18956996838454218,
      "grad_norm": 0.6646775498000151,
      "learning_rate": 1.8694185312810775e-05,
      "loss": 0.969,
      "step": 3088
    },
    {
      "epoch": 0.18963135762300867,
      "grad_norm": 0.6615100172356877,
      "learning_rate": 1.869320274439583e-05,
      "loss": 1.0461,
      "step": 3089
    },
    {
      "epoch": 0.1896927468614752,
      "grad_norm": 0.6048474540005346,
      "learning_rate": 1.869221983229208e-05,
      "loss": 0.9431,
      "step": 3090
    },
    {
      "epoch": 0.18975413609994168,
      "grad_norm": 0.6558181303165862,
      "learning_rate": 1.8691236576538393e-05,
      "loss": 1.0463,
      "step": 3091
    },
    {
      "epoch": 0.18981552533840818,
      "grad_norm": 0.6049576668334844,
      "learning_rate": 1.869025297717364e-05,
      "loss": 1.006,
      "step": 3092
    },
    {
      "epoch": 0.18987691457687467,
      "grad_norm": 0.6926102254026799,
      "learning_rate": 1.868926903423671e-05,
      "loss": 1.0327,
      "step": 3093
    },
    {
      "epoch": 0.18993830381534116,
      "grad_norm": 0.612106571953873,
      "learning_rate": 1.8688284747766498e-05,
      "loss": 0.9913,
      "step": 3094
    },
    {
      "epoch": 0.18999969305380768,
      "grad_norm": 0.6654420118304509,
      "learning_rate": 1.8687300117801927e-05,
      "loss": 1.0402,
      "step": 3095
    },
    {
      "epoch": 0.19006108229227417,
      "grad_norm": 0.6132427594167803,
      "learning_rate": 1.8686315144381914e-05,
      "loss": 0.9935,
      "step": 3096
    },
    {
      "epoch": 0.19012247153074066,
      "grad_norm": 0.6453835166547633,
      "learning_rate": 1.8685329827545407e-05,
      "loss": 1.0018,
      "step": 3097
    },
    {
      "epoch": 0.19018386076920715,
      "grad_norm": 0.7015138416419868,
      "learning_rate": 1.8684344167331362e-05,
      "loss": 1.0144,
      "step": 3098
    },
    {
      "epoch": 0.19024525000767364,
      "grad_norm": 0.651428494272002,
      "learning_rate": 1.8683358163778743e-05,
      "loss": 1.0186,
      "step": 3099
    },
    {
      "epoch": 0.19030663924614016,
      "grad_norm": 0.655059883537817,
      "learning_rate": 1.8682371816926533e-05,
      "loss": 0.9859,
      "step": 3100
    },
    {
      "epoch": 0.19036802848460666,
      "grad_norm": 0.6178240351322267,
      "learning_rate": 1.868138512681373e-05,
      "loss": 0.9913,
      "step": 3101
    },
    {
      "epoch": 0.19042941772307315,
      "grad_norm": 0.6593820072542653,
      "learning_rate": 1.868039809347934e-05,
      "loss": 0.9974,
      "step": 3102
    },
    {
      "epoch": 0.19049080696153964,
      "grad_norm": 0.5710781152330009,
      "learning_rate": 1.867941071696239e-05,
      "loss": 0.9721,
      "step": 3103
    },
    {
      "epoch": 0.19055219620000613,
      "grad_norm": 0.669488077334532,
      "learning_rate": 1.8678422997301912e-05,
      "loss": 0.9677,
      "step": 3104
    },
    {
      "epoch": 0.19061358543847265,
      "grad_norm": 0.646965521240002,
      "learning_rate": 1.8677434934536958e-05,
      "loss": 1.0448,
      "step": 3105
    },
    {
      "epoch": 0.19067497467693914,
      "grad_norm": 0.6588092491190397,
      "learning_rate": 1.867644652870659e-05,
      "loss": 0.9719,
      "step": 3106
    },
    {
      "epoch": 0.19073636391540563,
      "grad_norm": 0.6804058159541243,
      "learning_rate": 1.867545777984989e-05,
      "loss": 1.014,
      "step": 3107
    },
    {
      "epoch": 0.19079775315387212,
      "grad_norm": 0.7117561383299372,
      "learning_rate": 1.867446868800594e-05,
      "loss": 1.0111,
      "step": 3108
    },
    {
      "epoch": 0.19085914239233862,
      "grad_norm": 0.6464282948679572,
      "learning_rate": 1.8673479253213848e-05,
      "loss": 1.026,
      "step": 3109
    },
    {
      "epoch": 0.1909205316308051,
      "grad_norm": 0.6395363420056533,
      "learning_rate": 1.867248947551273e-05,
      "loss": 0.9792,
      "step": 3110
    },
    {
      "epoch": 0.19098192086927163,
      "grad_norm": 0.6815199219844715,
      "learning_rate": 1.8671499354941726e-05,
      "loss": 1.0375,
      "step": 3111
    },
    {
      "epoch": 0.19104331010773812,
      "grad_norm": 0.6154888034740321,
      "learning_rate": 1.867050889153997e-05,
      "loss": 0.9619,
      "step": 3112
    },
    {
      "epoch": 0.1911046993462046,
      "grad_norm": 0.5835322254970914,
      "learning_rate": 1.8669518085346624e-05,
      "loss": 0.9513,
      "step": 3113
    },
    {
      "epoch": 0.1911660885846711,
      "grad_norm": 0.6419225458639946,
      "learning_rate": 1.8668526936400863e-05,
      "loss": 0.9842,
      "step": 3114
    },
    {
      "epoch": 0.1912274778231376,
      "grad_norm": 0.7233112715440776,
      "learning_rate": 1.866753544474187e-05,
      "loss": 1.0465,
      "step": 3115
    },
    {
      "epoch": 0.1912888670616041,
      "grad_norm": 0.6425419867414739,
      "learning_rate": 1.866654361040884e-05,
      "loss": 1.0226,
      "step": 3116
    },
    {
      "epoch": 0.1913502563000706,
      "grad_norm": 0.5625353265280313,
      "learning_rate": 1.8665551433440988e-05,
      "loss": 0.9716,
      "step": 3117
    },
    {
      "epoch": 0.1914116455385371,
      "grad_norm": 0.6326920225957907,
      "learning_rate": 1.8664558913877548e-05,
      "loss": 1.0249,
      "step": 3118
    },
    {
      "epoch": 0.1914730347770036,
      "grad_norm": 0.6308477295963428,
      "learning_rate": 1.8663566051757747e-05,
      "loss": 0.9688,
      "step": 3119
    },
    {
      "epoch": 0.19153442401547008,
      "grad_norm": 0.6423989760374899,
      "learning_rate": 1.8662572847120845e-05,
      "loss": 1.0585,
      "step": 3120
    },
    {
      "epoch": 0.1915958132539366,
      "grad_norm": 0.6445818890283675,
      "learning_rate": 1.866157930000611e-05,
      "loss": 1.0287,
      "step": 3121
    },
    {
      "epoch": 0.1916572024924031,
      "grad_norm": 0.6315085749772894,
      "learning_rate": 1.8660585410452818e-05,
      "loss": 1.0537,
      "step": 3122
    },
    {
      "epoch": 0.19171859173086958,
      "grad_norm": 0.6518866317315721,
      "learning_rate": 1.8659591178500266e-05,
      "loss": 1.0106,
      "step": 3123
    },
    {
      "epoch": 0.19177998096933607,
      "grad_norm": 0.6319537938612954,
      "learning_rate": 1.8658596604187758e-05,
      "loss": 0.998,
      "step": 3124
    },
    {
      "epoch": 0.19184137020780256,
      "grad_norm": 0.6161482151057556,
      "learning_rate": 1.8657601687554616e-05,
      "loss": 0.976,
      "step": 3125
    },
    {
      "epoch": 0.19190275944626906,
      "grad_norm": 0.6814997392802631,
      "learning_rate": 1.865660642864018e-05,
      "loss": 0.9955,
      "step": 3126
    },
    {
      "epoch": 0.19196414868473557,
      "grad_norm": 0.6199517142982826,
      "learning_rate": 1.8655610827483788e-05,
      "loss": 0.9773,
      "step": 3127
    },
    {
      "epoch": 0.19202553792320207,
      "grad_norm": 0.6090447946717451,
      "learning_rate": 1.865461488412481e-05,
      "loss": 0.9632,
      "step": 3128
    },
    {
      "epoch": 0.19208692716166856,
      "grad_norm": 0.7150061174188559,
      "learning_rate": 1.8653618598602615e-05,
      "loss": 1.0475,
      "step": 3129
    },
    {
      "epoch": 0.19214831640013505,
      "grad_norm": 0.71962893994292,
      "learning_rate": 1.8652621970956594e-05,
      "loss": 1.0679,
      "step": 3130
    },
    {
      "epoch": 0.19220970563860154,
      "grad_norm": 0.6791934072425934,
      "learning_rate": 1.8651625001226153e-05,
      "loss": 1.0099,
      "step": 3131
    },
    {
      "epoch": 0.19227109487706806,
      "grad_norm": 0.680128869979321,
      "learning_rate": 1.86506276894507e-05,
      "loss": 1.0548,
      "step": 3132
    },
    {
      "epoch": 0.19233248411553455,
      "grad_norm": 0.6716334400555453,
      "learning_rate": 1.864963003566967e-05,
      "loss": 1.0358,
      "step": 3133
    },
    {
      "epoch": 0.19239387335400104,
      "grad_norm": 0.6079927469211417,
      "learning_rate": 1.86486320399225e-05,
      "loss": 0.9711,
      "step": 3134
    },
    {
      "epoch": 0.19245526259246754,
      "grad_norm": 0.5695695416437281,
      "learning_rate": 1.8647633702248648e-05,
      "loss": 0.9591,
      "step": 3135
    },
    {
      "epoch": 0.19251665183093403,
      "grad_norm": 0.7063507392497257,
      "learning_rate": 1.864663502268759e-05,
      "loss": 1.0427,
      "step": 3136
    },
    {
      "epoch": 0.19257804106940055,
      "grad_norm": 0.639516461482057,
      "learning_rate": 1.86456360012788e-05,
      "loss": 0.9884,
      "step": 3137
    },
    {
      "epoch": 0.19263943030786704,
      "grad_norm": 0.6602532932900967,
      "learning_rate": 1.864463663806178e-05,
      "loss": 1.0429,
      "step": 3138
    },
    {
      "epoch": 0.19270081954633353,
      "grad_norm": 0.639038147072029,
      "learning_rate": 1.864363693307604e-05,
      "loss": 1.0168,
      "step": 3139
    },
    {
      "epoch": 0.19276220878480002,
      "grad_norm": 0.6514670020431078,
      "learning_rate": 1.8642636886361102e-05,
      "loss": 1.0104,
      "step": 3140
    },
    {
      "epoch": 0.1928235980232665,
      "grad_norm": 0.6810236958263925,
      "learning_rate": 1.8641636497956504e-05,
      "loss": 1.0325,
      "step": 3141
    },
    {
      "epoch": 0.19288498726173303,
      "grad_norm": 0.707492544006931,
      "learning_rate": 1.8640635767901796e-05,
      "loss": 1.0869,
      "step": 3142
    },
    {
      "epoch": 0.19294637650019952,
      "grad_norm": 0.647563063204901,
      "learning_rate": 1.8639634696236542e-05,
      "loss": 1.0089,
      "step": 3143
    },
    {
      "epoch": 0.19300776573866602,
      "grad_norm": 0.6122468872721932,
      "learning_rate": 1.8638633283000323e-05,
      "loss": 0.9497,
      "step": 3144
    },
    {
      "epoch": 0.1930691549771325,
      "grad_norm": 0.6476856504406165,
      "learning_rate": 1.863763152823273e-05,
      "loss": 0.9602,
      "step": 3145
    },
    {
      "epoch": 0.193130544215599,
      "grad_norm": 0.6700725930037611,
      "learning_rate": 1.863662943197336e-05,
      "loss": 1.0433,
      "step": 3146
    },
    {
      "epoch": 0.1931919334540655,
      "grad_norm": 0.6262755468382964,
      "learning_rate": 1.863562699426184e-05,
      "loss": 0.9693,
      "step": 3147
    },
    {
      "epoch": 0.193253322692532,
      "grad_norm": 0.6204591122345593,
      "learning_rate": 1.863462421513779e-05,
      "loss": 0.9613,
      "step": 3148
    },
    {
      "epoch": 0.1933147119309985,
      "grad_norm": 0.6646173824236274,
      "learning_rate": 1.8633621094640873e-05,
      "loss": 1.0028,
      "step": 3149
    },
    {
      "epoch": 0.193376101169465,
      "grad_norm": 0.6478419109145029,
      "learning_rate": 1.8632617632810737e-05,
      "loss": 1.0813,
      "step": 3150
    },
    {
      "epoch": 0.19343749040793148,
      "grad_norm": 0.6353170280043491,
      "learning_rate": 1.8631613829687053e-05,
      "loss": 0.9757,
      "step": 3151
    },
    {
      "epoch": 0.19349887964639798,
      "grad_norm": 0.6034072008391402,
      "learning_rate": 1.863060968530951e-05,
      "loss": 0.9831,
      "step": 3152
    },
    {
      "epoch": 0.1935602688848645,
      "grad_norm": 0.6646420950469002,
      "learning_rate": 1.8629605199717805e-05,
      "loss": 1.0,
      "step": 3153
    },
    {
      "epoch": 0.193621658123331,
      "grad_norm": 0.6361849398821743,
      "learning_rate": 1.8628600372951656e-05,
      "loss": 1.0189,
      "step": 3154
    },
    {
      "epoch": 0.19368304736179748,
      "grad_norm": 0.6412678684001264,
      "learning_rate": 1.862759520505078e-05,
      "loss": 0.9678,
      "step": 3155
    },
    {
      "epoch": 0.19374443660026397,
      "grad_norm": 0.6485565269939465,
      "learning_rate": 1.8626589696054927e-05,
      "loss": 1.0058,
      "step": 3156
    },
    {
      "epoch": 0.19380582583873046,
      "grad_norm": 0.6922280329238204,
      "learning_rate": 1.8625583846003843e-05,
      "loss": 1.0134,
      "step": 3157
    },
    {
      "epoch": 0.19386721507719698,
      "grad_norm": 0.63148630913106,
      "learning_rate": 1.8624577654937294e-05,
      "loss": 0.9834,
      "step": 3158
    },
    {
      "epoch": 0.19392860431566347,
      "grad_norm": 0.6830655229763892,
      "learning_rate": 1.8623571122895065e-05,
      "loss": 1.0712,
      "step": 3159
    },
    {
      "epoch": 0.19398999355412996,
      "grad_norm": 0.5622873519965311,
      "learning_rate": 1.862256424991695e-05,
      "loss": 0.9361,
      "step": 3160
    },
    {
      "epoch": 0.19405138279259646,
      "grad_norm": 0.6344569693935865,
      "learning_rate": 1.862155703604275e-05,
      "loss": 0.9568,
      "step": 3161
    },
    {
      "epoch": 0.19411277203106295,
      "grad_norm": 0.6324276446383209,
      "learning_rate": 1.8620549481312293e-05,
      "loss": 0.9884,
      "step": 3162
    },
    {
      "epoch": 0.19417416126952944,
      "grad_norm": 0.6520626447737684,
      "learning_rate": 1.8619541585765403e-05,
      "loss": 1.0073,
      "step": 3163
    },
    {
      "epoch": 0.19423555050799596,
      "grad_norm": 0.6936773482326278,
      "learning_rate": 1.861853334944194e-05,
      "loss": 1.0525,
      "step": 3164
    },
    {
      "epoch": 0.19429693974646245,
      "grad_norm": 0.6203035778221846,
      "learning_rate": 1.8617524772381753e-05,
      "loss": 1.0501,
      "step": 3165
    },
    {
      "epoch": 0.19435832898492894,
      "grad_norm": 0.6225904964639141,
      "learning_rate": 1.8616515854624725e-05,
      "loss": 1.0241,
      "step": 3166
    },
    {
      "epoch": 0.19441971822339543,
      "grad_norm": 0.6742809208537486,
      "learning_rate": 1.861550659621074e-05,
      "loss": 1.0214,
      "step": 3167
    },
    {
      "epoch": 0.19448110746186192,
      "grad_norm": 0.6597867364735786,
      "learning_rate": 1.8614496997179703e-05,
      "loss": 1.017,
      "step": 3168
    },
    {
      "epoch": 0.19454249670032844,
      "grad_norm": 0.6056167856075032,
      "learning_rate": 1.8613487057571523e-05,
      "loss": 0.9836,
      "step": 3169
    },
    {
      "epoch": 0.19460388593879493,
      "grad_norm": 0.6303576106491626,
      "learning_rate": 1.861247677742613e-05,
      "loss": 1.0448,
      "step": 3170
    },
    {
      "epoch": 0.19466527517726143,
      "grad_norm": 0.6126221598175892,
      "learning_rate": 1.861146615678347e-05,
      "loss": 0.9594,
      "step": 3171
    },
    {
      "epoch": 0.19472666441572792,
      "grad_norm": 0.7008660591530786,
      "learning_rate": 1.8610455195683497e-05,
      "loss": 1.0739,
      "step": 3172
    },
    {
      "epoch": 0.1947880536541944,
      "grad_norm": 0.6447126517276113,
      "learning_rate": 1.8609443894166176e-05,
      "loss": 1.0175,
      "step": 3173
    },
    {
      "epoch": 0.19484944289266093,
      "grad_norm": 0.6990236545471706,
      "learning_rate": 1.860843225227149e-05,
      "loss": 1.0485,
      "step": 3174
    },
    {
      "epoch": 0.19491083213112742,
      "grad_norm": 0.6617888243813342,
      "learning_rate": 1.860742027003944e-05,
      "loss": 1.0238,
      "step": 3175
    },
    {
      "epoch": 0.1949722213695939,
      "grad_norm": 0.6169869158194724,
      "learning_rate": 1.8606407947510026e-05,
      "loss": 0.9934,
      "step": 3176
    },
    {
      "epoch": 0.1950336106080604,
      "grad_norm": 0.676090767194794,
      "learning_rate": 1.8605395284723277e-05,
      "loss": 0.9981,
      "step": 3177
    },
    {
      "epoch": 0.1950949998465269,
      "grad_norm": 0.6422975299361298,
      "learning_rate": 1.860438228171923e-05,
      "loss": 1.0113,
      "step": 3178
    },
    {
      "epoch": 0.1951563890849934,
      "grad_norm": 0.5983133789423084,
      "learning_rate": 1.860336893853793e-05,
      "loss": 1.0043,
      "step": 3179
    },
    {
      "epoch": 0.1952177783234599,
      "grad_norm": 0.655420024830359,
      "learning_rate": 1.8602355255219443e-05,
      "loss": 1.0226,
      "step": 3180
    },
    {
      "epoch": 0.1952791675619264,
      "grad_norm": 0.6333440808023447,
      "learning_rate": 1.8601341231803844e-05,
      "loss": 0.9789,
      "step": 3181
    },
    {
      "epoch": 0.1953405568003929,
      "grad_norm": 0.6252021234353584,
      "learning_rate": 1.860032686833122e-05,
      "loss": 1.0298,
      "step": 3182
    },
    {
      "epoch": 0.19540194603885938,
      "grad_norm": 0.6096855983728333,
      "learning_rate": 1.859931216484168e-05,
      "loss": 0.9913,
      "step": 3183
    },
    {
      "epoch": 0.19546333527732587,
      "grad_norm": 0.5963210245316967,
      "learning_rate": 1.859829712137534e-05,
      "loss": 1.0036,
      "step": 3184
    },
    {
      "epoch": 0.1955247245157924,
      "grad_norm": 0.6246284284114102,
      "learning_rate": 1.8597281737972323e-05,
      "loss": 1.0209,
      "step": 3185
    },
    {
      "epoch": 0.19558611375425888,
      "grad_norm": 0.6707478482837544,
      "learning_rate": 1.859626601467278e-05,
      "loss": 1.0234,
      "step": 3186
    },
    {
      "epoch": 0.19564750299272538,
      "grad_norm": 0.6349339566284733,
      "learning_rate": 1.8595249951516862e-05,
      "loss": 1.0387,
      "step": 3187
    },
    {
      "epoch": 0.19570889223119187,
      "grad_norm": 0.6806587322662533,
      "learning_rate": 1.8594233548544746e-05,
      "loss": 1.0521,
      "step": 3188
    },
    {
      "epoch": 0.19577028146965836,
      "grad_norm": 0.5989867226155985,
      "learning_rate": 1.8593216805796612e-05,
      "loss": 0.9759,
      "step": 3189
    },
    {
      "epoch": 0.19583167070812488,
      "grad_norm": 0.6411553817603887,
      "learning_rate": 1.8592199723312657e-05,
      "loss": 0.9766,
      "step": 3190
    },
    {
      "epoch": 0.19589305994659137,
      "grad_norm": 0.6056971087405739,
      "learning_rate": 1.8591182301133094e-05,
      "loss": 1.0023,
      "step": 3191
    },
    {
      "epoch": 0.19595444918505786,
      "grad_norm": 0.6210960817830516,
      "learning_rate": 1.8590164539298144e-05,
      "loss": 0.9938,
      "step": 3192
    },
    {
      "epoch": 0.19601583842352435,
      "grad_norm": 0.7154605546796289,
      "learning_rate": 1.858914643784805e-05,
      "loss": 1.0616,
      "step": 3193
    },
    {
      "epoch": 0.19607722766199084,
      "grad_norm": 0.6424522906239314,
      "learning_rate": 1.8588127996823056e-05,
      "loss": 1.0047,
      "step": 3194
    },
    {
      "epoch": 0.19613861690045736,
      "grad_norm": 0.6566053338529569,
      "learning_rate": 1.8587109216263434e-05,
      "loss": 1.0373,
      "step": 3195
    },
    {
      "epoch": 0.19620000613892385,
      "grad_norm": 0.6515635937279404,
      "learning_rate": 1.858609009620945e-05,
      "loss": 0.9587,
      "step": 3196
    },
    {
      "epoch": 0.19626139537739035,
      "grad_norm": 0.7044759782451849,
      "learning_rate": 1.858507063670141e-05,
      "loss": 1.0117,
      "step": 3197
    },
    {
      "epoch": 0.19632278461585684,
      "grad_norm": 0.6714332014859097,
      "learning_rate": 1.8584050837779607e-05,
      "loss": 1.0611,
      "step": 3198
    },
    {
      "epoch": 0.19638417385432333,
      "grad_norm": 0.641700037035409,
      "learning_rate": 1.858303069948437e-05,
      "loss": 1.0296,
      "step": 3199
    },
    {
      "epoch": 0.19644556309278982,
      "grad_norm": 0.6426019626699702,
      "learning_rate": 1.8582010221856018e-05,
      "loss": 0.9652,
      "step": 3200
    },
    {
      "epoch": 0.19650695233125634,
      "grad_norm": 0.6773959732959942,
      "learning_rate": 1.8580989404934902e-05,
      "loss": 1.0664,
      "step": 3201
    },
    {
      "epoch": 0.19656834156972283,
      "grad_norm": 0.6657167475415919,
      "learning_rate": 1.8579968248761384e-05,
      "loss": 1.0835,
      "step": 3202
    },
    {
      "epoch": 0.19662973080818932,
      "grad_norm": 0.622310556729123,
      "learning_rate": 1.8578946753375828e-05,
      "loss": 0.9976,
      "step": 3203
    },
    {
      "epoch": 0.19669112004665582,
      "grad_norm": 0.6189773159878157,
      "learning_rate": 1.8577924918818626e-05,
      "loss": 1.0256,
      "step": 3204
    },
    {
      "epoch": 0.1967525092851223,
      "grad_norm": 0.6614466209084903,
      "learning_rate": 1.8576902745130175e-05,
      "loss": 0.9931,
      "step": 3205
    },
    {
      "epoch": 0.19681389852358883,
      "grad_norm": 0.6594379653723036,
      "learning_rate": 1.8575880232350883e-05,
      "loss": 0.9853,
      "step": 3206
    },
    {
      "epoch": 0.19687528776205532,
      "grad_norm": 0.6465184042940201,
      "learning_rate": 1.857485738052118e-05,
      "loss": 1.04,
      "step": 3207
    },
    {
      "epoch": 0.1969366770005218,
      "grad_norm": 0.6528043831543627,
      "learning_rate": 1.8573834189681507e-05,
      "loss": 1.0175,
      "step": 3208
    },
    {
      "epoch": 0.1969980662389883,
      "grad_norm": 0.6091373170450529,
      "learning_rate": 1.8572810659872307e-05,
      "loss": 0.9787,
      "step": 3209
    },
    {
      "epoch": 0.1970594554774548,
      "grad_norm": 0.6187618728971938,
      "learning_rate": 1.8571786791134054e-05,
      "loss": 1.0063,
      "step": 3210
    },
    {
      "epoch": 0.1971208447159213,
      "grad_norm": 0.6090388789176625,
      "learning_rate": 1.857076258350722e-05,
      "loss": 0.9814,
      "step": 3211
    },
    {
      "epoch": 0.1971822339543878,
      "grad_norm": 0.6798677869860312,
      "learning_rate": 1.8569738037032304e-05,
      "loss": 1.0489,
      "step": 3212
    },
    {
      "epoch": 0.1972436231928543,
      "grad_norm": 0.7191576640114942,
      "learning_rate": 1.856871315174981e-05,
      "loss": 0.7841,
      "step": 3213
    },
    {
      "epoch": 0.1973050124313208,
      "grad_norm": 0.6506985418980531,
      "learning_rate": 1.8567687927700255e-05,
      "loss": 1.0214,
      "step": 3214
    },
    {
      "epoch": 0.19736640166978728,
      "grad_norm": 0.6268738010993495,
      "learning_rate": 1.8566662364924175e-05,
      "loss": 0.9912,
      "step": 3215
    },
    {
      "epoch": 0.19742779090825377,
      "grad_norm": 0.6500765142361002,
      "learning_rate": 1.8565636463462113e-05,
      "loss": 0.99,
      "step": 3216
    },
    {
      "epoch": 0.1974891801467203,
      "grad_norm": 0.6545693458255619,
      "learning_rate": 1.856461022335463e-05,
      "loss": 1.0184,
      "step": 3217
    },
    {
      "epoch": 0.19755056938518678,
      "grad_norm": 0.6633854310351786,
      "learning_rate": 1.8563583644642298e-05,
      "loss": 0.989,
      "step": 3218
    },
    {
      "epoch": 0.19761195862365327,
      "grad_norm": 0.6528216961002615,
      "learning_rate": 1.85625567273657e-05,
      "loss": 1.0107,
      "step": 3219
    },
    {
      "epoch": 0.19767334786211976,
      "grad_norm": 0.6892474029375352,
      "learning_rate": 1.8561529471565442e-05,
      "loss": 1.0052,
      "step": 3220
    },
    {
      "epoch": 0.19773473710058626,
      "grad_norm": 0.6139053222403148,
      "learning_rate": 1.8560501877282133e-05,
      "loss": 0.9645,
      "step": 3221
    },
    {
      "epoch": 0.19779612633905277,
      "grad_norm": 0.6103792336966752,
      "learning_rate": 1.85594739445564e-05,
      "loss": 1.0228,
      "step": 3222
    },
    {
      "epoch": 0.19785751557751927,
      "grad_norm": 0.6729646668334217,
      "learning_rate": 1.855844567342888e-05,
      "loss": 1.0024,
      "step": 3223
    },
    {
      "epoch": 0.19791890481598576,
      "grad_norm": 0.6830956962246183,
      "learning_rate": 1.8557417063940236e-05,
      "loss": 1.005,
      "step": 3224
    },
    {
      "epoch": 0.19798029405445225,
      "grad_norm": 0.6658241322273777,
      "learning_rate": 1.8556388116131122e-05,
      "loss": 1.0072,
      "step": 3225
    },
    {
      "epoch": 0.19804168329291874,
      "grad_norm": 0.5475426069270264,
      "learning_rate": 1.8555358830042226e-05,
      "loss": 0.9971,
      "step": 3226
    },
    {
      "epoch": 0.19810307253138526,
      "grad_norm": 0.6088375117330228,
      "learning_rate": 1.8554329205714232e-05,
      "loss": 0.9463,
      "step": 3227
    },
    {
      "epoch": 0.19816446176985175,
      "grad_norm": 0.6475704472027333,
      "learning_rate": 1.855329924318786e-05,
      "loss": 1.0011,
      "step": 3228
    },
    {
      "epoch": 0.19822585100831824,
      "grad_norm": 0.611786685180343,
      "learning_rate": 1.8552268942503817e-05,
      "loss": 0.9962,
      "step": 3229
    },
    {
      "epoch": 0.19828724024678474,
      "grad_norm": 0.6816355503276842,
      "learning_rate": 1.8551238303702847e-05,
      "loss": 1.016,
      "step": 3230
    },
    {
      "epoch": 0.19834862948525123,
      "grad_norm": 0.689880838868186,
      "learning_rate": 1.8550207326825687e-05,
      "loss": 1.0194,
      "step": 3231
    },
    {
      "epoch": 0.19841001872371775,
      "grad_norm": 0.6397270243182058,
      "learning_rate": 1.85491760119131e-05,
      "loss": 1.0566,
      "step": 3232
    },
    {
      "epoch": 0.19847140796218424,
      "grad_norm": 0.702651700940396,
      "learning_rate": 1.8548144359005865e-05,
      "loss": 1.0529,
      "step": 3233
    },
    {
      "epoch": 0.19853279720065073,
      "grad_norm": 0.6325858758772143,
      "learning_rate": 1.8547112368144768e-05,
      "loss": 1.0009,
      "step": 3234
    },
    {
      "epoch": 0.19859418643911722,
      "grad_norm": 0.6033981255996995,
      "learning_rate": 1.85460800393706e-05,
      "loss": 1.0285,
      "step": 3235
    },
    {
      "epoch": 0.1986555756775837,
      "grad_norm": 0.6237945792718214,
      "learning_rate": 1.854504737272418e-05,
      "loss": 0.9496,
      "step": 3236
    },
    {
      "epoch": 0.1987169649160502,
      "grad_norm": 0.6803932578172429,
      "learning_rate": 1.8544014368246343e-05,
      "loss": 1.019,
      "step": 3237
    },
    {
      "epoch": 0.19877835415451672,
      "grad_norm": 0.6133637463971917,
      "learning_rate": 1.8542981025977914e-05,
      "loss": 0.986,
      "step": 3238
    },
    {
      "epoch": 0.19883974339298321,
      "grad_norm": 0.6428071939474398,
      "learning_rate": 1.8541947345959753e-05,
      "loss": 1.0145,
      "step": 3239
    },
    {
      "epoch": 0.1989011326314497,
      "grad_norm": 0.6758447389729616,
      "learning_rate": 1.8540913328232734e-05,
      "loss": 0.9445,
      "step": 3240
    },
    {
      "epoch": 0.1989625218699162,
      "grad_norm": 0.6579952168520811,
      "learning_rate": 1.8539878972837728e-05,
      "loss": 0.9779,
      "step": 3241
    },
    {
      "epoch": 0.1990239111083827,
      "grad_norm": 0.6664995376932831,
      "learning_rate": 1.853884427981563e-05,
      "loss": 1.0042,
      "step": 3242
    },
    {
      "epoch": 0.1990853003468492,
      "grad_norm": 0.7092394997847157,
      "learning_rate": 1.853780924920735e-05,
      "loss": 1.0659,
      "step": 3243
    },
    {
      "epoch": 0.1991466895853157,
      "grad_norm": 0.6241615042129661,
      "learning_rate": 1.853677388105381e-05,
      "loss": 1.0229,
      "step": 3244
    },
    {
      "epoch": 0.1992080788237822,
      "grad_norm": 0.6556027837829108,
      "learning_rate": 1.853573817539594e-05,
      "loss": 1.0144,
      "step": 3245
    },
    {
      "epoch": 0.19926946806224868,
      "grad_norm": 0.6388706633125902,
      "learning_rate": 1.8534702132274684e-05,
      "loss": 1.0195,
      "step": 3246
    },
    {
      "epoch": 0.19933085730071518,
      "grad_norm": 0.6044307041143736,
      "learning_rate": 1.8533665751731006e-05,
      "loss": 0.9742,
      "step": 3247
    },
    {
      "epoch": 0.1993922465391817,
      "grad_norm": 0.6828966642483404,
      "learning_rate": 1.8532629033805883e-05,
      "loss": 1.0108,
      "step": 3248
    },
    {
      "epoch": 0.19945363577764819,
      "grad_norm": 0.6002585869966062,
      "learning_rate": 1.8531591978540297e-05,
      "loss": 0.9597,
      "step": 3249
    },
    {
      "epoch": 0.19951502501611468,
      "grad_norm": 0.6104014261057423,
      "learning_rate": 1.8530554585975247e-05,
      "loss": 0.9612,
      "step": 3250
    },
    {
      "epoch": 0.19957641425458117,
      "grad_norm": 0.6083836982247491,
      "learning_rate": 1.8529516856151755e-05,
      "loss": 0.9795,
      "step": 3251
    },
    {
      "epoch": 0.19963780349304766,
      "grad_norm": 0.6961734890339318,
      "learning_rate": 1.8528478789110842e-05,
      "loss": 1.0065,
      "step": 3252
    },
    {
      "epoch": 0.19969919273151415,
      "grad_norm": 0.6673933597294361,
      "learning_rate": 1.8527440384893544e-05,
      "loss": 1.0052,
      "step": 3253
    },
    {
      "epoch": 0.19976058196998067,
      "grad_norm": 0.5855725089144794,
      "learning_rate": 1.8526401643540924e-05,
      "loss": 0.9564,
      "step": 3254
    },
    {
      "epoch": 0.19982197120844716,
      "grad_norm": 0.6096154568955886,
      "learning_rate": 1.8525362565094043e-05,
      "loss": 1.0036,
      "step": 3255
    },
    {
      "epoch": 0.19988336044691365,
      "grad_norm": 0.6244262840684751,
      "learning_rate": 1.8524323149593985e-05,
      "loss": 0.9941,
      "step": 3256
    },
    {
      "epoch": 0.19994474968538015,
      "grad_norm": 0.699367503818553,
      "learning_rate": 1.852328339708184e-05,
      "loss": 1.0691,
      "step": 3257
    },
    {
      "epoch": 0.20000613892384664,
      "grad_norm": 0.6417623190618583,
      "learning_rate": 1.852224330759871e-05,
      "loss": 0.9858,
      "step": 3258
    },
    {
      "epoch": 0.20006752816231316,
      "grad_norm": 0.5645271221322723,
      "learning_rate": 1.8521202881185733e-05,
      "loss": 0.9437,
      "step": 3259
    },
    {
      "epoch": 0.20012891740077965,
      "grad_norm": 0.6709384765159382,
      "learning_rate": 1.8520162117884027e-05,
      "loss": 0.9846,
      "step": 3260
    },
    {
      "epoch": 0.20019030663924614,
      "grad_norm": 0.6591868209209379,
      "learning_rate": 1.8519121017734743e-05,
      "loss": 1.0562,
      "step": 3261
    },
    {
      "epoch": 0.20025169587771263,
      "grad_norm": 0.609616290978602,
      "learning_rate": 1.8518079580779044e-05,
      "loss": 0.9434,
      "step": 3262
    },
    {
      "epoch": 0.20031308511617912,
      "grad_norm": 0.5863653943730235,
      "learning_rate": 1.8517037807058095e-05,
      "loss": 0.9559,
      "step": 3263
    },
    {
      "epoch": 0.20037447435464564,
      "grad_norm": 0.6743377496259582,
      "learning_rate": 1.8515995696613096e-05,
      "loss": 0.9943,
      "step": 3264
    },
    {
      "epoch": 0.20043586359311213,
      "grad_norm": 0.634744662553511,
      "learning_rate": 1.8514953249485236e-05,
      "loss": 1.013,
      "step": 3265
    },
    {
      "epoch": 0.20049725283157863,
      "grad_norm": 0.619960644057128,
      "learning_rate": 1.8513910465715733e-05,
      "loss": 1.0187,
      "step": 3266
    },
    {
      "epoch": 0.20055864207004512,
      "grad_norm": 0.6734898179367547,
      "learning_rate": 1.851286734534582e-05,
      "loss": 1.0079,
      "step": 3267
    },
    {
      "epoch": 0.2006200313085116,
      "grad_norm": 0.601139025068393,
      "learning_rate": 1.8511823888416725e-05,
      "loss": 0.9437,
      "step": 3268
    },
    {
      "epoch": 0.2006814205469781,
      "grad_norm": 0.6662098167668927,
      "learning_rate": 1.8510780094969708e-05,
      "loss": 1.0995,
      "step": 3269
    },
    {
      "epoch": 0.20074280978544462,
      "grad_norm": 0.599604690685775,
      "learning_rate": 1.8509735965046035e-05,
      "loss": 0.92,
      "step": 3270
    },
    {
      "epoch": 0.2008041990239111,
      "grad_norm": 0.6855234507812251,
      "learning_rate": 1.8508691498686985e-05,
      "loss": 1.0559,
      "step": 3271
    },
    {
      "epoch": 0.2008655882623776,
      "grad_norm": 0.6651020469983724,
      "learning_rate": 1.8507646695933855e-05,
      "loss": 1.0204,
      "step": 3272
    },
    {
      "epoch": 0.2009269775008441,
      "grad_norm": 0.6516216732246632,
      "learning_rate": 1.850660155682795e-05,
      "loss": 1.0015,
      "step": 3273
    },
    {
      "epoch": 0.2009883667393106,
      "grad_norm": 0.6504519054746787,
      "learning_rate": 1.8505556081410584e-05,
      "loss": 0.9897,
      "step": 3274
    },
    {
      "epoch": 0.2010497559777771,
      "grad_norm": 0.6852724359785412,
      "learning_rate": 1.85045102697231e-05,
      "loss": 1.0706,
      "step": 3275
    },
    {
      "epoch": 0.2011111452162436,
      "grad_norm": 0.6547930085426258,
      "learning_rate": 1.8503464121806836e-05,
      "loss": 0.9877,
      "step": 3276
    },
    {
      "epoch": 0.2011725344547101,
      "grad_norm": 0.6400773591818436,
      "learning_rate": 1.8502417637703155e-05,
      "loss": 0.9885,
      "step": 3277
    },
    {
      "epoch": 0.20123392369317658,
      "grad_norm": 0.617221810262962,
      "learning_rate": 1.8501370817453435e-05,
      "loss": 1.0024,
      "step": 3278
    },
    {
      "epoch": 0.20129531293164307,
      "grad_norm": 0.6105845151865251,
      "learning_rate": 1.8500323661099057e-05,
      "loss": 0.9252,
      "step": 3279
    },
    {
      "epoch": 0.2013567021701096,
      "grad_norm": 0.6245040929353729,
      "learning_rate": 1.849927616868142e-05,
      "loss": 1.0158,
      "step": 3280
    },
    {
      "epoch": 0.20141809140857608,
      "grad_norm": 0.6162219252736383,
      "learning_rate": 1.849822834024194e-05,
      "loss": 0.9478,
      "step": 3281
    },
    {
      "epoch": 0.20147948064704257,
      "grad_norm": 0.6620955281768743,
      "learning_rate": 1.849718017582204e-05,
      "loss": 1.0766,
      "step": 3282
    },
    {
      "epoch": 0.20154086988550907,
      "grad_norm": 0.596938835280662,
      "learning_rate": 1.8496131675463163e-05,
      "loss": 0.9822,
      "step": 3283
    },
    {
      "epoch": 0.20160225912397556,
      "grad_norm": 0.6476802640606465,
      "learning_rate": 1.8495082839206762e-05,
      "loss": 1.0653,
      "step": 3284
    },
    {
      "epoch": 0.20166364836244208,
      "grad_norm": 0.696816253601024,
      "learning_rate": 1.84940336670943e-05,
      "loss": 1.0551,
      "step": 3285
    },
    {
      "epoch": 0.20172503760090857,
      "grad_norm": 0.6321773752156119,
      "learning_rate": 1.8492984159167256e-05,
      "loss": 0.9836,
      "step": 3286
    },
    {
      "epoch": 0.20178642683937506,
      "grad_norm": 0.6570806281189028,
      "learning_rate": 1.8491934315467126e-05,
      "loss": 1.0643,
      "step": 3287
    },
    {
      "epoch": 0.20184781607784155,
      "grad_norm": 0.6766943480090292,
      "learning_rate": 1.8490884136035415e-05,
      "loss": 1.0355,
      "step": 3288
    },
    {
      "epoch": 0.20190920531630804,
      "grad_norm": 0.6714536702060022,
      "learning_rate": 1.8489833620913644e-05,
      "loss": 0.9805,
      "step": 3289
    },
    {
      "epoch": 0.20197059455477454,
      "grad_norm": 0.6528101437385557,
      "learning_rate": 1.8488782770143337e-05,
      "loss": 1.016,
      "step": 3290
    },
    {
      "epoch": 0.20203198379324105,
      "grad_norm": 0.6751432514551815,
      "learning_rate": 1.8487731583766048e-05,
      "loss": 1.0508,
      "step": 3291
    },
    {
      "epoch": 0.20209337303170755,
      "grad_norm": 0.649304810913547,
      "learning_rate": 1.8486680061823338e-05,
      "loss": 1.0435,
      "step": 3292
    },
    {
      "epoch": 0.20215476227017404,
      "grad_norm": 0.6745378735022906,
      "learning_rate": 1.8485628204356773e-05,
      "loss": 1.0193,
      "step": 3293
    },
    {
      "epoch": 0.20221615150864053,
      "grad_norm": 0.6580258826369061,
      "learning_rate": 1.8484576011407938e-05,
      "loss": 1.0196,
      "step": 3294
    },
    {
      "epoch": 0.20227754074710702,
      "grad_norm": 0.6329790598451829,
      "learning_rate": 1.8483523483018437e-05,
      "loss": 0.9719,
      "step": 3295
    },
    {
      "epoch": 0.20233892998557354,
      "grad_norm": 0.6250517840834018,
      "learning_rate": 1.848247061922988e-05,
      "loss": 0.9921,
      "step": 3296
    },
    {
      "epoch": 0.20240031922404003,
      "grad_norm": 0.6152056978344931,
      "learning_rate": 1.8481417420083892e-05,
      "loss": 0.9484,
      "step": 3297
    },
    {
      "epoch": 0.20246170846250652,
      "grad_norm": 0.6112261851982583,
      "learning_rate": 1.848036388562211e-05,
      "loss": 0.9913,
      "step": 3298
    },
    {
      "epoch": 0.20252309770097301,
      "grad_norm": 0.6672592022813236,
      "learning_rate": 1.8479310015886186e-05,
      "loss": 0.9953,
      "step": 3299
    },
    {
      "epoch": 0.2025844869394395,
      "grad_norm": 0.6377431435705572,
      "learning_rate": 1.8478255810917793e-05,
      "loss": 1.0021,
      "step": 3300
    },
    {
      "epoch": 0.20264587617790603,
      "grad_norm": 0.6269485211175966,
      "learning_rate": 1.8477201270758597e-05,
      "loss": 0.9745,
      "step": 3301
    },
    {
      "epoch": 0.20270726541637252,
      "grad_norm": 0.6066223228976374,
      "learning_rate": 1.8476146395450298e-05,
      "loss": 0.9825,
      "step": 3302
    },
    {
      "epoch": 0.202768654654839,
      "grad_norm": 0.6561655638486809,
      "learning_rate": 1.8475091185034595e-05,
      "loss": 1.0161,
      "step": 3303
    },
    {
      "epoch": 0.2028300438933055,
      "grad_norm": 0.6547004854135585,
      "learning_rate": 1.847403563955321e-05,
      "loss": 1.0107,
      "step": 3304
    },
    {
      "epoch": 0.202891433131772,
      "grad_norm": 0.7303172841534257,
      "learning_rate": 1.847297975904788e-05,
      "loss": 1.0536,
      "step": 3305
    },
    {
      "epoch": 0.20295282237023848,
      "grad_norm": 0.6721255324228452,
      "learning_rate": 1.847192354356034e-05,
      "loss": 0.9994,
      "step": 3306
    },
    {
      "epoch": 0.203014211608705,
      "grad_norm": 0.6744805103624967,
      "learning_rate": 1.847086699313235e-05,
      "loss": 0.9977,
      "step": 3307
    },
    {
      "epoch": 0.2030756008471715,
      "grad_norm": 0.6609879990702453,
      "learning_rate": 1.8469810107805683e-05,
      "loss": 1.0429,
      "step": 3308
    },
    {
      "epoch": 0.203136990085638,
      "grad_norm": 0.6441899567958513,
      "learning_rate": 1.8468752887622123e-05,
      "loss": 0.9614,
      "step": 3309
    },
    {
      "epoch": 0.20319837932410448,
      "grad_norm": 0.6559132373046554,
      "learning_rate": 1.8467695332623464e-05,
      "loss": 0.9838,
      "step": 3310
    },
    {
      "epoch": 0.20325976856257097,
      "grad_norm": 0.6331242468136415,
      "learning_rate": 1.8466637442851524e-05,
      "loss": 1.0164,
      "step": 3311
    },
    {
      "epoch": 0.2033211578010375,
      "grad_norm": 0.6263568354513142,
      "learning_rate": 1.8465579218348123e-05,
      "loss": 0.9529,
      "step": 3312
    },
    {
      "epoch": 0.20338254703950398,
      "grad_norm": 0.663114523637127,
      "learning_rate": 1.8464520659155097e-05,
      "loss": 1.0166,
      "step": 3313
    },
    {
      "epoch": 0.20344393627797047,
      "grad_norm": 0.5954167423916876,
      "learning_rate": 1.8463461765314302e-05,
      "loss": 0.982,
      "step": 3314
    },
    {
      "epoch": 0.20350532551643696,
      "grad_norm": 0.7249052920947908,
      "learning_rate": 1.846240253686759e-05,
      "loss": 1.0262,
      "step": 3315
    },
    {
      "epoch": 0.20356671475490346,
      "grad_norm": 0.6346106931630157,
      "learning_rate": 1.8461342973856853e-05,
      "loss": 1.061,
      "step": 3316
    },
    {
      "epoch": 0.20362810399336997,
      "grad_norm": 0.6766401681585258,
      "learning_rate": 1.846028307632397e-05,
      "loss": 1.0203,
      "step": 3317
    },
    {
      "epoch": 0.20368949323183647,
      "grad_norm": 0.646998571731235,
      "learning_rate": 1.845922284431085e-05,
      "loss": 0.9716,
      "step": 3318
    },
    {
      "epoch": 0.20375088247030296,
      "grad_norm": 0.6511243717617915,
      "learning_rate": 1.8458162277859406e-05,
      "loss": 0.9345,
      "step": 3319
    },
    {
      "epoch": 0.20381227170876945,
      "grad_norm": 0.6617297269267,
      "learning_rate": 1.845710137701157e-05,
      "loss": 1.0445,
      "step": 3320
    },
    {
      "epoch": 0.20387366094723594,
      "grad_norm": 0.7034247266579793,
      "learning_rate": 1.8456040141809284e-05,
      "loss": 1.0065,
      "step": 3321
    },
    {
      "epoch": 0.20393505018570246,
      "grad_norm": 0.6345462877069535,
      "learning_rate": 1.8454978572294506e-05,
      "loss": 0.989,
      "step": 3322
    },
    {
      "epoch": 0.20399643942416895,
      "grad_norm": 0.6310785357860638,
      "learning_rate": 1.8453916668509207e-05,
      "loss": 0.9626,
      "step": 3323
    },
    {
      "epoch": 0.20405782866263544,
      "grad_norm": 0.6565631118694322,
      "learning_rate": 1.8452854430495363e-05,
      "loss": 0.9725,
      "step": 3324
    },
    {
      "epoch": 0.20411921790110193,
      "grad_norm": 0.677212877437587,
      "learning_rate": 1.845179185829498e-05,
      "loss": 1.0447,
      "step": 3325
    },
    {
      "epoch": 0.20418060713956843,
      "grad_norm": 0.6006887700187672,
      "learning_rate": 1.8450728951950056e-05,
      "loss": 0.9555,
      "step": 3326
    },
    {
      "epoch": 0.20424199637803492,
      "grad_norm": 0.5915601565517935,
      "learning_rate": 1.8449665711502622e-05,
      "loss": 0.9713,
      "step": 3327
    },
    {
      "epoch": 0.20430338561650144,
      "grad_norm": 0.6480139790943266,
      "learning_rate": 1.8448602136994708e-05,
      "loss": 1.0144,
      "step": 3328
    },
    {
      "epoch": 0.20436477485496793,
      "grad_norm": 0.6575579259941225,
      "learning_rate": 1.844753822846837e-05,
      "loss": 1.0074,
      "step": 3329
    },
    {
      "epoch": 0.20442616409343442,
      "grad_norm": 0.6115590952678912,
      "learning_rate": 1.844647398596566e-05,
      "loss": 1.0075,
      "step": 3330
    },
    {
      "epoch": 0.2044875533319009,
      "grad_norm": 0.6753187907569492,
      "learning_rate": 1.844540940952866e-05,
      "loss": 1.0147,
      "step": 3331
    },
    {
      "epoch": 0.2045489425703674,
      "grad_norm": 0.6581266730289635,
      "learning_rate": 1.8444344499199456e-05,
      "loss": 1.0366,
      "step": 3332
    },
    {
      "epoch": 0.20461033180883392,
      "grad_norm": 0.6397509798167398,
      "learning_rate": 1.8443279255020153e-05,
      "loss": 1.0097,
      "step": 3333
    },
    {
      "epoch": 0.20467172104730041,
      "grad_norm": 0.620244773390073,
      "learning_rate": 1.8442213677032862e-05,
      "loss": 0.9533,
      "step": 3334
    },
    {
      "epoch": 0.2047331102857669,
      "grad_norm": 0.634952904430711,
      "learning_rate": 1.8441147765279713e-05,
      "loss": 1.0233,
      "step": 3335
    },
    {
      "epoch": 0.2047944995242334,
      "grad_norm": 0.6235676741013518,
      "learning_rate": 1.8440081519802843e-05,
      "loss": 1.0227,
      "step": 3336
    },
    {
      "epoch": 0.2048558887626999,
      "grad_norm": 0.6058062869897479,
      "learning_rate": 1.8439014940644412e-05,
      "loss": 0.9874,
      "step": 3337
    },
    {
      "epoch": 0.2049172780011664,
      "grad_norm": 0.672957929094694,
      "learning_rate": 1.8437948027846587e-05,
      "loss": 1.0007,
      "step": 3338
    },
    {
      "epoch": 0.2049786672396329,
      "grad_norm": 0.61683382015137,
      "learning_rate": 1.8436880781451545e-05,
      "loss": 0.9511,
      "step": 3339
    },
    {
      "epoch": 0.2050400564780994,
      "grad_norm": 0.6855660968227487,
      "learning_rate": 1.8435813201501484e-05,
      "loss": 1.0096,
      "step": 3340
    },
    {
      "epoch": 0.20510144571656588,
      "grad_norm": 0.6722366530472741,
      "learning_rate": 1.8434745288038603e-05,
      "loss": 1.0188,
      "step": 3341
    },
    {
      "epoch": 0.20516283495503237,
      "grad_norm": 0.6102115072504183,
      "learning_rate": 1.8433677041105137e-05,
      "loss": 0.962,
      "step": 3342
    },
    {
      "epoch": 0.20522422419349887,
      "grad_norm": 0.6571768589478941,
      "learning_rate": 1.8432608460743306e-05,
      "loss": 1.013,
      "step": 3343
    },
    {
      "epoch": 0.20528561343196539,
      "grad_norm": 0.6496647838925235,
      "learning_rate": 1.8431539546995366e-05,
      "loss": 1.0244,
      "step": 3344
    },
    {
      "epoch": 0.20534700267043188,
      "grad_norm": 0.6331017333569179,
      "learning_rate": 1.843047029990357e-05,
      "loss": 0.9915,
      "step": 3345
    },
    {
      "epoch": 0.20540839190889837,
      "grad_norm": 0.6223804190102892,
      "learning_rate": 1.8429400719510192e-05,
      "loss": 0.9634,
      "step": 3346
    },
    {
      "epoch": 0.20546978114736486,
      "grad_norm": 0.6547673842668146,
      "learning_rate": 1.8428330805857524e-05,
      "loss": 0.9979,
      "step": 3347
    },
    {
      "epoch": 0.20553117038583135,
      "grad_norm": 0.631181026767796,
      "learning_rate": 1.842726055898786e-05,
      "loss": 1.0093,
      "step": 3348
    },
    {
      "epoch": 0.20559255962429787,
      "grad_norm": 0.6874245561954366,
      "learning_rate": 1.8426189978943512e-05,
      "loss": 1.0354,
      "step": 3349
    },
    {
      "epoch": 0.20565394886276436,
      "grad_norm": 0.6064207931305045,
      "learning_rate": 1.842511906576681e-05,
      "loss": 0.9712,
      "step": 3350
    },
    {
      "epoch": 0.20571533810123085,
      "grad_norm": 0.6287073843342155,
      "learning_rate": 1.8424047819500087e-05,
      "loss": 1.0128,
      "step": 3351
    },
    {
      "epoch": 0.20577672733969735,
      "grad_norm": 0.6299387054908843,
      "learning_rate": 1.84229762401857e-05,
      "loss": 1.0107,
      "step": 3352
    },
    {
      "epoch": 0.20583811657816384,
      "grad_norm": 0.7526818741905121,
      "learning_rate": 1.8421904327866015e-05,
      "loss": 0.7684,
      "step": 3353
    },
    {
      "epoch": 0.20589950581663036,
      "grad_norm": 0.7101165820731672,
      "learning_rate": 1.8420832082583407e-05,
      "loss": 1.108,
      "step": 3354
    },
    {
      "epoch": 0.20596089505509685,
      "grad_norm": 0.6150468595494392,
      "learning_rate": 1.8419759504380274e-05,
      "loss": 0.9738,
      "step": 3355
    },
    {
      "epoch": 0.20602228429356334,
      "grad_norm": 0.6554463738645704,
      "learning_rate": 1.841868659329901e-05,
      "loss": 0.9942,
      "step": 3356
    },
    {
      "epoch": 0.20608367353202983,
      "grad_norm": 0.5916405366396842,
      "learning_rate": 1.841761334938204e-05,
      "loss": 0.9404,
      "step": 3357
    },
    {
      "epoch": 0.20614506277049632,
      "grad_norm": 0.6661276584387043,
      "learning_rate": 1.841653977267179e-05,
      "loss": 1.0202,
      "step": 3358
    },
    {
      "epoch": 0.20620645200896282,
      "grad_norm": 0.6496237195183492,
      "learning_rate": 1.8415465863210715e-05,
      "loss": 0.9958,
      "step": 3359
    },
    {
      "epoch": 0.20626784124742933,
      "grad_norm": 0.6934590864350787,
      "learning_rate": 1.841439162104126e-05,
      "loss": 1.0267,
      "step": 3360
    },
    {
      "epoch": 0.20632923048589583,
      "grad_norm": 0.6596377526958974,
      "learning_rate": 1.8413317046205903e-05,
      "loss": 0.9899,
      "step": 3361
    },
    {
      "epoch": 0.20639061972436232,
      "grad_norm": 0.6654121850677699,
      "learning_rate": 1.841224213874713e-05,
      "loss": 1.0098,
      "step": 3362
    },
    {
      "epoch": 0.2064520089628288,
      "grad_norm": 0.6329052333089884,
      "learning_rate": 1.8411166898707423e-05,
      "loss": 0.9468,
      "step": 3363
    },
    {
      "epoch": 0.2065133982012953,
      "grad_norm": 0.6883266856164296,
      "learning_rate": 1.841009132612931e-05,
      "loss": 1.0215,
      "step": 3364
    },
    {
      "epoch": 0.20657478743976182,
      "grad_norm": 0.6554406844449926,
      "learning_rate": 1.8409015421055305e-05,
      "loss": 0.9906,
      "step": 3365
    },
    {
      "epoch": 0.2066361766782283,
      "grad_norm": 0.6329079725450695,
      "learning_rate": 1.8407939183527944e-05,
      "loss": 0.9871,
      "step": 3366
    },
    {
      "epoch": 0.2066975659166948,
      "grad_norm": 0.6706865251528417,
      "learning_rate": 1.8406862613589784e-05,
      "loss": 0.9838,
      "step": 3367
    },
    {
      "epoch": 0.2067589551551613,
      "grad_norm": 0.6371265285460456,
      "learning_rate": 1.8405785711283376e-05,
      "loss": 0.9628,
      "step": 3368
    },
    {
      "epoch": 0.2068203443936278,
      "grad_norm": 0.7426101754727361,
      "learning_rate": 1.8404708476651303e-05,
      "loss": 1.0696,
      "step": 3369
    },
    {
      "epoch": 0.2068817336320943,
      "grad_norm": 0.6730000283400207,
      "learning_rate": 1.8403630909736153e-05,
      "loss": 1.022,
      "step": 3370
    },
    {
      "epoch": 0.2069431228705608,
      "grad_norm": 1.1389246971802138,
      "learning_rate": 1.840255301058053e-05,
      "loss": 0.7674,
      "step": 3371
    },
    {
      "epoch": 0.2070045121090273,
      "grad_norm": 0.6585008687284883,
      "learning_rate": 1.840147477922704e-05,
      "loss": 1.0067,
      "step": 3372
    },
    {
      "epoch": 0.20706590134749378,
      "grad_norm": 0.7128333448632339,
      "learning_rate": 1.8400396215718322e-05,
      "loss": 1.039,
      "step": 3373
    },
    {
      "epoch": 0.20712729058596027,
      "grad_norm": 0.6719336302693112,
      "learning_rate": 1.8399317320097012e-05,
      "loss": 0.9711,
      "step": 3374
    },
    {
      "epoch": 0.2071886798244268,
      "grad_norm": 0.650767538447402,
      "learning_rate": 1.8398238092405765e-05,
      "loss": 1.046,
      "step": 3375
    },
    {
      "epoch": 0.20725006906289328,
      "grad_norm": 0.6457880146833158,
      "learning_rate": 1.8397158532687253e-05,
      "loss": 1.0197,
      "step": 3376
    },
    {
      "epoch": 0.20731145830135977,
      "grad_norm": 0.6234184751982313,
      "learning_rate": 1.8396078640984148e-05,
      "loss": 1.002,
      "step": 3377
    },
    {
      "epoch": 0.20737284753982627,
      "grad_norm": 0.6996989997128436,
      "learning_rate": 1.839499841733915e-05,
      "loss": 1.0201,
      "step": 3378
    },
    {
      "epoch": 0.20743423677829276,
      "grad_norm": 0.6457803447555459,
      "learning_rate": 1.8393917861794966e-05,
      "loss": 1.0042,
      "step": 3379
    },
    {
      "epoch": 0.20749562601675925,
      "grad_norm": 0.624974049271767,
      "learning_rate": 1.839283697439432e-05,
      "loss": 0.9437,
      "step": 3380
    },
    {
      "epoch": 0.20755701525522577,
      "grad_norm": 0.6281538681300513,
      "learning_rate": 1.8391755755179935e-05,
      "loss": 0.9694,
      "step": 3381
    },
    {
      "epoch": 0.20761840449369226,
      "grad_norm": 0.639033577193254,
      "learning_rate": 1.8390674204194563e-05,
      "loss": 0.932,
      "step": 3382
    },
    {
      "epoch": 0.20767979373215875,
      "grad_norm": 0.6472058515694421,
      "learning_rate": 1.8389592321480963e-05,
      "loss": 0.921,
      "step": 3383
    },
    {
      "epoch": 0.20774118297062524,
      "grad_norm": 0.7370767388836102,
      "learning_rate": 1.8388510107081908e-05,
      "loss": 1.0146,
      "step": 3384
    },
    {
      "epoch": 0.20780257220909173,
      "grad_norm": 0.6555013938895078,
      "learning_rate": 1.8387427561040184e-05,
      "loss": 0.987,
      "step": 3385
    },
    {
      "epoch": 0.20786396144755825,
      "grad_norm": 0.7022562021700581,
      "learning_rate": 1.838634468339859e-05,
      "loss": 0.9931,
      "step": 3386
    },
    {
      "epoch": 0.20792535068602475,
      "grad_norm": 0.6886920260535343,
      "learning_rate": 1.8385261474199935e-05,
      "loss": 1.0086,
      "step": 3387
    },
    {
      "epoch": 0.20798673992449124,
      "grad_norm": 0.6455716760064756,
      "learning_rate": 1.838417793348705e-05,
      "loss": 0.9882,
      "step": 3388
    },
    {
      "epoch": 0.20804812916295773,
      "grad_norm": 0.6390467685964427,
      "learning_rate": 1.8383094061302767e-05,
      "loss": 0.9395,
      "step": 3389
    },
    {
      "epoch": 0.20810951840142422,
      "grad_norm": 0.6206955471282745,
      "learning_rate": 1.8382009857689942e-05,
      "loss": 0.98,
      "step": 3390
    },
    {
      "epoch": 0.20817090763989074,
      "grad_norm": 0.6728336206365523,
      "learning_rate": 1.8380925322691435e-05,
      "loss": 1.0179,
      "step": 3391
    },
    {
      "epoch": 0.20823229687835723,
      "grad_norm": 0.6379402316375339,
      "learning_rate": 1.8379840456350126e-05,
      "loss": 0.9538,
      "step": 3392
    },
    {
      "epoch": 0.20829368611682372,
      "grad_norm": 0.6373625560333777,
      "learning_rate": 1.8378755258708905e-05,
      "loss": 1.0273,
      "step": 3393
    },
    {
      "epoch": 0.20835507535529021,
      "grad_norm": 0.6693402345100853,
      "learning_rate": 1.8377669729810676e-05,
      "loss": 1.0025,
      "step": 3394
    },
    {
      "epoch": 0.2084164645937567,
      "grad_norm": 0.5812233478824428,
      "learning_rate": 1.8376583869698356e-05,
      "loss": 1.0047,
      "step": 3395
    },
    {
      "epoch": 0.2084778538322232,
      "grad_norm": 0.6884885282552333,
      "learning_rate": 1.8375497678414877e-05,
      "loss": 1.0489,
      "step": 3396
    },
    {
      "epoch": 0.20853924307068972,
      "grad_norm": 0.6711092817912963,
      "learning_rate": 1.8374411156003176e-05,
      "loss": 0.9914,
      "step": 3397
    },
    {
      "epoch": 0.2086006323091562,
      "grad_norm": 0.6146249454618907,
      "learning_rate": 1.8373324302506214e-05,
      "loss": 0.9127,
      "step": 3398
    },
    {
      "epoch": 0.2086620215476227,
      "grad_norm": 0.6045565630795694,
      "learning_rate": 1.8372237117966957e-05,
      "loss": 0.9476,
      "step": 3399
    },
    {
      "epoch": 0.2087234107860892,
      "grad_norm": 0.6818176439313733,
      "learning_rate": 1.837114960242839e-05,
      "loss": 0.9893,
      "step": 3400
    },
    {
      "epoch": 0.20878480002455568,
      "grad_norm": 0.6431200166689177,
      "learning_rate": 1.837006175593351e-05,
      "loss": 0.9731,
      "step": 3401
    },
    {
      "epoch": 0.2088461892630222,
      "grad_norm": 0.6069579419473463,
      "learning_rate": 1.8368973578525318e-05,
      "loss": 0.9714,
      "step": 3402
    },
    {
      "epoch": 0.2089075785014887,
      "grad_norm": 0.8451568178284042,
      "learning_rate": 1.836788507024684e-05,
      "loss": 0.7271,
      "step": 3403
    },
    {
      "epoch": 0.20896896773995519,
      "grad_norm": 0.7181752021467817,
      "learning_rate": 1.8366796231141113e-05,
      "loss": 1.0452,
      "step": 3404
    },
    {
      "epoch": 0.20903035697842168,
      "grad_norm": 0.7082060615662727,
      "learning_rate": 1.836570706125118e-05,
      "loss": 1.0279,
      "step": 3405
    },
    {
      "epoch": 0.20909174621688817,
      "grad_norm": 0.6458387561356148,
      "learning_rate": 1.836461756062011e-05,
      "loss": 1.0124,
      "step": 3406
    },
    {
      "epoch": 0.2091531354553547,
      "grad_norm": 0.5891413726009969,
      "learning_rate": 1.8363527729290965e-05,
      "loss": 1.0066,
      "step": 3407
    },
    {
      "epoch": 0.20921452469382118,
      "grad_norm": 0.6223490176767532,
      "learning_rate": 1.836243756730684e-05,
      "loss": 0.9658,
      "step": 3408
    },
    {
      "epoch": 0.20927591393228767,
      "grad_norm": 0.6730693760358406,
      "learning_rate": 1.836134707471083e-05,
      "loss": 0.9837,
      "step": 3409
    },
    {
      "epoch": 0.20933730317075416,
      "grad_norm": 0.6487692936962279,
      "learning_rate": 1.836025625154605e-05,
      "loss": 0.9785,
      "step": 3410
    },
    {
      "epoch": 0.20939869240922065,
      "grad_norm": 0.6593781080338538,
      "learning_rate": 1.835916509785563e-05,
      "loss": 1.0088,
      "step": 3411
    },
    {
      "epoch": 0.20946008164768717,
      "grad_norm": 0.6193298668603376,
      "learning_rate": 1.8358073613682705e-05,
      "loss": 0.9818,
      "step": 3412
    },
    {
      "epoch": 0.20952147088615367,
      "grad_norm": 0.6959666599893539,
      "learning_rate": 1.8356981799070427e-05,
      "loss": 0.9911,
      "step": 3413
    },
    {
      "epoch": 0.20958286012462016,
      "grad_norm": 0.6442717533724176,
      "learning_rate": 1.835588965406196e-05,
      "loss": 1.0533,
      "step": 3414
    },
    {
      "epoch": 0.20964424936308665,
      "grad_norm": 0.6000268893104708,
      "learning_rate": 1.8354797178700487e-05,
      "loss": 0.9826,
      "step": 3415
    },
    {
      "epoch": 0.20970563860155314,
      "grad_norm": 0.6786361066438695,
      "learning_rate": 1.83537043730292e-05,
      "loss": 0.9925,
      "step": 3416
    },
    {
      "epoch": 0.20976702784001963,
      "grad_norm": 0.69146330580774,
      "learning_rate": 1.8352611237091296e-05,
      "loss": 1.0288,
      "step": 3417
    },
    {
      "epoch": 0.20982841707848615,
      "grad_norm": 0.6191641257607803,
      "learning_rate": 1.8351517770929997e-05,
      "loss": 0.977,
      "step": 3418
    },
    {
      "epoch": 0.20988980631695264,
      "grad_norm": 0.671043505511043,
      "learning_rate": 1.8350423974588536e-05,
      "loss": 1.0186,
      "step": 3419
    },
    {
      "epoch": 0.20995119555541913,
      "grad_norm": 0.6568170451958278,
      "learning_rate": 1.834932984811015e-05,
      "loss": 0.952,
      "step": 3420
    },
    {
      "epoch": 0.21001258479388563,
      "grad_norm": 0.6408111787320495,
      "learning_rate": 1.8348235391538104e-05,
      "loss": 0.9908,
      "step": 3421
    },
    {
      "epoch": 0.21007397403235212,
      "grad_norm": 0.6845143831674741,
      "learning_rate": 1.8347140604915662e-05,
      "loss": 0.9783,
      "step": 3422
    },
    {
      "epoch": 0.21013536327081864,
      "grad_norm": 0.6773415307615154,
      "learning_rate": 1.8346045488286108e-05,
      "loss": 0.9985,
      "step": 3423
    },
    {
      "epoch": 0.21019675250928513,
      "grad_norm": 0.6350943177910647,
      "learning_rate": 1.834495004169274e-05,
      "loss": 0.9604,
      "step": 3424
    },
    {
      "epoch": 0.21025814174775162,
      "grad_norm": 0.6214150237316015,
      "learning_rate": 1.8343854265178863e-05,
      "loss": 0.9944,
      "step": 3425
    },
    {
      "epoch": 0.2103195309862181,
      "grad_norm": 0.6862254322415876,
      "learning_rate": 1.83427581587878e-05,
      "loss": 1.0238,
      "step": 3426
    },
    {
      "epoch": 0.2103809202246846,
      "grad_norm": 0.6200588787283227,
      "learning_rate": 1.8341661722562886e-05,
      "loss": 0.9587,
      "step": 3427
    },
    {
      "epoch": 0.21044230946315112,
      "grad_norm": 0.6667716724737237,
      "learning_rate": 1.834056495654747e-05,
      "loss": 0.9553,
      "step": 3428
    },
    {
      "epoch": 0.21050369870161761,
      "grad_norm": 0.6703646809199449,
      "learning_rate": 1.8339467860784913e-05,
      "loss": 1.0585,
      "step": 3429
    },
    {
      "epoch": 0.2105650879400841,
      "grad_norm": 0.614383911163635,
      "learning_rate": 1.8338370435318592e-05,
      "loss": 1.002,
      "step": 3430
    },
    {
      "epoch": 0.2106264771785506,
      "grad_norm": 0.6126011835155786,
      "learning_rate": 1.833727268019189e-05,
      "loss": 0.9092,
      "step": 3431
    },
    {
      "epoch": 0.2106878664170171,
      "grad_norm": 0.6580207030399831,
      "learning_rate": 1.8336174595448205e-05,
      "loss": 1.0439,
      "step": 3432
    },
    {
      "epoch": 0.21074925565548358,
      "grad_norm": 0.6431888427033132,
      "learning_rate": 1.8335076181130956e-05,
      "loss": 0.9992,
      "step": 3433
    },
    {
      "epoch": 0.2108106448939501,
      "grad_norm": 0.6416052382150644,
      "learning_rate": 1.8333977437283566e-05,
      "loss": 1.0087,
      "step": 3434
    },
    {
      "epoch": 0.2108720341324166,
      "grad_norm": 0.646484113962192,
      "learning_rate": 1.8332878363949476e-05,
      "loss": 0.9515,
      "step": 3435
    },
    {
      "epoch": 0.21093342337088308,
      "grad_norm": 0.6689359775279639,
      "learning_rate": 1.8331778961172134e-05,
      "loss": 1.011,
      "step": 3436
    },
    {
      "epoch": 0.21099481260934957,
      "grad_norm": 0.6275289496097619,
      "learning_rate": 1.8330679228995008e-05,
      "loss": 0.9683,
      "step": 3437
    },
    {
      "epoch": 0.21105620184781607,
      "grad_norm": 0.6258301988361255,
      "learning_rate": 1.832957916746158e-05,
      "loss": 0.9483,
      "step": 3438
    },
    {
      "epoch": 0.21111759108628259,
      "grad_norm": 0.6392744003013142,
      "learning_rate": 1.8328478776615336e-05,
      "loss": 0.9802,
      "step": 3439
    },
    {
      "epoch": 0.21117898032474908,
      "grad_norm": 0.6397760468231835,
      "learning_rate": 1.8327378056499784e-05,
      "loss": 0.9398,
      "step": 3440
    },
    {
      "epoch": 0.21124036956321557,
      "grad_norm": 0.6561648378177793,
      "learning_rate": 1.8326277007158436e-05,
      "loss": 0.9421,
      "step": 3441
    },
    {
      "epoch": 0.21130175880168206,
      "grad_norm": 0.655915242536614,
      "learning_rate": 1.8325175628634826e-05,
      "loss": 1.0184,
      "step": 3442
    },
    {
      "epoch": 0.21136314804014855,
      "grad_norm": 0.5973654139831943,
      "learning_rate": 1.83240739209725e-05,
      "loss": 0.9515,
      "step": 3443
    },
    {
      "epoch": 0.21142453727861507,
      "grad_norm": 0.5732189008888544,
      "learning_rate": 1.8322971884215008e-05,
      "loss": 0.9479,
      "step": 3444
    },
    {
      "epoch": 0.21148592651708156,
      "grad_norm": 0.698123882055986,
      "learning_rate": 1.8321869518405926e-05,
      "loss": 1.0268,
      "step": 3445
    },
    {
      "epoch": 0.21154731575554805,
      "grad_norm": 0.6527757547505405,
      "learning_rate": 1.832076682358883e-05,
      "loss": 1.005,
      "step": 3446
    },
    {
      "epoch": 0.21160870499401455,
      "grad_norm": 0.6747483935218956,
      "learning_rate": 1.8319663799807322e-05,
      "loss": 0.987,
      "step": 3447
    },
    {
      "epoch": 0.21167009423248104,
      "grad_norm": 0.6593669939496444,
      "learning_rate": 1.8318560447105008e-05,
      "loss": 0.9511,
      "step": 3448
    },
    {
      "epoch": 0.21173148347094753,
      "grad_norm": 0.651068868603995,
      "learning_rate": 1.8317456765525506e-05,
      "loss": 1.0059,
      "step": 3449
    },
    {
      "epoch": 0.21179287270941405,
      "grad_norm": 0.7302928775561306,
      "learning_rate": 1.8316352755112456e-05,
      "loss": 1.0289,
      "step": 3450
    },
    {
      "epoch": 0.21185426194788054,
      "grad_norm": 0.6561849825730505,
      "learning_rate": 1.8315248415909503e-05,
      "loss": 1.0282,
      "step": 3451
    },
    {
      "epoch": 0.21191565118634703,
      "grad_norm": 0.5640431863355685,
      "learning_rate": 1.8314143747960303e-05,
      "loss": 0.9371,
      "step": 3452
    },
    {
      "epoch": 0.21197704042481352,
      "grad_norm": 0.6704343578369638,
      "learning_rate": 1.8313038751308537e-05,
      "loss": 1.0049,
      "step": 3453
    },
    {
      "epoch": 0.21203842966328001,
      "grad_norm": 0.5980751048772239,
      "learning_rate": 1.8311933425997884e-05,
      "loss": 0.9425,
      "step": 3454
    },
    {
      "epoch": 0.21209981890174653,
      "grad_norm": 0.6138887332523466,
      "learning_rate": 1.8310827772072054e-05,
      "loss": 1.0026,
      "step": 3455
    },
    {
      "epoch": 0.21216120814021303,
      "grad_norm": 0.6449279234798353,
      "learning_rate": 1.8309721789574748e-05,
      "loss": 0.9813,
      "step": 3456
    },
    {
      "epoch": 0.21222259737867952,
      "grad_norm": 0.6276997751127451,
      "learning_rate": 1.8308615478549696e-05,
      "loss": 0.9887,
      "step": 3457
    },
    {
      "epoch": 0.212283986617146,
      "grad_norm": 0.6727817865037056,
      "learning_rate": 1.8307508839040638e-05,
      "loss": 1.0738,
      "step": 3458
    },
    {
      "epoch": 0.2123453758556125,
      "grad_norm": 0.6398465520269784,
      "learning_rate": 1.8306401871091323e-05,
      "loss": 1.0279,
      "step": 3459
    },
    {
      "epoch": 0.21240676509407902,
      "grad_norm": 0.6334875169955066,
      "learning_rate": 1.8305294574745515e-05,
      "loss": 0.9753,
      "step": 3460
    },
    {
      "epoch": 0.2124681543325455,
      "grad_norm": 0.5954939025009091,
      "learning_rate": 1.8304186950046995e-05,
      "loss": 0.9689,
      "step": 3461
    },
    {
      "epoch": 0.212529543571012,
      "grad_norm": 0.6610984832280425,
      "learning_rate": 1.830307899703955e-05,
      "loss": 0.9846,
      "step": 3462
    },
    {
      "epoch": 0.2125909328094785,
      "grad_norm": 0.6824521298283888,
      "learning_rate": 1.8301970715766984e-05,
      "loss": 1.0444,
      "step": 3463
    },
    {
      "epoch": 0.21265232204794499,
      "grad_norm": 0.6079497363304154,
      "learning_rate": 1.8300862106273113e-05,
      "loss": 0.9943,
      "step": 3464
    },
    {
      "epoch": 0.2127137112864115,
      "grad_norm": 0.6404934805527042,
      "learning_rate": 1.829975316860177e-05,
      "loss": 1.0556,
      "step": 3465
    },
    {
      "epoch": 0.212775100524878,
      "grad_norm": 0.6454163599131517,
      "learning_rate": 1.829864390279679e-05,
      "loss": 1.018,
      "step": 3466
    },
    {
      "epoch": 0.2128364897633445,
      "grad_norm": 0.6175661036487102,
      "learning_rate": 1.8297534308902035e-05,
      "loss": 1.027,
      "step": 3467
    },
    {
      "epoch": 0.21289787900181098,
      "grad_norm": 0.651138208164395,
      "learning_rate": 1.829642438696137e-05,
      "loss": 1.047,
      "step": 3468
    },
    {
      "epoch": 0.21295926824027747,
      "grad_norm": 0.6306347728608364,
      "learning_rate": 1.8295314137018674e-05,
      "loss": 1.0123,
      "step": 3469
    },
    {
      "epoch": 0.21302065747874396,
      "grad_norm": 0.6622623463144162,
      "learning_rate": 1.829420355911785e-05,
      "loss": 1.0208,
      "step": 3470
    },
    {
      "epoch": 0.21308204671721048,
      "grad_norm": 0.6320528579032723,
      "learning_rate": 1.8293092653302795e-05,
      "loss": 0.9671,
      "step": 3471
    },
    {
      "epoch": 0.21314343595567697,
      "grad_norm": 0.6699510897247124,
      "learning_rate": 1.829198141961743e-05,
      "loss": 1.0488,
      "step": 3472
    },
    {
      "epoch": 0.21320482519414347,
      "grad_norm": 0.6379339198414051,
      "learning_rate": 1.8290869858105694e-05,
      "loss": 0.9941,
      "step": 3473
    },
    {
      "epoch": 0.21326621443260996,
      "grad_norm": 0.6261381832710119,
      "learning_rate": 1.828975796881153e-05,
      "loss": 0.9584,
      "step": 3474
    },
    {
      "epoch": 0.21332760367107645,
      "grad_norm": 0.666445418769599,
      "learning_rate": 1.8288645751778894e-05,
      "loss": 1.0014,
      "step": 3475
    },
    {
      "epoch": 0.21338899290954297,
      "grad_norm": 0.664360794290101,
      "learning_rate": 1.8287533207051764e-05,
      "loss": 0.9658,
      "step": 3476
    },
    {
      "epoch": 0.21345038214800946,
      "grad_norm": 0.6972666588722243,
      "learning_rate": 1.8286420334674118e-05,
      "loss": 1.0677,
      "step": 3477
    },
    {
      "epoch": 0.21351177138647595,
      "grad_norm": 0.6148996546606124,
      "learning_rate": 1.828530713468996e-05,
      "loss": 0.9806,
      "step": 3478
    },
    {
      "epoch": 0.21357316062494244,
      "grad_norm": 0.6235305475369936,
      "learning_rate": 1.82841936071433e-05,
      "loss": 0.9517,
      "step": 3479
    },
    {
      "epoch": 0.21363454986340893,
      "grad_norm": 0.6921065146837462,
      "learning_rate": 1.8283079752078155e-05,
      "loss": 1.0095,
      "step": 3480
    },
    {
      "epoch": 0.21369593910187545,
      "grad_norm": 0.6530360793107947,
      "learning_rate": 1.8281965569538567e-05,
      "loss": 1.0062,
      "step": 3481
    },
    {
      "epoch": 0.21375732834034195,
      "grad_norm": 0.678629210619757,
      "learning_rate": 1.8280851059568587e-05,
      "loss": 1.0028,
      "step": 3482
    },
    {
      "epoch": 0.21381871757880844,
      "grad_norm": 0.6817040369217939,
      "learning_rate": 1.8279736222212276e-05,
      "loss": 1.0364,
      "step": 3483
    },
    {
      "epoch": 0.21388010681727493,
      "grad_norm": 0.6436462112165525,
      "learning_rate": 1.8278621057513705e-05,
      "loss": 1.0132,
      "step": 3484
    },
    {
      "epoch": 0.21394149605574142,
      "grad_norm": 0.6211955104508734,
      "learning_rate": 1.827750556551697e-05,
      "loss": 1.0212,
      "step": 3485
    },
    {
      "epoch": 0.2140028852942079,
      "grad_norm": 0.6240099145164697,
      "learning_rate": 1.827638974626617e-05,
      "loss": 0.9857,
      "step": 3486
    },
    {
      "epoch": 0.21406427453267443,
      "grad_norm": 0.6615811004628653,
      "learning_rate": 1.8275273599805413e-05,
      "loss": 0.9919,
      "step": 3487
    },
    {
      "epoch": 0.21412566377114092,
      "grad_norm": 0.6136848884197893,
      "learning_rate": 1.8274157126178837e-05,
      "loss": 1.0093,
      "step": 3488
    },
    {
      "epoch": 0.21418705300960741,
      "grad_norm": 0.655611657900653,
      "learning_rate": 1.8273040325430575e-05,
      "loss": 0.9772,
      "step": 3489
    },
    {
      "epoch": 0.2142484422480739,
      "grad_norm": 0.6538960836309551,
      "learning_rate": 1.827192319760478e-05,
      "loss": 0.9667,
      "step": 3490
    },
    {
      "epoch": 0.2143098314865404,
      "grad_norm": 0.7214657666309647,
      "learning_rate": 1.827080574274562e-05,
      "loss": 1.0168,
      "step": 3491
    },
    {
      "epoch": 0.21437122072500692,
      "grad_norm": 0.7441539654713001,
      "learning_rate": 1.8269687960897272e-05,
      "loss": 1.0488,
      "step": 3492
    },
    {
      "epoch": 0.2144326099634734,
      "grad_norm": 0.5941923216268924,
      "learning_rate": 1.8268569852103932e-05,
      "loss": 0.939,
      "step": 3493
    },
    {
      "epoch": 0.2144939992019399,
      "grad_norm": 0.6656473110238461,
      "learning_rate": 1.8267451416409803e-05,
      "loss": 0.9919,
      "step": 3494
    },
    {
      "epoch": 0.2145553884404064,
      "grad_norm": 0.6838870465600836,
      "learning_rate": 1.82663326538591e-05,
      "loss": 0.9249,
      "step": 3495
    },
    {
      "epoch": 0.21461677767887288,
      "grad_norm": 0.6873342814657631,
      "learning_rate": 1.8265213564496056e-05,
      "loss": 1.0057,
      "step": 3496
    },
    {
      "epoch": 0.2146781669173394,
      "grad_norm": 0.7304550137165378,
      "learning_rate": 1.8264094148364916e-05,
      "loss": 1.0107,
      "step": 3497
    },
    {
      "epoch": 0.2147395561558059,
      "grad_norm": 0.6731285149046975,
      "learning_rate": 1.8262974405509936e-05,
      "loss": 1.0241,
      "step": 3498
    },
    {
      "epoch": 0.21480094539427239,
      "grad_norm": 0.7040037442372399,
      "learning_rate": 1.826185433597538e-05,
      "loss": 1.0622,
      "step": 3499
    },
    {
      "epoch": 0.21486233463273888,
      "grad_norm": 0.6264961029388458,
      "learning_rate": 1.8260733939805535e-05,
      "loss": 0.9325,
      "step": 3500
    },
    {
      "epoch": 0.21492372387120537,
      "grad_norm": 0.6251448924463754,
      "learning_rate": 1.8259613217044698e-05,
      "loss": 0.9763,
      "step": 3501
    },
    {
      "epoch": 0.2149851131096719,
      "grad_norm": 0.6821923065397031,
      "learning_rate": 1.8258492167737175e-05,
      "loss": 1.0381,
      "step": 3502
    },
    {
      "epoch": 0.21504650234813838,
      "grad_norm": 0.6667738375580915,
      "learning_rate": 1.8257370791927288e-05,
      "loss": 1.0455,
      "step": 3503
    },
    {
      "epoch": 0.21510789158660487,
      "grad_norm": 0.6156912195120748,
      "learning_rate": 1.825624908965937e-05,
      "loss": 0.962,
      "step": 3504
    },
    {
      "epoch": 0.21516928082507136,
      "grad_norm": 0.7003368334835437,
      "learning_rate": 1.825512706097776e-05,
      "loss": 1.055,
      "step": 3505
    },
    {
      "epoch": 0.21523067006353785,
      "grad_norm": 0.6499345798923457,
      "learning_rate": 1.8254004705926836e-05,
      "loss": 1.0352,
      "step": 3506
    },
    {
      "epoch": 0.21529205930200435,
      "grad_norm": 0.6051437413199641,
      "learning_rate": 1.8252882024550955e-05,
      "loss": 0.9674,
      "step": 3507
    },
    {
      "epoch": 0.21535344854047087,
      "grad_norm": 0.6405380531923638,
      "learning_rate": 1.825175901689451e-05,
      "loss": 0.9879,
      "step": 3508
    },
    {
      "epoch": 0.21541483777893736,
      "grad_norm": 0.6172277101380781,
      "learning_rate": 1.8250635683001897e-05,
      "loss": 0.9636,
      "step": 3509
    },
    {
      "epoch": 0.21547622701740385,
      "grad_norm": 0.7093597008636796,
      "learning_rate": 1.8249512022917528e-05,
      "loss": 1.0269,
      "step": 3510
    },
    {
      "epoch": 0.21553761625587034,
      "grad_norm": 0.6265795351031158,
      "learning_rate": 1.8248388036685827e-05,
      "loss": 0.9932,
      "step": 3511
    },
    {
      "epoch": 0.21559900549433683,
      "grad_norm": 0.6407851050034952,
      "learning_rate": 1.8247263724351236e-05,
      "loss": 0.9543,
      "step": 3512
    },
    {
      "epoch": 0.21566039473280335,
      "grad_norm": 0.6209599181236191,
      "learning_rate": 1.8246139085958196e-05,
      "loss": 1.0411,
      "step": 3513
    },
    {
      "epoch": 0.21572178397126984,
      "grad_norm": 0.5734406367616853,
      "learning_rate": 1.8245014121551173e-05,
      "loss": 0.9543,
      "step": 3514
    },
    {
      "epoch": 0.21578317320973633,
      "grad_norm": 0.6498857385977831,
      "learning_rate": 1.8243888831174644e-05,
      "loss": 0.9995,
      "step": 3515
    },
    {
      "epoch": 0.21584456244820283,
      "grad_norm": 0.638754308384953,
      "learning_rate": 1.8242763214873102e-05,
      "loss": 1.0001,
      "step": 3516
    },
    {
      "epoch": 0.21590595168666932,
      "grad_norm": 0.688789463315737,
      "learning_rate": 1.8241637272691042e-05,
      "loss": 1.0202,
      "step": 3517
    },
    {
      "epoch": 0.21596734092513584,
      "grad_norm": 0.6556722235474886,
      "learning_rate": 1.8240511004672985e-05,
      "loss": 1.0448,
      "step": 3518
    },
    {
      "epoch": 0.21602873016360233,
      "grad_norm": 0.6066423051319082,
      "learning_rate": 1.823938441086345e-05,
      "loss": 0.9324,
      "step": 3519
    },
    {
      "epoch": 0.21609011940206882,
      "grad_norm": 0.6433082927105871,
      "learning_rate": 1.8238257491306984e-05,
      "loss": 1.0154,
      "step": 3520
    },
    {
      "epoch": 0.2161515086405353,
      "grad_norm": 0.6283921116733128,
      "learning_rate": 1.8237130246048137e-05,
      "loss": 1.0431,
      "step": 3521
    },
    {
      "epoch": 0.2162128978790018,
      "grad_norm": 0.6746911320284448,
      "learning_rate": 1.8236002675131478e-05,
      "loss": 1.0222,
      "step": 3522
    },
    {
      "epoch": 0.2162742871174683,
      "grad_norm": 0.6190405485133362,
      "learning_rate": 1.8234874778601582e-05,
      "loss": 0.9607,
      "step": 3523
    },
    {
      "epoch": 0.21633567635593481,
      "grad_norm": 0.6220886779946555,
      "learning_rate": 1.8233746556503046e-05,
      "loss": 0.9686,
      "step": 3524
    },
    {
      "epoch": 0.2163970655944013,
      "grad_norm": 0.6336925402287447,
      "learning_rate": 1.8232618008880468e-05,
      "loss": 0.9785,
      "step": 3525
    },
    {
      "epoch": 0.2164584548328678,
      "grad_norm": 0.6348382545945167,
      "learning_rate": 1.823148913577847e-05,
      "loss": 0.9564,
      "step": 3526
    },
    {
      "epoch": 0.2165198440713343,
      "grad_norm": 0.6487580721448576,
      "learning_rate": 1.823035993724168e-05,
      "loss": 0.9441,
      "step": 3527
    },
    {
      "epoch": 0.21658123330980078,
      "grad_norm": 0.6222205156868046,
      "learning_rate": 1.8229230413314748e-05,
      "loss": 0.9466,
      "step": 3528
    },
    {
      "epoch": 0.2166426225482673,
      "grad_norm": 0.6576988838611821,
      "learning_rate": 1.822810056404232e-05,
      "loss": 0.9999,
      "step": 3529
    },
    {
      "epoch": 0.2167040117867338,
      "grad_norm": 0.7010786099516905,
      "learning_rate": 1.822697038946907e-05,
      "loss": 1.0114,
      "step": 3530
    },
    {
      "epoch": 0.21676540102520028,
      "grad_norm": 0.7220319705576449,
      "learning_rate": 1.822583988963968e-05,
      "loss": 1.0309,
      "step": 3531
    },
    {
      "epoch": 0.21682679026366677,
      "grad_norm": 0.6819737134509395,
      "learning_rate": 1.8224709064598846e-05,
      "loss": 1.0011,
      "step": 3532
    },
    {
      "epoch": 0.21688817950213327,
      "grad_norm": 0.6782582866709022,
      "learning_rate": 1.822357791439127e-05,
      "loss": 0.983,
      "step": 3533
    },
    {
      "epoch": 0.21694956874059979,
      "grad_norm": 0.6986702987144818,
      "learning_rate": 1.822244643906168e-05,
      "loss": 1.0573,
      "step": 3534
    },
    {
      "epoch": 0.21701095797906628,
      "grad_norm": 0.6787104318150837,
      "learning_rate": 1.8221314638654805e-05,
      "loss": 0.9707,
      "step": 3535
    },
    {
      "epoch": 0.21707234721753277,
      "grad_norm": 0.6677269246328777,
      "learning_rate": 1.822018251321539e-05,
      "loss": 1.0147,
      "step": 3536
    },
    {
      "epoch": 0.21713373645599926,
      "grad_norm": 0.6319274514411168,
      "learning_rate": 1.8219050062788194e-05,
      "loss": 0.9449,
      "step": 3537
    },
    {
      "epoch": 0.21719512569446575,
      "grad_norm": 0.6582803296860795,
      "learning_rate": 1.8217917287417995e-05,
      "loss": 0.9673,
      "step": 3538
    },
    {
      "epoch": 0.21725651493293224,
      "grad_norm": 0.9600779116989973,
      "learning_rate": 1.821678418714957e-05,
      "loss": 0.8131,
      "step": 3539
    },
    {
      "epoch": 0.21731790417139876,
      "grad_norm": 0.6278394608741483,
      "learning_rate": 1.8215650762027725e-05,
      "loss": 0.9442,
      "step": 3540
    },
    {
      "epoch": 0.21737929340986525,
      "grad_norm": 0.6635163018872167,
      "learning_rate": 1.8214517012097256e-05,
      "loss": 0.9804,
      "step": 3541
    },
    {
      "epoch": 0.21744068264833175,
      "grad_norm": 0.6455057034290647,
      "learning_rate": 1.8213382937403002e-05,
      "loss": 1.0039,
      "step": 3542
    },
    {
      "epoch": 0.21750207188679824,
      "grad_norm": 0.6380622902282755,
      "learning_rate": 1.821224853798979e-05,
      "loss": 0.9682,
      "step": 3543
    },
    {
      "epoch": 0.21756346112526473,
      "grad_norm": 0.7068970264705494,
      "learning_rate": 1.821111381390247e-05,
      "loss": 1.0564,
      "step": 3544
    },
    {
      "epoch": 0.21762485036373125,
      "grad_norm": 0.6501733054740078,
      "learning_rate": 1.820997876518591e-05,
      "loss": 0.9953,
      "step": 3545
    },
    {
      "epoch": 0.21768623960219774,
      "grad_norm": 0.6230846665092254,
      "learning_rate": 1.8208843391884975e-05,
      "loss": 0.9496,
      "step": 3546
    },
    {
      "epoch": 0.21774762884066423,
      "grad_norm": 0.6762162925405562,
      "learning_rate": 1.8207707694044554e-05,
      "loss": 1.0616,
      "step": 3547
    },
    {
      "epoch": 0.21780901807913072,
      "grad_norm": 0.649398983800339,
      "learning_rate": 1.820657167170955e-05,
      "loss": 1.0236,
      "step": 3548
    },
    {
      "epoch": 0.21787040731759721,
      "grad_norm": 0.6755528076300551,
      "learning_rate": 1.8205435324924884e-05,
      "loss": 1.0232,
      "step": 3549
    },
    {
      "epoch": 0.21793179655606373,
      "grad_norm": 0.6348230824010099,
      "learning_rate": 1.8204298653735467e-05,
      "loss": 0.9991,
      "step": 3550
    },
    {
      "epoch": 0.21799318579453023,
      "grad_norm": 0.5931130128754976,
      "learning_rate": 1.8203161658186246e-05,
      "loss": 1.0024,
      "step": 3551
    },
    {
      "epoch": 0.21805457503299672,
      "grad_norm": 0.6514307644869146,
      "learning_rate": 1.820202433832217e-05,
      "loss": 0.9846,
      "step": 3552
    },
    {
      "epoch": 0.2181159642714632,
      "grad_norm": 0.652415159287201,
      "learning_rate": 1.8200886694188206e-05,
      "loss": 1.0128,
      "step": 3553
    },
    {
      "epoch": 0.2181773535099297,
      "grad_norm": 0.6253738969247573,
      "learning_rate": 1.819974872582933e-05,
      "loss": 0.9816,
      "step": 3554
    },
    {
      "epoch": 0.21823874274839622,
      "grad_norm": 0.6563629089268324,
      "learning_rate": 1.8198610433290532e-05,
      "loss": 0.9995,
      "step": 3555
    },
    {
      "epoch": 0.2183001319868627,
      "grad_norm": 0.66479034286128,
      "learning_rate": 1.8197471816616815e-05,
      "loss": 1.0199,
      "step": 3556
    },
    {
      "epoch": 0.2183615212253292,
      "grad_norm": 0.7015944395691068,
      "learning_rate": 1.8196332875853187e-05,
      "loss": 1.0584,
      "step": 3557
    },
    {
      "epoch": 0.2184229104637957,
      "grad_norm": 0.5876799200176379,
      "learning_rate": 1.819519361104469e-05,
      "loss": 0.9361,
      "step": 3558
    },
    {
      "epoch": 0.21848429970226219,
      "grad_norm": 0.5965674300124643,
      "learning_rate": 1.819405402223636e-05,
      "loss": 0.9345,
      "step": 3559
    },
    {
      "epoch": 0.21854568894072868,
      "grad_norm": 0.6700455153290156,
      "learning_rate": 1.8192914109473247e-05,
      "loss": 1.0253,
      "step": 3560
    },
    {
      "epoch": 0.2186070781791952,
      "grad_norm": 0.606898758895833,
      "learning_rate": 1.819177387280042e-05,
      "loss": 0.9674,
      "step": 3561
    },
    {
      "epoch": 0.2186684674176617,
      "grad_norm": 0.6320494946255933,
      "learning_rate": 1.8190633312262957e-05,
      "loss": 0.9885,
      "step": 3562
    },
    {
      "epoch": 0.21872985665612818,
      "grad_norm": 0.623916336759922,
      "learning_rate": 1.818949242790596e-05,
      "loss": 1.0139,
      "step": 3563
    },
    {
      "epoch": 0.21879124589459467,
      "grad_norm": 0.6557443671420812,
      "learning_rate": 1.818835121977452e-05,
      "loss": 0.9976,
      "step": 3564
    },
    {
      "epoch": 0.21885263513306116,
      "grad_norm": 0.6328118116995208,
      "learning_rate": 1.818720968791376e-05,
      "loss": 1.0067,
      "step": 3565
    },
    {
      "epoch": 0.21891402437152768,
      "grad_norm": 0.6877409928802968,
      "learning_rate": 1.8186067832368816e-05,
      "loss": 1.0352,
      "step": 3566
    },
    {
      "epoch": 0.21897541360999417,
      "grad_norm": 0.6508622184101454,
      "learning_rate": 1.818492565318483e-05,
      "loss": 1.0181,
      "step": 3567
    },
    {
      "epoch": 0.21903680284846067,
      "grad_norm": 0.6369778158192374,
      "learning_rate": 1.8183783150406956e-05,
      "loss": 1.032,
      "step": 3568
    },
    {
      "epoch": 0.21909819208692716,
      "grad_norm": 0.6342010676977173,
      "learning_rate": 1.8182640324080366e-05,
      "loss": 1.0455,
      "step": 3569
    },
    {
      "epoch": 0.21915958132539365,
      "grad_norm": 0.6630442739843699,
      "learning_rate": 1.8181497174250236e-05,
      "loss": 0.9319,
      "step": 3570
    },
    {
      "epoch": 0.21922097056386017,
      "grad_norm": 0.6288153514213537,
      "learning_rate": 1.8180353700961764e-05,
      "loss": 0.9597,
      "step": 3571
    },
    {
      "epoch": 0.21928235980232666,
      "grad_norm": 0.6485524434606713,
      "learning_rate": 1.8179209904260165e-05,
      "loss": 1.0476,
      "step": 3572
    },
    {
      "epoch": 0.21934374904079315,
      "grad_norm": 0.6846317330479593,
      "learning_rate": 1.8178065784190647e-05,
      "loss": 1.027,
      "step": 3573
    },
    {
      "epoch": 0.21940513827925964,
      "grad_norm": 0.6788876165016992,
      "learning_rate": 1.817692134079845e-05,
      "loss": 0.9586,
      "step": 3574
    },
    {
      "epoch": 0.21946652751772613,
      "grad_norm": 0.7066884555825759,
      "learning_rate": 1.8175776574128826e-05,
      "loss": 1.0364,
      "step": 3575
    },
    {
      "epoch": 0.21952791675619263,
      "grad_norm": 0.6378304513953327,
      "learning_rate": 1.817463148422702e-05,
      "loss": 0.941,
      "step": 3576
    },
    {
      "epoch": 0.21958930599465915,
      "grad_norm": 0.6442504426007964,
      "learning_rate": 1.8173486071138313e-05,
      "loss": 1.0202,
      "step": 3577
    },
    {
      "epoch": 0.21965069523312564,
      "grad_norm": 0.6129480818530546,
      "learning_rate": 1.8172340334907986e-05,
      "loss": 0.9811,
      "step": 3578
    },
    {
      "epoch": 0.21971208447159213,
      "grad_norm": 0.647058042997989,
      "learning_rate": 1.8171194275581336e-05,
      "loss": 0.9358,
      "step": 3579
    },
    {
      "epoch": 0.21977347371005862,
      "grad_norm": 0.6689885790690824,
      "learning_rate": 1.8170047893203672e-05,
      "loss": 1.0152,
      "step": 3580
    },
    {
      "epoch": 0.2198348629485251,
      "grad_norm": 0.6268594558312572,
      "learning_rate": 1.816890118782032e-05,
      "loss": 0.9899,
      "step": 3581
    },
    {
      "epoch": 0.21989625218699163,
      "grad_norm": 0.6376963819604851,
      "learning_rate": 1.8167754159476615e-05,
      "loss": 1.0248,
      "step": 3582
    },
    {
      "epoch": 0.21995764142545812,
      "grad_norm": 0.6192552153288544,
      "learning_rate": 1.8166606808217906e-05,
      "loss": 0.7544,
      "step": 3583
    },
    {
      "epoch": 0.22001903066392461,
      "grad_norm": 0.6092958103030711,
      "learning_rate": 1.816545913408955e-05,
      "loss": 0.9417,
      "step": 3584
    },
    {
      "epoch": 0.2200804199023911,
      "grad_norm": 0.6446342908343732,
      "learning_rate": 1.816431113713692e-05,
      "loss": 0.9739,
      "step": 3585
    },
    {
      "epoch": 0.2201418091408576,
      "grad_norm": 0.6582809592862996,
      "learning_rate": 1.8163162817405407e-05,
      "loss": 1.0132,
      "step": 3586
    },
    {
      "epoch": 0.22020319837932412,
      "grad_norm": 0.7247523942895859,
      "learning_rate": 1.8162014174940406e-05,
      "loss": 1.0321,
      "step": 3587
    },
    {
      "epoch": 0.2202645876177906,
      "grad_norm": 0.6095223260196444,
      "learning_rate": 1.8160865209787335e-05,
      "loss": 0.9391,
      "step": 3588
    },
    {
      "epoch": 0.2203259768562571,
      "grad_norm": 0.5987058499689552,
      "learning_rate": 1.8159715921991612e-05,
      "loss": 0.9465,
      "step": 3589
    },
    {
      "epoch": 0.2203873660947236,
      "grad_norm": 0.7033733227370992,
      "learning_rate": 1.8158566311598677e-05,
      "loss": 0.9825,
      "step": 3590
    },
    {
      "epoch": 0.22044875533319008,
      "grad_norm": 0.6528646259131231,
      "learning_rate": 1.8157416378653984e-05,
      "loss": 0.9995,
      "step": 3591
    },
    {
      "epoch": 0.2205101445716566,
      "grad_norm": 0.6538441002590044,
      "learning_rate": 1.815626612320299e-05,
      "loss": 1.0254,
      "step": 3592
    },
    {
      "epoch": 0.2205715338101231,
      "grad_norm": 0.6540630053258839,
      "learning_rate": 1.8155115545291174e-05,
      "loss": 0.9908,
      "step": 3593
    },
    {
      "epoch": 0.22063292304858959,
      "grad_norm": 0.6672071155162077,
      "learning_rate": 1.8153964644964023e-05,
      "loss": 0.9504,
      "step": 3594
    },
    {
      "epoch": 0.22069431228705608,
      "grad_norm": 0.6201307991648914,
      "learning_rate": 1.8152813422267038e-05,
      "loss": 1.0001,
      "step": 3595
    },
    {
      "epoch": 0.22075570152552257,
      "grad_norm": 0.5655099631088493,
      "learning_rate": 1.8151661877245733e-05,
      "loss": 0.9364,
      "step": 3596
    },
    {
      "epoch": 0.22081709076398906,
      "grad_norm": 0.6234700623801873,
      "learning_rate": 1.815051000994564e-05,
      "loss": 0.7519,
      "step": 3597
    },
    {
      "epoch": 0.22087848000245558,
      "grad_norm": 0.6812584484149697,
      "learning_rate": 1.8149357820412296e-05,
      "loss": 1.0113,
      "step": 3598
    },
    {
      "epoch": 0.22093986924092207,
      "grad_norm": 0.6074159005718798,
      "learning_rate": 1.8148205308691248e-05,
      "loss": 0.9419,
      "step": 3599
    },
    {
      "epoch": 0.22100125847938856,
      "grad_norm": 0.6514620756904365,
      "learning_rate": 1.8147052474828062e-05,
      "loss": 0.9409,
      "step": 3600
    },
    {
      "epoch": 0.22106264771785505,
      "grad_norm": 0.6372654354273967,
      "learning_rate": 1.8145899318868324e-05,
      "loss": 0.9908,
      "step": 3601
    },
    {
      "epoch": 0.22112403695632155,
      "grad_norm": 0.6098528705819033,
      "learning_rate": 1.8144745840857615e-05,
      "loss": 0.9416,
      "step": 3602
    },
    {
      "epoch": 0.22118542619478807,
      "grad_norm": 0.6710614149601619,
      "learning_rate": 1.8143592040841542e-05,
      "loss": 0.9839,
      "step": 3603
    },
    {
      "epoch": 0.22124681543325456,
      "grad_norm": 0.6016733011146221,
      "learning_rate": 1.814243791886572e-05,
      "loss": 0.9699,
      "step": 3604
    },
    {
      "epoch": 0.22130820467172105,
      "grad_norm": 0.711132089759516,
      "learning_rate": 1.814128347497578e-05,
      "loss": 1.0861,
      "step": 3605
    },
    {
      "epoch": 0.22136959391018754,
      "grad_norm": 0.6255705743408322,
      "learning_rate": 1.8140128709217362e-05,
      "loss": 0.9426,
      "step": 3606
    },
    {
      "epoch": 0.22143098314865403,
      "grad_norm": 0.6887856237611005,
      "learning_rate": 1.8138973621636118e-05,
      "loss": 1.0003,
      "step": 3607
    },
    {
      "epoch": 0.22149237238712055,
      "grad_norm": 0.6072012580624435,
      "learning_rate": 1.813781821227772e-05,
      "loss": 0.9741,
      "step": 3608
    },
    {
      "epoch": 0.22155376162558704,
      "grad_norm": 0.6226624072335747,
      "learning_rate": 1.8136662481187838e-05,
      "loss": 0.9541,
      "step": 3609
    },
    {
      "epoch": 0.22161515086405353,
      "grad_norm": 0.6718798919726411,
      "learning_rate": 1.813550642841217e-05,
      "loss": 1.02,
      "step": 3610
    },
    {
      "epoch": 0.22167654010252003,
      "grad_norm": 0.630580689165104,
      "learning_rate": 1.8134350053996426e-05,
      "loss": 1.0209,
      "step": 3611
    },
    {
      "epoch": 0.22173792934098652,
      "grad_norm": 0.6797792303127136,
      "learning_rate": 1.8133193357986317e-05,
      "loss": 1.0181,
      "step": 3612
    },
    {
      "epoch": 0.221799318579453,
      "grad_norm": 0.6100630377275088,
      "learning_rate": 1.8132036340427577e-05,
      "loss": 0.9405,
      "step": 3613
    },
    {
      "epoch": 0.22186070781791953,
      "grad_norm": 0.6656138446819866,
      "learning_rate": 1.8130879001365944e-05,
      "loss": 1.0418,
      "step": 3614
    },
    {
      "epoch": 0.22192209705638602,
      "grad_norm": 0.6335088734856775,
      "learning_rate": 1.812972134084718e-05,
      "loss": 0.9896,
      "step": 3615
    },
    {
      "epoch": 0.2219834862948525,
      "grad_norm": 0.6142998068566257,
      "learning_rate": 1.812856335891705e-05,
      "loss": 0.9531,
      "step": 3616
    },
    {
      "epoch": 0.222044875533319,
      "grad_norm": 0.6688732798162604,
      "learning_rate": 1.8127405055621336e-05,
      "loss": 0.9798,
      "step": 3617
    },
    {
      "epoch": 0.2221062647717855,
      "grad_norm": 0.6926156100512505,
      "learning_rate": 1.8126246431005826e-05,
      "loss": 1.0109,
      "step": 3618
    },
    {
      "epoch": 0.222167654010252,
      "grad_norm": 0.6524912613580647,
      "learning_rate": 1.812508748511634e-05,
      "loss": 0.9781,
      "step": 3619
    },
    {
      "epoch": 0.2222290432487185,
      "grad_norm": 0.650332064919951,
      "learning_rate": 1.8123928217998685e-05,
      "loss": 0.97,
      "step": 3620
    },
    {
      "epoch": 0.222290432487185,
      "grad_norm": 0.6139914830766201,
      "learning_rate": 1.81227686296987e-05,
      "loss": 0.9916,
      "step": 3621
    },
    {
      "epoch": 0.2223518217256515,
      "grad_norm": 0.6253230449538701,
      "learning_rate": 1.8121608720262227e-05,
      "loss": 1.0139,
      "step": 3622
    },
    {
      "epoch": 0.22241321096411798,
      "grad_norm": 0.6459508974599169,
      "learning_rate": 1.8120448489735122e-05,
      "loss": 0.9962,
      "step": 3623
    },
    {
      "epoch": 0.2224746002025845,
      "grad_norm": 0.6464997793367345,
      "learning_rate": 1.8119287938163263e-05,
      "loss": 1.0257,
      "step": 3624
    },
    {
      "epoch": 0.222535989441051,
      "grad_norm": 0.6625707366567568,
      "learning_rate": 1.8118127065592523e-05,
      "loss": 0.9779,
      "step": 3625
    },
    {
      "epoch": 0.22259737867951748,
      "grad_norm": 0.6373449822080954,
      "learning_rate": 1.8116965872068795e-05,
      "loss": 1.012,
      "step": 3626
    },
    {
      "epoch": 0.22265876791798397,
      "grad_norm": 0.6265257392066463,
      "learning_rate": 1.8115804357638003e-05,
      "loss": 0.9485,
      "step": 3627
    },
    {
      "epoch": 0.22272015715645047,
      "grad_norm": 0.5977128005060963,
      "learning_rate": 1.8114642522346055e-05,
      "loss": 1.0026,
      "step": 3628
    },
    {
      "epoch": 0.22278154639491696,
      "grad_norm": 0.6766431803253055,
      "learning_rate": 1.8113480366238887e-05,
      "loss": 0.9889,
      "step": 3629
    },
    {
      "epoch": 0.22284293563338348,
      "grad_norm": 0.6488145354213701,
      "learning_rate": 1.811231788936245e-05,
      "loss": 1.0348,
      "step": 3630
    },
    {
      "epoch": 0.22290432487184997,
      "grad_norm": 0.6896631622943848,
      "learning_rate": 1.8111155091762695e-05,
      "loss": 1.0285,
      "step": 3631
    },
    {
      "epoch": 0.22296571411031646,
      "grad_norm": 0.7167523564394006,
      "learning_rate": 1.8109991973485598e-05,
      "loss": 1.0156,
      "step": 3632
    },
    {
      "epoch": 0.22302710334878295,
      "grad_norm": 0.6085579097689925,
      "learning_rate": 1.810882853457714e-05,
      "loss": 0.9885,
      "step": 3633
    },
    {
      "epoch": 0.22308849258724944,
      "grad_norm": 0.610855632600552,
      "learning_rate": 1.8107664775083327e-05,
      "loss": 0.94,
      "step": 3634
    },
    {
      "epoch": 0.22314988182571596,
      "grad_norm": 0.612048253593734,
      "learning_rate": 1.810650069505016e-05,
      "loss": 0.972,
      "step": 3635
    },
    {
      "epoch": 0.22321127106418245,
      "grad_norm": 0.636855036168795,
      "learning_rate": 1.8105336294523662e-05,
      "loss": 1.0181,
      "step": 3636
    },
    {
      "epoch": 0.22327266030264895,
      "grad_norm": 0.6748930063726651,
      "learning_rate": 1.8104171573549877e-05,
      "loss": 0.9964,
      "step": 3637
    },
    {
      "epoch": 0.22333404954111544,
      "grad_norm": 0.6603904722541969,
      "learning_rate": 1.810300653217484e-05,
      "loss": 0.9921,
      "step": 3638
    },
    {
      "epoch": 0.22339543877958193,
      "grad_norm": 0.6675923435223206,
      "learning_rate": 1.8101841170444617e-05,
      "loss": 0.9931,
      "step": 3639
    },
    {
      "epoch": 0.22345682801804845,
      "grad_norm": 0.5581698178369127,
      "learning_rate": 1.810067548840528e-05,
      "loss": 0.8855,
      "step": 3640
    },
    {
      "epoch": 0.22351821725651494,
      "grad_norm": 0.6270692826869559,
      "learning_rate": 1.8099509486102918e-05,
      "loss": 0.9077,
      "step": 3641
    },
    {
      "epoch": 0.22357960649498143,
      "grad_norm": 0.6576017247461383,
      "learning_rate": 1.8098343163583624e-05,
      "loss": 0.9692,
      "step": 3642
    },
    {
      "epoch": 0.22364099573344792,
      "grad_norm": 0.6608664024187326,
      "learning_rate": 1.8097176520893514e-05,
      "loss": 0.9933,
      "step": 3643
    },
    {
      "epoch": 0.22370238497191441,
      "grad_norm": 0.60947947613729,
      "learning_rate": 1.8096009558078708e-05,
      "loss": 0.9258,
      "step": 3644
    },
    {
      "epoch": 0.22376377421038093,
      "grad_norm": 0.6427843883961177,
      "learning_rate": 1.8094842275185344e-05,
      "loss": 1.0059,
      "step": 3645
    },
    {
      "epoch": 0.22382516344884743,
      "grad_norm": 0.6429261900549985,
      "learning_rate": 1.8093674672259572e-05,
      "loss": 0.9735,
      "step": 3646
    },
    {
      "epoch": 0.22388655268731392,
      "grad_norm": 0.7005376383439255,
      "learning_rate": 1.809250674934755e-05,
      "loss": 1.0285,
      "step": 3647
    },
    {
      "epoch": 0.2239479419257804,
      "grad_norm": 0.6200211701861902,
      "learning_rate": 1.8091338506495458e-05,
      "loss": 0.9595,
      "step": 3648
    },
    {
      "epoch": 0.2240093311642469,
      "grad_norm": 0.6622744222442423,
      "learning_rate": 1.8090169943749477e-05,
      "loss": 0.9847,
      "step": 3649
    },
    {
      "epoch": 0.2240707204027134,
      "grad_norm": 0.6457159210344242,
      "learning_rate": 1.8089001061155808e-05,
      "loss": 0.9864,
      "step": 3650
    },
    {
      "epoch": 0.2241321096411799,
      "grad_norm": 0.6340099414700118,
      "learning_rate": 1.8087831858760662e-05,
      "loss": 0.9448,
      "step": 3651
    },
    {
      "epoch": 0.2241934988796464,
      "grad_norm": 0.5818150920422858,
      "learning_rate": 1.8086662336610273e-05,
      "loss": 0.9337,
      "step": 3652
    },
    {
      "epoch": 0.2242548881181129,
      "grad_norm": 0.7145063573112418,
      "learning_rate": 1.8085492494750867e-05,
      "loss": 1.0313,
      "step": 3653
    },
    {
      "epoch": 0.22431627735657939,
      "grad_norm": 0.6522555623124957,
      "learning_rate": 1.8084322333228697e-05,
      "loss": 0.9633,
      "step": 3654
    },
    {
      "epoch": 0.22437766659504588,
      "grad_norm": 0.5856574595325513,
      "learning_rate": 1.8083151852090028e-05,
      "loss": 0.7628,
      "step": 3655
    },
    {
      "epoch": 0.2244390558335124,
      "grad_norm": 0.6485601636243411,
      "learning_rate": 1.8081981051381136e-05,
      "loss": 0.7908,
      "step": 3656
    },
    {
      "epoch": 0.2245004450719789,
      "grad_norm": 0.677770104025863,
      "learning_rate": 1.8080809931148306e-05,
      "loss": 1.0232,
      "step": 3657
    },
    {
      "epoch": 0.22456183431044538,
      "grad_norm": 0.7130934689709971,
      "learning_rate": 1.807963849143784e-05,
      "loss": 0.9981,
      "step": 3658
    },
    {
      "epoch": 0.22462322354891187,
      "grad_norm": 0.6473301305602173,
      "learning_rate": 1.8078466732296053e-05,
      "loss": 1.0177,
      "step": 3659
    },
    {
      "epoch": 0.22468461278737836,
      "grad_norm": 0.6553211241503377,
      "learning_rate": 1.807729465376927e-05,
      "loss": 0.9916,
      "step": 3660
    },
    {
      "epoch": 0.22474600202584488,
      "grad_norm": 0.6452572933137362,
      "learning_rate": 1.8076122255903827e-05,
      "loss": 0.9848,
      "step": 3661
    },
    {
      "epoch": 0.22480739126431137,
      "grad_norm": 0.6799616364486241,
      "learning_rate": 1.807494953874608e-05,
      "loss": 1.0073,
      "step": 3662
    },
    {
      "epoch": 0.22486878050277787,
      "grad_norm": 0.6238907170431616,
      "learning_rate": 1.8073776502342387e-05,
      "loss": 0.7204,
      "step": 3663
    },
    {
      "epoch": 0.22493016974124436,
      "grad_norm": 0.6646614839187034,
      "learning_rate": 1.8072603146739126e-05,
      "loss": 0.9512,
      "step": 3664
    },
    {
      "epoch": 0.22499155897971085,
      "grad_norm": 0.6474178781748559,
      "learning_rate": 1.807142947198269e-05,
      "loss": 0.986,
      "step": 3665
    },
    {
      "epoch": 0.22505294821817734,
      "grad_norm": 0.6196217994118303,
      "learning_rate": 1.807025547811948e-05,
      "loss": 0.9778,
      "step": 3666
    },
    {
      "epoch": 0.22511433745664386,
      "grad_norm": 0.6070454289928235,
      "learning_rate": 1.80690811651959e-05,
      "loss": 0.9867,
      "step": 3667
    },
    {
      "epoch": 0.22517572669511035,
      "grad_norm": 0.7020934196411326,
      "learning_rate": 1.806790653325839e-05,
      "loss": 1.0067,
      "step": 3668
    },
    {
      "epoch": 0.22523711593357684,
      "grad_norm": 0.6606026089372554,
      "learning_rate": 1.806673158235339e-05,
      "loss": 1.0231,
      "step": 3669
    },
    {
      "epoch": 0.22529850517204333,
      "grad_norm": 0.6462403385946925,
      "learning_rate": 1.806555631252734e-05,
      "loss": 0.991,
      "step": 3670
    },
    {
      "epoch": 0.22535989441050983,
      "grad_norm": 0.6488274036921609,
      "learning_rate": 1.806438072382671e-05,
      "loss": 0.968,
      "step": 3671
    },
    {
      "epoch": 0.22542128364897634,
      "grad_norm": 0.6075539947308406,
      "learning_rate": 1.8063204816297982e-05,
      "loss": 0.9753,
      "step": 3672
    },
    {
      "epoch": 0.22548267288744284,
      "grad_norm": 0.7010789687448572,
      "learning_rate": 1.8062028589987644e-05,
      "loss": 1.0611,
      "step": 3673
    },
    {
      "epoch": 0.22554406212590933,
      "grad_norm": 0.6634823621933346,
      "learning_rate": 1.8060852044942193e-05,
      "loss": 0.9546,
      "step": 3674
    },
    {
      "epoch": 0.22560545136437582,
      "grad_norm": 0.6452285855073696,
      "learning_rate": 1.805967518120815e-05,
      "loss": 1.0136,
      "step": 3675
    },
    {
      "epoch": 0.2256668406028423,
      "grad_norm": 0.6598034065313301,
      "learning_rate": 1.8058497998832044e-05,
      "loss": 0.9373,
      "step": 3676
    },
    {
      "epoch": 0.22572822984130883,
      "grad_norm": 0.6351847523386966,
      "learning_rate": 1.8057320497860412e-05,
      "loss": 0.9254,
      "step": 3677
    },
    {
      "epoch": 0.22578961907977532,
      "grad_norm": 0.7221501671248383,
      "learning_rate": 1.8056142678339803e-05,
      "loss": 1.0601,
      "step": 3678
    },
    {
      "epoch": 0.2258510083182418,
      "grad_norm": 0.6709237583958846,
      "learning_rate": 1.8054964540316788e-05,
      "loss": 0.9999,
      "step": 3679
    },
    {
      "epoch": 0.2259123975567083,
      "grad_norm": 0.6540581384794166,
      "learning_rate": 1.8053786083837944e-05,
      "loss": 0.9567,
      "step": 3680
    },
    {
      "epoch": 0.2259737867951748,
      "grad_norm": 0.7037166586212577,
      "learning_rate": 1.805260730894986e-05,
      "loss": 1.0679,
      "step": 3681
    },
    {
      "epoch": 0.22603517603364132,
      "grad_norm": 0.6797952489838485,
      "learning_rate": 1.8051428215699144e-05,
      "loss": 1.0092,
      "step": 3682
    },
    {
      "epoch": 0.2260965652721078,
      "grad_norm": 0.6458571049101457,
      "learning_rate": 1.8050248804132406e-05,
      "loss": 1.017,
      "step": 3683
    },
    {
      "epoch": 0.2261579545105743,
      "grad_norm": 0.6301163756866218,
      "learning_rate": 1.804906907429628e-05,
      "loss": 0.9398,
      "step": 3684
    },
    {
      "epoch": 0.2262193437490408,
      "grad_norm": 0.7009367899485793,
      "learning_rate": 1.80478890262374e-05,
      "loss": 1.0399,
      "step": 3685
    },
    {
      "epoch": 0.22628073298750728,
      "grad_norm": 0.6247877341935746,
      "learning_rate": 1.8046708660002424e-05,
      "loss": 0.9322,
      "step": 3686
    },
    {
      "epoch": 0.22634212222597377,
      "grad_norm": 0.6754045271184461,
      "learning_rate": 1.8045527975638023e-05,
      "loss": 0.9892,
      "step": 3687
    },
    {
      "epoch": 0.2264035114644403,
      "grad_norm": 0.6621900179277693,
      "learning_rate": 1.8044346973190866e-05,
      "loss": 1.0079,
      "step": 3688
    },
    {
      "epoch": 0.22646490070290679,
      "grad_norm": 0.525623596939575,
      "learning_rate": 1.804316565270765e-05,
      "loss": 0.9054,
      "step": 3689
    },
    {
      "epoch": 0.22652628994137328,
      "grad_norm": 0.6390824208878184,
      "learning_rate": 1.804198401423508e-05,
      "loss": 0.9117,
      "step": 3690
    },
    {
      "epoch": 0.22658767917983977,
      "grad_norm": 0.6953586440256319,
      "learning_rate": 1.8040802057819866e-05,
      "loss": 0.8057,
      "step": 3691
    },
    {
      "epoch": 0.22664906841830626,
      "grad_norm": 0.6484760044786274,
      "learning_rate": 1.8039619783508744e-05,
      "loss": 0.952,
      "step": 3692
    },
    {
      "epoch": 0.22671045765677278,
      "grad_norm": 0.6492910350988161,
      "learning_rate": 1.8038437191348454e-05,
      "loss": 0.9875,
      "step": 3693
    },
    {
      "epoch": 0.22677184689523927,
      "grad_norm": 0.6025623499045334,
      "learning_rate": 1.8037254281385746e-05,
      "loss": 0.9295,
      "step": 3694
    },
    {
      "epoch": 0.22683323613370576,
      "grad_norm": 0.6367481382672658,
      "learning_rate": 1.8036071053667393e-05,
      "loss": 0.9667,
      "step": 3695
    },
    {
      "epoch": 0.22689462537217225,
      "grad_norm": 0.6894346451919087,
      "learning_rate": 1.8034887508240172e-05,
      "loss": 0.9469,
      "step": 3696
    },
    {
      "epoch": 0.22695601461063875,
      "grad_norm": 0.7049273114370402,
      "learning_rate": 1.803370364515087e-05,
      "loss": 1.0603,
      "step": 3697
    },
    {
      "epoch": 0.22701740384910526,
      "grad_norm": 0.6521888541395061,
      "learning_rate": 1.8032519464446297e-05,
      "loss": 0.9949,
      "step": 3698
    },
    {
      "epoch": 0.22707879308757176,
      "grad_norm": 0.6223173347405734,
      "learning_rate": 1.8031334966173272e-05,
      "loss": 0.9802,
      "step": 3699
    },
    {
      "epoch": 0.22714018232603825,
      "grad_norm": 0.659353056186401,
      "learning_rate": 1.8030150150378617e-05,
      "loss": 0.9853,
      "step": 3700
    },
    {
      "epoch": 0.22720157156450474,
      "grad_norm": 0.6288566313646327,
      "learning_rate": 1.802896501710918e-05,
      "loss": 0.7924,
      "step": 3701
    },
    {
      "epoch": 0.22726296080297123,
      "grad_norm": 0.6633084079712785,
      "learning_rate": 1.8027779566411812e-05,
      "loss": 1.0118,
      "step": 3702
    },
    {
      "epoch": 0.22732435004143772,
      "grad_norm": 0.6858277673575469,
      "learning_rate": 1.8026593798333386e-05,
      "loss": 1.0263,
      "step": 3703
    },
    {
      "epoch": 0.22738573927990424,
      "grad_norm": 0.606775792593176,
      "learning_rate": 1.802540771292078e-05,
      "loss": 0.9496,
      "step": 3704
    },
    {
      "epoch": 0.22744712851837073,
      "grad_norm": 0.6540620029427003,
      "learning_rate": 1.8024221310220877e-05,
      "loss": 1.002,
      "step": 3705
    },
    {
      "epoch": 0.22750851775683723,
      "grad_norm": 0.6621801605085669,
      "learning_rate": 1.802303459028059e-05,
      "loss": 1.0257,
      "step": 3706
    },
    {
      "epoch": 0.22756990699530372,
      "grad_norm": 0.6294768583104166,
      "learning_rate": 1.802184755314684e-05,
      "loss": 0.9442,
      "step": 3707
    },
    {
      "epoch": 0.2276312962337702,
      "grad_norm": 0.6401407260913459,
      "learning_rate": 1.802066019886655e-05,
      "loss": 0.9871,
      "step": 3708
    },
    {
      "epoch": 0.22769268547223673,
      "grad_norm": 0.6700077360998014,
      "learning_rate": 1.8019472527486667e-05,
      "loss": 0.9519,
      "step": 3709
    },
    {
      "epoch": 0.22775407471070322,
      "grad_norm": 0.6785171231339688,
      "learning_rate": 1.8018284539054142e-05,
      "loss": 0.9428,
      "step": 3710
    },
    {
      "epoch": 0.2278154639491697,
      "grad_norm": 0.6777543427708438,
      "learning_rate": 1.8017096233615942e-05,
      "loss": 0.9254,
      "step": 3711
    },
    {
      "epoch": 0.2278768531876362,
      "grad_norm": 0.6858382547713939,
      "learning_rate": 1.8015907611219053e-05,
      "loss": 1.0224,
      "step": 3712
    },
    {
      "epoch": 0.2279382424261027,
      "grad_norm": 0.6615861797133439,
      "learning_rate": 1.8014718671910462e-05,
      "loss": 0.9527,
      "step": 3713
    },
    {
      "epoch": 0.2279996316645692,
      "grad_norm": 0.6728800050066247,
      "learning_rate": 1.801352941573718e-05,
      "loss": 0.9966,
      "step": 3714
    },
    {
      "epoch": 0.2280610209030357,
      "grad_norm": 0.6501886136577669,
      "learning_rate": 1.8012339842746215e-05,
      "loss": 0.9706,
      "step": 3715
    },
    {
      "epoch": 0.2281224101415022,
      "grad_norm": 0.6372176631927576,
      "learning_rate": 1.8011149952984607e-05,
      "loss": 0.9671,
      "step": 3716
    },
    {
      "epoch": 0.2281837993799687,
      "grad_norm": 0.6541382149552478,
      "learning_rate": 1.8009959746499396e-05,
      "loss": 0.9769,
      "step": 3717
    },
    {
      "epoch": 0.22824518861843518,
      "grad_norm": 0.6191269796652672,
      "learning_rate": 1.800876922333763e-05,
      "loss": 0.9482,
      "step": 3718
    },
    {
      "epoch": 0.22830657785690167,
      "grad_norm": 0.6453743059421819,
      "learning_rate": 1.8007578383546388e-05,
      "loss": 0.9839,
      "step": 3719
    },
    {
      "epoch": 0.2283679670953682,
      "grad_norm": 0.644219712213957,
      "learning_rate": 1.8006387227172744e-05,
      "loss": 1.0283,
      "step": 3720
    },
    {
      "epoch": 0.22842935633383468,
      "grad_norm": 0.6549123954996509,
      "learning_rate": 1.800519575426379e-05,
      "loss": 0.9572,
      "step": 3721
    },
    {
      "epoch": 0.22849074557230117,
      "grad_norm": 0.7113127027862696,
      "learning_rate": 1.8004003964866635e-05,
      "loss": 0.9997,
      "step": 3722
    },
    {
      "epoch": 0.22855213481076767,
      "grad_norm": 0.6646632803261467,
      "learning_rate": 1.800281185902839e-05,
      "loss": 0.9444,
      "step": 3723
    },
    {
      "epoch": 0.22861352404923416,
      "grad_norm": 0.6355380372682221,
      "learning_rate": 1.8001619436796194e-05,
      "loss": 0.9973,
      "step": 3724
    },
    {
      "epoch": 0.22867491328770068,
      "grad_norm": 0.6925687757091316,
      "learning_rate": 1.8000426698217186e-05,
      "loss": 1.004,
      "step": 3725
    },
    {
      "epoch": 0.22873630252616717,
      "grad_norm": 0.6385434598821704,
      "learning_rate": 1.7999233643338524e-05,
      "loss": 1.008,
      "step": 3726
    },
    {
      "epoch": 0.22879769176463366,
      "grad_norm": 0.6183379959857657,
      "learning_rate": 1.799804027220737e-05,
      "loss": 0.9684,
      "step": 3727
    },
    {
      "epoch": 0.22885908100310015,
      "grad_norm": 0.6462267561642169,
      "learning_rate": 1.799684658487091e-05,
      "loss": 0.9828,
      "step": 3728
    },
    {
      "epoch": 0.22892047024156664,
      "grad_norm": 0.6957980203134241,
      "learning_rate": 1.799565258137633e-05,
      "loss": 1.0162,
      "step": 3729
    },
    {
      "epoch": 0.22898185948003316,
      "grad_norm": 0.6469809787840315,
      "learning_rate": 1.7994458261770844e-05,
      "loss": 0.9809,
      "step": 3730
    },
    {
      "epoch": 0.22904324871849965,
      "grad_norm": 0.5884835108568296,
      "learning_rate": 1.799326362610166e-05,
      "loss": 0.9305,
      "step": 3731
    },
    {
      "epoch": 0.22910463795696615,
      "grad_norm": 0.7464839517570434,
      "learning_rate": 1.7992068674416017e-05,
      "loss": 1.0337,
      "step": 3732
    },
    {
      "epoch": 0.22916602719543264,
      "grad_norm": 0.6657050216299418,
      "learning_rate": 1.7990873406761156e-05,
      "loss": 0.9892,
      "step": 3733
    },
    {
      "epoch": 0.22922741643389913,
      "grad_norm": 0.6771656694180163,
      "learning_rate": 1.798967782318433e-05,
      "loss": 0.9707,
      "step": 3734
    },
    {
      "epoch": 0.22928880567236565,
      "grad_norm": 0.6664954987855839,
      "learning_rate": 1.798848192373281e-05,
      "loss": 0.9768,
      "step": 3735
    },
    {
      "epoch": 0.22935019491083214,
      "grad_norm": 0.6281011766682714,
      "learning_rate": 1.7987285708453873e-05,
      "loss": 0.9799,
      "step": 3736
    },
    {
      "epoch": 0.22941158414929863,
      "grad_norm": 0.6674711162293449,
      "learning_rate": 1.798608917739481e-05,
      "loss": 0.972,
      "step": 3737
    },
    {
      "epoch": 0.22947297338776512,
      "grad_norm": 0.6199464849345213,
      "learning_rate": 1.798489233060293e-05,
      "loss": 0.9561,
      "step": 3738
    },
    {
      "epoch": 0.22953436262623161,
      "grad_norm": 0.6470411913126586,
      "learning_rate": 1.7983695168125552e-05,
      "loss": 0.9794,
      "step": 3739
    },
    {
      "epoch": 0.2295957518646981,
      "grad_norm": 0.5824356425540745,
      "learning_rate": 1.7982497690010004e-05,
      "loss": 0.8982,
      "step": 3740
    },
    {
      "epoch": 0.22965714110316462,
      "grad_norm": 0.6491704233009823,
      "learning_rate": 1.7981299896303628e-05,
      "loss": 1.0132,
      "step": 3741
    },
    {
      "epoch": 0.22971853034163112,
      "grad_norm": 0.6582736899850598,
      "learning_rate": 1.7980101787053782e-05,
      "loss": 0.9852,
      "step": 3742
    },
    {
      "epoch": 0.2297799195800976,
      "grad_norm": 0.6353293355511678,
      "learning_rate": 1.797890336230783e-05,
      "loss": 0.966,
      "step": 3743
    },
    {
      "epoch": 0.2298413088185641,
      "grad_norm": 0.6677927579756867,
      "learning_rate": 1.7977704622113153e-05,
      "loss": 0.9522,
      "step": 3744
    },
    {
      "epoch": 0.2299026980570306,
      "grad_norm": 0.6187141577334488,
      "learning_rate": 1.7976505566517146e-05,
      "loss": 0.9338,
      "step": 3745
    },
    {
      "epoch": 0.2299640872954971,
      "grad_norm": 0.6371660353946598,
      "learning_rate": 1.7975306195567212e-05,
      "loss": 0.9738,
      "step": 3746
    },
    {
      "epoch": 0.2300254765339636,
      "grad_norm": 0.6537942579440938,
      "learning_rate": 1.7974106509310768e-05,
      "loss": 0.9576,
      "step": 3747
    },
    {
      "epoch": 0.2300868657724301,
      "grad_norm": 0.5966995786825815,
      "learning_rate": 1.797290650779525e-05,
      "loss": 0.9485,
      "step": 3748
    },
    {
      "epoch": 0.23014825501089659,
      "grad_norm": 0.683710048518479,
      "learning_rate": 1.797170619106809e-05,
      "loss": 1.059,
      "step": 3749
    },
    {
      "epoch": 0.23020964424936308,
      "grad_norm": 0.6774458031230455,
      "learning_rate": 1.7970505559176753e-05,
      "loss": 1.0245,
      "step": 3750
    },
    {
      "epoch": 0.2302710334878296,
      "grad_norm": 0.6390294824409861,
      "learning_rate": 1.7969304612168697e-05,
      "loss": 0.7581,
      "step": 3751
    },
    {
      "epoch": 0.2303324227262961,
      "grad_norm": 0.5882246505395632,
      "learning_rate": 1.7968103350091412e-05,
      "loss": 0.9361,
      "step": 3752
    },
    {
      "epoch": 0.23039381196476258,
      "grad_norm": 0.5930814370450003,
      "learning_rate": 1.796690177299238e-05,
      "loss": 0.9599,
      "step": 3753
    },
    {
      "epoch": 0.23045520120322907,
      "grad_norm": 0.6608985593421443,
      "learning_rate": 1.7965699880919114e-05,
      "loss": 0.9836,
      "step": 3754
    },
    {
      "epoch": 0.23051659044169556,
      "grad_norm": 0.7013353226391393,
      "learning_rate": 1.7964497673919127e-05,
      "loss": 1.0344,
      "step": 3755
    },
    {
      "epoch": 0.23057797968016205,
      "grad_norm": 0.6239381553995218,
      "learning_rate": 1.7963295152039952e-05,
      "loss": 0.9756,
      "step": 3756
    },
    {
      "epoch": 0.23063936891862857,
      "grad_norm": 0.6077695626760141,
      "learning_rate": 1.796209231532913e-05,
      "loss": 0.978,
      "step": 3757
    },
    {
      "epoch": 0.23070075815709506,
      "grad_norm": 0.6337122222251049,
      "learning_rate": 1.796088916383421e-05,
      "loss": 1.0022,
      "step": 3758
    },
    {
      "epoch": 0.23076214739556156,
      "grad_norm": 0.6684800275857378,
      "learning_rate": 1.7959685697602765e-05,
      "loss": 1.0259,
      "step": 3759
    },
    {
      "epoch": 0.23082353663402805,
      "grad_norm": 0.6118708060384435,
      "learning_rate": 1.795848191668238e-05,
      "loss": 0.975,
      "step": 3760
    },
    {
      "epoch": 0.23088492587249454,
      "grad_norm": 0.6340182139930204,
      "learning_rate": 1.795727782112063e-05,
      "loss": 0.969,
      "step": 3761
    },
    {
      "epoch": 0.23094631511096106,
      "grad_norm": 0.655905455111785,
      "learning_rate": 1.795607341096513e-05,
      "loss": 0.9651,
      "step": 3762
    },
    {
      "epoch": 0.23100770434942755,
      "grad_norm": 0.6025275449476639,
      "learning_rate": 1.79548686862635e-05,
      "loss": 0.8014,
      "step": 3763
    },
    {
      "epoch": 0.23106909358789404,
      "grad_norm": 0.6303154151241928,
      "learning_rate": 1.7953663647063365e-05,
      "loss": 0.9797,
      "step": 3764
    },
    {
      "epoch": 0.23113048282636053,
      "grad_norm": 0.6423307987997974,
      "learning_rate": 1.795245829341237e-05,
      "loss": 0.9842,
      "step": 3765
    },
    {
      "epoch": 0.23119187206482703,
      "grad_norm": 0.6667165720075262,
      "learning_rate": 1.7951252625358158e-05,
      "loss": 0.9984,
      "step": 3766
    },
    {
      "epoch": 0.23125326130329354,
      "grad_norm": 0.6463405661016115,
      "learning_rate": 1.7950046642948407e-05,
      "loss": 0.9678,
      "step": 3767
    },
    {
      "epoch": 0.23131465054176004,
      "grad_norm": 0.6836247086112636,
      "learning_rate": 1.7948840346230795e-05,
      "loss": 0.9797,
      "step": 3768
    },
    {
      "epoch": 0.23137603978022653,
      "grad_norm": 0.594064789828011,
      "learning_rate": 1.7947633735253005e-05,
      "loss": 0.9438,
      "step": 3769
    },
    {
      "epoch": 0.23143742901869302,
      "grad_norm": 0.6648449909636919,
      "learning_rate": 1.794642681006275e-05,
      "loss": 1.0299,
      "step": 3770
    },
    {
      "epoch": 0.2314988182571595,
      "grad_norm": 0.6535189042906371,
      "learning_rate": 1.7945219570707745e-05,
      "loss": 0.9834,
      "step": 3771
    },
    {
      "epoch": 0.23156020749562603,
      "grad_norm": 0.6278978718871491,
      "learning_rate": 1.794401201723571e-05,
      "loss": 0.9502,
      "step": 3772
    },
    {
      "epoch": 0.23162159673409252,
      "grad_norm": 0.6076121472879209,
      "learning_rate": 1.79428041496944e-05,
      "loss": 0.9339,
      "step": 3773
    },
    {
      "epoch": 0.231682985972559,
      "grad_norm": 0.6429679816725792,
      "learning_rate": 1.7941595968131554e-05,
      "loss": 1.0216,
      "step": 3774
    },
    {
      "epoch": 0.2317443752110255,
      "grad_norm": 0.6365398181662585,
      "learning_rate": 1.7940387472594948e-05,
      "loss": 0.9185,
      "step": 3775
    },
    {
      "epoch": 0.231805764449492,
      "grad_norm": 0.7175711015254052,
      "learning_rate": 1.793917866313236e-05,
      "loss": 1.0735,
      "step": 3776
    },
    {
      "epoch": 0.2318671536879585,
      "grad_norm": 0.6061800918795572,
      "learning_rate": 1.793796953979157e-05,
      "loss": 0.9443,
      "step": 3777
    },
    {
      "epoch": 0.231928542926425,
      "grad_norm": 0.5946875711280212,
      "learning_rate": 1.7936760102620398e-05,
      "loss": 0.771,
      "step": 3778
    },
    {
      "epoch": 0.2319899321648915,
      "grad_norm": 0.6545254133735393,
      "learning_rate": 1.7935550351666644e-05,
      "loss": 0.9962,
      "step": 3779
    },
    {
      "epoch": 0.232051321403358,
      "grad_norm": 0.7352922774446986,
      "learning_rate": 1.7934340286978145e-05,
      "loss": 1.0127,
      "step": 3780
    },
    {
      "epoch": 0.23211271064182448,
      "grad_norm": 0.7069115055343351,
      "learning_rate": 1.7933129908602738e-05,
      "loss": 0.9966,
      "step": 3781
    },
    {
      "epoch": 0.23217409988029097,
      "grad_norm": 0.6453709433995364,
      "learning_rate": 1.7931919216588275e-05,
      "loss": 0.9803,
      "step": 3782
    },
    {
      "epoch": 0.2322354891187575,
      "grad_norm": 0.6393823840488866,
      "learning_rate": 1.7930708210982625e-05,
      "loss": 0.9848,
      "step": 3783
    },
    {
      "epoch": 0.23229687835722398,
      "grad_norm": 0.6684539956650891,
      "learning_rate": 1.7929496891833662e-05,
      "loss": 1.006,
      "step": 3784
    },
    {
      "epoch": 0.23235826759569048,
      "grad_norm": 0.6317004117509044,
      "learning_rate": 1.7928285259189275e-05,
      "loss": 0.9607,
      "step": 3785
    },
    {
      "epoch": 0.23241965683415697,
      "grad_norm": 1.201643638735053,
      "learning_rate": 1.792707331309737e-05,
      "loss": 1.0126,
      "step": 3786
    },
    {
      "epoch": 0.23248104607262346,
      "grad_norm": 0.6256220809514461,
      "learning_rate": 1.7925861053605856e-05,
      "loss": 1.0053,
      "step": 3787
    },
    {
      "epoch": 0.23254243531108998,
      "grad_norm": 0.6897552027981313,
      "learning_rate": 1.792464848076267e-05,
      "loss": 1.0026,
      "step": 3788
    },
    {
      "epoch": 0.23260382454955647,
      "grad_norm": 0.6447939337974714,
      "learning_rate": 1.7923435594615744e-05,
      "loss": 0.952,
      "step": 3789
    },
    {
      "epoch": 0.23266521378802296,
      "grad_norm": 0.6334156265633513,
      "learning_rate": 1.792222239521303e-05,
      "loss": 0.9514,
      "step": 3790
    },
    {
      "epoch": 0.23272660302648945,
      "grad_norm": 0.693230106510601,
      "learning_rate": 1.7921008882602495e-05,
      "loss": 0.9639,
      "step": 3791
    },
    {
      "epoch": 0.23278799226495595,
      "grad_norm": 0.6892279545646456,
      "learning_rate": 1.7919795056832113e-05,
      "loss": 1.0036,
      "step": 3792
    },
    {
      "epoch": 0.23284938150342244,
      "grad_norm": 0.6452643545969939,
      "learning_rate": 1.7918580917949876e-05,
      "loss": 0.9819,
      "step": 3793
    },
    {
      "epoch": 0.23291077074188896,
      "grad_norm": 0.605980121348756,
      "learning_rate": 1.7917366466003784e-05,
      "loss": 0.9563,
      "step": 3794
    },
    {
      "epoch": 0.23297215998035545,
      "grad_norm": 0.6197240708838897,
      "learning_rate": 1.7916151701041847e-05,
      "loss": 0.9233,
      "step": 3795
    },
    {
      "epoch": 0.23303354921882194,
      "grad_norm": 0.5994533230828523,
      "learning_rate": 1.79149366231121e-05,
      "loss": 0.9701,
      "step": 3796
    },
    {
      "epoch": 0.23309493845728843,
      "grad_norm": 0.6464336079050638,
      "learning_rate": 1.7913721232262572e-05,
      "loss": 0.9764,
      "step": 3797
    },
    {
      "epoch": 0.23315632769575492,
      "grad_norm": 0.681044801530339,
      "learning_rate": 1.791250552854132e-05,
      "loss": 1.0532,
      "step": 3798
    },
    {
      "epoch": 0.23321771693422144,
      "grad_norm": 0.6451783030379551,
      "learning_rate": 1.7911289511996406e-05,
      "loss": 0.9899,
      "step": 3799
    },
    {
      "epoch": 0.23327910617268793,
      "grad_norm": 0.6281699460301247,
      "learning_rate": 1.7910073182675905e-05,
      "loss": 0.989,
      "step": 3800
    },
    {
      "epoch": 0.23334049541115442,
      "grad_norm": 0.614901616519449,
      "learning_rate": 1.79088565406279e-05,
      "loss": 0.9474,
      "step": 3801
    },
    {
      "epoch": 0.23340188464962092,
      "grad_norm": 0.5893087563704578,
      "learning_rate": 1.7907639585900504e-05,
      "loss": 0.9536,
      "step": 3802
    },
    {
      "epoch": 0.2334632738880874,
      "grad_norm": 0.6336439659605961,
      "learning_rate": 1.790642231854182e-05,
      "loss": 0.9718,
      "step": 3803
    },
    {
      "epoch": 0.23352466312655393,
      "grad_norm": 0.6286059236735816,
      "learning_rate": 1.790520473859997e-05,
      "loss": 0.9959,
      "step": 3804
    },
    {
      "epoch": 0.23358605236502042,
      "grad_norm": 0.7120383918052023,
      "learning_rate": 1.7903986846123103e-05,
      "loss": 1.0187,
      "step": 3805
    },
    {
      "epoch": 0.2336474416034869,
      "grad_norm": 0.6998843025532181,
      "learning_rate": 1.7902768641159357e-05,
      "loss": 1.0272,
      "step": 3806
    },
    {
      "epoch": 0.2337088308419534,
      "grad_norm": 0.6482978426517798,
      "learning_rate": 1.7901550123756906e-05,
      "loss": 0.9757,
      "step": 3807
    },
    {
      "epoch": 0.2337702200804199,
      "grad_norm": 0.6093253980603556,
      "learning_rate": 1.7900331293963913e-05,
      "loss": 0.9665,
      "step": 3808
    },
    {
      "epoch": 0.23383160931888639,
      "grad_norm": 0.6558589650454237,
      "learning_rate": 1.789911215182857e-05,
      "loss": 0.9682,
      "step": 3809
    },
    {
      "epoch": 0.2338929985573529,
      "grad_norm": 0.6211529704476131,
      "learning_rate": 1.7897892697399083e-05,
      "loss": 0.9543,
      "step": 3810
    },
    {
      "epoch": 0.2339543877958194,
      "grad_norm": 0.6422889928120896,
      "learning_rate": 1.789667293072365e-05,
      "loss": 1.0306,
      "step": 3811
    },
    {
      "epoch": 0.2340157770342859,
      "grad_norm": 0.6628853338038242,
      "learning_rate": 1.7895452851850502e-05,
      "loss": 0.9359,
      "step": 3812
    },
    {
      "epoch": 0.23407716627275238,
      "grad_norm": 0.6605428974027459,
      "learning_rate": 1.7894232460827878e-05,
      "loss": 0.9997,
      "step": 3813
    },
    {
      "epoch": 0.23413855551121887,
      "grad_norm": 0.7000196861930328,
      "learning_rate": 1.7893011757704022e-05,
      "loss": 1.0086,
      "step": 3814
    },
    {
      "epoch": 0.2341999447496854,
      "grad_norm": 0.6903416433210362,
      "learning_rate": 1.7891790742527194e-05,
      "loss": 1.0532,
      "step": 3815
    },
    {
      "epoch": 0.23426133398815188,
      "grad_norm": 0.7330592801535778,
      "learning_rate": 1.789056941534567e-05,
      "loss": 1.0379,
      "step": 3816
    },
    {
      "epoch": 0.23432272322661837,
      "grad_norm": 0.6600982865030086,
      "learning_rate": 1.788934777620774e-05,
      "loss": 0.981,
      "step": 3817
    },
    {
      "epoch": 0.23438411246508487,
      "grad_norm": 0.5934386620225004,
      "learning_rate": 1.7888125825161697e-05,
      "loss": 0.9099,
      "step": 3818
    },
    {
      "epoch": 0.23444550170355136,
      "grad_norm": 0.6489152254221878,
      "learning_rate": 1.7886903562255847e-05,
      "loss": 0.9967,
      "step": 3819
    },
    {
      "epoch": 0.23450689094201788,
      "grad_norm": 0.6063044558167893,
      "learning_rate": 1.788568098753852e-05,
      "loss": 0.9522,
      "step": 3820
    },
    {
      "epoch": 0.23456828018048437,
      "grad_norm": 0.6050185075483994,
      "learning_rate": 1.7884458101058047e-05,
      "loss": 0.9248,
      "step": 3821
    },
    {
      "epoch": 0.23462966941895086,
      "grad_norm": 0.6754472799137913,
      "learning_rate": 1.7883234902862778e-05,
      "loss": 1.0463,
      "step": 3822
    },
    {
      "epoch": 0.23469105865741735,
      "grad_norm": 0.6431860166552629,
      "learning_rate": 1.7882011393001067e-05,
      "loss": 0.9878,
      "step": 3823
    },
    {
      "epoch": 0.23475244789588384,
      "grad_norm": 0.6188267065615692,
      "learning_rate": 1.7880787571521293e-05,
      "loss": 0.9786,
      "step": 3824
    },
    {
      "epoch": 0.23481383713435036,
      "grad_norm": 0.5939820939758111,
      "learning_rate": 1.7879563438471833e-05,
      "loss": 0.7758,
      "step": 3825
    },
    {
      "epoch": 0.23487522637281685,
      "grad_norm": 0.6622606394746059,
      "learning_rate": 1.7878338993901093e-05,
      "loss": 0.9352,
      "step": 3826
    },
    {
      "epoch": 0.23493661561128334,
      "grad_norm": 0.640463319282988,
      "learning_rate": 1.787711423785747e-05,
      "loss": 0.9482,
      "step": 3827
    },
    {
      "epoch": 0.23499800484974984,
      "grad_norm": 0.5827130300991411,
      "learning_rate": 1.7875889170389394e-05,
      "loss": 0.9313,
      "step": 3828
    },
    {
      "epoch": 0.23505939408821633,
      "grad_norm": 0.6451126337659848,
      "learning_rate": 1.78746637915453e-05,
      "loss": 0.9806,
      "step": 3829
    },
    {
      "epoch": 0.23512078332668282,
      "grad_norm": 0.6446409348662013,
      "learning_rate": 1.7873438101373626e-05,
      "loss": 0.9812,
      "step": 3830
    },
    {
      "epoch": 0.23518217256514934,
      "grad_norm": 0.626968990710014,
      "learning_rate": 1.787221209992283e-05,
      "loss": 0.9571,
      "step": 3831
    },
    {
      "epoch": 0.23524356180361583,
      "grad_norm": 0.6520650207898104,
      "learning_rate": 1.7870985787241394e-05,
      "loss": 1.0111,
      "step": 3832
    },
    {
      "epoch": 0.23530495104208232,
      "grad_norm": 0.6474147910708077,
      "learning_rate": 1.7869759163377786e-05,
      "loss": 0.9578,
      "step": 3833
    },
    {
      "epoch": 0.2353663402805488,
      "grad_norm": 0.7032856356907857,
      "learning_rate": 1.786853222838051e-05,
      "loss": 0.9943,
      "step": 3834
    },
    {
      "epoch": 0.2354277295190153,
      "grad_norm": 0.650861397538362,
      "learning_rate": 1.7867304982298073e-05,
      "loss": 1.0203,
      "step": 3835
    },
    {
      "epoch": 0.23548911875748182,
      "grad_norm": 0.6762292556324221,
      "learning_rate": 1.7866077425178995e-05,
      "loss": 1.0092,
      "step": 3836
    },
    {
      "epoch": 0.23555050799594832,
      "grad_norm": 0.6463819635116702,
      "learning_rate": 1.78648495570718e-05,
      "loss": 0.9669,
      "step": 3837
    },
    {
      "epoch": 0.2356118972344148,
      "grad_norm": 0.6862183505665362,
      "learning_rate": 1.786362137802504e-05,
      "loss": 0.9983,
      "step": 3838
    },
    {
      "epoch": 0.2356732864728813,
      "grad_norm": 0.6209438736957993,
      "learning_rate": 1.786239288808727e-05,
      "loss": 0.9268,
      "step": 3839
    },
    {
      "epoch": 0.2357346757113478,
      "grad_norm": 0.6155213577040862,
      "learning_rate": 1.7861164087307056e-05,
      "loss": 1.0065,
      "step": 3840
    },
    {
      "epoch": 0.2357960649498143,
      "grad_norm": 0.6339993648995285,
      "learning_rate": 1.785993497573298e-05,
      "loss": 1.0183,
      "step": 3841
    },
    {
      "epoch": 0.2358574541882808,
      "grad_norm": 0.6958470080296878,
      "learning_rate": 1.785870555341364e-05,
      "loss": 1.0233,
      "step": 3842
    },
    {
      "epoch": 0.2359188434267473,
      "grad_norm": 0.6553189499652783,
      "learning_rate": 1.785747582039764e-05,
      "loss": 1.0169,
      "step": 3843
    },
    {
      "epoch": 0.23598023266521378,
      "grad_norm": 0.6769598997961894,
      "learning_rate": 1.7856245776733593e-05,
      "loss": 0.9883,
      "step": 3844
    },
    {
      "epoch": 0.23604162190368028,
      "grad_norm": 0.646893355437103,
      "learning_rate": 1.7855015422470132e-05,
      "loss": 0.9976,
      "step": 3845
    },
    {
      "epoch": 0.23610301114214677,
      "grad_norm": 0.6752144110373347,
      "learning_rate": 1.7853784757655902e-05,
      "loss": 0.9841,
      "step": 3846
    },
    {
      "epoch": 0.2361644003806133,
      "grad_norm": 0.6227857954023789,
      "learning_rate": 1.7852553782339553e-05,
      "loss": 0.9592,
      "step": 3847
    },
    {
      "epoch": 0.23622578961907978,
      "grad_norm": 0.637362892279412,
      "learning_rate": 1.7851322496569755e-05,
      "loss": 1.0076,
      "step": 3848
    },
    {
      "epoch": 0.23628717885754627,
      "grad_norm": 0.5999696998014284,
      "learning_rate": 1.7850090900395186e-05,
      "loss": 0.9579,
      "step": 3849
    },
    {
      "epoch": 0.23634856809601276,
      "grad_norm": 0.645714469137158,
      "learning_rate": 1.7848858993864543e-05,
      "loss": 1.0032,
      "step": 3850
    },
    {
      "epoch": 0.23640995733447925,
      "grad_norm": 0.6685797426914494,
      "learning_rate": 1.784762677702652e-05,
      "loss": 1.0189,
      "step": 3851
    },
    {
      "epoch": 0.23647134657294577,
      "grad_norm": 0.675497360208694,
      "learning_rate": 1.7846394249929844e-05,
      "loss": 0.9776,
      "step": 3852
    },
    {
      "epoch": 0.23653273581141226,
      "grad_norm": 0.6639062760523473,
      "learning_rate": 1.7845161412623233e-05,
      "loss": 0.9965,
      "step": 3853
    },
    {
      "epoch": 0.23659412504987876,
      "grad_norm": 0.6554401185651391,
      "learning_rate": 1.7843928265155435e-05,
      "loss": 0.9564,
      "step": 3854
    },
    {
      "epoch": 0.23665551428834525,
      "grad_norm": 0.7263641182205255,
      "learning_rate": 1.78426948075752e-05,
      "loss": 1.1111,
      "step": 3855
    },
    {
      "epoch": 0.23671690352681174,
      "grad_norm": 0.619172870176827,
      "learning_rate": 1.784146103993129e-05,
      "loss": 0.9839,
      "step": 3856
    },
    {
      "epoch": 0.23677829276527826,
      "grad_norm": 0.6623260446934407,
      "learning_rate": 1.784022696227249e-05,
      "loss": 0.9842,
      "step": 3857
    },
    {
      "epoch": 0.23683968200374475,
      "grad_norm": 0.737476124840621,
      "learning_rate": 1.7838992574647583e-05,
      "loss": 1.0561,
      "step": 3858
    },
    {
      "epoch": 0.23690107124221124,
      "grad_norm": 0.7122106834597491,
      "learning_rate": 1.7837757877105378e-05,
      "loss": 1.0139,
      "step": 3859
    },
    {
      "epoch": 0.23696246048067773,
      "grad_norm": 0.6546148574866112,
      "learning_rate": 1.7836522869694685e-05,
      "loss": 0.9269,
      "step": 3860
    },
    {
      "epoch": 0.23702384971914423,
      "grad_norm": 0.6516727652628951,
      "learning_rate": 1.7835287552464327e-05,
      "loss": 0.979,
      "step": 3861
    },
    {
      "epoch": 0.23708523895761074,
      "grad_norm": 0.6084377881808066,
      "learning_rate": 1.7834051925463145e-05,
      "loss": 0.9607,
      "step": 3862
    },
    {
      "epoch": 0.23714662819607724,
      "grad_norm": 0.6915944954816843,
      "learning_rate": 1.783281598873999e-05,
      "loss": 1.0288,
      "step": 3863
    },
    {
      "epoch": 0.23720801743454373,
      "grad_norm": 0.7057802870791623,
      "learning_rate": 1.783157974234373e-05,
      "loss": 0.9961,
      "step": 3864
    },
    {
      "epoch": 0.23726940667301022,
      "grad_norm": 0.6809548858070458,
      "learning_rate": 1.7830343186323235e-05,
      "loss": 1.0519,
      "step": 3865
    },
    {
      "epoch": 0.2373307959114767,
      "grad_norm": 0.6557377023866517,
      "learning_rate": 1.7829106320727394e-05,
      "loss": 0.986,
      "step": 3866
    },
    {
      "epoch": 0.2373921851499432,
      "grad_norm": 0.6155572723006927,
      "learning_rate": 1.7827869145605107e-05,
      "loss": 0.9624,
      "step": 3867
    },
    {
      "epoch": 0.23745357438840972,
      "grad_norm": 0.6819593794156537,
      "learning_rate": 1.782663166100529e-05,
      "loss": 1.0436,
      "step": 3868
    },
    {
      "epoch": 0.2375149636268762,
      "grad_norm": 0.6627192928760678,
      "learning_rate": 1.7825393866976858e-05,
      "loss": 0.9936,
      "step": 3869
    },
    {
      "epoch": 0.2375763528653427,
      "grad_norm": 0.6709448208513522,
      "learning_rate": 1.7824155763568755e-05,
      "loss": 0.9899,
      "step": 3870
    },
    {
      "epoch": 0.2376377421038092,
      "grad_norm": 0.6069812390795039,
      "learning_rate": 1.7822917350829932e-05,
      "loss": 0.9526,
      "step": 3871
    },
    {
      "epoch": 0.2376991313422757,
      "grad_norm": 0.6111401621175552,
      "learning_rate": 1.782167862880934e-05,
      "loss": 0.97,
      "step": 3872
    },
    {
      "epoch": 0.2377605205807422,
      "grad_norm": 0.6526238223171801,
      "learning_rate": 1.7820439597555964e-05,
      "loss": 0.948,
      "step": 3873
    },
    {
      "epoch": 0.2378219098192087,
      "grad_norm": 0.6384374363539701,
      "learning_rate": 1.781920025711878e-05,
      "loss": 0.9908,
      "step": 3874
    },
    {
      "epoch": 0.2378832990576752,
      "grad_norm": 0.6073201959657005,
      "learning_rate": 1.781796060754679e-05,
      "loss": 0.9272,
      "step": 3875
    },
    {
      "epoch": 0.23794468829614168,
      "grad_norm": 0.6479636567515533,
      "learning_rate": 1.7816720648889006e-05,
      "loss": 0.9182,
      "step": 3876
    },
    {
      "epoch": 0.23800607753460817,
      "grad_norm": 0.6701974323717659,
      "learning_rate": 1.781548038119445e-05,
      "loss": 0.9985,
      "step": 3877
    },
    {
      "epoch": 0.2380674667730747,
      "grad_norm": 0.719432538338452,
      "learning_rate": 1.7814239804512154e-05,
      "loss": 1.0493,
      "step": 3878
    },
    {
      "epoch": 0.23812885601154118,
      "grad_norm": 0.6329957052957409,
      "learning_rate": 1.7812998918891162e-05,
      "loss": 1.0039,
      "step": 3879
    },
    {
      "epoch": 0.23819024525000768,
      "grad_norm": 0.6597814101782793,
      "learning_rate": 1.7811757724380534e-05,
      "loss": 0.9969,
      "step": 3880
    },
    {
      "epoch": 0.23825163448847417,
      "grad_norm": 0.65514732275793,
      "learning_rate": 1.7810516221029347e-05,
      "loss": 1.0306,
      "step": 3881
    },
    {
      "epoch": 0.23831302372694066,
      "grad_norm": 0.6498749984262835,
      "learning_rate": 1.7809274408886678e-05,
      "loss": 0.9956,
      "step": 3882
    },
    {
      "epoch": 0.23837441296540715,
      "grad_norm": 0.7180219429357517,
      "learning_rate": 1.7808032288001624e-05,
      "loss": 1.007,
      "step": 3883
    },
    {
      "epoch": 0.23843580220387367,
      "grad_norm": 0.6459474156225696,
      "learning_rate": 1.7806789858423298e-05,
      "loss": 1.0023,
      "step": 3884
    },
    {
      "epoch": 0.23849719144234016,
      "grad_norm": 0.6622680183356141,
      "learning_rate": 1.780554712020081e-05,
      "loss": 0.9917,
      "step": 3885
    },
    {
      "epoch": 0.23855858068080665,
      "grad_norm": 0.6899406938072355,
      "learning_rate": 1.7804304073383298e-05,
      "loss": 0.9928,
      "step": 3886
    },
    {
      "epoch": 0.23861996991927314,
      "grad_norm": 0.6859882866197652,
      "learning_rate": 1.780306071801991e-05,
      "loss": 1.0232,
      "step": 3887
    },
    {
      "epoch": 0.23868135915773964,
      "grad_norm": 0.6689399209641698,
      "learning_rate": 1.7801817054159794e-05,
      "loss": 0.987,
      "step": 3888
    },
    {
      "epoch": 0.23874274839620616,
      "grad_norm": 0.6438545011439459,
      "learning_rate": 1.7800573081852124e-05,
      "loss": 0.9529,
      "step": 3889
    },
    {
      "epoch": 0.23880413763467265,
      "grad_norm": 0.6559085423800326,
      "learning_rate": 1.779932880114608e-05,
      "loss": 1.0043,
      "step": 3890
    },
    {
      "epoch": 0.23886552687313914,
      "grad_norm": 0.615977490876467,
      "learning_rate": 1.779808421209085e-05,
      "loss": 0.9384,
      "step": 3891
    },
    {
      "epoch": 0.23892691611160563,
      "grad_norm": 0.6712864367023246,
      "learning_rate": 1.779683931473565e-05,
      "loss": 0.9731,
      "step": 3892
    },
    {
      "epoch": 0.23898830535007212,
      "grad_norm": 0.6039880685724652,
      "learning_rate": 1.7795594109129692e-05,
      "loss": 0.9572,
      "step": 3893
    },
    {
      "epoch": 0.23904969458853864,
      "grad_norm": 0.6295532324112295,
      "learning_rate": 1.77943485953222e-05,
      "loss": 0.9838,
      "step": 3894
    },
    {
      "epoch": 0.23911108382700513,
      "grad_norm": 0.6177296161495234,
      "learning_rate": 1.7793102773362426e-05,
      "loss": 0.9569,
      "step": 3895
    },
    {
      "epoch": 0.23917247306547162,
      "grad_norm": 0.6332662421321268,
      "learning_rate": 1.7791856643299617e-05,
      "loss": 0.968,
      "step": 3896
    },
    {
      "epoch": 0.23923386230393812,
      "grad_norm": 0.650231466056504,
      "learning_rate": 1.779061020518304e-05,
      "loss": 0.9303,
      "step": 3897
    },
    {
      "epoch": 0.2392952515424046,
      "grad_norm": 0.6277517944988399,
      "learning_rate": 1.7789363459061976e-05,
      "loss": 0.9623,
      "step": 3898
    },
    {
      "epoch": 0.23935664078087113,
      "grad_norm": 0.6194446585503963,
      "learning_rate": 1.7788116404985714e-05,
      "loss": 0.9654,
      "step": 3899
    },
    {
      "epoch": 0.23941803001933762,
      "grad_norm": 0.6426591218083695,
      "learning_rate": 1.7786869043003557e-05,
      "loss": 0.939,
      "step": 3900
    },
    {
      "epoch": 0.2394794192578041,
      "grad_norm": 0.6448119331087836,
      "learning_rate": 1.778562137316482e-05,
      "loss": 0.8103,
      "step": 3901
    },
    {
      "epoch": 0.2395408084962706,
      "grad_norm": 0.6419936635458464,
      "learning_rate": 1.7784373395518824e-05,
      "loss": 0.97,
      "step": 3902
    },
    {
      "epoch": 0.2396021977347371,
      "grad_norm": 0.707225896004649,
      "learning_rate": 1.778312511011492e-05,
      "loss": 0.9903,
      "step": 3903
    },
    {
      "epoch": 0.23966358697320359,
      "grad_norm": 0.6501405319816714,
      "learning_rate": 1.778187651700245e-05,
      "loss": 0.9873,
      "step": 3904
    },
    {
      "epoch": 0.2397249762116701,
      "grad_norm": 0.5480447376560867,
      "learning_rate": 1.7780627616230785e-05,
      "loss": 0.7539,
      "step": 3905
    },
    {
      "epoch": 0.2397863654501366,
      "grad_norm": 0.6071559758231996,
      "learning_rate": 1.7779378407849293e-05,
      "loss": 0.9028,
      "step": 3906
    },
    {
      "epoch": 0.2398477546886031,
      "grad_norm": 0.6782742820310091,
      "learning_rate": 1.7778128891907365e-05,
      "loss": 1.016,
      "step": 3907
    },
    {
      "epoch": 0.23990914392706958,
      "grad_norm": 0.6477133595877598,
      "learning_rate": 1.7776879068454406e-05,
      "loss": 0.9569,
      "step": 3908
    },
    {
      "epoch": 0.23997053316553607,
      "grad_norm": 0.6636491279651426,
      "learning_rate": 1.777562893753982e-05,
      "loss": 1.002,
      "step": 3909
    },
    {
      "epoch": 0.2400319224040026,
      "grad_norm": 0.6954300604839189,
      "learning_rate": 1.7774378499213037e-05,
      "loss": 1.0011,
      "step": 3910
    },
    {
      "epoch": 0.24009331164246908,
      "grad_norm": 0.6474785882782211,
      "learning_rate": 1.777312775352349e-05,
      "loss": 0.9861,
      "step": 3911
    },
    {
      "epoch": 0.24015470088093557,
      "grad_norm": 0.6169376406999316,
      "learning_rate": 1.7771876700520628e-05,
      "loss": 0.9657,
      "step": 3912
    },
    {
      "epoch": 0.24021609011940206,
      "grad_norm": 0.6939096796110458,
      "learning_rate": 1.7770625340253915e-05,
      "loss": 1.0406,
      "step": 3913
    },
    {
      "epoch": 0.24027747935786856,
      "grad_norm": 0.7019602661727256,
      "learning_rate": 1.7769373672772824e-05,
      "loss": 1.0128,
      "step": 3914
    },
    {
      "epoch": 0.24033886859633508,
      "grad_norm": 0.6444705228616655,
      "learning_rate": 1.7768121698126836e-05,
      "loss": 0.9749,
      "step": 3915
    },
    {
      "epoch": 0.24040025783480157,
      "grad_norm": 0.6814464634369113,
      "learning_rate": 1.776686941636545e-05,
      "loss": 1.0378,
      "step": 3916
    },
    {
      "epoch": 0.24046164707326806,
      "grad_norm": 0.7031541639199707,
      "learning_rate": 1.7765616827538178e-05,
      "loss": 0.9557,
      "step": 3917
    },
    {
      "epoch": 0.24052303631173455,
      "grad_norm": 0.647321605477806,
      "learning_rate": 1.776436393169454e-05,
      "loss": 0.9777,
      "step": 3918
    },
    {
      "epoch": 0.24058442555020104,
      "grad_norm": 0.7026972511940877,
      "learning_rate": 1.7763110728884062e-05,
      "loss": 0.9326,
      "step": 3919
    },
    {
      "epoch": 0.24064581478866753,
      "grad_norm": 0.6294709337246422,
      "learning_rate": 1.7761857219156303e-05,
      "loss": 0.9471,
      "step": 3920
    },
    {
      "epoch": 0.24070720402713405,
      "grad_norm": 0.6392598609752448,
      "learning_rate": 1.7760603402560813e-05,
      "loss": 0.9701,
      "step": 3921
    },
    {
      "epoch": 0.24076859326560054,
      "grad_norm": 0.6230010159467468,
      "learning_rate": 1.7759349279147167e-05,
      "loss": 0.9229,
      "step": 3922
    },
    {
      "epoch": 0.24082998250406704,
      "grad_norm": 0.6788401958338708,
      "learning_rate": 1.775809484896494e-05,
      "loss": 0.986,
      "step": 3923
    },
    {
      "epoch": 0.24089137174253353,
      "grad_norm": 0.7291160008183838,
      "learning_rate": 1.7756840112063735e-05,
      "loss": 1.0331,
      "step": 3924
    },
    {
      "epoch": 0.24095276098100002,
      "grad_norm": 0.6833668679730858,
      "learning_rate": 1.775558506849315e-05,
      "loss": 1.0069,
      "step": 3925
    },
    {
      "epoch": 0.24101415021946654,
      "grad_norm": 0.6412646254139903,
      "learning_rate": 1.7754329718302808e-05,
      "loss": 0.9538,
      "step": 3926
    },
    {
      "epoch": 0.24107553945793303,
      "grad_norm": 0.651667118167698,
      "learning_rate": 1.7753074061542338e-05,
      "loss": 0.9678,
      "step": 3927
    },
    {
      "epoch": 0.24113692869639952,
      "grad_norm": 0.6102175593380651,
      "learning_rate": 1.7751818098261386e-05,
      "loss": 0.9349,
      "step": 3928
    },
    {
      "epoch": 0.241198317934866,
      "grad_norm": 0.6446567215222085,
      "learning_rate": 1.7750561828509606e-05,
      "loss": 0.9666,
      "step": 3929
    },
    {
      "epoch": 0.2412597071733325,
      "grad_norm": 0.6617125969500979,
      "learning_rate": 1.774930525233666e-05,
      "loss": 1.0002,
      "step": 3930
    },
    {
      "epoch": 0.24132109641179902,
      "grad_norm": 0.7226722865794152,
      "learning_rate": 1.7748048369792235e-05,
      "loss": 0.9671,
      "step": 3931
    },
    {
      "epoch": 0.24138248565026552,
      "grad_norm": 0.6310115514186874,
      "learning_rate": 1.7746791180926017e-05,
      "loss": 0.9472,
      "step": 3932
    },
    {
      "epoch": 0.241443874888732,
      "grad_norm": 0.6638723317350712,
      "learning_rate": 1.7745533685787712e-05,
      "loss": 0.9755,
      "step": 3933
    },
    {
      "epoch": 0.2415052641271985,
      "grad_norm": 0.6537035965379066,
      "learning_rate": 1.7744275884427033e-05,
      "loss": 0.9789,
      "step": 3934
    },
    {
      "epoch": 0.241566653365665,
      "grad_norm": 0.632177749468534,
      "learning_rate": 1.7743017776893706e-05,
      "loss": 0.9653,
      "step": 3935
    },
    {
      "epoch": 0.24162804260413148,
      "grad_norm": 0.6833880144750085,
      "learning_rate": 1.774175936323748e-05,
      "loss": 1.0221,
      "step": 3936
    },
    {
      "epoch": 0.241689431842598,
      "grad_norm": 0.6274787680826331,
      "learning_rate": 1.7740500643508095e-05,
      "loss": 0.9577,
      "step": 3937
    },
    {
      "epoch": 0.2417508210810645,
      "grad_norm": 0.6043930391999444,
      "learning_rate": 1.7739241617755325e-05,
      "loss": 0.9548,
      "step": 3938
    },
    {
      "epoch": 0.24181221031953098,
      "grad_norm": 0.6729951284101372,
      "learning_rate": 1.7737982286028938e-05,
      "loss": 0.7839,
      "step": 3939
    },
    {
      "epoch": 0.24187359955799748,
      "grad_norm": 0.6929163134685303,
      "learning_rate": 1.773672264837873e-05,
      "loss": 0.9858,
      "step": 3940
    },
    {
      "epoch": 0.24193498879646397,
      "grad_norm": 0.6780381384525793,
      "learning_rate": 1.7735462704854492e-05,
      "loss": 1.0268,
      "step": 3941
    },
    {
      "epoch": 0.2419963780349305,
      "grad_norm": 0.6802951031374462,
      "learning_rate": 1.7734202455506044e-05,
      "loss": 1.0431,
      "step": 3942
    },
    {
      "epoch": 0.24205776727339698,
      "grad_norm": 0.6829549911466861,
      "learning_rate": 1.773294190038321e-05,
      "loss": 1.0171,
      "step": 3943
    },
    {
      "epoch": 0.24211915651186347,
      "grad_norm": 0.6430660332315098,
      "learning_rate": 1.7731681039535815e-05,
      "loss": 0.9837,
      "step": 3944
    },
    {
      "epoch": 0.24218054575032996,
      "grad_norm": 0.6313041215884203,
      "learning_rate": 1.7730419873013725e-05,
      "loss": 0.9742,
      "step": 3945
    },
    {
      "epoch": 0.24224193498879645,
      "grad_norm": 0.5449862975169789,
      "learning_rate": 1.7729158400866787e-05,
      "loss": 0.9259,
      "step": 3946
    },
    {
      "epoch": 0.24230332422726297,
      "grad_norm": 0.6822903300609724,
      "learning_rate": 1.7727896623144883e-05,
      "loss": 1.0093,
      "step": 3947
    },
    {
      "epoch": 0.24236471346572946,
      "grad_norm": 0.6734626536466253,
      "learning_rate": 1.772663453989789e-05,
      "loss": 1.0689,
      "step": 3948
    },
    {
      "epoch": 0.24242610270419596,
      "grad_norm": 0.6391336163122519,
      "learning_rate": 1.772537215117571e-05,
      "loss": 0.9375,
      "step": 3949
    },
    {
      "epoch": 0.24248749194266245,
      "grad_norm": 0.6811238970781446,
      "learning_rate": 1.7724109457028255e-05,
      "loss": 1.0319,
      "step": 3950
    },
    {
      "epoch": 0.24254888118112894,
      "grad_norm": 0.6189167447053012,
      "learning_rate": 1.7722846457505438e-05,
      "loss": 0.9369,
      "step": 3951
    },
    {
      "epoch": 0.24261027041959546,
      "grad_norm": 0.623327994865422,
      "learning_rate": 1.7721583152657197e-05,
      "loss": 0.9589,
      "step": 3952
    },
    {
      "epoch": 0.24267165965806195,
      "grad_norm": 0.7201619494245363,
      "learning_rate": 1.7720319542533472e-05,
      "loss": 1.0543,
      "step": 3953
    },
    {
      "epoch": 0.24273304889652844,
      "grad_norm": 0.6502657112911384,
      "learning_rate": 1.771905562718423e-05,
      "loss": 0.9567,
      "step": 3954
    },
    {
      "epoch": 0.24279443813499493,
      "grad_norm": 0.6207680157885488,
      "learning_rate": 1.771779140665943e-05,
      "loss": 0.9764,
      "step": 3955
    },
    {
      "epoch": 0.24285582737346142,
      "grad_norm": 0.6179602756276438,
      "learning_rate": 1.771652688100906e-05,
      "loss": 0.9542,
      "step": 3956
    },
    {
      "epoch": 0.24291721661192792,
      "grad_norm": 0.6919495614504059,
      "learning_rate": 1.7715262050283114e-05,
      "loss": 0.9839,
      "step": 3957
    },
    {
      "epoch": 0.24297860585039444,
      "grad_norm": 0.6951290699943337,
      "learning_rate": 1.771399691453159e-05,
      "loss": 1.0102,
      "step": 3958
    },
    {
      "epoch": 0.24303999508886093,
      "grad_norm": 0.6354328645596682,
      "learning_rate": 1.7712731473804514e-05,
      "loss": 0.931,
      "step": 3959
    },
    {
      "epoch": 0.24310138432732742,
      "grad_norm": 0.7377250536695379,
      "learning_rate": 1.771146572815191e-05,
      "loss": 1.0019,
      "step": 3960
    },
    {
      "epoch": 0.2431627735657939,
      "grad_norm": 0.7280178907081989,
      "learning_rate": 1.7710199677623826e-05,
      "loss": 0.7158,
      "step": 3961
    },
    {
      "epoch": 0.2432241628042604,
      "grad_norm": 0.6576454016047454,
      "learning_rate": 1.770893332227031e-05,
      "loss": 1.0049,
      "step": 3962
    },
    {
      "epoch": 0.24328555204272692,
      "grad_norm": 0.7093206021229088,
      "learning_rate": 1.7707666662141427e-05,
      "loss": 0.9842,
      "step": 3963
    },
    {
      "epoch": 0.2433469412811934,
      "grad_norm": 0.7476887568066791,
      "learning_rate": 1.770639969728726e-05,
      "loss": 1.0033,
      "step": 3964
    },
    {
      "epoch": 0.2434083305196599,
      "grad_norm": 0.6449104385806504,
      "learning_rate": 1.7705132427757895e-05,
      "loss": 0.9913,
      "step": 3965
    },
    {
      "epoch": 0.2434697197581264,
      "grad_norm": 0.7175955555498044,
      "learning_rate": 1.7703864853603433e-05,
      "loss": 0.9927,
      "step": 3966
    },
    {
      "epoch": 0.2435311089965929,
      "grad_norm": 0.654894375808212,
      "learning_rate": 1.7702596974873995e-05,
      "loss": 0.95,
      "step": 3967
    },
    {
      "epoch": 0.2435924982350594,
      "grad_norm": 0.6505736619915508,
      "learning_rate": 1.77013287916197e-05,
      "loss": 0.9833,
      "step": 3968
    },
    {
      "epoch": 0.2436538874735259,
      "grad_norm": 0.6270762206816201,
      "learning_rate": 1.7700060303890685e-05,
      "loss": 0.966,
      "step": 3969
    },
    {
      "epoch": 0.2437152767119924,
      "grad_norm": 0.6571146830034021,
      "learning_rate": 1.769879151173711e-05,
      "loss": 1.0289,
      "step": 3970
    },
    {
      "epoch": 0.24377666595045888,
      "grad_norm": 0.6919783626981154,
      "learning_rate": 1.7697522415209125e-05,
      "loss": 1.0002,
      "step": 3971
    },
    {
      "epoch": 0.24383805518892537,
      "grad_norm": 0.6389836949419567,
      "learning_rate": 1.7696253014356914e-05,
      "loss": 0.9955,
      "step": 3972
    },
    {
      "epoch": 0.24389944442739186,
      "grad_norm": 0.6551742793886666,
      "learning_rate": 1.7694983309230654e-05,
      "loss": 0.97,
      "step": 3973
    },
    {
      "epoch": 0.24396083366585838,
      "grad_norm": 0.6807047701586235,
      "learning_rate": 1.769371329988055e-05,
      "loss": 0.9874,
      "step": 3974
    },
    {
      "epoch": 0.24402222290432488,
      "grad_norm": 0.6528578985927633,
      "learning_rate": 1.769244298635681e-05,
      "loss": 1.0022,
      "step": 3975
    },
    {
      "epoch": 0.24408361214279137,
      "grad_norm": 0.6848287410291178,
      "learning_rate": 1.769117236870966e-05,
      "loss": 0.9906,
      "step": 3976
    },
    {
      "epoch": 0.24414500138125786,
      "grad_norm": 0.6573168562745247,
      "learning_rate": 1.768990144698933e-05,
      "loss": 0.9356,
      "step": 3977
    },
    {
      "epoch": 0.24420639061972435,
      "grad_norm": 0.6495149277683728,
      "learning_rate": 1.7688630221246064e-05,
      "loss": 0.927,
      "step": 3978
    },
    {
      "epoch": 0.24426777985819087,
      "grad_norm": 0.6559330998404854,
      "learning_rate": 1.7687358691530127e-05,
      "loss": 0.9593,
      "step": 3979
    },
    {
      "epoch": 0.24432916909665736,
      "grad_norm": 0.8145169532486409,
      "learning_rate": 1.7686086857891786e-05,
      "loss": 0.7458,
      "step": 3980
    },
    {
      "epoch": 0.24439055833512385,
      "grad_norm": 0.6443776441196395,
      "learning_rate": 1.7684814720381317e-05,
      "loss": 0.9713,
      "step": 3981
    },
    {
      "epoch": 0.24445194757359034,
      "grad_norm": 0.7089071142376565,
      "learning_rate": 1.7683542279049027e-05,
      "loss": 1.0127,
      "step": 3982
    },
    {
      "epoch": 0.24451333681205684,
      "grad_norm": 0.7479221840029016,
      "learning_rate": 1.7682269533945216e-05,
      "loss": 1.0301,
      "step": 3983
    },
    {
      "epoch": 0.24457472605052336,
      "grad_norm": 0.6485396915305336,
      "learning_rate": 1.7680996485120202e-05,
      "loss": 0.9969,
      "step": 3984
    },
    {
      "epoch": 0.24463611528898985,
      "grad_norm": 0.6530859605707474,
      "learning_rate": 1.7679723132624315e-05,
      "loss": 0.9854,
      "step": 3985
    },
    {
      "epoch": 0.24469750452745634,
      "grad_norm": 0.615532907306524,
      "learning_rate": 1.7678449476507902e-05,
      "loss": 1.0026,
      "step": 3986
    },
    {
      "epoch": 0.24475889376592283,
      "grad_norm": 0.6423336108541018,
      "learning_rate": 1.767717551682131e-05,
      "loss": 0.9788,
      "step": 3987
    },
    {
      "epoch": 0.24482028300438932,
      "grad_norm": 0.6597774354528992,
      "learning_rate": 1.7675901253614913e-05,
      "loss": 0.9687,
      "step": 3988
    },
    {
      "epoch": 0.24488167224285584,
      "grad_norm": 0.6342718949142283,
      "learning_rate": 1.767462668693908e-05,
      "loss": 0.974,
      "step": 3989
    },
    {
      "epoch": 0.24494306148132233,
      "grad_norm": 0.6509861573875781,
      "learning_rate": 1.767335181684421e-05,
      "loss": 1.0012,
      "step": 3990
    },
    {
      "epoch": 0.24500445071978882,
      "grad_norm": 0.6913645059278399,
      "learning_rate": 1.7672076643380705e-05,
      "loss": 0.9455,
      "step": 3991
    },
    {
      "epoch": 0.24506583995825532,
      "grad_norm": 0.6570748341808641,
      "learning_rate": 1.7670801166598976e-05,
      "loss": 0.9636,
      "step": 3992
    },
    {
      "epoch": 0.2451272291967218,
      "grad_norm": 0.7133482590926321,
      "learning_rate": 1.766952538654945e-05,
      "loss": 0.9775,
      "step": 3993
    },
    {
      "epoch": 0.2451886184351883,
      "grad_norm": 0.6977255796575348,
      "learning_rate": 1.7668249303282568e-05,
      "loss": 1.0611,
      "step": 3994
    },
    {
      "epoch": 0.24525000767365482,
      "grad_norm": 0.6755577747844298,
      "learning_rate": 1.7666972916848776e-05,
      "loss": 0.9977,
      "step": 3995
    },
    {
      "epoch": 0.2453113969121213,
      "grad_norm": 0.6716365362803004,
      "learning_rate": 1.766569622729854e-05,
      "loss": 1.0184,
      "step": 3996
    },
    {
      "epoch": 0.2453727861505878,
      "grad_norm": 0.6632701457106855,
      "learning_rate": 1.766441923468233e-05,
      "loss": 1.0206,
      "step": 3997
    },
    {
      "epoch": 0.2454341753890543,
      "grad_norm": 0.6650445431847728,
      "learning_rate": 1.766314193905064e-05,
      "loss": 1.0056,
      "step": 3998
    },
    {
      "epoch": 0.24549556462752078,
      "grad_norm": 0.5806869672641353,
      "learning_rate": 1.766186434045396e-05,
      "loss": 0.9221,
      "step": 3999
    },
    {
      "epoch": 0.2455569538659873,
      "grad_norm": 0.6642159535656275,
      "learning_rate": 1.7660586438942807e-05,
      "loss": 0.9986,
      "step": 4000
    },
    {
      "epoch": 0.2456183431044538,
      "grad_norm": 0.6391540703096708,
      "learning_rate": 1.76593082345677e-05,
      "loss": 1.0186,
      "step": 4001
    },
    {
      "epoch": 0.2456797323429203,
      "grad_norm": 0.773650774614839,
      "learning_rate": 1.765802972737917e-05,
      "loss": 0.8098,
      "step": 4002
    },
    {
      "epoch": 0.24574112158138678,
      "grad_norm": 0.6726410968053004,
      "learning_rate": 1.7656750917427772e-05,
      "loss": 0.9899,
      "step": 4003
    },
    {
      "epoch": 0.24580251081985327,
      "grad_norm": 0.7468795794890584,
      "learning_rate": 1.7655471804764056e-05,
      "loss": 1.0306,
      "step": 4004
    },
    {
      "epoch": 0.2458639000583198,
      "grad_norm": 0.6850503901344843,
      "learning_rate": 1.7654192389438596e-05,
      "loss": 0.9954,
      "step": 4005
    },
    {
      "epoch": 0.24592528929678628,
      "grad_norm": 0.6477160679374071,
      "learning_rate": 1.7652912671501975e-05,
      "loss": 0.9677,
      "step": 4006
    },
    {
      "epoch": 0.24598667853525277,
      "grad_norm": 0.6532886542473816,
      "learning_rate": 1.7651632651004783e-05,
      "loss": 0.9158,
      "step": 4007
    },
    {
      "epoch": 0.24604806777371926,
      "grad_norm": 0.7077810866302168,
      "learning_rate": 1.7650352327997627e-05,
      "loss": 1.0124,
      "step": 4008
    },
    {
      "epoch": 0.24610945701218576,
      "grad_norm": 0.6984754764601129,
      "learning_rate": 1.764907170253113e-05,
      "loss": 0.9791,
      "step": 4009
    },
    {
      "epoch": 0.24617084625065225,
      "grad_norm": 0.6902583148490398,
      "learning_rate": 1.7647790774655917e-05,
      "loss": 0.9886,
      "step": 4010
    },
    {
      "epoch": 0.24623223548911877,
      "grad_norm": 0.6916290933869971,
      "learning_rate": 1.7646509544422633e-05,
      "loss": 0.961,
      "step": 4011
    },
    {
      "epoch": 0.24629362472758526,
      "grad_norm": 0.6215075461926092,
      "learning_rate": 1.764522801188193e-05,
      "loss": 0.912,
      "step": 4012
    },
    {
      "epoch": 0.24635501396605175,
      "grad_norm": 0.6590362587740327,
      "learning_rate": 1.764394617708447e-05,
      "loss": 0.9849,
      "step": 4013
    },
    {
      "epoch": 0.24641640320451824,
      "grad_norm": 0.6953792349269962,
      "learning_rate": 1.764266404008094e-05,
      "loss": 0.9763,
      "step": 4014
    },
    {
      "epoch": 0.24647779244298473,
      "grad_norm": 0.7661203239256476,
      "learning_rate": 1.7641381600922024e-05,
      "loss": 1.0417,
      "step": 4015
    },
    {
      "epoch": 0.24653918168145125,
      "grad_norm": 0.6832464023159073,
      "learning_rate": 1.764009885965842e-05,
      "loss": 0.9804,
      "step": 4016
    },
    {
      "epoch": 0.24660057091991774,
      "grad_norm": 0.6228496324138776,
      "learning_rate": 1.763881581634085e-05,
      "loss": 0.941,
      "step": 4017
    },
    {
      "epoch": 0.24666196015838424,
      "grad_norm": 0.6557919285086347,
      "learning_rate": 1.7637532471020032e-05,
      "loss": 0.9509,
      "step": 4018
    },
    {
      "epoch": 0.24672334939685073,
      "grad_norm": 0.6788015131855792,
      "learning_rate": 1.763624882374671e-05,
      "loss": 0.9646,
      "step": 4019
    },
    {
      "epoch": 0.24678473863531722,
      "grad_norm": 0.720228726794301,
      "learning_rate": 1.7634964874571633e-05,
      "loss": 0.9986,
      "step": 4020
    },
    {
      "epoch": 0.24684612787378374,
      "grad_norm": 0.7035751623161948,
      "learning_rate": 1.7633680623545556e-05,
      "loss": 0.973,
      "step": 4021
    },
    {
      "epoch": 0.24690751711225023,
      "grad_norm": 0.67140986947101,
      "learning_rate": 1.763239607071926e-05,
      "loss": 0.9658,
      "step": 4022
    },
    {
      "epoch": 0.24696890635071672,
      "grad_norm": 0.6910701348849227,
      "learning_rate": 1.763111121614352e-05,
      "loss": 0.9971,
      "step": 4023
    },
    {
      "epoch": 0.2470302955891832,
      "grad_norm": 0.6201248596394634,
      "learning_rate": 1.7629826059869142e-05,
      "loss": 0.9374,
      "step": 4024
    },
    {
      "epoch": 0.2470916848276497,
      "grad_norm": 0.6174099621076207,
      "learning_rate": 1.7628540601946934e-05,
      "loss": 0.9559,
      "step": 4025
    },
    {
      "epoch": 0.2471530740661162,
      "grad_norm": 0.6030921529257675,
      "learning_rate": 1.7627254842427714e-05,
      "loss": 0.9567,
      "step": 4026
    },
    {
      "epoch": 0.24721446330458272,
      "grad_norm": 0.6593974636506922,
      "learning_rate": 1.762596878136232e-05,
      "loss": 0.966,
      "step": 4027
    },
    {
      "epoch": 0.2472758525430492,
      "grad_norm": 0.6415101384184025,
      "learning_rate": 1.7624682418801592e-05,
      "loss": 0.9548,
      "step": 4028
    },
    {
      "epoch": 0.2473372417815157,
      "grad_norm": 0.6546267496834318,
      "learning_rate": 1.7623395754796386e-05,
      "loss": 0.9201,
      "step": 4029
    },
    {
      "epoch": 0.2473986310199822,
      "grad_norm": 0.6482817046534144,
      "learning_rate": 1.7622108789397577e-05,
      "loss": 0.9839,
      "step": 4030
    },
    {
      "epoch": 0.24746002025844868,
      "grad_norm": 0.6070348066929404,
      "learning_rate": 1.762082152265604e-05,
      "loss": 1.0039,
      "step": 4031
    },
    {
      "epoch": 0.2475214094969152,
      "grad_norm": 0.6864815554384363,
      "learning_rate": 1.761953395462267e-05,
      "loss": 1.0451,
      "step": 4032
    },
    {
      "epoch": 0.2475827987353817,
      "grad_norm": 0.6479468193409306,
      "learning_rate": 1.7618246085348364e-05,
      "loss": 0.9959,
      "step": 4033
    },
    {
      "epoch": 0.24764418797384818,
      "grad_norm": 0.6538757165816844,
      "learning_rate": 1.761695791488405e-05,
      "loss": 0.9542,
      "step": 4034
    },
    {
      "epoch": 0.24770557721231468,
      "grad_norm": 0.6104528894298669,
      "learning_rate": 1.7615669443280652e-05,
      "loss": 0.9484,
      "step": 4035
    },
    {
      "epoch": 0.24776696645078117,
      "grad_norm": 0.6230394956153237,
      "learning_rate": 1.761438067058911e-05,
      "loss": 1.011,
      "step": 4036
    },
    {
      "epoch": 0.2478283556892477,
      "grad_norm": 0.6742346060495303,
      "learning_rate": 1.7613091596860375e-05,
      "loss": 1.0368,
      "step": 4037
    },
    {
      "epoch": 0.24788974492771418,
      "grad_norm": 0.6311573245268197,
      "learning_rate": 1.761180222214541e-05,
      "loss": 0.9587,
      "step": 4038
    },
    {
      "epoch": 0.24795113416618067,
      "grad_norm": 0.8881090962867004,
      "learning_rate": 1.7610512546495195e-05,
      "loss": 1.035,
      "step": 4039
    },
    {
      "epoch": 0.24801252340464716,
      "grad_norm": 0.6501381060997725,
      "learning_rate": 1.7609222569960712e-05,
      "loss": 0.956,
      "step": 4040
    },
    {
      "epoch": 0.24807391264311365,
      "grad_norm": 0.6816275146242676,
      "learning_rate": 1.7607932292592965e-05,
      "loss": 1.0184,
      "step": 4041
    },
    {
      "epoch": 0.24813530188158017,
      "grad_norm": 0.6802034455455118,
      "learning_rate": 1.7606641714442967e-05,
      "loss": 0.9299,
      "step": 4042
    },
    {
      "epoch": 0.24819669112004666,
      "grad_norm": 0.6320427601394795,
      "learning_rate": 1.7605350835561735e-05,
      "loss": 1.0115,
      "step": 4043
    },
    {
      "epoch": 0.24825808035851316,
      "grad_norm": 0.6813260817935998,
      "learning_rate": 1.7604059656000313e-05,
      "loss": 1.0011,
      "step": 4044
    },
    {
      "epoch": 0.24831946959697965,
      "grad_norm": 0.6625483170840523,
      "learning_rate": 1.7602768175809738e-05,
      "loss": 0.9552,
      "step": 4045
    },
    {
      "epoch": 0.24838085883544614,
      "grad_norm": 0.7148935121196673,
      "learning_rate": 1.7601476395041078e-05,
      "loss": 0.9633,
      "step": 4046
    },
    {
      "epoch": 0.24844224807391263,
      "grad_norm": 0.6788109400688029,
      "learning_rate": 1.76001843137454e-05,
      "loss": 0.9814,
      "step": 4047
    },
    {
      "epoch": 0.24850363731237915,
      "grad_norm": 0.6259266551139377,
      "learning_rate": 1.7598891931973784e-05,
      "loss": 0.9543,
      "step": 4048
    },
    {
      "epoch": 0.24856502655084564,
      "grad_norm": 0.6525233242384579,
      "learning_rate": 1.759759924977733e-05,
      "loss": 0.9388,
      "step": 4049
    },
    {
      "epoch": 0.24862641578931213,
      "grad_norm": 0.678100030975004,
      "learning_rate": 1.7596306267207147e-05,
      "loss": 1.0083,
      "step": 4050
    },
    {
      "epoch": 0.24868780502777862,
      "grad_norm": 0.6554497076821438,
      "learning_rate": 1.7595012984314345e-05,
      "loss": 0.9216,
      "step": 4051
    },
    {
      "epoch": 0.24874919426624512,
      "grad_norm": 0.6496068702411235,
      "learning_rate": 1.7593719401150063e-05,
      "loss": 0.9849,
      "step": 4052
    },
    {
      "epoch": 0.24881058350471164,
      "grad_norm": 0.6474629837388057,
      "learning_rate": 1.7592425517765433e-05,
      "loss": 0.9369,
      "step": 4053
    },
    {
      "epoch": 0.24887197274317813,
      "grad_norm": 0.67303302583857,
      "learning_rate": 1.7591131334211618e-05,
      "loss": 1.0007,
      "step": 4054
    },
    {
      "epoch": 0.24893336198164462,
      "grad_norm": 0.6152475667834508,
      "learning_rate": 1.758983685053978e-05,
      "loss": 0.945,
      "step": 4055
    },
    {
      "epoch": 0.2489947512201111,
      "grad_norm": 0.6904207091618073,
      "learning_rate": 1.75885420668011e-05,
      "loss": 0.9489,
      "step": 4056
    },
    {
      "epoch": 0.2490561404585776,
      "grad_norm": 0.6887066069973526,
      "learning_rate": 1.7587246983046766e-05,
      "loss": 1.0207,
      "step": 4057
    },
    {
      "epoch": 0.24911752969704412,
      "grad_norm": 0.6757834607296864,
      "learning_rate": 1.758595159932798e-05,
      "loss": 0.9316,
      "step": 4058
    },
    {
      "epoch": 0.2491789189355106,
      "grad_norm": 0.6147664242350226,
      "learning_rate": 1.758465591569595e-05,
      "loss": 0.9406,
      "step": 4059
    },
    {
      "epoch": 0.2492403081739771,
      "grad_norm": 0.6225985556111016,
      "learning_rate": 1.758335993220191e-05,
      "loss": 0.9089,
      "step": 4060
    },
    {
      "epoch": 0.2493016974124436,
      "grad_norm": 0.5627659732667961,
      "learning_rate": 1.7582063648897092e-05,
      "loss": 0.9547,
      "step": 4061
    },
    {
      "epoch": 0.2493630866509101,
      "grad_norm": 0.592488010342095,
      "learning_rate": 1.758076706583275e-05,
      "loss": 0.9599,
      "step": 4062
    },
    {
      "epoch": 0.24942447588937658,
      "grad_norm": 0.6312140311917193,
      "learning_rate": 1.7579470183060135e-05,
      "loss": 0.9549,
      "step": 4063
    },
    {
      "epoch": 0.2494858651278431,
      "grad_norm": 0.7276536976774928,
      "learning_rate": 1.7578173000630528e-05,
      "loss": 0.9668,
      "step": 4064
    },
    {
      "epoch": 0.2495472543663096,
      "grad_norm": 0.6967587335888961,
      "learning_rate": 1.757687551859521e-05,
      "loss": 1.0025,
      "step": 4065
    },
    {
      "epoch": 0.24960864360477608,
      "grad_norm": 0.7063513111096579,
      "learning_rate": 1.7575577737005484e-05,
      "loss": 0.987,
      "step": 4066
    },
    {
      "epoch": 0.24967003284324257,
      "grad_norm": 0.6256624457130551,
      "learning_rate": 1.7574279655912646e-05,
      "loss": 0.9619,
      "step": 4067
    },
    {
      "epoch": 0.24973142208170906,
      "grad_norm": 0.6761587894993678,
      "learning_rate": 1.757298127536803e-05,
      "loss": 0.9973,
      "step": 4068
    },
    {
      "epoch": 0.24979281132017558,
      "grad_norm": 0.6954224196931738,
      "learning_rate": 1.7571682595422956e-05,
      "loss": 1.0278,
      "step": 4069
    },
    {
      "epoch": 0.24985420055864208,
      "grad_norm": 0.6130900269645342,
      "learning_rate": 1.7570383616128775e-05,
      "loss": 0.9865,
      "step": 4070
    },
    {
      "epoch": 0.24991558979710857,
      "grad_norm": 0.6462550204600293,
      "learning_rate": 1.756908433753684e-05,
      "loss": 0.9727,
      "step": 4071
    },
    {
      "epoch": 0.24997697903557506,
      "grad_norm": 0.6700140644041167,
      "learning_rate": 1.756778475969852e-05,
      "loss": 0.9752,
      "step": 4072
    },
    {
      "epoch": 0.2500383682740416,
      "grad_norm": 0.6284938754052731,
      "learning_rate": 1.7566484882665192e-05,
      "loss": 0.9601,
      "step": 4073
    },
    {
      "epoch": 0.25009975751250807,
      "grad_norm": 0.5776492946884954,
      "learning_rate": 1.756518470648825e-05,
      "loss": 0.9293,
      "step": 4074
    },
    {
      "epoch": 0.25016114675097456,
      "grad_norm": 0.6911050850140678,
      "learning_rate": 1.756388423121909e-05,
      "loss": 0.9679,
      "step": 4075
    },
    {
      "epoch": 0.25022253598944105,
      "grad_norm": 0.6459880232319027,
      "learning_rate": 1.7562583456909135e-05,
      "loss": 0.9282,
      "step": 4076
    },
    {
      "epoch": 0.25028392522790754,
      "grad_norm": 0.6113401509608319,
      "learning_rate": 1.756128238360981e-05,
      "loss": 0.9685,
      "step": 4077
    },
    {
      "epoch": 0.25034531446637404,
      "grad_norm": 0.727424199621434,
      "learning_rate": 1.7559981011372548e-05,
      "loss": 0.9988,
      "step": 4078
    },
    {
      "epoch": 0.2504067037048405,
      "grad_norm": 0.6473720705500292,
      "learning_rate": 1.7558679340248806e-05,
      "loss": 0.9475,
      "step": 4079
    },
    {
      "epoch": 0.250468092943307,
      "grad_norm": 0.6251695531854573,
      "learning_rate": 1.755737737029004e-05,
      "loss": 0.9342,
      "step": 4080
    },
    {
      "epoch": 0.2505294821817735,
      "grad_norm": 0.6434720929939863,
      "learning_rate": 1.7556075101547732e-05,
      "loss": 0.969,
      "step": 4081
    },
    {
      "epoch": 0.25059087142024006,
      "grad_norm": 0.634413918687103,
      "learning_rate": 1.7554772534073355e-05,
      "loss": 0.9976,
      "step": 4082
    },
    {
      "epoch": 0.25065226065870655,
      "grad_norm": 0.6420950519506369,
      "learning_rate": 1.755346966791842e-05,
      "loss": 1.0098,
      "step": 4083
    },
    {
      "epoch": 0.25071364989717304,
      "grad_norm": 0.6619180007007655,
      "learning_rate": 1.755216650313443e-05,
      "loss": 0.9816,
      "step": 4084
    },
    {
      "epoch": 0.25077503913563953,
      "grad_norm": 0.6776932201633491,
      "learning_rate": 1.7550863039772907e-05,
      "loss": 0.9787,
      "step": 4085
    },
    {
      "epoch": 0.250836428374106,
      "grad_norm": 0.6640321338177296,
      "learning_rate": 1.754955927788538e-05,
      "loss": 0.992,
      "step": 4086
    },
    {
      "epoch": 0.2508978176125725,
      "grad_norm": 0.6794236201222419,
      "learning_rate": 1.7548255217523397e-05,
      "loss": 1.0051,
      "step": 4087
    },
    {
      "epoch": 0.250959206851039,
      "grad_norm": 1.3446734994991332,
      "learning_rate": 1.7546950858738515e-05,
      "loss": 0.9349,
      "step": 4088
    },
    {
      "epoch": 0.2510205960895055,
      "grad_norm": 0.6817656251381036,
      "learning_rate": 1.7545646201582304e-05,
      "loss": 0.9401,
      "step": 4089
    },
    {
      "epoch": 0.251081985327972,
      "grad_norm": 0.6089367190175141,
      "learning_rate": 1.7544341246106337e-05,
      "loss": 0.9865,
      "step": 4090
    },
    {
      "epoch": 0.2511433745664385,
      "grad_norm": 0.6901847807598618,
      "learning_rate": 1.7543035992362216e-05,
      "loss": 1.0636,
      "step": 4091
    },
    {
      "epoch": 0.251204763804905,
      "grad_norm": 0.6964600435686247,
      "learning_rate": 1.7541730440401537e-05,
      "loss": 1.0001,
      "step": 4092
    },
    {
      "epoch": 0.2512661530433715,
      "grad_norm": 0.7227484066188392,
      "learning_rate": 1.7540424590275917e-05,
      "loss": 1.0104,
      "step": 4093
    },
    {
      "epoch": 0.251327542281838,
      "grad_norm": 0.6895072545386599,
      "learning_rate": 1.7539118442036983e-05,
      "loss": 0.9889,
      "step": 4094
    },
    {
      "epoch": 0.2513889315203045,
      "grad_norm": 0.7261104812107334,
      "learning_rate": 1.7537811995736374e-05,
      "loss": 1.054,
      "step": 4095
    },
    {
      "epoch": 0.251450320758771,
      "grad_norm": 0.613326000230567,
      "learning_rate": 1.7536505251425743e-05,
      "loss": 0.9317,
      "step": 4096
    },
    {
      "epoch": 0.2515117099972375,
      "grad_norm": 0.6454642152970775,
      "learning_rate": 1.7535198209156754e-05,
      "loss": 0.9565,
      "step": 4097
    },
    {
      "epoch": 0.251573099235704,
      "grad_norm": 0.6562576693705926,
      "learning_rate": 1.753389086898108e-05,
      "loss": 1.0434,
      "step": 4098
    },
    {
      "epoch": 0.25163448847417047,
      "grad_norm": 0.6443244930225317,
      "learning_rate": 1.75325832309504e-05,
      "loss": 1.0109,
      "step": 4099
    },
    {
      "epoch": 0.25169587771263696,
      "grad_norm": 0.6407681637423779,
      "learning_rate": 1.7531275295116424e-05,
      "loss": 0.9485,
      "step": 4100
    },
    {
      "epoch": 0.25175726695110345,
      "grad_norm": 0.645752806747452,
      "learning_rate": 1.752996706153085e-05,
      "loss": 0.9784,
      "step": 4101
    },
    {
      "epoch": 0.25181865618956994,
      "grad_norm": 0.621834130156784,
      "learning_rate": 1.752865853024541e-05,
      "loss": 0.9595,
      "step": 4102
    },
    {
      "epoch": 0.2518800454280365,
      "grad_norm": 0.5982296883281867,
      "learning_rate": 1.7527349701311823e-05,
      "loss": 0.9084,
      "step": 4103
    },
    {
      "epoch": 0.251941434666503,
      "grad_norm": 0.6929052846699219,
      "learning_rate": 1.7526040574781854e-05,
      "loss": 1.0045,
      "step": 4104
    },
    {
      "epoch": 0.2520028239049695,
      "grad_norm": 0.6066869574648924,
      "learning_rate": 1.7524731150707243e-05,
      "loss": 0.9976,
      "step": 4105
    },
    {
      "epoch": 0.25206421314343597,
      "grad_norm": 0.6489896475759729,
      "learning_rate": 1.7523421429139766e-05,
      "loss": 0.9723,
      "step": 4106
    },
    {
      "epoch": 0.25212560238190246,
      "grad_norm": 0.6149510797490689,
      "learning_rate": 1.75221114101312e-05,
      "loss": 0.96,
      "step": 4107
    },
    {
      "epoch": 0.25218699162036895,
      "grad_norm": 0.6622104596023083,
      "learning_rate": 1.7520801093733343e-05,
      "loss": 0.9966,
      "step": 4108
    },
    {
      "epoch": 0.25224838085883544,
      "grad_norm": 0.5961733305572784,
      "learning_rate": 1.7519490479997992e-05,
      "loss": 0.8151,
      "step": 4109
    },
    {
      "epoch": 0.25230977009730193,
      "grad_norm": 0.6084362349785822,
      "learning_rate": 1.7518179568976964e-05,
      "loss": 0.9525,
      "step": 4110
    },
    {
      "epoch": 0.2523711593357684,
      "grad_norm": 0.652556170251605,
      "learning_rate": 1.751686836072209e-05,
      "loss": 0.9724,
      "step": 4111
    },
    {
      "epoch": 0.2524325485742349,
      "grad_norm": 0.674757078965023,
      "learning_rate": 1.7515556855285205e-05,
      "loss": 0.9777,
      "step": 4112
    },
    {
      "epoch": 0.2524939378127014,
      "grad_norm": 0.6613027440042395,
      "learning_rate": 1.7514245052718164e-05,
      "loss": 0.9811,
      "step": 4113
    },
    {
      "epoch": 0.25255532705116795,
      "grad_norm": 0.6595756304365834,
      "learning_rate": 1.7512932953072826e-05,
      "loss": 0.9384,
      "step": 4114
    },
    {
      "epoch": 0.25261671628963445,
      "grad_norm": 0.6443351233530469,
      "learning_rate": 1.7511620556401064e-05,
      "loss": 0.9593,
      "step": 4115
    },
    {
      "epoch": 0.25267810552810094,
      "grad_norm": 0.6495020647071725,
      "learning_rate": 1.751030786275477e-05,
      "loss": 0.9389,
      "step": 4116
    },
    {
      "epoch": 0.25273949476656743,
      "grad_norm": 0.7321062331417828,
      "learning_rate": 1.7508994872185836e-05,
      "loss": 1.0189,
      "step": 4117
    },
    {
      "epoch": 0.2528008840050339,
      "grad_norm": 0.6891674728343891,
      "learning_rate": 1.7507681584746176e-05,
      "loss": 1.0256,
      "step": 4118
    },
    {
      "epoch": 0.2528622732435004,
      "grad_norm": 0.6705411530561163,
      "learning_rate": 1.7506368000487706e-05,
      "loss": 1.0115,
      "step": 4119
    },
    {
      "epoch": 0.2529236624819669,
      "grad_norm": 0.6870742889798702,
      "learning_rate": 1.7505054119462363e-05,
      "loss": 0.9929,
      "step": 4120
    },
    {
      "epoch": 0.2529850517204334,
      "grad_norm": 0.6492320106510099,
      "learning_rate": 1.750373994172209e-05,
      "loss": 0.9145,
      "step": 4121
    },
    {
      "epoch": 0.2530464409588999,
      "grad_norm": 0.6963231634573152,
      "learning_rate": 1.7502425467318847e-05,
      "loss": 0.9443,
      "step": 4122
    },
    {
      "epoch": 0.2531078301973664,
      "grad_norm": 0.6605450954256673,
      "learning_rate": 1.7501110696304598e-05,
      "loss": 0.9331,
      "step": 4123
    },
    {
      "epoch": 0.2531692194358329,
      "grad_norm": 0.7008756766269351,
      "learning_rate": 1.7499795628731324e-05,
      "loss": 1.0338,
      "step": 4124
    },
    {
      "epoch": 0.2532306086742994,
      "grad_norm": 0.6199604806286285,
      "learning_rate": 1.7498480264651017e-05,
      "loss": 0.7823,
      "step": 4125
    },
    {
      "epoch": 0.2532919979127659,
      "grad_norm": 0.7027450052053493,
      "learning_rate": 1.749716460411568e-05,
      "loss": 0.9592,
      "step": 4126
    },
    {
      "epoch": 0.2533533871512324,
      "grad_norm": 0.6184506775062958,
      "learning_rate": 1.749584864717733e-05,
      "loss": 0.9488,
      "step": 4127
    },
    {
      "epoch": 0.2534147763896989,
      "grad_norm": 0.6940343431682321,
      "learning_rate": 1.749453239388799e-05,
      "loss": 0.9972,
      "step": 4128
    },
    {
      "epoch": 0.2534761656281654,
      "grad_norm": 0.6711441775885393,
      "learning_rate": 1.7493215844299706e-05,
      "loss": 1.0321,
      "step": 4129
    },
    {
      "epoch": 0.2535375548666319,
      "grad_norm": 0.6330663113232173,
      "learning_rate": 1.7491898998464517e-05,
      "loss": 0.9607,
      "step": 4130
    },
    {
      "epoch": 0.25359894410509837,
      "grad_norm": 0.6299605986450921,
      "learning_rate": 1.7490581856434494e-05,
      "loss": 0.9545,
      "step": 4131
    },
    {
      "epoch": 0.25366033334356486,
      "grad_norm": 0.6828054599051264,
      "learning_rate": 1.748926441826171e-05,
      "loss": 1.0166,
      "step": 4132
    },
    {
      "epoch": 0.25372172258203135,
      "grad_norm": 0.6482053826442058,
      "learning_rate": 1.7487946683998246e-05,
      "loss": 0.9148,
      "step": 4133
    },
    {
      "epoch": 0.25378311182049784,
      "grad_norm": 0.6458538017008448,
      "learning_rate": 1.74866286536962e-05,
      "loss": 0.9703,
      "step": 4134
    },
    {
      "epoch": 0.2538445010589644,
      "grad_norm": 0.6592842087121228,
      "learning_rate": 1.7485310327407685e-05,
      "loss": 0.9979,
      "step": 4135
    },
    {
      "epoch": 0.2539058902974309,
      "grad_norm": 0.6465971513929082,
      "learning_rate": 1.748399170518481e-05,
      "loss": 0.9459,
      "step": 4136
    },
    {
      "epoch": 0.2539672795358974,
      "grad_norm": 0.6670354385503535,
      "learning_rate": 1.7482672787079726e-05,
      "loss": 0.9876,
      "step": 4137
    },
    {
      "epoch": 0.25402866877436386,
      "grad_norm": 0.6449672713161051,
      "learning_rate": 1.7481353573144562e-05,
      "loss": 0.948,
      "step": 4138
    },
    {
      "epoch": 0.25409005801283036,
      "grad_norm": 0.6803293613404126,
      "learning_rate": 1.748003406343148e-05,
      "loss": 0.9927,
      "step": 4139
    },
    {
      "epoch": 0.25415144725129685,
      "grad_norm": 0.6725822027011801,
      "learning_rate": 1.7478714257992643e-05,
      "loss": 0.9968,
      "step": 4140
    },
    {
      "epoch": 0.25421283648976334,
      "grad_norm": 0.6235897203080033,
      "learning_rate": 1.7477394156880236e-05,
      "loss": 0.9311,
      "step": 4141
    },
    {
      "epoch": 0.25427422572822983,
      "grad_norm": 0.6328906896746289,
      "learning_rate": 1.7476073760146445e-05,
      "loss": 0.9461,
      "step": 4142
    },
    {
      "epoch": 0.2543356149666963,
      "grad_norm": 0.7229015938777948,
      "learning_rate": 1.7474753067843472e-05,
      "loss": 1.0401,
      "step": 4143
    },
    {
      "epoch": 0.2543970042051628,
      "grad_norm": 0.6507864044879601,
      "learning_rate": 1.747343208002353e-05,
      "loss": 0.9725,
      "step": 4144
    },
    {
      "epoch": 0.2544583934436293,
      "grad_norm": 0.6402501641733134,
      "learning_rate": 1.747211079673885e-05,
      "loss": 0.9595,
      "step": 4145
    },
    {
      "epoch": 0.25451978268209585,
      "grad_norm": 0.6229179712197148,
      "learning_rate": 1.7470789218041668e-05,
      "loss": 0.9713,
      "step": 4146
    },
    {
      "epoch": 0.25458117192056234,
      "grad_norm": 0.682246382024044,
      "learning_rate": 1.746946734398423e-05,
      "loss": 1.0343,
      "step": 4147
    },
    {
      "epoch": 0.25464256115902884,
      "grad_norm": 0.6034639362925975,
      "learning_rate": 1.74681451746188e-05,
      "loss": 0.9848,
      "step": 4148
    },
    {
      "epoch": 0.2547039503974953,
      "grad_norm": 0.6494666496634367,
      "learning_rate": 1.7466822709997643e-05,
      "loss": 1.0069,
      "step": 4149
    },
    {
      "epoch": 0.2547653396359618,
      "grad_norm": 0.6377401960404157,
      "learning_rate": 1.7465499950173054e-05,
      "loss": 0.9427,
      "step": 4150
    },
    {
      "epoch": 0.2548267288744283,
      "grad_norm": 0.621806230370042,
      "learning_rate": 1.7464176895197323e-05,
      "loss": 0.9512,
      "step": 4151
    },
    {
      "epoch": 0.2548881181128948,
      "grad_norm": 0.6019722052720626,
      "learning_rate": 1.746285354512276e-05,
      "loss": 0.9287,
      "step": 4152
    },
    {
      "epoch": 0.2549495073513613,
      "grad_norm": 0.6865998848407309,
      "learning_rate": 1.746152990000168e-05,
      "loss": 0.9593,
      "step": 4153
    },
    {
      "epoch": 0.2550108965898278,
      "grad_norm": 0.6576462285448281,
      "learning_rate": 1.7460205959886416e-05,
      "loss": 0.9734,
      "step": 4154
    },
    {
      "epoch": 0.2550722858282943,
      "grad_norm": 0.7021324268815209,
      "learning_rate": 1.745888172482931e-05,
      "loss": 0.9933,
      "step": 4155
    },
    {
      "epoch": 0.2551336750667608,
      "grad_norm": 0.6268589290099015,
      "learning_rate": 1.7457557194882717e-05,
      "loss": 0.9358,
      "step": 4156
    },
    {
      "epoch": 0.2551950643052273,
      "grad_norm": 0.6812847932754543,
      "learning_rate": 1.7456232370099003e-05,
      "loss": 0.9545,
      "step": 4157
    },
    {
      "epoch": 0.2552564535436938,
      "grad_norm": 0.700574509736593,
      "learning_rate": 1.7454907250530544e-05,
      "loss": 0.9444,
      "step": 4158
    },
    {
      "epoch": 0.2553178427821603,
      "grad_norm": 0.6305961486176421,
      "learning_rate": 1.745358183622973e-05,
      "loss": 0.9403,
      "step": 4159
    },
    {
      "epoch": 0.2553792320206268,
      "grad_norm": 0.6647719413163681,
      "learning_rate": 1.745225612724896e-05,
      "loss": 1.0137,
      "step": 4160
    },
    {
      "epoch": 0.2554406212590933,
      "grad_norm": 0.687030949265232,
      "learning_rate": 1.745093012364065e-05,
      "loss": 1.0199,
      "step": 4161
    },
    {
      "epoch": 0.2555020104975598,
      "grad_norm": 0.7045177759045019,
      "learning_rate": 1.744960382545722e-05,
      "loss": 0.982,
      "step": 4162
    },
    {
      "epoch": 0.25556339973602626,
      "grad_norm": 0.6340454338233545,
      "learning_rate": 1.744827723275111e-05,
      "loss": 0.9211,
      "step": 4163
    },
    {
      "epoch": 0.25562478897449276,
      "grad_norm": 0.6963743675511521,
      "learning_rate": 1.7446950345574762e-05,
      "loss": 1.019,
      "step": 4164
    },
    {
      "epoch": 0.25568617821295925,
      "grad_norm": 0.6824440593417945,
      "learning_rate": 1.744562316398064e-05,
      "loss": 0.9441,
      "step": 4165
    },
    {
      "epoch": 0.25574756745142574,
      "grad_norm": 0.6931366379647875,
      "learning_rate": 1.744429568802121e-05,
      "loss": 1.0034,
      "step": 4166
    },
    {
      "epoch": 0.2558089566898923,
      "grad_norm": 0.6633459728203122,
      "learning_rate": 1.744296791774896e-05,
      "loss": 1.0068,
      "step": 4167
    },
    {
      "epoch": 0.2558703459283588,
      "grad_norm": 0.6194084645810488,
      "learning_rate": 1.7441639853216375e-05,
      "loss": 0.7904,
      "step": 4168
    },
    {
      "epoch": 0.25593173516682527,
      "grad_norm": 0.6344956192450086,
      "learning_rate": 1.744031149447597e-05,
      "loss": 0.9637,
      "step": 4169
    },
    {
      "epoch": 0.25599312440529176,
      "grad_norm": 0.6643203965606593,
      "learning_rate": 1.743898284158026e-05,
      "loss": 0.9862,
      "step": 4170
    },
    {
      "epoch": 0.25605451364375825,
      "grad_norm": 0.6449320472592891,
      "learning_rate": 1.7437653894581767e-05,
      "loss": 0.9419,
      "step": 4171
    },
    {
      "epoch": 0.25611590288222474,
      "grad_norm": 0.5924852411291216,
      "learning_rate": 1.7436324653533038e-05,
      "loss": 0.9043,
      "step": 4172
    },
    {
      "epoch": 0.25617729212069124,
      "grad_norm": 0.600072450864282,
      "learning_rate": 1.7434995118486622e-05,
      "loss": 0.9201,
      "step": 4173
    },
    {
      "epoch": 0.2562386813591577,
      "grad_norm": 0.5975455196719348,
      "learning_rate": 1.7433665289495085e-05,
      "loss": 0.9303,
      "step": 4174
    },
    {
      "epoch": 0.2563000705976242,
      "grad_norm": 0.6404731434201519,
      "learning_rate": 1.7432335166611003e-05,
      "loss": 0.966,
      "step": 4175
    },
    {
      "epoch": 0.2563614598360907,
      "grad_norm": 0.6815916329089907,
      "learning_rate": 1.7431004749886956e-05,
      "loss": 0.9724,
      "step": 4176
    },
    {
      "epoch": 0.25642284907455726,
      "grad_norm": 0.6390279109882322,
      "learning_rate": 1.7429674039375552e-05,
      "loss": 0.9778,
      "step": 4177
    },
    {
      "epoch": 0.25648423831302375,
      "grad_norm": 0.662995210183873,
      "learning_rate": 1.7428343035129395e-05,
      "loss": 0.9761,
      "step": 4178
    },
    {
      "epoch": 0.25654562755149024,
      "grad_norm": 0.6398193125405977,
      "learning_rate": 1.742701173720111e-05,
      "loss": 0.977,
      "step": 4179
    },
    {
      "epoch": 0.25660701678995673,
      "grad_norm": 0.656588530252091,
      "learning_rate": 1.7425680145643328e-05,
      "loss": 0.9848,
      "step": 4180
    },
    {
      "epoch": 0.2566684060284232,
      "grad_norm": 0.6769727390490597,
      "learning_rate": 1.742434826050869e-05,
      "loss": 0.9356,
      "step": 4181
    },
    {
      "epoch": 0.2567297952668897,
      "grad_norm": 0.668410119827695,
      "learning_rate": 1.742301608184986e-05,
      "loss": 0.9603,
      "step": 4182
    },
    {
      "epoch": 0.2567911845053562,
      "grad_norm": 0.676208009852156,
      "learning_rate": 1.7421683609719506e-05,
      "loss": 1.0194,
      "step": 4183
    },
    {
      "epoch": 0.2568525737438227,
      "grad_norm": 0.7380206041934645,
      "learning_rate": 1.7420350844170305e-05,
      "loss": 1.0271,
      "step": 4184
    },
    {
      "epoch": 0.2569139629822892,
      "grad_norm": 0.6043463718060456,
      "learning_rate": 1.7419017785254945e-05,
      "loss": 0.7768,
      "step": 4185
    },
    {
      "epoch": 0.2569753522207557,
      "grad_norm": 0.6321975112539273,
      "learning_rate": 1.7417684433026133e-05,
      "loss": 0.9134,
      "step": 4186
    },
    {
      "epoch": 0.2570367414592222,
      "grad_norm": 0.6643252884825896,
      "learning_rate": 1.741635078753658e-05,
      "loss": 1.0144,
      "step": 4187
    },
    {
      "epoch": 0.2570981306976887,
      "grad_norm": 0.6330263733287377,
      "learning_rate": 1.741501684883902e-05,
      "loss": 0.9851,
      "step": 4188
    },
    {
      "epoch": 0.2571595199361552,
      "grad_norm": 0.6319465997601831,
      "learning_rate": 1.7413682616986185e-05,
      "loss": 0.9266,
      "step": 4189
    },
    {
      "epoch": 0.2572209091746217,
      "grad_norm": 0.6707605854465487,
      "learning_rate": 1.741234809203082e-05,
      "loss": 0.9691,
      "step": 4190
    },
    {
      "epoch": 0.2572822984130882,
      "grad_norm": 0.602316491325829,
      "learning_rate": 1.7411013274025698e-05,
      "loss": 0.9668,
      "step": 4191
    },
    {
      "epoch": 0.2573436876515547,
      "grad_norm": 0.6575486323530102,
      "learning_rate": 1.7409678163023576e-05,
      "loss": 0.9676,
      "step": 4192
    },
    {
      "epoch": 0.2574050768900212,
      "grad_norm": 0.6384939470566469,
      "learning_rate": 1.7408342759077255e-05,
      "loss": 0.9619,
      "step": 4193
    },
    {
      "epoch": 0.25746646612848767,
      "grad_norm": 0.6473502915475952,
      "learning_rate": 1.7407007062239517e-05,
      "loss": 0.9726,
      "step": 4194
    },
    {
      "epoch": 0.25752785536695416,
      "grad_norm": 0.6209246464190266,
      "learning_rate": 1.7405671072563177e-05,
      "loss": 0.9261,
      "step": 4195
    },
    {
      "epoch": 0.25758924460542065,
      "grad_norm": 0.6089025244727462,
      "learning_rate": 1.740433479010105e-05,
      "loss": 0.9316,
      "step": 4196
    },
    {
      "epoch": 0.25765063384388714,
      "grad_norm": 0.6635236775867256,
      "learning_rate": 1.7402998214905968e-05,
      "loss": 0.9757,
      "step": 4197
    },
    {
      "epoch": 0.25771202308235364,
      "grad_norm": 0.6918290907738482,
      "learning_rate": 1.740166134703077e-05,
      "loss": 1.0277,
      "step": 4198
    },
    {
      "epoch": 0.2577734123208202,
      "grad_norm": 0.6694929979103365,
      "learning_rate": 1.7400324186528316e-05,
      "loss": 0.9744,
      "step": 4199
    },
    {
      "epoch": 0.2578348015592867,
      "grad_norm": 0.6461866971639144,
      "learning_rate": 1.7398986733451466e-05,
      "loss": 0.9446,
      "step": 4200
    },
    {
      "epoch": 0.25789619079775317,
      "grad_norm": 0.6578367493969184,
      "learning_rate": 1.73976489878531e-05,
      "loss": 0.9596,
      "step": 4201
    },
    {
      "epoch": 0.25795758003621966,
      "grad_norm": 0.6464261337914712,
      "learning_rate": 1.73963109497861e-05,
      "loss": 0.9444,
      "step": 4202
    },
    {
      "epoch": 0.25801896927468615,
      "grad_norm": 0.6670176419790108,
      "learning_rate": 1.739497261930337e-05,
      "loss": 0.9812,
      "step": 4203
    },
    {
      "epoch": 0.25808035851315264,
      "grad_norm": 0.6846576727790231,
      "learning_rate": 1.7393633996457825e-05,
      "loss": 0.9547,
      "step": 4204
    },
    {
      "epoch": 0.25814174775161913,
      "grad_norm": 0.6217961075388467,
      "learning_rate": 1.739229508130238e-05,
      "loss": 0.8972,
      "step": 4205
    },
    {
      "epoch": 0.2582031369900856,
      "grad_norm": 0.636302816056945,
      "learning_rate": 1.7390955873889974e-05,
      "loss": 0.9573,
      "step": 4206
    },
    {
      "epoch": 0.2582645262285521,
      "grad_norm": 0.7369294804108919,
      "learning_rate": 1.7389616374273553e-05,
      "loss": 0.9997,
      "step": 4207
    },
    {
      "epoch": 0.2583259154670186,
      "grad_norm": 0.6834151872438878,
      "learning_rate": 1.7388276582506078e-05,
      "loss": 0.9951,
      "step": 4208
    },
    {
      "epoch": 0.25838730470548515,
      "grad_norm": 0.7255522040217044,
      "learning_rate": 1.7386936498640513e-05,
      "loss": 0.951,
      "step": 4209
    },
    {
      "epoch": 0.25844869394395165,
      "grad_norm": 0.6215078064993604,
      "learning_rate": 1.7385596122729837e-05,
      "loss": 0.976,
      "step": 4210
    },
    {
      "epoch": 0.25851008318241814,
      "grad_norm": 0.6422919444438635,
      "learning_rate": 1.738425545482705e-05,
      "loss": 0.9508,
      "step": 4211
    },
    {
      "epoch": 0.25857147242088463,
      "grad_norm": 0.6215484040866932,
      "learning_rate": 1.7382914494985147e-05,
      "loss": 0.9554,
      "step": 4212
    },
    {
      "epoch": 0.2586328616593511,
      "grad_norm": 0.6770885338170612,
      "learning_rate": 1.7381573243257145e-05,
      "loss": 0.9574,
      "step": 4213
    },
    {
      "epoch": 0.2586942508978176,
      "grad_norm": 0.6721468033042755,
      "learning_rate": 1.738023169969608e-05,
      "loss": 1.0079,
      "step": 4214
    },
    {
      "epoch": 0.2587556401362841,
      "grad_norm": 0.6530194558320838,
      "learning_rate": 1.7378889864354978e-05,
      "loss": 1.0245,
      "step": 4215
    },
    {
      "epoch": 0.2588170293747506,
      "grad_norm": 0.631074282189236,
      "learning_rate": 1.73775477372869e-05,
      "loss": 0.9188,
      "step": 4216
    },
    {
      "epoch": 0.2588784186132171,
      "grad_norm": 0.6778257966439327,
      "learning_rate": 1.73762053185449e-05,
      "loss": 1.0167,
      "step": 4217
    },
    {
      "epoch": 0.2589398078516836,
      "grad_norm": 0.6407171222659519,
      "learning_rate": 1.737486260818205e-05,
      "loss": 0.8286,
      "step": 4218
    },
    {
      "epoch": 0.25900119709015007,
      "grad_norm": 0.621576377749488,
      "learning_rate": 1.7373519606251443e-05,
      "loss": 0.9473,
      "step": 4219
    },
    {
      "epoch": 0.2590625863286166,
      "grad_norm": 0.656109892471139,
      "learning_rate": 1.7372176312806164e-05,
      "loss": 0.9709,
      "step": 4220
    },
    {
      "epoch": 0.2591239755670831,
      "grad_norm": 0.6421024119603636,
      "learning_rate": 1.737083272789933e-05,
      "loss": 0.9256,
      "step": 4221
    },
    {
      "epoch": 0.2591853648055496,
      "grad_norm": 0.6327476312909681,
      "learning_rate": 1.7369488851584053e-05,
      "loss": 0.9538,
      "step": 4222
    },
    {
      "epoch": 0.2592467540440161,
      "grad_norm": 0.5931387931044668,
      "learning_rate": 1.736814468391347e-05,
      "loss": 0.8971,
      "step": 4223
    },
    {
      "epoch": 0.2593081432824826,
      "grad_norm": 0.6754060294403068,
      "learning_rate": 1.736680022494072e-05,
      "loss": 0.7661,
      "step": 4224
    },
    {
      "epoch": 0.2593695325209491,
      "grad_norm": 0.622347424795531,
      "learning_rate": 1.7365455474718957e-05,
      "loss": 0.9202,
      "step": 4225
    },
    {
      "epoch": 0.25943092175941557,
      "grad_norm": 0.6920380273679084,
      "learning_rate": 1.7364110433301343e-05,
      "loss": 1.0014,
      "step": 4226
    },
    {
      "epoch": 0.25949231099788206,
      "grad_norm": 0.6782049899948444,
      "learning_rate": 1.736276510074106e-05,
      "loss": 0.9742,
      "step": 4227
    },
    {
      "epoch": 0.25955370023634855,
      "grad_norm": 0.6076704078642302,
      "learning_rate": 1.736141947709129e-05,
      "loss": 0.9601,
      "step": 4228
    },
    {
      "epoch": 0.25961508947481504,
      "grad_norm": 0.6966422259573749,
      "learning_rate": 1.736007356240524e-05,
      "loss": 0.9529,
      "step": 4229
    },
    {
      "epoch": 0.2596764787132816,
      "grad_norm": 0.762963041602391,
      "learning_rate": 1.7358727356736116e-05,
      "loss": 0.9869,
      "step": 4230
    },
    {
      "epoch": 0.2597378679517481,
      "grad_norm": 0.6337575109611633,
      "learning_rate": 1.7357380860137146e-05,
      "loss": 0.9827,
      "step": 4231
    },
    {
      "epoch": 0.25979925719021457,
      "grad_norm": 0.7334194110816822,
      "learning_rate": 1.7356034072661557e-05,
      "loss": 0.9854,
      "step": 4232
    },
    {
      "epoch": 0.25986064642868106,
      "grad_norm": 0.6471596859574236,
      "learning_rate": 1.73546869943626e-05,
      "loss": 0.9449,
      "step": 4233
    },
    {
      "epoch": 0.25992203566714756,
      "grad_norm": 0.5990281615725248,
      "learning_rate": 1.7353339625293527e-05,
      "loss": 0.9267,
      "step": 4234
    },
    {
      "epoch": 0.25998342490561405,
      "grad_norm": 0.6281474418872841,
      "learning_rate": 1.7351991965507613e-05,
      "loss": 0.9723,
      "step": 4235
    },
    {
      "epoch": 0.26004481414408054,
      "grad_norm": 0.67696177571771,
      "learning_rate": 1.7350644015058135e-05,
      "loss": 0.9839,
      "step": 4236
    },
    {
      "epoch": 0.26010620338254703,
      "grad_norm": 0.6799570323709193,
      "learning_rate": 1.7349295773998385e-05,
      "loss": 0.992,
      "step": 4237
    },
    {
      "epoch": 0.2601675926210135,
      "grad_norm": 0.5818089388587316,
      "learning_rate": 1.7347947242381665e-05,
      "loss": 0.9433,
      "step": 4238
    },
    {
      "epoch": 0.26022898185948,
      "grad_norm": 0.69384215515116,
      "learning_rate": 1.7346598420261294e-05,
      "loss": 0.9871,
      "step": 4239
    },
    {
      "epoch": 0.2602903710979465,
      "grad_norm": 0.6555368433166715,
      "learning_rate": 1.734524930769059e-05,
      "loss": 0.9208,
      "step": 4240
    },
    {
      "epoch": 0.26035176033641305,
      "grad_norm": 0.6747532350057683,
      "learning_rate": 1.7343899904722903e-05,
      "loss": 1.027,
      "step": 4241
    },
    {
      "epoch": 0.26041314957487954,
      "grad_norm": 0.6422019746416486,
      "learning_rate": 1.7342550211411572e-05,
      "loss": 0.9509,
      "step": 4242
    },
    {
      "epoch": 0.26047453881334603,
      "grad_norm": 0.6425439924933637,
      "learning_rate": 1.7341200227809958e-05,
      "loss": 0.9665,
      "step": 4243
    },
    {
      "epoch": 0.2605359280518125,
      "grad_norm": 0.6480803151733157,
      "learning_rate": 1.7339849953971436e-05,
      "loss": 1.0036,
      "step": 4244
    },
    {
      "epoch": 0.260597317290279,
      "grad_norm": 0.5878909848746734,
      "learning_rate": 1.733849938994939e-05,
      "loss": 0.9775,
      "step": 4245
    },
    {
      "epoch": 0.2606587065287455,
      "grad_norm": 0.6410146080723423,
      "learning_rate": 1.7337148535797215e-05,
      "loss": 0.937,
      "step": 4246
    },
    {
      "epoch": 0.260720095767212,
      "grad_norm": 0.6216663735457623,
      "learning_rate": 1.7335797391568318e-05,
      "loss": 0.982,
      "step": 4247
    },
    {
      "epoch": 0.2607814850056785,
      "grad_norm": 0.6541781154974181,
      "learning_rate": 1.733444595731611e-05,
      "loss": 0.9458,
      "step": 4248
    },
    {
      "epoch": 0.260842874244145,
      "grad_norm": 0.6165707261282056,
      "learning_rate": 1.733309423309403e-05,
      "loss": 0.9186,
      "step": 4249
    },
    {
      "epoch": 0.2609042634826115,
      "grad_norm": 0.6779705111812921,
      "learning_rate": 1.7331742218955513e-05,
      "loss": 0.9735,
      "step": 4250
    },
    {
      "epoch": 0.26096565272107797,
      "grad_norm": 0.7142741042061367,
      "learning_rate": 1.7330389914954015e-05,
      "loss": 1.0013,
      "step": 4251
    },
    {
      "epoch": 0.2610270419595445,
      "grad_norm": 0.6751665450898274,
      "learning_rate": 1.7329037321142995e-05,
      "loss": 0.9792,
      "step": 4252
    },
    {
      "epoch": 0.261088431198011,
      "grad_norm": 0.6547646602745651,
      "learning_rate": 1.7327684437575933e-05,
      "loss": 0.9484,
      "step": 4253
    },
    {
      "epoch": 0.2611498204364775,
      "grad_norm": 0.6155959717719883,
      "learning_rate": 1.7326331264306316e-05,
      "loss": 0.951,
      "step": 4254
    },
    {
      "epoch": 0.261211209674944,
      "grad_norm": 0.7065446881016867,
      "learning_rate": 1.7324977801387637e-05,
      "loss": 1.038,
      "step": 4255
    },
    {
      "epoch": 0.2612725989134105,
      "grad_norm": 0.6631786661872281,
      "learning_rate": 1.732362404887341e-05,
      "loss": 0.9773,
      "step": 4256
    },
    {
      "epoch": 0.261333988151877,
      "grad_norm": 0.6459275315067019,
      "learning_rate": 1.7322270006817158e-05,
      "loss": 0.9558,
      "step": 4257
    },
    {
      "epoch": 0.26139537739034346,
      "grad_norm": 0.6964994086701408,
      "learning_rate": 1.7320915675272406e-05,
      "loss": 0.9958,
      "step": 4258
    },
    {
      "epoch": 0.26145676662880996,
      "grad_norm": 0.6675034155026017,
      "learning_rate": 1.73195610542927e-05,
      "loss": 0.9808,
      "step": 4259
    },
    {
      "epoch": 0.26151815586727645,
      "grad_norm": 0.7369942560110105,
      "learning_rate": 1.7318206143931605e-05,
      "loss": 1.0221,
      "step": 4260
    },
    {
      "epoch": 0.26157954510574294,
      "grad_norm": 0.6599176471756022,
      "learning_rate": 1.7316850944242677e-05,
      "loss": 0.941,
      "step": 4261
    },
    {
      "epoch": 0.2616409343442095,
      "grad_norm": 0.6438417046548394,
      "learning_rate": 1.7315495455279498e-05,
      "loss": 0.9636,
      "step": 4262
    },
    {
      "epoch": 0.261702323582676,
      "grad_norm": 0.5867897752066397,
      "learning_rate": 1.7314139677095655e-05,
      "loss": 0.9337,
      "step": 4263
    },
    {
      "epoch": 0.26176371282114247,
      "grad_norm": 0.6295231884138991,
      "learning_rate": 1.7312783609744753e-05,
      "loss": 0.9231,
      "step": 4264
    },
    {
      "epoch": 0.26182510205960896,
      "grad_norm": 0.6984643117518795,
      "learning_rate": 1.7311427253280407e-05,
      "loss": 1.016,
      "step": 4265
    },
    {
      "epoch": 0.26188649129807545,
      "grad_norm": 0.6234724470453903,
      "learning_rate": 1.7310070607756236e-05,
      "loss": 0.8972,
      "step": 4266
    },
    {
      "epoch": 0.26194788053654194,
      "grad_norm": 0.6549253429804569,
      "learning_rate": 1.7308713673225877e-05,
      "loss": 0.9532,
      "step": 4267
    },
    {
      "epoch": 0.26200926977500844,
      "grad_norm": 0.6491898770082011,
      "learning_rate": 1.7307356449742975e-05,
      "loss": 0.9986,
      "step": 4268
    },
    {
      "epoch": 0.2620706590134749,
      "grad_norm": 0.6927321728418083,
      "learning_rate": 1.730599893736119e-05,
      "loss": 0.9791,
      "step": 4269
    },
    {
      "epoch": 0.2621320482519414,
      "grad_norm": 0.5867770429621578,
      "learning_rate": 1.7304641136134192e-05,
      "loss": 0.9492,
      "step": 4270
    },
    {
      "epoch": 0.2621934374904079,
      "grad_norm": 0.6925660038108911,
      "learning_rate": 1.7303283046115663e-05,
      "loss": 0.9762,
      "step": 4271
    },
    {
      "epoch": 0.2622548267288744,
      "grad_norm": 0.637761863275505,
      "learning_rate": 1.7301924667359292e-05,
      "loss": 0.9241,
      "step": 4272
    },
    {
      "epoch": 0.26231621596734095,
      "grad_norm": 0.7053502846222424,
      "learning_rate": 1.730056599991879e-05,
      "loss": 0.9784,
      "step": 4273
    },
    {
      "epoch": 0.26237760520580744,
      "grad_norm": 0.6644916764332782,
      "learning_rate": 1.7299207043847864e-05,
      "loss": 0.9975,
      "step": 4274
    },
    {
      "epoch": 0.26243899444427393,
      "grad_norm": 0.7043014137827021,
      "learning_rate": 1.7297847799200245e-05,
      "loss": 1.0033,
      "step": 4275
    },
    {
      "epoch": 0.2625003836827404,
      "grad_norm": 0.6830783213695387,
      "learning_rate": 1.7296488266029674e-05,
      "loss": 1.0294,
      "step": 4276
    },
    {
      "epoch": 0.2625617729212069,
      "grad_norm": 0.6373866306623979,
      "learning_rate": 1.7295128444389896e-05,
      "loss": 0.9413,
      "step": 4277
    },
    {
      "epoch": 0.2626231621596734,
      "grad_norm": 0.7171047577070323,
      "learning_rate": 1.729376833433467e-05,
      "loss": 1.0481,
      "step": 4278
    },
    {
      "epoch": 0.2626845513981399,
      "grad_norm": 0.5911684810561845,
      "learning_rate": 1.7292407935917776e-05,
      "loss": 0.9303,
      "step": 4279
    },
    {
      "epoch": 0.2627459406366064,
      "grad_norm": 0.6276678139324962,
      "learning_rate": 1.7291047249192993e-05,
      "loss": 0.9191,
      "step": 4280
    },
    {
      "epoch": 0.2628073298750729,
      "grad_norm": 0.6754000625517528,
      "learning_rate": 1.7289686274214116e-05,
      "loss": 0.9992,
      "step": 4281
    },
    {
      "epoch": 0.2628687191135394,
      "grad_norm": 0.6098611141022308,
      "learning_rate": 1.7288325011034956e-05,
      "loss": 0.9887,
      "step": 4282
    },
    {
      "epoch": 0.2629301083520059,
      "grad_norm": 0.6683940363726829,
      "learning_rate": 1.7286963459709322e-05,
      "loss": 0.9544,
      "step": 4283
    },
    {
      "epoch": 0.2629914975904724,
      "grad_norm": 0.6405893395673129,
      "learning_rate": 1.7285601620291052e-05,
      "loss": 0.9739,
      "step": 4284
    },
    {
      "epoch": 0.2630528868289389,
      "grad_norm": 0.7033016288766897,
      "learning_rate": 1.7284239492833984e-05,
      "loss": 1.0048,
      "step": 4285
    },
    {
      "epoch": 0.2631142760674054,
      "grad_norm": 0.6820100727139042,
      "learning_rate": 1.728287707739197e-05,
      "loss": 0.9791,
      "step": 4286
    },
    {
      "epoch": 0.2631756653058719,
      "grad_norm": 0.626138585450269,
      "learning_rate": 1.7281514374018872e-05,
      "loss": 0.9318,
      "step": 4287
    },
    {
      "epoch": 0.2632370545443384,
      "grad_norm": 0.6916996209396742,
      "learning_rate": 1.7280151382768568e-05,
      "loss": 0.9993,
      "step": 4288
    },
    {
      "epoch": 0.26329844378280487,
      "grad_norm": 0.6846666557316672,
      "learning_rate": 1.7278788103694944e-05,
      "loss": 0.9847,
      "step": 4289
    },
    {
      "epoch": 0.26335983302127136,
      "grad_norm": 0.6710552071871122,
      "learning_rate": 1.727742453685189e-05,
      "loss": 0.9641,
      "step": 4290
    },
    {
      "epoch": 0.26342122225973785,
      "grad_norm": 0.6654065621447277,
      "learning_rate": 1.7276060682293333e-05,
      "loss": 0.915,
      "step": 4291
    },
    {
      "epoch": 0.26348261149820434,
      "grad_norm": 0.6761330636587178,
      "learning_rate": 1.7274696540073172e-05,
      "loss": 0.9959,
      "step": 4292
    },
    {
      "epoch": 0.26354400073667084,
      "grad_norm": 0.6706010229861188,
      "learning_rate": 1.7273332110245353e-05,
      "loss": 0.9705,
      "step": 4293
    },
    {
      "epoch": 0.2636053899751374,
      "grad_norm": 0.6453193882161512,
      "learning_rate": 1.7271967392863815e-05,
      "loss": 0.9556,
      "step": 4294
    },
    {
      "epoch": 0.2636667792136039,
      "grad_norm": 0.7007309431346781,
      "learning_rate": 1.7270602387982512e-05,
      "loss": 0.9887,
      "step": 4295
    },
    {
      "epoch": 0.26372816845207037,
      "grad_norm": 0.6571662485835045,
      "learning_rate": 1.7269237095655412e-05,
      "loss": 0.9777,
      "step": 4296
    },
    {
      "epoch": 0.26378955769053686,
      "grad_norm": 0.6863289882050382,
      "learning_rate": 1.726787151593649e-05,
      "loss": 0.9717,
      "step": 4297
    },
    {
      "epoch": 0.26385094692900335,
      "grad_norm": 0.6268301388609762,
      "learning_rate": 1.7266505648879735e-05,
      "loss": 0.9343,
      "step": 4298
    },
    {
      "epoch": 0.26391233616746984,
      "grad_norm": 0.7066841200442734,
      "learning_rate": 1.726513949453915e-05,
      "loss": 0.9582,
      "step": 4299
    },
    {
      "epoch": 0.26397372540593633,
      "grad_norm": 0.6656521845166531,
      "learning_rate": 1.7263773052968743e-05,
      "loss": 0.9955,
      "step": 4300
    },
    {
      "epoch": 0.2640351146444028,
      "grad_norm": 0.696063037150272,
      "learning_rate": 1.7262406324222537e-05,
      "loss": 0.964,
      "step": 4301
    },
    {
      "epoch": 0.2640965038828693,
      "grad_norm": 0.716973022696932,
      "learning_rate": 1.726103930835457e-05,
      "loss": 0.9995,
      "step": 4302
    },
    {
      "epoch": 0.2641578931213358,
      "grad_norm": 0.6276792314698942,
      "learning_rate": 1.725967200541888e-05,
      "loss": 0.898,
      "step": 4303
    },
    {
      "epoch": 0.26421928235980235,
      "grad_norm": 0.591316617713463,
      "learning_rate": 1.725830441546953e-05,
      "loss": 0.9378,
      "step": 4304
    },
    {
      "epoch": 0.26428067159826885,
      "grad_norm": 0.6962485314066291,
      "learning_rate": 1.7256936538560586e-05,
      "loss": 0.9667,
      "step": 4305
    },
    {
      "epoch": 0.26434206083673534,
      "grad_norm": 0.7438807727909329,
      "learning_rate": 1.725556837474613e-05,
      "loss": 1.0347,
      "step": 4306
    },
    {
      "epoch": 0.26440345007520183,
      "grad_norm": 0.6892301518860905,
      "learning_rate": 1.725419992408025e-05,
      "loss": 1.0012,
      "step": 4307
    },
    {
      "epoch": 0.2644648393136683,
      "grad_norm": 0.7055757535278876,
      "learning_rate": 1.725283118661705e-05,
      "loss": 1.007,
      "step": 4308
    },
    {
      "epoch": 0.2645262285521348,
      "grad_norm": 0.6774185065377791,
      "learning_rate": 1.7251462162410634e-05,
      "loss": 0.9292,
      "step": 4309
    },
    {
      "epoch": 0.2645876177906013,
      "grad_norm": 0.7050785265078426,
      "learning_rate": 1.7250092851515145e-05,
      "loss": 0.9911,
      "step": 4310
    },
    {
      "epoch": 0.2646490070290678,
      "grad_norm": 0.689328742221097,
      "learning_rate": 1.7248723253984706e-05,
      "loss": 0.9873,
      "step": 4311
    },
    {
      "epoch": 0.2647103962675343,
      "grad_norm": 0.7308875927148824,
      "learning_rate": 1.7247353369873465e-05,
      "loss": 1.0334,
      "step": 4312
    },
    {
      "epoch": 0.2647717855060008,
      "grad_norm": 0.6804158011022573,
      "learning_rate": 1.7245983199235587e-05,
      "loss": 0.9678,
      "step": 4313
    },
    {
      "epoch": 0.26483317474446727,
      "grad_norm": 0.7086149176389626,
      "learning_rate": 1.7244612742125237e-05,
      "loss": 1.0013,
      "step": 4314
    },
    {
      "epoch": 0.2648945639829338,
      "grad_norm": 0.6038084601008153,
      "learning_rate": 1.7243241998596598e-05,
      "loss": 0.9026,
      "step": 4315
    },
    {
      "epoch": 0.2649559532214003,
      "grad_norm": 0.6740937846959428,
      "learning_rate": 1.7241870968703866e-05,
      "loss": 1.0201,
      "step": 4316
    },
    {
      "epoch": 0.2650173424598668,
      "grad_norm": 0.6904181651223358,
      "learning_rate": 1.7240499652501242e-05,
      "loss": 0.7943,
      "step": 4317
    },
    {
      "epoch": 0.2650787316983333,
      "grad_norm": 0.688200315863667,
      "learning_rate": 1.723912805004294e-05,
      "loss": 0.9984,
      "step": 4318
    },
    {
      "epoch": 0.2651401209367998,
      "grad_norm": 0.6540042252524801,
      "learning_rate": 1.723775616138319e-05,
      "loss": 1.0137,
      "step": 4319
    },
    {
      "epoch": 0.2652015101752663,
      "grad_norm": 0.6578269165312379,
      "learning_rate": 1.7236383986576228e-05,
      "loss": 0.9421,
      "step": 4320
    },
    {
      "epoch": 0.26526289941373277,
      "grad_norm": 0.6790879642022961,
      "learning_rate": 1.7235011525676304e-05,
      "loss": 0.9436,
      "step": 4321
    },
    {
      "epoch": 0.26532428865219926,
      "grad_norm": 0.6925408618493468,
      "learning_rate": 1.723363877873768e-05,
      "loss": 0.9669,
      "step": 4322
    },
    {
      "epoch": 0.26538567789066575,
      "grad_norm": 0.687590269992648,
      "learning_rate": 1.7232265745814626e-05,
      "loss": 0.9832,
      "step": 4323
    },
    {
      "epoch": 0.26544706712913224,
      "grad_norm": 0.6676636208771609,
      "learning_rate": 1.7230892426961424e-05,
      "loss": 0.9209,
      "step": 4324
    },
    {
      "epoch": 0.26550845636759873,
      "grad_norm": 0.6566463813511884,
      "learning_rate": 1.7229518822232372e-05,
      "loss": 0.9562,
      "step": 4325
    },
    {
      "epoch": 0.2655698456060653,
      "grad_norm": 0.6175697994203041,
      "learning_rate": 1.7228144931681777e-05,
      "loss": 0.9148,
      "step": 4326
    },
    {
      "epoch": 0.26563123484453177,
      "grad_norm": 0.6165892714691359,
      "learning_rate": 1.7226770755363952e-05,
      "loss": 0.979,
      "step": 4327
    },
    {
      "epoch": 0.26569262408299826,
      "grad_norm": 0.6422973681008284,
      "learning_rate": 1.722539629333323e-05,
      "loss": 0.9413,
      "step": 4328
    },
    {
      "epoch": 0.26575401332146475,
      "grad_norm": 0.6777512231774603,
      "learning_rate": 1.7224021545643944e-05,
      "loss": 0.9618,
      "step": 4329
    },
    {
      "epoch": 0.26581540255993125,
      "grad_norm": 0.6115719984523994,
      "learning_rate": 1.7222646512350452e-05,
      "loss": 0.8907,
      "step": 4330
    },
    {
      "epoch": 0.26587679179839774,
      "grad_norm": 0.6398836582373342,
      "learning_rate": 1.7221271193507118e-05,
      "loss": 0.9829,
      "step": 4331
    },
    {
      "epoch": 0.26593818103686423,
      "grad_norm": 0.6362919144328332,
      "learning_rate": 1.7219895589168306e-05,
      "loss": 0.9655,
      "step": 4332
    },
    {
      "epoch": 0.2659995702753307,
      "grad_norm": 0.684161529418325,
      "learning_rate": 1.721851969938841e-05,
      "loss": 0.9771,
      "step": 4333
    },
    {
      "epoch": 0.2660609595137972,
      "grad_norm": 0.7126696097693958,
      "learning_rate": 1.721714352422182e-05,
      "loss": 0.9859,
      "step": 4334
    },
    {
      "epoch": 0.2661223487522637,
      "grad_norm": 0.7836367909902061,
      "learning_rate": 1.7215767063722948e-05,
      "loss": 0.7256,
      "step": 4335
    },
    {
      "epoch": 0.26618373799073025,
      "grad_norm": 0.7079723637680146,
      "learning_rate": 1.721439031794621e-05,
      "loss": 0.9535,
      "step": 4336
    },
    {
      "epoch": 0.26624512722919674,
      "grad_norm": 0.6912936853072524,
      "learning_rate": 1.721301328694604e-05,
      "loss": 0.9478,
      "step": 4337
    },
    {
      "epoch": 0.26630651646766323,
      "grad_norm": 0.6306475030514916,
      "learning_rate": 1.7211635970776877e-05,
      "loss": 0.7483,
      "step": 4338
    },
    {
      "epoch": 0.2663679057061297,
      "grad_norm": 0.6374179707895314,
      "learning_rate": 1.721025836949317e-05,
      "loss": 0.9721,
      "step": 4339
    },
    {
      "epoch": 0.2664292949445962,
      "grad_norm": 0.6864241149550515,
      "learning_rate": 1.7208880483149388e-05,
      "loss": 0.9489,
      "step": 4340
    },
    {
      "epoch": 0.2664906841830627,
      "grad_norm": 0.6245309539862441,
      "learning_rate": 1.7207502311800004e-05,
      "loss": 0.9586,
      "step": 4341
    },
    {
      "epoch": 0.2665520734215292,
      "grad_norm": 0.7059573923496241,
      "learning_rate": 1.7206123855499506e-05,
      "loss": 1.0148,
      "step": 4342
    },
    {
      "epoch": 0.2666134626599957,
      "grad_norm": 0.7175482694583752,
      "learning_rate": 1.7204745114302395e-05,
      "loss": 0.9794,
      "step": 4343
    },
    {
      "epoch": 0.2666748518984622,
      "grad_norm": 0.6750303943366939,
      "learning_rate": 1.720336608826317e-05,
      "loss": 0.9435,
      "step": 4344
    },
    {
      "epoch": 0.2667362411369287,
      "grad_norm": 0.691351395374602,
      "learning_rate": 1.720198677743636e-05,
      "loss": 0.9876,
      "step": 4345
    },
    {
      "epoch": 0.26679763037539517,
      "grad_norm": 0.6704212750339976,
      "learning_rate": 1.7200607181876492e-05,
      "loss": 0.9222,
      "step": 4346
    },
    {
      "epoch": 0.2668590196138617,
      "grad_norm": 0.6694781458325737,
      "learning_rate": 1.7199227301638113e-05,
      "loss": 0.9764,
      "step": 4347
    },
    {
      "epoch": 0.2669204088523282,
      "grad_norm": 0.6321602003459564,
      "learning_rate": 1.7197847136775775e-05,
      "loss": 0.9242,
      "step": 4348
    },
    {
      "epoch": 0.2669817980907947,
      "grad_norm": 0.6661673189006966,
      "learning_rate": 1.719646668734404e-05,
      "loss": 0.9235,
      "step": 4349
    },
    {
      "epoch": 0.2670431873292612,
      "grad_norm": 0.6455471729061483,
      "learning_rate": 1.7195085953397486e-05,
      "loss": 0.9611,
      "step": 4350
    },
    {
      "epoch": 0.2671045765677277,
      "grad_norm": 0.5849740117145663,
      "learning_rate": 1.7193704934990707e-05,
      "loss": 0.9085,
      "step": 4351
    },
    {
      "epoch": 0.26716596580619417,
      "grad_norm": 0.6591137084665474,
      "learning_rate": 1.7192323632178294e-05,
      "loss": 0.9337,
      "step": 4352
    },
    {
      "epoch": 0.26722735504466066,
      "grad_norm": 0.6444058134229363,
      "learning_rate": 1.719094204501486e-05,
      "loss": 0.9461,
      "step": 4353
    },
    {
      "epoch": 0.26728874428312716,
      "grad_norm": 0.6151181263238588,
      "learning_rate": 1.7189560173555034e-05,
      "loss": 0.9154,
      "step": 4354
    },
    {
      "epoch": 0.26735013352159365,
      "grad_norm": 0.6996850841060177,
      "learning_rate": 1.7188178017853438e-05,
      "loss": 0.9604,
      "step": 4355
    },
    {
      "epoch": 0.26741152276006014,
      "grad_norm": 0.595316055207236,
      "learning_rate": 1.7186795577964718e-05,
      "loss": 0.9301,
      "step": 4356
    },
    {
      "epoch": 0.2674729119985267,
      "grad_norm": 0.6971137830010755,
      "learning_rate": 1.718541285394353e-05,
      "loss": 0.8227,
      "step": 4357
    },
    {
      "epoch": 0.2675343012369932,
      "grad_norm": 0.6786290153966079,
      "learning_rate": 1.7184029845844543e-05,
      "loss": 1.0202,
      "step": 4358
    },
    {
      "epoch": 0.26759569047545967,
      "grad_norm": 0.599522119285186,
      "learning_rate": 1.7182646553722432e-05,
      "loss": 0.9158,
      "step": 4359
    },
    {
      "epoch": 0.26765707971392616,
      "grad_norm": 0.7214880665894954,
      "learning_rate": 1.718126297763189e-05,
      "loss": 0.9535,
      "step": 4360
    },
    {
      "epoch": 0.26771846895239265,
      "grad_norm": 0.619505861296002,
      "learning_rate": 1.7179879117627615e-05,
      "loss": 0.9296,
      "step": 4361
    },
    {
      "epoch": 0.26777985819085914,
      "grad_norm": 0.6399284880077001,
      "learning_rate": 1.7178494973764314e-05,
      "loss": 0.928,
      "step": 4362
    },
    {
      "epoch": 0.26784124742932564,
      "grad_norm": 0.6396779398277717,
      "learning_rate": 1.7177110546096716e-05,
      "loss": 0.9367,
      "step": 4363
    },
    {
      "epoch": 0.2679026366677921,
      "grad_norm": 0.6416443765248651,
      "learning_rate": 1.7175725834679552e-05,
      "loss": 1.022,
      "step": 4364
    },
    {
      "epoch": 0.2679640259062586,
      "grad_norm": 0.6081323151498927,
      "learning_rate": 1.7174340839567567e-05,
      "loss": 0.9405,
      "step": 4365
    },
    {
      "epoch": 0.2680254151447251,
      "grad_norm": 0.6594753642691894,
      "learning_rate": 1.7172955560815517e-05,
      "loss": 0.9751,
      "step": 4366
    },
    {
      "epoch": 0.2680868043831916,
      "grad_norm": 0.6692909988570706,
      "learning_rate": 1.717156999847817e-05,
      "loss": 0.9818,
      "step": 4367
    },
    {
      "epoch": 0.26814819362165815,
      "grad_norm": 0.621932734997202,
      "learning_rate": 1.7170184152610306e-05,
      "loss": 0.9034,
      "step": 4368
    },
    {
      "epoch": 0.26820958286012464,
      "grad_norm": 0.6372447922910564,
      "learning_rate": 1.7168798023266713e-05,
      "loss": 0.9737,
      "step": 4369
    },
    {
      "epoch": 0.26827097209859113,
      "grad_norm": 0.6184522489201164,
      "learning_rate": 1.7167411610502193e-05,
      "loss": 0.9608,
      "step": 4370
    },
    {
      "epoch": 0.2683323613370576,
      "grad_norm": 0.645910610391719,
      "learning_rate": 1.716602491437156e-05,
      "loss": 0.9152,
      "step": 4371
    },
    {
      "epoch": 0.2683937505755241,
      "grad_norm": 0.6453482411569753,
      "learning_rate": 1.716463793492963e-05,
      "loss": 0.8828,
      "step": 4372
    },
    {
      "epoch": 0.2684551398139906,
      "grad_norm": 0.6440627774702062,
      "learning_rate": 1.7163250672231245e-05,
      "loss": 0.9729,
      "step": 4373
    },
    {
      "epoch": 0.2685165290524571,
      "grad_norm": 0.5902176959274533,
      "learning_rate": 1.7161863126331252e-05,
      "loss": 0.9165,
      "step": 4374
    },
    {
      "epoch": 0.2685779182909236,
      "grad_norm": 0.6687804907388208,
      "learning_rate": 1.7160475297284503e-05,
      "loss": 0.9601,
      "step": 4375
    },
    {
      "epoch": 0.2686393075293901,
      "grad_norm": 0.6642594362845902,
      "learning_rate": 1.715908718514587e-05,
      "loss": 0.9466,
      "step": 4376
    },
    {
      "epoch": 0.2687006967678566,
      "grad_norm": 0.6763019976665089,
      "learning_rate": 1.7157698789970233e-05,
      "loss": 0.9536,
      "step": 4377
    },
    {
      "epoch": 0.26876208600632306,
      "grad_norm": 0.6680085463026061,
      "learning_rate": 1.7156310111812477e-05,
      "loss": 0.9836,
      "step": 4378
    },
    {
      "epoch": 0.2688234752447896,
      "grad_norm": 0.6248159420879685,
      "learning_rate": 1.715492115072751e-05,
      "loss": 0.8842,
      "step": 4379
    },
    {
      "epoch": 0.2688848644832561,
      "grad_norm": 0.6297134334311126,
      "learning_rate": 1.715353190677024e-05,
      "loss": 0.9667,
      "step": 4380
    },
    {
      "epoch": 0.2689462537217226,
      "grad_norm": 0.6357733288574523,
      "learning_rate": 1.715214237999559e-05,
      "loss": 0.944,
      "step": 4381
    },
    {
      "epoch": 0.2690076429601891,
      "grad_norm": 0.6518505567639035,
      "learning_rate": 1.715075257045851e-05,
      "loss": 0.9444,
      "step": 4382
    },
    {
      "epoch": 0.2690690321986556,
      "grad_norm": 0.7282583183494407,
      "learning_rate": 1.7149362478213933e-05,
      "loss": 1.0245,
      "step": 4383
    },
    {
      "epoch": 0.26913042143712207,
      "grad_norm": 0.6837401275296855,
      "learning_rate": 1.7147972103316816e-05,
      "loss": 0.9912,
      "step": 4384
    },
    {
      "epoch": 0.26919181067558856,
      "grad_norm": 0.6226332067835475,
      "learning_rate": 1.714658144582213e-05,
      "loss": 0.9133,
      "step": 4385
    },
    {
      "epoch": 0.26925319991405505,
      "grad_norm": 0.6156007652440239,
      "learning_rate": 1.7145190505784863e-05,
      "loss": 0.9391,
      "step": 4386
    },
    {
      "epoch": 0.26931458915252154,
      "grad_norm": 0.6479083528893598,
      "learning_rate": 1.714379928326e-05,
      "loss": 0.9306,
      "step": 4387
    },
    {
      "epoch": 0.26937597839098804,
      "grad_norm": 0.6679207246635062,
      "learning_rate": 1.714240777830254e-05,
      "loss": 0.9617,
      "step": 4388
    },
    {
      "epoch": 0.2694373676294546,
      "grad_norm": 0.6435911728076094,
      "learning_rate": 1.71410159909675e-05,
      "loss": 0.9194,
      "step": 4389
    },
    {
      "epoch": 0.2694987568679211,
      "grad_norm": 0.6629326616874318,
      "learning_rate": 1.7139623921309904e-05,
      "loss": 0.9409,
      "step": 4390
    },
    {
      "epoch": 0.26956014610638757,
      "grad_norm": 0.6286189944406786,
      "learning_rate": 1.7138231569384793e-05,
      "loss": 0.9339,
      "step": 4391
    },
    {
      "epoch": 0.26962153534485406,
      "grad_norm": 0.607838176380513,
      "learning_rate": 1.7136838935247206e-05,
      "loss": 0.9327,
      "step": 4392
    },
    {
      "epoch": 0.26968292458332055,
      "grad_norm": 0.6048443726771551,
      "learning_rate": 1.713544601895221e-05,
      "loss": 0.9621,
      "step": 4393
    },
    {
      "epoch": 0.26974431382178704,
      "grad_norm": 0.6499555410872031,
      "learning_rate": 1.7134052820554868e-05,
      "loss": 0.9247,
      "step": 4394
    },
    {
      "epoch": 0.26980570306025353,
      "grad_norm": 0.6813417048156323,
      "learning_rate": 1.713265934011026e-05,
      "loss": 0.9765,
      "step": 4395
    },
    {
      "epoch": 0.26986709229872,
      "grad_norm": 0.7576672047161576,
      "learning_rate": 1.7131265577673482e-05,
      "loss": 0.9855,
      "step": 4396
    },
    {
      "epoch": 0.2699284815371865,
      "grad_norm": 0.6085475724846574,
      "learning_rate": 1.7129871533299635e-05,
      "loss": 0.8782,
      "step": 4397
    },
    {
      "epoch": 0.269989870775653,
      "grad_norm": 0.6786754110104776,
      "learning_rate": 1.7128477207043835e-05,
      "loss": 0.9153,
      "step": 4398
    },
    {
      "epoch": 0.2700512600141195,
      "grad_norm": 0.7278135332305797,
      "learning_rate": 1.7127082598961203e-05,
      "loss": 1.0266,
      "step": 4399
    },
    {
      "epoch": 0.27011264925258605,
      "grad_norm": 0.6725598670642765,
      "learning_rate": 1.7125687709106878e-05,
      "loss": 0.8027,
      "step": 4400
    },
    {
      "epoch": 0.27017403849105254,
      "grad_norm": 0.645430278354678,
      "learning_rate": 1.712429253753601e-05,
      "loss": 0.9794,
      "step": 4401
    },
    {
      "epoch": 0.27023542772951903,
      "grad_norm": 0.6902265804149427,
      "learning_rate": 1.712289708430375e-05,
      "loss": 0.9813,
      "step": 4402
    },
    {
      "epoch": 0.2702968169679855,
      "grad_norm": 0.6149453691320239,
      "learning_rate": 1.7121501349465274e-05,
      "loss": 0.9537,
      "step": 4403
    },
    {
      "epoch": 0.270358206206452,
      "grad_norm": 0.6711181176304358,
      "learning_rate": 1.712010533307576e-05,
      "loss": 0.9766,
      "step": 4404
    },
    {
      "epoch": 0.2704195954449185,
      "grad_norm": 0.6503682806287121,
      "learning_rate": 1.71187090351904e-05,
      "loss": 0.9747,
      "step": 4405
    },
    {
      "epoch": 0.270480984683385,
      "grad_norm": 0.6479658830834861,
      "learning_rate": 1.71173124558644e-05,
      "loss": 0.9419,
      "step": 4406
    },
    {
      "epoch": 0.2705423739218515,
      "grad_norm": 0.6184243093145234,
      "learning_rate": 1.7115915595152977e-05,
      "loss": 0.9327,
      "step": 4407
    },
    {
      "epoch": 0.270603763160318,
      "grad_norm": 0.656143527891453,
      "learning_rate": 1.7114518453111347e-05,
      "loss": 0.975,
      "step": 4408
    },
    {
      "epoch": 0.27066515239878447,
      "grad_norm": 0.6087962667202653,
      "learning_rate": 1.711312102979475e-05,
      "loss": 0.8999,
      "step": 4409
    },
    {
      "epoch": 0.270726541637251,
      "grad_norm": 0.6349427674053666,
      "learning_rate": 1.711172332525844e-05,
      "loss": 0.9188,
      "step": 4410
    },
    {
      "epoch": 0.2707879308757175,
      "grad_norm": 0.6500042517191001,
      "learning_rate": 1.7110325339557666e-05,
      "loss": 0.9669,
      "step": 4411
    },
    {
      "epoch": 0.270849320114184,
      "grad_norm": 0.6512615693583554,
      "learning_rate": 1.7108927072747708e-05,
      "loss": 0.9723,
      "step": 4412
    },
    {
      "epoch": 0.2709107093526505,
      "grad_norm": 0.7209610863551567,
      "learning_rate": 1.710752852488384e-05,
      "loss": 0.9389,
      "step": 4413
    },
    {
      "epoch": 0.270972098591117,
      "grad_norm": 0.7373614171623002,
      "learning_rate": 1.7106129696021353e-05,
      "loss": 1.002,
      "step": 4414
    },
    {
      "epoch": 0.2710334878295835,
      "grad_norm": 0.7298178220047494,
      "learning_rate": 1.7104730586215553e-05,
      "loss": 1.0013,
      "step": 4415
    },
    {
      "epoch": 0.27109487706804997,
      "grad_norm": 0.628301216737785,
      "learning_rate": 1.7103331195521754e-05,
      "loss": 1.01,
      "step": 4416
    },
    {
      "epoch": 0.27115626630651646,
      "grad_norm": 0.6551233388345951,
      "learning_rate": 1.7101931523995284e-05,
      "loss": 0.9747,
      "step": 4417
    },
    {
      "epoch": 0.27121765554498295,
      "grad_norm": 0.7126266616272631,
      "learning_rate": 1.7100531571691476e-05,
      "loss": 0.9824,
      "step": 4418
    },
    {
      "epoch": 0.27127904478344944,
      "grad_norm": 0.6476577114390848,
      "learning_rate": 1.709913133866568e-05,
      "loss": 0.9442,
      "step": 4419
    },
    {
      "epoch": 0.27134043402191593,
      "grad_norm": 0.7043268276297645,
      "learning_rate": 1.7097730824973247e-05,
      "loss": 0.9346,
      "step": 4420
    },
    {
      "epoch": 0.2714018232603825,
      "grad_norm": 0.6650716061053495,
      "learning_rate": 1.709633003066956e-05,
      "loss": 0.9475,
      "step": 4421
    },
    {
      "epoch": 0.27146321249884897,
      "grad_norm": 0.6602382694450318,
      "learning_rate": 1.7094928955809994e-05,
      "loss": 0.9737,
      "step": 4422
    },
    {
      "epoch": 0.27152460173731546,
      "grad_norm": 0.6327149851369893,
      "learning_rate": 1.7093527600449936e-05,
      "loss": 0.9316,
      "step": 4423
    },
    {
      "epoch": 0.27158599097578195,
      "grad_norm": 0.6645337638734312,
      "learning_rate": 1.7092125964644794e-05,
      "loss": 0.9571,
      "step": 4424
    },
    {
      "epoch": 0.27164738021424845,
      "grad_norm": 0.7053858847859588,
      "learning_rate": 1.709072404844998e-05,
      "loss": 1.0178,
      "step": 4425
    },
    {
      "epoch": 0.27170876945271494,
      "grad_norm": 0.6762084951214351,
      "learning_rate": 1.7089321851920924e-05,
      "loss": 0.9679,
      "step": 4426
    },
    {
      "epoch": 0.27177015869118143,
      "grad_norm": 0.6733894151182306,
      "learning_rate": 1.7087919375113055e-05,
      "loss": 0.9329,
      "step": 4427
    },
    {
      "epoch": 0.2718315479296479,
      "grad_norm": 0.6267880824976584,
      "learning_rate": 1.708651661808183e-05,
      "loss": 0.925,
      "step": 4428
    },
    {
      "epoch": 0.2718929371681144,
      "grad_norm": 0.6529592488262449,
      "learning_rate": 1.7085113580882695e-05,
      "loss": 0.9665,
      "step": 4429
    },
    {
      "epoch": 0.2719543264065809,
      "grad_norm": 0.7008521088675216,
      "learning_rate": 1.7083710263571128e-05,
      "loss": 0.9621,
      "step": 4430
    },
    {
      "epoch": 0.2720157156450474,
      "grad_norm": 0.6419604309011087,
      "learning_rate": 1.708230666620261e-05,
      "loss": 0.9324,
      "step": 4431
    },
    {
      "epoch": 0.27207710488351394,
      "grad_norm": 0.6250183838162459,
      "learning_rate": 1.708090278883263e-05,
      "loss": 0.9552,
      "step": 4432
    },
    {
      "epoch": 0.27213849412198043,
      "grad_norm": 0.6685090155974586,
      "learning_rate": 1.7079498631516692e-05,
      "loss": 0.9404,
      "step": 4433
    },
    {
      "epoch": 0.2721998833604469,
      "grad_norm": 0.599580660720696,
      "learning_rate": 1.7078094194310305e-05,
      "loss": 0.9418,
      "step": 4434
    },
    {
      "epoch": 0.2722612725989134,
      "grad_norm": 0.6997313966604481,
      "learning_rate": 1.7076689477269e-05,
      "loss": 0.9629,
      "step": 4435
    },
    {
      "epoch": 0.2723226618373799,
      "grad_norm": 0.6518911197414524,
      "learning_rate": 1.7075284480448314e-05,
      "loss": 0.9692,
      "step": 4436
    },
    {
      "epoch": 0.2723840510758464,
      "grad_norm": 0.6119042310809021,
      "learning_rate": 1.707387920390379e-05,
      "loss": 0.9585,
      "step": 4437
    },
    {
      "epoch": 0.2724454403143129,
      "grad_norm": 0.6344164207073727,
      "learning_rate": 1.707247364769099e-05,
      "loss": 1.0266,
      "step": 4438
    },
    {
      "epoch": 0.2725068295527794,
      "grad_norm": 0.6621029710836858,
      "learning_rate": 1.7071067811865477e-05,
      "loss": 0.9332,
      "step": 4439
    },
    {
      "epoch": 0.2725682187912459,
      "grad_norm": 0.6131421255571555,
      "learning_rate": 1.7069661696482836e-05,
      "loss": 0.8915,
      "step": 4440
    },
    {
      "epoch": 0.27262960802971237,
      "grad_norm": 0.6900299229255011,
      "learning_rate": 1.706825530159866e-05,
      "loss": 0.961,
      "step": 4441
    },
    {
      "epoch": 0.2726909972681789,
      "grad_norm": 0.6174537483808765,
      "learning_rate": 1.706684862726854e-05,
      "loss": 0.9225,
      "step": 4442
    },
    {
      "epoch": 0.2727523865066454,
      "grad_norm": 0.65980059513469,
      "learning_rate": 1.70654416735481e-05,
      "loss": 0.9708,
      "step": 4443
    },
    {
      "epoch": 0.2728137757451119,
      "grad_norm": 0.6297996162940226,
      "learning_rate": 1.7064034440492966e-05,
      "loss": 0.9437,
      "step": 4444
    },
    {
      "epoch": 0.2728751649835784,
      "grad_norm": 0.590599868588795,
      "learning_rate": 1.7062626928158767e-05,
      "loss": 0.9198,
      "step": 4445
    },
    {
      "epoch": 0.2729365542220449,
      "grad_norm": 0.6805007775636454,
      "learning_rate": 1.7061219136601153e-05,
      "loss": 0.9367,
      "step": 4446
    },
    {
      "epoch": 0.27299794346051137,
      "grad_norm": 0.6799123453383856,
      "learning_rate": 1.705981106587578e-05,
      "loss": 1.0154,
      "step": 4447
    },
    {
      "epoch": 0.27305933269897786,
      "grad_norm": 0.7083474109399462,
      "learning_rate": 1.7058402716038317e-05,
      "loss": 0.9744,
      "step": 4448
    },
    {
      "epoch": 0.27312072193744436,
      "grad_norm": 0.5987632530598679,
      "learning_rate": 1.7056994087144443e-05,
      "loss": 0.9821,
      "step": 4449
    },
    {
      "epoch": 0.27318211117591085,
      "grad_norm": 0.6512173989689034,
      "learning_rate": 1.7055585179249853e-05,
      "loss": 0.9575,
      "step": 4450
    },
    {
      "epoch": 0.27324350041437734,
      "grad_norm": 0.689853267788838,
      "learning_rate": 1.705417599241024e-05,
      "loss": 1.0078,
      "step": 4451
    },
    {
      "epoch": 0.27330488965284383,
      "grad_norm": 0.6181030616689633,
      "learning_rate": 1.7052766526681323e-05,
      "loss": 0.919,
      "step": 4452
    },
    {
      "epoch": 0.2733662788913104,
      "grad_norm": 0.6818880471621439,
      "learning_rate": 1.7051356782118826e-05,
      "loss": 0.9353,
      "step": 4453
    },
    {
      "epoch": 0.27342766812977687,
      "grad_norm": 0.6481507423103833,
      "learning_rate": 1.704994675877848e-05,
      "loss": 0.9211,
      "step": 4454
    },
    {
      "epoch": 0.27348905736824336,
      "grad_norm": 0.7072276375356142,
      "learning_rate": 1.7048536456716035e-05,
      "loss": 0.9393,
      "step": 4455
    },
    {
      "epoch": 0.27355044660670985,
      "grad_norm": 0.6671340521559006,
      "learning_rate": 1.7047125875987244e-05,
      "loss": 0.9558,
      "step": 4456
    },
    {
      "epoch": 0.27361183584517634,
      "grad_norm": 0.621023800850385,
      "learning_rate": 1.7045715016647876e-05,
      "loss": 0.8807,
      "step": 4457
    },
    {
      "epoch": 0.27367322508364283,
      "grad_norm": 0.6745926749587541,
      "learning_rate": 1.704430387875371e-05,
      "loss": 0.9351,
      "step": 4458
    },
    {
      "epoch": 0.2737346143221093,
      "grad_norm": 0.6397713580661819,
      "learning_rate": 1.704289246236054e-05,
      "loss": 0.964,
      "step": 4459
    },
    {
      "epoch": 0.2737960035605758,
      "grad_norm": 0.6456572977714016,
      "learning_rate": 1.704148076752416e-05,
      "loss": 0.9447,
      "step": 4460
    },
    {
      "epoch": 0.2738573927990423,
      "grad_norm": 0.6264787402285668,
      "learning_rate": 1.7040068794300385e-05,
      "loss": 1.0154,
      "step": 4461
    },
    {
      "epoch": 0.2739187820375088,
      "grad_norm": 0.6341264269509459,
      "learning_rate": 1.7038656542745034e-05,
      "loss": 0.9684,
      "step": 4462
    },
    {
      "epoch": 0.27398017127597535,
      "grad_norm": 0.6482308887172002,
      "learning_rate": 1.7037244012913953e-05,
      "loss": 0.9625,
      "step": 4463
    },
    {
      "epoch": 0.27404156051444184,
      "grad_norm": 0.6619268236880097,
      "learning_rate": 1.703583120486297e-05,
      "loss": 0.7529,
      "step": 4464
    },
    {
      "epoch": 0.27410294975290833,
      "grad_norm": 0.6546432474654293,
      "learning_rate": 1.7034418118647954e-05,
      "loss": 0.9593,
      "step": 4465
    },
    {
      "epoch": 0.2741643389913748,
      "grad_norm": 0.627785186287015,
      "learning_rate": 1.7033004754324766e-05,
      "loss": 0.9381,
      "step": 4466
    },
    {
      "epoch": 0.2742257282298413,
      "grad_norm": 0.7077638207141428,
      "learning_rate": 1.7031591111949285e-05,
      "loss": 1.0097,
      "step": 4467
    },
    {
      "epoch": 0.2742871174683078,
      "grad_norm": 0.7571731870847512,
      "learning_rate": 1.7030177191577398e-05,
      "loss": 1.043,
      "step": 4468
    },
    {
      "epoch": 0.2743485067067743,
      "grad_norm": 0.8209154295493443,
      "learning_rate": 1.7028762993265008e-05,
      "loss": 1.0173,
      "step": 4469
    },
    {
      "epoch": 0.2744098959452408,
      "grad_norm": 0.6704919429452393,
      "learning_rate": 1.7027348517068024e-05,
      "loss": 0.9852,
      "step": 4470
    },
    {
      "epoch": 0.2744712851837073,
      "grad_norm": 0.6805168125351913,
      "learning_rate": 1.702593376304237e-05,
      "loss": 0.9883,
      "step": 4471
    },
    {
      "epoch": 0.2745326744221738,
      "grad_norm": 0.6396913487530713,
      "learning_rate": 1.7024518731243976e-05,
      "loss": 0.9694,
      "step": 4472
    },
    {
      "epoch": 0.27459406366064026,
      "grad_norm": 0.5942990053170724,
      "learning_rate": 1.7023103421728788e-05,
      "loss": 0.9342,
      "step": 4473
    },
    {
      "epoch": 0.2746554528991068,
      "grad_norm": 0.5968180766704319,
      "learning_rate": 1.7021687834552755e-05,
      "loss": 0.9297,
      "step": 4474
    },
    {
      "epoch": 0.2747168421375733,
      "grad_norm": 0.6658991684148168,
      "learning_rate": 1.702027196977185e-05,
      "loss": 0.9268,
      "step": 4475
    },
    {
      "epoch": 0.2747782313760398,
      "grad_norm": 0.614721732635249,
      "learning_rate": 1.701885582744205e-05,
      "loss": 0.9367,
      "step": 4476
    },
    {
      "epoch": 0.2748396206145063,
      "grad_norm": 0.6679344437617222,
      "learning_rate": 1.7017439407619333e-05,
      "loss": 0.9645,
      "step": 4477
    },
    {
      "epoch": 0.2749010098529728,
      "grad_norm": 0.6508552084534246,
      "learning_rate": 1.701602271035971e-05,
      "loss": 0.9643,
      "step": 4478
    },
    {
      "epoch": 0.27496239909143927,
      "grad_norm": 0.7271689254266548,
      "learning_rate": 1.7014605735719182e-05,
      "loss": 1.0191,
      "step": 4479
    },
    {
      "epoch": 0.27502378832990576,
      "grad_norm": 0.646132802760918,
      "learning_rate": 1.7013188483753776e-05,
      "loss": 0.9839,
      "step": 4480
    },
    {
      "epoch": 0.27508517756837225,
      "grad_norm": 0.6634647157466046,
      "learning_rate": 1.7011770954519517e-05,
      "loss": 0.961,
      "step": 4481
    },
    {
      "epoch": 0.27514656680683874,
      "grad_norm": 0.7195539555089059,
      "learning_rate": 1.701035314807245e-05,
      "loss": 0.9805,
      "step": 4482
    },
    {
      "epoch": 0.27520795604530524,
      "grad_norm": 0.678252045999876,
      "learning_rate": 1.700893506446863e-05,
      "loss": 0.9777,
      "step": 4483
    },
    {
      "epoch": 0.2752693452837718,
      "grad_norm": 0.6725652845817244,
      "learning_rate": 1.700751670376412e-05,
      "loss": 0.935,
      "step": 4484
    },
    {
      "epoch": 0.2753307345222383,
      "grad_norm": 0.6687039959167048,
      "learning_rate": 1.7006098066015e-05,
      "loss": 0.9723,
      "step": 4485
    },
    {
      "epoch": 0.27539212376070477,
      "grad_norm": 0.6093935203812034,
      "learning_rate": 1.700467915127735e-05,
      "loss": 0.9717,
      "step": 4486
    },
    {
      "epoch": 0.27545351299917126,
      "grad_norm": 0.6866938398149973,
      "learning_rate": 1.7003259959607266e-05,
      "loss": 0.9632,
      "step": 4487
    },
    {
      "epoch": 0.27551490223763775,
      "grad_norm": 0.6460992170040064,
      "learning_rate": 1.7001840491060863e-05,
      "loss": 0.9671,
      "step": 4488
    },
    {
      "epoch": 0.27557629147610424,
      "grad_norm": 0.6957474615972697,
      "learning_rate": 1.7000420745694256e-05,
      "loss": 1.0112,
      "step": 4489
    },
    {
      "epoch": 0.27563768071457073,
      "grad_norm": 0.7008221413688842,
      "learning_rate": 1.6999000723563575e-05,
      "loss": 0.9437,
      "step": 4490
    },
    {
      "epoch": 0.2756990699530372,
      "grad_norm": 0.6873178576331589,
      "learning_rate": 1.6997580424724963e-05,
      "loss": 0.9782,
      "step": 4491
    },
    {
      "epoch": 0.2757604591915037,
      "grad_norm": 0.6515688745088741,
      "learning_rate": 1.6996159849234572e-05,
      "loss": 0.9297,
      "step": 4492
    },
    {
      "epoch": 0.2758218484299702,
      "grad_norm": 0.6798535744647057,
      "learning_rate": 1.6994738997148564e-05,
      "loss": 0.9315,
      "step": 4493
    },
    {
      "epoch": 0.2758832376684367,
      "grad_norm": 0.6925597299117583,
      "learning_rate": 1.699331786852311e-05,
      "loss": 0.9537,
      "step": 4494
    },
    {
      "epoch": 0.27594462690690325,
      "grad_norm": 0.6711074476083578,
      "learning_rate": 1.69918964634144e-05,
      "loss": 0.9563,
      "step": 4495
    },
    {
      "epoch": 0.27600601614536974,
      "grad_norm": 0.6443186705647546,
      "learning_rate": 1.699047478187863e-05,
      "loss": 0.8981,
      "step": 4496
    },
    {
      "epoch": 0.27606740538383623,
      "grad_norm": 0.7703347275141785,
      "learning_rate": 1.6989052823972e-05,
      "loss": 1.0432,
      "step": 4497
    },
    {
      "epoch": 0.2761287946223027,
      "grad_norm": 0.7194008172290656,
      "learning_rate": 1.6987630589750733e-05,
      "loss": 1.0199,
      "step": 4498
    },
    {
      "epoch": 0.2761901838607692,
      "grad_norm": 0.7179976684345275,
      "learning_rate": 1.6986208079271058e-05,
      "loss": 0.9687,
      "step": 4499
    },
    {
      "epoch": 0.2762515730992357,
      "grad_norm": 0.7038396273330799,
      "learning_rate": 1.698478529258921e-05,
      "loss": 0.9408,
      "step": 4500
    },
    {
      "epoch": 0.2763129623377022,
      "grad_norm": 0.6161200852249745,
      "learning_rate": 1.6983362229761448e-05,
      "loss": 0.9694,
      "step": 4501
    },
    {
      "epoch": 0.2763743515761687,
      "grad_norm": 0.6101434709274498,
      "learning_rate": 1.698193889084402e-05,
      "loss": 0.9436,
      "step": 4502
    },
    {
      "epoch": 0.2764357408146352,
      "grad_norm": 0.6652685808793194,
      "learning_rate": 1.698051527589321e-05,
      "loss": 0.9704,
      "step": 4503
    },
    {
      "epoch": 0.27649713005310167,
      "grad_norm": 0.6736633603718165,
      "learning_rate": 1.6979091384965294e-05,
      "loss": 0.936,
      "step": 4504
    },
    {
      "epoch": 0.27655851929156816,
      "grad_norm": 0.6386475616553945,
      "learning_rate": 1.6977667218116572e-05,
      "loss": 0.9171,
      "step": 4505
    },
    {
      "epoch": 0.2766199085300347,
      "grad_norm": 0.7372343435239984,
      "learning_rate": 1.6976242775403342e-05,
      "loss": 1.02,
      "step": 4506
    },
    {
      "epoch": 0.2766812977685012,
      "grad_norm": 0.7306001032591337,
      "learning_rate": 1.6974818056881926e-05,
      "loss": 0.9751,
      "step": 4507
    },
    {
      "epoch": 0.2767426870069677,
      "grad_norm": 0.6875321426850981,
      "learning_rate": 1.6973393062608647e-05,
      "loss": 0.9559,
      "step": 4508
    },
    {
      "epoch": 0.2768040762454342,
      "grad_norm": 0.724926260536874,
      "learning_rate": 1.6971967792639845e-05,
      "loss": 0.9679,
      "step": 4509
    },
    {
      "epoch": 0.2768654654839007,
      "grad_norm": 0.6344809286239261,
      "learning_rate": 1.6970542247031868e-05,
      "loss": 0.8946,
      "step": 4510
    },
    {
      "epoch": 0.27692685472236717,
      "grad_norm": 0.7285760200741589,
      "learning_rate": 1.6969116425841075e-05,
      "loss": 1.0038,
      "step": 4511
    },
    {
      "epoch": 0.27698824396083366,
      "grad_norm": 0.6505181070186832,
      "learning_rate": 1.6967690329123833e-05,
      "loss": 0.9295,
      "step": 4512
    },
    {
      "epoch": 0.27704963319930015,
      "grad_norm": 0.7158383595995466,
      "learning_rate": 1.696626395693653e-05,
      "loss": 0.9881,
      "step": 4513
    },
    {
      "epoch": 0.27711102243776664,
      "grad_norm": 0.6734171365972442,
      "learning_rate": 1.6964837309335553e-05,
      "loss": 0.6797,
      "step": 4514
    },
    {
      "epoch": 0.27717241167623313,
      "grad_norm": 0.6425378480867101,
      "learning_rate": 1.6963410386377306e-05,
      "loss": 0.9512,
      "step": 4515
    },
    {
      "epoch": 0.2772338009146997,
      "grad_norm": 0.6694756991579005,
      "learning_rate": 1.6961983188118206e-05,
      "loss": 1.004,
      "step": 4516
    },
    {
      "epoch": 0.27729519015316617,
      "grad_norm": 0.6876537978316406,
      "learning_rate": 1.6960555714614672e-05,
      "loss": 0.9731,
      "step": 4517
    },
    {
      "epoch": 0.27735657939163266,
      "grad_norm": 0.6093279681209794,
      "learning_rate": 1.6959127965923144e-05,
      "loss": 0.9581,
      "step": 4518
    },
    {
      "epoch": 0.27741796863009915,
      "grad_norm": 0.6649552160496712,
      "learning_rate": 1.695769994210007e-05,
      "loss": 0.9675,
      "step": 4519
    },
    {
      "epoch": 0.27747935786856565,
      "grad_norm": 0.6586352433676173,
      "learning_rate": 1.69562716432019e-05,
      "loss": 0.9342,
      "step": 4520
    },
    {
      "epoch": 0.27754074710703214,
      "grad_norm": 0.683229447784096,
      "learning_rate": 1.6954843069285113e-05,
      "loss": 0.9898,
      "step": 4521
    },
    {
      "epoch": 0.27760213634549863,
      "grad_norm": 0.6593254423911192,
      "learning_rate": 1.6953414220406177e-05,
      "loss": 0.9404,
      "step": 4522
    },
    {
      "epoch": 0.2776635255839651,
      "grad_norm": 0.7006611330922917,
      "learning_rate": 1.695198509662159e-05,
      "loss": 1.0127,
      "step": 4523
    },
    {
      "epoch": 0.2777249148224316,
      "grad_norm": 0.6637120805532344,
      "learning_rate": 1.695055569798785e-05,
      "loss": 0.9593,
      "step": 4524
    },
    {
      "epoch": 0.2777863040608981,
      "grad_norm": 0.6615237935255899,
      "learning_rate": 1.694912602456147e-05,
      "loss": 0.9199,
      "step": 4525
    },
    {
      "epoch": 0.2778476932993646,
      "grad_norm": 0.6866856691251163,
      "learning_rate": 1.6947696076398973e-05,
      "loss": 0.9386,
      "step": 4526
    },
    {
      "epoch": 0.27790908253783114,
      "grad_norm": 0.7298921667863837,
      "learning_rate": 1.6946265853556888e-05,
      "loss": 0.9846,
      "step": 4527
    },
    {
      "epoch": 0.27797047177629763,
      "grad_norm": 0.6322291980534058,
      "learning_rate": 1.6944835356091763e-05,
      "loss": 0.9337,
      "step": 4528
    },
    {
      "epoch": 0.2780318610147641,
      "grad_norm": 0.6822942316839694,
      "learning_rate": 1.6943404584060156e-05,
      "loss": 0.979,
      "step": 4529
    },
    {
      "epoch": 0.2780932502532306,
      "grad_norm": 0.6671319349126549,
      "learning_rate": 1.6941973537518625e-05,
      "loss": 0.9453,
      "step": 4530
    },
    {
      "epoch": 0.2781546394916971,
      "grad_norm": 0.7105209138647853,
      "learning_rate": 1.6940542216523752e-05,
      "loss": 0.9673,
      "step": 4531
    },
    {
      "epoch": 0.2782160287301636,
      "grad_norm": 0.6426928020072529,
      "learning_rate": 1.693911062113213e-05,
      "loss": 0.9375,
      "step": 4532
    },
    {
      "epoch": 0.2782774179686301,
      "grad_norm": 0.5968720404582769,
      "learning_rate": 1.6937678751400344e-05,
      "loss": 0.9262,
      "step": 4533
    },
    {
      "epoch": 0.2783388072070966,
      "grad_norm": 0.6385141633751688,
      "learning_rate": 1.693624660738502e-05,
      "loss": 0.9184,
      "step": 4534
    },
    {
      "epoch": 0.2784001964455631,
      "grad_norm": 0.6606205418679376,
      "learning_rate": 1.6934814189142766e-05,
      "loss": 0.9379,
      "step": 4535
    },
    {
      "epoch": 0.27846158568402957,
      "grad_norm": 0.6606664174335526,
      "learning_rate": 1.6933381496730218e-05,
      "loss": 0.9345,
      "step": 4536
    },
    {
      "epoch": 0.2785229749224961,
      "grad_norm": 0.647561266641813,
      "learning_rate": 1.6931948530204018e-05,
      "loss": 0.9564,
      "step": 4537
    },
    {
      "epoch": 0.2785843641609626,
      "grad_norm": 0.700878667291816,
      "learning_rate": 1.6930515289620813e-05,
      "loss": 0.9935,
      "step": 4538
    },
    {
      "epoch": 0.2786457533994291,
      "grad_norm": 0.6870096418424689,
      "learning_rate": 1.6929081775037276e-05,
      "loss": 1.0083,
      "step": 4539
    },
    {
      "epoch": 0.2787071426378956,
      "grad_norm": 0.7337048896816241,
      "learning_rate": 1.6927647986510077e-05,
      "loss": 0.9878,
      "step": 4540
    },
    {
      "epoch": 0.2787685318763621,
      "grad_norm": 0.6088577913403892,
      "learning_rate": 1.69262139240959e-05,
      "loss": 0.9002,
      "step": 4541
    },
    {
      "epoch": 0.27882992111482857,
      "grad_norm": 0.6855171760551626,
      "learning_rate": 1.6924779587851447e-05,
      "loss": 0.9782,
      "step": 4542
    },
    {
      "epoch": 0.27889131035329506,
      "grad_norm": 0.6619068415302214,
      "learning_rate": 1.6923344977833413e-05,
      "loss": 0.933,
      "step": 4543
    },
    {
      "epoch": 0.27895269959176155,
      "grad_norm": 0.6519218608972172,
      "learning_rate": 1.692191009409853e-05,
      "loss": 0.9346,
      "step": 4544
    },
    {
      "epoch": 0.27901408883022805,
      "grad_norm": 0.6567408490098167,
      "learning_rate": 1.6920474936703515e-05,
      "loss": 0.959,
      "step": 4545
    },
    {
      "epoch": 0.27907547806869454,
      "grad_norm": 0.7522063461036314,
      "learning_rate": 1.6919039505705116e-05,
      "loss": 1.0459,
      "step": 4546
    },
    {
      "epoch": 0.27913686730716103,
      "grad_norm": 0.6465071443383896,
      "learning_rate": 1.6917603801160076e-05,
      "loss": 0.9058,
      "step": 4547
    },
    {
      "epoch": 0.2791982565456276,
      "grad_norm": 0.71509531972908,
      "learning_rate": 1.6916167823125163e-05,
      "loss": 0.7913,
      "step": 4548
    },
    {
      "epoch": 0.27925964578409407,
      "grad_norm": 0.6270368224434125,
      "learning_rate": 1.6914731571657146e-05,
      "loss": 0.8914,
      "step": 4549
    },
    {
      "epoch": 0.27932103502256056,
      "grad_norm": 0.665811911101085,
      "learning_rate": 1.6913295046812806e-05,
      "loss": 1.0578,
      "step": 4550
    },
    {
      "epoch": 0.27938242426102705,
      "grad_norm": 0.665907228776672,
      "learning_rate": 1.691185824864894e-05,
      "loss": 0.9714,
      "step": 4551
    },
    {
      "epoch": 0.27944381349949354,
      "grad_norm": 0.6340840130408075,
      "learning_rate": 1.6910421177222346e-05,
      "loss": 0.9181,
      "step": 4552
    },
    {
      "epoch": 0.27950520273796003,
      "grad_norm": 0.6680263643757539,
      "learning_rate": 1.6908983832589843e-05,
      "loss": 0.9258,
      "step": 4553
    },
    {
      "epoch": 0.2795665919764265,
      "grad_norm": 0.7438692467327364,
      "learning_rate": 1.6907546214808263e-05,
      "loss": 0.9785,
      "step": 4554
    },
    {
      "epoch": 0.279627981214893,
      "grad_norm": 0.6156360454350248,
      "learning_rate": 1.6906108323934434e-05,
      "loss": 0.9096,
      "step": 4555
    },
    {
      "epoch": 0.2796893704533595,
      "grad_norm": 0.653263312255218,
      "learning_rate": 1.6904670160025207e-05,
      "loss": 0.9784,
      "step": 4556
    },
    {
      "epoch": 0.279750759691826,
      "grad_norm": 0.6602893325449041,
      "learning_rate": 1.6903231723137437e-05,
      "loss": 0.9908,
      "step": 4557
    },
    {
      "epoch": 0.2798121489302925,
      "grad_norm": 0.6490193538587756,
      "learning_rate": 1.6901793013327998e-05,
      "loss": 0.9909,
      "step": 4558
    },
    {
      "epoch": 0.27987353816875904,
      "grad_norm": 0.6412186705245008,
      "learning_rate": 1.690035403065377e-05,
      "loss": 0.9599,
      "step": 4559
    },
    {
      "epoch": 0.27993492740722553,
      "grad_norm": 0.7042196638116704,
      "learning_rate": 1.689891477517164e-05,
      "loss": 0.9809,
      "step": 4560
    },
    {
      "epoch": 0.279996316645692,
      "grad_norm": 0.680561092352415,
      "learning_rate": 1.6897475246938507e-05,
      "loss": 0.9658,
      "step": 4561
    },
    {
      "epoch": 0.2800577058841585,
      "grad_norm": 0.6839552883600424,
      "learning_rate": 1.689603544601129e-05,
      "loss": 1.0181,
      "step": 4562
    },
    {
      "epoch": 0.280119095122625,
      "grad_norm": 0.6418486673532151,
      "learning_rate": 1.6894595372446915e-05,
      "loss": 0.967,
      "step": 4563
    },
    {
      "epoch": 0.2801804843610915,
      "grad_norm": 0.6676748526109084,
      "learning_rate": 1.68931550263023e-05,
      "loss": 0.9489,
      "step": 4564
    },
    {
      "epoch": 0.280241873599558,
      "grad_norm": 0.6405390794269914,
      "learning_rate": 1.6891714407634404e-05,
      "loss": 0.941,
      "step": 4565
    },
    {
      "epoch": 0.2803032628380245,
      "grad_norm": 0.66768896054529,
      "learning_rate": 1.6890273516500182e-05,
      "loss": 0.9446,
      "step": 4566
    },
    {
      "epoch": 0.28036465207649097,
      "grad_norm": 0.6433931526705575,
      "learning_rate": 1.6888832352956594e-05,
      "loss": 0.9633,
      "step": 4567
    },
    {
      "epoch": 0.28042604131495746,
      "grad_norm": 0.6610971689107358,
      "learning_rate": 1.6887390917060616e-05,
      "loss": 0.9743,
      "step": 4568
    },
    {
      "epoch": 0.280487430553424,
      "grad_norm": 0.693950344816416,
      "learning_rate": 1.688594920886924e-05,
      "loss": 0.9748,
      "step": 4569
    },
    {
      "epoch": 0.2805488197918905,
      "grad_norm": 0.7026790708034829,
      "learning_rate": 1.6884507228439463e-05,
      "loss": 0.968,
      "step": 4570
    },
    {
      "epoch": 0.280610209030357,
      "grad_norm": 0.655716577206835,
      "learning_rate": 1.6883064975828297e-05,
      "loss": 0.994,
      "step": 4571
    },
    {
      "epoch": 0.2806715982688235,
      "grad_norm": 0.6757882617292246,
      "learning_rate": 1.6881622451092754e-05,
      "loss": 0.9083,
      "step": 4572
    },
    {
      "epoch": 0.28073298750729,
      "grad_norm": 0.676127098711851,
      "learning_rate": 1.6880179654289876e-05,
      "loss": 0.9801,
      "step": 4573
    },
    {
      "epoch": 0.28079437674575647,
      "grad_norm": 0.5941627337435764,
      "learning_rate": 1.6878736585476695e-05,
      "loss": 0.9423,
      "step": 4574
    },
    {
      "epoch": 0.28085576598422296,
      "grad_norm": 0.6702469178118574,
      "learning_rate": 1.6877293244710267e-05,
      "loss": 0.935,
      "step": 4575
    },
    {
      "epoch": 0.28091715522268945,
      "grad_norm": 0.6756013003134557,
      "learning_rate": 1.6875849632047653e-05,
      "loss": 1.016,
      "step": 4576
    },
    {
      "epoch": 0.28097854446115594,
      "grad_norm": 0.669147641985828,
      "learning_rate": 1.687440574754593e-05,
      "loss": 0.9585,
      "step": 4577
    },
    {
      "epoch": 0.28103993369962244,
      "grad_norm": 0.6932307311484303,
      "learning_rate": 1.687296159126218e-05,
      "loss": 0.955,
      "step": 4578
    },
    {
      "epoch": 0.2811013229380889,
      "grad_norm": 0.6730108162130504,
      "learning_rate": 1.6871517163253504e-05,
      "loss": 0.942,
      "step": 4579
    },
    {
      "epoch": 0.2811627121765555,
      "grad_norm": 0.684388012956444,
      "learning_rate": 1.6870072463576995e-05,
      "loss": 0.9875,
      "step": 4580
    },
    {
      "epoch": 0.28122410141502197,
      "grad_norm": 0.712783308898785,
      "learning_rate": 1.6868627492289786e-05,
      "loss": 0.9627,
      "step": 4581
    },
    {
      "epoch": 0.28128549065348846,
      "grad_norm": 0.7120817641227035,
      "learning_rate": 1.686718224944899e-05,
      "loss": 0.9977,
      "step": 4582
    },
    {
      "epoch": 0.28134687989195495,
      "grad_norm": 0.7004602571382065,
      "learning_rate": 1.6865736735111755e-05,
      "loss": 1.0349,
      "step": 4583
    },
    {
      "epoch": 0.28140826913042144,
      "grad_norm": 0.6180105148510918,
      "learning_rate": 1.6864290949335225e-05,
      "loss": 0.9779,
      "step": 4584
    },
    {
      "epoch": 0.28146965836888793,
      "grad_norm": 0.6372846046630467,
      "learning_rate": 1.686284489217656e-05,
      "loss": 0.9644,
      "step": 4585
    },
    {
      "epoch": 0.2815310476073544,
      "grad_norm": 0.6230645904217134,
      "learning_rate": 1.6861398563692934e-05,
      "loss": 0.9466,
      "step": 4586
    },
    {
      "epoch": 0.2815924368458209,
      "grad_norm": 0.728616273980487,
      "learning_rate": 1.6859951963941523e-05,
      "loss": 1.0248,
      "step": 4587
    },
    {
      "epoch": 0.2816538260842874,
      "grad_norm": 0.6864741177013073,
      "learning_rate": 1.6858505092979523e-05,
      "loss": 1.004,
      "step": 4588
    },
    {
      "epoch": 0.2817152153227539,
      "grad_norm": 0.6890869632212003,
      "learning_rate": 1.6857057950864134e-05,
      "loss": 0.9285,
      "step": 4589
    },
    {
      "epoch": 0.28177660456122045,
      "grad_norm": 0.6469880784502678,
      "learning_rate": 1.685561053765257e-05,
      "loss": 0.9774,
      "step": 4590
    },
    {
      "epoch": 0.28183799379968694,
      "grad_norm": 0.621827517048206,
      "learning_rate": 1.6854162853402054e-05,
      "loss": 0.9656,
      "step": 4591
    },
    {
      "epoch": 0.28189938303815343,
      "grad_norm": 0.6342995056011751,
      "learning_rate": 1.6852714898169824e-05,
      "loss": 0.906,
      "step": 4592
    },
    {
      "epoch": 0.2819607722766199,
      "grad_norm": 0.679423246223174,
      "learning_rate": 1.685126667201312e-05,
      "loss": 0.9367,
      "step": 4593
    },
    {
      "epoch": 0.2820221615150864,
      "grad_norm": 0.6577675154558252,
      "learning_rate": 1.6849818174989202e-05,
      "loss": 0.947,
      "step": 4594
    },
    {
      "epoch": 0.2820835507535529,
      "grad_norm": 0.6295201430930942,
      "learning_rate": 1.684836940715534e-05,
      "loss": 0.9735,
      "step": 4595
    },
    {
      "epoch": 0.2821449399920194,
      "grad_norm": 0.6177979094456378,
      "learning_rate": 1.6846920368568804e-05,
      "loss": 0.9288,
      "step": 4596
    },
    {
      "epoch": 0.2822063292304859,
      "grad_norm": 0.6109877962308738,
      "learning_rate": 1.684547105928689e-05,
      "loss": 0.7412,
      "step": 4597
    },
    {
      "epoch": 0.2822677184689524,
      "grad_norm": 0.6868758541222126,
      "learning_rate": 1.6844021479366886e-05,
      "loss": 1.012,
      "step": 4598
    },
    {
      "epoch": 0.28232910770741887,
      "grad_norm": 0.6940515219219535,
      "learning_rate": 1.6842571628866114e-05,
      "loss": 0.9806,
      "step": 4599
    },
    {
      "epoch": 0.28239049694588536,
      "grad_norm": 0.684102384560728,
      "learning_rate": 1.6841121507841888e-05,
      "loss": 0.9853,
      "step": 4600
    },
    {
      "epoch": 0.2824518861843519,
      "grad_norm": 0.6770694850571932,
      "learning_rate": 1.683967111635154e-05,
      "loss": 0.9712,
      "step": 4601
    },
    {
      "epoch": 0.2825132754228184,
      "grad_norm": 0.6303751593261794,
      "learning_rate": 1.6838220454452413e-05,
      "loss": 0.9391,
      "step": 4602
    },
    {
      "epoch": 0.2825746646612849,
      "grad_norm": 0.6185959938694391,
      "learning_rate": 1.6836769522201853e-05,
      "loss": 0.9291,
      "step": 4603
    },
    {
      "epoch": 0.2826360538997514,
      "grad_norm": 0.6917176583530554,
      "learning_rate": 1.683531831965723e-05,
      "loss": 0.9957,
      "step": 4604
    },
    {
      "epoch": 0.2826974431382179,
      "grad_norm": 0.6349676579098963,
      "learning_rate": 1.6833866846875916e-05,
      "loss": 0.9399,
      "step": 4605
    },
    {
      "epoch": 0.28275883237668437,
      "grad_norm": 0.6050222978760997,
      "learning_rate": 1.68324151039153e-05,
      "loss": 0.7653,
      "step": 4606
    },
    {
      "epoch": 0.28282022161515086,
      "grad_norm": 0.6412262467590597,
      "learning_rate": 1.6830963090832768e-05,
      "loss": 0.977,
      "step": 4607
    },
    {
      "epoch": 0.28288161085361735,
      "grad_norm": 0.6879659203976964,
      "learning_rate": 1.6829510807685735e-05,
      "loss": 0.9769,
      "step": 4608
    },
    {
      "epoch": 0.28294300009208384,
      "grad_norm": 0.6674897691737893,
      "learning_rate": 1.6828058254531606e-05,
      "loss": 0.9324,
      "step": 4609
    },
    {
      "epoch": 0.28300438933055033,
      "grad_norm": 0.5896856992864199,
      "learning_rate": 1.682660543142782e-05,
      "loss": 0.9514,
      "step": 4610
    },
    {
      "epoch": 0.2830657785690168,
      "grad_norm": 0.579396910255958,
      "learning_rate": 1.682515233843181e-05,
      "loss": 0.8761,
      "step": 4611
    },
    {
      "epoch": 0.28312716780748337,
      "grad_norm": 0.6885942461925649,
      "learning_rate": 1.682369897560102e-05,
      "loss": 0.9524,
      "step": 4612
    },
    {
      "epoch": 0.28318855704594986,
      "grad_norm": 0.655871339635009,
      "learning_rate": 1.6822245342992917e-05,
      "loss": 0.9288,
      "step": 4613
    },
    {
      "epoch": 0.28324994628441635,
      "grad_norm": 0.6725623929613189,
      "learning_rate": 1.682079144066497e-05,
      "loss": 0.9698,
      "step": 4614
    },
    {
      "epoch": 0.28331133552288285,
      "grad_norm": 0.6848159937233622,
      "learning_rate": 1.6819337268674654e-05,
      "loss": 0.9987,
      "step": 4615
    },
    {
      "epoch": 0.28337272476134934,
      "grad_norm": 0.6531436329840812,
      "learning_rate": 1.6817882827079464e-05,
      "loss": 0.9125,
      "step": 4616
    },
    {
      "epoch": 0.28343411399981583,
      "grad_norm": 0.6323478473387094,
      "learning_rate": 1.6816428115936903e-05,
      "loss": 0.8831,
      "step": 4617
    },
    {
      "epoch": 0.2834955032382823,
      "grad_norm": 0.695245019348433,
      "learning_rate": 1.681497313530448e-05,
      "loss": 0.9883,
      "step": 4618
    },
    {
      "epoch": 0.2835568924767488,
      "grad_norm": 0.7225173983491484,
      "learning_rate": 1.6813517885239718e-05,
      "loss": 0.9787,
      "step": 4619
    },
    {
      "epoch": 0.2836182817152153,
      "grad_norm": 0.6314116394164522,
      "learning_rate": 1.6812062365800157e-05,
      "loss": 0.9134,
      "step": 4620
    },
    {
      "epoch": 0.2836796709536818,
      "grad_norm": 0.6665080137425331,
      "learning_rate": 1.6810606577043334e-05,
      "loss": 0.9264,
      "step": 4621
    },
    {
      "epoch": 0.28374106019214834,
      "grad_norm": 0.6420706266434724,
      "learning_rate": 1.6809150519026813e-05,
      "loss": 0.9564,
      "step": 4622
    },
    {
      "epoch": 0.28380244943061483,
      "grad_norm": 0.5834386057685501,
      "learning_rate": 1.680769419180815e-05,
      "loss": 0.7426,
      "step": 4623
    },
    {
      "epoch": 0.2838638386690813,
      "grad_norm": 0.7063320780962029,
      "learning_rate": 1.680623759544492e-05,
      "loss": 0.9719,
      "step": 4624
    },
    {
      "epoch": 0.2839252279075478,
      "grad_norm": 0.7024695329551603,
      "learning_rate": 1.6804780729994723e-05,
      "loss": 0.9514,
      "step": 4625
    },
    {
      "epoch": 0.2839866171460143,
      "grad_norm": 0.6642265662644817,
      "learning_rate": 1.6803323595515145e-05,
      "loss": 0.9495,
      "step": 4626
    },
    {
      "epoch": 0.2840480063844808,
      "grad_norm": 0.6392505767570064,
      "learning_rate": 1.6801866192063802e-05,
      "loss": 0.9389,
      "step": 4627
    },
    {
      "epoch": 0.2841093956229473,
      "grad_norm": 0.6177340936279732,
      "learning_rate": 1.680040851969831e-05,
      "loss": 0.8775,
      "step": 4628
    },
    {
      "epoch": 0.2841707848614138,
      "grad_norm": 0.5924144611894047,
      "learning_rate": 1.6798950578476296e-05,
      "loss": 0.9429,
      "step": 4629
    },
    {
      "epoch": 0.2842321740998803,
      "grad_norm": 0.6354092632419276,
      "learning_rate": 1.6797492368455403e-05,
      "loss": 0.9459,
      "step": 4630
    },
    {
      "epoch": 0.28429356333834677,
      "grad_norm": 0.6947491324724244,
      "learning_rate": 1.6796033889693277e-05,
      "loss": 0.9455,
      "step": 4631
    },
    {
      "epoch": 0.28435495257681326,
      "grad_norm": 0.6494891463173192,
      "learning_rate": 1.6794575142247588e-05,
      "loss": 0.9619,
      "step": 4632
    },
    {
      "epoch": 0.2844163418152798,
      "grad_norm": 0.7004518958826892,
      "learning_rate": 1.6793116126176004e-05,
      "loss": 0.937,
      "step": 4633
    },
    {
      "epoch": 0.2844777310537463,
      "grad_norm": 0.6411774549068057,
      "learning_rate": 1.6791656841536205e-05,
      "loss": 0.956,
      "step": 4634
    },
    {
      "epoch": 0.2845391202922128,
      "grad_norm": 0.6218971279759318,
      "learning_rate": 1.679019728838589e-05,
      "loss": 0.9299,
      "step": 4635
    },
    {
      "epoch": 0.2846005095306793,
      "grad_norm": 0.6410956243212123,
      "learning_rate": 1.6788737466782756e-05,
      "loss": 0.9146,
      "step": 4636
    },
    {
      "epoch": 0.28466189876914577,
      "grad_norm": 0.6948313621783305,
      "learning_rate": 1.6787277376784522e-05,
      "loss": 0.9364,
      "step": 4637
    },
    {
      "epoch": 0.28472328800761226,
      "grad_norm": 0.7173662680927693,
      "learning_rate": 1.6785817018448914e-05,
      "loss": 1.0122,
      "step": 4638
    },
    {
      "epoch": 0.28478467724607875,
      "grad_norm": 0.6916156218324728,
      "learning_rate": 1.6784356391833665e-05,
      "loss": 1.0089,
      "step": 4639
    },
    {
      "epoch": 0.28484606648454525,
      "grad_norm": 0.6695395580842463,
      "learning_rate": 1.6782895496996522e-05,
      "loss": 0.9803,
      "step": 4640
    },
    {
      "epoch": 0.28490745572301174,
      "grad_norm": 0.6744096269342781,
      "learning_rate": 1.6781434333995243e-05,
      "loss": 0.968,
      "step": 4641
    },
    {
      "epoch": 0.28496884496147823,
      "grad_norm": 0.5786462266403395,
      "learning_rate": 1.6779972902887596e-05,
      "loss": 0.9307,
      "step": 4642
    },
    {
      "epoch": 0.2850302341999448,
      "grad_norm": 0.6622627028253119,
      "learning_rate": 1.677851120373136e-05,
      "loss": 0.9379,
      "step": 4643
    },
    {
      "epoch": 0.28509162343841127,
      "grad_norm": 0.6017421074195549,
      "learning_rate": 1.6777049236584318e-05,
      "loss": 0.8892,
      "step": 4644
    },
    {
      "epoch": 0.28515301267687776,
      "grad_norm": 0.6648076045252168,
      "learning_rate": 1.6775587001504277e-05,
      "loss": 0.944,
      "step": 4645
    },
    {
      "epoch": 0.28521440191534425,
      "grad_norm": 0.7458459394267923,
      "learning_rate": 1.677412449854904e-05,
      "loss": 0.9649,
      "step": 4646
    },
    {
      "epoch": 0.28527579115381074,
      "grad_norm": 0.6442542483554597,
      "learning_rate": 1.6772661727776434e-05,
      "loss": 0.9757,
      "step": 4647
    },
    {
      "epoch": 0.28533718039227723,
      "grad_norm": 0.6897287382625648,
      "learning_rate": 1.6771198689244286e-05,
      "loss": 1.0182,
      "step": 4648
    },
    {
      "epoch": 0.2853985696307437,
      "grad_norm": 0.63014641367353,
      "learning_rate": 1.676973538301044e-05,
      "loss": 0.9171,
      "step": 4649
    },
    {
      "epoch": 0.2854599588692102,
      "grad_norm": 0.6769699114016752,
      "learning_rate": 1.6768271809132747e-05,
      "loss": 0.9794,
      "step": 4650
    },
    {
      "epoch": 0.2855213481076767,
      "grad_norm": 0.6586983366369661,
      "learning_rate": 1.6766807967669066e-05,
      "loss": 0.9646,
      "step": 4651
    },
    {
      "epoch": 0.2855827373461432,
      "grad_norm": 0.7065641443207098,
      "learning_rate": 1.676534385867728e-05,
      "loss": 0.9485,
      "step": 4652
    },
    {
      "epoch": 0.2856441265846097,
      "grad_norm": 0.6863802814079015,
      "learning_rate": 1.6763879482215264e-05,
      "loss": 0.9763,
      "step": 4653
    },
    {
      "epoch": 0.28570551582307624,
      "grad_norm": 0.6272146843753157,
      "learning_rate": 1.6762414838340918e-05,
      "loss": 0.9285,
      "step": 4654
    },
    {
      "epoch": 0.28576690506154273,
      "grad_norm": 0.6690954185574155,
      "learning_rate": 1.6760949927112148e-05,
      "loss": 0.9568,
      "step": 4655
    },
    {
      "epoch": 0.2858282943000092,
      "grad_norm": 0.6299902161136118,
      "learning_rate": 1.6759484748586862e-05,
      "loss": 0.8932,
      "step": 4656
    },
    {
      "epoch": 0.2858896835384757,
      "grad_norm": 0.6778831364065719,
      "learning_rate": 1.6758019302822993e-05,
      "loss": 1.0208,
      "step": 4657
    },
    {
      "epoch": 0.2859510727769422,
      "grad_norm": 0.6282316050620831,
      "learning_rate": 1.675655358987848e-05,
      "loss": 0.9196,
      "step": 4658
    },
    {
      "epoch": 0.2860124620154087,
      "grad_norm": 0.6648143236704891,
      "learning_rate": 1.675508760981126e-05,
      "loss": 0.9481,
      "step": 4659
    },
    {
      "epoch": 0.2860738512538752,
      "grad_norm": 0.6646646507216873,
      "learning_rate": 1.6753621362679307e-05,
      "loss": 0.9557,
      "step": 4660
    },
    {
      "epoch": 0.2861352404923417,
      "grad_norm": 0.6749344092953836,
      "learning_rate": 1.6752154848540577e-05,
      "loss": 1.0119,
      "step": 4661
    },
    {
      "epoch": 0.28619662973080817,
      "grad_norm": 0.6656472594723587,
      "learning_rate": 1.6750688067453048e-05,
      "loss": 0.9251,
      "step": 4662
    },
    {
      "epoch": 0.28625801896927466,
      "grad_norm": 0.6511142981675468,
      "learning_rate": 1.674922101947472e-05,
      "loss": 0.9282,
      "step": 4663
    },
    {
      "epoch": 0.2863194082077412,
      "grad_norm": 0.6828385141976154,
      "learning_rate": 1.6747753704663586e-05,
      "loss": 0.9663,
      "step": 4664
    },
    {
      "epoch": 0.2863807974462077,
      "grad_norm": 0.6859040577994864,
      "learning_rate": 1.674628612307766e-05,
      "loss": 0.9501,
      "step": 4665
    },
    {
      "epoch": 0.2864421866846742,
      "grad_norm": 0.6883559530420434,
      "learning_rate": 1.6744818274774962e-05,
      "loss": 0.9345,
      "step": 4666
    },
    {
      "epoch": 0.2865035759231407,
      "grad_norm": 0.6391862036220894,
      "learning_rate": 1.674335015981352e-05,
      "loss": 0.9144,
      "step": 4667
    },
    {
      "epoch": 0.2865649651616072,
      "grad_norm": 0.7189354405249838,
      "learning_rate": 1.6741881778251383e-05,
      "loss": 1.0059,
      "step": 4668
    },
    {
      "epoch": 0.28662635440007367,
      "grad_norm": 0.6084689769507252,
      "learning_rate": 1.67404131301466e-05,
      "loss": 0.8941,
      "step": 4669
    },
    {
      "epoch": 0.28668774363854016,
      "grad_norm": 0.6383760006096348,
      "learning_rate": 1.673894421555724e-05,
      "loss": 0.9775,
      "step": 4670
    },
    {
      "epoch": 0.28674913287700665,
      "grad_norm": 0.5796383771503942,
      "learning_rate": 1.673747503454137e-05,
      "loss": 0.9594,
      "step": 4671
    },
    {
      "epoch": 0.28681052211547314,
      "grad_norm": 0.7238957780907447,
      "learning_rate": 1.6736005587157077e-05,
      "loss": 1.0293,
      "step": 4672
    },
    {
      "epoch": 0.28687191135393963,
      "grad_norm": 0.6909194356186033,
      "learning_rate": 1.6734535873462455e-05,
      "loss": 0.9803,
      "step": 4673
    },
    {
      "epoch": 0.2869333005924061,
      "grad_norm": 0.599728094563081,
      "learning_rate": 1.6733065893515613e-05,
      "loss": 0.8949,
      "step": 4674
    },
    {
      "epoch": 0.2869946898308727,
      "grad_norm": 0.6523427996050893,
      "learning_rate": 1.6731595647374665e-05,
      "loss": 0.9502,
      "step": 4675
    },
    {
      "epoch": 0.28705607906933917,
      "grad_norm": 0.6715955085180849,
      "learning_rate": 1.6730125135097736e-05,
      "loss": 0.9613,
      "step": 4676
    },
    {
      "epoch": 0.28711746830780566,
      "grad_norm": 0.6404264942197735,
      "learning_rate": 1.6728654356742964e-05,
      "loss": 0.9352,
      "step": 4677
    },
    {
      "epoch": 0.28717885754627215,
      "grad_norm": 0.6611724204784742,
      "learning_rate": 1.6727183312368504e-05,
      "loss": 0.9323,
      "step": 4678
    },
    {
      "epoch": 0.28724024678473864,
      "grad_norm": 0.6801094164052799,
      "learning_rate": 1.67257120020325e-05,
      "loss": 0.9523,
      "step": 4679
    },
    {
      "epoch": 0.28730163602320513,
      "grad_norm": 0.6993765934065136,
      "learning_rate": 1.6724240425793137e-05,
      "loss": 0.9437,
      "step": 4680
    },
    {
      "epoch": 0.2873630252616716,
      "grad_norm": 0.748019333114987,
      "learning_rate": 1.6722768583708582e-05,
      "loss": 0.9775,
      "step": 4681
    },
    {
      "epoch": 0.2874244145001381,
      "grad_norm": 0.7267329209336784,
      "learning_rate": 1.672129647583703e-05,
      "loss": 0.9625,
      "step": 4682
    },
    {
      "epoch": 0.2874858037386046,
      "grad_norm": 0.6407897528955795,
      "learning_rate": 1.6719824102236678e-05,
      "loss": 0.9233,
      "step": 4683
    },
    {
      "epoch": 0.2875471929770711,
      "grad_norm": 0.6336458916178955,
      "learning_rate": 1.6718351462965744e-05,
      "loss": 0.9386,
      "step": 4684
    },
    {
      "epoch": 0.2876085822155376,
      "grad_norm": 0.709538861219344,
      "learning_rate": 1.6716878558082442e-05,
      "loss": 0.9702,
      "step": 4685
    },
    {
      "epoch": 0.28766997145400414,
      "grad_norm": 0.6701155290273655,
      "learning_rate": 1.6715405387645004e-05,
      "loss": 0.9531,
      "step": 4686
    },
    {
      "epoch": 0.28773136069247063,
      "grad_norm": 0.6206514307789263,
      "learning_rate": 1.671393195171168e-05,
      "loss": 0.8967,
      "step": 4687
    },
    {
      "epoch": 0.2877927499309371,
      "grad_norm": 0.647783600162223,
      "learning_rate": 1.671245825034071e-05,
      "loss": 0.9423,
      "step": 4688
    },
    {
      "epoch": 0.2878541391694036,
      "grad_norm": 0.7514140830860117,
      "learning_rate": 1.671098428359037e-05,
      "loss": 0.9894,
      "step": 4689
    },
    {
      "epoch": 0.2879155284078701,
      "grad_norm": 0.6712961772468916,
      "learning_rate": 1.6709510051518926e-05,
      "loss": 0.9288,
      "step": 4690
    },
    {
      "epoch": 0.2879769176463366,
      "grad_norm": 0.5925300078699425,
      "learning_rate": 1.6708035554184664e-05,
      "loss": 0.918,
      "step": 4691
    },
    {
      "epoch": 0.2880383068848031,
      "grad_norm": 0.6245789747869578,
      "learning_rate": 1.6706560791645884e-05,
      "loss": 0.9785,
      "step": 4692
    },
    {
      "epoch": 0.2880996961232696,
      "grad_norm": 0.6085884138062556,
      "learning_rate": 1.670508576396088e-05,
      "loss": 0.9581,
      "step": 4693
    },
    {
      "epoch": 0.28816108536173607,
      "grad_norm": 0.7220848490648574,
      "learning_rate": 1.670361047118798e-05,
      "loss": 0.9679,
      "step": 4694
    },
    {
      "epoch": 0.28822247460020256,
      "grad_norm": 0.6145067773707216,
      "learning_rate": 1.6702134913385504e-05,
      "loss": 0.9448,
      "step": 4695
    },
    {
      "epoch": 0.2882838638386691,
      "grad_norm": 0.6494751570268121,
      "learning_rate": 1.6700659090611785e-05,
      "loss": 0.9773,
      "step": 4696
    },
    {
      "epoch": 0.2883452530771356,
      "grad_norm": 0.633785083241263,
      "learning_rate": 1.669918300292518e-05,
      "loss": 0.9923,
      "step": 4697
    },
    {
      "epoch": 0.2884066423156021,
      "grad_norm": 0.6699898709718263,
      "learning_rate": 1.6697706650384038e-05,
      "loss": 1.0007,
      "step": 4698
    },
    {
      "epoch": 0.2884680315540686,
      "grad_norm": 0.7217880960023133,
      "learning_rate": 1.669623003304673e-05,
      "loss": 0.9722,
      "step": 4699
    },
    {
      "epoch": 0.2885294207925351,
      "grad_norm": 0.7589168723782828,
      "learning_rate": 1.6694753150971635e-05,
      "loss": 0.9976,
      "step": 4700
    },
    {
      "epoch": 0.28859081003100157,
      "grad_norm": 0.6738544443494294,
      "learning_rate": 1.6693276004217143e-05,
      "loss": 0.9408,
      "step": 4701
    },
    {
      "epoch": 0.28865219926946806,
      "grad_norm": 0.6437004962152987,
      "learning_rate": 1.6691798592841653e-05,
      "loss": 0.9467,
      "step": 4702
    },
    {
      "epoch": 0.28871358850793455,
      "grad_norm": 0.6258261300190981,
      "learning_rate": 1.6690320916903573e-05,
      "loss": 0.9505,
      "step": 4703
    },
    {
      "epoch": 0.28877497774640104,
      "grad_norm": 0.6798775525932875,
      "learning_rate": 1.6688842976461327e-05,
      "loss": 0.9505,
      "step": 4704
    },
    {
      "epoch": 0.28883636698486753,
      "grad_norm": 0.6119964266317204,
      "learning_rate": 1.6687364771573337e-05,
      "loss": 0.9248,
      "step": 4705
    },
    {
      "epoch": 0.288897756223334,
      "grad_norm": 0.5827811996209852,
      "learning_rate": 1.6685886302298057e-05,
      "loss": 0.8989,
      "step": 4706
    },
    {
      "epoch": 0.28895914546180057,
      "grad_norm": 0.6730002706074878,
      "learning_rate": 1.668440756869393e-05,
      "loss": 0.9682,
      "step": 4707
    },
    {
      "epoch": 0.28902053470026706,
      "grad_norm": 0.624153288941474,
      "learning_rate": 1.6682928570819426e-05,
      "loss": 0.7849,
      "step": 4708
    },
    {
      "epoch": 0.28908192393873355,
      "grad_norm": 0.5726172616132952,
      "learning_rate": 1.668144930873301e-05,
      "loss": 0.7665,
      "step": 4709
    },
    {
      "epoch": 0.28914331317720005,
      "grad_norm": 0.6693481263279445,
      "learning_rate": 1.6679969782493165e-05,
      "loss": 0.9774,
      "step": 4710
    },
    {
      "epoch": 0.28920470241566654,
      "grad_norm": 0.7201848529939787,
      "learning_rate": 1.667848999215839e-05,
      "loss": 1.0075,
      "step": 4711
    },
    {
      "epoch": 0.28926609165413303,
      "grad_norm": 0.7174754421448545,
      "learning_rate": 1.667700993778719e-05,
      "loss": 0.9304,
      "step": 4712
    },
    {
      "epoch": 0.2893274808925995,
      "grad_norm": 0.6322711134409366,
      "learning_rate": 1.667552961943807e-05,
      "loss": 0.9123,
      "step": 4713
    },
    {
      "epoch": 0.289388870131066,
      "grad_norm": 0.7082126063154058,
      "learning_rate": 1.6674049037169565e-05,
      "loss": 0.9712,
      "step": 4714
    },
    {
      "epoch": 0.2894502593695325,
      "grad_norm": 0.6290474327100911,
      "learning_rate": 1.6672568191040203e-05,
      "loss": 0.9094,
      "step": 4715
    },
    {
      "epoch": 0.289511648607999,
      "grad_norm": 0.6393441624519501,
      "learning_rate": 1.6671087081108536e-05,
      "loss": 1.0018,
      "step": 4716
    },
    {
      "epoch": 0.28957303784646554,
      "grad_norm": 0.7286313285971944,
      "learning_rate": 1.6669605707433113e-05,
      "loss": 1.0266,
      "step": 4717
    },
    {
      "epoch": 0.28963442708493203,
      "grad_norm": 0.6374849423782477,
      "learning_rate": 1.6668124070072508e-05,
      "loss": 0.9734,
      "step": 4718
    },
    {
      "epoch": 0.2896958163233985,
      "grad_norm": 0.6210001438066738,
      "learning_rate": 1.6666642169085295e-05,
      "loss": 0.9273,
      "step": 4719
    },
    {
      "epoch": 0.289757205561865,
      "grad_norm": 0.6849024791245967,
      "learning_rate": 1.6665160004530063e-05,
      "loss": 0.9681,
      "step": 4720
    },
    {
      "epoch": 0.2898185948003315,
      "grad_norm": 0.6475127817745033,
      "learning_rate": 1.6663677576465404e-05,
      "loss": 0.9327,
      "step": 4721
    },
    {
      "epoch": 0.289879984038798,
      "grad_norm": 0.6500191474950678,
      "learning_rate": 1.6662194884949935e-05,
      "loss": 0.9405,
      "step": 4722
    },
    {
      "epoch": 0.2899413732772645,
      "grad_norm": 0.8008314422457179,
      "learning_rate": 1.6660711930042266e-05,
      "loss": 0.9687,
      "step": 4723
    },
    {
      "epoch": 0.290002762515731,
      "grad_norm": 0.7007451921721255,
      "learning_rate": 1.6659228711801035e-05,
      "loss": 0.9748,
      "step": 4724
    },
    {
      "epoch": 0.2900641517541975,
      "grad_norm": 0.6595817132195118,
      "learning_rate": 1.665774523028487e-05,
      "loss": 0.977,
      "step": 4725
    },
    {
      "epoch": 0.29012554099266397,
      "grad_norm": 0.6748950790848977,
      "learning_rate": 1.6656261485552437e-05,
      "loss": 0.9171,
      "step": 4726
    },
    {
      "epoch": 0.29018693023113046,
      "grad_norm": 0.6767134802967196,
      "learning_rate": 1.665477747766238e-05,
      "loss": 0.9862,
      "step": 4727
    },
    {
      "epoch": 0.290248319469597,
      "grad_norm": 0.6741116789500003,
      "learning_rate": 1.665329320667338e-05,
      "loss": 0.9393,
      "step": 4728
    },
    {
      "epoch": 0.2903097087080635,
      "grad_norm": 0.6411544022124763,
      "learning_rate": 1.6651808672644114e-05,
      "loss": 0.9322,
      "step": 4729
    },
    {
      "epoch": 0.29037109794653,
      "grad_norm": 0.6699198424206887,
      "learning_rate": 1.6650323875633277e-05,
      "loss": 0.9524,
      "step": 4730
    },
    {
      "epoch": 0.2904324871849965,
      "grad_norm": 0.670543326522989,
      "learning_rate": 1.664883881569957e-05,
      "loss": 0.8789,
      "step": 4731
    },
    {
      "epoch": 0.29049387642346297,
      "grad_norm": 0.6773480573898768,
      "learning_rate": 1.66473534929017e-05,
      "loss": 0.9516,
      "step": 4732
    },
    {
      "epoch": 0.29055526566192946,
      "grad_norm": 0.6470002471174493,
      "learning_rate": 1.6645867907298395e-05,
      "loss": 0.9482,
      "step": 4733
    },
    {
      "epoch": 0.29061665490039595,
      "grad_norm": 0.6797824340794929,
      "learning_rate": 1.6644382058948387e-05,
      "loss": 0.9957,
      "step": 4734
    },
    {
      "epoch": 0.29067804413886245,
      "grad_norm": 0.6796169835006433,
      "learning_rate": 1.664289594791042e-05,
      "loss": 0.9403,
      "step": 4735
    },
    {
      "epoch": 0.29073943337732894,
      "grad_norm": 0.6077913025086973,
      "learning_rate": 1.6641409574243247e-05,
      "loss": 0.9725,
      "step": 4736
    },
    {
      "epoch": 0.29080082261579543,
      "grad_norm": 0.6838493950920297,
      "learning_rate": 1.6639922938005634e-05,
      "loss": 0.9382,
      "step": 4737
    },
    {
      "epoch": 0.2908622118542619,
      "grad_norm": 0.6133114112736959,
      "learning_rate": 1.663843603925635e-05,
      "loss": 0.9377,
      "step": 4738
    },
    {
      "epoch": 0.29092360109272847,
      "grad_norm": 0.6766798114573537,
      "learning_rate": 1.6636948878054192e-05,
      "loss": 0.9816,
      "step": 4739
    },
    {
      "epoch": 0.29098499033119496,
      "grad_norm": 0.6653621581656567,
      "learning_rate": 1.6635461454457944e-05,
      "loss": 0.9586,
      "step": 4740
    },
    {
      "epoch": 0.29104637956966145,
      "grad_norm": 0.6645261870412199,
      "learning_rate": 1.6633973768526413e-05,
      "loss": 0.9501,
      "step": 4741
    },
    {
      "epoch": 0.29110776880812794,
      "grad_norm": 0.6183803071054618,
      "learning_rate": 1.6632485820318422e-05,
      "loss": 0.9043,
      "step": 4742
    },
    {
      "epoch": 0.29116915804659443,
      "grad_norm": 0.6313039091649952,
      "learning_rate": 1.663099760989279e-05,
      "loss": 0.9561,
      "step": 4743
    },
    {
      "epoch": 0.2912305472850609,
      "grad_norm": 0.6300738566856107,
      "learning_rate": 1.6629509137308363e-05,
      "loss": 0.9465,
      "step": 4744
    },
    {
      "epoch": 0.2912919365235274,
      "grad_norm": 0.6493031702598537,
      "learning_rate": 1.662802040262398e-05,
      "loss": 0.9623,
      "step": 4745
    },
    {
      "epoch": 0.2913533257619939,
      "grad_norm": 0.6882861284178736,
      "learning_rate": 1.66265314058985e-05,
      "loss": 0.9767,
      "step": 4746
    },
    {
      "epoch": 0.2914147150004604,
      "grad_norm": 0.694536399430722,
      "learning_rate": 1.662504214719079e-05,
      "loss": 0.9261,
      "step": 4747
    },
    {
      "epoch": 0.2914761042389269,
      "grad_norm": 0.6674102515853291,
      "learning_rate": 1.6623552626559737e-05,
      "loss": 0.951,
      "step": 4748
    },
    {
      "epoch": 0.29153749347739344,
      "grad_norm": 0.6344389583520574,
      "learning_rate": 1.662206284406422e-05,
      "loss": 0.9279,
      "step": 4749
    },
    {
      "epoch": 0.29159888271585993,
      "grad_norm": 0.735178430289922,
      "learning_rate": 1.662057279976314e-05,
      "loss": 0.9556,
      "step": 4750
    },
    {
      "epoch": 0.2916602719543264,
      "grad_norm": 0.6625805646039629,
      "learning_rate": 1.6619082493715412e-05,
      "loss": 0.9296,
      "step": 4751
    },
    {
      "epoch": 0.2917216611927929,
      "grad_norm": 0.6375917743762227,
      "learning_rate": 1.661759192597995e-05,
      "loss": 0.9077,
      "step": 4752
    },
    {
      "epoch": 0.2917830504312594,
      "grad_norm": 0.6211316952282784,
      "learning_rate": 1.6616101096615686e-05,
      "loss": 0.9175,
      "step": 4753
    },
    {
      "epoch": 0.2918444396697259,
      "grad_norm": 0.630893294689961,
      "learning_rate": 1.6614610005681557e-05,
      "loss": 0.9382,
      "step": 4754
    },
    {
      "epoch": 0.2919058289081924,
      "grad_norm": 0.6995409717050872,
      "learning_rate": 1.661311865323652e-05,
      "loss": 0.9285,
      "step": 4755
    },
    {
      "epoch": 0.2919672181466589,
      "grad_norm": 0.6361132320319837,
      "learning_rate": 1.6611627039339533e-05,
      "loss": 0.9336,
      "step": 4756
    },
    {
      "epoch": 0.29202860738512537,
      "grad_norm": 0.7421829307957434,
      "learning_rate": 1.6610135164049568e-05,
      "loss": 0.9814,
      "step": 4757
    },
    {
      "epoch": 0.29208999662359186,
      "grad_norm": 0.698052912269993,
      "learning_rate": 1.6608643027425605e-05,
      "loss": 0.9418,
      "step": 4758
    },
    {
      "epoch": 0.29215138586205835,
      "grad_norm": 0.6939213710039014,
      "learning_rate": 1.660715062952664e-05,
      "loss": 0.9408,
      "step": 4759
    },
    {
      "epoch": 0.2922127751005249,
      "grad_norm": 0.6451352185651225,
      "learning_rate": 1.660565797041167e-05,
      "loss": 0.9273,
      "step": 4760
    },
    {
      "epoch": 0.2922741643389914,
      "grad_norm": 0.6477479894018726,
      "learning_rate": 1.6604165050139712e-05,
      "loss": 0.9074,
      "step": 4761
    },
    {
      "epoch": 0.2923355535774579,
      "grad_norm": 0.6725546754205658,
      "learning_rate": 1.6602671868769788e-05,
      "loss": 0.9306,
      "step": 4762
    },
    {
      "epoch": 0.2923969428159244,
      "grad_norm": 0.7030198582210345,
      "learning_rate": 1.660117842636093e-05,
      "loss": 0.9901,
      "step": 4763
    },
    {
      "epoch": 0.29245833205439087,
      "grad_norm": 0.7187738578846721,
      "learning_rate": 1.6599684722972188e-05,
      "loss": 0.977,
      "step": 4764
    },
    {
      "epoch": 0.29251972129285736,
      "grad_norm": 0.7050510739915,
      "learning_rate": 1.6598190758662605e-05,
      "loss": 0.9347,
      "step": 4765
    },
    {
      "epoch": 0.29258111053132385,
      "grad_norm": 0.6843957295381976,
      "learning_rate": 1.659669653349126e-05,
      "loss": 0.9857,
      "step": 4766
    },
    {
      "epoch": 0.29264249976979034,
      "grad_norm": 0.7081867828772627,
      "learning_rate": 1.6595202047517212e-05,
      "loss": 0.9651,
      "step": 4767
    },
    {
      "epoch": 0.29270388900825683,
      "grad_norm": 0.7161318409166679,
      "learning_rate": 1.659370730079956e-05,
      "loss": 0.9694,
      "step": 4768
    },
    {
      "epoch": 0.2927652782467233,
      "grad_norm": 0.7216333570949831,
      "learning_rate": 1.6592212293397386e-05,
      "loss": 0.9999,
      "step": 4769
    },
    {
      "epoch": 0.2928266674851899,
      "grad_norm": 0.6339077125167631,
      "learning_rate": 1.6590717025369802e-05,
      "loss": 0.9134,
      "step": 4770
    },
    {
      "epoch": 0.29288805672365636,
      "grad_norm": 0.6533072756121949,
      "learning_rate": 1.658922149677593e-05,
      "loss": 0.9636,
      "step": 4771
    },
    {
      "epoch": 0.29294944596212286,
      "grad_norm": 0.6314885479120198,
      "learning_rate": 1.6587725707674888e-05,
      "loss": 0.9165,
      "step": 4772
    },
    {
      "epoch": 0.29301083520058935,
      "grad_norm": 0.6533854328748896,
      "learning_rate": 1.6586229658125816e-05,
      "loss": 0.9457,
      "step": 4773
    },
    {
      "epoch": 0.29307222443905584,
      "grad_norm": 0.8919193047916821,
      "learning_rate": 1.658473334818786e-05,
      "loss": 0.7336,
      "step": 4774
    },
    {
      "epoch": 0.29313361367752233,
      "grad_norm": 0.6232289477656172,
      "learning_rate": 1.6583236777920174e-05,
      "loss": 0.8944,
      "step": 4775
    },
    {
      "epoch": 0.2931950029159888,
      "grad_norm": 0.6530904164680518,
      "learning_rate": 1.658173994738193e-05,
      "loss": 0.9347,
      "step": 4776
    },
    {
      "epoch": 0.2932563921544553,
      "grad_norm": 0.674784633634674,
      "learning_rate": 1.6580242856632306e-05,
      "loss": 0.911,
      "step": 4777
    },
    {
      "epoch": 0.2933177813929218,
      "grad_norm": 0.6797283262631173,
      "learning_rate": 1.657874550573049e-05,
      "loss": 0.9103,
      "step": 4778
    },
    {
      "epoch": 0.2933791706313883,
      "grad_norm": 0.679612918312619,
      "learning_rate": 1.6577247894735674e-05,
      "loss": 0.9558,
      "step": 4779
    },
    {
      "epoch": 0.2934405598698548,
      "grad_norm": 0.6685079751968006,
      "learning_rate": 1.6575750023707075e-05,
      "loss": 0.989,
      "step": 4780
    },
    {
      "epoch": 0.29350194910832134,
      "grad_norm": 0.7013191342955464,
      "learning_rate": 1.6574251892703904e-05,
      "loss": 0.95,
      "step": 4781
    },
    {
      "epoch": 0.2935633383467878,
      "grad_norm": 0.7864613398438146,
      "learning_rate": 1.6572753501785397e-05,
      "loss": 0.7334,
      "step": 4782
    },
    {
      "epoch": 0.2936247275852543,
      "grad_norm": 0.7138852069492438,
      "learning_rate": 1.657125485101079e-05,
      "loss": 0.9353,
      "step": 4783
    },
    {
      "epoch": 0.2936861168237208,
      "grad_norm": 0.7789806928703494,
      "learning_rate": 1.6569755940439335e-05,
      "loss": 0.9565,
      "step": 4784
    },
    {
      "epoch": 0.2937475060621873,
      "grad_norm": 0.6752811664648835,
      "learning_rate": 1.6568256770130285e-05,
      "loss": 0.9408,
      "step": 4785
    },
    {
      "epoch": 0.2938088953006538,
      "grad_norm": 0.6855092453793953,
      "learning_rate": 1.656675734014292e-05,
      "loss": 0.9463,
      "step": 4786
    },
    {
      "epoch": 0.2938702845391203,
      "grad_norm": 0.6713852438712088,
      "learning_rate": 1.6565257650536514e-05,
      "loss": 0.9487,
      "step": 4787
    },
    {
      "epoch": 0.2939316737775868,
      "grad_norm": 0.6815271956101036,
      "learning_rate": 1.656375770137036e-05,
      "loss": 0.9775,
      "step": 4788
    },
    {
      "epoch": 0.29399306301605327,
      "grad_norm": 0.625155853617614,
      "learning_rate": 1.6562257492703756e-05,
      "loss": 0.8672,
      "step": 4789
    },
    {
      "epoch": 0.29405445225451976,
      "grad_norm": 0.6570856224834871,
      "learning_rate": 1.6560757024596022e-05,
      "loss": 0.9407,
      "step": 4790
    },
    {
      "epoch": 0.29411584149298625,
      "grad_norm": 0.6735585634928238,
      "learning_rate": 1.6559256297106468e-05,
      "loss": 0.897,
      "step": 4791
    },
    {
      "epoch": 0.2941772307314528,
      "grad_norm": 0.6042100815763854,
      "learning_rate": 1.6557755310294433e-05,
      "loss": 0.9266,
      "step": 4792
    },
    {
      "epoch": 0.2942386199699193,
      "grad_norm": 0.6947977559193566,
      "learning_rate": 1.6556254064219257e-05,
      "loss": 1.0113,
      "step": 4793
    },
    {
      "epoch": 0.2943000092083858,
      "grad_norm": 0.716045100467387,
      "learning_rate": 1.6554752558940292e-05,
      "loss": 0.9582,
      "step": 4794
    },
    {
      "epoch": 0.2943613984468523,
      "grad_norm": 0.601418900122419,
      "learning_rate": 1.6553250794516904e-05,
      "loss": 0.9389,
      "step": 4795
    },
    {
      "epoch": 0.29442278768531877,
      "grad_norm": 0.6858879321963159,
      "learning_rate": 1.655174877100846e-05,
      "loss": 0.9691,
      "step": 4796
    },
    {
      "epoch": 0.29448417692378526,
      "grad_norm": 0.6369769504377527,
      "learning_rate": 1.6550246488474345e-05,
      "loss": 0.9318,
      "step": 4797
    },
    {
      "epoch": 0.29454556616225175,
      "grad_norm": 0.6241958975959199,
      "learning_rate": 1.654874394697396e-05,
      "loss": 0.9369,
      "step": 4798
    },
    {
      "epoch": 0.29460695540071824,
      "grad_norm": 0.663387421581193,
      "learning_rate": 1.6547241146566694e-05,
      "loss": 0.9625,
      "step": 4799
    },
    {
      "epoch": 0.29466834463918473,
      "grad_norm": 0.6643044735396753,
      "learning_rate": 1.654573808731197e-05,
      "loss": 0.9691,
      "step": 4800
    },
    {
      "epoch": 0.2947297338776512,
      "grad_norm": 0.6560509517713466,
      "learning_rate": 1.654423476926921e-05,
      "loss": 0.9268,
      "step": 4801
    },
    {
      "epoch": 0.29479112311611777,
      "grad_norm": 0.7402799103857856,
      "learning_rate": 1.6542731192497848e-05,
      "loss": 0.9595,
      "step": 4802
    },
    {
      "epoch": 0.29485251235458426,
      "grad_norm": 0.6622779870308171,
      "learning_rate": 1.654122735705733e-05,
      "loss": 0.9389,
      "step": 4803
    },
    {
      "epoch": 0.29491390159305075,
      "grad_norm": 0.5898138831530406,
      "learning_rate": 1.653972326300711e-05,
      "loss": 0.9373,
      "step": 4804
    },
    {
      "epoch": 0.29497529083151725,
      "grad_norm": 0.6697561879637225,
      "learning_rate": 1.6538218910406654e-05,
      "loss": 0.9528,
      "step": 4805
    },
    {
      "epoch": 0.29503668006998374,
      "grad_norm": 0.7015065709689703,
      "learning_rate": 1.6536714299315435e-05,
      "loss": 0.9912,
      "step": 4806
    },
    {
      "epoch": 0.29509806930845023,
      "grad_norm": 0.6938961140195453,
      "learning_rate": 1.653520942979294e-05,
      "loss": 0.9749,
      "step": 4807
    },
    {
      "epoch": 0.2951594585469167,
      "grad_norm": 0.6996053243924718,
      "learning_rate": 1.6533704301898658e-05,
      "loss": 1.0121,
      "step": 4808
    },
    {
      "epoch": 0.2952208477853832,
      "grad_norm": 0.5479230548076985,
      "learning_rate": 1.6532198915692105e-05,
      "loss": 0.9145,
      "step": 4809
    },
    {
      "epoch": 0.2952822370238497,
      "grad_norm": 0.6961084366193291,
      "learning_rate": 1.6530693271232792e-05,
      "loss": 0.9467,
      "step": 4810
    },
    {
      "epoch": 0.2953436262623162,
      "grad_norm": 0.6903545769265692,
      "learning_rate": 1.6529187368580246e-05,
      "loss": 0.9762,
      "step": 4811
    },
    {
      "epoch": 0.2954050155007827,
      "grad_norm": 0.6611935725630346,
      "learning_rate": 1.6527681207794e-05,
      "loss": 0.9433,
      "step": 4812
    },
    {
      "epoch": 0.29546640473924923,
      "grad_norm": 0.6742161951016546,
      "learning_rate": 1.6526174788933606e-05,
      "loss": 0.9829,
      "step": 4813
    },
    {
      "epoch": 0.2955277939777157,
      "grad_norm": 0.6528039327029278,
      "learning_rate": 1.6524668112058617e-05,
      "loss": 0.9303,
      "step": 4814
    },
    {
      "epoch": 0.2955891832161822,
      "grad_norm": 0.6953799802953926,
      "learning_rate": 1.6523161177228598e-05,
      "loss": 0.9361,
      "step": 4815
    },
    {
      "epoch": 0.2956505724546487,
      "grad_norm": 0.6282172404692632,
      "learning_rate": 1.6521653984503135e-05,
      "loss": 0.9244,
      "step": 4816
    },
    {
      "epoch": 0.2957119616931152,
      "grad_norm": 0.7534504855794563,
      "learning_rate": 1.6520146533941805e-05,
      "loss": 0.9533,
      "step": 4817
    },
    {
      "epoch": 0.2957733509315817,
      "grad_norm": 0.6555394337368678,
      "learning_rate": 1.6518638825604215e-05,
      "loss": 0.9479,
      "step": 4818
    },
    {
      "epoch": 0.2958347401700482,
      "grad_norm": 0.6697189275024056,
      "learning_rate": 1.6517130859549967e-05,
      "loss": 0.9383,
      "step": 4819
    },
    {
      "epoch": 0.2958961294085147,
      "grad_norm": 0.7131985338992254,
      "learning_rate": 1.6515622635838677e-05,
      "loss": 0.997,
      "step": 4820
    },
    {
      "epoch": 0.29595751864698117,
      "grad_norm": 0.6366652740690397,
      "learning_rate": 1.6514114154529977e-05,
      "loss": 0.9051,
      "step": 4821
    },
    {
      "epoch": 0.29601890788544766,
      "grad_norm": 0.6512051882939764,
      "learning_rate": 1.6512605415683508e-05,
      "loss": 0.9606,
      "step": 4822
    },
    {
      "epoch": 0.2960802971239142,
      "grad_norm": 0.6525918439946969,
      "learning_rate": 1.651109641935891e-05,
      "loss": 0.9346,
      "step": 4823
    },
    {
      "epoch": 0.2961416863623807,
      "grad_norm": 0.7189349956829671,
      "learning_rate": 1.650958716561585e-05,
      "loss": 0.9441,
      "step": 4824
    },
    {
      "epoch": 0.2962030756008472,
      "grad_norm": 0.7311139374844257,
      "learning_rate": 1.6508077654513992e-05,
      "loss": 1.0381,
      "step": 4825
    },
    {
      "epoch": 0.2962644648393137,
      "grad_norm": 0.6561811270804863,
      "learning_rate": 1.6506567886113016e-05,
      "loss": 0.9726,
      "step": 4826
    },
    {
      "epoch": 0.29632585407778017,
      "grad_norm": 0.6343715598482855,
      "learning_rate": 1.6505057860472614e-05,
      "loss": 0.9494,
      "step": 4827
    },
    {
      "epoch": 0.29638724331624666,
      "grad_norm": 0.6190868604634101,
      "learning_rate": 1.6503547577652483e-05,
      "loss": 0.9006,
      "step": 4828
    },
    {
      "epoch": 0.29644863255471315,
      "grad_norm": 0.69223780076931,
      "learning_rate": 1.6502037037712333e-05,
      "loss": 0.9312,
      "step": 4829
    },
    {
      "epoch": 0.29651002179317965,
      "grad_norm": 0.7016890256379813,
      "learning_rate": 1.6500526240711883e-05,
      "loss": 0.9434,
      "step": 4830
    },
    {
      "epoch": 0.29657141103164614,
      "grad_norm": 0.6679296665782497,
      "learning_rate": 1.6499015186710863e-05,
      "loss": 0.9808,
      "step": 4831
    },
    {
      "epoch": 0.29663280027011263,
      "grad_norm": 0.6865160305526538,
      "learning_rate": 1.6497503875769015e-05,
      "loss": 0.9604,
      "step": 4832
    },
    {
      "epoch": 0.2966941895085791,
      "grad_norm": 0.6654368212907187,
      "learning_rate": 1.6495992307946086e-05,
      "loss": 0.9357,
      "step": 4833
    },
    {
      "epoch": 0.29675557874704567,
      "grad_norm": 0.701796110684718,
      "learning_rate": 1.6494480483301836e-05,
      "loss": 0.9837,
      "step": 4834
    },
    {
      "epoch": 0.29681696798551216,
      "grad_norm": 0.6838066897955846,
      "learning_rate": 1.6492968401896044e-05,
      "loss": 0.9626,
      "step": 4835
    },
    {
      "epoch": 0.29687835722397865,
      "grad_norm": 0.679300846469494,
      "learning_rate": 1.6491456063788482e-05,
      "loss": 0.9217,
      "step": 4836
    },
    {
      "epoch": 0.29693974646244514,
      "grad_norm": 0.6877423470959199,
      "learning_rate": 1.648994346903894e-05,
      "loss": 0.9132,
      "step": 4837
    },
    {
      "epoch": 0.29700113570091163,
      "grad_norm": 0.656465370444906,
      "learning_rate": 1.648843061770722e-05,
      "loss": 0.9389,
      "step": 4838
    },
    {
      "epoch": 0.2970625249393781,
      "grad_norm": 0.6814596663167994,
      "learning_rate": 1.648691750985314e-05,
      "loss": 0.9572,
      "step": 4839
    },
    {
      "epoch": 0.2971239141778446,
      "grad_norm": 0.6578820086361158,
      "learning_rate": 1.6485404145536517e-05,
      "loss": 0.9485,
      "step": 4840
    },
    {
      "epoch": 0.2971853034163111,
      "grad_norm": 0.731827520799178,
      "learning_rate": 1.6483890524817178e-05,
      "loss": 1.0226,
      "step": 4841
    },
    {
      "epoch": 0.2972466926547776,
      "grad_norm": 0.742758231564385,
      "learning_rate": 1.648237664775497e-05,
      "loss": 0.9914,
      "step": 4842
    },
    {
      "epoch": 0.2973080818932441,
      "grad_norm": 0.6800731401623535,
      "learning_rate": 1.6480862514409742e-05,
      "loss": 0.9548,
      "step": 4843
    },
    {
      "epoch": 0.29736947113171064,
      "grad_norm": 0.6704137864836499,
      "learning_rate": 1.6479348124841358e-05,
      "loss": 0.9563,
      "step": 4844
    },
    {
      "epoch": 0.29743086037017713,
      "grad_norm": 0.6434701694960067,
      "learning_rate": 1.647783347910969e-05,
      "loss": 0.9514,
      "step": 4845
    },
    {
      "epoch": 0.2974922496086436,
      "grad_norm": 0.6553259903523467,
      "learning_rate": 1.6476318577274617e-05,
      "loss": 0.927,
      "step": 4846
    },
    {
      "epoch": 0.2975536388471101,
      "grad_norm": 0.6987584178536962,
      "learning_rate": 1.6474803419396033e-05,
      "loss": 0.9609,
      "step": 4847
    },
    {
      "epoch": 0.2976150280855766,
      "grad_norm": 0.6310029409745952,
      "learning_rate": 1.647328800553384e-05,
      "loss": 0.9364,
      "step": 4848
    },
    {
      "epoch": 0.2976764173240431,
      "grad_norm": 0.570218043953627,
      "learning_rate": 1.647177233574795e-05,
      "loss": 0.8806,
      "step": 4849
    },
    {
      "epoch": 0.2977378065625096,
      "grad_norm": 0.6342376079816868,
      "learning_rate": 1.6470256410098286e-05,
      "loss": 0.9228,
      "step": 4850
    },
    {
      "epoch": 0.2977991958009761,
      "grad_norm": 0.630927097724428,
      "learning_rate": 1.646874022864478e-05,
      "loss": 0.8927,
      "step": 4851
    },
    {
      "epoch": 0.29786058503944257,
      "grad_norm": 0.6748879343663693,
      "learning_rate": 1.646722379144738e-05,
      "loss": 0.9775,
      "step": 4852
    },
    {
      "epoch": 0.29792197427790906,
      "grad_norm": 0.695137250168839,
      "learning_rate": 1.6465707098566032e-05,
      "loss": 0.9874,
      "step": 4853
    },
    {
      "epoch": 0.29798336351637555,
      "grad_norm": 0.64711703718946,
      "learning_rate": 1.64641901500607e-05,
      "loss": 0.9375,
      "step": 4854
    },
    {
      "epoch": 0.2980447527548421,
      "grad_norm": 0.6906320265353662,
      "learning_rate": 1.6462672945991357e-05,
      "loss": 0.9486,
      "step": 4855
    },
    {
      "epoch": 0.2981061419933086,
      "grad_norm": 0.6580391278881085,
      "learning_rate": 1.6461155486417992e-05,
      "loss": 0.956,
      "step": 4856
    },
    {
      "epoch": 0.2981675312317751,
      "grad_norm": 0.7013643629079408,
      "learning_rate": 1.645963777140059e-05,
      "loss": 0.9275,
      "step": 4857
    },
    {
      "epoch": 0.2982289204702416,
      "grad_norm": 0.6455559477916452,
      "learning_rate": 1.6458119800999162e-05,
      "loss": 0.9486,
      "step": 4858
    },
    {
      "epoch": 0.29829030970870807,
      "grad_norm": 0.6514571061604425,
      "learning_rate": 1.6456601575273716e-05,
      "loss": 0.9428,
      "step": 4859
    },
    {
      "epoch": 0.29835169894717456,
      "grad_norm": 0.6651804130487188,
      "learning_rate": 1.6455083094284275e-05,
      "loss": 0.9667,
      "step": 4860
    },
    {
      "epoch": 0.29841308818564105,
      "grad_norm": 0.6367635682103715,
      "learning_rate": 1.6453564358090876e-05,
      "loss": 1.0022,
      "step": 4861
    },
    {
      "epoch": 0.29847447742410754,
      "grad_norm": 0.6548497614809804,
      "learning_rate": 1.6452045366753568e-05,
      "loss": 1.013,
      "step": 4862
    },
    {
      "epoch": 0.29853586666257403,
      "grad_norm": 0.7342951797941548,
      "learning_rate": 1.645052612033239e-05,
      "loss": 0.9768,
      "step": 4863
    },
    {
      "epoch": 0.2985972559010405,
      "grad_norm": 0.6501018901208514,
      "learning_rate": 1.644900661888742e-05,
      "loss": 0.9408,
      "step": 4864
    },
    {
      "epoch": 0.298658645139507,
      "grad_norm": 0.6458876023933356,
      "learning_rate": 1.644748686247872e-05,
      "loss": 0.9887,
      "step": 4865
    },
    {
      "epoch": 0.29872003437797356,
      "grad_norm": 0.6565608753741198,
      "learning_rate": 1.6445966851166392e-05,
      "loss": 0.9508,
      "step": 4866
    },
    {
      "epoch": 0.29878142361644006,
      "grad_norm": 0.634907267886848,
      "learning_rate": 1.6444446585010512e-05,
      "loss": 0.9268,
      "step": 4867
    },
    {
      "epoch": 0.29884281285490655,
      "grad_norm": 0.6331308764934565,
      "learning_rate": 1.644292606407119e-05,
      "loss": 0.8934,
      "step": 4868
    },
    {
      "epoch": 0.29890420209337304,
      "grad_norm": 0.6653686719901984,
      "learning_rate": 1.6441405288408544e-05,
      "loss": 0.9135,
      "step": 4869
    },
    {
      "epoch": 0.29896559133183953,
      "grad_norm": 0.6625128062346586,
      "learning_rate": 1.6439884258082693e-05,
      "loss": 0.9197,
      "step": 4870
    },
    {
      "epoch": 0.299026980570306,
      "grad_norm": 0.7167103760016199,
      "learning_rate": 1.6438362973153783e-05,
      "loss": 0.9456,
      "step": 4871
    },
    {
      "epoch": 0.2990883698087725,
      "grad_norm": 0.6574256888319979,
      "learning_rate": 1.643684143368194e-05,
      "loss": 0.9745,
      "step": 4872
    },
    {
      "epoch": 0.299149759047239,
      "grad_norm": 0.7034506495074089,
      "learning_rate": 1.6435319639727333e-05,
      "loss": 0.9855,
      "step": 4873
    },
    {
      "epoch": 0.2992111482857055,
      "grad_norm": 0.6976188657129656,
      "learning_rate": 1.6433797591350123e-05,
      "loss": 0.9787,
      "step": 4874
    },
    {
      "epoch": 0.299272537524172,
      "grad_norm": 1.1348854720428894,
      "learning_rate": 1.6432275288610478e-05,
      "loss": 0.9384,
      "step": 4875
    },
    {
      "epoch": 0.29933392676263854,
      "grad_norm": 0.6557000420917164,
      "learning_rate": 1.6430752731568595e-05,
      "loss": 0.9264,
      "step": 4876
    },
    {
      "epoch": 0.299395316001105,
      "grad_norm": 0.6161821438773726,
      "learning_rate": 1.642922992028466e-05,
      "loss": 0.9496,
      "step": 4877
    },
    {
      "epoch": 0.2994567052395715,
      "grad_norm": 0.6964713511723555,
      "learning_rate": 1.642770685481888e-05,
      "loss": 0.9706,
      "step": 4878
    },
    {
      "epoch": 0.299518094478038,
      "grad_norm": 0.6829973827292836,
      "learning_rate": 1.6426183535231472e-05,
      "loss": 0.9181,
      "step": 4879
    },
    {
      "epoch": 0.2995794837165045,
      "grad_norm": 0.6331250212914711,
      "learning_rate": 1.6424659961582654e-05,
      "loss": 0.8923,
      "step": 4880
    },
    {
      "epoch": 0.299640872954971,
      "grad_norm": 0.6191793370408321,
      "learning_rate": 1.642313613393267e-05,
      "loss": 0.9068,
      "step": 4881
    },
    {
      "epoch": 0.2997022621934375,
      "grad_norm": 0.6818651617077107,
      "learning_rate": 1.6421612052341762e-05,
      "loss": 0.9573,
      "step": 4882
    },
    {
      "epoch": 0.299763651431904,
      "grad_norm": 0.6387195804143804,
      "learning_rate": 1.6420087716870187e-05,
      "loss": 0.9198,
      "step": 4883
    },
    {
      "epoch": 0.29982504067037047,
      "grad_norm": 0.7138705421686473,
      "learning_rate": 1.6418563127578203e-05,
      "loss": 1.0122,
      "step": 4884
    },
    {
      "epoch": 0.29988642990883696,
      "grad_norm": 0.6900312048320913,
      "learning_rate": 1.641703828452609e-05,
      "loss": 0.9714,
      "step": 4885
    },
    {
      "epoch": 0.29994781914730345,
      "grad_norm": 0.6899272400215066,
      "learning_rate": 1.641551318777413e-05,
      "loss": 0.9914,
      "step": 4886
    },
    {
      "epoch": 0.30000920838577,
      "grad_norm": 0.6701224270131267,
      "learning_rate": 1.641398783738263e-05,
      "loss": 0.9165,
      "step": 4887
    },
    {
      "epoch": 0.3000705976242365,
      "grad_norm": 0.6225000414760145,
      "learning_rate": 1.641246223341188e-05,
      "loss": 0.9216,
      "step": 4888
    },
    {
      "epoch": 0.300131986862703,
      "grad_norm": 0.6831082880670999,
      "learning_rate": 1.64109363759222e-05,
      "loss": 0.9744,
      "step": 4889
    },
    {
      "epoch": 0.3001933761011695,
      "grad_norm": 0.6335557831837292,
      "learning_rate": 1.6409410264973922e-05,
      "loss": 0.9356,
      "step": 4890
    },
    {
      "epoch": 0.30025476533963597,
      "grad_norm": 0.6751984105781247,
      "learning_rate": 1.6407883900627374e-05,
      "loss": 0.9401,
      "step": 4891
    },
    {
      "epoch": 0.30031615457810246,
      "grad_norm": 0.6366158938331916,
      "learning_rate": 1.6406357282942904e-05,
      "loss": 0.9337,
      "step": 4892
    },
    {
      "epoch": 0.30037754381656895,
      "grad_norm": 0.6963219890226016,
      "learning_rate": 1.6404830411980865e-05,
      "loss": 0.9314,
      "step": 4893
    },
    {
      "epoch": 0.30043893305503544,
      "grad_norm": 0.6864001887074397,
      "learning_rate": 1.640330328780163e-05,
      "loss": 0.9856,
      "step": 4894
    },
    {
      "epoch": 0.30050032229350193,
      "grad_norm": 0.643279483798317,
      "learning_rate": 1.6401775910465562e-05,
      "loss": 0.8769,
      "step": 4895
    },
    {
      "epoch": 0.3005617115319684,
      "grad_norm": 0.7229693917562463,
      "learning_rate": 1.6400248280033057e-05,
      "loss": 0.9808,
      "step": 4896
    },
    {
      "epoch": 0.30062310077043497,
      "grad_norm": 0.7084231712176995,
      "learning_rate": 1.6398720396564506e-05,
      "loss": 0.9695,
      "step": 4897
    },
    {
      "epoch": 0.30068449000890146,
      "grad_norm": 0.6561467253086344,
      "learning_rate": 1.6397192260120312e-05,
      "loss": 0.9117,
      "step": 4898
    },
    {
      "epoch": 0.30074587924736795,
      "grad_norm": 0.7143525101099486,
      "learning_rate": 1.63956638707609e-05,
      "loss": 0.9573,
      "step": 4899
    },
    {
      "epoch": 0.30080726848583444,
      "grad_norm": 0.6396233437318983,
      "learning_rate": 1.6394135228546682e-05,
      "loss": 0.8794,
      "step": 4900
    },
    {
      "epoch": 0.30086865772430094,
      "grad_norm": 0.6620649857115037,
      "learning_rate": 1.6392606333538104e-05,
      "loss": 0.9542,
      "step": 4901
    },
    {
      "epoch": 0.30093004696276743,
      "grad_norm": 0.6778574333792419,
      "learning_rate": 1.6391077185795606e-05,
      "loss": 0.9066,
      "step": 4902
    },
    {
      "epoch": 0.3009914362012339,
      "grad_norm": 0.6364300592185842,
      "learning_rate": 1.6389547785379643e-05,
      "loss": 0.9593,
      "step": 4903
    },
    {
      "epoch": 0.3010528254397004,
      "grad_norm": 0.6311825145478775,
      "learning_rate": 1.6388018132350686e-05,
      "loss": 0.9298,
      "step": 4904
    },
    {
      "epoch": 0.3011142146781669,
      "grad_norm": 0.6524787515174456,
      "learning_rate": 1.638648822676921e-05,
      "loss": 0.9517,
      "step": 4905
    },
    {
      "epoch": 0.3011756039166334,
      "grad_norm": 0.6992300596615596,
      "learning_rate": 1.638495806869569e-05,
      "loss": 0.9912,
      "step": 4906
    },
    {
      "epoch": 0.3012369931550999,
      "grad_norm": 0.6195167723197558,
      "learning_rate": 1.638342765819063e-05,
      "loss": 0.9202,
      "step": 4907
    },
    {
      "epoch": 0.30129838239356643,
      "grad_norm": 0.6423224136153881,
      "learning_rate": 1.6381896995314534e-05,
      "loss": 0.9477,
      "step": 4908
    },
    {
      "epoch": 0.3013597716320329,
      "grad_norm": 0.6594087855870951,
      "learning_rate": 1.6380366080127918e-05,
      "loss": 0.916,
      "step": 4909
    },
    {
      "epoch": 0.3014211608704994,
      "grad_norm": 0.6625735957912227,
      "learning_rate": 1.637883491269131e-05,
      "loss": 0.9722,
      "step": 4910
    },
    {
      "epoch": 0.3014825501089659,
      "grad_norm": 0.6557214887021263,
      "learning_rate": 1.6377303493065236e-05,
      "loss": 0.9251,
      "step": 4911
    },
    {
      "epoch": 0.3015439393474324,
      "grad_norm": 0.7038326503741632,
      "learning_rate": 1.6375771821310248e-05,
      "loss": 0.9624,
      "step": 4912
    },
    {
      "epoch": 0.3016053285858989,
      "grad_norm": 0.6572762643176667,
      "learning_rate": 1.63742398974869e-05,
      "loss": 0.8911,
      "step": 4913
    },
    {
      "epoch": 0.3016667178243654,
      "grad_norm": 0.5988721816926992,
      "learning_rate": 1.6372707721655756e-05,
      "loss": 0.755,
      "step": 4914
    },
    {
      "epoch": 0.3017281070628319,
      "grad_norm": 0.7262686897877586,
      "learning_rate": 1.637117529387739e-05,
      "loss": 1.0089,
      "step": 4915
    },
    {
      "epoch": 0.30178949630129837,
      "grad_norm": 0.6884411337284615,
      "learning_rate": 1.6369642614212394e-05,
      "loss": 0.882,
      "step": 4916
    },
    {
      "epoch": 0.30185088553976486,
      "grad_norm": 0.7580932825478633,
      "learning_rate": 1.6368109682721357e-05,
      "loss": 1.0207,
      "step": 4917
    },
    {
      "epoch": 0.30191227477823135,
      "grad_norm": 0.766190120624319,
      "learning_rate": 1.6366576499464884e-05,
      "loss": 0.949,
      "step": 4918
    },
    {
      "epoch": 0.3019736640166979,
      "grad_norm": 0.6774941258680388,
      "learning_rate": 1.6365043064503593e-05,
      "loss": 0.9692,
      "step": 4919
    },
    {
      "epoch": 0.3020350532551644,
      "grad_norm": 0.6188282832559012,
      "learning_rate": 1.6363509377898106e-05,
      "loss": 0.9409,
      "step": 4920
    },
    {
      "epoch": 0.3020964424936309,
      "grad_norm": 0.6853243314162003,
      "learning_rate": 1.636197543970906e-05,
      "loss": 0.9571,
      "step": 4921
    },
    {
      "epoch": 0.30215783173209737,
      "grad_norm": 0.6754290353335978,
      "learning_rate": 1.6360441249997094e-05,
      "loss": 0.9338,
      "step": 4922
    },
    {
      "epoch": 0.30221922097056386,
      "grad_norm": 0.6691678952865694,
      "learning_rate": 1.6358906808822874e-05,
      "loss": 0.9474,
      "step": 4923
    },
    {
      "epoch": 0.30228061020903035,
      "grad_norm": 0.5888531912709077,
      "learning_rate": 1.6357372116247053e-05,
      "loss": 0.9237,
      "step": 4924
    },
    {
      "epoch": 0.30234199944749685,
      "grad_norm": 0.6483350108532373,
      "learning_rate": 1.6355837172330315e-05,
      "loss": 0.9085,
      "step": 4925
    },
    {
      "epoch": 0.30240338868596334,
      "grad_norm": 0.6948547697864822,
      "learning_rate": 1.6354301977133335e-05,
      "loss": 0.9313,
      "step": 4926
    },
    {
      "epoch": 0.30246477792442983,
      "grad_norm": 0.6644205497812348,
      "learning_rate": 1.6352766530716815e-05,
      "loss": 0.9326,
      "step": 4927
    },
    {
      "epoch": 0.3025261671628963,
      "grad_norm": 0.6638982288193082,
      "learning_rate": 1.6351230833141457e-05,
      "loss": 0.9254,
      "step": 4928
    },
    {
      "epoch": 0.30258755640136287,
      "grad_norm": 0.6425963379760672,
      "learning_rate": 1.6349694884467976e-05,
      "loss": 0.9093,
      "step": 4929
    },
    {
      "epoch": 0.30264894563982936,
      "grad_norm": 0.6838297933221531,
      "learning_rate": 1.6348158684757093e-05,
      "loss": 0.9166,
      "step": 4930
    },
    {
      "epoch": 0.30271033487829585,
      "grad_norm": 0.6436104272585041,
      "learning_rate": 1.634662223406955e-05,
      "loss": 0.7769,
      "step": 4931
    },
    {
      "epoch": 0.30277172411676234,
      "grad_norm": 0.6358478682219909,
      "learning_rate": 1.6345085532466082e-05,
      "loss": 0.9498,
      "step": 4932
    },
    {
      "epoch": 0.30283311335522883,
      "grad_norm": 0.6581815724967545,
      "learning_rate": 1.634354858000745e-05,
      "loss": 0.944,
      "step": 4933
    },
    {
      "epoch": 0.3028945025936953,
      "grad_norm": 0.6598729068596672,
      "learning_rate": 1.634201137675441e-05,
      "loss": 0.9685,
      "step": 4934
    },
    {
      "epoch": 0.3029558918321618,
      "grad_norm": 0.6955150684426041,
      "learning_rate": 1.6340473922767745e-05,
      "loss": 0.9909,
      "step": 4935
    },
    {
      "epoch": 0.3030172810706283,
      "grad_norm": 0.7170072437523458,
      "learning_rate": 1.6338936218108235e-05,
      "loss": 0.999,
      "step": 4936
    },
    {
      "epoch": 0.3030786703090948,
      "grad_norm": 0.6370083601869476,
      "learning_rate": 1.633739826283667e-05,
      "loss": 0.9284,
      "step": 4937
    },
    {
      "epoch": 0.3031400595475613,
      "grad_norm": 0.6528933480918443,
      "learning_rate": 1.633586005701386e-05,
      "loss": 0.955,
      "step": 4938
    },
    {
      "epoch": 0.3032014487860278,
      "grad_norm": 0.6539378665280503,
      "learning_rate": 1.6334321600700612e-05,
      "loss": 0.9611,
      "step": 4939
    },
    {
      "epoch": 0.30326283802449433,
      "grad_norm": 0.6856738225693165,
      "learning_rate": 1.6332782893957757e-05,
      "loss": 1.032,
      "step": 4940
    },
    {
      "epoch": 0.3033242272629608,
      "grad_norm": 0.6837399711479705,
      "learning_rate": 1.6331243936846122e-05,
      "loss": 0.9844,
      "step": 4941
    },
    {
      "epoch": 0.3033856165014273,
      "grad_norm": 0.6913872788591947,
      "learning_rate": 1.632970472942655e-05,
      "loss": 0.9483,
      "step": 4942
    },
    {
      "epoch": 0.3034470057398938,
      "grad_norm": 0.6641376989454167,
      "learning_rate": 1.63281652717599e-05,
      "loss": 0.9542,
      "step": 4943
    },
    {
      "epoch": 0.3035083949783603,
      "grad_norm": 0.7532528736463256,
      "learning_rate": 1.632662556390703e-05,
      "loss": 0.9418,
      "step": 4944
    },
    {
      "epoch": 0.3035697842168268,
      "grad_norm": 0.6147493690782807,
      "learning_rate": 1.6325085605928813e-05,
      "loss": 0.8789,
      "step": 4945
    },
    {
      "epoch": 0.3036311734552933,
      "grad_norm": 0.7030569237534325,
      "learning_rate": 1.6323545397886134e-05,
      "loss": 0.9951,
      "step": 4946
    },
    {
      "epoch": 0.30369256269375977,
      "grad_norm": 0.7530430809492824,
      "learning_rate": 1.6322004939839886e-05,
      "loss": 0.9843,
      "step": 4947
    },
    {
      "epoch": 0.30375395193222626,
      "grad_norm": 0.66511281774812,
      "learning_rate": 1.6320464231850972e-05,
      "loss": 0.9338,
      "step": 4948
    },
    {
      "epoch": 0.30381534117069275,
      "grad_norm": 0.7094147638316791,
      "learning_rate": 1.6318923273980298e-05,
      "loss": 1.0074,
      "step": 4949
    },
    {
      "epoch": 0.3038767304091593,
      "grad_norm": 0.674839681519304,
      "learning_rate": 1.6317382066288793e-05,
      "loss": 0.924,
      "step": 4950
    },
    {
      "epoch": 0.3039381196476258,
      "grad_norm": 0.6282149032507646,
      "learning_rate": 1.631584060883739e-05,
      "loss": 0.9826,
      "step": 4951
    },
    {
      "epoch": 0.3039995088860923,
      "grad_norm": 0.6748843327018584,
      "learning_rate": 1.631429890168702e-05,
      "loss": 0.9653,
      "step": 4952
    },
    {
      "epoch": 0.3040608981245588,
      "grad_norm": 0.646554868347579,
      "learning_rate": 1.6312756944898653e-05,
      "loss": 0.9305,
      "step": 4953
    },
    {
      "epoch": 0.30412228736302527,
      "grad_norm": 0.6487590856665892,
      "learning_rate": 1.6311214738533237e-05,
      "loss": 0.9087,
      "step": 4954
    },
    {
      "epoch": 0.30418367660149176,
      "grad_norm": 0.6912934092743358,
      "learning_rate": 1.6309672282651744e-05,
      "loss": 0.9729,
      "step": 4955
    },
    {
      "epoch": 0.30424506583995825,
      "grad_norm": 0.6250105659989723,
      "learning_rate": 1.6308129577315166e-05,
      "loss": 0.9288,
      "step": 4956
    },
    {
      "epoch": 0.30430645507842474,
      "grad_norm": 0.6840341265295856,
      "learning_rate": 1.6306586622584482e-05,
      "loss": 0.961,
      "step": 4957
    },
    {
      "epoch": 0.30436784431689123,
      "grad_norm": 0.5923837749982773,
      "learning_rate": 1.6305043418520702e-05,
      "loss": 0.7673,
      "step": 4958
    },
    {
      "epoch": 0.3044292335553577,
      "grad_norm": 0.7059898950260042,
      "learning_rate": 1.6303499965184832e-05,
      "loss": 0.9995,
      "step": 4959
    },
    {
      "epoch": 0.3044906227938242,
      "grad_norm": 0.6362542488098746,
      "learning_rate": 1.6301956262637894e-05,
      "loss": 0.9667,
      "step": 4960
    },
    {
      "epoch": 0.30455201203229076,
      "grad_norm": 0.6427193093047789,
      "learning_rate": 1.6300412310940923e-05,
      "loss": 0.9077,
      "step": 4961
    },
    {
      "epoch": 0.30461340127075726,
      "grad_norm": 0.6291682666857615,
      "learning_rate": 1.6298868110154954e-05,
      "loss": 0.9203,
      "step": 4962
    },
    {
      "epoch": 0.30467479050922375,
      "grad_norm": 0.6390105029857941,
      "learning_rate": 1.629732366034104e-05,
      "loss": 0.9437,
      "step": 4963
    },
    {
      "epoch": 0.30473617974769024,
      "grad_norm": 0.7105064809145125,
      "learning_rate": 1.6295778961560242e-05,
      "loss": 0.9728,
      "step": 4964
    },
    {
      "epoch": 0.30479756898615673,
      "grad_norm": 0.7088090828534074,
      "learning_rate": 1.629423401387363e-05,
      "loss": 0.9434,
      "step": 4965
    },
    {
      "epoch": 0.3048589582246232,
      "grad_norm": 0.6255520920225959,
      "learning_rate": 1.6292688817342282e-05,
      "loss": 0.8852,
      "step": 4966
    },
    {
      "epoch": 0.3049203474630897,
      "grad_norm": 0.6086202580591069,
      "learning_rate": 1.629114337202729e-05,
      "loss": 0.9838,
      "step": 4967
    },
    {
      "epoch": 0.3049817367015562,
      "grad_norm": 0.6617944418650217,
      "learning_rate": 1.6289597677989754e-05,
      "loss": 0.9617,
      "step": 4968
    },
    {
      "epoch": 0.3050431259400227,
      "grad_norm": 0.652950357929811,
      "learning_rate": 1.6288051735290782e-05,
      "loss": 0.9526,
      "step": 4969
    },
    {
      "epoch": 0.3051045151784892,
      "grad_norm": 0.6775097183566792,
      "learning_rate": 1.6286505543991495e-05,
      "loss": 0.9505,
      "step": 4970
    },
    {
      "epoch": 0.3051659044169557,
      "grad_norm": 0.6364877702508054,
      "learning_rate": 1.628495910415302e-05,
      "loss": 0.9305,
      "step": 4971
    },
    {
      "epoch": 0.3052272936554222,
      "grad_norm": 0.665799129254414,
      "learning_rate": 1.6283412415836494e-05,
      "loss": 0.9053,
      "step": 4972
    },
    {
      "epoch": 0.3052886828938887,
      "grad_norm": 0.6414441833004638,
      "learning_rate": 1.6281865479103077e-05,
      "loss": 0.9697,
      "step": 4973
    },
    {
      "epoch": 0.3053500721323552,
      "grad_norm": 0.6683427200148507,
      "learning_rate": 1.628031829401391e-05,
      "loss": 0.9363,
      "step": 4974
    },
    {
      "epoch": 0.3054114613708217,
      "grad_norm": 0.6666984055755992,
      "learning_rate": 1.627877086063018e-05,
      "loss": 0.9039,
      "step": 4975
    },
    {
      "epoch": 0.3054728506092882,
      "grad_norm": 0.6546427168553898,
      "learning_rate": 1.6277223179013055e-05,
      "loss": 0.8995,
      "step": 4976
    },
    {
      "epoch": 0.3055342398477547,
      "grad_norm": 0.6437018122967931,
      "learning_rate": 1.6275675249223723e-05,
      "loss": 0.882,
      "step": 4977
    },
    {
      "epoch": 0.3055956290862212,
      "grad_norm": 0.702811914844754,
      "learning_rate": 1.6274127071323384e-05,
      "loss": 0.955,
      "step": 4978
    },
    {
      "epoch": 0.30565701832468767,
      "grad_norm": 0.6510086775835322,
      "learning_rate": 1.6272578645373244e-05,
      "loss": 0.9406,
      "step": 4979
    },
    {
      "epoch": 0.30571840756315416,
      "grad_norm": 0.660489551549102,
      "learning_rate": 1.6271029971434528e-05,
      "loss": 0.9355,
      "step": 4980
    },
    {
      "epoch": 0.30577979680162065,
      "grad_norm": 0.65976771337993,
      "learning_rate": 1.6269481049568448e-05,
      "loss": 0.9561,
      "step": 4981
    },
    {
      "epoch": 0.3058411860400872,
      "grad_norm": 0.7032359854613854,
      "learning_rate": 1.6267931879836255e-05,
      "loss": 0.9507,
      "step": 4982
    },
    {
      "epoch": 0.3059025752785537,
      "grad_norm": 0.7033624706282905,
      "learning_rate": 1.6266382462299197e-05,
      "loss": 0.9687,
      "step": 4983
    },
    {
      "epoch": 0.3059639645170202,
      "grad_norm": 0.6765441989463256,
      "learning_rate": 1.6264832797018516e-05,
      "loss": 0.9197,
      "step": 4984
    },
    {
      "epoch": 0.3060253537554867,
      "grad_norm": 0.7313334883169442,
      "learning_rate": 1.6263282884055495e-05,
      "loss": 0.9278,
      "step": 4985
    },
    {
      "epoch": 0.30608674299395316,
      "grad_norm": 0.657138160518105,
      "learning_rate": 1.6261732723471397e-05,
      "loss": 0.9328,
      "step": 4986
    },
    {
      "epoch": 0.30614813223241966,
      "grad_norm": 0.7008626533176237,
      "learning_rate": 1.6260182315327518e-05,
      "loss": 0.941,
      "step": 4987
    },
    {
      "epoch": 0.30620952147088615,
      "grad_norm": 0.6299807500679759,
      "learning_rate": 1.6258631659685155e-05,
      "loss": 0.9259,
      "step": 4988
    },
    {
      "epoch": 0.30627091070935264,
      "grad_norm": 0.752318680369605,
      "learning_rate": 1.62570807566056e-05,
      "loss": 0.9918,
      "step": 4989
    },
    {
      "epoch": 0.30633229994781913,
      "grad_norm": 0.6344337569521848,
      "learning_rate": 1.6255529606150184e-05,
      "loss": 0.8852,
      "step": 4990
    },
    {
      "epoch": 0.3063936891862856,
      "grad_norm": 0.7144510748006311,
      "learning_rate": 1.6253978208380222e-05,
      "loss": 0.9908,
      "step": 4991
    },
    {
      "epoch": 0.3064550784247521,
      "grad_norm": 0.7048204983383588,
      "learning_rate": 1.6252426563357054e-05,
      "loss": 1.0008,
      "step": 4992
    },
    {
      "epoch": 0.30651646766321866,
      "grad_norm": 0.6792655193973108,
      "learning_rate": 1.6250874671142022e-05,
      "loss": 0.9578,
      "step": 4993
    },
    {
      "epoch": 0.30657785690168515,
      "grad_norm": 0.7545062488962929,
      "learning_rate": 1.6249322531796484e-05,
      "loss": 1.0023,
      "step": 4994
    },
    {
      "epoch": 0.30663924614015164,
      "grad_norm": 0.6840005897133202,
      "learning_rate": 1.6247770145381806e-05,
      "loss": 0.969,
      "step": 4995
    },
    {
      "epoch": 0.30670063537861814,
      "grad_norm": 0.7176165819268661,
      "learning_rate": 1.624621751195935e-05,
      "loss": 0.9422,
      "step": 4996
    },
    {
      "epoch": 0.3067620246170846,
      "grad_norm": 0.736228609967829,
      "learning_rate": 1.6244664631590516e-05,
      "loss": 0.9743,
      "step": 4997
    },
    {
      "epoch": 0.3068234138555511,
      "grad_norm": 0.6839861986669714,
      "learning_rate": 1.624311150433669e-05,
      "loss": 0.9749,
      "step": 4998
    },
    {
      "epoch": 0.3068848030940176,
      "grad_norm": 0.705990400223137,
      "learning_rate": 1.6241558130259273e-05,
      "loss": 0.93,
      "step": 4999
    },
    {
      "epoch": 0.3069461923324841,
      "grad_norm": 0.6509760043355768,
      "learning_rate": 1.624000450941968e-05,
      "loss": 0.914,
      "step": 5000
    },
    {
      "epoch": 0.3070075815709506,
      "grad_norm": 0.6429720765633171,
      "learning_rate": 1.6238450641879335e-05,
      "loss": 0.9408,
      "step": 5001
    },
    {
      "epoch": 0.3070689708094171,
      "grad_norm": 0.7119757760253745,
      "learning_rate": 1.6236896527699676e-05,
      "loss": 0.9572,
      "step": 5002
    },
    {
      "epoch": 0.30713036004788363,
      "grad_norm": 0.6773955223727003,
      "learning_rate": 1.6235342166942135e-05,
      "loss": 0.9417,
      "step": 5003
    },
    {
      "epoch": 0.3071917492863501,
      "grad_norm": 0.7544623942281842,
      "learning_rate": 1.623378755966817e-05,
      "loss": 0.9863,
      "step": 5004
    },
    {
      "epoch": 0.3072531385248166,
      "grad_norm": 0.6382261987189911,
      "learning_rate": 1.623223270593924e-05,
      "loss": 0.9673,
      "step": 5005
    },
    {
      "epoch": 0.3073145277632831,
      "grad_norm": 0.6943309505145222,
      "learning_rate": 1.6230677605816826e-05,
      "loss": 0.9381,
      "step": 5006
    },
    {
      "epoch": 0.3073759170017496,
      "grad_norm": 0.6965987773927587,
      "learning_rate": 1.6229122259362397e-05,
      "loss": 0.935,
      "step": 5007
    },
    {
      "epoch": 0.3074373062402161,
      "grad_norm": 0.5973218410701113,
      "learning_rate": 1.6227566666637448e-05,
      "loss": 0.9219,
      "step": 5008
    },
    {
      "epoch": 0.3074986954786826,
      "grad_norm": 0.6448338857931938,
      "learning_rate": 1.6226010827703483e-05,
      "loss": 0.9632,
      "step": 5009
    },
    {
      "epoch": 0.3075600847171491,
      "grad_norm": 0.7361225831289311,
      "learning_rate": 1.6224454742622012e-05,
      "loss": 0.9505,
      "step": 5010
    },
    {
      "epoch": 0.30762147395561557,
      "grad_norm": 0.6921903515017599,
      "learning_rate": 1.622289841145455e-05,
      "loss": 0.9497,
      "step": 5011
    },
    {
      "epoch": 0.30768286319408206,
      "grad_norm": 0.710411400240141,
      "learning_rate": 1.6221341834262637e-05,
      "loss": 0.9814,
      "step": 5012
    },
    {
      "epoch": 0.30774425243254855,
      "grad_norm": 0.6792715501909535,
      "learning_rate": 1.6219785011107806e-05,
      "loss": 0.9127,
      "step": 5013
    },
    {
      "epoch": 0.3078056416710151,
      "grad_norm": 0.6724021335764633,
      "learning_rate": 1.6218227942051606e-05,
      "loss": 0.9045,
      "step": 5014
    },
    {
      "epoch": 0.3078670309094816,
      "grad_norm": 0.6476421434112476,
      "learning_rate": 1.62166706271556e-05,
      "loss": 0.9197,
      "step": 5015
    },
    {
      "epoch": 0.3079284201479481,
      "grad_norm": 0.6600463916202344,
      "learning_rate": 1.621511306648135e-05,
      "loss": 0.9022,
      "step": 5016
    },
    {
      "epoch": 0.30798980938641457,
      "grad_norm": 0.6307603306935136,
      "learning_rate": 1.621355526009045e-05,
      "loss": 0.8746,
      "step": 5017
    },
    {
      "epoch": 0.30805119862488106,
      "grad_norm": 0.6716904252414253,
      "learning_rate": 1.6211997208044467e-05,
      "loss": 0.9653,
      "step": 5018
    },
    {
      "epoch": 0.30811258786334755,
      "grad_norm": 0.7242634646962538,
      "learning_rate": 1.621043891040502e-05,
      "loss": 0.7766,
      "step": 5019
    },
    {
      "epoch": 0.30817397710181405,
      "grad_norm": 0.6896573225933121,
      "learning_rate": 1.6208880367233698e-05,
      "loss": 0.9562,
      "step": 5020
    },
    {
      "epoch": 0.30823536634028054,
      "grad_norm": 0.6555215157160964,
      "learning_rate": 1.6207321578592134e-05,
      "loss": 0.8794,
      "step": 5021
    },
    {
      "epoch": 0.30829675557874703,
      "grad_norm": 0.6632384908449053,
      "learning_rate": 1.6205762544541946e-05,
      "loss": 0.9584,
      "step": 5022
    },
    {
      "epoch": 0.3083581448172135,
      "grad_norm": 0.6801469248014264,
      "learning_rate": 1.620420326514477e-05,
      "loss": 0.9528,
      "step": 5023
    },
    {
      "epoch": 0.30841953405568007,
      "grad_norm": 0.6550432276993936,
      "learning_rate": 1.6202643740462264e-05,
      "loss": 0.9666,
      "step": 5024
    },
    {
      "epoch": 0.30848092329414656,
      "grad_norm": 0.6490847295764434,
      "learning_rate": 1.6201083970556074e-05,
      "loss": 0.9322,
      "step": 5025
    },
    {
      "epoch": 0.30854231253261305,
      "grad_norm": 0.6901724817346169,
      "learning_rate": 1.619952395548787e-05,
      "loss": 0.9481,
      "step": 5026
    },
    {
      "epoch": 0.30860370177107954,
      "grad_norm": 0.6235975397351553,
      "learning_rate": 1.6197963695319323e-05,
      "loss": 0.9601,
      "step": 5027
    },
    {
      "epoch": 0.30866509100954603,
      "grad_norm": 0.6938889486193254,
      "learning_rate": 1.6196403190112128e-05,
      "loss": 0.9739,
      "step": 5028
    },
    {
      "epoch": 0.3087264802480125,
      "grad_norm": 0.694305168659476,
      "learning_rate": 1.619484243992797e-05,
      "loss": 0.9926,
      "step": 5029
    },
    {
      "epoch": 0.308787869486479,
      "grad_norm": 0.7385472037372391,
      "learning_rate": 1.6193281444828555e-05,
      "loss": 0.9983,
      "step": 5030
    },
    {
      "epoch": 0.3088492587249455,
      "grad_norm": 0.6506536903272212,
      "learning_rate": 1.6191720204875604e-05,
      "loss": 0.7426,
      "step": 5031
    },
    {
      "epoch": 0.308910647963412,
      "grad_norm": 0.7030356165384549,
      "learning_rate": 1.619015872013084e-05,
      "loss": 0.9557,
      "step": 5032
    },
    {
      "epoch": 0.3089720372018785,
      "grad_norm": 0.6686159680525449,
      "learning_rate": 1.618859699065599e-05,
      "loss": 0.9847,
      "step": 5033
    },
    {
      "epoch": 0.309033426440345,
      "grad_norm": 0.7257889345585704,
      "learning_rate": 1.6187035016512807e-05,
      "loss": 0.9474,
      "step": 5034
    },
    {
      "epoch": 0.30909481567881153,
      "grad_norm": 0.6762386214568354,
      "learning_rate": 1.6185472797763036e-05,
      "loss": 0.9367,
      "step": 5035
    },
    {
      "epoch": 0.309156204917278,
      "grad_norm": 0.6596723399801218,
      "learning_rate": 1.6183910334468445e-05,
      "loss": 0.9056,
      "step": 5036
    },
    {
      "epoch": 0.3092175941557445,
      "grad_norm": 0.6428468265910767,
      "learning_rate": 1.6182347626690802e-05,
      "loss": 0.9724,
      "step": 5037
    },
    {
      "epoch": 0.309278983394211,
      "grad_norm": 0.6857477274647056,
      "learning_rate": 1.6180784674491894e-05,
      "loss": 0.9573,
      "step": 5038
    },
    {
      "epoch": 0.3093403726326775,
      "grad_norm": 0.6532722015009567,
      "learning_rate": 1.617922147793351e-05,
      "loss": 0.9063,
      "step": 5039
    },
    {
      "epoch": 0.309401761871144,
      "grad_norm": 0.6360872085367888,
      "learning_rate": 1.6177658037077452e-05,
      "loss": 0.9112,
      "step": 5040
    },
    {
      "epoch": 0.3094631511096105,
      "grad_norm": 0.634761419033819,
      "learning_rate": 1.6176094351985527e-05,
      "loss": 0.9256,
      "step": 5041
    },
    {
      "epoch": 0.30952454034807697,
      "grad_norm": 1.7041738623994869,
      "learning_rate": 1.617453042271957e-05,
      "loss": 0.9671,
      "step": 5042
    },
    {
      "epoch": 0.30958592958654346,
      "grad_norm": 0.679643191958788,
      "learning_rate": 1.6172966249341393e-05,
      "loss": 0.9246,
      "step": 5043
    },
    {
      "epoch": 0.30964731882500995,
      "grad_norm": 0.6007101783083573,
      "learning_rate": 1.617140183191285e-05,
      "loss": 0.9205,
      "step": 5044
    },
    {
      "epoch": 0.30970870806347645,
      "grad_norm": 0.6620429936567992,
      "learning_rate": 1.6169837170495782e-05,
      "loss": 0.9605,
      "step": 5045
    },
    {
      "epoch": 0.309770097301943,
      "grad_norm": 0.668396785566694,
      "learning_rate": 1.6168272265152052e-05,
      "loss": 0.9395,
      "step": 5046
    },
    {
      "epoch": 0.3098314865404095,
      "grad_norm": 0.6519394296216723,
      "learning_rate": 1.616670711594353e-05,
      "loss": 0.9496,
      "step": 5047
    },
    {
      "epoch": 0.309892875778876,
      "grad_norm": 0.6964007492769771,
      "learning_rate": 1.6165141722932095e-05,
      "loss": 0.9683,
      "step": 5048
    },
    {
      "epoch": 0.30995426501734247,
      "grad_norm": 0.667484063660302,
      "learning_rate": 1.6163576086179636e-05,
      "loss": 0.9196,
      "step": 5049
    },
    {
      "epoch": 0.31001565425580896,
      "grad_norm": 0.6711975767197647,
      "learning_rate": 1.6162010205748046e-05,
      "loss": 0.9199,
      "step": 5050
    },
    {
      "epoch": 0.31007704349427545,
      "grad_norm": 0.5915135961516911,
      "learning_rate": 1.6160444081699237e-05,
      "loss": 0.9097,
      "step": 5051
    },
    {
      "epoch": 0.31013843273274194,
      "grad_norm": 0.6566499472862894,
      "learning_rate": 1.6158877714095127e-05,
      "loss": 0.9588,
      "step": 5052
    },
    {
      "epoch": 0.31019982197120843,
      "grad_norm": 0.6355059646835891,
      "learning_rate": 1.6157311102997636e-05,
      "loss": 0.9107,
      "step": 5053
    },
    {
      "epoch": 0.3102612112096749,
      "grad_norm": 0.7101835471805662,
      "learning_rate": 1.6155744248468708e-05,
      "loss": 0.9427,
      "step": 5054
    },
    {
      "epoch": 0.3103226004481414,
      "grad_norm": 0.6604793022614039,
      "learning_rate": 1.6154177150570287e-05,
      "loss": 0.9327,
      "step": 5055
    },
    {
      "epoch": 0.31038398968660796,
      "grad_norm": 0.740162363444149,
      "learning_rate": 1.615260980936433e-05,
      "loss": 0.9601,
      "step": 5056
    },
    {
      "epoch": 0.31044537892507446,
      "grad_norm": 0.6667029083559846,
      "learning_rate": 1.6151042224912797e-05,
      "loss": 0.9427,
      "step": 5057
    },
    {
      "epoch": 0.31050676816354095,
      "grad_norm": 0.6867698841387482,
      "learning_rate": 1.614947439727767e-05,
      "loss": 0.8996,
      "step": 5058
    },
    {
      "epoch": 0.31056815740200744,
      "grad_norm": 0.6855582095754665,
      "learning_rate": 1.614790632652093e-05,
      "loss": 0.9657,
      "step": 5059
    },
    {
      "epoch": 0.31062954664047393,
      "grad_norm": 0.6854892034206193,
      "learning_rate": 1.614633801270457e-05,
      "loss": 0.9182,
      "step": 5060
    },
    {
      "epoch": 0.3106909358789404,
      "grad_norm": 0.7763926269537572,
      "learning_rate": 1.6144769455890595e-05,
      "loss": 0.9698,
      "step": 5061
    },
    {
      "epoch": 0.3107523251174069,
      "grad_norm": 0.6755456076222024,
      "learning_rate": 1.614320065614102e-05,
      "loss": 0.9255,
      "step": 5062
    },
    {
      "epoch": 0.3108137143558734,
      "grad_norm": 0.7328637133989723,
      "learning_rate": 1.614163161351787e-05,
      "loss": 0.9347,
      "step": 5063
    },
    {
      "epoch": 0.3108751035943399,
      "grad_norm": 0.6740147521183807,
      "learning_rate": 1.614006232808317e-05,
      "loss": 0.9203,
      "step": 5064
    },
    {
      "epoch": 0.3109364928328064,
      "grad_norm": 0.6548913907147724,
      "learning_rate": 1.613849279989897e-05,
      "loss": 0.9174,
      "step": 5065
    },
    {
      "epoch": 0.3109978820712729,
      "grad_norm": 0.6105973296064144,
      "learning_rate": 1.6136923029027315e-05,
      "loss": 0.932,
      "step": 5066
    },
    {
      "epoch": 0.3110592713097394,
      "grad_norm": 0.6677429531376274,
      "learning_rate": 1.6135353015530274e-05,
      "loss": 0.9897,
      "step": 5067
    },
    {
      "epoch": 0.3111206605482059,
      "grad_norm": 0.6860417830083861,
      "learning_rate": 1.6133782759469912e-05,
      "loss": 0.972,
      "step": 5068
    },
    {
      "epoch": 0.3111820497866724,
      "grad_norm": 0.6487659031752687,
      "learning_rate": 1.613221226090831e-05,
      "loss": 0.9324,
      "step": 5069
    },
    {
      "epoch": 0.3112434390251389,
      "grad_norm": 0.7062637010439967,
      "learning_rate": 1.6130641519907562e-05,
      "loss": 0.983,
      "step": 5070
    },
    {
      "epoch": 0.3113048282636054,
      "grad_norm": 0.6503173418595175,
      "learning_rate": 1.6129070536529767e-05,
      "loss": 0.8963,
      "step": 5071
    },
    {
      "epoch": 0.3113662175020719,
      "grad_norm": 0.6162332942304839,
      "learning_rate": 1.612749931083703e-05,
      "loss": 0.9607,
      "step": 5072
    },
    {
      "epoch": 0.3114276067405384,
      "grad_norm": 0.6789719842541707,
      "learning_rate": 1.6125927842891476e-05,
      "loss": 0.9545,
      "step": 5073
    },
    {
      "epoch": 0.31148899597900487,
      "grad_norm": 0.6601118069406514,
      "learning_rate": 1.612435613275523e-05,
      "loss": 0.9681,
      "step": 5074
    },
    {
      "epoch": 0.31155038521747136,
      "grad_norm": 0.6393375267514142,
      "learning_rate": 1.612278418049043e-05,
      "loss": 0.8905,
      "step": 5075
    },
    {
      "epoch": 0.31161177445593785,
      "grad_norm": 0.6411708091788293,
      "learning_rate": 1.6121211986159228e-05,
      "loss": 0.9646,
      "step": 5076
    },
    {
      "epoch": 0.3116731636944044,
      "grad_norm": 0.5982416349115852,
      "learning_rate": 1.611963954982377e-05,
      "loss": 0.9308,
      "step": 5077
    },
    {
      "epoch": 0.3117345529328709,
      "grad_norm": 0.6350036596749116,
      "learning_rate": 1.6118066871546238e-05,
      "loss": 0.9457,
      "step": 5078
    },
    {
      "epoch": 0.3117959421713374,
      "grad_norm": 0.6721178010539632,
      "learning_rate": 1.6116493951388794e-05,
      "loss": 0.9427,
      "step": 5079
    },
    {
      "epoch": 0.3118573314098039,
      "grad_norm": 0.7213436247094591,
      "learning_rate": 1.6114920789413635e-05,
      "loss": 0.9231,
      "step": 5080
    },
    {
      "epoch": 0.31191872064827036,
      "grad_norm": 0.6393859293102114,
      "learning_rate": 1.6113347385682953e-05,
      "loss": 0.9629,
      "step": 5081
    },
    {
      "epoch": 0.31198010988673686,
      "grad_norm": 0.585725055599223,
      "learning_rate": 1.611177374025895e-05,
      "loss": 0.9081,
      "step": 5082
    },
    {
      "epoch": 0.31204149912520335,
      "grad_norm": 0.6260066587675877,
      "learning_rate": 1.6110199853203844e-05,
      "loss": 0.9159,
      "step": 5083
    },
    {
      "epoch": 0.31210288836366984,
      "grad_norm": 0.6611443257021095,
      "learning_rate": 1.610862572457986e-05,
      "loss": 0.9542,
      "step": 5084
    },
    {
      "epoch": 0.31216427760213633,
      "grad_norm": 0.7176702435849025,
      "learning_rate": 1.6107051354449227e-05,
      "loss": 0.9215,
      "step": 5085
    },
    {
      "epoch": 0.3122256668406028,
      "grad_norm": 0.6360744881814414,
      "learning_rate": 1.610547674287419e-05,
      "loss": 0.9646,
      "step": 5086
    },
    {
      "epoch": 0.3122870560790693,
      "grad_norm": 0.7632728366039974,
      "learning_rate": 1.6103901889917005e-05,
      "loss": 1.0116,
      "step": 5087
    },
    {
      "epoch": 0.31234844531753586,
      "grad_norm": 0.6559803582406022,
      "learning_rate": 1.6102326795639936e-05,
      "loss": 0.9759,
      "step": 5088
    },
    {
      "epoch": 0.31240983455600235,
      "grad_norm": 0.7731377430013621,
      "learning_rate": 1.6100751460105244e-05,
      "loss": 1.0019,
      "step": 5089
    },
    {
      "epoch": 0.31247122379446884,
      "grad_norm": 0.6737756074950217,
      "learning_rate": 1.6099175883375223e-05,
      "loss": 0.9174,
      "step": 5090
    },
    {
      "epoch": 0.31253261303293534,
      "grad_norm": 0.6934547950881078,
      "learning_rate": 1.6097600065512157e-05,
      "loss": 0.9803,
      "step": 5091
    },
    {
      "epoch": 0.3125940022714018,
      "grad_norm": 0.6560014222877707,
      "learning_rate": 1.6096024006578348e-05,
      "loss": 0.972,
      "step": 5092
    },
    {
      "epoch": 0.3126553915098683,
      "grad_norm": 0.6303164586978276,
      "learning_rate": 1.6094447706636106e-05,
      "loss": 0.9211,
      "step": 5093
    },
    {
      "epoch": 0.3127167807483348,
      "grad_norm": 0.6684420633792099,
      "learning_rate": 1.609287116574775e-05,
      "loss": 0.9252,
      "step": 5094
    },
    {
      "epoch": 0.3127781699868013,
      "grad_norm": 0.7041314185347942,
      "learning_rate": 1.6091294383975613e-05,
      "loss": 0.992,
      "step": 5095
    },
    {
      "epoch": 0.3128395592252678,
      "grad_norm": 0.7171679826522964,
      "learning_rate": 1.608971736138203e-05,
      "loss": 0.9474,
      "step": 5096
    },
    {
      "epoch": 0.3129009484637343,
      "grad_norm": 0.6927488245146343,
      "learning_rate": 1.6088140098029344e-05,
      "loss": 0.9435,
      "step": 5097
    },
    {
      "epoch": 0.3129623377022008,
      "grad_norm": 0.6790299773106561,
      "learning_rate": 1.6086562593979925e-05,
      "loss": 0.9455,
      "step": 5098
    },
    {
      "epoch": 0.3130237269406673,
      "grad_norm": 0.6049201900962984,
      "learning_rate": 1.608498484929613e-05,
      "loss": 0.9039,
      "step": 5099
    },
    {
      "epoch": 0.3130851161791338,
      "grad_norm": 0.7694871999649516,
      "learning_rate": 1.6083406864040338e-05,
      "loss": 0.9733,
      "step": 5100
    },
    {
      "epoch": 0.3131465054176003,
      "grad_norm": 0.6611247331778762,
      "learning_rate": 1.6081828638274937e-05,
      "loss": 0.9183,
      "step": 5101
    },
    {
      "epoch": 0.3132078946560668,
      "grad_norm": 0.6652573619614808,
      "learning_rate": 1.6080250172062325e-05,
      "loss": 0.9319,
      "step": 5102
    },
    {
      "epoch": 0.3132692838945333,
      "grad_norm": 0.7648411180563911,
      "learning_rate": 1.6078671465464903e-05,
      "loss": 0.9271,
      "step": 5103
    },
    {
      "epoch": 0.3133306731329998,
      "grad_norm": 0.7024690818094869,
      "learning_rate": 1.6077092518545087e-05,
      "loss": 0.9746,
      "step": 5104
    },
    {
      "epoch": 0.3133920623714663,
      "grad_norm": 0.6853785187987327,
      "learning_rate": 1.60755133313653e-05,
      "loss": 0.9426,
      "step": 5105
    },
    {
      "epoch": 0.31345345160993277,
      "grad_norm": 0.6896087671823706,
      "learning_rate": 1.607393390398798e-05,
      "loss": 0.9393,
      "step": 5106
    },
    {
      "epoch": 0.31351484084839926,
      "grad_norm": 0.6483195528911071,
      "learning_rate": 1.6072354236475562e-05,
      "loss": 0.9566,
      "step": 5107
    },
    {
      "epoch": 0.31357623008686575,
      "grad_norm": 0.6536409733196842,
      "learning_rate": 1.6070774328890507e-05,
      "loss": 0.9511,
      "step": 5108
    },
    {
      "epoch": 0.3136376193253323,
      "grad_norm": 0.6669278794650595,
      "learning_rate": 1.6069194181295275e-05,
      "loss": 0.9498,
      "step": 5109
    },
    {
      "epoch": 0.3136990085637988,
      "grad_norm": 0.7218924586362762,
      "learning_rate": 1.6067613793752333e-05,
      "loss": 0.9665,
      "step": 5110
    },
    {
      "epoch": 0.3137603978022653,
      "grad_norm": 0.6639062474768159,
      "learning_rate": 1.6066033166324167e-05,
      "loss": 0.8961,
      "step": 5111
    },
    {
      "epoch": 0.31382178704073177,
      "grad_norm": 0.6310412444564455,
      "learning_rate": 1.6064452299073267e-05,
      "loss": 0.9235,
      "step": 5112
    },
    {
      "epoch": 0.31388317627919826,
      "grad_norm": 0.6699151565128589,
      "learning_rate": 1.6062871192062135e-05,
      "loss": 0.9444,
      "step": 5113
    },
    {
      "epoch": 0.31394456551766475,
      "grad_norm": 0.7165925254109069,
      "learning_rate": 1.6061289845353276e-05,
      "loss": 0.9573,
      "step": 5114
    },
    {
      "epoch": 0.31400595475613124,
      "grad_norm": 0.6836803629820608,
      "learning_rate": 1.605970825900921e-05,
      "loss": 0.9801,
      "step": 5115
    },
    {
      "epoch": 0.31406734399459774,
      "grad_norm": 0.7051899302704148,
      "learning_rate": 1.605812643309247e-05,
      "loss": 0.958,
      "step": 5116
    },
    {
      "epoch": 0.31412873323306423,
      "grad_norm": 0.6842148698067152,
      "learning_rate": 1.605654436766559e-05,
      "loss": 0.9499,
      "step": 5117
    },
    {
      "epoch": 0.3141901224715307,
      "grad_norm": 0.6556330130942613,
      "learning_rate": 1.605496206279112e-05,
      "loss": 0.9262,
      "step": 5118
    },
    {
      "epoch": 0.3142515117099972,
      "grad_norm": 0.6677441603594595,
      "learning_rate": 1.6053379518531612e-05,
      "loss": 0.8695,
      "step": 5119
    },
    {
      "epoch": 0.31431290094846376,
      "grad_norm": 0.7122989181027228,
      "learning_rate": 1.6051796734949638e-05,
      "loss": 0.9247,
      "step": 5120
    },
    {
      "epoch": 0.31437429018693025,
      "grad_norm": 0.6980641430229241,
      "learning_rate": 1.6050213712107768e-05,
      "loss": 0.9544,
      "step": 5121
    },
    {
      "epoch": 0.31443567942539674,
      "grad_norm": 0.6637086156864356,
      "learning_rate": 1.6048630450068598e-05,
      "loss": 0.9303,
      "step": 5122
    },
    {
      "epoch": 0.31449706866386323,
      "grad_norm": 0.6253732005880964,
      "learning_rate": 1.604704694889471e-05,
      "loss": 0.9085,
      "step": 5123
    },
    {
      "epoch": 0.3145584579023297,
      "grad_norm": 0.6793885915597424,
      "learning_rate": 1.6045463208648717e-05,
      "loss": 0.9729,
      "step": 5124
    },
    {
      "epoch": 0.3146198471407962,
      "grad_norm": 0.7208327315231484,
      "learning_rate": 1.604387922939323e-05,
      "loss": 0.9523,
      "step": 5125
    },
    {
      "epoch": 0.3146812363792627,
      "grad_norm": 0.6402322241038115,
      "learning_rate": 1.604229501119087e-05,
      "loss": 0.9178,
      "step": 5126
    },
    {
      "epoch": 0.3147426256177292,
      "grad_norm": 0.6254250690016344,
      "learning_rate": 1.6040710554104273e-05,
      "loss": 0.9044,
      "step": 5127
    },
    {
      "epoch": 0.3148040148561957,
      "grad_norm": 0.6286451590969699,
      "learning_rate": 1.603912585819608e-05,
      "loss": 0.9337,
      "step": 5128
    },
    {
      "epoch": 0.3148654040946622,
      "grad_norm": 0.707120467016833,
      "learning_rate": 1.6037540923528943e-05,
      "loss": 0.9786,
      "step": 5129
    },
    {
      "epoch": 0.31492679333312873,
      "grad_norm": 0.6513484872827482,
      "learning_rate": 1.603595575016552e-05,
      "loss": 0.9157,
      "step": 5130
    },
    {
      "epoch": 0.3149881825715952,
      "grad_norm": 0.6700173534851783,
      "learning_rate": 1.6034370338168487e-05,
      "loss": 0.9267,
      "step": 5131
    },
    {
      "epoch": 0.3150495718100617,
      "grad_norm": 0.6201079724785892,
      "learning_rate": 1.603278468760052e-05,
      "loss": 0.9056,
      "step": 5132
    },
    {
      "epoch": 0.3151109610485282,
      "grad_norm": 0.6724455247077332,
      "learning_rate": 1.6031198798524307e-05,
      "loss": 0.9555,
      "step": 5133
    },
    {
      "epoch": 0.3151723502869947,
      "grad_norm": 0.6921338357145279,
      "learning_rate": 1.6029612671002546e-05,
      "loss": 0.9451,
      "step": 5134
    },
    {
      "epoch": 0.3152337395254612,
      "grad_norm": 0.7415571079862218,
      "learning_rate": 1.602802630509795e-05,
      "loss": 1.026,
      "step": 5135
    },
    {
      "epoch": 0.3152951287639277,
      "grad_norm": 0.582810797226988,
      "learning_rate": 1.6026439700873234e-05,
      "loss": 0.9061,
      "step": 5136
    },
    {
      "epoch": 0.31535651800239417,
      "grad_norm": 0.6408855335316038,
      "learning_rate": 1.6024852858391125e-05,
      "loss": 0.9111,
      "step": 5137
    },
    {
      "epoch": 0.31541790724086066,
      "grad_norm": 0.6963857320971923,
      "learning_rate": 1.6023265777714363e-05,
      "loss": 0.9575,
      "step": 5138
    },
    {
      "epoch": 0.31547929647932715,
      "grad_norm": 0.7050626202786482,
      "learning_rate": 1.6021678458905686e-05,
      "loss": 0.9638,
      "step": 5139
    },
    {
      "epoch": 0.31554068571779365,
      "grad_norm": 0.7561022914360338,
      "learning_rate": 1.6020090902027854e-05,
      "loss": 0.9829,
      "step": 5140
    },
    {
      "epoch": 0.3156020749562602,
      "grad_norm": 0.6340228924411828,
      "learning_rate": 1.601850310714363e-05,
      "loss": 0.8996,
      "step": 5141
    },
    {
      "epoch": 0.3156634641947267,
      "grad_norm": 0.7128395441625835,
      "learning_rate": 1.6016915074315788e-05,
      "loss": 0.9817,
      "step": 5142
    },
    {
      "epoch": 0.3157248534331932,
      "grad_norm": 0.647033929782914,
      "learning_rate": 1.6015326803607117e-05,
      "loss": 0.9218,
      "step": 5143
    },
    {
      "epoch": 0.31578624267165967,
      "grad_norm": 0.721238367050015,
      "learning_rate": 1.6013738295080403e-05,
      "loss": 0.9544,
      "step": 5144
    },
    {
      "epoch": 0.31584763191012616,
      "grad_norm": 0.6611442947761722,
      "learning_rate": 1.601214954879845e-05,
      "loss": 0.9398,
      "step": 5145
    },
    {
      "epoch": 0.31590902114859265,
      "grad_norm": 0.6924108624886407,
      "learning_rate": 1.601056056482407e-05,
      "loss": 0.9502,
      "step": 5146
    },
    {
      "epoch": 0.31597041038705914,
      "grad_norm": 0.6375970815459788,
      "learning_rate": 1.6008971343220084e-05,
      "loss": 0.924,
      "step": 5147
    },
    {
      "epoch": 0.31603179962552563,
      "grad_norm": 0.6779383999265025,
      "learning_rate": 1.6007381884049324e-05,
      "loss": 0.901,
      "step": 5148
    },
    {
      "epoch": 0.3160931888639921,
      "grad_norm": 0.749311526489518,
      "learning_rate": 1.6005792187374625e-05,
      "loss": 0.9694,
      "step": 5149
    },
    {
      "epoch": 0.3161545781024586,
      "grad_norm": 0.6826337848526088,
      "learning_rate": 1.6004202253258844e-05,
      "loss": 0.9458,
      "step": 5150
    },
    {
      "epoch": 0.3162159673409251,
      "grad_norm": 0.7495539448199647,
      "learning_rate": 1.600261208176483e-05,
      "loss": 1.0094,
      "step": 5151
    },
    {
      "epoch": 0.31627735657939166,
      "grad_norm": 0.6892566789624512,
      "learning_rate": 1.600102167295546e-05,
      "loss": 0.9931,
      "step": 5152
    },
    {
      "epoch": 0.31633874581785815,
      "grad_norm": 0.6948883226068308,
      "learning_rate": 1.5999431026893607e-05,
      "loss": 0.9178,
      "step": 5153
    },
    {
      "epoch": 0.31640013505632464,
      "grad_norm": 0.7533397834361119,
      "learning_rate": 1.599784014364216e-05,
      "loss": 0.9382,
      "step": 5154
    },
    {
      "epoch": 0.31646152429479113,
      "grad_norm": 0.6624200496792169,
      "learning_rate": 1.599624902326401e-05,
      "loss": 0.9409,
      "step": 5155
    },
    {
      "epoch": 0.3165229135332576,
      "grad_norm": 0.6682491379628496,
      "learning_rate": 1.5994657665822066e-05,
      "loss": 0.9143,
      "step": 5156
    },
    {
      "epoch": 0.3165843027717241,
      "grad_norm": 0.7565049911731898,
      "learning_rate": 1.5993066071379244e-05,
      "loss": 0.9665,
      "step": 5157
    },
    {
      "epoch": 0.3166456920101906,
      "grad_norm": 0.6892028558040292,
      "learning_rate": 1.5991474239998468e-05,
      "loss": 0.9355,
      "step": 5158
    },
    {
      "epoch": 0.3167070812486571,
      "grad_norm": 0.6997256018989224,
      "learning_rate": 1.598988217174267e-05,
      "loss": 0.9556,
      "step": 5159
    },
    {
      "epoch": 0.3167684704871236,
      "grad_norm": 0.6637540515394009,
      "learning_rate": 1.5988289866674795e-05,
      "loss": 0.9142,
      "step": 5160
    },
    {
      "epoch": 0.3168298597255901,
      "grad_norm": 0.7177082032679395,
      "learning_rate": 1.598669732485779e-05,
      "loss": 0.9695,
      "step": 5161
    },
    {
      "epoch": 0.3168912489640566,
      "grad_norm": 0.7787458478311885,
      "learning_rate": 1.5985104546354623e-05,
      "loss": 0.9954,
      "step": 5162
    },
    {
      "epoch": 0.3169526382025231,
      "grad_norm": 0.7685065372476158,
      "learning_rate": 1.5983511531228263e-05,
      "loss": 0.9913,
      "step": 5163
    },
    {
      "epoch": 0.3170140274409896,
      "grad_norm": 0.6758375465031801,
      "learning_rate": 1.598191827954169e-05,
      "loss": 0.9248,
      "step": 5164
    },
    {
      "epoch": 0.3170754166794561,
      "grad_norm": 0.6581561892630414,
      "learning_rate": 1.5980324791357894e-05,
      "loss": 0.9178,
      "step": 5165
    },
    {
      "epoch": 0.3171368059179226,
      "grad_norm": 0.6702677755332443,
      "learning_rate": 1.5978731066739872e-05,
      "loss": 0.9239,
      "step": 5166
    },
    {
      "epoch": 0.3171981951563891,
      "grad_norm": 0.6699303354278557,
      "learning_rate": 1.5977137105750638e-05,
      "loss": 0.895,
      "step": 5167
    },
    {
      "epoch": 0.3172595843948556,
      "grad_norm": 0.6770336555792918,
      "learning_rate": 1.59755429084532e-05,
      "loss": 0.951,
      "step": 5168
    },
    {
      "epoch": 0.31732097363332207,
      "grad_norm": 0.6713134377520629,
      "learning_rate": 1.5973948474910595e-05,
      "loss": 0.9403,
      "step": 5169
    },
    {
      "epoch": 0.31738236287178856,
      "grad_norm": 0.7100541678907134,
      "learning_rate": 1.597235380518586e-05,
      "loss": 0.943,
      "step": 5170
    },
    {
      "epoch": 0.31744375211025505,
      "grad_norm": 0.6319656004774666,
      "learning_rate": 1.597075889934203e-05,
      "loss": 0.9378,
      "step": 5171
    },
    {
      "epoch": 0.31750514134872154,
      "grad_norm": 0.7187863852670945,
      "learning_rate": 1.5969163757442176e-05,
      "loss": 0.9682,
      "step": 5172
    },
    {
      "epoch": 0.3175665305871881,
      "grad_norm": 0.6824522386131797,
      "learning_rate": 1.5967568379549347e-05,
      "loss": 0.8611,
      "step": 5173
    },
    {
      "epoch": 0.3176279198256546,
      "grad_norm": 0.6249963258803376,
      "learning_rate": 1.596597276572662e-05,
      "loss": 0.8562,
      "step": 5174
    },
    {
      "epoch": 0.3176893090641211,
      "grad_norm": 0.7736018230626744,
      "learning_rate": 1.5964376916037086e-05,
      "loss": 0.9851,
      "step": 5175
    },
    {
      "epoch": 0.31775069830258756,
      "grad_norm": 0.6715102906438775,
      "learning_rate": 1.596278083054383e-05,
      "loss": 0.9895,
      "step": 5176
    },
    {
      "epoch": 0.31781208754105406,
      "grad_norm": 0.6627241559547115,
      "learning_rate": 1.596118450930996e-05,
      "loss": 1.0122,
      "step": 5177
    },
    {
      "epoch": 0.31787347677952055,
      "grad_norm": 0.7174126754311936,
      "learning_rate": 1.595958795239858e-05,
      "loss": 0.9551,
      "step": 5178
    },
    {
      "epoch": 0.31793486601798704,
      "grad_norm": 0.6764592485346496,
      "learning_rate": 1.5957991159872818e-05,
      "loss": 0.9376,
      "step": 5179
    },
    {
      "epoch": 0.31799625525645353,
      "grad_norm": 0.6396584551544381,
      "learning_rate": 1.5956394131795798e-05,
      "loss": 0.8887,
      "step": 5180
    },
    {
      "epoch": 0.31805764449492,
      "grad_norm": 0.6281144888476602,
      "learning_rate": 1.595479686823066e-05,
      "loss": 0.9607,
      "step": 5181
    },
    {
      "epoch": 0.3181190337333865,
      "grad_norm": 0.6549037657237875,
      "learning_rate": 1.5953199369240553e-05,
      "loss": 0.8965,
      "step": 5182
    },
    {
      "epoch": 0.31818042297185306,
      "grad_norm": 0.6684774173666034,
      "learning_rate": 1.5951601634888637e-05,
      "loss": 0.9189,
      "step": 5183
    },
    {
      "epoch": 0.31824181221031955,
      "grad_norm": 0.7343659816437298,
      "learning_rate": 1.5950003665238077e-05,
      "loss": 0.9321,
      "step": 5184
    },
    {
      "epoch": 0.31830320144878604,
      "grad_norm": 0.6756245824122027,
      "learning_rate": 1.5948405460352048e-05,
      "loss": 0.9438,
      "step": 5185
    },
    {
      "epoch": 0.31836459068725254,
      "grad_norm": 0.6980547604689835,
      "learning_rate": 1.5946807020293737e-05,
      "loss": 1.0111,
      "step": 5186
    },
    {
      "epoch": 0.318425979925719,
      "grad_norm": 0.6801327769603064,
      "learning_rate": 1.594520834512634e-05,
      "loss": 0.9395,
      "step": 5187
    },
    {
      "epoch": 0.3184873691641855,
      "grad_norm": 0.6218475425253795,
      "learning_rate": 1.5943609434913057e-05,
      "loss": 0.9028,
      "step": 5188
    },
    {
      "epoch": 0.318548758402652,
      "grad_norm": 0.7337282695120471,
      "learning_rate": 1.5942010289717108e-05,
      "loss": 0.9521,
      "step": 5189
    },
    {
      "epoch": 0.3186101476411185,
      "grad_norm": 0.6961980492665053,
      "learning_rate": 1.594041090960171e-05,
      "loss": 0.9224,
      "step": 5190
    },
    {
      "epoch": 0.318671536879585,
      "grad_norm": 0.7108555167715893,
      "learning_rate": 1.5938811294630095e-05,
      "loss": 0.9337,
      "step": 5191
    },
    {
      "epoch": 0.3187329261180515,
      "grad_norm": 0.7387977854468132,
      "learning_rate": 1.5937211444865513e-05,
      "loss": 0.9691,
      "step": 5192
    },
    {
      "epoch": 0.318794315356518,
      "grad_norm": 0.7438106750630585,
      "learning_rate": 1.59356113603712e-05,
      "loss": 0.9991,
      "step": 5193
    },
    {
      "epoch": 0.3188557045949845,
      "grad_norm": 0.6846379942439822,
      "learning_rate": 1.593401104121043e-05,
      "loss": 0.8847,
      "step": 5194
    },
    {
      "epoch": 0.318917093833451,
      "grad_norm": 0.6836604680725533,
      "learning_rate": 1.5932410487446466e-05,
      "loss": 0.922,
      "step": 5195
    },
    {
      "epoch": 0.3189784830719175,
      "grad_norm": 0.7111814809568234,
      "learning_rate": 1.5930809699142585e-05,
      "loss": 0.7503,
      "step": 5196
    },
    {
      "epoch": 0.319039872310384,
      "grad_norm": 0.6741231092636673,
      "learning_rate": 1.5929208676362075e-05,
      "loss": 0.9201,
      "step": 5197
    },
    {
      "epoch": 0.3191012615488505,
      "grad_norm": 0.6847635552167712,
      "learning_rate": 1.5927607419168232e-05,
      "loss": 0.9657,
      "step": 5198
    },
    {
      "epoch": 0.319162650787317,
      "grad_norm": 0.647667115107936,
      "learning_rate": 1.592600592762437e-05,
      "loss": 0.9001,
      "step": 5199
    },
    {
      "epoch": 0.3192240400257835,
      "grad_norm": 0.652818073956599,
      "learning_rate": 1.5924404201793803e-05,
      "loss": 0.907,
      "step": 5200
    },
    {
      "epoch": 0.31928542926424996,
      "grad_norm": 0.6706914600966942,
      "learning_rate": 1.5922802241739844e-05,
      "loss": 0.9429,
      "step": 5201
    },
    {
      "epoch": 0.31934681850271646,
      "grad_norm": 0.7460886637682668,
      "learning_rate": 1.592120004752584e-05,
      "loss": 0.9172,
      "step": 5202
    },
    {
      "epoch": 0.31940820774118295,
      "grad_norm": 0.8092163931381288,
      "learning_rate": 1.5919597619215123e-05,
      "loss": 0.9995,
      "step": 5203
    },
    {
      "epoch": 0.3194695969796495,
      "grad_norm": 0.7546223336651657,
      "learning_rate": 1.5917994956871056e-05,
      "loss": 0.9796,
      "step": 5204
    },
    {
      "epoch": 0.319530986218116,
      "grad_norm": 0.699380755347681,
      "learning_rate": 1.5916392060556998e-05,
      "loss": 0.9447,
      "step": 5205
    },
    {
      "epoch": 0.3195923754565825,
      "grad_norm": 0.6802140749644725,
      "learning_rate": 1.5914788930336316e-05,
      "loss": 0.9359,
      "step": 5206
    },
    {
      "epoch": 0.31965376469504897,
      "grad_norm": 0.7175585602730841,
      "learning_rate": 1.5913185566272396e-05,
      "loss": 0.9343,
      "step": 5207
    },
    {
      "epoch": 0.31971515393351546,
      "grad_norm": 0.625876222793989,
      "learning_rate": 1.591158196842862e-05,
      "loss": 0.9421,
      "step": 5208
    },
    {
      "epoch": 0.31977654317198195,
      "grad_norm": 0.6668165917951268,
      "learning_rate": 1.5909978136868396e-05,
      "loss": 0.9055,
      "step": 5209
    },
    {
      "epoch": 0.31983793241044844,
      "grad_norm": 0.6393603415669508,
      "learning_rate": 1.5908374071655125e-05,
      "loss": 0.9604,
      "step": 5210
    },
    {
      "epoch": 0.31989932164891494,
      "grad_norm": 0.6331521866482436,
      "learning_rate": 1.5906769772852228e-05,
      "loss": 0.895,
      "step": 5211
    },
    {
      "epoch": 0.3199607108873814,
      "grad_norm": 0.6722607443760066,
      "learning_rate": 1.5905165240523133e-05,
      "loss": 0.935,
      "step": 5212
    },
    {
      "epoch": 0.3200221001258479,
      "grad_norm": 0.700245467478255,
      "learning_rate": 1.590356047473127e-05,
      "loss": 0.916,
      "step": 5213
    },
    {
      "epoch": 0.3200834893643144,
      "grad_norm": 0.6598383125605181,
      "learning_rate": 1.5901955475540087e-05,
      "loss": 0.8993,
      "step": 5214
    },
    {
      "epoch": 0.32014487860278096,
      "grad_norm": 0.6661114861058623,
      "learning_rate": 1.5900350243013035e-05,
      "loss": 0.9737,
      "step": 5215
    },
    {
      "epoch": 0.32020626784124745,
      "grad_norm": 0.7169673045930921,
      "learning_rate": 1.5898744777213584e-05,
      "loss": 0.9721,
      "step": 5216
    },
    {
      "epoch": 0.32026765707971394,
      "grad_norm": 0.883052061656227,
      "learning_rate": 1.5897139078205204e-05,
      "loss": 0.9587,
      "step": 5217
    },
    {
      "epoch": 0.32032904631818043,
      "grad_norm": 0.7059420792513463,
      "learning_rate": 1.5895533146051375e-05,
      "loss": 0.9589,
      "step": 5218
    },
    {
      "epoch": 0.3203904355566469,
      "grad_norm": 0.6499597802446926,
      "learning_rate": 1.589392698081559e-05,
      "loss": 0.9665,
      "step": 5219
    },
    {
      "epoch": 0.3204518247951134,
      "grad_norm": 0.7359199246119089,
      "learning_rate": 1.5892320582561348e-05,
      "loss": 0.9135,
      "step": 5220
    },
    {
      "epoch": 0.3205132140335799,
      "grad_norm": 0.6373351842261301,
      "learning_rate": 1.589071395135216e-05,
      "loss": 0.9005,
      "step": 5221
    },
    {
      "epoch": 0.3205746032720464,
      "grad_norm": 0.6826359909020826,
      "learning_rate": 1.5889107087251542e-05,
      "loss": 0.9034,
      "step": 5222
    },
    {
      "epoch": 0.3206359925105129,
      "grad_norm": 0.7139469064448548,
      "learning_rate": 1.5887499990323025e-05,
      "loss": 0.9365,
      "step": 5223
    },
    {
      "epoch": 0.3206973817489794,
      "grad_norm": 0.6468833152054513,
      "learning_rate": 1.588589266063014e-05,
      "loss": 0.903,
      "step": 5224
    },
    {
      "epoch": 0.3207587709874459,
      "grad_norm": 0.7252624129768099,
      "learning_rate": 1.5884285098236444e-05,
      "loss": 0.9653,
      "step": 5225
    },
    {
      "epoch": 0.3208201602259124,
      "grad_norm": 0.7030068267379391,
      "learning_rate": 1.5882677303205486e-05,
      "loss": 0.946,
      "step": 5226
    },
    {
      "epoch": 0.3208815494643789,
      "grad_norm": 0.6758797862077447,
      "learning_rate": 1.588106927560083e-05,
      "loss": 0.964,
      "step": 5227
    },
    {
      "epoch": 0.3209429387028454,
      "grad_norm": 0.6867054734661474,
      "learning_rate": 1.5879461015486052e-05,
      "loss": 0.9069,
      "step": 5228
    },
    {
      "epoch": 0.3210043279413119,
      "grad_norm": 0.7371620477043639,
      "learning_rate": 1.5877852522924733e-05,
      "loss": 0.9649,
      "step": 5229
    },
    {
      "epoch": 0.3210657171797784,
      "grad_norm": 0.6908318739449242,
      "learning_rate": 1.587624379798047e-05,
      "loss": 0.9088,
      "step": 5230
    },
    {
      "epoch": 0.3211271064182449,
      "grad_norm": 0.7166606690650369,
      "learning_rate": 1.5874634840716858e-05,
      "loss": 0.9824,
      "step": 5231
    },
    {
      "epoch": 0.32118849565671137,
      "grad_norm": 0.6598701883568918,
      "learning_rate": 1.587302565119751e-05,
      "loss": 0.9321,
      "step": 5232
    },
    {
      "epoch": 0.32124988489517786,
      "grad_norm": 0.7079566897132431,
      "learning_rate": 1.587141622948605e-05,
      "loss": 0.9382,
      "step": 5233
    },
    {
      "epoch": 0.32131127413364435,
      "grad_norm": 0.6747609625759758,
      "learning_rate": 1.5869806575646106e-05,
      "loss": 0.9001,
      "step": 5234
    },
    {
      "epoch": 0.32137266337211084,
      "grad_norm": 0.6871702007254276,
      "learning_rate": 1.5868196689741308e-05,
      "loss": 0.9361,
      "step": 5235
    },
    {
      "epoch": 0.3214340526105774,
      "grad_norm": 0.6308111940035489,
      "learning_rate": 1.5866586571835314e-05,
      "loss": 0.9128,
      "step": 5236
    },
    {
      "epoch": 0.3214954418490439,
      "grad_norm": 0.6994956904676022,
      "learning_rate": 1.5864976221991773e-05,
      "loss": 0.9336,
      "step": 5237
    },
    {
      "epoch": 0.3215568310875104,
      "grad_norm": 0.6459273958138771,
      "learning_rate": 1.586336564027436e-05,
      "loss": 0.9275,
      "step": 5238
    },
    {
      "epoch": 0.32161822032597687,
      "grad_norm": 0.6676783278397692,
      "learning_rate": 1.5861754826746737e-05,
      "loss": 0.9305,
      "step": 5239
    },
    {
      "epoch": 0.32167960956444336,
      "grad_norm": 0.6631915660611346,
      "learning_rate": 1.5860143781472596e-05,
      "loss": 0.928,
      "step": 5240
    },
    {
      "epoch": 0.32174099880290985,
      "grad_norm": 0.7248840937371396,
      "learning_rate": 1.585853250451563e-05,
      "loss": 1.01,
      "step": 5241
    },
    {
      "epoch": 0.32180238804137634,
      "grad_norm": 0.6662556950105534,
      "learning_rate": 1.5856920995939542e-05,
      "loss": 0.9094,
      "step": 5242
    },
    {
      "epoch": 0.32186377727984283,
      "grad_norm": 0.656272685146178,
      "learning_rate": 1.585530925580804e-05,
      "loss": 0.8755,
      "step": 5243
    },
    {
      "epoch": 0.3219251665183093,
      "grad_norm": 0.6761551736123188,
      "learning_rate": 1.5853697284184848e-05,
      "loss": 0.911,
      "step": 5244
    },
    {
      "epoch": 0.3219865557567758,
      "grad_norm": 0.670712790754011,
      "learning_rate": 1.5852085081133694e-05,
      "loss": 0.9183,
      "step": 5245
    },
    {
      "epoch": 0.3220479449952423,
      "grad_norm": 0.6985831076406585,
      "learning_rate": 1.585047264671832e-05,
      "loss": 0.9306,
      "step": 5246
    },
    {
      "epoch": 0.32210933423370885,
      "grad_norm": 0.6667817971733627,
      "learning_rate": 1.5848859981002468e-05,
      "loss": 0.9275,
      "step": 5247
    },
    {
      "epoch": 0.32217072347217535,
      "grad_norm": 0.7074408835235325,
      "learning_rate": 1.58472470840499e-05,
      "loss": 0.9814,
      "step": 5248
    },
    {
      "epoch": 0.32223211271064184,
      "grad_norm": 0.7127426062992511,
      "learning_rate": 1.5845633955924382e-05,
      "loss": 0.9674,
      "step": 5249
    },
    {
      "epoch": 0.32229350194910833,
      "grad_norm": 0.6401521033902313,
      "learning_rate": 1.5844020596689687e-05,
      "loss": 0.9205,
      "step": 5250
    },
    {
      "epoch": 0.3223548911875748,
      "grad_norm": 0.6498380812922521,
      "learning_rate": 1.584240700640961e-05,
      "loss": 0.9327,
      "step": 5251
    },
    {
      "epoch": 0.3224162804260413,
      "grad_norm": 0.6877823467681549,
      "learning_rate": 1.5840793185147924e-05,
      "loss": 0.9528,
      "step": 5252
    },
    {
      "epoch": 0.3224776696645078,
      "grad_norm": 0.6320324366200627,
      "learning_rate": 1.5839179132968453e-05,
      "loss": 0.9052,
      "step": 5253
    },
    {
      "epoch": 0.3225390589029743,
      "grad_norm": 0.7226335082389812,
      "learning_rate": 1.5837564849934998e-05,
      "loss": 0.9834,
      "step": 5254
    },
    {
      "epoch": 0.3226004481414408,
      "grad_norm": 0.6630170110893626,
      "learning_rate": 1.5835950336111383e-05,
      "loss": 0.931,
      "step": 5255
    },
    {
      "epoch": 0.3226618373799073,
      "grad_norm": 0.6562263574242778,
      "learning_rate": 1.583433559156144e-05,
      "loss": 0.9168,
      "step": 5256
    },
    {
      "epoch": 0.3227232266183738,
      "grad_norm": 0.691882448601559,
      "learning_rate": 1.5832720616349006e-05,
      "loss": 0.919,
      "step": 5257
    },
    {
      "epoch": 0.3227846158568403,
      "grad_norm": 0.7140604678539993,
      "learning_rate": 1.5831105410537932e-05,
      "loss": 0.9627,
      "step": 5258
    },
    {
      "epoch": 0.3228460050953068,
      "grad_norm": 0.7462368996397092,
      "learning_rate": 1.5829489974192072e-05,
      "loss": 0.9801,
      "step": 5259
    },
    {
      "epoch": 0.3229073943337733,
      "grad_norm": 0.7440597173438356,
      "learning_rate": 1.5827874307375294e-05,
      "loss": 0.9484,
      "step": 5260
    },
    {
      "epoch": 0.3229687835722398,
      "grad_norm": 0.658273418195567,
      "learning_rate": 1.582625841015148e-05,
      "loss": 0.892,
      "step": 5261
    },
    {
      "epoch": 0.3230301728107063,
      "grad_norm": 0.648415711092037,
      "learning_rate": 1.5824642282584505e-05,
      "loss": 0.9161,
      "step": 5262
    },
    {
      "epoch": 0.3230915620491728,
      "grad_norm": 0.6675749641454157,
      "learning_rate": 1.5823025924738272e-05,
      "loss": 0.9457,
      "step": 5263
    },
    {
      "epoch": 0.32315295128763927,
      "grad_norm": 0.7125303759231456,
      "learning_rate": 1.5821409336676676e-05,
      "loss": 0.941,
      "step": 5264
    },
    {
      "epoch": 0.32321434052610576,
      "grad_norm": 0.6613195820044442,
      "learning_rate": 1.5819792518463634e-05,
      "loss": 0.9395,
      "step": 5265
    },
    {
      "epoch": 0.32327572976457225,
      "grad_norm": 0.6673462716238545,
      "learning_rate": 1.581817547016307e-05,
      "loss": 0.8902,
      "step": 5266
    },
    {
      "epoch": 0.32333711900303874,
      "grad_norm": 0.7264562276210257,
      "learning_rate": 1.5816558191838914e-05,
      "loss": 0.9462,
      "step": 5267
    },
    {
      "epoch": 0.3233985082415053,
      "grad_norm": 0.6042025791373897,
      "learning_rate": 1.58149406835551e-05,
      "loss": 0.8941,
      "step": 5268
    },
    {
      "epoch": 0.3234598974799718,
      "grad_norm": 0.6947221417440819,
      "learning_rate": 1.5813322945375583e-05,
      "loss": 0.921,
      "step": 5269
    },
    {
      "epoch": 0.3235212867184383,
      "grad_norm": 0.623453233786056,
      "learning_rate": 1.5811704977364315e-05,
      "loss": 0.9233,
      "step": 5270
    },
    {
      "epoch": 0.32358267595690476,
      "grad_norm": 0.6762486504061316,
      "learning_rate": 1.5810086779585267e-05,
      "loss": 1.0039,
      "step": 5271
    },
    {
      "epoch": 0.32364406519537126,
      "grad_norm": 0.749627995172635,
      "learning_rate": 1.5808468352102416e-05,
      "loss": 0.9611,
      "step": 5272
    },
    {
      "epoch": 0.32370545443383775,
      "grad_norm": 0.660658022493324,
      "learning_rate": 1.5806849694979742e-05,
      "loss": 0.9456,
      "step": 5273
    },
    {
      "epoch": 0.32376684367230424,
      "grad_norm": 0.7121304727064048,
      "learning_rate": 1.5805230808281245e-05,
      "loss": 0.942,
      "step": 5274
    },
    {
      "epoch": 0.32382823291077073,
      "grad_norm": 0.7215186772943799,
      "learning_rate": 1.5803611692070925e-05,
      "loss": 0.9878,
      "step": 5275
    },
    {
      "epoch": 0.3238896221492372,
      "grad_norm": 0.6414209920640765,
      "learning_rate": 1.5801992346412793e-05,
      "loss": 0.9725,
      "step": 5276
    },
    {
      "epoch": 0.3239510113877037,
      "grad_norm": 0.7153785387984697,
      "learning_rate": 1.5800372771370874e-05,
      "loss": 0.9219,
      "step": 5277
    },
    {
      "epoch": 0.3240124006261702,
      "grad_norm": 0.6603735169774614,
      "learning_rate": 1.57987529670092e-05,
      "loss": 0.9393,
      "step": 5278
    },
    {
      "epoch": 0.32407378986463675,
      "grad_norm": 0.6686617084570444,
      "learning_rate": 1.57971329333918e-05,
      "loss": 0.9305,
      "step": 5279
    },
    {
      "epoch": 0.32413517910310324,
      "grad_norm": 0.6717969649217669,
      "learning_rate": 1.5795512670582734e-05,
      "loss": 0.9471,
      "step": 5280
    },
    {
      "epoch": 0.32419656834156974,
      "grad_norm": 0.6577202687586128,
      "learning_rate": 1.5793892178646055e-05,
      "loss": 0.9068,
      "step": 5281
    },
    {
      "epoch": 0.3242579575800362,
      "grad_norm": 0.6084735502094601,
      "learning_rate": 1.5792271457645832e-05,
      "loss": 0.9185,
      "step": 5282
    },
    {
      "epoch": 0.3243193468185027,
      "grad_norm": 0.6451743671441855,
      "learning_rate": 1.579065050764614e-05,
      "loss": 0.9033,
      "step": 5283
    },
    {
      "epoch": 0.3243807360569692,
      "grad_norm": 0.7265994898800536,
      "learning_rate": 1.5789029328711058e-05,
      "loss": 0.971,
      "step": 5284
    },
    {
      "epoch": 0.3244421252954357,
      "grad_norm": 0.7480831458246368,
      "learning_rate": 1.5787407920904686e-05,
      "loss": 0.9405,
      "step": 5285
    },
    {
      "epoch": 0.3245035145339022,
      "grad_norm": 0.6380205981144169,
      "learning_rate": 1.5785786284291127e-05,
      "loss": 0.8808,
      "step": 5286
    },
    {
      "epoch": 0.3245649037723687,
      "grad_norm": 0.7867028869009735,
      "learning_rate": 1.5784164418934495e-05,
      "loss": 0.9219,
      "step": 5287
    },
    {
      "epoch": 0.3246262930108352,
      "grad_norm": 0.6673493486536517,
      "learning_rate": 1.5782542324898903e-05,
      "loss": 0.9098,
      "step": 5288
    },
    {
      "epoch": 0.3246876822493017,
      "grad_norm": 0.6766318531449086,
      "learning_rate": 1.5780920002248484e-05,
      "loss": 0.9982,
      "step": 5289
    },
    {
      "epoch": 0.3247490714877682,
      "grad_norm": 0.6600494978790435,
      "learning_rate": 1.5779297451047384e-05,
      "loss": 0.9784,
      "step": 5290
    },
    {
      "epoch": 0.3248104607262347,
      "grad_norm": 0.6835199524592398,
      "learning_rate": 1.5777674671359742e-05,
      "loss": 0.9037,
      "step": 5291
    },
    {
      "epoch": 0.3248718499647012,
      "grad_norm": 0.6194101111436532,
      "learning_rate": 1.577605166324972e-05,
      "loss": 0.9299,
      "step": 5292
    },
    {
      "epoch": 0.3249332392031677,
      "grad_norm": 0.629387662191456,
      "learning_rate": 1.5774428426781487e-05,
      "loss": 0.8895,
      "step": 5293
    },
    {
      "epoch": 0.3249946284416342,
      "grad_norm": 0.6127980795684158,
      "learning_rate": 1.5772804962019208e-05,
      "loss": 0.9021,
      "step": 5294
    },
    {
      "epoch": 0.3250560176801007,
      "grad_norm": 0.6690803328062385,
      "learning_rate": 1.577118126902708e-05,
      "loss": 0.9294,
      "step": 5295
    },
    {
      "epoch": 0.32511740691856716,
      "grad_norm": 0.6369900853476262,
      "learning_rate": 1.5769557347869287e-05,
      "loss": 0.8937,
      "step": 5296
    },
    {
      "epoch": 0.32517879615703366,
      "grad_norm": 0.7508363334800109,
      "learning_rate": 1.576793319861003e-05,
      "loss": 0.9677,
      "step": 5297
    },
    {
      "epoch": 0.32524018539550015,
      "grad_norm": 0.6538357509932988,
      "learning_rate": 1.576630882131353e-05,
      "loss": 0.9362,
      "step": 5298
    },
    {
      "epoch": 0.32530157463396664,
      "grad_norm": 0.6583826320707833,
      "learning_rate": 1.5764684216044e-05,
      "loss": 0.8958,
      "step": 5299
    },
    {
      "epoch": 0.3253629638724332,
      "grad_norm": 0.7632156773439212,
      "learning_rate": 1.5763059382865675e-05,
      "loss": 0.9584,
      "step": 5300
    },
    {
      "epoch": 0.3254243531108997,
      "grad_norm": 0.6143614813185595,
      "learning_rate": 1.5761434321842787e-05,
      "loss": 0.9522,
      "step": 5301
    },
    {
      "epoch": 0.32548574234936617,
      "grad_norm": 0.7136469722618689,
      "learning_rate": 1.5759809033039583e-05,
      "loss": 0.9235,
      "step": 5302
    },
    {
      "epoch": 0.32554713158783266,
      "grad_norm": 0.6858322512807736,
      "learning_rate": 1.5758183516520326e-05,
      "loss": 0.9115,
      "step": 5303
    },
    {
      "epoch": 0.32560852082629915,
      "grad_norm": 0.6406049844448649,
      "learning_rate": 1.5756557772349276e-05,
      "loss": 0.9199,
      "step": 5304
    },
    {
      "epoch": 0.32566991006476564,
      "grad_norm": 0.67299128394794,
      "learning_rate": 1.5754931800590712e-05,
      "loss": 0.9486,
      "step": 5305
    },
    {
      "epoch": 0.32573129930323214,
      "grad_norm": 0.6618607970611289,
      "learning_rate": 1.575330560130891e-05,
      "loss": 0.9516,
      "step": 5306
    },
    {
      "epoch": 0.3257926885416986,
      "grad_norm": 0.6844334051824674,
      "learning_rate": 1.5751679174568167e-05,
      "loss": 0.9204,
      "step": 5307
    },
    {
      "epoch": 0.3258540777801651,
      "grad_norm": 0.6679864739277839,
      "learning_rate": 1.575005252043279e-05,
      "loss": 0.9124,
      "step": 5308
    },
    {
      "epoch": 0.3259154670186316,
      "grad_norm": 0.5978740304805251,
      "learning_rate": 1.5748425638967074e-05,
      "loss": 0.8605,
      "step": 5309
    },
    {
      "epoch": 0.32597685625709816,
      "grad_norm": 0.6251051520900135,
      "learning_rate": 1.5746798530235355e-05,
      "loss": 0.9026,
      "step": 5310
    },
    {
      "epoch": 0.32603824549556465,
      "grad_norm": 0.6204966585030938,
      "learning_rate": 1.5745171194301952e-05,
      "loss": 0.9259,
      "step": 5311
    },
    {
      "epoch": 0.32609963473403114,
      "grad_norm": 0.7191422631991984,
      "learning_rate": 1.5743543631231206e-05,
      "loss": 0.9239,
      "step": 5312
    },
    {
      "epoch": 0.32616102397249763,
      "grad_norm": 0.7032260532984568,
      "learning_rate": 1.5741915841087457e-05,
      "loss": 0.9562,
      "step": 5313
    },
    {
      "epoch": 0.3262224132109641,
      "grad_norm": 0.7535379218831251,
      "learning_rate": 1.5740287823935067e-05,
      "loss": 0.943,
      "step": 5314
    },
    {
      "epoch": 0.3262838024494306,
      "grad_norm": 0.6815608427443779,
      "learning_rate": 1.57386595798384e-05,
      "loss": 0.8825,
      "step": 5315
    },
    {
      "epoch": 0.3263451916878971,
      "grad_norm": 0.7356681403331815,
      "learning_rate": 1.5737031108861826e-05,
      "loss": 0.9668,
      "step": 5316
    },
    {
      "epoch": 0.3264065809263636,
      "grad_norm": 0.6286809249396242,
      "learning_rate": 1.573540241106973e-05,
      "loss": 0.9511,
      "step": 5317
    },
    {
      "epoch": 0.3264679701648301,
      "grad_norm": 0.5818671857743317,
      "learning_rate": 1.57337734865265e-05,
      "loss": 0.8843,
      "step": 5318
    },
    {
      "epoch": 0.3265293594032966,
      "grad_norm": 0.6792878424611644,
      "learning_rate": 1.5732144335296537e-05,
      "loss": 0.9218,
      "step": 5319
    },
    {
      "epoch": 0.3265907486417631,
      "grad_norm": 0.6504496836650128,
      "learning_rate": 1.5730514957444254e-05,
      "loss": 0.939,
      "step": 5320
    },
    {
      "epoch": 0.3266521378802296,
      "grad_norm": 0.6741410149573744,
      "learning_rate": 1.5728885353034063e-05,
      "loss": 0.9424,
      "step": 5321
    },
    {
      "epoch": 0.3267135271186961,
      "grad_norm": 0.6652738083397144,
      "learning_rate": 1.5727255522130395e-05,
      "loss": 0.9712,
      "step": 5322
    },
    {
      "epoch": 0.3267749163571626,
      "grad_norm": 0.7276178529187664,
      "learning_rate": 1.5725625464797684e-05,
      "loss": 0.9165,
      "step": 5323
    },
    {
      "epoch": 0.3268363055956291,
      "grad_norm": 0.5945980951584373,
      "learning_rate": 1.5723995181100374e-05,
      "loss": 0.9313,
      "step": 5324
    },
    {
      "epoch": 0.3268976948340956,
      "grad_norm": 0.6557728683738087,
      "learning_rate": 1.5722364671102922e-05,
      "loss": 0.924,
      "step": 5325
    },
    {
      "epoch": 0.3269590840725621,
      "grad_norm": 0.64685550254387,
      "learning_rate": 1.572073393486979e-05,
      "loss": 0.7292,
      "step": 5326
    },
    {
      "epoch": 0.32702047331102857,
      "grad_norm": 0.6498458060298742,
      "learning_rate": 1.5719102972465447e-05,
      "loss": 0.9371,
      "step": 5327
    },
    {
      "epoch": 0.32708186254949506,
      "grad_norm": 0.6566281645859373,
      "learning_rate": 1.571747178395438e-05,
      "loss": 0.8989,
      "step": 5328
    },
    {
      "epoch": 0.32714325178796155,
      "grad_norm": 0.6308188253809605,
      "learning_rate": 1.571584036940107e-05,
      "loss": 0.9255,
      "step": 5329
    },
    {
      "epoch": 0.32720464102642804,
      "grad_norm": 0.7519759756942412,
      "learning_rate": 1.571420872887002e-05,
      "loss": 0.9708,
      "step": 5330
    },
    {
      "epoch": 0.32726603026489454,
      "grad_norm": 0.7568806358563936,
      "learning_rate": 1.571257686242574e-05,
      "loss": 0.9871,
      "step": 5331
    },
    {
      "epoch": 0.3273274195033611,
      "grad_norm": 0.7204581629995933,
      "learning_rate": 1.571094477013274e-05,
      "loss": 0.9684,
      "step": 5332
    },
    {
      "epoch": 0.3273888087418276,
      "grad_norm": 0.6477312367065382,
      "learning_rate": 1.570931245205555e-05,
      "loss": 0.9058,
      "step": 5333
    },
    {
      "epoch": 0.32745019798029407,
      "grad_norm": 0.6634327899857247,
      "learning_rate": 1.5707679908258702e-05,
      "loss": 0.9143,
      "step": 5334
    },
    {
      "epoch": 0.32751158721876056,
      "grad_norm": 0.72237836371575,
      "learning_rate": 1.5706047138806742e-05,
      "loss": 0.9499,
      "step": 5335
    },
    {
      "epoch": 0.32757297645722705,
      "grad_norm": 0.6298584975888765,
      "learning_rate": 1.570441414376422e-05,
      "loss": 0.9445,
      "step": 5336
    },
    {
      "epoch": 0.32763436569569354,
      "grad_norm": 0.70367748044759,
      "learning_rate": 1.57027809231957e-05,
      "loss": 0.9917,
      "step": 5337
    },
    {
      "epoch": 0.32769575493416003,
      "grad_norm": 0.6225267504737673,
      "learning_rate": 1.5701147477165748e-05,
      "loss": 0.9059,
      "step": 5338
    },
    {
      "epoch": 0.3277571441726265,
      "grad_norm": 0.7166531509538806,
      "learning_rate": 1.5699513805738942e-05,
      "loss": 0.9694,
      "step": 5339
    },
    {
      "epoch": 0.327818533411093,
      "grad_norm": 0.6798864770166742,
      "learning_rate": 1.5697879908979875e-05,
      "loss": 0.9473,
      "step": 5340
    },
    {
      "epoch": 0.3278799226495595,
      "grad_norm": 0.6750104508660509,
      "learning_rate": 1.5696245786953138e-05,
      "loss": 0.9394,
      "step": 5341
    },
    {
      "epoch": 0.32794131188802605,
      "grad_norm": 0.6634405935117033,
      "learning_rate": 1.5694611439723342e-05,
      "loss": 0.9067,
      "step": 5342
    },
    {
      "epoch": 0.32800270112649255,
      "grad_norm": 0.7233321523916899,
      "learning_rate": 1.56929768673551e-05,
      "loss": 0.9013,
      "step": 5343
    },
    {
      "epoch": 0.32806409036495904,
      "grad_norm": 0.6954294162757672,
      "learning_rate": 1.569134206991303e-05,
      "loss": 0.9732,
      "step": 5344
    },
    {
      "epoch": 0.32812547960342553,
      "grad_norm": 0.7141062219508081,
      "learning_rate": 1.5689707047461772e-05,
      "loss": 0.9465,
      "step": 5345
    },
    {
      "epoch": 0.328186868841892,
      "grad_norm": 0.6735290332968618,
      "learning_rate": 1.5688071800065964e-05,
      "loss": 0.9372,
      "step": 5346
    },
    {
      "epoch": 0.3282482580803585,
      "grad_norm": 0.6739979778621006,
      "learning_rate": 1.5686436327790253e-05,
      "loss": 0.9416,
      "step": 5347
    },
    {
      "epoch": 0.328309647318825,
      "grad_norm": 0.7439504184600768,
      "learning_rate": 1.5684800630699302e-05,
      "loss": 0.9429,
      "step": 5348
    },
    {
      "epoch": 0.3283710365572915,
      "grad_norm": 0.6444440778934901,
      "learning_rate": 1.5683164708857778e-05,
      "loss": 0.8798,
      "step": 5349
    },
    {
      "epoch": 0.328432425795758,
      "grad_norm": 0.7028836164368465,
      "learning_rate": 1.5681528562330356e-05,
      "loss": 0.9535,
      "step": 5350
    },
    {
      "epoch": 0.3284938150342245,
      "grad_norm": 0.7698736693305522,
      "learning_rate": 1.5679892191181726e-05,
      "loss": 1.0171,
      "step": 5351
    },
    {
      "epoch": 0.32855520427269097,
      "grad_norm": 0.6868408641869476,
      "learning_rate": 1.5678255595476578e-05,
      "loss": 0.9646,
      "step": 5352
    },
    {
      "epoch": 0.3286165935111575,
      "grad_norm": 0.6662867621793654,
      "learning_rate": 1.5676618775279615e-05,
      "loss": 0.9482,
      "step": 5353
    },
    {
      "epoch": 0.328677982749624,
      "grad_norm": 0.6178457830971825,
      "learning_rate": 1.5674981730655553e-05,
      "loss": 0.8725,
      "step": 5354
    },
    {
      "epoch": 0.3287393719880905,
      "grad_norm": 0.6880179449354146,
      "learning_rate": 1.567334446166911e-05,
      "loss": 0.9089,
      "step": 5355
    },
    {
      "epoch": 0.328800761226557,
      "grad_norm": 0.7281457753447684,
      "learning_rate": 1.5671706968385017e-05,
      "loss": 1.002,
      "step": 5356
    },
    {
      "epoch": 0.3288621504650235,
      "grad_norm": 0.644847524201082,
      "learning_rate": 1.5670069250868018e-05,
      "loss": 0.9074,
      "step": 5357
    },
    {
      "epoch": 0.32892353970349,
      "grad_norm": 0.6510572222992512,
      "learning_rate": 1.566843130918285e-05,
      "loss": 0.7412,
      "step": 5358
    },
    {
      "epoch": 0.32898492894195647,
      "grad_norm": 0.7064033221492785,
      "learning_rate": 1.5666793143394277e-05,
      "loss": 0.9563,
      "step": 5359
    },
    {
      "epoch": 0.32904631818042296,
      "grad_norm": 0.686571333855317,
      "learning_rate": 1.5665154753567064e-05,
      "loss": 0.9051,
      "step": 5360
    },
    {
      "epoch": 0.32910770741888945,
      "grad_norm": 0.6240392158554794,
      "learning_rate": 1.5663516139765983e-05,
      "loss": 0.9172,
      "step": 5361
    },
    {
      "epoch": 0.32916909665735594,
      "grad_norm": 0.7092668896867135,
      "learning_rate": 1.5661877302055822e-05,
      "loss": 0.961,
      "step": 5362
    },
    {
      "epoch": 0.3292304858958225,
      "grad_norm": 0.6769021730717221,
      "learning_rate": 1.5660238240501365e-05,
      "loss": 0.9397,
      "step": 5363
    },
    {
      "epoch": 0.329291875134289,
      "grad_norm": 0.6915585791441472,
      "learning_rate": 1.565859895516742e-05,
      "loss": 0.918,
      "step": 5364
    },
    {
      "epoch": 0.32935326437275547,
      "grad_norm": 0.7015533911661967,
      "learning_rate": 1.565695944611879e-05,
      "loss": 0.9861,
      "step": 5365
    },
    {
      "epoch": 0.32941465361122196,
      "grad_norm": 0.6838397509321159,
      "learning_rate": 1.56553197134203e-05,
      "loss": 0.9081,
      "step": 5366
    },
    {
      "epoch": 0.32947604284968846,
      "grad_norm": 0.7317327464433736,
      "learning_rate": 1.5653679757136776e-05,
      "loss": 0.9839,
      "step": 5367
    },
    {
      "epoch": 0.32953743208815495,
      "grad_norm": 0.68981444019879,
      "learning_rate": 1.565203957733305e-05,
      "loss": 0.933,
      "step": 5368
    },
    {
      "epoch": 0.32959882132662144,
      "grad_norm": 0.6681456194418274,
      "learning_rate": 1.5650399174073977e-05,
      "loss": 0.764,
      "step": 5369
    },
    {
      "epoch": 0.32966021056508793,
      "grad_norm": 0.6781338793068528,
      "learning_rate": 1.5648758547424397e-05,
      "loss": 0.9281,
      "step": 5370
    },
    {
      "epoch": 0.3297215998035544,
      "grad_norm": 0.6806385079537443,
      "learning_rate": 1.564711769744918e-05,
      "loss": 0.8822,
      "step": 5371
    },
    {
      "epoch": 0.3297829890420209,
      "grad_norm": 0.6340008839163745,
      "learning_rate": 1.5645476624213204e-05,
      "loss": 0.9403,
      "step": 5372
    },
    {
      "epoch": 0.3298443782804874,
      "grad_norm": 0.7077323199942408,
      "learning_rate": 1.5643835327781337e-05,
      "loss": 0.9536,
      "step": 5373
    },
    {
      "epoch": 0.32990576751895395,
      "grad_norm": 0.6829317795297892,
      "learning_rate": 1.564219380821848e-05,
      "loss": 0.9446,
      "step": 5374
    },
    {
      "epoch": 0.32996715675742044,
      "grad_norm": 0.6742896095431056,
      "learning_rate": 1.564055206558952e-05,
      "loss": 0.9594,
      "step": 5375
    },
    {
      "epoch": 0.33002854599588693,
      "grad_norm": 0.672283936542283,
      "learning_rate": 1.563891009995937e-05,
      "loss": 0.9404,
      "step": 5376
    },
    {
      "epoch": 0.3300899352343534,
      "grad_norm": 0.6750180606462417,
      "learning_rate": 1.5637267911392947e-05,
      "loss": 0.9636,
      "step": 5377
    },
    {
      "epoch": 0.3301513244728199,
      "grad_norm": 0.6287265203442871,
      "learning_rate": 1.5635625499955168e-05,
      "loss": 0.8892,
      "step": 5378
    },
    {
      "epoch": 0.3302127137112864,
      "grad_norm": 0.7395760594457685,
      "learning_rate": 1.5633982865710976e-05,
      "loss": 0.9442,
      "step": 5379
    },
    {
      "epoch": 0.3302741029497529,
      "grad_norm": 0.728238616878009,
      "learning_rate": 1.5632340008725306e-05,
      "loss": 0.9853,
      "step": 5380
    },
    {
      "epoch": 0.3303354921882194,
      "grad_norm": 0.6132369947880151,
      "learning_rate": 1.5630696929063116e-05,
      "loss": 0.8992,
      "step": 5381
    },
    {
      "epoch": 0.3303968814266859,
      "grad_norm": 0.6801266749718353,
      "learning_rate": 1.562905362678936e-05,
      "loss": 0.9444,
      "step": 5382
    },
    {
      "epoch": 0.3304582706651524,
      "grad_norm": 0.710791251111037,
      "learning_rate": 1.5627410101969004e-05,
      "loss": 0.9659,
      "step": 5383
    },
    {
      "epoch": 0.3305196599036189,
      "grad_norm": 0.7340616667347103,
      "learning_rate": 1.5625766354667033e-05,
      "loss": 1.028,
      "step": 5384
    },
    {
      "epoch": 0.3305810491420854,
      "grad_norm": 0.6343758534648477,
      "learning_rate": 1.562412238494843e-05,
      "loss": 0.8839,
      "step": 5385
    },
    {
      "epoch": 0.3306424383805519,
      "grad_norm": 0.653977463831161,
      "learning_rate": 1.5622478192878182e-05,
      "loss": 0.94,
      "step": 5386
    },
    {
      "epoch": 0.3307038276190184,
      "grad_norm": 0.5892861620059281,
      "learning_rate": 1.5620833778521306e-05,
      "loss": 0.9026,
      "step": 5387
    },
    {
      "epoch": 0.3307652168574849,
      "grad_norm": 0.6049551615145095,
      "learning_rate": 1.5619189141942808e-05,
      "loss": 0.9571,
      "step": 5388
    },
    {
      "epoch": 0.3308266060959514,
      "grad_norm": 0.7275789781416648,
      "learning_rate": 1.561754428320771e-05,
      "loss": 0.9604,
      "step": 5389
    },
    {
      "epoch": 0.3308879953344179,
      "grad_norm": 0.6558621663921832,
      "learning_rate": 1.561589920238104e-05,
      "loss": 0.8912,
      "step": 5390
    },
    {
      "epoch": 0.33094938457288436,
      "grad_norm": 0.6390451044306611,
      "learning_rate": 1.5614253899527843e-05,
      "loss": 0.9272,
      "step": 5391
    },
    {
      "epoch": 0.33101077381135086,
      "grad_norm": 0.738947700662404,
      "learning_rate": 1.5612608374713155e-05,
      "loss": 0.8806,
      "step": 5392
    },
    {
      "epoch": 0.33107216304981735,
      "grad_norm": 0.7054047978376838,
      "learning_rate": 1.5610962628002044e-05,
      "loss": 0.98,
      "step": 5393
    },
    {
      "epoch": 0.33113355228828384,
      "grad_norm": 0.7053576583951197,
      "learning_rate": 1.560931665945957e-05,
      "loss": 0.9647,
      "step": 5394
    },
    {
      "epoch": 0.3311949415267504,
      "grad_norm": 0.6908794690226369,
      "learning_rate": 1.5607670469150808e-05,
      "loss": 0.9539,
      "step": 5395
    },
    {
      "epoch": 0.3312563307652169,
      "grad_norm": 0.6657808154909619,
      "learning_rate": 1.560602405714084e-05,
      "loss": 0.9006,
      "step": 5396
    },
    {
      "epoch": 0.33131772000368337,
      "grad_norm": 0.7090034730860674,
      "learning_rate": 1.560437742349476e-05,
      "loss": 1.0023,
      "step": 5397
    },
    {
      "epoch": 0.33137910924214986,
      "grad_norm": 0.696725084604902,
      "learning_rate": 1.560273056827766e-05,
      "loss": 0.958,
      "step": 5398
    },
    {
      "epoch": 0.33144049848061635,
      "grad_norm": 0.6299919365328608,
      "learning_rate": 1.560108349155466e-05,
      "loss": 0.9246,
      "step": 5399
    },
    {
      "epoch": 0.33150188771908284,
      "grad_norm": 0.729260176291398,
      "learning_rate": 1.5599436193390873e-05,
      "loss": 0.9411,
      "step": 5400
    },
    {
      "epoch": 0.33156327695754934,
      "grad_norm": 0.5987868745056717,
      "learning_rate": 1.5597788673851426e-05,
      "loss": 0.918,
      "step": 5401
    },
    {
      "epoch": 0.3316246661960158,
      "grad_norm": 0.6174378309952891,
      "learning_rate": 1.5596140933001452e-05,
      "loss": 0.8699,
      "step": 5402
    },
    {
      "epoch": 0.3316860554344823,
      "grad_norm": 0.7000431425327821,
      "learning_rate": 1.5594492970906097e-05,
      "loss": 0.9615,
      "step": 5403
    },
    {
      "epoch": 0.3317474446729488,
      "grad_norm": 0.6253015232524276,
      "learning_rate": 1.5592844787630514e-05,
      "loss": 0.9202,
      "step": 5404
    },
    {
      "epoch": 0.3318088339114153,
      "grad_norm": 0.6922346501394402,
      "learning_rate": 1.559119638323986e-05,
      "loss": 0.9358,
      "step": 5405
    },
    {
      "epoch": 0.33187022314988185,
      "grad_norm": 0.6103413749647021,
      "learning_rate": 1.5589547757799316e-05,
      "loss": 0.8709,
      "step": 5406
    },
    {
      "epoch": 0.33193161238834834,
      "grad_norm": 0.6656681779249708,
      "learning_rate": 1.558789891137405e-05,
      "loss": 0.9525,
      "step": 5407
    },
    {
      "epoch": 0.33199300162681483,
      "grad_norm": 0.718169693019818,
      "learning_rate": 1.5586249844029254e-05,
      "loss": 1.0122,
      "step": 5408
    },
    {
      "epoch": 0.3320543908652813,
      "grad_norm": 0.6520734131869521,
      "learning_rate": 1.5584600555830125e-05,
      "loss": 0.9294,
      "step": 5409
    },
    {
      "epoch": 0.3321157801037478,
      "grad_norm": 0.6601600465946845,
      "learning_rate": 1.5582951046841866e-05,
      "loss": 0.878,
      "step": 5410
    },
    {
      "epoch": 0.3321771693422143,
      "grad_norm": 0.690630522860946,
      "learning_rate": 1.5581301317129693e-05,
      "loss": 0.9264,
      "step": 5411
    },
    {
      "epoch": 0.3322385585806808,
      "grad_norm": 0.7055851882997658,
      "learning_rate": 1.557965136675883e-05,
      "loss": 0.9255,
      "step": 5412
    },
    {
      "epoch": 0.3322999478191473,
      "grad_norm": 0.668438474155427,
      "learning_rate": 1.5578001195794507e-05,
      "loss": 0.9534,
      "step": 5413
    },
    {
      "epoch": 0.3323613370576138,
      "grad_norm": 0.6503892312208905,
      "learning_rate": 1.557635080430196e-05,
      "loss": 0.9046,
      "step": 5414
    },
    {
      "epoch": 0.3324227262960803,
      "grad_norm": 0.6670479255864433,
      "learning_rate": 1.5574700192346442e-05,
      "loss": 0.8903,
      "step": 5415
    },
    {
      "epoch": 0.3324841155345468,
      "grad_norm": 0.7291287088199296,
      "learning_rate": 1.557304935999321e-05,
      "loss": 0.9201,
      "step": 5416
    },
    {
      "epoch": 0.3325455047730133,
      "grad_norm": 0.7040196452013506,
      "learning_rate": 1.557139830730753e-05,
      "loss": 0.9775,
      "step": 5417
    },
    {
      "epoch": 0.3326068940114798,
      "grad_norm": 0.6454578357269581,
      "learning_rate": 1.556974703435468e-05,
      "loss": 0.9144,
      "step": 5418
    },
    {
      "epoch": 0.3326682832499463,
      "grad_norm": 0.7157105239442292,
      "learning_rate": 1.5568095541199935e-05,
      "loss": 0.9283,
      "step": 5419
    },
    {
      "epoch": 0.3327296724884128,
      "grad_norm": 0.656629937192564,
      "learning_rate": 1.5566443827908598e-05,
      "loss": 0.9764,
      "step": 5420
    },
    {
      "epoch": 0.3327910617268793,
      "grad_norm": 0.730476936268898,
      "learning_rate": 1.5564791894545962e-05,
      "loss": 0.9134,
      "step": 5421
    },
    {
      "epoch": 0.33285245096534577,
      "grad_norm": 0.7176338982463606,
      "learning_rate": 1.5563139741177343e-05,
      "loss": 0.9594,
      "step": 5422
    },
    {
      "epoch": 0.33291384020381226,
      "grad_norm": 0.6236033206857925,
      "learning_rate": 1.5561487367868053e-05,
      "loss": 0.8936,
      "step": 5423
    },
    {
      "epoch": 0.33297522944227875,
      "grad_norm": 0.6264098799060023,
      "learning_rate": 1.5559834774683424e-05,
      "loss": 0.9407,
      "step": 5424
    },
    {
      "epoch": 0.33303661868074524,
      "grad_norm": 0.6775232909142476,
      "learning_rate": 1.5558181961688788e-05,
      "loss": 0.9297,
      "step": 5425
    },
    {
      "epoch": 0.33309800791921174,
      "grad_norm": 0.6870175500012387,
      "learning_rate": 1.5556528928949496e-05,
      "loss": 0.9339,
      "step": 5426
    },
    {
      "epoch": 0.3331593971576783,
      "grad_norm": 0.6662171542676156,
      "learning_rate": 1.5554875676530894e-05,
      "loss": 0.9246,
      "step": 5427
    },
    {
      "epoch": 0.3332207863961448,
      "grad_norm": 0.6648367466868892,
      "learning_rate": 1.5553222204498347e-05,
      "loss": 0.8808,
      "step": 5428
    },
    {
      "epoch": 0.33328217563461127,
      "grad_norm": 0.6178827388708268,
      "learning_rate": 1.5551568512917228e-05,
      "loss": 0.8955,
      "step": 5429
    },
    {
      "epoch": 0.33334356487307776,
      "grad_norm": 0.6402700404504443,
      "learning_rate": 1.554991460185291e-05,
      "loss": 0.9657,
      "step": 5430
    },
    {
      "epoch": 0.33340495411154425,
      "grad_norm": 0.6625321050152697,
      "learning_rate": 1.554826047137079e-05,
      "loss": 0.8932,
      "step": 5431
    },
    {
      "epoch": 0.33346634335001074,
      "grad_norm": 0.74978861205798,
      "learning_rate": 1.5546606121536256e-05,
      "loss": 1.0047,
      "step": 5432
    },
    {
      "epoch": 0.33352773258847723,
      "grad_norm": 0.7363424643145458,
      "learning_rate": 1.5544951552414716e-05,
      "loss": 0.9826,
      "step": 5433
    },
    {
      "epoch": 0.3335891218269437,
      "grad_norm": 0.7131510773466019,
      "learning_rate": 1.5543296764071586e-05,
      "loss": 0.9111,
      "step": 5434
    },
    {
      "epoch": 0.3336505110654102,
      "grad_norm": 0.7416891465659392,
      "learning_rate": 1.5541641756572284e-05,
      "loss": 0.9475,
      "step": 5435
    },
    {
      "epoch": 0.3337119003038767,
      "grad_norm": 0.6836091375861963,
      "learning_rate": 1.553998652998225e-05,
      "loss": 0.9649,
      "step": 5436
    },
    {
      "epoch": 0.33377328954234325,
      "grad_norm": 0.7387210551114529,
      "learning_rate": 1.5538331084366916e-05,
      "loss": 0.9225,
      "step": 5437
    },
    {
      "epoch": 0.33383467878080975,
      "grad_norm": 0.6252834485674361,
      "learning_rate": 1.5536675419791732e-05,
      "loss": 0.7615,
      "step": 5438
    },
    {
      "epoch": 0.33389606801927624,
      "grad_norm": 0.6586932672447902,
      "learning_rate": 1.5535019536322158e-05,
      "loss": 0.9399,
      "step": 5439
    },
    {
      "epoch": 0.33395745725774273,
      "grad_norm": 0.6041526061248026,
      "learning_rate": 1.5533363434023658e-05,
      "loss": 0.9001,
      "step": 5440
    },
    {
      "epoch": 0.3340188464962092,
      "grad_norm": 0.6749224226292151,
      "learning_rate": 1.5531707112961708e-05,
      "loss": 0.962,
      "step": 5441
    },
    {
      "epoch": 0.3340802357346757,
      "grad_norm": 0.6959567891087236,
      "learning_rate": 1.5530050573201787e-05,
      "loss": 0.9233,
      "step": 5442
    },
    {
      "epoch": 0.3341416249731422,
      "grad_norm": 0.6144481553028867,
      "learning_rate": 1.5528393814809394e-05,
      "loss": 0.9332,
      "step": 5443
    },
    {
      "epoch": 0.3342030142116087,
      "grad_norm": 0.6748906702337466,
      "learning_rate": 1.5526736837850023e-05,
      "loss": 0.9246,
      "step": 5444
    },
    {
      "epoch": 0.3342644034500752,
      "grad_norm": 0.7073935605846653,
      "learning_rate": 1.5525079642389188e-05,
      "loss": 0.9236,
      "step": 5445
    },
    {
      "epoch": 0.3343257926885417,
      "grad_norm": 0.7169440069741154,
      "learning_rate": 1.55234222284924e-05,
      "loss": 0.9536,
      "step": 5446
    },
    {
      "epoch": 0.33438718192700817,
      "grad_norm": 0.6811398863958155,
      "learning_rate": 1.5521764596225197e-05,
      "loss": 0.9532,
      "step": 5447
    },
    {
      "epoch": 0.3344485711654747,
      "grad_norm": 0.6478165480025428,
      "learning_rate": 1.5520106745653102e-05,
      "loss": 0.9138,
      "step": 5448
    },
    {
      "epoch": 0.3345099604039412,
      "grad_norm": 0.6922990583302837,
      "learning_rate": 1.5518448676841665e-05,
      "loss": 0.9087,
      "step": 5449
    },
    {
      "epoch": 0.3345713496424077,
      "grad_norm": 0.6744798305245184,
      "learning_rate": 1.5516790389856434e-05,
      "loss": 0.9235,
      "step": 5450
    },
    {
      "epoch": 0.3346327388808742,
      "grad_norm": 0.7051783914331429,
      "learning_rate": 1.5515131884762978e-05,
      "loss": 0.9153,
      "step": 5451
    },
    {
      "epoch": 0.3346941281193407,
      "grad_norm": 0.7190615929148438,
      "learning_rate": 1.551347316162686e-05,
      "loss": 0.994,
      "step": 5452
    },
    {
      "epoch": 0.3347555173578072,
      "grad_norm": 0.6474440617195358,
      "learning_rate": 1.551181422051366e-05,
      "loss": 0.901,
      "step": 5453
    },
    {
      "epoch": 0.33481690659627367,
      "grad_norm": 0.7200100210713987,
      "learning_rate": 1.551015506148896e-05,
      "loss": 0.971,
      "step": 5454
    },
    {
      "epoch": 0.33487829583474016,
      "grad_norm": 0.7196030706629593,
      "learning_rate": 1.5508495684618366e-05,
      "loss": 0.95,
      "step": 5455
    },
    {
      "epoch": 0.33493968507320665,
      "grad_norm": 0.6087393323722237,
      "learning_rate": 1.5506836089967473e-05,
      "loss": 0.926,
      "step": 5456
    },
    {
      "epoch": 0.33500107431167314,
      "grad_norm": 0.7603585294961138,
      "learning_rate": 1.55051762776019e-05,
      "loss": 0.975,
      "step": 5457
    },
    {
      "epoch": 0.33506246355013963,
      "grad_norm": 0.7424024506069867,
      "learning_rate": 1.550351624758726e-05,
      "loss": 0.963,
      "step": 5458
    },
    {
      "epoch": 0.3351238527886062,
      "grad_norm": 0.6990514123602968,
      "learning_rate": 1.550185599998919e-05,
      "loss": 0.9318,
      "step": 5459
    },
    {
      "epoch": 0.33518524202707267,
      "grad_norm": 0.6795392207199331,
      "learning_rate": 1.5500195534873328e-05,
      "loss": 0.9006,
      "step": 5460
    },
    {
      "epoch": 0.33524663126553916,
      "grad_norm": 0.7119270548424468,
      "learning_rate": 1.5498534852305318e-05,
      "loss": 0.9201,
      "step": 5461
    },
    {
      "epoch": 0.33530802050400565,
      "grad_norm": 0.6783384479578749,
      "learning_rate": 1.549687395235082e-05,
      "loss": 0.918,
      "step": 5462
    },
    {
      "epoch": 0.33536940974247215,
      "grad_norm": 0.6957442932998052,
      "learning_rate": 1.549521283507549e-05,
      "loss": 0.9185,
      "step": 5463
    },
    {
      "epoch": 0.33543079898093864,
      "grad_norm": 0.6903963900600587,
      "learning_rate": 1.549355150054501e-05,
      "loss": 0.914,
      "step": 5464
    },
    {
      "epoch": 0.33549218821940513,
      "grad_norm": 0.656981635867602,
      "learning_rate": 1.5491889948825054e-05,
      "loss": 0.8869,
      "step": 5465
    },
    {
      "epoch": 0.3355535774578716,
      "grad_norm": 0.6695796662141189,
      "learning_rate": 1.549022817998132e-05,
      "loss": 0.9458,
      "step": 5466
    },
    {
      "epoch": 0.3356149666963381,
      "grad_norm": 0.6850170701657549,
      "learning_rate": 1.5488566194079497e-05,
      "loss": 0.9376,
      "step": 5467
    },
    {
      "epoch": 0.3356763559348046,
      "grad_norm": 0.7081775432633859,
      "learning_rate": 1.5486903991185304e-05,
      "loss": 0.9434,
      "step": 5468
    },
    {
      "epoch": 0.33573774517327115,
      "grad_norm": 0.7047308289637365,
      "learning_rate": 1.5485241571364446e-05,
      "loss": 0.9105,
      "step": 5469
    },
    {
      "epoch": 0.33579913441173764,
      "grad_norm": 0.6008207222417034,
      "learning_rate": 1.548357893468265e-05,
      "loss": 0.7353,
      "step": 5470
    },
    {
      "epoch": 0.33586052365020413,
      "grad_norm": 0.6507180040469835,
      "learning_rate": 1.5481916081205654e-05,
      "loss": 0.922,
      "step": 5471
    },
    {
      "epoch": 0.3359219128886706,
      "grad_norm": 0.7696330831595413,
      "learning_rate": 1.5480253010999197e-05,
      "loss": 0.9963,
      "step": 5472
    },
    {
      "epoch": 0.3359833021271371,
      "grad_norm": 0.6746552724175646,
      "learning_rate": 1.5478589724129027e-05,
      "loss": 0.8928,
      "step": 5473
    },
    {
      "epoch": 0.3360446913656036,
      "grad_norm": 0.6534417028985103,
      "learning_rate": 1.54769262206609e-05,
      "loss": 0.8664,
      "step": 5474
    },
    {
      "epoch": 0.3361060806040701,
      "grad_norm": 0.7302693595648138,
      "learning_rate": 1.547526250066059e-05,
      "loss": 0.944,
      "step": 5475
    },
    {
      "epoch": 0.3361674698425366,
      "grad_norm": 0.6080259674878734,
      "learning_rate": 1.547359856419387e-05,
      "loss": 0.8756,
      "step": 5476
    },
    {
      "epoch": 0.3362288590810031,
      "grad_norm": 0.6792805282160745,
      "learning_rate": 1.5471934411326524e-05,
      "loss": 0.9341,
      "step": 5477
    },
    {
      "epoch": 0.3362902483194696,
      "grad_norm": 0.6775595927171484,
      "learning_rate": 1.547027004212434e-05,
      "loss": 0.9293,
      "step": 5478
    },
    {
      "epoch": 0.33635163755793607,
      "grad_norm": 0.6936057925536088,
      "learning_rate": 1.5468605456653128e-05,
      "loss": 0.9252,
      "step": 5479
    },
    {
      "epoch": 0.3364130267964026,
      "grad_norm": 0.7517495000923438,
      "learning_rate": 1.5466940654978694e-05,
      "loss": 0.9225,
      "step": 5480
    },
    {
      "epoch": 0.3364744160348691,
      "grad_norm": 0.7559227259777287,
      "learning_rate": 1.5465275637166857e-05,
      "loss": 0.9804,
      "step": 5481
    },
    {
      "epoch": 0.3365358052733356,
      "grad_norm": 0.7038893270337151,
      "learning_rate": 1.5463610403283445e-05,
      "loss": 0.9268,
      "step": 5482
    },
    {
      "epoch": 0.3365971945118021,
      "grad_norm": 0.6348174805241598,
      "learning_rate": 1.546194495339429e-05,
      "loss": 0.9109,
      "step": 5483
    },
    {
      "epoch": 0.3366585837502686,
      "grad_norm": 0.7340810631584087,
      "learning_rate": 1.5460279287565237e-05,
      "loss": 0.9536,
      "step": 5484
    },
    {
      "epoch": 0.3367199729887351,
      "grad_norm": 0.655553386632965,
      "learning_rate": 1.5458613405862146e-05,
      "loss": 0.9203,
      "step": 5485
    },
    {
      "epoch": 0.33678136222720156,
      "grad_norm": 0.698855344231224,
      "learning_rate": 1.5456947308350865e-05,
      "loss": 0.9758,
      "step": 5486
    },
    {
      "epoch": 0.33684275146566806,
      "grad_norm": 0.7311290012249454,
      "learning_rate": 1.5455280995097277e-05,
      "loss": 0.974,
      "step": 5487
    },
    {
      "epoch": 0.33690414070413455,
      "grad_norm": 0.6251336419887843,
      "learning_rate": 1.545361446616725e-05,
      "loss": 0.9387,
      "step": 5488
    },
    {
      "epoch": 0.33696552994260104,
      "grad_norm": 0.6344429445434119,
      "learning_rate": 1.5451947721626676e-05,
      "loss": 0.6812,
      "step": 5489
    },
    {
      "epoch": 0.3370269191810676,
      "grad_norm": 0.6977544196696889,
      "learning_rate": 1.5450280761541453e-05,
      "loss": 0.9108,
      "step": 5490
    },
    {
      "epoch": 0.3370883084195341,
      "grad_norm": 0.7474874642392585,
      "learning_rate": 1.5448613585977476e-05,
      "loss": 0.9822,
      "step": 5491
    },
    {
      "epoch": 0.33714969765800057,
      "grad_norm": 0.7633744217288374,
      "learning_rate": 1.5446946195000668e-05,
      "loss": 0.9441,
      "step": 5492
    },
    {
      "epoch": 0.33721108689646706,
      "grad_norm": 0.707872372542762,
      "learning_rate": 1.544527858867694e-05,
      "loss": 0.9183,
      "step": 5493
    },
    {
      "epoch": 0.33727247613493355,
      "grad_norm": 0.7308434671984007,
      "learning_rate": 1.544361076707223e-05,
      "loss": 0.9516,
      "step": 5494
    },
    {
      "epoch": 0.33733386537340004,
      "grad_norm": 0.7507641006779426,
      "learning_rate": 1.544194273025247e-05,
      "loss": 0.938,
      "step": 5495
    },
    {
      "epoch": 0.33739525461186654,
      "grad_norm": 0.6903917663200254,
      "learning_rate": 1.544027447828361e-05,
      "loss": 0.8938,
      "step": 5496
    },
    {
      "epoch": 0.337456643850333,
      "grad_norm": 0.6665597775682714,
      "learning_rate": 1.5438606011231604e-05,
      "loss": 0.9221,
      "step": 5497
    },
    {
      "epoch": 0.3375180330887995,
      "grad_norm": 0.6183304090090338,
      "learning_rate": 1.543693732916241e-05,
      "loss": 0.8993,
      "step": 5498
    },
    {
      "epoch": 0.337579422327266,
      "grad_norm": 0.6880446576310174,
      "learning_rate": 1.5435268432142007e-05,
      "loss": 0.9304,
      "step": 5499
    },
    {
      "epoch": 0.3376408115657325,
      "grad_norm": 0.6858772295407559,
      "learning_rate": 1.5433599320236372e-05,
      "loss": 0.9755,
      "step": 5500
    },
    {
      "epoch": 0.33770220080419905,
      "grad_norm": 0.6814884972980221,
      "learning_rate": 1.5431929993511496e-05,
      "loss": 0.8752,
      "step": 5501
    },
    {
      "epoch": 0.33776359004266554,
      "grad_norm": 0.7491942643292576,
      "learning_rate": 1.5430260452033377e-05,
      "loss": 0.929,
      "step": 5502
    },
    {
      "epoch": 0.33782497928113203,
      "grad_norm": 0.6308246006851934,
      "learning_rate": 1.5428590695868018e-05,
      "loss": 0.8637,
      "step": 5503
    },
    {
      "epoch": 0.3378863685195985,
      "grad_norm": 0.6598154215110663,
      "learning_rate": 1.5426920725081434e-05,
      "loss": 0.9713,
      "step": 5504
    },
    {
      "epoch": 0.337947757758065,
      "grad_norm": 0.72336405530156,
      "learning_rate": 1.542525053973965e-05,
      "loss": 0.8996,
      "step": 5505
    },
    {
      "epoch": 0.3380091469965315,
      "grad_norm": 0.694613969739906,
      "learning_rate": 1.5423580139908692e-05,
      "loss": 0.9045,
      "step": 5506
    },
    {
      "epoch": 0.338070536234998,
      "grad_norm": 0.7017033587950722,
      "learning_rate": 1.5421909525654607e-05,
      "loss": 1.0073,
      "step": 5507
    },
    {
      "epoch": 0.3381319254734645,
      "grad_norm": 0.6823340887632955,
      "learning_rate": 1.542023869704344e-05,
      "loss": 0.899,
      "step": 5508
    },
    {
      "epoch": 0.338193314711931,
      "grad_norm": 0.7016239150227419,
      "learning_rate": 1.541856765414125e-05,
      "loss": 0.7414,
      "step": 5509
    },
    {
      "epoch": 0.3382547039503975,
      "grad_norm": 0.701569798255262,
      "learning_rate": 1.5416896397014094e-05,
      "loss": 0.9551,
      "step": 5510
    },
    {
      "epoch": 0.33831609318886396,
      "grad_norm": 0.6687195632327994,
      "learning_rate": 1.5415224925728054e-05,
      "loss": 0.9739,
      "step": 5511
    },
    {
      "epoch": 0.3383774824273305,
      "grad_norm": 0.679845033762257,
      "learning_rate": 1.5413553240349213e-05,
      "loss": 0.9161,
      "step": 5512
    },
    {
      "epoch": 0.338438871665797,
      "grad_norm": 0.6999813166910149,
      "learning_rate": 1.5411881340943655e-05,
      "loss": 0.9466,
      "step": 5513
    },
    {
      "epoch": 0.3385002609042635,
      "grad_norm": 0.6991555818849108,
      "learning_rate": 1.5410209227577487e-05,
      "loss": 0.9358,
      "step": 5514
    },
    {
      "epoch": 0.33856165014273,
      "grad_norm": 0.7143827461768026,
      "learning_rate": 1.5408536900316807e-05,
      "loss": 0.9589,
      "step": 5515
    },
    {
      "epoch": 0.3386230393811965,
      "grad_norm": 0.6739208837914461,
      "learning_rate": 1.540686435922774e-05,
      "loss": 0.9866,
      "step": 5516
    },
    {
      "epoch": 0.33868442861966297,
      "grad_norm": 0.6431878064101222,
      "learning_rate": 1.5405191604376407e-05,
      "loss": 0.8968,
      "step": 5517
    },
    {
      "epoch": 0.33874581785812946,
      "grad_norm": 0.7691647533939909,
      "learning_rate": 1.540351863582894e-05,
      "loss": 0.9898,
      "step": 5518
    },
    {
      "epoch": 0.33880720709659595,
      "grad_norm": 0.7506246156523317,
      "learning_rate": 1.5401845453651482e-05,
      "loss": 0.9917,
      "step": 5519
    },
    {
      "epoch": 0.33886859633506244,
      "grad_norm": 0.6557966332270516,
      "learning_rate": 1.5400172057910184e-05,
      "loss": 0.9428,
      "step": 5520
    },
    {
      "epoch": 0.33892998557352894,
      "grad_norm": 0.7683840558933973,
      "learning_rate": 1.5398498448671197e-05,
      "loss": 0.9808,
      "step": 5521
    },
    {
      "epoch": 0.3389913748119955,
      "grad_norm": 0.715111295853362,
      "learning_rate": 1.53968246260007e-05,
      "loss": 0.9374,
      "step": 5522
    },
    {
      "epoch": 0.339052764050462,
      "grad_norm": 0.732772036046599,
      "learning_rate": 1.539515058996486e-05,
      "loss": 0.9022,
      "step": 5523
    },
    {
      "epoch": 0.33911415328892847,
      "grad_norm": 0.7016723191122805,
      "learning_rate": 1.5393476340629856e-05,
      "loss": 0.9413,
      "step": 5524
    },
    {
      "epoch": 0.33917554252739496,
      "grad_norm": 0.7193912373575216,
      "learning_rate": 1.539180187806189e-05,
      "loss": 0.9281,
      "step": 5525
    },
    {
      "epoch": 0.33923693176586145,
      "grad_norm": 0.6662044760004974,
      "learning_rate": 1.5390127202327156e-05,
      "loss": 0.9174,
      "step": 5526
    },
    {
      "epoch": 0.33929832100432794,
      "grad_norm": 0.6942314214323874,
      "learning_rate": 1.538845231349187e-05,
      "loss": 0.9949,
      "step": 5527
    },
    {
      "epoch": 0.33935971024279443,
      "grad_norm": 0.6474349668603055,
      "learning_rate": 1.538677721162224e-05,
      "loss": 0.898,
      "step": 5528
    },
    {
      "epoch": 0.3394210994812609,
      "grad_norm": 0.7006762603689344,
      "learning_rate": 1.5385101896784497e-05,
      "loss": 0.9419,
      "step": 5529
    },
    {
      "epoch": 0.3394824887197274,
      "grad_norm": 0.6079641152974817,
      "learning_rate": 1.5383426369044876e-05,
      "loss": 0.8815,
      "step": 5530
    },
    {
      "epoch": 0.3395438779581939,
      "grad_norm": 0.7503753303835753,
      "learning_rate": 1.5381750628469616e-05,
      "loss": 0.9985,
      "step": 5531
    },
    {
      "epoch": 0.3396052671966604,
      "grad_norm": 0.690315027501973,
      "learning_rate": 1.5380074675124972e-05,
      "loss": 0.9281,
      "step": 5532
    },
    {
      "epoch": 0.33966665643512695,
      "grad_norm": 0.6639766235375575,
      "learning_rate": 1.53783985090772e-05,
      "loss": 0.9115,
      "step": 5533
    },
    {
      "epoch": 0.33972804567359344,
      "grad_norm": 0.6936787352719272,
      "learning_rate": 1.5376722130392572e-05,
      "loss": 0.9294,
      "step": 5534
    },
    {
      "epoch": 0.33978943491205993,
      "grad_norm": 0.6995835867386361,
      "learning_rate": 1.537504553913736e-05,
      "loss": 0.951,
      "step": 5535
    },
    {
      "epoch": 0.3398508241505264,
      "grad_norm": 0.6922822459682191,
      "learning_rate": 1.5373368735377847e-05,
      "loss": 0.9296,
      "step": 5536
    },
    {
      "epoch": 0.3399122133889929,
      "grad_norm": 0.6939216172599217,
      "learning_rate": 1.5371691719180333e-05,
      "loss": 0.9194,
      "step": 5537
    },
    {
      "epoch": 0.3399736026274594,
      "grad_norm": 0.6778552136164626,
      "learning_rate": 1.5370014490611114e-05,
      "loss": 0.8702,
      "step": 5538
    },
    {
      "epoch": 0.3400349918659259,
      "grad_norm": 0.7164412000332557,
      "learning_rate": 1.5368337049736505e-05,
      "loss": 0.9371,
      "step": 5539
    },
    {
      "epoch": 0.3400963811043924,
      "grad_norm": 0.6895178985215044,
      "learning_rate": 1.5366659396622813e-05,
      "loss": 0.9032,
      "step": 5540
    },
    {
      "epoch": 0.3401577703428589,
      "grad_norm": 0.7448648177581378,
      "learning_rate": 1.536498153133638e-05,
      "loss": 0.937,
      "step": 5541
    },
    {
      "epoch": 0.34021915958132537,
      "grad_norm": 0.6236071619608271,
      "learning_rate": 1.5363303453943527e-05,
      "loss": 0.9247,
      "step": 5542
    },
    {
      "epoch": 0.3402805488197919,
      "grad_norm": 0.6866610831649761,
      "learning_rate": 1.5361625164510604e-05,
      "loss": 0.9503,
      "step": 5543
    },
    {
      "epoch": 0.3403419380582584,
      "grad_norm": 0.7092566181136385,
      "learning_rate": 1.535994666310397e-05,
      "loss": 0.9381,
      "step": 5544
    },
    {
      "epoch": 0.3404033272967249,
      "grad_norm": 0.7006570806908636,
      "learning_rate": 1.5358267949789968e-05,
      "loss": 0.9765,
      "step": 5545
    },
    {
      "epoch": 0.3404647165351914,
      "grad_norm": 0.620455536772322,
      "learning_rate": 1.535658902463498e-05,
      "loss": 0.877,
      "step": 5546
    },
    {
      "epoch": 0.3405261057736579,
      "grad_norm": 0.6014670757096602,
      "learning_rate": 1.5354909887705378e-05,
      "loss": 0.8511,
      "step": 5547
    },
    {
      "epoch": 0.3405874950121244,
      "grad_norm": 0.6973892275835146,
      "learning_rate": 1.535323053906755e-05,
      "loss": 0.8947,
      "step": 5548
    },
    {
      "epoch": 0.34064888425059087,
      "grad_norm": 0.7115606270689898,
      "learning_rate": 1.5351550978787882e-05,
      "loss": 1.0017,
      "step": 5549
    },
    {
      "epoch": 0.34071027348905736,
      "grad_norm": 0.71137241720868,
      "learning_rate": 1.5349871206932786e-05,
      "loss": 0.9273,
      "step": 5550
    },
    {
      "epoch": 0.34077166272752385,
      "grad_norm": 0.7120040902149349,
      "learning_rate": 1.534819122356867e-05,
      "loss": 0.9205,
      "step": 5551
    },
    {
      "epoch": 0.34083305196599034,
      "grad_norm": 0.6671263106567178,
      "learning_rate": 1.534651102876195e-05,
      "loss": 0.9109,
      "step": 5552
    },
    {
      "epoch": 0.34089444120445683,
      "grad_norm": 0.7036939473118119,
      "learning_rate": 1.534483062257905e-05,
      "loss": 0.9167,
      "step": 5553
    },
    {
      "epoch": 0.3409558304429234,
      "grad_norm": 0.6931124156833788,
      "learning_rate": 1.534315000508641e-05,
      "loss": 0.9207,
      "step": 5554
    },
    {
      "epoch": 0.34101721968138987,
      "grad_norm": 0.6832149922772206,
      "learning_rate": 1.5341469176350478e-05,
      "loss": 0.9113,
      "step": 5555
    },
    {
      "epoch": 0.34107860891985636,
      "grad_norm": 0.6536061963151882,
      "learning_rate": 1.5339788136437698e-05,
      "loss": 0.8999,
      "step": 5556
    },
    {
      "epoch": 0.34113999815832285,
      "grad_norm": 0.6094911146738586,
      "learning_rate": 1.5338106885414535e-05,
      "loss": 0.9305,
      "step": 5557
    },
    {
      "epoch": 0.34120138739678935,
      "grad_norm": 0.6594418683561295,
      "learning_rate": 1.5336425423347453e-05,
      "loss": 0.9162,
      "step": 5558
    },
    {
      "epoch": 0.34126277663525584,
      "grad_norm": 0.6425682949521349,
      "learning_rate": 1.5334743750302935e-05,
      "loss": 0.8731,
      "step": 5559
    },
    {
      "epoch": 0.34132416587372233,
      "grad_norm": 0.6712945121023524,
      "learning_rate": 1.5333061866347464e-05,
      "loss": 0.9193,
      "step": 5560
    },
    {
      "epoch": 0.3413855551121888,
      "grad_norm": 0.7625779543950385,
      "learning_rate": 1.5331379771547536e-05,
      "loss": 0.9199,
      "step": 5561
    },
    {
      "epoch": 0.3414469443506553,
      "grad_norm": 0.6529757940767729,
      "learning_rate": 1.532969746596965e-05,
      "loss": 0.9198,
      "step": 5562
    },
    {
      "epoch": 0.3415083335891218,
      "grad_norm": 0.703347817272609,
      "learning_rate": 1.5328014949680318e-05,
      "loss": 0.9619,
      "step": 5563
    },
    {
      "epoch": 0.34156972282758835,
      "grad_norm": 0.7633928983599031,
      "learning_rate": 1.532633222274606e-05,
      "loss": 0.9698,
      "step": 5564
    },
    {
      "epoch": 0.34163111206605484,
      "grad_norm": 0.7529161711409004,
      "learning_rate": 1.53246492852334e-05,
      "loss": 0.9659,
      "step": 5565
    },
    {
      "epoch": 0.34169250130452133,
      "grad_norm": 0.6808975791098318,
      "learning_rate": 1.5322966137208877e-05,
      "loss": 0.9374,
      "step": 5566
    },
    {
      "epoch": 0.3417538905429878,
      "grad_norm": 0.633641541922863,
      "learning_rate": 1.5321282778739035e-05,
      "loss": 0.8978,
      "step": 5567
    },
    {
      "epoch": 0.3418152797814543,
      "grad_norm": 0.6394567115031643,
      "learning_rate": 1.531959920989042e-05,
      "loss": 0.8896,
      "step": 5568
    },
    {
      "epoch": 0.3418766690199208,
      "grad_norm": 0.7377198519841495,
      "learning_rate": 1.5317915430729602e-05,
      "loss": 0.9386,
      "step": 5569
    },
    {
      "epoch": 0.3419380582583873,
      "grad_norm": 0.6714395979921197,
      "learning_rate": 1.531623144132314e-05,
      "loss": 0.9466,
      "step": 5570
    },
    {
      "epoch": 0.3419994474968538,
      "grad_norm": 0.6080367818609037,
      "learning_rate": 1.5314547241737622e-05,
      "loss": 0.9053,
      "step": 5571
    },
    {
      "epoch": 0.3420608367353203,
      "grad_norm": 0.7139053503831891,
      "learning_rate": 1.5312862832039624e-05,
      "loss": 0.9125,
      "step": 5572
    },
    {
      "epoch": 0.3421222259737868,
      "grad_norm": 0.7093599814455434,
      "learning_rate": 1.531117821229574e-05,
      "loss": 0.9196,
      "step": 5573
    },
    {
      "epoch": 0.34218361521225327,
      "grad_norm": 0.6603809784945923,
      "learning_rate": 1.530949338257258e-05,
      "loss": 0.9185,
      "step": 5574
    },
    {
      "epoch": 0.3422450044507198,
      "grad_norm": 0.7870223325025621,
      "learning_rate": 1.5307808342936747e-05,
      "loss": 0.936,
      "step": 5575
    },
    {
      "epoch": 0.3423063936891863,
      "grad_norm": 0.5986500324011139,
      "learning_rate": 1.5306123093454865e-05,
      "loss": 0.8833,
      "step": 5576
    },
    {
      "epoch": 0.3423677829276528,
      "grad_norm": 0.7153582205471346,
      "learning_rate": 1.530443763419355e-05,
      "loss": 0.8864,
      "step": 5577
    },
    {
      "epoch": 0.3424291721661193,
      "grad_norm": 0.7169686061324518,
      "learning_rate": 1.5302751965219452e-05,
      "loss": 0.9377,
      "step": 5578
    },
    {
      "epoch": 0.3424905614045858,
      "grad_norm": 0.6529911909956957,
      "learning_rate": 1.5301066086599207e-05,
      "loss": 0.9276,
      "step": 5579
    },
    {
      "epoch": 0.34255195064305227,
      "grad_norm": 0.6989013983952818,
      "learning_rate": 1.5299379998399467e-05,
      "loss": 0.8961,
      "step": 5580
    },
    {
      "epoch": 0.34261333988151876,
      "grad_norm": 0.6206612631968131,
      "learning_rate": 1.529769370068689e-05,
      "loss": 0.8762,
      "step": 5581
    },
    {
      "epoch": 0.34267472911998526,
      "grad_norm": 0.7497407865632681,
      "learning_rate": 1.529600719352815e-05,
      "loss": 0.9658,
      "step": 5582
    },
    {
      "epoch": 0.34273611835845175,
      "grad_norm": 0.7043202701460292,
      "learning_rate": 1.5294320476989923e-05,
      "loss": 0.9484,
      "step": 5583
    },
    {
      "epoch": 0.34279750759691824,
      "grad_norm": 0.7388102184330178,
      "learning_rate": 1.5292633551138884e-05,
      "loss": 0.9021,
      "step": 5584
    },
    {
      "epoch": 0.34285889683538473,
      "grad_norm": 0.64804926636596,
      "learning_rate": 1.5290946416041742e-05,
      "loss": 0.8927,
      "step": 5585
    },
    {
      "epoch": 0.3429202860738513,
      "grad_norm": 0.7281851860937206,
      "learning_rate": 1.5289259071765182e-05,
      "loss": 0.9339,
      "step": 5586
    },
    {
      "epoch": 0.34298167531231777,
      "grad_norm": 0.7540429807028838,
      "learning_rate": 1.528757151837593e-05,
      "loss": 0.9151,
      "step": 5587
    },
    {
      "epoch": 0.34304306455078426,
      "grad_norm": 0.6977856113941407,
      "learning_rate": 1.528588375594069e-05,
      "loss": 0.9159,
      "step": 5588
    },
    {
      "epoch": 0.34310445378925075,
      "grad_norm": 0.6721093841908162,
      "learning_rate": 1.5284195784526196e-05,
      "loss": 0.8956,
      "step": 5589
    },
    {
      "epoch": 0.34316584302771724,
      "grad_norm": 0.6787743470459298,
      "learning_rate": 1.5282507604199183e-05,
      "loss": 0.8739,
      "step": 5590
    },
    {
      "epoch": 0.34322723226618373,
      "grad_norm": 0.656726516541783,
      "learning_rate": 1.5280819215026388e-05,
      "loss": 0.8885,
      "step": 5591
    },
    {
      "epoch": 0.3432886215046502,
      "grad_norm": 0.6973153663639913,
      "learning_rate": 1.527913061707457e-05,
      "loss": 0.942,
      "step": 5592
    },
    {
      "epoch": 0.3433500107431167,
      "grad_norm": 0.6980267642858563,
      "learning_rate": 1.5277441810410478e-05,
      "loss": 0.9556,
      "step": 5593
    },
    {
      "epoch": 0.3434113999815832,
      "grad_norm": 0.7129800503486134,
      "learning_rate": 1.5275752795100892e-05,
      "loss": 0.8646,
      "step": 5594
    },
    {
      "epoch": 0.3434727892200497,
      "grad_norm": 0.7334939874629195,
      "learning_rate": 1.5274063571212577e-05,
      "loss": 0.9726,
      "step": 5595
    },
    {
      "epoch": 0.34353417845851625,
      "grad_norm": 0.71669202418126,
      "learning_rate": 1.5272374138812324e-05,
      "loss": 0.9503,
      "step": 5596
    },
    {
      "epoch": 0.34359556769698274,
      "grad_norm": 0.6498654990963788,
      "learning_rate": 1.5270684497966918e-05,
      "loss": 0.9196,
      "step": 5597
    },
    {
      "epoch": 0.34365695693544923,
      "grad_norm": 0.6702553618515342,
      "learning_rate": 1.5268994648743167e-05,
      "loss": 0.9082,
      "step": 5598
    },
    {
      "epoch": 0.3437183461739157,
      "grad_norm": 0.6249176007966764,
      "learning_rate": 1.526730459120788e-05,
      "loss": 0.9117,
      "step": 5599
    },
    {
      "epoch": 0.3437797354123822,
      "grad_norm": 0.6943686494983405,
      "learning_rate": 1.5265614325427863e-05,
      "loss": 0.9245,
      "step": 5600
    },
    {
      "epoch": 0.3438411246508487,
      "grad_norm": 0.6764456273396372,
      "learning_rate": 1.5263923851469957e-05,
      "loss": 0.9274,
      "step": 5601
    },
    {
      "epoch": 0.3439025138893152,
      "grad_norm": 0.6647602059114769,
      "learning_rate": 1.5262233169400987e-05,
      "loss": 0.9081,
      "step": 5602
    },
    {
      "epoch": 0.3439639031277817,
      "grad_norm": 0.7281919475279311,
      "learning_rate": 1.5260542279287792e-05,
      "loss": 1.0018,
      "step": 5603
    },
    {
      "epoch": 0.3440252923662482,
      "grad_norm": 0.661954401327459,
      "learning_rate": 1.5258851181197227e-05,
      "loss": 0.9047,
      "step": 5604
    },
    {
      "epoch": 0.3440866816047147,
      "grad_norm": 0.7077002831305713,
      "learning_rate": 1.525715987519615e-05,
      "loss": 0.9123,
      "step": 5605
    },
    {
      "epoch": 0.34414807084318116,
      "grad_norm": 0.7216274433592363,
      "learning_rate": 1.5255468361351424e-05,
      "loss": 0.9335,
      "step": 5606
    },
    {
      "epoch": 0.3442094600816477,
      "grad_norm": 0.7248374095151886,
      "learning_rate": 1.5253776639729925e-05,
      "loss": 0.9539,
      "step": 5607
    },
    {
      "epoch": 0.3442708493201142,
      "grad_norm": 0.7264641031633786,
      "learning_rate": 1.5252084710398537e-05,
      "loss": 0.9417,
      "step": 5608
    },
    {
      "epoch": 0.3443322385585807,
      "grad_norm": 0.6883725860717713,
      "learning_rate": 1.5250392573424152e-05,
      "loss": 0.6872,
      "step": 5609
    },
    {
      "epoch": 0.3443936277970472,
      "grad_norm": 0.7487290907597144,
      "learning_rate": 1.5248700228873666e-05,
      "loss": 0.9016,
      "step": 5610
    },
    {
      "epoch": 0.3444550170355137,
      "grad_norm": 0.6359601016037634,
      "learning_rate": 1.5247007676813984e-05,
      "loss": 0.8803,
      "step": 5611
    },
    {
      "epoch": 0.34451640627398017,
      "grad_norm": 0.7001481411335585,
      "learning_rate": 1.5245314917312031e-05,
      "loss": 0.9849,
      "step": 5612
    },
    {
      "epoch": 0.34457779551244666,
      "grad_norm": 0.7869282570932999,
      "learning_rate": 1.5243621950434723e-05,
      "loss": 0.9639,
      "step": 5613
    },
    {
      "epoch": 0.34463918475091315,
      "grad_norm": 0.7562162064397983,
      "learning_rate": 1.5241928776248993e-05,
      "loss": 0.9237,
      "step": 5614
    },
    {
      "epoch": 0.34470057398937964,
      "grad_norm": 0.6819856236814191,
      "learning_rate": 1.5240235394821787e-05,
      "loss": 0.9135,
      "step": 5615
    },
    {
      "epoch": 0.34476196322784614,
      "grad_norm": 0.6606551529453782,
      "learning_rate": 1.5238541806220046e-05,
      "loss": 0.9261,
      "step": 5616
    },
    {
      "epoch": 0.3448233524663127,
      "grad_norm": 0.6153187693290807,
      "learning_rate": 1.5236848010510733e-05,
      "loss": 0.9129,
      "step": 5617
    },
    {
      "epoch": 0.3448847417047792,
      "grad_norm": 0.6780804200813928,
      "learning_rate": 1.5235154007760806e-05,
      "loss": 0.9416,
      "step": 5618
    },
    {
      "epoch": 0.34494613094324567,
      "grad_norm": 0.7369028327656875,
      "learning_rate": 1.5233459798037245e-05,
      "loss": 0.857,
      "step": 5619
    },
    {
      "epoch": 0.34500752018171216,
      "grad_norm": 0.6925084461214789,
      "learning_rate": 1.5231765381407021e-05,
      "loss": 0.9285,
      "step": 5620
    },
    {
      "epoch": 0.34506890942017865,
      "grad_norm": 0.7035716012738126,
      "learning_rate": 1.5230070757937134e-05,
      "loss": 0.963,
      "step": 5621
    },
    {
      "epoch": 0.34513029865864514,
      "grad_norm": 0.7356540940381454,
      "learning_rate": 1.5228375927694582e-05,
      "loss": 0.8691,
      "step": 5622
    },
    {
      "epoch": 0.34519168789711163,
      "grad_norm": 0.735923849635493,
      "learning_rate": 1.5226680890746359e-05,
      "loss": 0.9585,
      "step": 5623
    },
    {
      "epoch": 0.3452530771355781,
      "grad_norm": 0.7297573611492143,
      "learning_rate": 1.5224985647159489e-05,
      "loss": 0.9537,
      "step": 5624
    },
    {
      "epoch": 0.3453144663740446,
      "grad_norm": 0.676090249773379,
      "learning_rate": 1.5223290197000993e-05,
      "loss": 0.9349,
      "step": 5625
    },
    {
      "epoch": 0.3453758556125111,
      "grad_norm": 0.6831718479154117,
      "learning_rate": 1.5221594540337898e-05,
      "loss": 0.9518,
      "step": 5626
    },
    {
      "epoch": 0.3454372448509776,
      "grad_norm": 0.6421159269426224,
      "learning_rate": 1.5219898677237242e-05,
      "loss": 0.867,
      "step": 5627
    },
    {
      "epoch": 0.34549863408944415,
      "grad_norm": 0.6671242931615423,
      "learning_rate": 1.5218202607766077e-05,
      "loss": 0.946,
      "step": 5628
    },
    {
      "epoch": 0.34556002332791064,
      "grad_norm": 0.6444833853582821,
      "learning_rate": 1.521650633199145e-05,
      "loss": 0.849,
      "step": 5629
    },
    {
      "epoch": 0.34562141256637713,
      "grad_norm": 0.6203306092547457,
      "learning_rate": 1.5214809849980432e-05,
      "loss": 0.9185,
      "step": 5630
    },
    {
      "epoch": 0.3456828018048436,
      "grad_norm": 0.6622551047802617,
      "learning_rate": 1.5213113161800087e-05,
      "loss": 0.8523,
      "step": 5631
    },
    {
      "epoch": 0.3457441910433101,
      "grad_norm": 0.6854646637263774,
      "learning_rate": 1.5211416267517496e-05,
      "loss": 0.9676,
      "step": 5632
    },
    {
      "epoch": 0.3458055802817766,
      "grad_norm": 0.6401537127667624,
      "learning_rate": 1.520971916719975e-05,
      "loss": 0.9094,
      "step": 5633
    },
    {
      "epoch": 0.3458669695202431,
      "grad_norm": 0.6528553182425785,
      "learning_rate": 1.520802186091394e-05,
      "loss": 0.9282,
      "step": 5634
    },
    {
      "epoch": 0.3459283587587096,
      "grad_norm": 0.7326224705564426,
      "learning_rate": 1.5206324348727175e-05,
      "loss": 0.9341,
      "step": 5635
    },
    {
      "epoch": 0.3459897479971761,
      "grad_norm": 0.6923159459777493,
      "learning_rate": 1.5204626630706558e-05,
      "loss": 0.8859,
      "step": 5636
    },
    {
      "epoch": 0.34605113723564257,
      "grad_norm": 0.6652177128531673,
      "learning_rate": 1.5202928706919218e-05,
      "loss": 0.8918,
      "step": 5637
    },
    {
      "epoch": 0.34611252647410906,
      "grad_norm": 0.6904344856411683,
      "learning_rate": 1.5201230577432275e-05,
      "loss": 0.9414,
      "step": 5638
    },
    {
      "epoch": 0.3461739157125756,
      "grad_norm": 0.699079997239103,
      "learning_rate": 1.5199532242312872e-05,
      "loss": 0.9612,
      "step": 5639
    },
    {
      "epoch": 0.3462353049510421,
      "grad_norm": 0.6697339108358767,
      "learning_rate": 1.519783370162815e-05,
      "loss": 0.9048,
      "step": 5640
    },
    {
      "epoch": 0.3462966941895086,
      "grad_norm": 0.7042076904559313,
      "learning_rate": 1.5196134955445261e-05,
      "loss": 0.93,
      "step": 5641
    },
    {
      "epoch": 0.3463580834279751,
      "grad_norm": 0.6924963537359302,
      "learning_rate": 1.519443600383137e-05,
      "loss": 0.8802,
      "step": 5642
    },
    {
      "epoch": 0.3464194726664416,
      "grad_norm": 0.615269811161554,
      "learning_rate": 1.5192736846853637e-05,
      "loss": 0.9061,
      "step": 5643
    },
    {
      "epoch": 0.34648086190490807,
      "grad_norm": 0.631919893660449,
      "learning_rate": 1.5191037484579245e-05,
      "loss": 0.8729,
      "step": 5644
    },
    {
      "epoch": 0.34654225114337456,
      "grad_norm": 0.7028620879290417,
      "learning_rate": 1.5189337917075379e-05,
      "loss": 0.9342,
      "step": 5645
    },
    {
      "epoch": 0.34660364038184105,
      "grad_norm": 0.6833823876719872,
      "learning_rate": 1.5187638144409227e-05,
      "loss": 0.9487,
      "step": 5646
    },
    {
      "epoch": 0.34666502962030754,
      "grad_norm": 0.725334437742256,
      "learning_rate": 1.5185938166648e-05,
      "loss": 0.9191,
      "step": 5647
    },
    {
      "epoch": 0.34672641885877403,
      "grad_norm": 0.6358174653922609,
      "learning_rate": 1.5184237983858894e-05,
      "loss": 0.9144,
      "step": 5648
    },
    {
      "epoch": 0.3467878080972406,
      "grad_norm": 0.7432134113183968,
      "learning_rate": 1.5182537596109139e-05,
      "loss": 0.9228,
      "step": 5649
    },
    {
      "epoch": 0.34684919733570707,
      "grad_norm": 0.7004628785947725,
      "learning_rate": 1.5180837003465954e-05,
      "loss": 0.9239,
      "step": 5650
    },
    {
      "epoch": 0.34691058657417356,
      "grad_norm": 0.7057145770813711,
      "learning_rate": 1.517913620599657e-05,
      "loss": 0.8952,
      "step": 5651
    },
    {
      "epoch": 0.34697197581264005,
      "grad_norm": 0.6356015786068946,
      "learning_rate": 1.5177435203768233e-05,
      "loss": 0.8735,
      "step": 5652
    },
    {
      "epoch": 0.34703336505110655,
      "grad_norm": 0.7430988191451879,
      "learning_rate": 1.5175733996848193e-05,
      "loss": 0.9525,
      "step": 5653
    },
    {
      "epoch": 0.34709475428957304,
      "grad_norm": 0.7436009839120753,
      "learning_rate": 1.5174032585303703e-05,
      "loss": 0.9227,
      "step": 5654
    },
    {
      "epoch": 0.34715614352803953,
      "grad_norm": 0.6519524089197255,
      "learning_rate": 1.5172330969202036e-05,
      "loss": 0.8816,
      "step": 5655
    },
    {
      "epoch": 0.347217532766506,
      "grad_norm": 0.6578464644078712,
      "learning_rate": 1.5170629148610461e-05,
      "loss": 0.8974,
      "step": 5656
    },
    {
      "epoch": 0.3472789220049725,
      "grad_norm": 0.6541474385649723,
      "learning_rate": 1.516892712359626e-05,
      "loss": 0.8745,
      "step": 5657
    },
    {
      "epoch": 0.347340311243439,
      "grad_norm": 0.735344819362269,
      "learning_rate": 1.5167224894226726e-05,
      "loss": 0.9663,
      "step": 5658
    },
    {
      "epoch": 0.3474017004819055,
      "grad_norm": 0.7724723738723446,
      "learning_rate": 1.5165522460569153e-05,
      "loss": 1.0111,
      "step": 5659
    },
    {
      "epoch": 0.34746308972037204,
      "grad_norm": 0.6849585389700683,
      "learning_rate": 1.5163819822690852e-05,
      "loss": 0.9107,
      "step": 5660
    },
    {
      "epoch": 0.34752447895883853,
      "grad_norm": 0.7111440289776633,
      "learning_rate": 1.5162116980659138e-05,
      "loss": 0.8592,
      "step": 5661
    },
    {
      "epoch": 0.347585868197305,
      "grad_norm": 0.6617692391638358,
      "learning_rate": 1.5160413934541329e-05,
      "loss": 0.9291,
      "step": 5662
    },
    {
      "epoch": 0.3476472574357715,
      "grad_norm": 0.6853857870990658,
      "learning_rate": 1.5158710684404756e-05,
      "loss": 0.9125,
      "step": 5663
    },
    {
      "epoch": 0.347708646674238,
      "grad_norm": 0.6797186466987432,
      "learning_rate": 1.5157007230316757e-05,
      "loss": 0.9128,
      "step": 5664
    },
    {
      "epoch": 0.3477700359127045,
      "grad_norm": 0.7448502816428738,
      "learning_rate": 1.5155303572344686e-05,
      "loss": 0.9352,
      "step": 5665
    },
    {
      "epoch": 0.347831425151171,
      "grad_norm": 0.7119314256314837,
      "learning_rate": 1.5153599710555886e-05,
      "loss": 0.9388,
      "step": 5666
    },
    {
      "epoch": 0.3478928143896375,
      "grad_norm": 0.666063707304581,
      "learning_rate": 1.5151895645017733e-05,
      "loss": 0.8773,
      "step": 5667
    },
    {
      "epoch": 0.347954203628104,
      "grad_norm": 0.7034862192398095,
      "learning_rate": 1.5150191375797585e-05,
      "loss": 0.9281,
      "step": 5668
    },
    {
      "epoch": 0.34801559286657047,
      "grad_norm": 0.697153405430839,
      "learning_rate": 1.5148486902962832e-05,
      "loss": 0.918,
      "step": 5669
    },
    {
      "epoch": 0.348076982105037,
      "grad_norm": 0.6382103725502125,
      "learning_rate": 1.5146782226580849e-05,
      "loss": 0.9039,
      "step": 5670
    },
    {
      "epoch": 0.3481383713435035,
      "grad_norm": 0.6924043720132101,
      "learning_rate": 1.5145077346719041e-05,
      "loss": 0.8962,
      "step": 5671
    },
    {
      "epoch": 0.34819976058197,
      "grad_norm": 0.7452015815297884,
      "learning_rate": 1.514337226344481e-05,
      "loss": 0.9749,
      "step": 5672
    },
    {
      "epoch": 0.3482611498204365,
      "grad_norm": 0.8012563128364285,
      "learning_rate": 1.5141666976825562e-05,
      "loss": 0.9876,
      "step": 5673
    },
    {
      "epoch": 0.348322539058903,
      "grad_norm": 0.6584116819878908,
      "learning_rate": 1.5139961486928722e-05,
      "loss": 0.8658,
      "step": 5674
    },
    {
      "epoch": 0.34838392829736947,
      "grad_norm": 0.6770497390577722,
      "learning_rate": 1.513825579382171e-05,
      "loss": 0.8971,
      "step": 5675
    },
    {
      "epoch": 0.34844531753583596,
      "grad_norm": 0.7157747228709632,
      "learning_rate": 1.5136549897571967e-05,
      "loss": 0.9378,
      "step": 5676
    },
    {
      "epoch": 0.34850670677430245,
      "grad_norm": 0.6304352592659049,
      "learning_rate": 1.5134843798246935e-05,
      "loss": 0.9056,
      "step": 5677
    },
    {
      "epoch": 0.34856809601276895,
      "grad_norm": 0.7230229426127109,
      "learning_rate": 1.513313749591406e-05,
      "loss": 0.9383,
      "step": 5678
    },
    {
      "epoch": 0.34862948525123544,
      "grad_norm": 0.6778518308267318,
      "learning_rate": 1.5131430990640815e-05,
      "loss": 0.9422,
      "step": 5679
    },
    {
      "epoch": 0.34869087448970193,
      "grad_norm": 0.691096352412062,
      "learning_rate": 1.5129724282494649e-05,
      "loss": 0.9341,
      "step": 5680
    },
    {
      "epoch": 0.3487522637281685,
      "grad_norm": 0.7505624988005956,
      "learning_rate": 1.5128017371543052e-05,
      "loss": 0.9402,
      "step": 5681
    },
    {
      "epoch": 0.34881365296663497,
      "grad_norm": 0.6913125165334315,
      "learning_rate": 1.5126310257853499e-05,
      "loss": 0.8793,
      "step": 5682
    },
    {
      "epoch": 0.34887504220510146,
      "grad_norm": 0.729495236085274,
      "learning_rate": 1.5124602941493485e-05,
      "loss": 0.9939,
      "step": 5683
    },
    {
      "epoch": 0.34893643144356795,
      "grad_norm": 0.6566601675822886,
      "learning_rate": 1.512289542253051e-05,
      "loss": 0.9447,
      "step": 5684
    },
    {
      "epoch": 0.34899782068203444,
      "grad_norm": 0.6655561764233208,
      "learning_rate": 1.5121187701032077e-05,
      "loss": 0.8634,
      "step": 5685
    },
    {
      "epoch": 0.34905920992050093,
      "grad_norm": 0.7195567922797846,
      "learning_rate": 1.5119479777065704e-05,
      "loss": 0.9372,
      "step": 5686
    },
    {
      "epoch": 0.3491205991589674,
      "grad_norm": 0.7082547061650061,
      "learning_rate": 1.5117771650698916e-05,
      "loss": 0.8619,
      "step": 5687
    },
    {
      "epoch": 0.3491819883974339,
      "grad_norm": 0.6172432225541551,
      "learning_rate": 1.511606332199924e-05,
      "loss": 0.9074,
      "step": 5688
    },
    {
      "epoch": 0.3492433776359004,
      "grad_norm": 0.6144029864306418,
      "learning_rate": 1.5114354791034225e-05,
      "loss": 0.8618,
      "step": 5689
    },
    {
      "epoch": 0.3493047668743669,
      "grad_norm": 0.6183289702444857,
      "learning_rate": 1.5112646057871408e-05,
      "loss": 0.7188,
      "step": 5690
    },
    {
      "epoch": 0.3493661561128334,
      "grad_norm": 0.6863888092135387,
      "learning_rate": 1.5110937122578343e-05,
      "loss": 0.9209,
      "step": 5691
    },
    {
      "epoch": 0.34942754535129994,
      "grad_norm": 0.6708512790608642,
      "learning_rate": 1.5109227985222603e-05,
      "loss": 0.8869,
      "step": 5692
    },
    {
      "epoch": 0.34948893458976643,
      "grad_norm": 0.7843605842791445,
      "learning_rate": 1.5107518645871757e-05,
      "loss": 0.9642,
      "step": 5693
    },
    {
      "epoch": 0.3495503238282329,
      "grad_norm": 0.6765806840831812,
      "learning_rate": 1.5105809104593378e-05,
      "loss": 0.8842,
      "step": 5694
    },
    {
      "epoch": 0.3496117130666994,
      "grad_norm": 0.6392648427767444,
      "learning_rate": 1.510409936145506e-05,
      "loss": 0.8908,
      "step": 5695
    },
    {
      "epoch": 0.3496731023051659,
      "grad_norm": 0.7263704362012422,
      "learning_rate": 1.5102389416524392e-05,
      "loss": 1.027,
      "step": 5696
    },
    {
      "epoch": 0.3497344915436324,
      "grad_norm": 0.6683881095414084,
      "learning_rate": 1.5100679269868988e-05,
      "loss": 0.8792,
      "step": 5697
    },
    {
      "epoch": 0.3497958807820989,
      "grad_norm": 0.7181746836783198,
      "learning_rate": 1.5098968921556446e-05,
      "loss": 0.9572,
      "step": 5698
    },
    {
      "epoch": 0.3498572700205654,
      "grad_norm": 0.6729355384534769,
      "learning_rate": 1.5097258371654392e-05,
      "loss": 0.8941,
      "step": 5699
    },
    {
      "epoch": 0.3499186592590319,
      "grad_norm": 0.6306858910533731,
      "learning_rate": 1.5095547620230453e-05,
      "loss": 0.9276,
      "step": 5700
    },
    {
      "epoch": 0.34998004849749836,
      "grad_norm": 0.721556830628031,
      "learning_rate": 1.5093836667352264e-05,
      "loss": 0.9487,
      "step": 5701
    },
    {
      "epoch": 0.3500414377359649,
      "grad_norm": 0.6699475755265406,
      "learning_rate": 1.5092125513087468e-05,
      "loss": 0.9211,
      "step": 5702
    },
    {
      "epoch": 0.3501028269744314,
      "grad_norm": 0.6799012007224581,
      "learning_rate": 1.5090414157503715e-05,
      "loss": 0.8841,
      "step": 5703
    },
    {
      "epoch": 0.3501642162128979,
      "grad_norm": 0.7090082774885926,
      "learning_rate": 1.5088702600668668e-05,
      "loss": 0.8897,
      "step": 5704
    },
    {
      "epoch": 0.3502256054513644,
      "grad_norm": 0.739758620104435,
      "learning_rate": 1.5086990842649984e-05,
      "loss": 0.9193,
      "step": 5705
    },
    {
      "epoch": 0.3502869946898309,
      "grad_norm": 0.7045159562075728,
      "learning_rate": 1.508527888351535e-05,
      "loss": 0.9921,
      "step": 5706
    },
    {
      "epoch": 0.35034838392829737,
      "grad_norm": 0.6024691873011049,
      "learning_rate": 1.5083566723332443e-05,
      "loss": 0.8573,
      "step": 5707
    },
    {
      "epoch": 0.35040977316676386,
      "grad_norm": 0.6247761702766135,
      "learning_rate": 1.5081854362168955e-05,
      "loss": 0.8935,
      "step": 5708
    },
    {
      "epoch": 0.35047116240523035,
      "grad_norm": 0.6363194363223729,
      "learning_rate": 1.5080141800092584e-05,
      "loss": 0.9048,
      "step": 5709
    },
    {
      "epoch": 0.35053255164369684,
      "grad_norm": 0.6839190193740802,
      "learning_rate": 1.5078429037171037e-05,
      "loss": 0.9321,
      "step": 5710
    },
    {
      "epoch": 0.35059394088216334,
      "grad_norm": 0.6781806701194317,
      "learning_rate": 1.507671607347203e-05,
      "loss": 0.9042,
      "step": 5711
    },
    {
      "epoch": 0.3506553301206298,
      "grad_norm": 0.7068450600600965,
      "learning_rate": 1.5075002909063283e-05,
      "loss": 0.9225,
      "step": 5712
    },
    {
      "epoch": 0.3507167193590964,
      "grad_norm": 0.6574566057380129,
      "learning_rate": 1.5073289544012526e-05,
      "loss": 0.9089,
      "step": 5713
    },
    {
      "epoch": 0.35077810859756287,
      "grad_norm": 0.7101196178935489,
      "learning_rate": 1.5071575978387505e-05,
      "loss": 0.9563,
      "step": 5714
    },
    {
      "epoch": 0.35083949783602936,
      "grad_norm": 0.6787526084757607,
      "learning_rate": 1.5069862212255957e-05,
      "loss": 0.925,
      "step": 5715
    },
    {
      "epoch": 0.35090088707449585,
      "grad_norm": 0.7702239593818396,
      "learning_rate": 1.506814824568564e-05,
      "loss": 0.9165,
      "step": 5716
    },
    {
      "epoch": 0.35096227631296234,
      "grad_norm": 0.7045781464752051,
      "learning_rate": 1.5066434078744316e-05,
      "loss": 0.9172,
      "step": 5717
    },
    {
      "epoch": 0.35102366555142883,
      "grad_norm": 0.6879785100363357,
      "learning_rate": 1.5064719711499756e-05,
      "loss": 0.9918,
      "step": 5718
    },
    {
      "epoch": 0.3510850547898953,
      "grad_norm": 0.7174177778197619,
      "learning_rate": 1.506300514401974e-05,
      "loss": 0.9766,
      "step": 5719
    },
    {
      "epoch": 0.3511464440283618,
      "grad_norm": 0.7184668291736536,
      "learning_rate": 1.5061290376372052e-05,
      "loss": 0.9149,
      "step": 5720
    },
    {
      "epoch": 0.3512078332668283,
      "grad_norm": 0.6460282802158138,
      "learning_rate": 1.5059575408624483e-05,
      "loss": 0.8795,
      "step": 5721
    },
    {
      "epoch": 0.3512692225052948,
      "grad_norm": 0.7457549313456944,
      "learning_rate": 1.505786024084484e-05,
      "loss": 0.9461,
      "step": 5722
    },
    {
      "epoch": 0.35133061174376135,
      "grad_norm": 0.694529015048686,
      "learning_rate": 1.5056144873100928e-05,
      "loss": 0.8945,
      "step": 5723
    },
    {
      "epoch": 0.35139200098222784,
      "grad_norm": 0.7019276987697448,
      "learning_rate": 1.5054429305460568e-05,
      "loss": 0.8789,
      "step": 5724
    },
    {
      "epoch": 0.35145339022069433,
      "grad_norm": 0.6957287895819184,
      "learning_rate": 1.5052713537991585e-05,
      "loss": 0.9275,
      "step": 5725
    },
    {
      "epoch": 0.3515147794591608,
      "grad_norm": 0.7326492770189805,
      "learning_rate": 1.5050997570761814e-05,
      "loss": 0.8855,
      "step": 5726
    },
    {
      "epoch": 0.3515761686976273,
      "grad_norm": 0.6762024059191007,
      "learning_rate": 1.5049281403839092e-05,
      "loss": 0.9172,
      "step": 5727
    },
    {
      "epoch": 0.3516375579360938,
      "grad_norm": 0.6614332507647659,
      "learning_rate": 1.504756503729127e-05,
      "loss": 0.9279,
      "step": 5728
    },
    {
      "epoch": 0.3516989471745603,
      "grad_norm": 0.7042419098366007,
      "learning_rate": 1.5045848471186206e-05,
      "loss": 0.8986,
      "step": 5729
    },
    {
      "epoch": 0.3517603364130268,
      "grad_norm": 0.6555506420856394,
      "learning_rate": 1.5044131705591764e-05,
      "loss": 0.8274,
      "step": 5730
    },
    {
      "epoch": 0.3518217256514933,
      "grad_norm": 0.6954014362143079,
      "learning_rate": 1.5042414740575822e-05,
      "loss": 0.9538,
      "step": 5731
    },
    {
      "epoch": 0.35188311488995977,
      "grad_norm": 0.7148638803183384,
      "learning_rate": 1.5040697576206253e-05,
      "loss": 0.9165,
      "step": 5732
    },
    {
      "epoch": 0.35194450412842626,
      "grad_norm": 0.6368764894841665,
      "learning_rate": 1.5038980212550951e-05,
      "loss": 0.9167,
      "step": 5733
    },
    {
      "epoch": 0.3520058933668928,
      "grad_norm": 0.6348073134934707,
      "learning_rate": 1.5037262649677811e-05,
      "loss": 0.8906,
      "step": 5734
    },
    {
      "epoch": 0.3520672826053593,
      "grad_norm": 0.764984114605892,
      "learning_rate": 1.5035544887654734e-05,
      "loss": 0.9706,
      "step": 5735
    },
    {
      "epoch": 0.3521286718438258,
      "grad_norm": 0.7312236778434742,
      "learning_rate": 1.503382692654964e-05,
      "loss": 0.9063,
      "step": 5736
    },
    {
      "epoch": 0.3521900610822923,
      "grad_norm": 0.6500107081168839,
      "learning_rate": 1.503210876643044e-05,
      "loss": 0.914,
      "step": 5737
    },
    {
      "epoch": 0.3522514503207588,
      "grad_norm": 0.7390857316950546,
      "learning_rate": 1.503039040736507e-05,
      "loss": 0.9415,
      "step": 5738
    },
    {
      "epoch": 0.35231283955922527,
      "grad_norm": 0.6546511804810734,
      "learning_rate": 1.5028671849421463e-05,
      "loss": 0.885,
      "step": 5739
    },
    {
      "epoch": 0.35237422879769176,
      "grad_norm": 0.6688526786650631,
      "learning_rate": 1.5026953092667563e-05,
      "loss": 0.9067,
      "step": 5740
    },
    {
      "epoch": 0.35243561803615825,
      "grad_norm": 0.7243289179043227,
      "learning_rate": 1.5025234137171319e-05,
      "loss": 0.9487,
      "step": 5741
    },
    {
      "epoch": 0.35249700727462474,
      "grad_norm": 0.7597088913472448,
      "learning_rate": 1.5023514983000693e-05,
      "loss": 0.9674,
      "step": 5742
    },
    {
      "epoch": 0.35255839651309123,
      "grad_norm": 0.6648067131122056,
      "learning_rate": 1.5021795630223655e-05,
      "loss": 0.8948,
      "step": 5743
    },
    {
      "epoch": 0.3526197857515578,
      "grad_norm": 0.6546098778439262,
      "learning_rate": 1.5020076078908173e-05,
      "loss": 0.9152,
      "step": 5744
    },
    {
      "epoch": 0.35268117499002427,
      "grad_norm": 0.709359930687229,
      "learning_rate": 1.5018356329122237e-05,
      "loss": 0.9507,
      "step": 5745
    },
    {
      "epoch": 0.35274256422849076,
      "grad_norm": 0.6894733164183039,
      "learning_rate": 1.5016636380933833e-05,
      "loss": 0.9557,
      "step": 5746
    },
    {
      "epoch": 0.35280395346695725,
      "grad_norm": 0.6915003336543903,
      "learning_rate": 1.5014916234410965e-05,
      "loss": 0.9048,
      "step": 5747
    },
    {
      "epoch": 0.35286534270542375,
      "grad_norm": 0.6862899008955132,
      "learning_rate": 1.5013195889621637e-05,
      "loss": 0.9344,
      "step": 5748
    },
    {
      "epoch": 0.35292673194389024,
      "grad_norm": 0.7271008808783311,
      "learning_rate": 1.501147534663386e-05,
      "loss": 0.724,
      "step": 5749
    },
    {
      "epoch": 0.35298812118235673,
      "grad_norm": 0.7683851058536311,
      "learning_rate": 1.5009754605515659e-05,
      "loss": 0.9358,
      "step": 5750
    },
    {
      "epoch": 0.3530495104208232,
      "grad_norm": 0.6641563211842196,
      "learning_rate": 1.5008033666335066e-05,
      "loss": 0.8918,
      "step": 5751
    },
    {
      "epoch": 0.3531108996592897,
      "grad_norm": 0.6738117927449315,
      "learning_rate": 1.5006312529160119e-05,
      "loss": 0.8685,
      "step": 5752
    },
    {
      "epoch": 0.3531722888977562,
      "grad_norm": 0.6815942546974433,
      "learning_rate": 1.5004591194058859e-05,
      "loss": 0.9164,
      "step": 5753
    },
    {
      "epoch": 0.3532336781362227,
      "grad_norm": 0.6393977446257937,
      "learning_rate": 1.5002869661099346e-05,
      "loss": 0.917,
      "step": 5754
    },
    {
      "epoch": 0.35329506737468924,
      "grad_norm": 0.6581286435121058,
      "learning_rate": 1.5001147930349635e-05,
      "loss": 0.9037,
      "step": 5755
    },
    {
      "epoch": 0.35335645661315573,
      "grad_norm": 0.6593408917857372,
      "learning_rate": 1.49994260018778e-05,
      "loss": 0.9254,
      "step": 5756
    },
    {
      "epoch": 0.3534178458516222,
      "grad_norm": 0.7562049882262243,
      "learning_rate": 1.4997703875751915e-05,
      "loss": 0.9547,
      "step": 5757
    },
    {
      "epoch": 0.3534792350900887,
      "grad_norm": 0.6863422957353371,
      "learning_rate": 1.4995981552040069e-05,
      "loss": 0.9505,
      "step": 5758
    },
    {
      "epoch": 0.3535406243285552,
      "grad_norm": 0.6425801159487964,
      "learning_rate": 1.499425903081035e-05,
      "loss": 0.934,
      "step": 5759
    },
    {
      "epoch": 0.3536020135670217,
      "grad_norm": 0.6834471968054864,
      "learning_rate": 1.499253631213086e-05,
      "loss": 0.9024,
      "step": 5760
    },
    {
      "epoch": 0.3536634028054882,
      "grad_norm": 0.6609640001131024,
      "learning_rate": 1.4990813396069707e-05,
      "loss": 0.9041,
      "step": 5761
    },
    {
      "epoch": 0.3537247920439547,
      "grad_norm": 0.6052369198748864,
      "learning_rate": 1.498909028269501e-05,
      "loss": 0.9006,
      "step": 5762
    },
    {
      "epoch": 0.3537861812824212,
      "grad_norm": 0.7039031324370666,
      "learning_rate": 1.4987366972074889e-05,
      "loss": 0.9634,
      "step": 5763
    },
    {
      "epoch": 0.35384757052088767,
      "grad_norm": 0.713939108784832,
      "learning_rate": 1.4985643464277475e-05,
      "loss": 0.9523,
      "step": 5764
    },
    {
      "epoch": 0.35390895975935416,
      "grad_norm": 0.6910150683274976,
      "learning_rate": 1.4983919759370913e-05,
      "loss": 0.9528,
      "step": 5765
    },
    {
      "epoch": 0.3539703489978207,
      "grad_norm": 0.6565850185024577,
      "learning_rate": 1.4982195857423348e-05,
      "loss": 0.948,
      "step": 5766
    },
    {
      "epoch": 0.3540317382362872,
      "grad_norm": 0.7456607438352638,
      "learning_rate": 1.498047175850293e-05,
      "loss": 0.9369,
      "step": 5767
    },
    {
      "epoch": 0.3540931274747537,
      "grad_norm": 0.6108209623841919,
      "learning_rate": 1.497874746267783e-05,
      "loss": 0.9206,
      "step": 5768
    },
    {
      "epoch": 0.3541545167132202,
      "grad_norm": 0.7260943375404312,
      "learning_rate": 1.4977022970016211e-05,
      "loss": 0.9166,
      "step": 5769
    },
    {
      "epoch": 0.35421590595168667,
      "grad_norm": 0.7231976149861065,
      "learning_rate": 1.4975298280586257e-05,
      "loss": 0.9612,
      "step": 5770
    },
    {
      "epoch": 0.35427729519015316,
      "grad_norm": 0.6733754392884986,
      "learning_rate": 1.4973573394456153e-05,
      "loss": 0.9223,
      "step": 5771
    },
    {
      "epoch": 0.35433868442861965,
      "grad_norm": 0.7243196798403009,
      "learning_rate": 1.497184831169409e-05,
      "loss": 0.9309,
      "step": 5772
    },
    {
      "epoch": 0.35440007366708615,
      "grad_norm": 0.6719719031458095,
      "learning_rate": 1.4970123032368275e-05,
      "loss": 0.8936,
      "step": 5773
    },
    {
      "epoch": 0.35446146290555264,
      "grad_norm": 0.7610804174556113,
      "learning_rate": 1.496839755654691e-05,
      "loss": 0.9503,
      "step": 5774
    },
    {
      "epoch": 0.35452285214401913,
      "grad_norm": 0.7072562044214963,
      "learning_rate": 1.4966671884298224e-05,
      "loss": 0.9218,
      "step": 5775
    },
    {
      "epoch": 0.3545842413824857,
      "grad_norm": 0.7278244480822293,
      "learning_rate": 1.4964946015690427e-05,
      "loss": 0.9255,
      "step": 5776
    },
    {
      "epoch": 0.35464563062095217,
      "grad_norm": 0.7652302710091586,
      "learning_rate": 1.4963219950791762e-05,
      "loss": 0.9706,
      "step": 5777
    },
    {
      "epoch": 0.35470701985941866,
      "grad_norm": 0.6951537063379353,
      "learning_rate": 1.4961493689670468e-05,
      "loss": 0.9019,
      "step": 5778
    },
    {
      "epoch": 0.35476840909788515,
      "grad_norm": 0.7914868168577139,
      "learning_rate": 1.4959767232394794e-05,
      "loss": 0.9581,
      "step": 5779
    },
    {
      "epoch": 0.35482979833635164,
      "grad_norm": 0.7436688187089097,
      "learning_rate": 1.4958040579032992e-05,
      "loss": 0.9802,
      "step": 5780
    },
    {
      "epoch": 0.35489118757481813,
      "grad_norm": 0.698911050400324,
      "learning_rate": 1.4956313729653329e-05,
      "loss": 0.9244,
      "step": 5781
    },
    {
      "epoch": 0.3549525768132846,
      "grad_norm": 0.7015351481380173,
      "learning_rate": 1.4954586684324077e-05,
      "loss": 0.9108,
      "step": 5782
    },
    {
      "epoch": 0.3550139660517511,
      "grad_norm": 0.7254680615712372,
      "learning_rate": 1.4952859443113514e-05,
      "loss": 0.9517,
      "step": 5783
    },
    {
      "epoch": 0.3550753552902176,
      "grad_norm": 0.6484991473819008,
      "learning_rate": 1.4951132006089927e-05,
      "loss": 0.8856,
      "step": 5784
    },
    {
      "epoch": 0.3551367445286841,
      "grad_norm": 0.6989482607379897,
      "learning_rate": 1.4949404373321612e-05,
      "loss": 0.9261,
      "step": 5785
    },
    {
      "epoch": 0.3551981337671506,
      "grad_norm": 0.6697124684354224,
      "learning_rate": 1.4947676544876873e-05,
      "loss": 0.9034,
      "step": 5786
    },
    {
      "epoch": 0.35525952300561714,
      "grad_norm": 0.6881716633875268,
      "learning_rate": 1.4945948520824012e-05,
      "loss": 0.8983,
      "step": 5787
    },
    {
      "epoch": 0.35532091224408363,
      "grad_norm": 0.7261321843840755,
      "learning_rate": 1.4944220301231358e-05,
      "loss": 0.9465,
      "step": 5788
    },
    {
      "epoch": 0.3553823014825501,
      "grad_norm": 0.7484469390098006,
      "learning_rate": 1.494249188616723e-05,
      "loss": 0.9776,
      "step": 5789
    },
    {
      "epoch": 0.3554436907210166,
      "grad_norm": 0.6731384225790281,
      "learning_rate": 1.4940763275699966e-05,
      "loss": 0.8993,
      "step": 5790
    },
    {
      "epoch": 0.3555050799594831,
      "grad_norm": 0.6621023830751291,
      "learning_rate": 1.4939034469897902e-05,
      "loss": 0.9687,
      "step": 5791
    },
    {
      "epoch": 0.3555664691979496,
      "grad_norm": 0.6969619050500445,
      "learning_rate": 1.4937305468829388e-05,
      "loss": 0.9158,
      "step": 5792
    },
    {
      "epoch": 0.3556278584364161,
      "grad_norm": 0.6762535088230517,
      "learning_rate": 1.4935576272562786e-05,
      "loss": 0.8514,
      "step": 5793
    },
    {
      "epoch": 0.3556892476748826,
      "grad_norm": 0.6434937758935195,
      "learning_rate": 1.4933846881166454e-05,
      "loss": 0.9355,
      "step": 5794
    },
    {
      "epoch": 0.35575063691334907,
      "grad_norm": 0.652600863143705,
      "learning_rate": 1.493211729470877e-05,
      "loss": 0.9082,
      "step": 5795
    },
    {
      "epoch": 0.35581202615181556,
      "grad_norm": 0.7232635558117737,
      "learning_rate": 1.4930387513258108e-05,
      "loss": 0.9175,
      "step": 5796
    },
    {
      "epoch": 0.3558734153902821,
      "grad_norm": 0.6885776237754672,
      "learning_rate": 1.4928657536882857e-05,
      "loss": 0.9039,
      "step": 5797
    },
    {
      "epoch": 0.3559348046287486,
      "grad_norm": 0.7109065793519583,
      "learning_rate": 1.4926927365651418e-05,
      "loss": 0.9271,
      "step": 5798
    },
    {
      "epoch": 0.3559961938672151,
      "grad_norm": 0.7245622320911016,
      "learning_rate": 1.4925196999632184e-05,
      "loss": 0.9257,
      "step": 5799
    },
    {
      "epoch": 0.3560575831056816,
      "grad_norm": 0.6582349432713507,
      "learning_rate": 1.4923466438893575e-05,
      "loss": 0.9129,
      "step": 5800
    },
    {
      "epoch": 0.3561189723441481,
      "grad_norm": 0.6780763317537323,
      "learning_rate": 1.4921735683504001e-05,
      "loss": 0.9236,
      "step": 5801
    },
    {
      "epoch": 0.35618036158261457,
      "grad_norm": 0.7480635133668868,
      "learning_rate": 1.4920004733531895e-05,
      "loss": 0.8731,
      "step": 5802
    },
    {
      "epoch": 0.35624175082108106,
      "grad_norm": 0.6769739117521496,
      "learning_rate": 1.4918273589045687e-05,
      "loss": 0.8852,
      "step": 5803
    },
    {
      "epoch": 0.35630314005954755,
      "grad_norm": 0.7210814259630092,
      "learning_rate": 1.4916542250113818e-05,
      "loss": 0.9418,
      "step": 5804
    },
    {
      "epoch": 0.35636452929801404,
      "grad_norm": 0.7422575695291075,
      "learning_rate": 1.4914810716804739e-05,
      "loss": 0.9106,
      "step": 5805
    },
    {
      "epoch": 0.35642591853648053,
      "grad_norm": 0.7156895365148618,
      "learning_rate": 1.4913078989186907e-05,
      "loss": 0.9209,
      "step": 5806
    },
    {
      "epoch": 0.356487307774947,
      "grad_norm": 0.6927211782290307,
      "learning_rate": 1.4911347067328788e-05,
      "loss": 0.9271,
      "step": 5807
    },
    {
      "epoch": 0.3565486970134136,
      "grad_norm": 0.6059616467670401,
      "learning_rate": 1.4909614951298848e-05,
      "loss": 0.7333,
      "step": 5808
    },
    {
      "epoch": 0.35661008625188007,
      "grad_norm": 0.7124653164289888,
      "learning_rate": 1.490788264116557e-05,
      "loss": 0.9443,
      "step": 5809
    },
    {
      "epoch": 0.35667147549034656,
      "grad_norm": 0.7713933554146845,
      "learning_rate": 1.4906150136997443e-05,
      "loss": 0.9469,
      "step": 5810
    },
    {
      "epoch": 0.35673286472881305,
      "grad_norm": 0.6572308461680934,
      "learning_rate": 1.4904417438862963e-05,
      "loss": 0.9062,
      "step": 5811
    },
    {
      "epoch": 0.35679425396727954,
      "grad_norm": 0.7684409484507232,
      "learning_rate": 1.4902684546830629e-05,
      "loss": 0.8924,
      "step": 5812
    },
    {
      "epoch": 0.35685564320574603,
      "grad_norm": 0.7097802000215514,
      "learning_rate": 1.4900951460968953e-05,
      "loss": 0.8444,
      "step": 5813
    },
    {
      "epoch": 0.3569170324442125,
      "grad_norm": 0.7686362095766728,
      "learning_rate": 1.4899218181346453e-05,
      "loss": 0.9448,
      "step": 5814
    },
    {
      "epoch": 0.356978421682679,
      "grad_norm": 0.6232906789449749,
      "learning_rate": 1.489748470803166e-05,
      "loss": 0.8787,
      "step": 5815
    },
    {
      "epoch": 0.3570398109211455,
      "grad_norm": 0.6945077966796486,
      "learning_rate": 1.4895751041093099e-05,
      "loss": 0.9651,
      "step": 5816
    },
    {
      "epoch": 0.357101200159612,
      "grad_norm": 0.7306903814391695,
      "learning_rate": 1.4894017180599317e-05,
      "loss": 0.9492,
      "step": 5817
    },
    {
      "epoch": 0.3571625893980785,
      "grad_norm": 0.6560148299477658,
      "learning_rate": 1.489228312661886e-05,
      "loss": 0.8608,
      "step": 5818
    },
    {
      "epoch": 0.35722397863654504,
      "grad_norm": 0.6999739991623243,
      "learning_rate": 1.4890548879220283e-05,
      "loss": 0.9481,
      "step": 5819
    },
    {
      "epoch": 0.35728536787501153,
      "grad_norm": 0.6832678515120241,
      "learning_rate": 1.4888814438472154e-05,
      "loss": 0.949,
      "step": 5820
    },
    {
      "epoch": 0.357346757113478,
      "grad_norm": 0.7043451463031623,
      "learning_rate": 1.4887079804443042e-05,
      "loss": 0.9206,
      "step": 5821
    },
    {
      "epoch": 0.3574081463519445,
      "grad_norm": 0.6857634092891451,
      "learning_rate": 1.488534497720153e-05,
      "loss": 0.877,
      "step": 5822
    },
    {
      "epoch": 0.357469535590411,
      "grad_norm": 0.6701160404486106,
      "learning_rate": 1.4883609956816204e-05,
      "loss": 0.9182,
      "step": 5823
    },
    {
      "epoch": 0.3575309248288775,
      "grad_norm": 0.7271971699978791,
      "learning_rate": 1.4881874743355652e-05,
      "loss": 0.9334,
      "step": 5824
    },
    {
      "epoch": 0.357592314067344,
      "grad_norm": 0.7065653979888861,
      "learning_rate": 1.4880139336888485e-05,
      "loss": 0.8912,
      "step": 5825
    },
    {
      "epoch": 0.3576537033058105,
      "grad_norm": 0.6058919608473208,
      "learning_rate": 1.4878403737483304e-05,
      "loss": 0.8149,
      "step": 5826
    },
    {
      "epoch": 0.35771509254427697,
      "grad_norm": 0.7596426771010961,
      "learning_rate": 1.4876667945208735e-05,
      "loss": 0.9331,
      "step": 5827
    },
    {
      "epoch": 0.35777648178274346,
      "grad_norm": 0.6620674128522532,
      "learning_rate": 1.4874931960133403e-05,
      "loss": 0.9464,
      "step": 5828
    },
    {
      "epoch": 0.35783787102121,
      "grad_norm": 0.7636894572326608,
      "learning_rate": 1.4873195782325934e-05,
      "loss": 0.9069,
      "step": 5829
    },
    {
      "epoch": 0.3578992602596765,
      "grad_norm": 0.7177329163972022,
      "learning_rate": 1.4871459411854974e-05,
      "loss": 0.8966,
      "step": 5830
    },
    {
      "epoch": 0.357960649498143,
      "grad_norm": 0.6673298731228184,
      "learning_rate": 1.4869722848789166e-05,
      "loss": 0.901,
      "step": 5831
    },
    {
      "epoch": 0.3580220387366095,
      "grad_norm": 0.6311363732141375,
      "learning_rate": 1.4867986093197172e-05,
      "loss": 0.8613,
      "step": 5832
    },
    {
      "epoch": 0.358083427975076,
      "grad_norm": 0.7785185027069631,
      "learning_rate": 1.4866249145147648e-05,
      "loss": 0.9675,
      "step": 5833
    },
    {
      "epoch": 0.35814481721354247,
      "grad_norm": 0.6356734178583922,
      "learning_rate": 1.4864512004709272e-05,
      "loss": 0.8801,
      "step": 5834
    },
    {
      "epoch": 0.35820620645200896,
      "grad_norm": 0.7151489428293063,
      "learning_rate": 1.4862774671950719e-05,
      "loss": 0.91,
      "step": 5835
    },
    {
      "epoch": 0.35826759569047545,
      "grad_norm": 0.7095131786748239,
      "learning_rate": 1.4861037146940675e-05,
      "loss": 0.9448,
      "step": 5836
    },
    {
      "epoch": 0.35832898492894194,
      "grad_norm": 0.6661857243571769,
      "learning_rate": 1.4859299429747835e-05,
      "loss": 0.8824,
      "step": 5837
    },
    {
      "epoch": 0.35839037416740843,
      "grad_norm": 0.6425913051191106,
      "learning_rate": 1.4857561520440897e-05,
      "loss": 0.9031,
      "step": 5838
    },
    {
      "epoch": 0.3584517634058749,
      "grad_norm": 0.6487973320264504,
      "learning_rate": 1.4855823419088576e-05,
      "loss": 0.852,
      "step": 5839
    },
    {
      "epoch": 0.35851315264434147,
      "grad_norm": 0.6590641253475691,
      "learning_rate": 1.485408512575958e-05,
      "loss": 0.9334,
      "step": 5840
    },
    {
      "epoch": 0.35857454188280796,
      "grad_norm": 0.7575179979303328,
      "learning_rate": 1.4852346640522636e-05,
      "loss": 0.9252,
      "step": 5841
    },
    {
      "epoch": 0.35863593112127445,
      "grad_norm": 0.6838030823036004,
      "learning_rate": 1.4850607963446481e-05,
      "loss": 0.8995,
      "step": 5842
    },
    {
      "epoch": 0.35869732035974095,
      "grad_norm": 0.6787330471706617,
      "learning_rate": 1.4848869094599851e-05,
      "loss": 0.9289,
      "step": 5843
    },
    {
      "epoch": 0.35875870959820744,
      "grad_norm": 0.7231895358931274,
      "learning_rate": 1.484713003405149e-05,
      "loss": 0.9637,
      "step": 5844
    },
    {
      "epoch": 0.35882009883667393,
      "grad_norm": 0.6928210273691167,
      "learning_rate": 1.4845390781870155e-05,
      "loss": 0.8901,
      "step": 5845
    },
    {
      "epoch": 0.3588814880751404,
      "grad_norm": 0.6728295757114807,
      "learning_rate": 1.4843651338124608e-05,
      "loss": 0.8628,
      "step": 5846
    },
    {
      "epoch": 0.3589428773136069,
      "grad_norm": 0.7051634485063195,
      "learning_rate": 1.4841911702883616e-05,
      "loss": 0.9218,
      "step": 5847
    },
    {
      "epoch": 0.3590042665520734,
      "grad_norm": 0.6939392263559707,
      "learning_rate": 1.484017187621596e-05,
      "loss": 0.9398,
      "step": 5848
    },
    {
      "epoch": 0.3590656557905399,
      "grad_norm": 0.6489026784340437,
      "learning_rate": 1.4838431858190423e-05,
      "loss": 0.7783,
      "step": 5849
    },
    {
      "epoch": 0.35912704502900644,
      "grad_norm": 0.699126947528254,
      "learning_rate": 1.4836691648875796e-05,
      "loss": 0.9455,
      "step": 5850
    },
    {
      "epoch": 0.35918843426747293,
      "grad_norm": 0.6373559179286862,
      "learning_rate": 1.4834951248340877e-05,
      "loss": 0.8109,
      "step": 5851
    },
    {
      "epoch": 0.3592498235059394,
      "grad_norm": 0.81195247296407,
      "learning_rate": 1.483321065665448e-05,
      "loss": 1.0424,
      "step": 5852
    },
    {
      "epoch": 0.3593112127444059,
      "grad_norm": 0.7009995888680425,
      "learning_rate": 1.4831469873885413e-05,
      "loss": 0.8874,
      "step": 5853
    },
    {
      "epoch": 0.3593726019828724,
      "grad_norm": 0.676726932400756,
      "learning_rate": 1.4829728900102505e-05,
      "loss": 0.8616,
      "step": 5854
    },
    {
      "epoch": 0.3594339912213389,
      "grad_norm": 0.688893861333722,
      "learning_rate": 1.4827987735374581e-05,
      "loss": 0.8779,
      "step": 5855
    },
    {
      "epoch": 0.3594953804598054,
      "grad_norm": 0.7500086358606921,
      "learning_rate": 1.4826246379770477e-05,
      "loss": 0.8823,
      "step": 5856
    },
    {
      "epoch": 0.3595567696982719,
      "grad_norm": 0.6864020378836331,
      "learning_rate": 1.4824504833359043e-05,
      "loss": 0.8876,
      "step": 5857
    },
    {
      "epoch": 0.3596181589367384,
      "grad_norm": 0.7335116016995683,
      "learning_rate": 1.482276309620913e-05,
      "loss": 0.894,
      "step": 5858
    },
    {
      "epoch": 0.35967954817520487,
      "grad_norm": 0.6737501927665641,
      "learning_rate": 1.4821021168389598e-05,
      "loss": 0.9212,
      "step": 5859
    },
    {
      "epoch": 0.35974093741367136,
      "grad_norm": 0.6677834118744113,
      "learning_rate": 1.4819279049969314e-05,
      "loss": 0.9142,
      "step": 5860
    },
    {
      "epoch": 0.3598023266521379,
      "grad_norm": 0.7346310641775177,
      "learning_rate": 1.4817536741017153e-05,
      "loss": 0.8702,
      "step": 5861
    },
    {
      "epoch": 0.3598637158906044,
      "grad_norm": 0.7101228679258756,
      "learning_rate": 1.4815794241602001e-05,
      "loss": 0.8935,
      "step": 5862
    },
    {
      "epoch": 0.3599251051290709,
      "grad_norm": 0.7345073976206759,
      "learning_rate": 1.4814051551792746e-05,
      "loss": 0.9474,
      "step": 5863
    },
    {
      "epoch": 0.3599864943675374,
      "grad_norm": 0.7533559259567503,
      "learning_rate": 1.4812308671658285e-05,
      "loss": 0.922,
      "step": 5864
    },
    {
      "epoch": 0.36004788360600387,
      "grad_norm": 0.746433835398899,
      "learning_rate": 1.4810565601267521e-05,
      "loss": 0.9308,
      "step": 5865
    },
    {
      "epoch": 0.36010927284447036,
      "grad_norm": 0.6793971992429627,
      "learning_rate": 1.4808822340689375e-05,
      "loss": 0.9026,
      "step": 5866
    },
    {
      "epoch": 0.36017066208293685,
      "grad_norm": 0.6885365889747144,
      "learning_rate": 1.4807078889992758e-05,
      "loss": 0.9268,
      "step": 5867
    },
    {
      "epoch": 0.36023205132140335,
      "grad_norm": 0.7238584842801016,
      "learning_rate": 1.4805335249246603e-05,
      "loss": 0.8887,
      "step": 5868
    },
    {
      "epoch": 0.36029344055986984,
      "grad_norm": 0.6753049757038727,
      "learning_rate": 1.4803591418519849e-05,
      "loss": 0.9046,
      "step": 5869
    },
    {
      "epoch": 0.36035482979833633,
      "grad_norm": 0.7239644961560665,
      "learning_rate": 1.4801847397881433e-05,
      "loss": 0.8881,
      "step": 5870
    },
    {
      "epoch": 0.3604162190368029,
      "grad_norm": 0.642407649069458,
      "learning_rate": 1.4800103187400308e-05,
      "loss": 0.8957,
      "step": 5871
    },
    {
      "epoch": 0.36047760827526937,
      "grad_norm": 0.7155434952193902,
      "learning_rate": 1.4798358787145428e-05,
      "loss": 0.9689,
      "step": 5872
    },
    {
      "epoch": 0.36053899751373586,
      "grad_norm": 0.716298224981986,
      "learning_rate": 1.4796614197185763e-05,
      "loss": 0.9014,
      "step": 5873
    },
    {
      "epoch": 0.36060038675220235,
      "grad_norm": 0.7489888208906557,
      "learning_rate": 1.4794869417590287e-05,
      "loss": 0.9452,
      "step": 5874
    },
    {
      "epoch": 0.36066177599066884,
      "grad_norm": 0.6966983074653216,
      "learning_rate": 1.4793124448427975e-05,
      "loss": 0.941,
      "step": 5875
    },
    {
      "epoch": 0.36072316522913533,
      "grad_norm": 0.691510658984018,
      "learning_rate": 1.479137928976782e-05,
      "loss": 0.9073,
      "step": 5876
    },
    {
      "epoch": 0.3607845544676018,
      "grad_norm": 0.582116603227221,
      "learning_rate": 1.4789633941678813e-05,
      "loss": 0.8527,
      "step": 5877
    },
    {
      "epoch": 0.3608459437060683,
      "grad_norm": 0.6818561759740249,
      "learning_rate": 1.4787888404229964e-05,
      "loss": 0.8865,
      "step": 5878
    },
    {
      "epoch": 0.3609073329445348,
      "grad_norm": 0.6883926160049308,
      "learning_rate": 1.4786142677490276e-05,
      "loss": 0.8942,
      "step": 5879
    },
    {
      "epoch": 0.3609687221830013,
      "grad_norm": 0.6360658377698412,
      "learning_rate": 1.4784396761528772e-05,
      "loss": 0.8738,
      "step": 5880
    },
    {
      "epoch": 0.3610301114214678,
      "grad_norm": 0.7334577428249319,
      "learning_rate": 1.4782650656414472e-05,
      "loss": 0.9745,
      "step": 5881
    },
    {
      "epoch": 0.36109150065993434,
      "grad_norm": 0.7031369210737756,
      "learning_rate": 1.4780904362216415e-05,
      "loss": 0.9085,
      "step": 5882
    },
    {
      "epoch": 0.36115288989840083,
      "grad_norm": 0.7177007274442601,
      "learning_rate": 1.4779157879003636e-05,
      "loss": 0.9222,
      "step": 5883
    },
    {
      "epoch": 0.3612142791368673,
      "grad_norm": 0.7056049742105558,
      "learning_rate": 1.4777411206845187e-05,
      "loss": 0.8925,
      "step": 5884
    },
    {
      "epoch": 0.3612756683753338,
      "grad_norm": 0.6502112793068342,
      "learning_rate": 1.4775664345810121e-05,
      "loss": 0.8836,
      "step": 5885
    },
    {
      "epoch": 0.3613370576138003,
      "grad_norm": 0.662336562473544,
      "learning_rate": 1.4773917295967502e-05,
      "loss": 0.9477,
      "step": 5886
    },
    {
      "epoch": 0.3613984468522668,
      "grad_norm": 0.7425393342426696,
      "learning_rate": 1.47721700573864e-05,
      "loss": 0.9408,
      "step": 5887
    },
    {
      "epoch": 0.3614598360907333,
      "grad_norm": 0.7358809752754332,
      "learning_rate": 1.477042263013589e-05,
      "loss": 0.9107,
      "step": 5888
    },
    {
      "epoch": 0.3615212253291998,
      "grad_norm": 0.7010177706674658,
      "learning_rate": 1.4768675014285063e-05,
      "loss": 0.9177,
      "step": 5889
    },
    {
      "epoch": 0.36158261456766627,
      "grad_norm": 0.7848676789935618,
      "learning_rate": 1.4766927209903004e-05,
      "loss": 0.9977,
      "step": 5890
    },
    {
      "epoch": 0.36164400380613276,
      "grad_norm": 0.6318377450351307,
      "learning_rate": 1.4765179217058818e-05,
      "loss": 0.8586,
      "step": 5891
    },
    {
      "epoch": 0.36170539304459925,
      "grad_norm": 0.6804760884833584,
      "learning_rate": 1.4763431035821614e-05,
      "loss": 0.908,
      "step": 5892
    },
    {
      "epoch": 0.3617667822830658,
      "grad_norm": 0.6817703036888783,
      "learning_rate": 1.4761682666260503e-05,
      "loss": 0.928,
      "step": 5893
    },
    {
      "epoch": 0.3618281715215323,
      "grad_norm": 0.7343693855330721,
      "learning_rate": 1.475993410844461e-05,
      "loss": 0.9531,
      "step": 5894
    },
    {
      "epoch": 0.3618895607599988,
      "grad_norm": 0.7373495160266839,
      "learning_rate": 1.4758185362443063e-05,
      "loss": 0.9186,
      "step": 5895
    },
    {
      "epoch": 0.3619509499984653,
      "grad_norm": 0.6947037715122495,
      "learning_rate": 1.4756436428325e-05,
      "loss": 0.9052,
      "step": 5896
    },
    {
      "epoch": 0.36201233923693177,
      "grad_norm": 0.6720917984555754,
      "learning_rate": 1.4754687306159565e-05,
      "loss": 0.8956,
      "step": 5897
    },
    {
      "epoch": 0.36207372847539826,
      "grad_norm": 0.7088899403993891,
      "learning_rate": 1.475293799601591e-05,
      "loss": 0.8778,
      "step": 5898
    },
    {
      "epoch": 0.36213511771386475,
      "grad_norm": 0.6291956472346103,
      "learning_rate": 1.4751188497963198e-05,
      "loss": 0.7055,
      "step": 5899
    },
    {
      "epoch": 0.36219650695233124,
      "grad_norm": 0.6668790026261273,
      "learning_rate": 1.474943881207059e-05,
      "loss": 0.9022,
      "step": 5900
    },
    {
      "epoch": 0.36225789619079773,
      "grad_norm": 0.7462228175575452,
      "learning_rate": 1.474768893840727e-05,
      "loss": 0.8906,
      "step": 5901
    },
    {
      "epoch": 0.3623192854292642,
      "grad_norm": 0.660245126398492,
      "learning_rate": 1.474593887704241e-05,
      "loss": 0.9093,
      "step": 5902
    },
    {
      "epoch": 0.3623806746677308,
      "grad_norm": 0.6472493589527427,
      "learning_rate": 1.4744188628045204e-05,
      "loss": 0.9091,
      "step": 5903
    },
    {
      "epoch": 0.36244206390619726,
      "grad_norm": 0.7410623211678934,
      "learning_rate": 1.4742438191484847e-05,
      "loss": 0.9454,
      "step": 5904
    },
    {
      "epoch": 0.36250345314466376,
      "grad_norm": 0.6717787770214969,
      "learning_rate": 1.4740687567430545e-05,
      "loss": 0.9446,
      "step": 5905
    },
    {
      "epoch": 0.36256484238313025,
      "grad_norm": 0.7341138437093239,
      "learning_rate": 1.4738936755951507e-05,
      "loss": 0.9266,
      "step": 5906
    },
    {
      "epoch": 0.36262623162159674,
      "grad_norm": 0.7123649531139301,
      "learning_rate": 1.4737185757116955e-05,
      "loss": 0.9122,
      "step": 5907
    },
    {
      "epoch": 0.36268762086006323,
      "grad_norm": 0.7702396163868427,
      "learning_rate": 1.4735434570996115e-05,
      "loss": 1.0034,
      "step": 5908
    },
    {
      "epoch": 0.3627490100985297,
      "grad_norm": 0.7798246997198504,
      "learning_rate": 1.4733683197658216e-05,
      "loss": 0.9542,
      "step": 5909
    },
    {
      "epoch": 0.3628103993369962,
      "grad_norm": 0.6692074251008929,
      "learning_rate": 1.4731931637172503e-05,
      "loss": 0.8894,
      "step": 5910
    },
    {
      "epoch": 0.3628717885754627,
      "grad_norm": 0.6769929708557112,
      "learning_rate": 1.4730179889608227e-05,
      "loss": 0.9656,
      "step": 5911
    },
    {
      "epoch": 0.3629331778139292,
      "grad_norm": 0.6933271847792396,
      "learning_rate": 1.4728427955034639e-05,
      "loss": 0.9274,
      "step": 5912
    },
    {
      "epoch": 0.3629945670523957,
      "grad_norm": 0.5811121008608956,
      "learning_rate": 1.4726675833521004e-05,
      "loss": 0.8738,
      "step": 5913
    },
    {
      "epoch": 0.36305595629086224,
      "grad_norm": 0.6906127470380575,
      "learning_rate": 1.4724923525136597e-05,
      "loss": 0.8999,
      "step": 5914
    },
    {
      "epoch": 0.36311734552932873,
      "grad_norm": 0.6656799990425679,
      "learning_rate": 1.4723171029950688e-05,
      "loss": 0.8973,
      "step": 5915
    },
    {
      "epoch": 0.3631787347677952,
      "grad_norm": 0.6716357893603964,
      "learning_rate": 1.4721418348032569e-05,
      "loss": 0.8686,
      "step": 5916
    },
    {
      "epoch": 0.3632401240062617,
      "grad_norm": 0.6972230304364613,
      "learning_rate": 1.4719665479451531e-05,
      "loss": 0.892,
      "step": 5917
    },
    {
      "epoch": 0.3633015132447282,
      "grad_norm": 0.7440291786369335,
      "learning_rate": 1.4717912424276872e-05,
      "loss": 0.921,
      "step": 5918
    },
    {
      "epoch": 0.3633629024831947,
      "grad_norm": 0.6804525061265229,
      "learning_rate": 1.4716159182577905e-05,
      "loss": 0.8278,
      "step": 5919
    },
    {
      "epoch": 0.3634242917216612,
      "grad_norm": 0.7087318793938839,
      "learning_rate": 1.4714405754423938e-05,
      "loss": 0.8809,
      "step": 5920
    },
    {
      "epoch": 0.3634856809601277,
      "grad_norm": 0.7430194790643726,
      "learning_rate": 1.47126521398843e-05,
      "loss": 0.9164,
      "step": 5921
    },
    {
      "epoch": 0.36354707019859417,
      "grad_norm": 0.6591769859961149,
      "learning_rate": 1.4710898339028316e-05,
      "loss": 0.8552,
      "step": 5922
    },
    {
      "epoch": 0.36360845943706066,
      "grad_norm": 0.6756907618996233,
      "learning_rate": 1.4709144351925327e-05,
      "loss": 0.9081,
      "step": 5923
    },
    {
      "epoch": 0.3636698486755272,
      "grad_norm": 0.7815450058684047,
      "learning_rate": 1.4707390178644673e-05,
      "loss": 0.938,
      "step": 5924
    },
    {
      "epoch": 0.3637312379139937,
      "grad_norm": 0.6875779246541295,
      "learning_rate": 1.470563581925571e-05,
      "loss": 0.8559,
      "step": 5925
    },
    {
      "epoch": 0.3637926271524602,
      "grad_norm": 0.6874561038211322,
      "learning_rate": 1.4703881273827798e-05,
      "loss": 0.9087,
      "step": 5926
    },
    {
      "epoch": 0.3638540163909267,
      "grad_norm": 0.7273161329699872,
      "learning_rate": 1.4702126542430298e-05,
      "loss": 0.9097,
      "step": 5927
    },
    {
      "epoch": 0.3639154056293932,
      "grad_norm": 0.687365289118007,
      "learning_rate": 1.4700371625132588e-05,
      "loss": 0.9137,
      "step": 5928
    },
    {
      "epoch": 0.36397679486785967,
      "grad_norm": 0.7809079421583098,
      "learning_rate": 1.4698616522004046e-05,
      "loss": 0.9441,
      "step": 5929
    },
    {
      "epoch": 0.36403818410632616,
      "grad_norm": 0.7009202393323134,
      "learning_rate": 1.4696861233114067e-05,
      "loss": 0.8914,
      "step": 5930
    },
    {
      "epoch": 0.36409957334479265,
      "grad_norm": 0.7434256258716322,
      "learning_rate": 1.469510575853204e-05,
      "loss": 0.9035,
      "step": 5931
    },
    {
      "epoch": 0.36416096258325914,
      "grad_norm": 0.6773558289525548,
      "learning_rate": 1.469335009832737e-05,
      "loss": 0.8757,
      "step": 5932
    },
    {
      "epoch": 0.36422235182172563,
      "grad_norm": 0.6459712802893327,
      "learning_rate": 1.4691594252569472e-05,
      "loss": 0.7333,
      "step": 5933
    },
    {
      "epoch": 0.3642837410601921,
      "grad_norm": 0.6652974835938568,
      "learning_rate": 1.468983822132776e-05,
      "loss": 0.9041,
      "step": 5934
    },
    {
      "epoch": 0.36434513029865867,
      "grad_norm": 0.7692803760992449,
      "learning_rate": 1.4688082004671658e-05,
      "loss": 0.9466,
      "step": 5935
    },
    {
      "epoch": 0.36440651953712516,
      "grad_norm": 0.6749972314952559,
      "learning_rate": 1.4686325602670602e-05,
      "loss": 0.8631,
      "step": 5936
    },
    {
      "epoch": 0.36446790877559165,
      "grad_norm": 0.7885402255654737,
      "learning_rate": 1.468456901539403e-05,
      "loss": 0.9263,
      "step": 5937
    },
    {
      "epoch": 0.36452929801405815,
      "grad_norm": 0.6673004585145277,
      "learning_rate": 1.4682812242911393e-05,
      "loss": 0.8988,
      "step": 5938
    },
    {
      "epoch": 0.36459068725252464,
      "grad_norm": 0.7372030714675794,
      "learning_rate": 1.4681055285292138e-05,
      "loss": 0.9705,
      "step": 5939
    },
    {
      "epoch": 0.36465207649099113,
      "grad_norm": 0.7238348826561074,
      "learning_rate": 1.4679298142605735e-05,
      "loss": 0.9444,
      "step": 5940
    },
    {
      "epoch": 0.3647134657294576,
      "grad_norm": 0.7014746631622784,
      "learning_rate": 1.467754081492165e-05,
      "loss": 0.9207,
      "step": 5941
    },
    {
      "epoch": 0.3647748549679241,
      "grad_norm": 0.6238235154492354,
      "learning_rate": 1.4675783302309357e-05,
      "loss": 0.8749,
      "step": 5942
    },
    {
      "epoch": 0.3648362442063906,
      "grad_norm": 0.7012879899059918,
      "learning_rate": 1.4674025604838344e-05,
      "loss": 0.9528,
      "step": 5943
    },
    {
      "epoch": 0.3648976334448571,
      "grad_norm": 0.7372667819612484,
      "learning_rate": 1.46722677225781e-05,
      "loss": 0.8668,
      "step": 5944
    },
    {
      "epoch": 0.3649590226833236,
      "grad_norm": 0.6716296426543885,
      "learning_rate": 1.4670509655598123e-05,
      "loss": 0.9166,
      "step": 5945
    },
    {
      "epoch": 0.36502041192179013,
      "grad_norm": 0.7993007409380217,
      "learning_rate": 1.466875140396792e-05,
      "loss": 0.9132,
      "step": 5946
    },
    {
      "epoch": 0.3650818011602566,
      "grad_norm": 0.6420882135383146,
      "learning_rate": 1.4666992967757003e-05,
      "loss": 0.8493,
      "step": 5947
    },
    {
      "epoch": 0.3651431903987231,
      "grad_norm": 0.7276541192350732,
      "learning_rate": 1.4665234347034895e-05,
      "loss": 0.8975,
      "step": 5948
    },
    {
      "epoch": 0.3652045796371896,
      "grad_norm": 0.7250881428020401,
      "learning_rate": 1.4663475541871121e-05,
      "loss": 0.9286,
      "step": 5949
    },
    {
      "epoch": 0.3652659688756561,
      "grad_norm": 0.6915813804985581,
      "learning_rate": 1.4661716552335219e-05,
      "loss": 0.9309,
      "step": 5950
    },
    {
      "epoch": 0.3653273581141226,
      "grad_norm": 0.6696880348672853,
      "learning_rate": 1.4659957378496726e-05,
      "loss": 0.8889,
      "step": 5951
    },
    {
      "epoch": 0.3653887473525891,
      "grad_norm": 0.752606039355379,
      "learning_rate": 1.4658198020425194e-05,
      "loss": 0.8948,
      "step": 5952
    },
    {
      "epoch": 0.3654501365910556,
      "grad_norm": 0.6920584762952071,
      "learning_rate": 1.4656438478190185e-05,
      "loss": 0.9217,
      "step": 5953
    },
    {
      "epoch": 0.36551152582952207,
      "grad_norm": 0.6185657543184581,
      "learning_rate": 1.4654678751861254e-05,
      "loss": 0.8538,
      "step": 5954
    },
    {
      "epoch": 0.36557291506798856,
      "grad_norm": 0.6866279951468655,
      "learning_rate": 1.4652918841507977e-05,
      "loss": 0.8901,
      "step": 5955
    },
    {
      "epoch": 0.3656343043064551,
      "grad_norm": 0.7188459880539706,
      "learning_rate": 1.4651158747199936e-05,
      "loss": 0.9109,
      "step": 5956
    },
    {
      "epoch": 0.3656956935449216,
      "grad_norm": 0.6913645338278799,
      "learning_rate": 1.4649398469006709e-05,
      "loss": 0.9049,
      "step": 5957
    },
    {
      "epoch": 0.3657570827833881,
      "grad_norm": 0.6534300769788329,
      "learning_rate": 1.4647638006997899e-05,
      "loss": 0.944,
      "step": 5958
    },
    {
      "epoch": 0.3658184720218546,
      "grad_norm": 0.7277362500825134,
      "learning_rate": 1.4645877361243098e-05,
      "loss": 0.9376,
      "step": 5959
    },
    {
      "epoch": 0.36587986126032107,
      "grad_norm": 0.6644242725149327,
      "learning_rate": 1.4644116531811921e-05,
      "loss": 0.9187,
      "step": 5960
    },
    {
      "epoch": 0.36594125049878756,
      "grad_norm": 0.6780286343836744,
      "learning_rate": 1.4642355518773973e-05,
      "loss": 0.904,
      "step": 5961
    },
    {
      "epoch": 0.36600263973725405,
      "grad_norm": 0.6978048817860898,
      "learning_rate": 1.4640594322198884e-05,
      "loss": 0.9245,
      "step": 5962
    },
    {
      "epoch": 0.36606402897572055,
      "grad_norm": 0.6607264621499342,
      "learning_rate": 1.4638832942156284e-05,
      "loss": 0.9059,
      "step": 5963
    },
    {
      "epoch": 0.36612541821418704,
      "grad_norm": 0.7048333329857259,
      "learning_rate": 1.4637071378715807e-05,
      "loss": 0.9168,
      "step": 5964
    },
    {
      "epoch": 0.36618680745265353,
      "grad_norm": 0.7329922721460131,
      "learning_rate": 1.4635309631947099e-05,
      "loss": 0.9762,
      "step": 5965
    },
    {
      "epoch": 0.36624819669112,
      "grad_norm": 0.6965926012578156,
      "learning_rate": 1.4633547701919803e-05,
      "loss": 0.9286,
      "step": 5966
    },
    {
      "epoch": 0.36630958592958657,
      "grad_norm": 0.6379463976519655,
      "learning_rate": 1.463178558870359e-05,
      "loss": 0.8946,
      "step": 5967
    },
    {
      "epoch": 0.36637097516805306,
      "grad_norm": 0.7259838625169946,
      "learning_rate": 1.4630023292368121e-05,
      "loss": 0.956,
      "step": 5968
    },
    {
      "epoch": 0.36643236440651955,
      "grad_norm": 0.7811318789898049,
      "learning_rate": 1.4628260812983066e-05,
      "loss": 0.9387,
      "step": 5969
    },
    {
      "epoch": 0.36649375364498604,
      "grad_norm": 0.7081831481808837,
      "learning_rate": 1.4626498150618109e-05,
      "loss": 0.8717,
      "step": 5970
    },
    {
      "epoch": 0.36655514288345253,
      "grad_norm": 0.7624495490802976,
      "learning_rate": 1.4624735305342934e-05,
      "loss": 0.9259,
      "step": 5971
    },
    {
      "epoch": 0.366616532121919,
      "grad_norm": 0.7270190460854893,
      "learning_rate": 1.4622972277227242e-05,
      "loss": 0.92,
      "step": 5972
    },
    {
      "epoch": 0.3666779213603855,
      "grad_norm": 0.6989367646467175,
      "learning_rate": 1.4621209066340724e-05,
      "loss": 0.9427,
      "step": 5973
    },
    {
      "epoch": 0.366739310598852,
      "grad_norm": 0.6954224373025473,
      "learning_rate": 1.4619445672753099e-05,
      "loss": 0.9441,
      "step": 5974
    },
    {
      "epoch": 0.3668006998373185,
      "grad_norm": 0.6477866142905535,
      "learning_rate": 1.461768209653408e-05,
      "loss": 0.8893,
      "step": 5975
    },
    {
      "epoch": 0.366862089075785,
      "grad_norm": 0.6959109461985814,
      "learning_rate": 1.461591833775339e-05,
      "loss": 0.9255,
      "step": 5976
    },
    {
      "epoch": 0.36692347831425154,
      "grad_norm": 0.7847159760225704,
      "learning_rate": 1.4614154396480761e-05,
      "loss": 0.9438,
      "step": 5977
    },
    {
      "epoch": 0.36698486755271803,
      "grad_norm": 0.7479387859657584,
      "learning_rate": 1.4612390272785927e-05,
      "loss": 0.968,
      "step": 5978
    },
    {
      "epoch": 0.3670462567911845,
      "grad_norm": 0.7648353284162173,
      "learning_rate": 1.4610625966738642e-05,
      "loss": 0.9632,
      "step": 5979
    },
    {
      "epoch": 0.367107646029651,
      "grad_norm": 0.7529342895687346,
      "learning_rate": 1.4608861478408652e-05,
      "loss": 0.8936,
      "step": 5980
    },
    {
      "epoch": 0.3671690352681175,
      "grad_norm": 0.6336518317404194,
      "learning_rate": 1.4607096807865717e-05,
      "loss": 0.903,
      "step": 5981
    },
    {
      "epoch": 0.367230424506584,
      "grad_norm": 0.7616907792083256,
      "learning_rate": 1.4605331955179605e-05,
      "loss": 0.9203,
      "step": 5982
    },
    {
      "epoch": 0.3672918137450505,
      "grad_norm": 0.6260973245042829,
      "learning_rate": 1.4603566920420089e-05,
      "loss": 0.748,
      "step": 5983
    },
    {
      "epoch": 0.367353202983517,
      "grad_norm": 0.7116733294922979,
      "learning_rate": 1.460180170365695e-05,
      "loss": 0.9133,
      "step": 5984
    },
    {
      "epoch": 0.36741459222198347,
      "grad_norm": 0.7056713699791682,
      "learning_rate": 1.4600036304959978e-05,
      "loss": 0.8702,
      "step": 5985
    },
    {
      "epoch": 0.36747598146044996,
      "grad_norm": 0.7122788444538583,
      "learning_rate": 1.459827072439897e-05,
      "loss": 0.9237,
      "step": 5986
    },
    {
      "epoch": 0.36753737069891645,
      "grad_norm": 0.726164454676571,
      "learning_rate": 1.4596504962043727e-05,
      "loss": 0.9247,
      "step": 5987
    },
    {
      "epoch": 0.367598759937383,
      "grad_norm": 0.6684545237979751,
      "learning_rate": 1.4594739017964057e-05,
      "loss": 0.8984,
      "step": 5988
    },
    {
      "epoch": 0.3676601491758495,
      "grad_norm": 0.7210215163905387,
      "learning_rate": 1.4592972892229779e-05,
      "loss": 0.9433,
      "step": 5989
    },
    {
      "epoch": 0.367721538414316,
      "grad_norm": 0.7027963887426609,
      "learning_rate": 1.4591206584910723e-05,
      "loss": 0.8884,
      "step": 5990
    },
    {
      "epoch": 0.3677829276527825,
      "grad_norm": 0.606212575940477,
      "learning_rate": 1.4589440096076708e-05,
      "loss": 0.8975,
      "step": 5991
    },
    {
      "epoch": 0.36784431689124897,
      "grad_norm": 0.6752421292442065,
      "learning_rate": 1.4587673425797585e-05,
      "loss": 0.9104,
      "step": 5992
    },
    {
      "epoch": 0.36790570612971546,
      "grad_norm": 0.6798252504124913,
      "learning_rate": 1.458590657414319e-05,
      "loss": 0.9236,
      "step": 5993
    },
    {
      "epoch": 0.36796709536818195,
      "grad_norm": 0.7726637574459895,
      "learning_rate": 1.4584139541183383e-05,
      "loss": 0.9237,
      "step": 5994
    },
    {
      "epoch": 0.36802848460664844,
      "grad_norm": 0.6426319695198928,
      "learning_rate": 1.4582372326988026e-05,
      "loss": 0.8793,
      "step": 5995
    },
    {
      "epoch": 0.36808987384511493,
      "grad_norm": 0.6691564949554807,
      "learning_rate": 1.4580604931626978e-05,
      "loss": 0.9047,
      "step": 5996
    },
    {
      "epoch": 0.3681512630835814,
      "grad_norm": 0.6707795327785024,
      "learning_rate": 1.4578837355170122e-05,
      "loss": 0.8922,
      "step": 5997
    },
    {
      "epoch": 0.3682126523220479,
      "grad_norm": 0.6818865668303549,
      "learning_rate": 1.4577069597687332e-05,
      "loss": 0.9403,
      "step": 5998
    },
    {
      "epoch": 0.36827404156051446,
      "grad_norm": 0.7297557627886736,
      "learning_rate": 1.4575301659248504e-05,
      "loss": 0.9077,
      "step": 5999
    },
    {
      "epoch": 0.36833543079898096,
      "grad_norm": 0.6768712818674739,
      "learning_rate": 1.457353353992353e-05,
      "loss": 0.9466,
      "step": 6000
    },
    {
      "epoch": 0.36839682003744745,
      "grad_norm": 0.6829795207103663,
      "learning_rate": 1.4571765239782314e-05,
      "loss": 0.9024,
      "step": 6001
    },
    {
      "epoch": 0.36845820927591394,
      "grad_norm": 0.7538086287353158,
      "learning_rate": 1.4569996758894766e-05,
      "loss": 0.9164,
      "step": 6002
    },
    {
      "epoch": 0.36851959851438043,
      "grad_norm": 0.6654134758801596,
      "learning_rate": 1.4568228097330805e-05,
      "loss": 0.8924,
      "step": 6003
    },
    {
      "epoch": 0.3685809877528469,
      "grad_norm": 0.7190558810546066,
      "learning_rate": 1.4566459255160354e-05,
      "loss": 0.9312,
      "step": 6004
    },
    {
      "epoch": 0.3686423769913134,
      "grad_norm": 0.712933395268122,
      "learning_rate": 1.4564690232453346e-05,
      "loss": 0.9712,
      "step": 6005
    },
    {
      "epoch": 0.3687037662297799,
      "grad_norm": 0.7653625587237232,
      "learning_rate": 1.456292102927972e-05,
      "loss": 0.9183,
      "step": 6006
    },
    {
      "epoch": 0.3687651554682464,
      "grad_norm": 0.7119725737777391,
      "learning_rate": 1.4561151645709421e-05,
      "loss": 0.947,
      "step": 6007
    },
    {
      "epoch": 0.3688265447067129,
      "grad_norm": 0.6277595257772685,
      "learning_rate": 1.4559382081812402e-05,
      "loss": 0.8895,
      "step": 6008
    },
    {
      "epoch": 0.36888793394517944,
      "grad_norm": 0.7132585519938481,
      "learning_rate": 1.4557612337658626e-05,
      "loss": 0.9498,
      "step": 6009
    },
    {
      "epoch": 0.3689493231836459,
      "grad_norm": 0.671964056659167,
      "learning_rate": 1.4555842413318055e-05,
      "loss": 0.969,
      "step": 6010
    },
    {
      "epoch": 0.3690107124221124,
      "grad_norm": 0.6821957519550038,
      "learning_rate": 1.455407230886067e-05,
      "loss": 0.8976,
      "step": 6011
    },
    {
      "epoch": 0.3690721016605789,
      "grad_norm": 0.6551124614229843,
      "learning_rate": 1.4552302024356448e-05,
      "loss": 0.8979,
      "step": 6012
    },
    {
      "epoch": 0.3691334908990454,
      "grad_norm": 0.7143981578816696,
      "learning_rate": 1.455053155987538e-05,
      "loss": 0.9236,
      "step": 6013
    },
    {
      "epoch": 0.3691948801375119,
      "grad_norm": 0.6872588550179694,
      "learning_rate": 1.4548760915487463e-05,
      "loss": 0.9374,
      "step": 6014
    },
    {
      "epoch": 0.3692562693759784,
      "grad_norm": 0.6373205648737327,
      "learning_rate": 1.4546990091262698e-05,
      "loss": 0.8866,
      "step": 6015
    },
    {
      "epoch": 0.3693176586144449,
      "grad_norm": 0.794313100875128,
      "learning_rate": 1.4545219087271093e-05,
      "loss": 0.9485,
      "step": 6016
    },
    {
      "epoch": 0.36937904785291137,
      "grad_norm": 0.723620803150927,
      "learning_rate": 1.454344790358267e-05,
      "loss": 0.9663,
      "step": 6017
    },
    {
      "epoch": 0.36944043709137786,
      "grad_norm": 0.659130817422956,
      "learning_rate": 1.4541676540267452e-05,
      "loss": 0.8673,
      "step": 6018
    },
    {
      "epoch": 0.36950182632984435,
      "grad_norm": 0.7340551479898768,
      "learning_rate": 1.4539904997395468e-05,
      "loss": 0.9313,
      "step": 6019
    },
    {
      "epoch": 0.3695632155683109,
      "grad_norm": 0.6920479095557974,
      "learning_rate": 1.453813327503676e-05,
      "loss": 0.9316,
      "step": 6020
    },
    {
      "epoch": 0.3696246048067774,
      "grad_norm": 0.6686768873568256,
      "learning_rate": 1.4536361373261372e-05,
      "loss": 0.9338,
      "step": 6021
    },
    {
      "epoch": 0.3696859940452439,
      "grad_norm": 0.7311406062224252,
      "learning_rate": 1.4534589292139356e-05,
      "loss": 0.8786,
      "step": 6022
    },
    {
      "epoch": 0.3697473832837104,
      "grad_norm": 0.7012409897955976,
      "learning_rate": 1.4532817031740773e-05,
      "loss": 0.928,
      "step": 6023
    },
    {
      "epoch": 0.36980877252217687,
      "grad_norm": 0.6913391826454067,
      "learning_rate": 1.453104459213569e-05,
      "loss": 0.9251,
      "step": 6024
    },
    {
      "epoch": 0.36987016176064336,
      "grad_norm": 0.6910299734312065,
      "learning_rate": 1.4529271973394178e-05,
      "loss": 0.845,
      "step": 6025
    },
    {
      "epoch": 0.36993155099910985,
      "grad_norm": 0.7344008636986913,
      "learning_rate": 1.4527499175586323e-05,
      "loss": 0.95,
      "step": 6026
    },
    {
      "epoch": 0.36999294023757634,
      "grad_norm": 0.7429303774460592,
      "learning_rate": 1.452572619878221e-05,
      "loss": 0.9137,
      "step": 6027
    },
    {
      "epoch": 0.37005432947604283,
      "grad_norm": 0.6482591367847621,
      "learning_rate": 1.4523953043051935e-05,
      "loss": 0.8992,
      "step": 6028
    },
    {
      "epoch": 0.3701157187145093,
      "grad_norm": 0.752273818258368,
      "learning_rate": 1.4522179708465603e-05,
      "loss": 0.9521,
      "step": 6029
    },
    {
      "epoch": 0.37017710795297587,
      "grad_norm": 0.6771051492814912,
      "learning_rate": 1.4520406195093318e-05,
      "loss": 0.8659,
      "step": 6030
    },
    {
      "epoch": 0.37023849719144236,
      "grad_norm": 0.6868671343661947,
      "learning_rate": 1.4518632503005199e-05,
      "loss": 0.9348,
      "step": 6031
    },
    {
      "epoch": 0.37029988642990885,
      "grad_norm": 0.7202455075778008,
      "learning_rate": 1.451685863227137e-05,
      "loss": 0.9109,
      "step": 6032
    },
    {
      "epoch": 0.37036127566837534,
      "grad_norm": 0.7475252880759509,
      "learning_rate": 1.4515084582961963e-05,
      "loss": 0.889,
      "step": 6033
    },
    {
      "epoch": 0.37042266490684184,
      "grad_norm": 0.7164379720619873,
      "learning_rate": 1.4513310355147114e-05,
      "loss": 0.9441,
      "step": 6034
    },
    {
      "epoch": 0.37048405414530833,
      "grad_norm": 0.7239707613902895,
      "learning_rate": 1.4511535948896964e-05,
      "loss": 0.8975,
      "step": 6035
    },
    {
      "epoch": 0.3705454433837748,
      "grad_norm": 0.7636039823608435,
      "learning_rate": 1.4509761364281674e-05,
      "loss": 0.8684,
      "step": 6036
    },
    {
      "epoch": 0.3706068326222413,
      "grad_norm": 0.7274060530373352,
      "learning_rate": 1.4507986601371392e-05,
      "loss": 0.8963,
      "step": 6037
    },
    {
      "epoch": 0.3706682218607078,
      "grad_norm": 0.6666888169499109,
      "learning_rate": 1.4506211660236294e-05,
      "loss": 0.8668,
      "step": 6038
    },
    {
      "epoch": 0.3707296110991743,
      "grad_norm": 0.628419032288792,
      "learning_rate": 1.4504436540946548e-05,
      "loss": 0.686,
      "step": 6039
    },
    {
      "epoch": 0.3707910003376408,
      "grad_norm": 0.6175209115297853,
      "learning_rate": 1.4502661243572331e-05,
      "loss": 0.8492,
      "step": 6040
    },
    {
      "epoch": 0.37085238957610733,
      "grad_norm": 0.694886906824257,
      "learning_rate": 1.4500885768183834e-05,
      "loss": 0.8919,
      "step": 6041
    },
    {
      "epoch": 0.3709137788145738,
      "grad_norm": 0.660286839892626,
      "learning_rate": 1.4499110114851251e-05,
      "loss": 0.9206,
      "step": 6042
    },
    {
      "epoch": 0.3709751680530403,
      "grad_norm": 0.7305765839182216,
      "learning_rate": 1.4497334283644782e-05,
      "loss": 0.9505,
      "step": 6043
    },
    {
      "epoch": 0.3710365572915068,
      "grad_norm": 0.6656940375408089,
      "learning_rate": 1.4495558274634633e-05,
      "loss": 0.8793,
      "step": 6044
    },
    {
      "epoch": 0.3710979465299733,
      "grad_norm": 0.7129515548212314,
      "learning_rate": 1.4493782087891026e-05,
      "loss": 0.949,
      "step": 6045
    },
    {
      "epoch": 0.3711593357684398,
      "grad_norm": 0.6508577341137319,
      "learning_rate": 1.4492005723484174e-05,
      "loss": 0.8901,
      "step": 6046
    },
    {
      "epoch": 0.3712207250069063,
      "grad_norm": 0.5739314859450352,
      "learning_rate": 1.4490229181484314e-05,
      "loss": 0.6806,
      "step": 6047
    },
    {
      "epoch": 0.3712821142453728,
      "grad_norm": 0.7017847654317978,
      "learning_rate": 1.4488452461961677e-05,
      "loss": 0.8701,
      "step": 6048
    },
    {
      "epoch": 0.37134350348383927,
      "grad_norm": 0.7189378953929066,
      "learning_rate": 1.448667556498651e-05,
      "loss": 0.9126,
      "step": 6049
    },
    {
      "epoch": 0.37140489272230576,
      "grad_norm": 0.6815654086110667,
      "learning_rate": 1.4484898490629063e-05,
      "loss": 0.8757,
      "step": 6050
    },
    {
      "epoch": 0.3714662819607723,
      "grad_norm": 0.704458196996464,
      "learning_rate": 1.448312123895959e-05,
      "loss": 0.9346,
      "step": 6051
    },
    {
      "epoch": 0.3715276711992388,
      "grad_norm": 0.7147463093238217,
      "learning_rate": 1.4481343810048355e-05,
      "loss": 0.9736,
      "step": 6052
    },
    {
      "epoch": 0.3715890604377053,
      "grad_norm": 0.6992480663952606,
      "learning_rate": 1.4479566203965632e-05,
      "loss": 0.8734,
      "step": 6053
    },
    {
      "epoch": 0.3716504496761718,
      "grad_norm": 0.7320610357473842,
      "learning_rate": 1.4477788420781702e-05,
      "loss": 0.8834,
      "step": 6054
    },
    {
      "epoch": 0.37171183891463827,
      "grad_norm": 0.6470545986577478,
      "learning_rate": 1.4476010460566842e-05,
      "loss": 0.8614,
      "step": 6055
    },
    {
      "epoch": 0.37177322815310476,
      "grad_norm": 0.7627918120527672,
      "learning_rate": 1.4474232323391354e-05,
      "loss": 0.887,
      "step": 6056
    },
    {
      "epoch": 0.37183461739157125,
      "grad_norm": 0.7529245010404092,
      "learning_rate": 1.4472454009325528e-05,
      "loss": 0.9081,
      "step": 6057
    },
    {
      "epoch": 0.37189600663003775,
      "grad_norm": 0.7121152586257823,
      "learning_rate": 1.4470675518439677e-05,
      "loss": 0.8624,
      "step": 6058
    },
    {
      "epoch": 0.37195739586850424,
      "grad_norm": 0.7751717507518036,
      "learning_rate": 1.4468896850804111e-05,
      "loss": 0.9685,
      "step": 6059
    },
    {
      "epoch": 0.37201878510697073,
      "grad_norm": 0.7970430020172533,
      "learning_rate": 1.446711800648915e-05,
      "loss": 0.9379,
      "step": 6060
    },
    {
      "epoch": 0.3720801743454372,
      "grad_norm": 0.7754335469950796,
      "learning_rate": 1.4465338985565126e-05,
      "loss": 0.9143,
      "step": 6061
    },
    {
      "epoch": 0.37214156358390377,
      "grad_norm": 0.6989994435304075,
      "learning_rate": 1.4463559788102366e-05,
      "loss": 0.9059,
      "step": 6062
    },
    {
      "epoch": 0.37220295282237026,
      "grad_norm": 0.6667561853307149,
      "learning_rate": 1.4461780414171216e-05,
      "loss": 0.8968,
      "step": 6063
    },
    {
      "epoch": 0.37226434206083675,
      "grad_norm": 0.6808809118145569,
      "learning_rate": 1.4460000863842023e-05,
      "loss": 0.9115,
      "step": 6064
    },
    {
      "epoch": 0.37232573129930324,
      "grad_norm": 0.6591959210111853,
      "learning_rate": 1.4458221137185142e-05,
      "loss": 0.886,
      "step": 6065
    },
    {
      "epoch": 0.37238712053776973,
      "grad_norm": 0.6672630361369082,
      "learning_rate": 1.4456441234270938e-05,
      "loss": 0.9041,
      "step": 6066
    },
    {
      "epoch": 0.3724485097762362,
      "grad_norm": 0.6627473249453439,
      "learning_rate": 1.445466115516977e-05,
      "loss": 0.8591,
      "step": 6067
    },
    {
      "epoch": 0.3725098990147027,
      "grad_norm": 0.7388805817837085,
      "learning_rate": 1.4452880899952029e-05,
      "loss": 0.9399,
      "step": 6068
    },
    {
      "epoch": 0.3725712882531692,
      "grad_norm": 0.710757393983683,
      "learning_rate": 1.4451100468688086e-05,
      "loss": 0.9193,
      "step": 6069
    },
    {
      "epoch": 0.3726326774916357,
      "grad_norm": 0.7417518454754656,
      "learning_rate": 1.444931986144834e-05,
      "loss": 0.9443,
      "step": 6070
    },
    {
      "epoch": 0.3726940667301022,
      "grad_norm": 0.7154698040455844,
      "learning_rate": 1.4447539078303177e-05,
      "loss": 0.9138,
      "step": 6071
    },
    {
      "epoch": 0.3727554559685687,
      "grad_norm": 0.7016547146643823,
      "learning_rate": 1.444575811932301e-05,
      "loss": 0.907,
      "step": 6072
    },
    {
      "epoch": 0.37281684520703523,
      "grad_norm": 0.7457335801370595,
      "learning_rate": 1.444397698457825e-05,
      "loss": 0.9083,
      "step": 6073
    },
    {
      "epoch": 0.3728782344455017,
      "grad_norm": 0.7524798585986088,
      "learning_rate": 1.4442195674139306e-05,
      "loss": 0.9172,
      "step": 6074
    },
    {
      "epoch": 0.3729396236839682,
      "grad_norm": 0.6967826393159312,
      "learning_rate": 1.444041418807661e-05,
      "loss": 0.9539,
      "step": 6075
    },
    {
      "epoch": 0.3730010129224347,
      "grad_norm": 0.7680206794181167,
      "learning_rate": 1.4438632526460594e-05,
      "loss": 0.9285,
      "step": 6076
    },
    {
      "epoch": 0.3730624021609012,
      "grad_norm": 0.7067830815463553,
      "learning_rate": 1.4436850689361697e-05,
      "loss": 0.8907,
      "step": 6077
    },
    {
      "epoch": 0.3731237913993677,
      "grad_norm": 0.728622808013846,
      "learning_rate": 1.4435068676850356e-05,
      "loss": 0.917,
      "step": 6078
    },
    {
      "epoch": 0.3731851806378342,
      "grad_norm": 0.6176714314268483,
      "learning_rate": 1.4433286488997036e-05,
      "loss": 0.8544,
      "step": 6079
    },
    {
      "epoch": 0.37324656987630067,
      "grad_norm": 0.7027387616761702,
      "learning_rate": 1.4431504125872184e-05,
      "loss": 0.8966,
      "step": 6080
    },
    {
      "epoch": 0.37330795911476716,
      "grad_norm": 0.6887645510200939,
      "learning_rate": 1.4429721587546277e-05,
      "loss": 0.8972,
      "step": 6081
    },
    {
      "epoch": 0.37336934835323365,
      "grad_norm": 0.6620830795675524,
      "learning_rate": 1.4427938874089784e-05,
      "loss": 0.8803,
      "step": 6082
    },
    {
      "epoch": 0.3734307375917002,
      "grad_norm": 0.7041848712064083,
      "learning_rate": 1.4426155985573185e-05,
      "loss": 0.9498,
      "step": 6083
    },
    {
      "epoch": 0.3734921268301667,
      "grad_norm": 0.6907583673759894,
      "learning_rate": 1.4424372922066965e-05,
      "loss": 0.7384,
      "step": 6084
    },
    {
      "epoch": 0.3735535160686332,
      "grad_norm": 0.7425732092191849,
      "learning_rate": 1.442258968364162e-05,
      "loss": 0.9263,
      "step": 6085
    },
    {
      "epoch": 0.3736149053070997,
      "grad_norm": 0.666614265862987,
      "learning_rate": 1.4420806270367656e-05,
      "loss": 0.885,
      "step": 6086
    },
    {
      "epoch": 0.37367629454556617,
      "grad_norm": 0.6830953428581129,
      "learning_rate": 1.4419022682315568e-05,
      "loss": 0.8973,
      "step": 6087
    },
    {
      "epoch": 0.37373768378403266,
      "grad_norm": 0.7453365122789339,
      "learning_rate": 1.4417238919555885e-05,
      "loss": 0.9167,
      "step": 6088
    },
    {
      "epoch": 0.37379907302249915,
      "grad_norm": 0.6921890843208647,
      "learning_rate": 1.4415454982159121e-05,
      "loss": 0.8951,
      "step": 6089
    },
    {
      "epoch": 0.37386046226096564,
      "grad_norm": 0.7461724147365678,
      "learning_rate": 1.4413670870195805e-05,
      "loss": 0.9347,
      "step": 6090
    },
    {
      "epoch": 0.37392185149943213,
      "grad_norm": 0.7352687844988336,
      "learning_rate": 1.4411886583736474e-05,
      "loss": 0.9165,
      "step": 6091
    },
    {
      "epoch": 0.3739832407378986,
      "grad_norm": 0.7174022902312361,
      "learning_rate": 1.4410102122851668e-05,
      "loss": 0.9211,
      "step": 6092
    },
    {
      "epoch": 0.3740446299763651,
      "grad_norm": 0.7264897833477995,
      "learning_rate": 1.4408317487611942e-05,
      "loss": 0.937,
      "step": 6093
    },
    {
      "epoch": 0.37410601921483166,
      "grad_norm": 0.7950506071769016,
      "learning_rate": 1.4406532678087846e-05,
      "loss": 0.9382,
      "step": 6094
    },
    {
      "epoch": 0.37416740845329816,
      "grad_norm": 0.7563396868127061,
      "learning_rate": 1.4404747694349946e-05,
      "loss": 0.9792,
      "step": 6095
    },
    {
      "epoch": 0.37422879769176465,
      "grad_norm": 0.692632927294285,
      "learning_rate": 1.4402962536468812e-05,
      "loss": 0.9128,
      "step": 6096
    },
    {
      "epoch": 0.37429018693023114,
      "grad_norm": 0.6992485226498804,
      "learning_rate": 1.440117720451502e-05,
      "loss": 0.9218,
      "step": 6097
    },
    {
      "epoch": 0.37435157616869763,
      "grad_norm": 0.732225318393037,
      "learning_rate": 1.4399391698559153e-05,
      "loss": 0.9189,
      "step": 6098
    },
    {
      "epoch": 0.3744129654071641,
      "grad_norm": 0.628664607795243,
      "learning_rate": 1.4397606018671803e-05,
      "loss": 0.8629,
      "step": 6099
    },
    {
      "epoch": 0.3744743546456306,
      "grad_norm": 0.7342492853455436,
      "learning_rate": 1.4395820164923566e-05,
      "loss": 0.8597,
      "step": 6100
    },
    {
      "epoch": 0.3745357438840971,
      "grad_norm": 0.7300545444046995,
      "learning_rate": 1.4394034137385049e-05,
      "loss": 0.9035,
      "step": 6101
    },
    {
      "epoch": 0.3745971331225636,
      "grad_norm": 0.6608336991722984,
      "learning_rate": 1.4392247936126862e-05,
      "loss": 0.8751,
      "step": 6102
    },
    {
      "epoch": 0.3746585223610301,
      "grad_norm": 0.6772002030464656,
      "learning_rate": 1.4390461561219622e-05,
      "loss": 0.9298,
      "step": 6103
    },
    {
      "epoch": 0.37471991159949664,
      "grad_norm": 0.7406847919535468,
      "learning_rate": 1.4388675012733954e-05,
      "loss": 0.8724,
      "step": 6104
    },
    {
      "epoch": 0.3747813008379631,
      "grad_norm": 0.686734681826513,
      "learning_rate": 1.4386888290740493e-05,
      "loss": 0.874,
      "step": 6105
    },
    {
      "epoch": 0.3748426900764296,
      "grad_norm": 0.6360136256379011,
      "learning_rate": 1.438510139530987e-05,
      "loss": 0.9148,
      "step": 6106
    },
    {
      "epoch": 0.3749040793148961,
      "grad_norm": 0.6970198977084485,
      "learning_rate": 1.4383314326512741e-05,
      "loss": 0.9259,
      "step": 6107
    },
    {
      "epoch": 0.3749654685533626,
      "grad_norm": 0.7619928659699506,
      "learning_rate": 1.438152708441975e-05,
      "loss": 0.8954,
      "step": 6108
    },
    {
      "epoch": 0.3750268577918291,
      "grad_norm": 0.689282780897023,
      "learning_rate": 1.437973966910156e-05,
      "loss": 0.9066,
      "step": 6109
    },
    {
      "epoch": 0.3750882470302956,
      "grad_norm": 0.7451712227164644,
      "learning_rate": 1.4377952080628838e-05,
      "loss": 0.8886,
      "step": 6110
    },
    {
      "epoch": 0.3751496362687621,
      "grad_norm": 0.6923675219198562,
      "learning_rate": 1.4376164319072254e-05,
      "loss": 0.8631,
      "step": 6111
    },
    {
      "epoch": 0.37521102550722857,
      "grad_norm": 0.6856094192916127,
      "learning_rate": 1.4374376384502487e-05,
      "loss": 0.8816,
      "step": 6112
    },
    {
      "epoch": 0.37527241474569506,
      "grad_norm": 0.7173697106888086,
      "learning_rate": 1.4372588276990227e-05,
      "loss": 0.9652,
      "step": 6113
    },
    {
      "epoch": 0.37533380398416155,
      "grad_norm": 0.7188194497392525,
      "learning_rate": 1.4370799996606169e-05,
      "loss": 0.884,
      "step": 6114
    },
    {
      "epoch": 0.3753951932226281,
      "grad_norm": 0.7171266999944769,
      "learning_rate": 1.4369011543421007e-05,
      "loss": 0.8861,
      "step": 6115
    },
    {
      "epoch": 0.3754565824610946,
      "grad_norm": 0.760919195051581,
      "learning_rate": 1.4367222917505452e-05,
      "loss": 0.9462,
      "step": 6116
    },
    {
      "epoch": 0.3755179716995611,
      "grad_norm": 0.6839969098308671,
      "learning_rate": 1.436543411893022e-05,
      "loss": 0.8734,
      "step": 6117
    },
    {
      "epoch": 0.3755793609380276,
      "grad_norm": 0.7318319853057148,
      "learning_rate": 1.4363645147766028e-05,
      "loss": 0.9245,
      "step": 6118
    },
    {
      "epoch": 0.37564075017649406,
      "grad_norm": 0.782695679392615,
      "learning_rate": 1.4361856004083604e-05,
      "loss": 0.996,
      "step": 6119
    },
    {
      "epoch": 0.37570213941496056,
      "grad_norm": 0.735037103412834,
      "learning_rate": 1.4360066687953684e-05,
      "loss": 0.9343,
      "step": 6120
    },
    {
      "epoch": 0.37576352865342705,
      "grad_norm": 0.697987343691856,
      "learning_rate": 1.4358277199447007e-05,
      "loss": 0.9121,
      "step": 6121
    },
    {
      "epoch": 0.37582491789189354,
      "grad_norm": 0.7361042711439989,
      "learning_rate": 1.4356487538634323e-05,
      "loss": 0.915,
      "step": 6122
    },
    {
      "epoch": 0.37588630713036003,
      "grad_norm": 0.6403743231601181,
      "learning_rate": 1.4354697705586392e-05,
      "loss": 0.8623,
      "step": 6123
    },
    {
      "epoch": 0.3759476963688265,
      "grad_norm": 0.7334300664872142,
      "learning_rate": 1.4352907700373961e-05,
      "loss": 0.903,
      "step": 6124
    },
    {
      "epoch": 0.376009085607293,
      "grad_norm": 0.6736233896564315,
      "learning_rate": 1.4351117523067814e-05,
      "loss": 0.8972,
      "step": 6125
    },
    {
      "epoch": 0.37607047484575956,
      "grad_norm": 0.7163693093953248,
      "learning_rate": 1.4349327173738718e-05,
      "loss": 0.8524,
      "step": 6126
    },
    {
      "epoch": 0.37613186408422605,
      "grad_norm": 0.6966229201078069,
      "learning_rate": 1.434753665245746e-05,
      "loss": 0.9326,
      "step": 6127
    },
    {
      "epoch": 0.37619325332269254,
      "grad_norm": 0.6173046278282212,
      "learning_rate": 1.4345745959294822e-05,
      "loss": 0.7265,
      "step": 6128
    },
    {
      "epoch": 0.37625464256115904,
      "grad_norm": 0.7758915646989223,
      "learning_rate": 1.4343955094321605e-05,
      "loss": 0.9306,
      "step": 6129
    },
    {
      "epoch": 0.3763160317996255,
      "grad_norm": 0.7317225799917101,
      "learning_rate": 1.4342164057608608e-05,
      "loss": 0.9288,
      "step": 6130
    },
    {
      "epoch": 0.376377421038092,
      "grad_norm": 0.7040454475681395,
      "learning_rate": 1.4340372849226643e-05,
      "loss": 0.8847,
      "step": 6131
    },
    {
      "epoch": 0.3764388102765585,
      "grad_norm": 0.6622456714455963,
      "learning_rate": 1.4338581469246527e-05,
      "loss": 0.8846,
      "step": 6132
    },
    {
      "epoch": 0.376500199515025,
      "grad_norm": 0.737730821375013,
      "learning_rate": 1.433678991773908e-05,
      "loss": 0.9124,
      "step": 6133
    },
    {
      "epoch": 0.3765615887534915,
      "grad_norm": 0.677235604961781,
      "learning_rate": 1.4334998194775133e-05,
      "loss": 0.9436,
      "step": 6134
    },
    {
      "epoch": 0.376622977991958,
      "grad_norm": 0.776853352632263,
      "learning_rate": 1.4333206300425522e-05,
      "loss": 0.9453,
      "step": 6135
    },
    {
      "epoch": 0.37668436723042453,
      "grad_norm": 0.7614772899044407,
      "learning_rate": 1.4331414234761092e-05,
      "loss": 0.9088,
      "step": 6136
    },
    {
      "epoch": 0.376745756468891,
      "grad_norm": 0.7729073090483141,
      "learning_rate": 1.432962199785269e-05,
      "loss": 0.9073,
      "step": 6137
    },
    {
      "epoch": 0.3768071457073575,
      "grad_norm": 0.654375913127654,
      "learning_rate": 1.4327829589771172e-05,
      "loss": 0.9017,
      "step": 6138
    },
    {
      "epoch": 0.376868534945824,
      "grad_norm": 0.6658330264075041,
      "learning_rate": 1.4326037010587406e-05,
      "loss": 0.8607,
      "step": 6139
    },
    {
      "epoch": 0.3769299241842905,
      "grad_norm": 0.6703439173848399,
      "learning_rate": 1.4324244260372257e-05,
      "loss": 0.9041,
      "step": 6140
    },
    {
      "epoch": 0.376991313422757,
      "grad_norm": 0.7085263829676487,
      "learning_rate": 1.4322451339196608e-05,
      "loss": 0.9072,
      "step": 6141
    },
    {
      "epoch": 0.3770527026612235,
      "grad_norm": 0.7197646534239134,
      "learning_rate": 1.432065824713134e-05,
      "loss": 0.8545,
      "step": 6142
    },
    {
      "epoch": 0.37711409189969,
      "grad_norm": 0.7069548512972457,
      "learning_rate": 1.431886498424734e-05,
      "loss": 0.8561,
      "step": 6143
    },
    {
      "epoch": 0.37717548113815647,
      "grad_norm": 0.5904415816840004,
      "learning_rate": 1.4317071550615508e-05,
      "loss": 0.8423,
      "step": 6144
    },
    {
      "epoch": 0.37723687037662296,
      "grad_norm": 0.6769725907023272,
      "learning_rate": 1.431527794630675e-05,
      "loss": 0.9394,
      "step": 6145
    },
    {
      "epoch": 0.37729825961508945,
      "grad_norm": 0.7266570496559069,
      "learning_rate": 1.4313484171391976e-05,
      "loss": 0.8787,
      "step": 6146
    },
    {
      "epoch": 0.377359648853556,
      "grad_norm": 0.7426773129568031,
      "learning_rate": 1.4311690225942102e-05,
      "loss": 0.8814,
      "step": 6147
    },
    {
      "epoch": 0.3774210380920225,
      "grad_norm": 0.6800560929967129,
      "learning_rate": 1.4309896110028053e-05,
      "loss": 0.8895,
      "step": 6148
    },
    {
      "epoch": 0.377482427330489,
      "grad_norm": 0.7500448421222252,
      "learning_rate": 1.4308101823720755e-05,
      "loss": 0.9717,
      "step": 6149
    },
    {
      "epoch": 0.37754381656895547,
      "grad_norm": 0.7312114308387289,
      "learning_rate": 1.4306307367091157e-05,
      "loss": 0.8645,
      "step": 6150
    },
    {
      "epoch": 0.37760520580742196,
      "grad_norm": 0.6506500702264794,
      "learning_rate": 1.4304512740210193e-05,
      "loss": 0.8647,
      "step": 6151
    },
    {
      "epoch": 0.37766659504588845,
      "grad_norm": 0.7513186010090724,
      "learning_rate": 1.4302717943148821e-05,
      "loss": 0.9193,
      "step": 6152
    },
    {
      "epoch": 0.37772798428435495,
      "grad_norm": 0.6403731389595132,
      "learning_rate": 1.4300922975977995e-05,
      "loss": 0.8965,
      "step": 6153
    },
    {
      "epoch": 0.37778937352282144,
      "grad_norm": 0.6951916033517159,
      "learning_rate": 1.4299127838768678e-05,
      "loss": 0.8979,
      "step": 6154
    },
    {
      "epoch": 0.37785076276128793,
      "grad_norm": 0.7269460464783196,
      "learning_rate": 1.429733253159185e-05,
      "loss": 0.9157,
      "step": 6155
    },
    {
      "epoch": 0.3779121519997544,
      "grad_norm": 0.7401514372980779,
      "learning_rate": 1.4295537054518478e-05,
      "loss": 0.9036,
      "step": 6156
    },
    {
      "epoch": 0.37797354123822097,
      "grad_norm": 0.7803431145624521,
      "learning_rate": 1.4293741407619556e-05,
      "loss": 0.8809,
      "step": 6157
    },
    {
      "epoch": 0.37803493047668746,
      "grad_norm": 0.7478924732403089,
      "learning_rate": 1.429194559096607e-05,
      "loss": 0.917,
      "step": 6158
    },
    {
      "epoch": 0.37809631971515395,
      "grad_norm": 0.7253190265517597,
      "learning_rate": 1.4290149604629017e-05,
      "loss": 0.973,
      "step": 6159
    },
    {
      "epoch": 0.37815770895362044,
      "grad_norm": 0.7439293851819544,
      "learning_rate": 1.428835344867941e-05,
      "loss": 0.9418,
      "step": 6160
    },
    {
      "epoch": 0.37821909819208693,
      "grad_norm": 0.7407055301799713,
      "learning_rate": 1.4286557123188254e-05,
      "loss": 0.9652,
      "step": 6161
    },
    {
      "epoch": 0.3782804874305534,
      "grad_norm": 0.8039702733454749,
      "learning_rate": 1.4284760628226568e-05,
      "loss": 0.916,
      "step": 6162
    },
    {
      "epoch": 0.3783418766690199,
      "grad_norm": 0.6898735204663358,
      "learning_rate": 1.4282963963865375e-05,
      "loss": 0.8603,
      "step": 6163
    },
    {
      "epoch": 0.3784032659074864,
      "grad_norm": 0.7861316158222673,
      "learning_rate": 1.4281167130175712e-05,
      "loss": 0.9413,
      "step": 6164
    },
    {
      "epoch": 0.3784646551459529,
      "grad_norm": 0.7397414413609674,
      "learning_rate": 1.4279370127228615e-05,
      "loss": 0.9334,
      "step": 6165
    },
    {
      "epoch": 0.3785260443844194,
      "grad_norm": 0.7908098801981568,
      "learning_rate": 1.427757295509513e-05,
      "loss": 0.918,
      "step": 6166
    },
    {
      "epoch": 0.3785874336228859,
      "grad_norm": 0.7040401206741945,
      "learning_rate": 1.4275775613846308e-05,
      "loss": 0.8712,
      "step": 6167
    },
    {
      "epoch": 0.37864882286135243,
      "grad_norm": 0.7573373857365495,
      "learning_rate": 1.4273978103553207e-05,
      "loss": 0.9209,
      "step": 6168
    },
    {
      "epoch": 0.3787102120998189,
      "grad_norm": 0.6724445587056651,
      "learning_rate": 1.4272180424286895e-05,
      "loss": 0.928,
      "step": 6169
    },
    {
      "epoch": 0.3787716013382854,
      "grad_norm": 0.6605042905764653,
      "learning_rate": 1.4270382576118438e-05,
      "loss": 0.8778,
      "step": 6170
    },
    {
      "epoch": 0.3788329905767519,
      "grad_norm": 0.741943201138213,
      "learning_rate": 1.4268584559118919e-05,
      "loss": 0.9264,
      "step": 6171
    },
    {
      "epoch": 0.3788943798152184,
      "grad_norm": 0.7614708444872113,
      "learning_rate": 1.4266786373359423e-05,
      "loss": 0.9625,
      "step": 6172
    },
    {
      "epoch": 0.3789557690536849,
      "grad_norm": 0.6928045804076419,
      "learning_rate": 1.4264988018911041e-05,
      "loss": 0.899,
      "step": 6173
    },
    {
      "epoch": 0.3790171582921514,
      "grad_norm": 0.6529939728568231,
      "learning_rate": 1.4263189495844874e-05,
      "loss": 0.881,
      "step": 6174
    },
    {
      "epoch": 0.37907854753061787,
      "grad_norm": 0.7535090014249134,
      "learning_rate": 1.4261390804232023e-05,
      "loss": 0.9425,
      "step": 6175
    },
    {
      "epoch": 0.37913993676908436,
      "grad_norm": 0.6810043669099883,
      "learning_rate": 1.4259591944143601e-05,
      "loss": 0.8778,
      "step": 6176
    },
    {
      "epoch": 0.37920132600755085,
      "grad_norm": 0.7034196967325126,
      "learning_rate": 1.4257792915650728e-05,
      "loss": 0.8782,
      "step": 6177
    },
    {
      "epoch": 0.37926271524601735,
      "grad_norm": 0.718176860815227,
      "learning_rate": 1.425599371882453e-05,
      "loss": 0.95,
      "step": 6178
    },
    {
      "epoch": 0.3793241044844839,
      "grad_norm": 0.7103840235807847,
      "learning_rate": 1.4254194353736138e-05,
      "loss": 0.9194,
      "step": 6179
    },
    {
      "epoch": 0.3793854937229504,
      "grad_norm": 0.6104742409711084,
      "learning_rate": 1.4252394820456688e-05,
      "loss": 0.8547,
      "step": 6180
    },
    {
      "epoch": 0.3794468829614169,
      "grad_norm": 0.7234220832955962,
      "learning_rate": 1.4250595119057327e-05,
      "loss": 0.9416,
      "step": 6181
    },
    {
      "epoch": 0.37950827219988337,
      "grad_norm": 0.730932505343041,
      "learning_rate": 1.4248795249609211e-05,
      "loss": 0.9411,
      "step": 6182
    },
    {
      "epoch": 0.37956966143834986,
      "grad_norm": 0.6815130887896336,
      "learning_rate": 1.424699521218349e-05,
      "loss": 0.872,
      "step": 6183
    },
    {
      "epoch": 0.37963105067681635,
      "grad_norm": 0.641023896586194,
      "learning_rate": 1.4245195006851338e-05,
      "loss": 0.7852,
      "step": 6184
    },
    {
      "epoch": 0.37969243991528284,
      "grad_norm": 0.7259554168191269,
      "learning_rate": 1.424339463368392e-05,
      "loss": 0.9493,
      "step": 6185
    },
    {
      "epoch": 0.37975382915374933,
      "grad_norm": 0.6804449545756747,
      "learning_rate": 1.4241594092752415e-05,
      "loss": 0.9042,
      "step": 6186
    },
    {
      "epoch": 0.3798152183922158,
      "grad_norm": 0.7506539608609285,
      "learning_rate": 1.4239793384128015e-05,
      "loss": 0.9277,
      "step": 6187
    },
    {
      "epoch": 0.3798766076306823,
      "grad_norm": 0.7401163602119389,
      "learning_rate": 1.4237992507881902e-05,
      "loss": 0.9159,
      "step": 6188
    },
    {
      "epoch": 0.37993799686914886,
      "grad_norm": 0.7033821422129433,
      "learning_rate": 1.4236191464085286e-05,
      "loss": 0.8759,
      "step": 6189
    },
    {
      "epoch": 0.37999938610761536,
      "grad_norm": 0.6940644805347812,
      "learning_rate": 1.4234390252809356e-05,
      "loss": 0.8628,
      "step": 6190
    },
    {
      "epoch": 0.38006077534608185,
      "grad_norm": 0.655738094009293,
      "learning_rate": 1.4232588874125335e-05,
      "loss": 0.8234,
      "step": 6191
    },
    {
      "epoch": 0.38012216458454834,
      "grad_norm": 0.7138260610939806,
      "learning_rate": 1.4230787328104438e-05,
      "loss": 0.905,
      "step": 6192
    },
    {
      "epoch": 0.38018355382301483,
      "grad_norm": 0.7252996378576012,
      "learning_rate": 1.422898561481789e-05,
      "loss": 0.8644,
      "step": 6193
    },
    {
      "epoch": 0.3802449430614813,
      "grad_norm": 0.6830425375073891,
      "learning_rate": 1.4227183734336926e-05,
      "loss": 0.9115,
      "step": 6194
    },
    {
      "epoch": 0.3803063322999478,
      "grad_norm": 0.7501263760778099,
      "learning_rate": 1.4225381686732776e-05,
      "loss": 0.9177,
      "step": 6195
    },
    {
      "epoch": 0.3803677215384143,
      "grad_norm": 0.7360158548442445,
      "learning_rate": 1.4223579472076691e-05,
      "loss": 0.9461,
      "step": 6196
    },
    {
      "epoch": 0.3804291107768808,
      "grad_norm": 0.6692851113668545,
      "learning_rate": 1.422177709043992e-05,
      "loss": 0.8749,
      "step": 6197
    },
    {
      "epoch": 0.3804905000153473,
      "grad_norm": 0.7694610418629739,
      "learning_rate": 1.4219974541893722e-05,
      "loss": 0.9141,
      "step": 6198
    },
    {
      "epoch": 0.3805518892538138,
      "grad_norm": 0.7708660149193741,
      "learning_rate": 1.4218171826509359e-05,
      "loss": 0.9187,
      "step": 6199
    },
    {
      "epoch": 0.3806132784922803,
      "grad_norm": 0.7363833189315268,
      "learning_rate": 1.4216368944358103e-05,
      "loss": 0.8982,
      "step": 6200
    },
    {
      "epoch": 0.3806746677307468,
      "grad_norm": 0.6224367290258493,
      "learning_rate": 1.4214565895511233e-05,
      "loss": 0.8593,
      "step": 6201
    },
    {
      "epoch": 0.3807360569692133,
      "grad_norm": 0.7222929240096345,
      "learning_rate": 1.421276268004003e-05,
      "loss": 0.8866,
      "step": 6202
    },
    {
      "epoch": 0.3807974462076798,
      "grad_norm": 0.7807115875432581,
      "learning_rate": 1.4210959298015789e-05,
      "loss": 0.9235,
      "step": 6203
    },
    {
      "epoch": 0.3808588354461463,
      "grad_norm": 0.6891884578583295,
      "learning_rate": 1.4209155749509803e-05,
      "loss": 0.8803,
      "step": 6204
    },
    {
      "epoch": 0.3809202246846128,
      "grad_norm": 0.7289351506250088,
      "learning_rate": 1.4207352034593382e-05,
      "loss": 0.9076,
      "step": 6205
    },
    {
      "epoch": 0.3809816139230793,
      "grad_norm": 0.761421314100504,
      "learning_rate": 1.420554815333783e-05,
      "loss": 0.9233,
      "step": 6206
    },
    {
      "epoch": 0.38104300316154577,
      "grad_norm": 0.7367567877294976,
      "learning_rate": 1.4203744105814467e-05,
      "loss": 0.9376,
      "step": 6207
    },
    {
      "epoch": 0.38110439240001226,
      "grad_norm": 0.6943056365178131,
      "learning_rate": 1.4201939892094614e-05,
      "loss": 0.9138,
      "step": 6208
    },
    {
      "epoch": 0.38116578163847875,
      "grad_norm": 0.7589152196748316,
      "learning_rate": 1.4200135512249606e-05,
      "loss": 0.9622,
      "step": 6209
    },
    {
      "epoch": 0.3812271708769453,
      "grad_norm": 0.709393479516626,
      "learning_rate": 1.4198330966350777e-05,
      "loss": 0.9403,
      "step": 6210
    },
    {
      "epoch": 0.3812885601154118,
      "grad_norm": 0.6478408788292309,
      "learning_rate": 1.4196526254469471e-05,
      "loss": 0.9021,
      "step": 6211
    },
    {
      "epoch": 0.3813499493538783,
      "grad_norm": 0.7263803391711722,
      "learning_rate": 1.4194721376677038e-05,
      "loss": 0.9051,
      "step": 6212
    },
    {
      "epoch": 0.3814113385923448,
      "grad_norm": 0.653219816133273,
      "learning_rate": 1.419291633304483e-05,
      "loss": 0.8547,
      "step": 6213
    },
    {
      "epoch": 0.38147272783081126,
      "grad_norm": 0.661071989765036,
      "learning_rate": 1.419111112364422e-05,
      "loss": 0.9046,
      "step": 6214
    },
    {
      "epoch": 0.38153411706927776,
      "grad_norm": 0.8036992265696074,
      "learning_rate": 1.4189305748546568e-05,
      "loss": 0.9153,
      "step": 6215
    },
    {
      "epoch": 0.38159550630774425,
      "grad_norm": 0.6842660665486067,
      "learning_rate": 1.4187500207823255e-05,
      "loss": 0.8799,
      "step": 6216
    },
    {
      "epoch": 0.38165689554621074,
      "grad_norm": 0.6834044974363627,
      "learning_rate": 1.4185694501545664e-05,
      "loss": 0.9128,
      "step": 6217
    },
    {
      "epoch": 0.38171828478467723,
      "grad_norm": 0.7085793600923775,
      "learning_rate": 1.4183888629785178e-05,
      "loss": 0.9113,
      "step": 6218
    },
    {
      "epoch": 0.3817796740231437,
      "grad_norm": 0.6639452901479216,
      "learning_rate": 1.4182082592613202e-05,
      "loss": 0.827,
      "step": 6219
    },
    {
      "epoch": 0.3818410632616102,
      "grad_norm": 0.6805793628613034,
      "learning_rate": 1.418027639010113e-05,
      "loss": 0.9188,
      "step": 6220
    },
    {
      "epoch": 0.38190245250007676,
      "grad_norm": 0.7032408973895932,
      "learning_rate": 1.4178470022320378e-05,
      "loss": 0.9196,
      "step": 6221
    },
    {
      "epoch": 0.38196384173854325,
      "grad_norm": 0.5688145739265743,
      "learning_rate": 1.4176663489342356e-05,
      "loss": 0.7066,
      "step": 6222
    },
    {
      "epoch": 0.38202523097700974,
      "grad_norm": 0.6952180553279973,
      "learning_rate": 1.4174856791238489e-05,
      "loss": 0.8877,
      "step": 6223
    },
    {
      "epoch": 0.38208662021547624,
      "grad_norm": 0.7572233462777178,
      "learning_rate": 1.4173049928080204e-05,
      "loss": 0.9636,
      "step": 6224
    },
    {
      "epoch": 0.3821480094539427,
      "grad_norm": 0.7871674194121341,
      "learning_rate": 1.4171242899938936e-05,
      "loss": 0.8881,
      "step": 6225
    },
    {
      "epoch": 0.3822093986924092,
      "grad_norm": 0.7462211979801764,
      "learning_rate": 1.4169435706886128e-05,
      "loss": 0.9276,
      "step": 6226
    },
    {
      "epoch": 0.3822707879308757,
      "grad_norm": 0.7646100252066376,
      "learning_rate": 1.4167628348993225e-05,
      "loss": 0.9301,
      "step": 6227
    },
    {
      "epoch": 0.3823321771693422,
      "grad_norm": 0.7613830629161888,
      "learning_rate": 1.4165820826331684e-05,
      "loss": 0.9558,
      "step": 6228
    },
    {
      "epoch": 0.3823935664078087,
      "grad_norm": 0.6718177339076455,
      "learning_rate": 1.4164013138972966e-05,
      "loss": 0.903,
      "step": 6229
    },
    {
      "epoch": 0.3824549556462752,
      "grad_norm": 0.7476475939445483,
      "learning_rate": 1.4162205286988537e-05,
      "loss": 0.926,
      "step": 6230
    },
    {
      "epoch": 0.38251634488474173,
      "grad_norm": 0.7354987639372624,
      "learning_rate": 1.4160397270449872e-05,
      "loss": 0.9358,
      "step": 6231
    },
    {
      "epoch": 0.3825777341232082,
      "grad_norm": 0.7150797612412199,
      "learning_rate": 1.4158589089428451e-05,
      "loss": 0.8899,
      "step": 6232
    },
    {
      "epoch": 0.3826391233616747,
      "grad_norm": 0.6991833409343572,
      "learning_rate": 1.4156780743995763e-05,
      "loss": 0.8949,
      "step": 6233
    },
    {
      "epoch": 0.3827005126001412,
      "grad_norm": 0.6945001880769631,
      "learning_rate": 1.4154972234223298e-05,
      "loss": 0.9713,
      "step": 6234
    },
    {
      "epoch": 0.3827619018386077,
      "grad_norm": 0.6533198480271636,
      "learning_rate": 1.415316356018256e-05,
      "loss": 0.8666,
      "step": 6235
    },
    {
      "epoch": 0.3828232910770742,
      "grad_norm": 0.7375063044906465,
      "learning_rate": 1.4151354721945057e-05,
      "loss": 0.9021,
      "step": 6236
    },
    {
      "epoch": 0.3828846803155407,
      "grad_norm": 0.7808352179656393,
      "learning_rate": 1.4149545719582294e-05,
      "loss": 0.9393,
      "step": 6237
    },
    {
      "epoch": 0.3829460695540072,
      "grad_norm": 0.664397765461106,
      "learning_rate": 1.4147736553165797e-05,
      "loss": 0.8992,
      "step": 6238
    },
    {
      "epoch": 0.38300745879247367,
      "grad_norm": 0.7348873176950205,
      "learning_rate": 1.414592722276709e-05,
      "loss": 0.9204,
      "step": 6239
    },
    {
      "epoch": 0.38306884803094016,
      "grad_norm": 0.7255121860633248,
      "learning_rate": 1.4144117728457705e-05,
      "loss": 0.9511,
      "step": 6240
    },
    {
      "epoch": 0.38313023726940665,
      "grad_norm": 0.7515679743611088,
      "learning_rate": 1.4142308070309183e-05,
      "loss": 0.9368,
      "step": 6241
    },
    {
      "epoch": 0.3831916265078732,
      "grad_norm": 0.7401270248495686,
      "learning_rate": 1.4140498248393068e-05,
      "loss": 0.939,
      "step": 6242
    },
    {
      "epoch": 0.3832530157463397,
      "grad_norm": 0.6787447546908187,
      "learning_rate": 1.4138688262780913e-05,
      "loss": 0.9203,
      "step": 6243
    },
    {
      "epoch": 0.3833144049848062,
      "grad_norm": 0.7385309036793699,
      "learning_rate": 1.4136878113544277e-05,
      "loss": 0.9437,
      "step": 6244
    },
    {
      "epoch": 0.38337579422327267,
      "grad_norm": 0.7076300808051176,
      "learning_rate": 1.413506780075472e-05,
      "loss": 0.9086,
      "step": 6245
    },
    {
      "epoch": 0.38343718346173916,
      "grad_norm": 0.721273113816995,
      "learning_rate": 1.413325732448382e-05,
      "loss": 0.8783,
      "step": 6246
    },
    {
      "epoch": 0.38349857270020565,
      "grad_norm": 0.6998421636644716,
      "learning_rate": 1.413144668480315e-05,
      "loss": 0.8916,
      "step": 6247
    },
    {
      "epoch": 0.38355996193867214,
      "grad_norm": 0.7625293929408948,
      "learning_rate": 1.4129635881784297e-05,
      "loss": 0.9283,
      "step": 6248
    },
    {
      "epoch": 0.38362135117713864,
      "grad_norm": 0.6133678161071054,
      "learning_rate": 1.4127824915498852e-05,
      "loss": 0.8902,
      "step": 6249
    },
    {
      "epoch": 0.38368274041560513,
      "grad_norm": 0.6992457108465453,
      "learning_rate": 1.4126013786018407e-05,
      "loss": 0.8619,
      "step": 6250
    },
    {
      "epoch": 0.3837441296540716,
      "grad_norm": 0.7784079766832944,
      "learning_rate": 1.4124202493414574e-05,
      "loss": 0.8785,
      "step": 6251
    },
    {
      "epoch": 0.3838055188925381,
      "grad_norm": 0.6987176383186043,
      "learning_rate": 1.4122391037758956e-05,
      "loss": 0.896,
      "step": 6252
    },
    {
      "epoch": 0.38386690813100466,
      "grad_norm": 0.6737612309351215,
      "learning_rate": 1.4120579419123175e-05,
      "loss": 0.8328,
      "step": 6253
    },
    {
      "epoch": 0.38392829736947115,
      "grad_norm": 0.7549140979516513,
      "learning_rate": 1.4118767637578846e-05,
      "loss": 0.9263,
      "step": 6254
    },
    {
      "epoch": 0.38398968660793764,
      "grad_norm": 0.7540184942917765,
      "learning_rate": 1.4116955693197607e-05,
      "loss": 0.9057,
      "step": 6255
    },
    {
      "epoch": 0.38405107584640413,
      "grad_norm": 0.6991064782293128,
      "learning_rate": 1.411514358605109e-05,
      "loss": 0.8728,
      "step": 6256
    },
    {
      "epoch": 0.3841124650848706,
      "grad_norm": 0.7504624198571722,
      "learning_rate": 1.4113331316210937e-05,
      "loss": 0.8855,
      "step": 6257
    },
    {
      "epoch": 0.3841738543233371,
      "grad_norm": 0.7261227964506469,
      "learning_rate": 1.4111518883748798e-05,
      "loss": 0.9021,
      "step": 6258
    },
    {
      "epoch": 0.3842352435618036,
      "grad_norm": 0.7089905395612636,
      "learning_rate": 1.4109706288736326e-05,
      "loss": 0.9026,
      "step": 6259
    },
    {
      "epoch": 0.3842966328002701,
      "grad_norm": 0.7402952629482461,
      "learning_rate": 1.4107893531245187e-05,
      "loss": 0.9196,
      "step": 6260
    },
    {
      "epoch": 0.3843580220387366,
      "grad_norm": 0.8120240709931733,
      "learning_rate": 1.4106080611347043e-05,
      "loss": 0.9665,
      "step": 6261
    },
    {
      "epoch": 0.3844194112772031,
      "grad_norm": 0.7467228775678546,
      "learning_rate": 1.4104267529113575e-05,
      "loss": 0.8877,
      "step": 6262
    },
    {
      "epoch": 0.38448080051566963,
      "grad_norm": 0.6587518857443235,
      "learning_rate": 1.410245428461646e-05,
      "loss": 0.8814,
      "step": 6263
    },
    {
      "epoch": 0.3845421897541361,
      "grad_norm": 0.7113420349944627,
      "learning_rate": 1.4100640877927383e-05,
      "loss": 0.966,
      "step": 6264
    },
    {
      "epoch": 0.3846035789926026,
      "grad_norm": 0.7130937825869622,
      "learning_rate": 1.4098827309118042e-05,
      "loss": 0.923,
      "step": 6265
    },
    {
      "epoch": 0.3846649682310691,
      "grad_norm": 0.7308205240550537,
      "learning_rate": 1.4097013578260135e-05,
      "loss": 0.8964,
      "step": 6266
    },
    {
      "epoch": 0.3847263574695356,
      "grad_norm": 0.7008002422069046,
      "learning_rate": 1.4095199685425369e-05,
      "loss": 0.8615,
      "step": 6267
    },
    {
      "epoch": 0.3847877467080021,
      "grad_norm": 0.7695265008144476,
      "learning_rate": 1.4093385630685459e-05,
      "loss": 0.958,
      "step": 6268
    },
    {
      "epoch": 0.3848491359464686,
      "grad_norm": 0.7354121224838566,
      "learning_rate": 1.4091571414112119e-05,
      "loss": 0.8527,
      "step": 6269
    },
    {
      "epoch": 0.38491052518493507,
      "grad_norm": 0.6730503575054037,
      "learning_rate": 1.408975703577708e-05,
      "loss": 0.8254,
      "step": 6270
    },
    {
      "epoch": 0.38497191442340156,
      "grad_norm": 0.7236081292741805,
      "learning_rate": 1.4087942495752068e-05,
      "loss": 0.8854,
      "step": 6271
    },
    {
      "epoch": 0.38503330366186805,
      "grad_norm": 0.7532536756882807,
      "learning_rate": 1.4086127794108829e-05,
      "loss": 0.916,
      "step": 6272
    },
    {
      "epoch": 0.38509469290033455,
      "grad_norm": 0.7350069632085213,
      "learning_rate": 1.4084312930919102e-05,
      "loss": 0.8963,
      "step": 6273
    },
    {
      "epoch": 0.3851560821388011,
      "grad_norm": 0.713836211827639,
      "learning_rate": 1.4082497906254641e-05,
      "loss": 0.9014,
      "step": 6274
    },
    {
      "epoch": 0.3852174713772676,
      "grad_norm": 0.7388038743763667,
      "learning_rate": 1.4080682720187207e-05,
      "loss": 0.8726,
      "step": 6275
    },
    {
      "epoch": 0.3852788606157341,
      "grad_norm": 0.7183379265662384,
      "learning_rate": 1.4078867372788554e-05,
      "loss": 0.9201,
      "step": 6276
    },
    {
      "epoch": 0.38534024985420057,
      "grad_norm": 0.7220254408415455,
      "learning_rate": 1.407705186413046e-05,
      "loss": 0.8891,
      "step": 6277
    },
    {
      "epoch": 0.38540163909266706,
      "grad_norm": 0.7166793277356376,
      "learning_rate": 1.4075236194284703e-05,
      "loss": 0.927,
      "step": 6278
    },
    {
      "epoch": 0.38546302833113355,
      "grad_norm": 0.6734333135893374,
      "learning_rate": 1.4073420363323061e-05,
      "loss": 0.8652,
      "step": 6279
    },
    {
      "epoch": 0.38552441756960004,
      "grad_norm": 0.6853739345543776,
      "learning_rate": 1.4071604371317326e-05,
      "loss": 0.9088,
      "step": 6280
    },
    {
      "epoch": 0.38558580680806653,
      "grad_norm": 0.6753661821746696,
      "learning_rate": 1.4069788218339296e-05,
      "loss": 0.9038,
      "step": 6281
    },
    {
      "epoch": 0.385647196046533,
      "grad_norm": 0.6740495688352813,
      "learning_rate": 1.4067971904460765e-05,
      "loss": 0.8948,
      "step": 6282
    },
    {
      "epoch": 0.3857085852849995,
      "grad_norm": 0.6485511975513253,
      "learning_rate": 1.4066155429753554e-05,
      "loss": 0.8996,
      "step": 6283
    },
    {
      "epoch": 0.38576997452346606,
      "grad_norm": 0.7336247155639447,
      "learning_rate": 1.4064338794289467e-05,
      "loss": 0.917,
      "step": 6284
    },
    {
      "epoch": 0.38583136376193256,
      "grad_norm": 0.6761350953637971,
      "learning_rate": 1.4062521998140336e-05,
      "loss": 0.8227,
      "step": 6285
    },
    {
      "epoch": 0.38589275300039905,
      "grad_norm": 0.7653288050400525,
      "learning_rate": 1.4060705041377976e-05,
      "loss": 0.9339,
      "step": 6286
    },
    {
      "epoch": 0.38595414223886554,
      "grad_norm": 0.7113288328040761,
      "learning_rate": 1.4058887924074229e-05,
      "loss": 0.8957,
      "step": 6287
    },
    {
      "epoch": 0.38601553147733203,
      "grad_norm": 0.7443874171360247,
      "learning_rate": 1.4057070646300937e-05,
      "loss": 0.905,
      "step": 6288
    },
    {
      "epoch": 0.3860769207157985,
      "grad_norm": 0.7287495391470019,
      "learning_rate": 1.405525320812994e-05,
      "loss": 0.938,
      "step": 6289
    },
    {
      "epoch": 0.386138309954265,
      "grad_norm": 0.7193872593705568,
      "learning_rate": 1.4053435609633098e-05,
      "loss": 0.9604,
      "step": 6290
    },
    {
      "epoch": 0.3861996991927315,
      "grad_norm": 0.6889785323310207,
      "learning_rate": 1.4051617850882262e-05,
      "loss": 0.8647,
      "step": 6291
    },
    {
      "epoch": 0.386261088431198,
      "grad_norm": 0.646596136860491,
      "learning_rate": 1.4049799931949308e-05,
      "loss": 0.8459,
      "step": 6292
    },
    {
      "epoch": 0.3863224776696645,
      "grad_norm": 0.7350351433533617,
      "learning_rate": 1.40479818529061e-05,
      "loss": 0.9322,
      "step": 6293
    },
    {
      "epoch": 0.386383866908131,
      "grad_norm": 0.6919504106743064,
      "learning_rate": 1.404616361382452e-05,
      "loss": 0.9156,
      "step": 6294
    },
    {
      "epoch": 0.3864452561465975,
      "grad_norm": 0.6989839545185805,
      "learning_rate": 1.4044345214776454e-05,
      "loss": 0.9298,
      "step": 6295
    },
    {
      "epoch": 0.386506645385064,
      "grad_norm": 0.6632901919042953,
      "learning_rate": 1.4042526655833788e-05,
      "loss": 0.9282,
      "step": 6296
    },
    {
      "epoch": 0.3865680346235305,
      "grad_norm": 0.7059584825292073,
      "learning_rate": 1.4040707937068423e-05,
      "loss": 0.909,
      "step": 6297
    },
    {
      "epoch": 0.386629423861997,
      "grad_norm": 0.7130438343118666,
      "learning_rate": 1.4038889058552262e-05,
      "loss": 0.9226,
      "step": 6298
    },
    {
      "epoch": 0.3866908131004635,
      "grad_norm": 0.6760701185629375,
      "learning_rate": 1.4037070020357215e-05,
      "loss": 0.9045,
      "step": 6299
    },
    {
      "epoch": 0.38675220233893,
      "grad_norm": 0.6966904639826175,
      "learning_rate": 1.40352508225552e-05,
      "loss": 0.903,
      "step": 6300
    },
    {
      "epoch": 0.3868135915773965,
      "grad_norm": 0.6683400211433322,
      "learning_rate": 1.4033431465218137e-05,
      "loss": 0.9128,
      "step": 6301
    },
    {
      "epoch": 0.38687498081586297,
      "grad_norm": 0.6909892057770725,
      "learning_rate": 1.4031611948417956e-05,
      "loss": 0.9305,
      "step": 6302
    },
    {
      "epoch": 0.38693637005432946,
      "grad_norm": 0.6653426111197249,
      "learning_rate": 1.402979227222659e-05,
      "loss": 0.8847,
      "step": 6303
    },
    {
      "epoch": 0.38699775929279595,
      "grad_norm": 0.6084193923419717,
      "learning_rate": 1.4027972436715985e-05,
      "loss": 0.7371,
      "step": 6304
    },
    {
      "epoch": 0.38705914853126244,
      "grad_norm": 0.6490637017782402,
      "learning_rate": 1.4026152441958085e-05,
      "loss": 0.8821,
      "step": 6305
    },
    {
      "epoch": 0.387120537769729,
      "grad_norm": 0.6528958353160917,
      "learning_rate": 1.4024332288024846e-05,
      "loss": 0.9184,
      "step": 6306
    },
    {
      "epoch": 0.3871819270081955,
      "grad_norm": 0.6763357658552048,
      "learning_rate": 1.402251197498823e-05,
      "loss": 0.9029,
      "step": 6307
    },
    {
      "epoch": 0.387243316246662,
      "grad_norm": 0.7487481183300408,
      "learning_rate": 1.40206915029202e-05,
      "loss": 0.8904,
      "step": 6308
    },
    {
      "epoch": 0.38730470548512846,
      "grad_norm": 0.7471636446545102,
      "learning_rate": 1.4018870871892729e-05,
      "loss": 0.9063,
      "step": 6309
    },
    {
      "epoch": 0.38736609472359496,
      "grad_norm": 0.7601021459686521,
      "learning_rate": 1.4017050081977802e-05,
      "loss": 0.9352,
      "step": 6310
    },
    {
      "epoch": 0.38742748396206145,
      "grad_norm": 0.7176976672712093,
      "learning_rate": 1.4015229133247397e-05,
      "loss": 0.8972,
      "step": 6311
    },
    {
      "epoch": 0.38748887320052794,
      "grad_norm": 0.6762791097377048,
      "learning_rate": 1.4013408025773512e-05,
      "loss": 0.9069,
      "step": 6312
    },
    {
      "epoch": 0.38755026243899443,
      "grad_norm": 0.6907150844951582,
      "learning_rate": 1.4011586759628139e-05,
      "loss": 0.883,
      "step": 6313
    },
    {
      "epoch": 0.3876116516774609,
      "grad_norm": 0.678081801165745,
      "learning_rate": 1.4009765334883287e-05,
      "loss": 0.8147,
      "step": 6314
    },
    {
      "epoch": 0.3876730409159274,
      "grad_norm": 0.7876508833668787,
      "learning_rate": 1.400794375161097e-05,
      "loss": 0.9096,
      "step": 6315
    },
    {
      "epoch": 0.38773443015439396,
      "grad_norm": 0.7523104581254048,
      "learning_rate": 1.4006122009883195e-05,
      "loss": 0.9524,
      "step": 6316
    },
    {
      "epoch": 0.38779581939286045,
      "grad_norm": 0.6942915052625497,
      "learning_rate": 1.4004300109771996e-05,
      "loss": 0.8662,
      "step": 6317
    },
    {
      "epoch": 0.38785720863132694,
      "grad_norm": 0.7893328912263913,
      "learning_rate": 1.4002478051349394e-05,
      "loss": 0.9367,
      "step": 6318
    },
    {
      "epoch": 0.38791859786979344,
      "grad_norm": 0.7467336465560858,
      "learning_rate": 1.4000655834687427e-05,
      "loss": 0.9541,
      "step": 6319
    },
    {
      "epoch": 0.3879799871082599,
      "grad_norm": 0.7305016689936994,
      "learning_rate": 1.3998833459858138e-05,
      "loss": 0.9118,
      "step": 6320
    },
    {
      "epoch": 0.3880413763467264,
      "grad_norm": 0.739367233539273,
      "learning_rate": 1.3997010926933574e-05,
      "loss": 0.9234,
      "step": 6321
    },
    {
      "epoch": 0.3881027655851929,
      "grad_norm": 0.7332605922442332,
      "learning_rate": 1.3995188235985796e-05,
      "loss": 0.9057,
      "step": 6322
    },
    {
      "epoch": 0.3881641548236594,
      "grad_norm": 0.7358803267687198,
      "learning_rate": 1.3993365387086852e-05,
      "loss": 0.8936,
      "step": 6323
    },
    {
      "epoch": 0.3882255440621259,
      "grad_norm": 0.6890936122998396,
      "learning_rate": 1.3991542380308823e-05,
      "loss": 0.85,
      "step": 6324
    },
    {
      "epoch": 0.3882869333005924,
      "grad_norm": 0.7523035060609342,
      "learning_rate": 1.3989719215723772e-05,
      "loss": 0.9616,
      "step": 6325
    },
    {
      "epoch": 0.3883483225390589,
      "grad_norm": 0.652194771421553,
      "learning_rate": 1.3987895893403783e-05,
      "loss": 0.908,
      "step": 6326
    },
    {
      "epoch": 0.3884097117775254,
      "grad_norm": 0.6966831348810534,
      "learning_rate": 1.3986072413420939e-05,
      "loss": 0.8938,
      "step": 6327
    },
    {
      "epoch": 0.3884711010159919,
      "grad_norm": 0.6961213417707114,
      "learning_rate": 1.3984248775847333e-05,
      "loss": 0.8647,
      "step": 6328
    },
    {
      "epoch": 0.3885324902544584,
      "grad_norm": 0.7094013570218128,
      "learning_rate": 1.3982424980755064e-05,
      "loss": 0.9191,
      "step": 6329
    },
    {
      "epoch": 0.3885938794929249,
      "grad_norm": 0.7272360532970529,
      "learning_rate": 1.3980601028216239e-05,
      "loss": 0.8852,
      "step": 6330
    },
    {
      "epoch": 0.3886552687313914,
      "grad_norm": 0.7086333149505654,
      "learning_rate": 1.3978776918302964e-05,
      "loss": 0.8813,
      "step": 6331
    },
    {
      "epoch": 0.3887166579698579,
      "grad_norm": 0.7035686445221249,
      "learning_rate": 1.3976952651087356e-05,
      "loss": 0.8704,
      "step": 6332
    },
    {
      "epoch": 0.3887780472083244,
      "grad_norm": 0.6742370104783854,
      "learning_rate": 1.3975128226641542e-05,
      "loss": 0.8897,
      "step": 6333
    },
    {
      "epoch": 0.38883943644679086,
      "grad_norm": 0.7590019778528624,
      "learning_rate": 1.3973303645037648e-05,
      "loss": 0.9035,
      "step": 6334
    },
    {
      "epoch": 0.38890082568525736,
      "grad_norm": 0.9073919774811866,
      "learning_rate": 1.3971478906347806e-05,
      "loss": 0.9406,
      "step": 6335
    },
    {
      "epoch": 0.38896221492372385,
      "grad_norm": 0.7145283014137427,
      "learning_rate": 1.3969654010644167e-05,
      "loss": 0.9027,
      "step": 6336
    },
    {
      "epoch": 0.3890236041621904,
      "grad_norm": 0.6920604391843177,
      "learning_rate": 1.3967828957998873e-05,
      "loss": 0.8677,
      "step": 6337
    },
    {
      "epoch": 0.3890849934006569,
      "grad_norm": 0.7522961373852809,
      "learning_rate": 1.3966003748484079e-05,
      "loss": 0.9578,
      "step": 6338
    },
    {
      "epoch": 0.3891463826391234,
      "grad_norm": 0.7591833739181487,
      "learning_rate": 1.3964178382171942e-05,
      "loss": 0.8766,
      "step": 6339
    },
    {
      "epoch": 0.38920777187758987,
      "grad_norm": 0.7337702608616751,
      "learning_rate": 1.3962352859134633e-05,
      "loss": 0.8921,
      "step": 6340
    },
    {
      "epoch": 0.38926916111605636,
      "grad_norm": 0.6650627821617647,
      "learning_rate": 1.3960527179444323e-05,
      "loss": 0.7969,
      "step": 6341
    },
    {
      "epoch": 0.38933055035452285,
      "grad_norm": 0.7391252565823091,
      "learning_rate": 1.3958701343173193e-05,
      "loss": 0.9196,
      "step": 6342
    },
    {
      "epoch": 0.38939193959298934,
      "grad_norm": 0.6998963449518036,
      "learning_rate": 1.3956875350393426e-05,
      "loss": 0.8932,
      "step": 6343
    },
    {
      "epoch": 0.38945332883145584,
      "grad_norm": 0.7208937442111157,
      "learning_rate": 1.3955049201177213e-05,
      "loss": 0.9063,
      "step": 6344
    },
    {
      "epoch": 0.3895147180699223,
      "grad_norm": 0.7515837639231004,
      "learning_rate": 1.3953222895596752e-05,
      "loss": 0.8796,
      "step": 6345
    },
    {
      "epoch": 0.3895761073083888,
      "grad_norm": 0.6823720138375453,
      "learning_rate": 1.3951396433724245e-05,
      "loss": 0.892,
      "step": 6346
    },
    {
      "epoch": 0.3896374965468553,
      "grad_norm": 0.7399085085685922,
      "learning_rate": 1.3949569815631907e-05,
      "loss": 0.8868,
      "step": 6347
    },
    {
      "epoch": 0.38969888578532186,
      "grad_norm": 0.6847373978656061,
      "learning_rate": 1.3947743041391948e-05,
      "loss": 0.874,
      "step": 6348
    },
    {
      "epoch": 0.38976027502378835,
      "grad_norm": 0.7229120285226518,
      "learning_rate": 1.3945916111076594e-05,
      "loss": 0.8613,
      "step": 6349
    },
    {
      "epoch": 0.38982166426225484,
      "grad_norm": 0.8627615361571089,
      "learning_rate": 1.3944089024758069e-05,
      "loss": 0.9586,
      "step": 6350
    },
    {
      "epoch": 0.38988305350072133,
      "grad_norm": 0.5878295286738243,
      "learning_rate": 1.3942261782508612e-05,
      "loss": 0.6634,
      "step": 6351
    },
    {
      "epoch": 0.3899444427391878,
      "grad_norm": 0.764476529746003,
      "learning_rate": 1.3940434384400463e-05,
      "loss": 0.9109,
      "step": 6352
    },
    {
      "epoch": 0.3900058319776543,
      "grad_norm": 0.6654144778494433,
      "learning_rate": 1.3938606830505864e-05,
      "loss": 0.9026,
      "step": 6353
    },
    {
      "epoch": 0.3900672212161208,
      "grad_norm": 0.7612226868149949,
      "learning_rate": 1.393677912089708e-05,
      "loss": 0.9141,
      "step": 6354
    },
    {
      "epoch": 0.3901286104545873,
      "grad_norm": 0.7197376524538617,
      "learning_rate": 1.3934951255646353e-05,
      "loss": 0.8998,
      "step": 6355
    },
    {
      "epoch": 0.3901899996930538,
      "grad_norm": 0.6914965712882389,
      "learning_rate": 1.3933123234825963e-05,
      "loss": 0.9153,
      "step": 6356
    },
    {
      "epoch": 0.3902513889315203,
      "grad_norm": 0.7295237986895577,
      "learning_rate": 1.3931295058508174e-05,
      "loss": 0.9296,
      "step": 6357
    },
    {
      "epoch": 0.3903127781699868,
      "grad_norm": 0.743508098283473,
      "learning_rate": 1.3929466726765266e-05,
      "loss": 0.9085,
      "step": 6358
    },
    {
      "epoch": 0.3903741674084533,
      "grad_norm": 0.6521244804816786,
      "learning_rate": 1.3927638239669522e-05,
      "loss": 0.8573,
      "step": 6359
    },
    {
      "epoch": 0.3904355566469198,
      "grad_norm": 0.6906733513115612,
      "learning_rate": 1.3925809597293229e-05,
      "loss": 0.896,
      "step": 6360
    },
    {
      "epoch": 0.3904969458853863,
      "grad_norm": 0.7890018750837744,
      "learning_rate": 1.3923980799708687e-05,
      "loss": 0.9311,
      "step": 6361
    },
    {
      "epoch": 0.3905583351238528,
      "grad_norm": 0.6732307355939937,
      "learning_rate": 1.3922151846988201e-05,
      "loss": 0.8926,
      "step": 6362
    },
    {
      "epoch": 0.3906197243623193,
      "grad_norm": 0.7993360189247968,
      "learning_rate": 1.3920322739204072e-05,
      "loss": 0.8977,
      "step": 6363
    },
    {
      "epoch": 0.3906811136007858,
      "grad_norm": 0.7033526982101538,
      "learning_rate": 1.3918493476428618e-05,
      "loss": 0.8994,
      "step": 6364
    },
    {
      "epoch": 0.39074250283925227,
      "grad_norm": 0.77631927739213,
      "learning_rate": 1.3916664058734159e-05,
      "loss": 1.0087,
      "step": 6365
    },
    {
      "epoch": 0.39080389207771876,
      "grad_norm": 0.6358598881984397,
      "learning_rate": 1.3914834486193023e-05,
      "loss": 0.8896,
      "step": 6366
    },
    {
      "epoch": 0.39086528131618525,
      "grad_norm": 0.7913952565700367,
      "learning_rate": 1.3913004758877539e-05,
      "loss": 0.9046,
      "step": 6367
    },
    {
      "epoch": 0.39092667055465175,
      "grad_norm": 0.7588665576525366,
      "learning_rate": 1.3911174876860053e-05,
      "loss": 0.8621,
      "step": 6368
    },
    {
      "epoch": 0.3909880597931183,
      "grad_norm": 0.7002266587753575,
      "learning_rate": 1.3909344840212903e-05,
      "loss": 0.9463,
      "step": 6369
    },
    {
      "epoch": 0.3910494490315848,
      "grad_norm": 0.6435478400312055,
      "learning_rate": 1.3907514649008445e-05,
      "loss": 0.8729,
      "step": 6370
    },
    {
      "epoch": 0.3911108382700513,
      "grad_norm": 0.6178085596036775,
      "learning_rate": 1.3905684303319032e-05,
      "loss": 0.8815,
      "step": 6371
    },
    {
      "epoch": 0.39117222750851777,
      "grad_norm": 0.7436980242971439,
      "learning_rate": 1.390385380321703e-05,
      "loss": 0.9478,
      "step": 6372
    },
    {
      "epoch": 0.39123361674698426,
      "grad_norm": 0.6816254042916395,
      "learning_rate": 1.3902023148774806e-05,
      "loss": 0.8749,
      "step": 6373
    },
    {
      "epoch": 0.39129500598545075,
      "grad_norm": 0.6698893368879354,
      "learning_rate": 1.390019234006474e-05,
      "loss": 0.9237,
      "step": 6374
    },
    {
      "epoch": 0.39135639522391724,
      "grad_norm": 0.6859136122549653,
      "learning_rate": 1.3898361377159211e-05,
      "loss": 0.9094,
      "step": 6375
    },
    {
      "epoch": 0.39141778446238373,
      "grad_norm": 0.676011505346491,
      "learning_rate": 1.3896530260130608e-05,
      "loss": 0.9135,
      "step": 6376
    },
    {
      "epoch": 0.3914791737008502,
      "grad_norm": 0.6808235669020843,
      "learning_rate": 1.3894698989051321e-05,
      "loss": 0.8297,
      "step": 6377
    },
    {
      "epoch": 0.3915405629393167,
      "grad_norm": 0.736069389826341,
      "learning_rate": 1.389286756399375e-05,
      "loss": 0.8986,
      "step": 6378
    },
    {
      "epoch": 0.3916019521777832,
      "grad_norm": 0.6987770813666029,
      "learning_rate": 1.389103598503031e-05,
      "loss": 0.8901,
      "step": 6379
    },
    {
      "epoch": 0.39166334141624976,
      "grad_norm": 0.7120921938697691,
      "learning_rate": 1.3889204252233403e-05,
      "loss": 0.8884,
      "step": 6380
    },
    {
      "epoch": 0.39172473065471625,
      "grad_norm": 0.7502515188282156,
      "learning_rate": 1.3887372365675452e-05,
      "loss": 0.8978,
      "step": 6381
    },
    {
      "epoch": 0.39178611989318274,
      "grad_norm": 0.6871436475680798,
      "learning_rate": 1.3885540325428882e-05,
      "loss": 0.8597,
      "step": 6382
    },
    {
      "epoch": 0.39184750913164923,
      "grad_norm": 0.7797994692943101,
      "learning_rate": 1.3883708131566118e-05,
      "loss": 0.9536,
      "step": 6383
    },
    {
      "epoch": 0.3919088983701157,
      "grad_norm": 0.7411100251880639,
      "learning_rate": 1.3881875784159604e-05,
      "loss": 0.9407,
      "step": 6384
    },
    {
      "epoch": 0.3919702876085822,
      "grad_norm": 0.7326012107026063,
      "learning_rate": 1.3880043283281774e-05,
      "loss": 0.902,
      "step": 6385
    },
    {
      "epoch": 0.3920316768470487,
      "grad_norm": 0.7421932965144598,
      "learning_rate": 1.3878210629005087e-05,
      "loss": 0.8892,
      "step": 6386
    },
    {
      "epoch": 0.3920930660855152,
      "grad_norm": 0.6046806827080461,
      "learning_rate": 1.3876377821401985e-05,
      "loss": 0.8747,
      "step": 6387
    },
    {
      "epoch": 0.3921544553239817,
      "grad_norm": 0.7380434074063813,
      "learning_rate": 1.3874544860544938e-05,
      "loss": 0.9534,
      "step": 6388
    },
    {
      "epoch": 0.3922158445624482,
      "grad_norm": 0.7187608988609452,
      "learning_rate": 1.3872711746506413e-05,
      "loss": 0.9029,
      "step": 6389
    },
    {
      "epoch": 0.3922772338009147,
      "grad_norm": 0.7540590663098897,
      "learning_rate": 1.3870878479358875e-05,
      "loss": 0.8818,
      "step": 6390
    },
    {
      "epoch": 0.3923386230393812,
      "grad_norm": 0.7356512195236016,
      "learning_rate": 1.3869045059174813e-05,
      "loss": 0.8888,
      "step": 6391
    },
    {
      "epoch": 0.3924000122778477,
      "grad_norm": 0.7224939655428555,
      "learning_rate": 1.3867211486026702e-05,
      "loss": 0.9086,
      "step": 6392
    },
    {
      "epoch": 0.3924614015163142,
      "grad_norm": 0.6079454383281705,
      "learning_rate": 1.386537775998704e-05,
      "loss": 0.7731,
      "step": 6393
    },
    {
      "epoch": 0.3925227907547807,
      "grad_norm": 0.7015352740812532,
      "learning_rate": 1.3863543881128324e-05,
      "loss": 0.9078,
      "step": 6394
    },
    {
      "epoch": 0.3925841799932472,
      "grad_norm": 0.6927760769065133,
      "learning_rate": 1.386170984952305e-05,
      "loss": 0.8821,
      "step": 6395
    },
    {
      "epoch": 0.3926455692317137,
      "grad_norm": 0.6062979361322963,
      "learning_rate": 1.3859875665243733e-05,
      "loss": 0.7924,
      "step": 6396
    },
    {
      "epoch": 0.39270695847018017,
      "grad_norm": 0.6881493831437613,
      "learning_rate": 1.385804132836289e-05,
      "loss": 0.9673,
      "step": 6397
    },
    {
      "epoch": 0.39276834770864666,
      "grad_norm": 0.773798631753506,
      "learning_rate": 1.3856206838953037e-05,
      "loss": 0.9565,
      "step": 6398
    },
    {
      "epoch": 0.39282973694711315,
      "grad_norm": 0.6761392615776691,
      "learning_rate": 1.38543721970867e-05,
      "loss": 0.9152,
      "step": 6399
    },
    {
      "epoch": 0.39289112618557964,
      "grad_norm": 0.5907683231657034,
      "learning_rate": 1.3852537402836421e-05,
      "loss": 0.8715,
      "step": 6400
    },
    {
      "epoch": 0.3929525154240462,
      "grad_norm": 0.7570923981377338,
      "learning_rate": 1.3850702456274732e-05,
      "loss": 0.8729,
      "step": 6401
    },
    {
      "epoch": 0.3930139046625127,
      "grad_norm": 0.6846865443603177,
      "learning_rate": 1.3848867357474179e-05,
      "loss": 0.8822,
      "step": 6402
    },
    {
      "epoch": 0.3930752939009792,
      "grad_norm": 0.6846299673728901,
      "learning_rate": 1.3847032106507314e-05,
      "loss": 0.8807,
      "step": 6403
    },
    {
      "epoch": 0.39313668313944566,
      "grad_norm": 0.6560946211594295,
      "learning_rate": 1.3845196703446695e-05,
      "loss": 0.9211,
      "step": 6404
    },
    {
      "epoch": 0.39319807237791216,
      "grad_norm": 0.6362675474108264,
      "learning_rate": 1.3843361148364882e-05,
      "loss": 0.8981,
      "step": 6405
    },
    {
      "epoch": 0.39325946161637865,
      "grad_norm": 0.6712766074264898,
      "learning_rate": 1.384152544133445e-05,
      "loss": 0.8814,
      "step": 6406
    },
    {
      "epoch": 0.39332085085484514,
      "grad_norm": 0.717474312255344,
      "learning_rate": 1.3839689582427971e-05,
      "loss": 0.8963,
      "step": 6407
    },
    {
      "epoch": 0.39338224009331163,
      "grad_norm": 0.7471033361605943,
      "learning_rate": 1.3837853571718027e-05,
      "loss": 0.8743,
      "step": 6408
    },
    {
      "epoch": 0.3934436293317781,
      "grad_norm": 0.7445951043284554,
      "learning_rate": 1.3836017409277205e-05,
      "loss": 0.9189,
      "step": 6409
    },
    {
      "epoch": 0.3935050185702446,
      "grad_norm": 0.6822895893580883,
      "learning_rate": 1.3834181095178096e-05,
      "loss": 0.814,
      "step": 6410
    },
    {
      "epoch": 0.39356640780871116,
      "grad_norm": 0.6568902989355425,
      "learning_rate": 1.3832344629493306e-05,
      "loss": 0.885,
      "step": 6411
    },
    {
      "epoch": 0.39362779704717765,
      "grad_norm": 0.7816869677255459,
      "learning_rate": 1.3830508012295431e-05,
      "loss": 0.9647,
      "step": 6412
    },
    {
      "epoch": 0.39368918628564414,
      "grad_norm": 0.701083897453427,
      "learning_rate": 1.382867124365709e-05,
      "loss": 0.8857,
      "step": 6413
    },
    {
      "epoch": 0.39375057552411064,
      "grad_norm": 0.7121479439177646,
      "learning_rate": 1.3826834323650899e-05,
      "loss": 0.8707,
      "step": 6414
    },
    {
      "epoch": 0.3938119647625771,
      "grad_norm": 0.630352587837781,
      "learning_rate": 1.382499725234948e-05,
      "loss": 0.8599,
      "step": 6415
    },
    {
      "epoch": 0.3938733540010436,
      "grad_norm": 0.7307851403582458,
      "learning_rate": 1.382316002982546e-05,
      "loss": 0.9439,
      "step": 6416
    },
    {
      "epoch": 0.3939347432395101,
      "grad_norm": 0.7372516288447,
      "learning_rate": 1.3821322656151475e-05,
      "loss": 0.9049,
      "step": 6417
    },
    {
      "epoch": 0.3939961324779766,
      "grad_norm": 0.6843436169081529,
      "learning_rate": 1.3819485131400171e-05,
      "loss": 0.8835,
      "step": 6418
    },
    {
      "epoch": 0.3940575217164431,
      "grad_norm": 0.655469504273448,
      "learning_rate": 1.3817647455644188e-05,
      "loss": 0.8315,
      "step": 6419
    },
    {
      "epoch": 0.3941189109549096,
      "grad_norm": 0.6738950935550211,
      "learning_rate": 1.3815809628956186e-05,
      "loss": 0.8787,
      "step": 6420
    },
    {
      "epoch": 0.3941803001933761,
      "grad_norm": 0.6971387208954507,
      "learning_rate": 1.3813971651408819e-05,
      "loss": 0.9165,
      "step": 6421
    },
    {
      "epoch": 0.3942416894318426,
      "grad_norm": 0.7163065726729073,
      "learning_rate": 1.3812133523074756e-05,
      "loss": 0.9226,
      "step": 6422
    },
    {
      "epoch": 0.3943030786703091,
      "grad_norm": 0.7126070111555903,
      "learning_rate": 1.3810295244026665e-05,
      "loss": 0.9091,
      "step": 6423
    },
    {
      "epoch": 0.3943644679087756,
      "grad_norm": 0.7218066036943422,
      "learning_rate": 1.3808456814337223e-05,
      "loss": 0.9307,
      "step": 6424
    },
    {
      "epoch": 0.3944258571472421,
      "grad_norm": 0.6519155801237602,
      "learning_rate": 1.3806618234079114e-05,
      "loss": 0.8719,
      "step": 6425
    },
    {
      "epoch": 0.3944872463857086,
      "grad_norm": 0.7323085556611884,
      "learning_rate": 1.380477950332503e-05,
      "loss": 0.9292,
      "step": 6426
    },
    {
      "epoch": 0.3945486356241751,
      "grad_norm": 0.7995827069787534,
      "learning_rate": 1.380294062214766e-05,
      "loss": 0.9196,
      "step": 6427
    },
    {
      "epoch": 0.3946100248626416,
      "grad_norm": 0.7071631486299571,
      "learning_rate": 1.380110159061971e-05,
      "loss": 0.9469,
      "step": 6428
    },
    {
      "epoch": 0.39467141410110806,
      "grad_norm": 0.6878404366606038,
      "learning_rate": 1.3799262408813882e-05,
      "loss": 0.8769,
      "step": 6429
    },
    {
      "epoch": 0.39473280333957456,
      "grad_norm": 0.7993673336987032,
      "learning_rate": 1.3797423076802892e-05,
      "loss": 0.9077,
      "step": 6430
    },
    {
      "epoch": 0.39479419257804105,
      "grad_norm": 0.6472432905147529,
      "learning_rate": 1.379558359465946e-05,
      "loss": 0.9187,
      "step": 6431
    },
    {
      "epoch": 0.39485558181650754,
      "grad_norm": 0.780700613416979,
      "learning_rate": 1.3793743962456303e-05,
      "loss": 0.9459,
      "step": 6432
    },
    {
      "epoch": 0.3949169710549741,
      "grad_norm": 0.7156038448616444,
      "learning_rate": 1.379190418026616e-05,
      "loss": 0.8892,
      "step": 6433
    },
    {
      "epoch": 0.3949783602934406,
      "grad_norm": 0.6246834687530856,
      "learning_rate": 1.3790064248161765e-05,
      "loss": 0.7671,
      "step": 6434
    },
    {
      "epoch": 0.39503974953190707,
      "grad_norm": 0.7532652587773929,
      "learning_rate": 1.378822416621586e-05,
      "loss": 0.9294,
      "step": 6435
    },
    {
      "epoch": 0.39510113877037356,
      "grad_norm": 0.6976793492919984,
      "learning_rate": 1.378638393450119e-05,
      "loss": 0.8785,
      "step": 6436
    },
    {
      "epoch": 0.39516252800884005,
      "grad_norm": 0.7925744534930752,
      "learning_rate": 1.3784543553090513e-05,
      "loss": 0.8852,
      "step": 6437
    },
    {
      "epoch": 0.39522391724730654,
      "grad_norm": 0.6948667633550791,
      "learning_rate": 1.378270302205659e-05,
      "loss": 0.9039,
      "step": 6438
    },
    {
      "epoch": 0.39528530648577304,
      "grad_norm": 0.7402089071423877,
      "learning_rate": 1.3780862341472183e-05,
      "loss": 0.8996,
      "step": 6439
    },
    {
      "epoch": 0.3953466957242395,
      "grad_norm": 0.6964204387789281,
      "learning_rate": 1.377902151141007e-05,
      "loss": 0.8832,
      "step": 6440
    },
    {
      "epoch": 0.395408084962706,
      "grad_norm": 0.6672434535369178,
      "learning_rate": 1.3777180531943021e-05,
      "loss": 0.9032,
      "step": 6441
    },
    {
      "epoch": 0.3954694742011725,
      "grad_norm": 0.7419582592414329,
      "learning_rate": 1.3775339403143824e-05,
      "loss": 0.8936,
      "step": 6442
    },
    {
      "epoch": 0.39553086343963906,
      "grad_norm": 0.7533496764966995,
      "learning_rate": 1.3773498125085271e-05,
      "loss": 0.9279,
      "step": 6443
    },
    {
      "epoch": 0.39559225267810555,
      "grad_norm": 0.7047008335618812,
      "learning_rate": 1.3771656697840152e-05,
      "loss": 0.9006,
      "step": 6444
    },
    {
      "epoch": 0.39565364191657204,
      "grad_norm": 0.6955826357122666,
      "learning_rate": 1.3769815121481273e-05,
      "loss": 0.8786,
      "step": 6445
    },
    {
      "epoch": 0.39571503115503853,
      "grad_norm": 0.7315153000268279,
      "learning_rate": 1.376797339608144e-05,
      "loss": 0.8907,
      "step": 6446
    },
    {
      "epoch": 0.395776420393505,
      "grad_norm": 0.6756064558153843,
      "learning_rate": 1.3766131521713466e-05,
      "loss": 0.864,
      "step": 6447
    },
    {
      "epoch": 0.3958378096319715,
      "grad_norm": 0.7444716779037667,
      "learning_rate": 1.3764289498450171e-05,
      "loss": 0.9179,
      "step": 6448
    },
    {
      "epoch": 0.395899198870438,
      "grad_norm": 0.6957389783074375,
      "learning_rate": 1.3762447326364377e-05,
      "loss": 0.8917,
      "step": 6449
    },
    {
      "epoch": 0.3959605881089045,
      "grad_norm": 0.767129574089132,
      "learning_rate": 1.3760605005528922e-05,
      "loss": 0.8555,
      "step": 6450
    },
    {
      "epoch": 0.396021977347371,
      "grad_norm": 0.6676041761627673,
      "learning_rate": 1.3758762536016632e-05,
      "loss": 0.9083,
      "step": 6451
    },
    {
      "epoch": 0.3960833665858375,
      "grad_norm": 0.684734448884255,
      "learning_rate": 1.375691991790036e-05,
      "loss": 0.8867,
      "step": 6452
    },
    {
      "epoch": 0.396144755824304,
      "grad_norm": 0.6579355803602287,
      "learning_rate": 1.3755077151252949e-05,
      "loss": 0.8869,
      "step": 6453
    },
    {
      "epoch": 0.3962061450627705,
      "grad_norm": 0.7113669270211374,
      "learning_rate": 1.3753234236147255e-05,
      "loss": 0.8562,
      "step": 6454
    },
    {
      "epoch": 0.396267534301237,
      "grad_norm": 0.7308694656961022,
      "learning_rate": 1.3751391172656137e-05,
      "loss": 0.9179,
      "step": 6455
    },
    {
      "epoch": 0.3963289235397035,
      "grad_norm": 0.7864832858058916,
      "learning_rate": 1.374954796085246e-05,
      "loss": 0.9434,
      "step": 6456
    },
    {
      "epoch": 0.39639031277817,
      "grad_norm": 0.7455989253713065,
      "learning_rate": 1.3747704600809102e-05,
      "loss": 0.902,
      "step": 6457
    },
    {
      "epoch": 0.3964517020166365,
      "grad_norm": 0.7027754769937067,
      "learning_rate": 1.3745861092598936e-05,
      "loss": 0.8537,
      "step": 6458
    },
    {
      "epoch": 0.396513091255103,
      "grad_norm": 0.6601140434840419,
      "learning_rate": 1.3744017436294846e-05,
      "loss": 0.8846,
      "step": 6459
    },
    {
      "epoch": 0.39657448049356947,
      "grad_norm": 0.765524152222088,
      "learning_rate": 1.3742173631969722e-05,
      "loss": 0.9341,
      "step": 6460
    },
    {
      "epoch": 0.39663586973203596,
      "grad_norm": 0.7596898830366715,
      "learning_rate": 1.374032967969646e-05,
      "loss": 0.9317,
      "step": 6461
    },
    {
      "epoch": 0.39669725897050245,
      "grad_norm": 0.7400182913221555,
      "learning_rate": 1.373848557954796e-05,
      "loss": 0.8931,
      "step": 6462
    },
    {
      "epoch": 0.39675864820896894,
      "grad_norm": 0.7006803199752277,
      "learning_rate": 1.3736641331597131e-05,
      "loss": 0.903,
      "step": 6463
    },
    {
      "epoch": 0.3968200374474355,
      "grad_norm": 0.6705103340374592,
      "learning_rate": 1.3734796935916888e-05,
      "loss": 0.8623,
      "step": 6464
    },
    {
      "epoch": 0.396881426685902,
      "grad_norm": 0.7012264492505421,
      "learning_rate": 1.3732952392580143e-05,
      "loss": 0.899,
      "step": 6465
    },
    {
      "epoch": 0.3969428159243685,
      "grad_norm": 0.7444028013811866,
      "learning_rate": 1.3731107701659827e-05,
      "loss": 0.8633,
      "step": 6466
    },
    {
      "epoch": 0.39700420516283497,
      "grad_norm": 0.8339971174013687,
      "learning_rate": 1.372926286322887e-05,
      "loss": 1.0209,
      "step": 6467
    },
    {
      "epoch": 0.39706559440130146,
      "grad_norm": 0.6757879463606512,
      "learning_rate": 1.3727417877360203e-05,
      "loss": 0.8541,
      "step": 6468
    },
    {
      "epoch": 0.39712698363976795,
      "grad_norm": 0.6709591449242617,
      "learning_rate": 1.3725572744126772e-05,
      "loss": 0.888,
      "step": 6469
    },
    {
      "epoch": 0.39718837287823444,
      "grad_norm": 0.7014086927091372,
      "learning_rate": 1.3723727463601526e-05,
      "loss": 0.8714,
      "step": 6470
    },
    {
      "epoch": 0.39724976211670093,
      "grad_norm": 0.706100996769611,
      "learning_rate": 1.3721882035857416e-05,
      "loss": 0.8934,
      "step": 6471
    },
    {
      "epoch": 0.3973111513551674,
      "grad_norm": 0.7450799797073905,
      "learning_rate": 1.3720036460967404e-05,
      "loss": 0.9034,
      "step": 6472
    },
    {
      "epoch": 0.3973725405936339,
      "grad_norm": 0.7833323297964817,
      "learning_rate": 1.3718190739004455e-05,
      "loss": 0.9723,
      "step": 6473
    },
    {
      "epoch": 0.3974339298321004,
      "grad_norm": 0.7036747146197364,
      "learning_rate": 1.3716344870041538e-05,
      "loss": 0.8831,
      "step": 6474
    },
    {
      "epoch": 0.39749531907056695,
      "grad_norm": 0.7425207524955988,
      "learning_rate": 1.3714498854151636e-05,
      "loss": 0.8776,
      "step": 6475
    },
    {
      "epoch": 0.39755670830903345,
      "grad_norm": 0.7706027369833736,
      "learning_rate": 1.3712652691407725e-05,
      "loss": 0.9895,
      "step": 6476
    },
    {
      "epoch": 0.39761809754749994,
      "grad_norm": 0.7436060348813048,
      "learning_rate": 1.3710806381882796e-05,
      "loss": 0.8854,
      "step": 6477
    },
    {
      "epoch": 0.39767948678596643,
      "grad_norm": 0.5854347654073231,
      "learning_rate": 1.3708959925649846e-05,
      "loss": 0.8783,
      "step": 6478
    },
    {
      "epoch": 0.3977408760244329,
      "grad_norm": 0.7186298103569735,
      "learning_rate": 1.370711332278187e-05,
      "loss": 0.9187,
      "step": 6479
    },
    {
      "epoch": 0.3978022652628994,
      "grad_norm": 0.6590299829624711,
      "learning_rate": 1.370526657335188e-05,
      "loss": 0.9165,
      "step": 6480
    },
    {
      "epoch": 0.3978636545013659,
      "grad_norm": 0.7499556989628822,
      "learning_rate": 1.3703419677432884e-05,
      "loss": 0.9424,
      "step": 6481
    },
    {
      "epoch": 0.3979250437398324,
      "grad_norm": 0.7087244386072238,
      "learning_rate": 1.3701572635097902e-05,
      "loss": 0.8607,
      "step": 6482
    },
    {
      "epoch": 0.3979864329782989,
      "grad_norm": 0.7802065409309603,
      "learning_rate": 1.3699725446419954e-05,
      "loss": 0.9926,
      "step": 6483
    },
    {
      "epoch": 0.3980478222167654,
      "grad_norm": 0.7298592376685344,
      "learning_rate": 1.3697878111472073e-05,
      "loss": 0.8973,
      "step": 6484
    },
    {
      "epoch": 0.39810921145523187,
      "grad_norm": 0.7925507828885029,
      "learning_rate": 1.3696030630327292e-05,
      "loss": 0.8886,
      "step": 6485
    },
    {
      "epoch": 0.3981706006936984,
      "grad_norm": 0.7056272754492883,
      "learning_rate": 1.3694183003058655e-05,
      "loss": 0.9229,
      "step": 6486
    },
    {
      "epoch": 0.3982319899321649,
      "grad_norm": 0.7494583833657048,
      "learning_rate": 1.3692335229739205e-05,
      "loss": 0.9076,
      "step": 6487
    },
    {
      "epoch": 0.3982933791706314,
      "grad_norm": 0.7145684466140274,
      "learning_rate": 1.3690487310441991e-05,
      "loss": 0.9258,
      "step": 6488
    },
    {
      "epoch": 0.3983547684090979,
      "grad_norm": 0.7347848192748543,
      "learning_rate": 1.3688639245240078e-05,
      "loss": 0.8855,
      "step": 6489
    },
    {
      "epoch": 0.3984161576475644,
      "grad_norm": 0.6365400315610336,
      "learning_rate": 1.368679103420653e-05,
      "loss": 0.8351,
      "step": 6490
    },
    {
      "epoch": 0.3984775468860309,
      "grad_norm": 0.7636369666056325,
      "learning_rate": 1.3684942677414411e-05,
      "loss": 0.8952,
      "step": 6491
    },
    {
      "epoch": 0.39853893612449737,
      "grad_norm": 0.6705945004984278,
      "learning_rate": 1.3683094174936801e-05,
      "loss": 0.8893,
      "step": 6492
    },
    {
      "epoch": 0.39860032536296386,
      "grad_norm": 0.6273459721634878,
      "learning_rate": 1.3681245526846782e-05,
      "loss": 0.8422,
      "step": 6493
    },
    {
      "epoch": 0.39866171460143035,
      "grad_norm": 0.7952360116951631,
      "learning_rate": 1.3679396733217434e-05,
      "loss": 0.9052,
      "step": 6494
    },
    {
      "epoch": 0.39872310383989684,
      "grad_norm": 0.7231152364316902,
      "learning_rate": 1.3677547794121858e-05,
      "loss": 0.9221,
      "step": 6495
    },
    {
      "epoch": 0.3987844930783634,
      "grad_norm": 0.7282557720668587,
      "learning_rate": 1.3675698709633147e-05,
      "loss": 0.8758,
      "step": 6496
    },
    {
      "epoch": 0.3988458823168299,
      "grad_norm": 0.6834859710781138,
      "learning_rate": 1.3673849479824409e-05,
      "loss": 0.8818,
      "step": 6497
    },
    {
      "epoch": 0.39890727155529637,
      "grad_norm": 0.7671392017897146,
      "learning_rate": 1.367200010476875e-05,
      "loss": 0.9172,
      "step": 6498
    },
    {
      "epoch": 0.39896866079376286,
      "grad_norm": 0.747843974578958,
      "learning_rate": 1.3670150584539288e-05,
      "loss": 0.9193,
      "step": 6499
    },
    {
      "epoch": 0.39903005003222936,
      "grad_norm": 0.6429206124164255,
      "learning_rate": 1.3668300919209144e-05,
      "loss": 0.8843,
      "step": 6500
    },
    {
      "epoch": 0.39909143927069585,
      "grad_norm": 0.6906791230009949,
      "learning_rate": 1.3666451108851445e-05,
      "loss": 0.8735,
      "step": 6501
    },
    {
      "epoch": 0.39915282850916234,
      "grad_norm": 0.6236761433005032,
      "learning_rate": 1.3664601153539324e-05,
      "loss": 0.8526,
      "step": 6502
    },
    {
      "epoch": 0.39921421774762883,
      "grad_norm": 0.6585608761836333,
      "learning_rate": 1.366275105334592e-05,
      "loss": 0.8851,
      "step": 6503
    },
    {
      "epoch": 0.3992756069860953,
      "grad_norm": 0.6867350912942332,
      "learning_rate": 1.3660900808344377e-05,
      "loss": 0.8996,
      "step": 6504
    },
    {
      "epoch": 0.3993369962245618,
      "grad_norm": 0.7089042215144316,
      "learning_rate": 1.3659050418607844e-05,
      "loss": 0.859,
      "step": 6505
    },
    {
      "epoch": 0.3993983854630283,
      "grad_norm": 0.7049679843698511,
      "learning_rate": 1.3657199884209478e-05,
      "loss": 0.8855,
      "step": 6506
    },
    {
      "epoch": 0.39945977470149485,
      "grad_norm": 0.6353510141345302,
      "learning_rate": 1.3655349205222446e-05,
      "loss": 0.8361,
      "step": 6507
    },
    {
      "epoch": 0.39952116393996134,
      "grad_norm": 0.7504909892935052,
      "learning_rate": 1.3653498381719902e-05,
      "loss": 0.8611,
      "step": 6508
    },
    {
      "epoch": 0.39958255317842784,
      "grad_norm": 0.6655589853699011,
      "learning_rate": 1.365164741377503e-05,
      "loss": 0.9025,
      "step": 6509
    },
    {
      "epoch": 0.3996439424168943,
      "grad_norm": 0.7366428055691621,
      "learning_rate": 1.3649796301461006e-05,
      "loss": 0.8312,
      "step": 6510
    },
    {
      "epoch": 0.3997053316553608,
      "grad_norm": 0.6752957351413712,
      "learning_rate": 1.3647945044851011e-05,
      "loss": 0.9008,
      "step": 6511
    },
    {
      "epoch": 0.3997667208938273,
      "grad_norm": 0.709696656300416,
      "learning_rate": 1.3646093644018244e-05,
      "loss": 0.8854,
      "step": 6512
    },
    {
      "epoch": 0.3998281101322938,
      "grad_norm": 0.739474447732973,
      "learning_rate": 1.3644242099035889e-05,
      "loss": 0.893,
      "step": 6513
    },
    {
      "epoch": 0.3998894993707603,
      "grad_norm": 0.7196680169705585,
      "learning_rate": 1.3642390409977156e-05,
      "loss": 0.9252,
      "step": 6514
    },
    {
      "epoch": 0.3999508886092268,
      "grad_norm": 0.800882368976562,
      "learning_rate": 1.3640538576915248e-05,
      "loss": 0.8754,
      "step": 6515
    },
    {
      "epoch": 0.4000122778476933,
      "grad_norm": 0.7240970054845978,
      "learning_rate": 1.3638686599923379e-05,
      "loss": 0.9029,
      "step": 6516
    },
    {
      "epoch": 0.4000736670861598,
      "grad_norm": 0.7372962998549509,
      "learning_rate": 1.3636834479074768e-05,
      "loss": 0.9181,
      "step": 6517
    },
    {
      "epoch": 0.4001350563246263,
      "grad_norm": 0.8982448858915363,
      "learning_rate": 1.3634982214442637e-05,
      "loss": 0.8556,
      "step": 6518
    },
    {
      "epoch": 0.4001964455630928,
      "grad_norm": 0.7721606867869117,
      "learning_rate": 1.363312980610022e-05,
      "loss": 0.8632,
      "step": 6519
    },
    {
      "epoch": 0.4002578348015593,
      "grad_norm": 0.6357676702173994,
      "learning_rate": 1.363127725412075e-05,
      "loss": 0.825,
      "step": 6520
    },
    {
      "epoch": 0.4003192240400258,
      "grad_norm": 0.7890166560483681,
      "learning_rate": 1.3629424558577467e-05,
      "loss": 0.9188,
      "step": 6521
    },
    {
      "epoch": 0.4003806132784923,
      "grad_norm": 0.7514100659131593,
      "learning_rate": 1.3627571719543622e-05,
      "loss": 0.9144,
      "step": 6522
    },
    {
      "epoch": 0.4004420025169588,
      "grad_norm": 0.7601276566807381,
      "learning_rate": 1.3625718737092463e-05,
      "loss": 0.8943,
      "step": 6523
    },
    {
      "epoch": 0.40050339175542526,
      "grad_norm": 0.8005206626631282,
      "learning_rate": 1.3623865611297254e-05,
      "loss": 0.8643,
      "step": 6524
    },
    {
      "epoch": 0.40056478099389176,
      "grad_norm": 0.7351651877615208,
      "learning_rate": 1.3622012342231252e-05,
      "loss": 0.881,
      "step": 6525
    },
    {
      "epoch": 0.40062617023235825,
      "grad_norm": 0.7458678929668912,
      "learning_rate": 1.3620158929967731e-05,
      "loss": 0.9084,
      "step": 6526
    },
    {
      "epoch": 0.40068755947082474,
      "grad_norm": 0.7330907274191183,
      "learning_rate": 1.3618305374579967e-05,
      "loss": 0.8986,
      "step": 6527
    },
    {
      "epoch": 0.4007489487092913,
      "grad_norm": 0.7022743396654888,
      "learning_rate": 1.361645167614124e-05,
      "loss": 0.9113,
      "step": 6528
    },
    {
      "epoch": 0.4008103379477578,
      "grad_norm": 0.7019394758668188,
      "learning_rate": 1.3614597834724834e-05,
      "loss": 0.9288,
      "step": 6529
    },
    {
      "epoch": 0.40087172718622427,
      "grad_norm": 0.6953162674359776,
      "learning_rate": 1.3612743850404044e-05,
      "loss": 0.8643,
      "step": 6530
    },
    {
      "epoch": 0.40093311642469076,
      "grad_norm": 0.7738268519051404,
      "learning_rate": 1.3610889723252169e-05,
      "loss": 0.9003,
      "step": 6531
    },
    {
      "epoch": 0.40099450566315725,
      "grad_norm": 0.6329028977193081,
      "learning_rate": 1.360903545334251e-05,
      "loss": 0.8668,
      "step": 6532
    },
    {
      "epoch": 0.40105589490162374,
      "grad_norm": 0.735717053370241,
      "learning_rate": 1.3607181040748375e-05,
      "loss": 0.9457,
      "step": 6533
    },
    {
      "epoch": 0.40111728414009024,
      "grad_norm": 0.7344750835001456,
      "learning_rate": 1.3605326485543083e-05,
      "loss": 0.8866,
      "step": 6534
    },
    {
      "epoch": 0.4011786733785567,
      "grad_norm": 0.7418428807621741,
      "learning_rate": 1.360347178779995e-05,
      "loss": 0.886,
      "step": 6535
    },
    {
      "epoch": 0.4012400626170232,
      "grad_norm": 0.7622670647525781,
      "learning_rate": 1.3601616947592308e-05,
      "loss": 0.9772,
      "step": 6536
    },
    {
      "epoch": 0.4013014518554897,
      "grad_norm": 0.7263382943484027,
      "learning_rate": 1.3599761964993486e-05,
      "loss": 0.9357,
      "step": 6537
    },
    {
      "epoch": 0.4013628410939562,
      "grad_norm": 0.7213346525784758,
      "learning_rate": 1.3597906840076815e-05,
      "loss": 0.9006,
      "step": 6538
    },
    {
      "epoch": 0.40142423033242275,
      "grad_norm": 0.7348243792904073,
      "learning_rate": 1.359605157291565e-05,
      "loss": 0.9098,
      "step": 6539
    },
    {
      "epoch": 0.40148561957088924,
      "grad_norm": 0.7064973427444675,
      "learning_rate": 1.3594196163583326e-05,
      "loss": 0.8896,
      "step": 6540
    },
    {
      "epoch": 0.40154700880935573,
      "grad_norm": 0.7829005228834133,
      "learning_rate": 1.359234061215321e-05,
      "loss": 0.9039,
      "step": 6541
    },
    {
      "epoch": 0.4016083980478222,
      "grad_norm": 0.7120368358890912,
      "learning_rate": 1.3590484918698654e-05,
      "loss": 0.9044,
      "step": 6542
    },
    {
      "epoch": 0.4016697872862887,
      "grad_norm": 0.6891098167254532,
      "learning_rate": 1.3588629083293027e-05,
      "loss": 0.8662,
      "step": 6543
    },
    {
      "epoch": 0.4017311765247552,
      "grad_norm": 0.6774038252837529,
      "learning_rate": 1.35867731060097e-05,
      "loss": 0.8566,
      "step": 6544
    },
    {
      "epoch": 0.4017925657632217,
      "grad_norm": 0.7114047461340202,
      "learning_rate": 1.3584916986922048e-05,
      "loss": 0.9046,
      "step": 6545
    },
    {
      "epoch": 0.4018539550016882,
      "grad_norm": 0.7317886981985235,
      "learning_rate": 1.3583060726103457e-05,
      "loss": 0.9063,
      "step": 6546
    },
    {
      "epoch": 0.4019153442401547,
      "grad_norm": 0.7628039186209813,
      "learning_rate": 1.3581204323627307e-05,
      "loss": 0.8389,
      "step": 6547
    },
    {
      "epoch": 0.4019767334786212,
      "grad_norm": 0.7414062756108121,
      "learning_rate": 1.3579347779566996e-05,
      "loss": 0.9146,
      "step": 6548
    },
    {
      "epoch": 0.4020381227170877,
      "grad_norm": 0.7254328128909726,
      "learning_rate": 1.3577491093995928e-05,
      "loss": 0.8996,
      "step": 6549
    },
    {
      "epoch": 0.4020995119555542,
      "grad_norm": 0.6379479625881919,
      "learning_rate": 1.3575634266987498e-05,
      "loss": 0.8644,
      "step": 6550
    },
    {
      "epoch": 0.4021609011940207,
      "grad_norm": 0.7823857158111767,
      "learning_rate": 1.3573777298615127e-05,
      "loss": 0.7635,
      "step": 6551
    },
    {
      "epoch": 0.4022222904324872,
      "grad_norm": 0.7095831549949707,
      "learning_rate": 1.3571920188952221e-05,
      "loss": 0.8958,
      "step": 6552
    },
    {
      "epoch": 0.4022836796709537,
      "grad_norm": 0.6357343350390596,
      "learning_rate": 1.3570062938072208e-05,
      "loss": 0.8701,
      "step": 6553
    },
    {
      "epoch": 0.4023450689094202,
      "grad_norm": 0.7512008778676114,
      "learning_rate": 1.3568205546048514e-05,
      "loss": 0.9239,
      "step": 6554
    },
    {
      "epoch": 0.40240645814788667,
      "grad_norm": 0.7306305097972758,
      "learning_rate": 1.3566348012954568e-05,
      "loss": 0.9365,
      "step": 6555
    },
    {
      "epoch": 0.40246784738635316,
      "grad_norm": 0.6808273716229475,
      "learning_rate": 1.3564490338863814e-05,
      "loss": 0.9078,
      "step": 6556
    },
    {
      "epoch": 0.40252923662481965,
      "grad_norm": 0.7029440325078898,
      "learning_rate": 1.3562632523849693e-05,
      "loss": 0.8629,
      "step": 6557
    },
    {
      "epoch": 0.40259062586328614,
      "grad_norm": 0.7869823919324379,
      "learning_rate": 1.3560774567985649e-05,
      "loss": 0.9171,
      "step": 6558
    },
    {
      "epoch": 0.40265201510175264,
      "grad_norm": 0.693811210026565,
      "learning_rate": 1.3558916471345146e-05,
      "loss": 0.9103,
      "step": 6559
    },
    {
      "epoch": 0.4027134043402192,
      "grad_norm": 0.7218292368390978,
      "learning_rate": 1.3557058234001642e-05,
      "loss": 0.8826,
      "step": 6560
    },
    {
      "epoch": 0.4027747935786857,
      "grad_norm": 0.7334474074026631,
      "learning_rate": 1.3555199856028597e-05,
      "loss": 0.9228,
      "step": 6561
    },
    {
      "epoch": 0.40283618281715217,
      "grad_norm": 0.705873266808856,
      "learning_rate": 1.355334133749949e-05,
      "loss": 0.8746,
      "step": 6562
    },
    {
      "epoch": 0.40289757205561866,
      "grad_norm": 0.8158336627956454,
      "learning_rate": 1.3551482678487795e-05,
      "loss": 0.963,
      "step": 6563
    },
    {
      "epoch": 0.40295896129408515,
      "grad_norm": 0.6742079850369366,
      "learning_rate": 1.3549623879066996e-05,
      "loss": 0.8807,
      "step": 6564
    },
    {
      "epoch": 0.40302035053255164,
      "grad_norm": 0.813055737424207,
      "learning_rate": 1.3547764939310577e-05,
      "loss": 0.9223,
      "step": 6565
    },
    {
      "epoch": 0.40308173977101813,
      "grad_norm": 0.694070745365636,
      "learning_rate": 1.3545905859292039e-05,
      "loss": 0.9093,
      "step": 6566
    },
    {
      "epoch": 0.4031431290094846,
      "grad_norm": 0.801757668493198,
      "learning_rate": 1.3544046639084875e-05,
      "loss": 0.9155,
      "step": 6567
    },
    {
      "epoch": 0.4032045182479511,
      "grad_norm": 0.7796448460920692,
      "learning_rate": 1.3542187278762593e-05,
      "loss": 0.9353,
      "step": 6568
    },
    {
      "epoch": 0.4032659074864176,
      "grad_norm": 0.660706267480335,
      "learning_rate": 1.3540327778398703e-05,
      "loss": 0.8664,
      "step": 6569
    },
    {
      "epoch": 0.40332729672488415,
      "grad_norm": 0.7088714409939118,
      "learning_rate": 1.3538468138066721e-05,
      "loss": 0.8793,
      "step": 6570
    },
    {
      "epoch": 0.40338868596335065,
      "grad_norm": 0.7315727529608252,
      "learning_rate": 1.353660835784017e-05,
      "loss": 0.9364,
      "step": 6571
    },
    {
      "epoch": 0.40345007520181714,
      "grad_norm": 0.7386565500229545,
      "learning_rate": 1.3534748437792573e-05,
      "loss": 0.9241,
      "step": 6572
    },
    {
      "epoch": 0.40351146444028363,
      "grad_norm": 0.6802353640172283,
      "learning_rate": 1.3532888377997466e-05,
      "loss": 0.9009,
      "step": 6573
    },
    {
      "epoch": 0.4035728536787501,
      "grad_norm": 0.7258689485732354,
      "learning_rate": 1.3531028178528387e-05,
      "loss": 0.9376,
      "step": 6574
    },
    {
      "epoch": 0.4036342429172166,
      "grad_norm": 0.6846044857987242,
      "learning_rate": 1.3529167839458876e-05,
      "loss": 0.8408,
      "step": 6575
    },
    {
      "epoch": 0.4036956321556831,
      "grad_norm": 0.6663614183321127,
      "learning_rate": 1.352730736086249e-05,
      "loss": 0.8759,
      "step": 6576
    },
    {
      "epoch": 0.4037570213941496,
      "grad_norm": 0.7205653518620639,
      "learning_rate": 1.3525446742812773e-05,
      "loss": 0.9008,
      "step": 6577
    },
    {
      "epoch": 0.4038184106326161,
      "grad_norm": 0.6847936123019062,
      "learning_rate": 1.3523585985383297e-05,
      "loss": 0.9344,
      "step": 6578
    },
    {
      "epoch": 0.4038797998710826,
      "grad_norm": 0.822106511582108,
      "learning_rate": 1.3521725088647615e-05,
      "loss": 0.9413,
      "step": 6579
    },
    {
      "epoch": 0.40394118910954907,
      "grad_norm": 0.7883239348060503,
      "learning_rate": 1.351986405267931e-05,
      "loss": 0.9158,
      "step": 6580
    },
    {
      "epoch": 0.4040025783480156,
      "grad_norm": 0.7530131649192042,
      "learning_rate": 1.3518002877551953e-05,
      "loss": 0.894,
      "step": 6581
    },
    {
      "epoch": 0.4040639675864821,
      "grad_norm": 0.7099361197757761,
      "learning_rate": 1.3516141563339123e-05,
      "loss": 0.9121,
      "step": 6582
    },
    {
      "epoch": 0.4041253568249486,
      "grad_norm": 0.7000698909760125,
      "learning_rate": 1.3514280110114414e-05,
      "loss": 0.8913,
      "step": 6583
    },
    {
      "epoch": 0.4041867460634151,
      "grad_norm": 0.7665445112433892,
      "learning_rate": 1.3512418517951415e-05,
      "loss": 0.9551,
      "step": 6584
    },
    {
      "epoch": 0.4042481353018816,
      "grad_norm": 0.7508331329147521,
      "learning_rate": 1.3510556786923727e-05,
      "loss": 0.8872,
      "step": 6585
    },
    {
      "epoch": 0.4043095245403481,
      "grad_norm": 0.7642893601014312,
      "learning_rate": 1.3508694917104954e-05,
      "loss": 0.9343,
      "step": 6586
    },
    {
      "epoch": 0.40437091377881457,
      "grad_norm": 0.7910701966109858,
      "learning_rate": 1.3506832908568705e-05,
      "loss": 0.9455,
      "step": 6587
    },
    {
      "epoch": 0.40443230301728106,
      "grad_norm": 0.7050528136374643,
      "learning_rate": 1.3504970761388595e-05,
      "loss": 0.8787,
      "step": 6588
    },
    {
      "epoch": 0.40449369225574755,
      "grad_norm": 0.8108137294900646,
      "learning_rate": 1.3503108475638244e-05,
      "loss": 0.9053,
      "step": 6589
    },
    {
      "epoch": 0.40455508149421404,
      "grad_norm": 0.7542382013472848,
      "learning_rate": 1.3501246051391279e-05,
      "loss": 0.9322,
      "step": 6590
    },
    {
      "epoch": 0.4046164707326806,
      "grad_norm": 0.6906916672202411,
      "learning_rate": 1.3499383488721334e-05,
      "loss": 0.8658,
      "step": 6591
    },
    {
      "epoch": 0.4046778599711471,
      "grad_norm": 0.7478500434543531,
      "learning_rate": 1.3497520787702044e-05,
      "loss": 0.933,
      "step": 6592
    },
    {
      "epoch": 0.40473924920961357,
      "grad_norm": 0.6700185597481245,
      "learning_rate": 1.3495657948407049e-05,
      "loss": 0.8693,
      "step": 6593
    },
    {
      "epoch": 0.40480063844808006,
      "grad_norm": 0.7192770853518266,
      "learning_rate": 1.349379497091e-05,
      "loss": 0.8625,
      "step": 6594
    },
    {
      "epoch": 0.40486202768654656,
      "grad_norm": 0.7652291947707219,
      "learning_rate": 1.3491931855284546e-05,
      "loss": 0.9405,
      "step": 6595
    },
    {
      "epoch": 0.40492341692501305,
      "grad_norm": 0.7010833453511848,
      "learning_rate": 1.3490068601604355e-05,
      "loss": 0.8835,
      "step": 6596
    },
    {
      "epoch": 0.40498480616347954,
      "grad_norm": 0.7088625755426521,
      "learning_rate": 1.3488205209943082e-05,
      "loss": 0.8425,
      "step": 6597
    },
    {
      "epoch": 0.40504619540194603,
      "grad_norm": 0.7391095708254158,
      "learning_rate": 1.3486341680374404e-05,
      "loss": 0.9165,
      "step": 6598
    },
    {
      "epoch": 0.4051075846404125,
      "grad_norm": 0.7353577887595815,
      "learning_rate": 1.348447801297199e-05,
      "loss": 0.9655,
      "step": 6599
    },
    {
      "epoch": 0.405168973878879,
      "grad_norm": 0.7560066236828282,
      "learning_rate": 1.3482614207809529e-05,
      "loss": 0.9257,
      "step": 6600
    },
    {
      "epoch": 0.4052303631173455,
      "grad_norm": 0.7473226493442043,
      "learning_rate": 1.3480750264960698e-05,
      "loss": 0.9445,
      "step": 6601
    },
    {
      "epoch": 0.40529175235581205,
      "grad_norm": 0.6881631825438831,
      "learning_rate": 1.3478886184499191e-05,
      "loss": 0.8644,
      "step": 6602
    },
    {
      "epoch": 0.40535314159427854,
      "grad_norm": 0.8114164595652602,
      "learning_rate": 1.3477021966498712e-05,
      "loss": 0.9569,
      "step": 6603
    },
    {
      "epoch": 0.40541453083274503,
      "grad_norm": 0.6515028334589487,
      "learning_rate": 1.3475157611032951e-05,
      "loss": 0.9051,
      "step": 6604
    },
    {
      "epoch": 0.4054759200712115,
      "grad_norm": 0.7382191180728169,
      "learning_rate": 1.347329311817563e-05,
      "loss": 0.8769,
      "step": 6605
    },
    {
      "epoch": 0.405537309309678,
      "grad_norm": 0.6645072039654794,
      "learning_rate": 1.3471428488000453e-05,
      "loss": 0.8421,
      "step": 6606
    },
    {
      "epoch": 0.4055986985481445,
      "grad_norm": 0.7493892107193987,
      "learning_rate": 1.346956372058114e-05,
      "loss": 0.9095,
      "step": 6607
    },
    {
      "epoch": 0.405660087786611,
      "grad_norm": 0.6783593455144136,
      "learning_rate": 1.3467698815991418e-05,
      "loss": 0.9054,
      "step": 6608
    },
    {
      "epoch": 0.4057214770250775,
      "grad_norm": 0.6695289821205456,
      "learning_rate": 1.3465833774305016e-05,
      "loss": 0.8773,
      "step": 6609
    },
    {
      "epoch": 0.405782866263544,
      "grad_norm": 0.6662493742493345,
      "learning_rate": 1.3463968595595672e-05,
      "loss": 0.8463,
      "step": 6610
    },
    {
      "epoch": 0.4058442555020105,
      "grad_norm": 0.6952638771604676,
      "learning_rate": 1.3462103279937116e-05,
      "loss": 0.8836,
      "step": 6611
    },
    {
      "epoch": 0.40590564474047697,
      "grad_norm": 0.7120861834090982,
      "learning_rate": 1.3460237827403103e-05,
      "loss": 0.9047,
      "step": 6612
    },
    {
      "epoch": 0.4059670339789435,
      "grad_norm": 0.7109765813849729,
      "learning_rate": 1.3458372238067382e-05,
      "loss": 0.8308,
      "step": 6613
    },
    {
      "epoch": 0.40602842321741,
      "grad_norm": 0.7427835389848206,
      "learning_rate": 1.3456506512003707e-05,
      "loss": 0.9114,
      "step": 6614
    },
    {
      "epoch": 0.4060898124558765,
      "grad_norm": 0.8003877377654047,
      "learning_rate": 1.3454640649285848e-05,
      "loss": 0.9282,
      "step": 6615
    },
    {
      "epoch": 0.406151201694343,
      "grad_norm": 0.8915913139203879,
      "learning_rate": 1.3452774649987563e-05,
      "loss": 0.8964,
      "step": 6616
    },
    {
      "epoch": 0.4062125909328095,
      "grad_norm": 0.7224788165807674,
      "learning_rate": 1.3450908514182632e-05,
      "loss": 0.918,
      "step": 6617
    },
    {
      "epoch": 0.406273980171276,
      "grad_norm": 0.7132419972056774,
      "learning_rate": 1.3449042241944832e-05,
      "loss": 0.9481,
      "step": 6618
    },
    {
      "epoch": 0.40633536940974246,
      "grad_norm": 0.6850234900294578,
      "learning_rate": 1.3447175833347943e-05,
      "loss": 0.8932,
      "step": 6619
    },
    {
      "epoch": 0.40639675864820896,
      "grad_norm": 0.7568256622998917,
      "learning_rate": 1.3445309288465758e-05,
      "loss": 0.8822,
      "step": 6620
    },
    {
      "epoch": 0.40645814788667545,
      "grad_norm": 0.6562521366579545,
      "learning_rate": 1.3443442607372069e-05,
      "loss": 0.85,
      "step": 6621
    },
    {
      "epoch": 0.40651953712514194,
      "grad_norm": 0.7374069496139053,
      "learning_rate": 1.3441575790140675e-05,
      "loss": 0.9134,
      "step": 6622
    },
    {
      "epoch": 0.4065809263636085,
      "grad_norm": 0.7727973947791965,
      "learning_rate": 1.3439708836845387e-05,
      "loss": 0.8778,
      "step": 6623
    },
    {
      "epoch": 0.406642315602075,
      "grad_norm": 0.7320091896790418,
      "learning_rate": 1.343784174756001e-05,
      "loss": 0.9074,
      "step": 6624
    },
    {
      "epoch": 0.40670370484054147,
      "grad_norm": 0.780556444790022,
      "learning_rate": 1.3435974522358361e-05,
      "loss": 0.976,
      "step": 6625
    },
    {
      "epoch": 0.40676509407900796,
      "grad_norm": 0.6990093683036336,
      "learning_rate": 1.3434107161314265e-05,
      "loss": 0.8391,
      "step": 6626
    },
    {
      "epoch": 0.40682648331747445,
      "grad_norm": 0.6892333922093015,
      "learning_rate": 1.3432239664501543e-05,
      "loss": 0.8638,
      "step": 6627
    },
    {
      "epoch": 0.40688787255594094,
      "grad_norm": 0.7090511845596197,
      "learning_rate": 1.343037203199403e-05,
      "loss": 0.8274,
      "step": 6628
    },
    {
      "epoch": 0.40694926179440744,
      "grad_norm": 0.7517372140392385,
      "learning_rate": 1.3428504263865565e-05,
      "loss": 0.877,
      "step": 6629
    },
    {
      "epoch": 0.4070106510328739,
      "grad_norm": 0.673063579251433,
      "learning_rate": 1.3426636360189991e-05,
      "loss": 0.6816,
      "step": 6630
    },
    {
      "epoch": 0.4070720402713404,
      "grad_norm": 0.670547488189315,
      "learning_rate": 1.3424768321041153e-05,
      "loss": 0.8533,
      "step": 6631
    },
    {
      "epoch": 0.4071334295098069,
      "grad_norm": 0.7142568283861203,
      "learning_rate": 1.3422900146492908e-05,
      "loss": 0.8726,
      "step": 6632
    },
    {
      "epoch": 0.4071948187482734,
      "grad_norm": 0.8538442060802175,
      "learning_rate": 1.3421031836619111e-05,
      "loss": 0.8962,
      "step": 6633
    },
    {
      "epoch": 0.40725620798673995,
      "grad_norm": 0.7437550306965195,
      "learning_rate": 1.3419163391493628e-05,
      "loss": 0.8928,
      "step": 6634
    },
    {
      "epoch": 0.40731759722520644,
      "grad_norm": 0.740345534553036,
      "learning_rate": 1.3417294811190333e-05,
      "loss": 0.8809,
      "step": 6635
    },
    {
      "epoch": 0.40737898646367293,
      "grad_norm": 0.7406610090495951,
      "learning_rate": 1.3415426095783094e-05,
      "loss": 0.9071,
      "step": 6636
    },
    {
      "epoch": 0.4074403757021394,
      "grad_norm": 0.7336327855808389,
      "learning_rate": 1.3413557245345794e-05,
      "loss": 0.8745,
      "step": 6637
    },
    {
      "epoch": 0.4075017649406059,
      "grad_norm": 0.7106467590584353,
      "learning_rate": 1.341168825995232e-05,
      "loss": 0.8762,
      "step": 6638
    },
    {
      "epoch": 0.4075631541790724,
      "grad_norm": 0.7223873653831681,
      "learning_rate": 1.3409819139676562e-05,
      "loss": 0.9664,
      "step": 6639
    },
    {
      "epoch": 0.4076245434175389,
      "grad_norm": 0.6143180310666878,
      "learning_rate": 1.340794988459242e-05,
      "loss": 0.8475,
      "step": 6640
    },
    {
      "epoch": 0.4076859326560054,
      "grad_norm": 0.7159984800684439,
      "learning_rate": 1.3406080494773785e-05,
      "loss": 0.8624,
      "step": 6641
    },
    {
      "epoch": 0.4077473218944719,
      "grad_norm": 0.7213106447837027,
      "learning_rate": 1.3404210970294578e-05,
      "loss": 0.8651,
      "step": 6642
    },
    {
      "epoch": 0.4078087111329384,
      "grad_norm": 0.6913043867408867,
      "learning_rate": 1.34023413112287e-05,
      "loss": 0.9031,
      "step": 6643
    },
    {
      "epoch": 0.4078701003714049,
      "grad_norm": 0.756218824942224,
      "learning_rate": 1.3400471517650073e-05,
      "loss": 0.8898,
      "step": 6644
    },
    {
      "epoch": 0.4079314896098714,
      "grad_norm": 0.7732895862672776,
      "learning_rate": 1.339860158963262e-05,
      "loss": 0.9061,
      "step": 6645
    },
    {
      "epoch": 0.4079928788483379,
      "grad_norm": 0.7643696100003194,
      "learning_rate": 1.339673152725027e-05,
      "loss": 0.9315,
      "step": 6646
    },
    {
      "epoch": 0.4080542680868044,
      "grad_norm": 0.7374304637583403,
      "learning_rate": 1.3394861330576959e-05,
      "loss": 0.8931,
      "step": 6647
    },
    {
      "epoch": 0.4081156573252709,
      "grad_norm": 0.7367936959039117,
      "learning_rate": 1.3392990999686617e-05,
      "loss": 0.8854,
      "step": 6648
    },
    {
      "epoch": 0.4081770465637374,
      "grad_norm": 0.7311154614761208,
      "learning_rate": 1.3391120534653198e-05,
      "loss": 0.9381,
      "step": 6649
    },
    {
      "epoch": 0.40823843580220387,
      "grad_norm": 0.7131581410054462,
      "learning_rate": 1.3389249935550646e-05,
      "loss": 0.8546,
      "step": 6650
    },
    {
      "epoch": 0.40829982504067036,
      "grad_norm": 0.7191424739506659,
      "learning_rate": 1.3387379202452917e-05,
      "loss": 0.9221,
      "step": 6651
    },
    {
      "epoch": 0.40836121427913685,
      "grad_norm": 0.7197306538317699,
      "learning_rate": 1.3385508335433969e-05,
      "loss": 0.8792,
      "step": 6652
    },
    {
      "epoch": 0.40842260351760334,
      "grad_norm": 0.811523683314016,
      "learning_rate": 1.338363733456777e-05,
      "loss": 0.9286,
      "step": 6653
    },
    {
      "epoch": 0.40848399275606984,
      "grad_norm": 0.7381307562772367,
      "learning_rate": 1.3381766199928292e-05,
      "loss": 0.9199,
      "step": 6654
    },
    {
      "epoch": 0.4085453819945364,
      "grad_norm": 0.7544745453657904,
      "learning_rate": 1.337989493158951e-05,
      "loss": 0.892,
      "step": 6655
    },
    {
      "epoch": 0.4086067712330029,
      "grad_norm": 0.7731969198728744,
      "learning_rate": 1.3378023529625403e-05,
      "loss": 0.8953,
      "step": 6656
    },
    {
      "epoch": 0.40866816047146937,
      "grad_norm": 0.6864031197746421,
      "learning_rate": 1.3376151994109958e-05,
      "loss": 0.8905,
      "step": 6657
    },
    {
      "epoch": 0.40872954970993586,
      "grad_norm": 0.7463778627954969,
      "learning_rate": 1.337428032511717e-05,
      "loss": 0.9361,
      "step": 6658
    },
    {
      "epoch": 0.40879093894840235,
      "grad_norm": 0.6964526390565194,
      "learning_rate": 1.3372408522721033e-05,
      "loss": 0.8817,
      "step": 6659
    },
    {
      "epoch": 0.40885232818686884,
      "grad_norm": 0.6972468035674436,
      "learning_rate": 1.3370536586995549e-05,
      "loss": 0.8941,
      "step": 6660
    },
    {
      "epoch": 0.40891371742533533,
      "grad_norm": 0.6947053820284105,
      "learning_rate": 1.3368664518014726e-05,
      "loss": 0.9093,
      "step": 6661
    },
    {
      "epoch": 0.4089751066638018,
      "grad_norm": 0.7385683004051844,
      "learning_rate": 1.336679231585258e-05,
      "loss": 0.8997,
      "step": 6662
    },
    {
      "epoch": 0.4090364959022683,
      "grad_norm": 0.7609680738511233,
      "learning_rate": 1.3364919980583126e-05,
      "loss": 0.8639,
      "step": 6663
    },
    {
      "epoch": 0.4090978851407348,
      "grad_norm": 0.7510443855488612,
      "learning_rate": 1.3363047512280391e-05,
      "loss": 0.9392,
      "step": 6664
    },
    {
      "epoch": 0.4091592743792013,
      "grad_norm": 0.8039009060183926,
      "learning_rate": 1.3361174911018398e-05,
      "loss": 0.9026,
      "step": 6665
    },
    {
      "epoch": 0.40922066361766785,
      "grad_norm": 0.7638141670159087,
      "learning_rate": 1.3359302176871182e-05,
      "loss": 0.9171,
      "step": 6666
    },
    {
      "epoch": 0.40928205285613434,
      "grad_norm": 0.7301147940688111,
      "learning_rate": 1.3357429309912789e-05,
      "loss": 0.9245,
      "step": 6667
    },
    {
      "epoch": 0.40934344209460083,
      "grad_norm": 0.7581056822283041,
      "learning_rate": 1.3355556310217254e-05,
      "loss": 0.9219,
      "step": 6668
    },
    {
      "epoch": 0.4094048313330673,
      "grad_norm": 0.7254399097095102,
      "learning_rate": 1.3353683177858634e-05,
      "loss": 0.9024,
      "step": 6669
    },
    {
      "epoch": 0.4094662205715338,
      "grad_norm": 0.6982725982495724,
      "learning_rate": 1.3351809912910982e-05,
      "loss": 0.9009,
      "step": 6670
    },
    {
      "epoch": 0.4095276098100003,
      "grad_norm": 0.7016057318395235,
      "learning_rate": 1.3349936515448353e-05,
      "loss": 0.9028,
      "step": 6671
    },
    {
      "epoch": 0.4095889990484668,
      "grad_norm": 0.5932964177626509,
      "learning_rate": 1.3348062985544824e-05,
      "loss": 0.8612,
      "step": 6672
    },
    {
      "epoch": 0.4096503882869333,
      "grad_norm": 0.7337249538837539,
      "learning_rate": 1.3346189323274452e-05,
      "loss": 0.8807,
      "step": 6673
    },
    {
      "epoch": 0.4097117775253998,
      "grad_norm": 0.7651532761742315,
      "learning_rate": 1.3344315528711325e-05,
      "loss": 0.971,
      "step": 6674
    },
    {
      "epoch": 0.40977316676386627,
      "grad_norm": 0.818626014739798,
      "learning_rate": 1.3342441601929514e-05,
      "loss": 0.9282,
      "step": 6675
    },
    {
      "epoch": 0.4098345560023328,
      "grad_norm": 0.7008796519650426,
      "learning_rate": 1.334056754300311e-05,
      "loss": 0.9181,
      "step": 6676
    },
    {
      "epoch": 0.4098959452407993,
      "grad_norm": 0.6963760450333533,
      "learning_rate": 1.3338693352006207e-05,
      "loss": 0.8682,
      "step": 6677
    },
    {
      "epoch": 0.4099573344792658,
      "grad_norm": 0.7442670429473647,
      "learning_rate": 1.3336819029012895e-05,
      "loss": 0.8648,
      "step": 6678
    },
    {
      "epoch": 0.4100187237177323,
      "grad_norm": 0.6890117377599553,
      "learning_rate": 1.3334944574097285e-05,
      "loss": 0.9099,
      "step": 6679
    },
    {
      "epoch": 0.4100801129561988,
      "grad_norm": 0.7808580139365263,
      "learning_rate": 1.3333069987333475e-05,
      "loss": 0.9348,
      "step": 6680
    },
    {
      "epoch": 0.4101415021946653,
      "grad_norm": 0.7784127812532904,
      "learning_rate": 1.3331195268795587e-05,
      "loss": 0.877,
      "step": 6681
    },
    {
      "epoch": 0.41020289143313177,
      "grad_norm": 0.7708518368176752,
      "learning_rate": 1.332932041855773e-05,
      "loss": 0.8698,
      "step": 6682
    },
    {
      "epoch": 0.41026428067159826,
      "grad_norm": 0.730318262878578,
      "learning_rate": 1.3327445436694033e-05,
      "loss": 0.9277,
      "step": 6683
    },
    {
      "epoch": 0.41032566991006475,
      "grad_norm": 0.7046293266748626,
      "learning_rate": 1.3325570323278618e-05,
      "loss": 0.8971,
      "step": 6684
    },
    {
      "epoch": 0.41038705914853124,
      "grad_norm": 0.7262000640803532,
      "learning_rate": 1.3323695078385624e-05,
      "loss": 0.8621,
      "step": 6685
    },
    {
      "epoch": 0.41044844838699773,
      "grad_norm": 0.7342648597821906,
      "learning_rate": 1.3321819702089185e-05,
      "loss": 0.8864,
      "step": 6686
    },
    {
      "epoch": 0.4105098376254643,
      "grad_norm": 0.8178224965455211,
      "learning_rate": 1.331994419446345e-05,
      "loss": 0.6991,
      "step": 6687
    },
    {
      "epoch": 0.41057122686393077,
      "grad_norm": 0.7996467600120704,
      "learning_rate": 1.3318068555582562e-05,
      "loss": 0.9628,
      "step": 6688
    },
    {
      "epoch": 0.41063261610239726,
      "grad_norm": 0.7383870855612907,
      "learning_rate": 1.331619278552068e-05,
      "loss": 0.9362,
      "step": 6689
    },
    {
      "epoch": 0.41069400534086375,
      "grad_norm": 0.6701824650083728,
      "learning_rate": 1.331431688435196e-05,
      "loss": 0.8603,
      "step": 6690
    },
    {
      "epoch": 0.41075539457933025,
      "grad_norm": 0.6880664454637329,
      "learning_rate": 1.3312440852150565e-05,
      "loss": 0.8729,
      "step": 6691
    },
    {
      "epoch": 0.41081678381779674,
      "grad_norm": 0.7188975689396971,
      "learning_rate": 1.3310564688990671e-05,
      "loss": 0.8967,
      "step": 6692
    },
    {
      "epoch": 0.41087817305626323,
      "grad_norm": 0.7495392867404772,
      "learning_rate": 1.3308688394946444e-05,
      "loss": 0.8766,
      "step": 6693
    },
    {
      "epoch": 0.4109395622947297,
      "grad_norm": 0.7127598477126038,
      "learning_rate": 1.3306811970092074e-05,
      "loss": 0.8863,
      "step": 6694
    },
    {
      "epoch": 0.4110009515331962,
      "grad_norm": 0.7716915617040698,
      "learning_rate": 1.3304935414501738e-05,
      "loss": 0.8677,
      "step": 6695
    },
    {
      "epoch": 0.4110623407716627,
      "grad_norm": 0.7613016887503734,
      "learning_rate": 1.3303058728249629e-05,
      "loss": 0.9019,
      "step": 6696
    },
    {
      "epoch": 0.41112373001012925,
      "grad_norm": 0.7409569180790989,
      "learning_rate": 1.3301181911409944e-05,
      "loss": 0.8695,
      "step": 6697
    },
    {
      "epoch": 0.41118511924859574,
      "grad_norm": 0.8065586094439622,
      "learning_rate": 1.3299304964056879e-05,
      "loss": 0.8833,
      "step": 6698
    },
    {
      "epoch": 0.41124650848706223,
      "grad_norm": 0.7103119536326412,
      "learning_rate": 1.3297427886264645e-05,
      "loss": 0.8734,
      "step": 6699
    },
    {
      "epoch": 0.4113078977255287,
      "grad_norm": 0.8361795228915709,
      "learning_rate": 1.3295550678107449e-05,
      "loss": 0.9338,
      "step": 6700
    },
    {
      "epoch": 0.4113692869639952,
      "grad_norm": 0.7500406378117871,
      "learning_rate": 1.3293673339659511e-05,
      "loss": 0.9044,
      "step": 6701
    },
    {
      "epoch": 0.4114306762024617,
      "grad_norm": 0.7359086322331737,
      "learning_rate": 1.329179587099505e-05,
      "loss": 0.8943,
      "step": 6702
    },
    {
      "epoch": 0.4114920654409282,
      "grad_norm": 0.7652448519770194,
      "learning_rate": 1.3289918272188288e-05,
      "loss": 0.8672,
      "step": 6703
    },
    {
      "epoch": 0.4115534546793947,
      "grad_norm": 0.6833318667188228,
      "learning_rate": 1.328804054331347e-05,
      "loss": 0.8941,
      "step": 6704
    },
    {
      "epoch": 0.4116148439178612,
      "grad_norm": 0.6966623011015545,
      "learning_rate": 1.3286162684444816e-05,
      "loss": 0.8906,
      "step": 6705
    },
    {
      "epoch": 0.4116762331563277,
      "grad_norm": 0.6614836235448261,
      "learning_rate": 1.328428469565658e-05,
      "loss": 0.8267,
      "step": 6706
    },
    {
      "epoch": 0.41173762239479417,
      "grad_norm": 0.7441173382318206,
      "learning_rate": 1.3282406577023e-05,
      "loss": 0.9301,
      "step": 6707
    },
    {
      "epoch": 0.4117990116332607,
      "grad_norm": 0.7589677410824682,
      "learning_rate": 1.3280528328618337e-05,
      "loss": 0.8896,
      "step": 6708
    },
    {
      "epoch": 0.4118604008717272,
      "grad_norm": 0.7462213676757342,
      "learning_rate": 1.327864995051684e-05,
      "loss": 0.9258,
      "step": 6709
    },
    {
      "epoch": 0.4119217901101937,
      "grad_norm": 0.7471485920992597,
      "learning_rate": 1.3276771442792775e-05,
      "loss": 0.8538,
      "step": 6710
    },
    {
      "epoch": 0.4119831793486602,
      "grad_norm": 0.7470737630224352,
      "learning_rate": 1.3274892805520412e-05,
      "loss": 0.9217,
      "step": 6711
    },
    {
      "epoch": 0.4120445685871267,
      "grad_norm": 0.7171808435188697,
      "learning_rate": 1.3273014038774019e-05,
      "loss": 0.8787,
      "step": 6712
    },
    {
      "epoch": 0.41210595782559317,
      "grad_norm": 0.799027695030872,
      "learning_rate": 1.3271135142627878e-05,
      "loss": 0.9318,
      "step": 6713
    },
    {
      "epoch": 0.41216734706405966,
      "grad_norm": 0.7509334540190252,
      "learning_rate": 1.326925611715627e-05,
      "loss": 0.8885,
      "step": 6714
    },
    {
      "epoch": 0.41222873630252616,
      "grad_norm": 0.7538848726518245,
      "learning_rate": 1.3267376962433479e-05,
      "loss": 0.8844,
      "step": 6715
    },
    {
      "epoch": 0.41229012554099265,
      "grad_norm": 0.6917157170929878,
      "learning_rate": 1.3265497678533803e-05,
      "loss": 0.8666,
      "step": 6716
    },
    {
      "epoch": 0.41235151477945914,
      "grad_norm": 0.7364586454116263,
      "learning_rate": 1.3263618265531538e-05,
      "loss": 0.8936,
      "step": 6717
    },
    {
      "epoch": 0.41241290401792563,
      "grad_norm": 0.6721744345754529,
      "learning_rate": 1.3261738723500987e-05,
      "loss": 0.8848,
      "step": 6718
    },
    {
      "epoch": 0.4124742932563922,
      "grad_norm": 0.7495387513990884,
      "learning_rate": 1.3259859052516462e-05,
      "loss": 0.9018,
      "step": 6719
    },
    {
      "epoch": 0.41253568249485867,
      "grad_norm": 0.6386632559278906,
      "learning_rate": 1.3257979252652273e-05,
      "loss": 0.831,
      "step": 6720
    },
    {
      "epoch": 0.41259707173332516,
      "grad_norm": 0.7064460968259306,
      "learning_rate": 1.3256099323982739e-05,
      "loss": 0.8529,
      "step": 6721
    },
    {
      "epoch": 0.41265846097179165,
      "grad_norm": 0.7375646708299601,
      "learning_rate": 1.3254219266582185e-05,
      "loss": 0.927,
      "step": 6722
    },
    {
      "epoch": 0.41271985021025814,
      "grad_norm": 0.7602123189053438,
      "learning_rate": 1.3252339080524934e-05,
      "loss": 0.9119,
      "step": 6723
    },
    {
      "epoch": 0.41278123944872464,
      "grad_norm": 0.7487437509523893,
      "learning_rate": 1.3250458765885327e-05,
      "loss": 0.8539,
      "step": 6724
    },
    {
      "epoch": 0.4128426286871911,
      "grad_norm": 0.794646020296731,
      "learning_rate": 1.3248578322737703e-05,
      "loss": 0.9042,
      "step": 6725
    },
    {
      "epoch": 0.4129040179256576,
      "grad_norm": 0.746043575094002,
      "learning_rate": 1.3246697751156404e-05,
      "loss": 0.9148,
      "step": 6726
    },
    {
      "epoch": 0.4129654071641241,
      "grad_norm": 0.7297859676223757,
      "learning_rate": 1.3244817051215775e-05,
      "loss": 0.8721,
      "step": 6727
    },
    {
      "epoch": 0.4130267964025906,
      "grad_norm": 0.7419093370959473,
      "learning_rate": 1.3242936222990173e-05,
      "loss": 0.9007,
      "step": 6728
    },
    {
      "epoch": 0.41308818564105715,
      "grad_norm": 0.7582344959895004,
      "learning_rate": 1.324105526655396e-05,
      "loss": 0.9116,
      "step": 6729
    },
    {
      "epoch": 0.41314957487952364,
      "grad_norm": 0.7681607526554824,
      "learning_rate": 1.3239174181981496e-05,
      "loss": 0.9116,
      "step": 6730
    },
    {
      "epoch": 0.41321096411799013,
      "grad_norm": 0.7897338689264906,
      "learning_rate": 1.3237292969347154e-05,
      "loss": 0.8809,
      "step": 6731
    },
    {
      "epoch": 0.4132723533564566,
      "grad_norm": 0.7321375493311103,
      "learning_rate": 1.3235411628725303e-05,
      "loss": 0.8624,
      "step": 6732
    },
    {
      "epoch": 0.4133337425949231,
      "grad_norm": 0.7217332251748512,
      "learning_rate": 1.323353016019033e-05,
      "loss": 0.858,
      "step": 6733
    },
    {
      "epoch": 0.4133951318333896,
      "grad_norm": 0.6968122037261255,
      "learning_rate": 1.3231648563816614e-05,
      "loss": 0.9032,
      "step": 6734
    },
    {
      "epoch": 0.4134565210718561,
      "grad_norm": 0.7691372469789189,
      "learning_rate": 1.3229766839678547e-05,
      "loss": 0.9005,
      "step": 6735
    },
    {
      "epoch": 0.4135179103103226,
      "grad_norm": 0.8003189653907937,
      "learning_rate": 1.3227884987850523e-05,
      "loss": 0.9382,
      "step": 6736
    },
    {
      "epoch": 0.4135792995487891,
      "grad_norm": 0.6668727203422153,
      "learning_rate": 1.3226003008406941e-05,
      "loss": 0.9016,
      "step": 6737
    },
    {
      "epoch": 0.4136406887872556,
      "grad_norm": 0.6658137534853367,
      "learning_rate": 1.3224120901422206e-05,
      "loss": 0.8532,
      "step": 6738
    },
    {
      "epoch": 0.41370207802572206,
      "grad_norm": 0.666885082062017,
      "learning_rate": 1.3222238666970728e-05,
      "loss": 0.7402,
      "step": 6739
    },
    {
      "epoch": 0.4137634672641886,
      "grad_norm": 0.7621710501258598,
      "learning_rate": 1.3220356305126922e-05,
      "loss": 0.8565,
      "step": 6740
    },
    {
      "epoch": 0.4138248565026551,
      "grad_norm": 0.7053395559420663,
      "learning_rate": 1.3218473815965207e-05,
      "loss": 0.9264,
      "step": 6741
    },
    {
      "epoch": 0.4138862457411216,
      "grad_norm": 0.7481014797630359,
      "learning_rate": 1.3216591199560007e-05,
      "loss": 0.9259,
      "step": 6742
    },
    {
      "epoch": 0.4139476349795881,
      "grad_norm": 0.7200146178520296,
      "learning_rate": 1.3214708455985758e-05,
      "loss": 0.8702,
      "step": 6743
    },
    {
      "epoch": 0.4140090242180546,
      "grad_norm": 0.7996614053862009,
      "learning_rate": 1.3212825585316887e-05,
      "loss": 0.9064,
      "step": 6744
    },
    {
      "epoch": 0.41407041345652107,
      "grad_norm": 0.7065084311920249,
      "learning_rate": 1.3210942587627837e-05,
      "loss": 0.8897,
      "step": 6745
    },
    {
      "epoch": 0.41413180269498756,
      "grad_norm": 0.6856365268918566,
      "learning_rate": 1.3209059462993054e-05,
      "loss": 0.836,
      "step": 6746
    },
    {
      "epoch": 0.41419319193345405,
      "grad_norm": 0.6096500958684461,
      "learning_rate": 1.320717621148699e-05,
      "loss": 0.7347,
      "step": 6747
    },
    {
      "epoch": 0.41425458117192054,
      "grad_norm": 0.7161154426438193,
      "learning_rate": 1.3205292833184094e-05,
      "loss": 0.887,
      "step": 6748
    },
    {
      "epoch": 0.41431597041038704,
      "grad_norm": 0.7285208906118822,
      "learning_rate": 1.3203409328158827e-05,
      "loss": 0.9126,
      "step": 6749
    },
    {
      "epoch": 0.4143773596488536,
      "grad_norm": 0.7015009447476773,
      "learning_rate": 1.320152569648566e-05,
      "loss": 0.8867,
      "step": 6750
    },
    {
      "epoch": 0.4144387488873201,
      "grad_norm": 0.7326024518081132,
      "learning_rate": 1.3199641938239057e-05,
      "loss": 0.8865,
      "step": 6751
    },
    {
      "epoch": 0.41450013812578657,
      "grad_norm": 0.7091441350761709,
      "learning_rate": 1.3197758053493496e-05,
      "loss": 0.8733,
      "step": 6752
    },
    {
      "epoch": 0.41456152736425306,
      "grad_norm": 0.7052303490581,
      "learning_rate": 1.3195874042323457e-05,
      "loss": 0.9092,
      "step": 6753
    },
    {
      "epoch": 0.41462291660271955,
      "grad_norm": 0.6524153447088522,
      "learning_rate": 1.3193989904803424e-05,
      "loss": 0.8788,
      "step": 6754
    },
    {
      "epoch": 0.41468430584118604,
      "grad_norm": 0.7125756882998835,
      "learning_rate": 1.3192105641007886e-05,
      "loss": 0.9149,
      "step": 6755
    },
    {
      "epoch": 0.41474569507965253,
      "grad_norm": 0.7870192568174318,
      "learning_rate": 1.3190221251011341e-05,
      "loss": 0.9803,
      "step": 6756
    },
    {
      "epoch": 0.414807084318119,
      "grad_norm": 0.7145615636825341,
      "learning_rate": 1.3188336734888288e-05,
      "loss": 0.862,
      "step": 6757
    },
    {
      "epoch": 0.4148684735565855,
      "grad_norm": 0.6870628208850874,
      "learning_rate": 1.3186452092713232e-05,
      "loss": 0.886,
      "step": 6758
    },
    {
      "epoch": 0.414929862795052,
      "grad_norm": 0.7597315670483055,
      "learning_rate": 1.318456732456068e-05,
      "loss": 0.8833,
      "step": 6759
    },
    {
      "epoch": 0.4149912520335185,
      "grad_norm": 0.7757987343954629,
      "learning_rate": 1.3182682430505152e-05,
      "loss": 0.8706,
      "step": 6760
    },
    {
      "epoch": 0.41505264127198505,
      "grad_norm": 0.6607833499451208,
      "learning_rate": 1.3180797410621162e-05,
      "loss": 0.8068,
      "step": 6761
    },
    {
      "epoch": 0.41511403051045154,
      "grad_norm": 0.7578960185577043,
      "learning_rate": 1.3178912264983239e-05,
      "loss": 0.8965,
      "step": 6762
    },
    {
      "epoch": 0.41517541974891803,
      "grad_norm": 0.7100089239596835,
      "learning_rate": 1.3177026993665913e-05,
      "loss": 0.9078,
      "step": 6763
    },
    {
      "epoch": 0.4152368089873845,
      "grad_norm": 0.8123614949921096,
      "learning_rate": 1.317514159674372e-05,
      "loss": 0.9017,
      "step": 6764
    },
    {
      "epoch": 0.415298198225851,
      "grad_norm": 0.6979012912041094,
      "learning_rate": 1.3173256074291196e-05,
      "loss": 0.856,
      "step": 6765
    },
    {
      "epoch": 0.4153595874643175,
      "grad_norm": 0.7577995448130741,
      "learning_rate": 1.3171370426382888e-05,
      "loss": 0.9129,
      "step": 6766
    },
    {
      "epoch": 0.415420976702784,
      "grad_norm": 0.7438595418599622,
      "learning_rate": 1.3169484653093342e-05,
      "loss": 0.9286,
      "step": 6767
    },
    {
      "epoch": 0.4154823659412505,
      "grad_norm": 0.6715542859563359,
      "learning_rate": 1.3167598754497122e-05,
      "loss": 0.8518,
      "step": 6768
    },
    {
      "epoch": 0.415543755179717,
      "grad_norm": 0.7438480336937908,
      "learning_rate": 1.3165712730668778e-05,
      "loss": 0.8977,
      "step": 6769
    },
    {
      "epoch": 0.41560514441818347,
      "grad_norm": 0.7737671522851562,
      "learning_rate": 1.3163826581682879e-05,
      "loss": 0.9181,
      "step": 6770
    },
    {
      "epoch": 0.41566653365665,
      "grad_norm": 0.6963426470431101,
      "learning_rate": 1.3161940307613994e-05,
      "loss": 0.9194,
      "step": 6771
    },
    {
      "epoch": 0.4157279228951165,
      "grad_norm": 0.727723875692271,
      "learning_rate": 1.3160053908536698e-05,
      "loss": 0.8973,
      "step": 6772
    },
    {
      "epoch": 0.415789312133583,
      "grad_norm": 0.7854434637243347,
      "learning_rate": 1.3158167384525569e-05,
      "loss": 0.8758,
      "step": 6773
    },
    {
      "epoch": 0.4158507013720495,
      "grad_norm": 0.7647261359792132,
      "learning_rate": 1.315628073565519e-05,
      "loss": 0.8677,
      "step": 6774
    },
    {
      "epoch": 0.415912090610516,
      "grad_norm": 0.7864072088993782,
      "learning_rate": 1.3154393962000158e-05,
      "loss": 0.9192,
      "step": 6775
    },
    {
      "epoch": 0.4159734798489825,
      "grad_norm": 0.7664577101030762,
      "learning_rate": 1.3152507063635058e-05,
      "loss": 0.9349,
      "step": 6776
    },
    {
      "epoch": 0.41603486908744897,
      "grad_norm": 0.7085566946116673,
      "learning_rate": 1.3150620040634494e-05,
      "loss": 0.8226,
      "step": 6777
    },
    {
      "epoch": 0.41609625832591546,
      "grad_norm": 0.7266772603068627,
      "learning_rate": 1.314873289307307e-05,
      "loss": 0.9182,
      "step": 6778
    },
    {
      "epoch": 0.41615764756438195,
      "grad_norm": 0.7471730379460811,
      "learning_rate": 1.3146845621025393e-05,
      "loss": 0.9269,
      "step": 6779
    },
    {
      "epoch": 0.41621903680284844,
      "grad_norm": 0.759589236189108,
      "learning_rate": 1.3144958224566078e-05,
      "loss": 0.9047,
      "step": 6780
    },
    {
      "epoch": 0.41628042604131493,
      "grad_norm": 0.6651916674442783,
      "learning_rate": 1.3143070703769743e-05,
      "loss": 0.8182,
      "step": 6781
    },
    {
      "epoch": 0.4163418152797815,
      "grad_norm": 0.7519958839612642,
      "learning_rate": 1.3141183058711014e-05,
      "loss": 0.8956,
      "step": 6782
    },
    {
      "epoch": 0.41640320451824797,
      "grad_norm": 0.724564334604243,
      "learning_rate": 1.313929528946452e-05,
      "loss": 0.9117,
      "step": 6783
    },
    {
      "epoch": 0.41646459375671446,
      "grad_norm": 0.7484561419357655,
      "learning_rate": 1.3137407396104891e-05,
      "loss": 0.8393,
      "step": 6784
    },
    {
      "epoch": 0.41652598299518095,
      "grad_norm": 0.7224294087747932,
      "learning_rate": 1.3135519378706767e-05,
      "loss": 0.8865,
      "step": 6785
    },
    {
      "epoch": 0.41658737223364745,
      "grad_norm": 0.7804491480927379,
      "learning_rate": 1.3133631237344795e-05,
      "loss": 0.9137,
      "step": 6786
    },
    {
      "epoch": 0.41664876147211394,
      "grad_norm": 0.759463591898615,
      "learning_rate": 1.3131742972093615e-05,
      "loss": 0.8712,
      "step": 6787
    },
    {
      "epoch": 0.41671015071058043,
      "grad_norm": 0.7693939881884865,
      "learning_rate": 1.312985458302789e-05,
      "loss": 0.8832,
      "step": 6788
    },
    {
      "epoch": 0.4167715399490469,
      "grad_norm": 0.7770124116341866,
      "learning_rate": 1.3127966070222273e-05,
      "loss": 0.881,
      "step": 6789
    },
    {
      "epoch": 0.4168329291875134,
      "grad_norm": 0.7544596037781882,
      "learning_rate": 1.3126077433751427e-05,
      "loss": 0.8957,
      "step": 6790
    },
    {
      "epoch": 0.4168943184259799,
      "grad_norm": 0.6666835318432975,
      "learning_rate": 1.3124188673690022e-05,
      "loss": 0.8682,
      "step": 6791
    },
    {
      "epoch": 0.4169557076644464,
      "grad_norm": 0.6370743727131307,
      "learning_rate": 1.3122299790112727e-05,
      "loss": 0.8727,
      "step": 6792
    },
    {
      "epoch": 0.41701709690291294,
      "grad_norm": 0.6816676023777909,
      "learning_rate": 1.3120410783094224e-05,
      "loss": 0.8321,
      "step": 6793
    },
    {
      "epoch": 0.41707848614137943,
      "grad_norm": 0.67016053590245,
      "learning_rate": 1.3118521652709194e-05,
      "loss": 0.8846,
      "step": 6794
    },
    {
      "epoch": 0.4171398753798459,
      "grad_norm": 0.8087389793879692,
      "learning_rate": 1.3116632399032322e-05,
      "loss": 0.9267,
      "step": 6795
    },
    {
      "epoch": 0.4172012646183124,
      "grad_norm": 0.7507295534893776,
      "learning_rate": 1.3114743022138303e-05,
      "loss": 0.8968,
      "step": 6796
    },
    {
      "epoch": 0.4172626538567789,
      "grad_norm": 0.7410876571956496,
      "learning_rate": 1.3112853522101836e-05,
      "loss": 0.8815,
      "step": 6797
    },
    {
      "epoch": 0.4173240430952454,
      "grad_norm": 0.7260377400831133,
      "learning_rate": 1.3110963898997618e-05,
      "loss": 0.8441,
      "step": 6798
    },
    {
      "epoch": 0.4173854323337119,
      "grad_norm": 0.7504295695614651,
      "learning_rate": 1.3109074152900357e-05,
      "loss": 0.8911,
      "step": 6799
    },
    {
      "epoch": 0.4174468215721784,
      "grad_norm": 0.7577434065060492,
      "learning_rate": 1.3107184283884771e-05,
      "loss": 0.9275,
      "step": 6800
    },
    {
      "epoch": 0.4175082108106449,
      "grad_norm": 0.698838273435502,
      "learning_rate": 1.3105294292025566e-05,
      "loss": 0.8592,
      "step": 6801
    },
    {
      "epoch": 0.41756960004911137,
      "grad_norm": 0.7733320468291371,
      "learning_rate": 1.3103404177397474e-05,
      "loss": 0.9407,
      "step": 6802
    },
    {
      "epoch": 0.4176309892875779,
      "grad_norm": 0.7135145990871589,
      "learning_rate": 1.3101513940075214e-05,
      "loss": 0.8804,
      "step": 6803
    },
    {
      "epoch": 0.4176923785260444,
      "grad_norm": 0.7570983769029404,
      "learning_rate": 1.309962358013352e-05,
      "loss": 0.8392,
      "step": 6804
    },
    {
      "epoch": 0.4177537677645109,
      "grad_norm": 0.7103185405386937,
      "learning_rate": 1.3097733097647132e-05,
      "loss": 0.8974,
      "step": 6805
    },
    {
      "epoch": 0.4178151570029774,
      "grad_norm": 0.6807616201746485,
      "learning_rate": 1.309584249269078e-05,
      "loss": 0.9018,
      "step": 6806
    },
    {
      "epoch": 0.4178765462414439,
      "grad_norm": 0.5600118923509488,
      "learning_rate": 1.3093951765339223e-05,
      "loss": 0.6534,
      "step": 6807
    },
    {
      "epoch": 0.41793793547991037,
      "grad_norm": 0.746403409807969,
      "learning_rate": 1.3092060915667202e-05,
      "loss": 0.8709,
      "step": 6808
    },
    {
      "epoch": 0.41799932471837686,
      "grad_norm": 0.6642196212808547,
      "learning_rate": 1.3090169943749475e-05,
      "loss": 0.8782,
      "step": 6809
    },
    {
      "epoch": 0.41806071395684336,
      "grad_norm": 0.7065427979864786,
      "learning_rate": 1.3088278849660805e-05,
      "loss": 0.8291,
      "step": 6810
    },
    {
      "epoch": 0.41812210319530985,
      "grad_norm": 0.7868069872735738,
      "learning_rate": 1.3086387633475951e-05,
      "loss": 0.8457,
      "step": 6811
    },
    {
      "epoch": 0.41818349243377634,
      "grad_norm": 0.7608000344047663,
      "learning_rate": 1.3084496295269692e-05,
      "loss": 0.8711,
      "step": 6812
    },
    {
      "epoch": 0.41824488167224283,
      "grad_norm": 0.7382298594863855,
      "learning_rate": 1.3082604835116793e-05,
      "loss": 0.8827,
      "step": 6813
    },
    {
      "epoch": 0.4183062709107094,
      "grad_norm": 0.6858864969393049,
      "learning_rate": 1.3080713253092039e-05,
      "loss": 0.9053,
      "step": 6814
    },
    {
      "epoch": 0.41836766014917587,
      "grad_norm": 0.7692819979953784,
      "learning_rate": 1.3078821549270214e-05,
      "loss": 0.8763,
      "step": 6815
    },
    {
      "epoch": 0.41842904938764236,
      "grad_norm": 0.7434497358192097,
      "learning_rate": 1.3076929723726107e-05,
      "loss": 0.8744,
      "step": 6816
    },
    {
      "epoch": 0.41849043862610885,
      "grad_norm": 0.6488203765431628,
      "learning_rate": 1.307503777653451e-05,
      "loss": 0.8648,
      "step": 6817
    },
    {
      "epoch": 0.41855182786457534,
      "grad_norm": 0.6743256457454139,
      "learning_rate": 1.3073145707770226e-05,
      "loss": 0.8668,
      "step": 6818
    },
    {
      "epoch": 0.41861321710304183,
      "grad_norm": 0.6997833170836375,
      "learning_rate": 1.3071253517508052e-05,
      "loss": 0.8593,
      "step": 6819
    },
    {
      "epoch": 0.4186746063415083,
      "grad_norm": 0.6335247183578425,
      "learning_rate": 1.3069361205822801e-05,
      "loss": 0.8896,
      "step": 6820
    },
    {
      "epoch": 0.4187359955799748,
      "grad_norm": 0.8052660965861114,
      "learning_rate": 1.3067468772789287e-05,
      "loss": 0.9164,
      "step": 6821
    },
    {
      "epoch": 0.4187973848184413,
      "grad_norm": 0.7541812269729556,
      "learning_rate": 1.3065576218482325e-05,
      "loss": 0.8961,
      "step": 6822
    },
    {
      "epoch": 0.4188587740569078,
      "grad_norm": 0.713021818559163,
      "learning_rate": 1.3063683542976742e-05,
      "loss": 0.8937,
      "step": 6823
    },
    {
      "epoch": 0.41892016329537435,
      "grad_norm": 0.7793973032980656,
      "learning_rate": 1.3061790746347357e-05,
      "loss": 0.9161,
      "step": 6824
    },
    {
      "epoch": 0.41898155253384084,
      "grad_norm": 0.7321316373702501,
      "learning_rate": 1.3059897828669014e-05,
      "loss": 0.9085,
      "step": 6825
    },
    {
      "epoch": 0.41904294177230733,
      "grad_norm": 0.6638799514614879,
      "learning_rate": 1.3058004790016543e-05,
      "loss": 0.8332,
      "step": 6826
    },
    {
      "epoch": 0.4191043310107738,
      "grad_norm": 0.6980004241147238,
      "learning_rate": 1.3056111630464787e-05,
      "loss": 0.8808,
      "step": 6827
    },
    {
      "epoch": 0.4191657202492403,
      "grad_norm": 0.7639612323992384,
      "learning_rate": 1.3054218350088592e-05,
      "loss": 0.8869,
      "step": 6828
    },
    {
      "epoch": 0.4192271094877068,
      "grad_norm": 0.7239867882498904,
      "learning_rate": 1.3052324948962811e-05,
      "loss": 0.874,
      "step": 6829
    },
    {
      "epoch": 0.4192884987261733,
      "grad_norm": 0.6792648005182211,
      "learning_rate": 1.30504314271623e-05,
      "loss": 0.868,
      "step": 6830
    },
    {
      "epoch": 0.4193498879646398,
      "grad_norm": 0.6186196804272935,
      "learning_rate": 1.304853778476192e-05,
      "loss": 0.7422,
      "step": 6831
    },
    {
      "epoch": 0.4194112772031063,
      "grad_norm": 0.7157229415570386,
      "learning_rate": 1.3046644021836538e-05,
      "loss": 0.9396,
      "step": 6832
    },
    {
      "epoch": 0.4194726664415728,
      "grad_norm": 0.7012290310394789,
      "learning_rate": 1.3044750138461019e-05,
      "loss": 0.8558,
      "step": 6833
    },
    {
      "epoch": 0.41953405568003926,
      "grad_norm": 0.762772215550506,
      "learning_rate": 1.3042856134710246e-05,
      "loss": 0.862,
      "step": 6834
    },
    {
      "epoch": 0.4195954449185058,
      "grad_norm": 0.8243505019295263,
      "learning_rate": 1.3040962010659095e-05,
      "loss": 0.9208,
      "step": 6835
    },
    {
      "epoch": 0.4196568341569723,
      "grad_norm": 0.7125467766812774,
      "learning_rate": 1.303906776638245e-05,
      "loss": 0.9128,
      "step": 6836
    },
    {
      "epoch": 0.4197182233954388,
      "grad_norm": 0.7106597809932169,
      "learning_rate": 1.3037173401955205e-05,
      "loss": 0.8958,
      "step": 6837
    },
    {
      "epoch": 0.4197796126339053,
      "grad_norm": 0.8421615661796019,
      "learning_rate": 1.303527891745225e-05,
      "loss": 0.9287,
      "step": 6838
    },
    {
      "epoch": 0.4198410018723718,
      "grad_norm": 0.7076863893088831,
      "learning_rate": 1.3033384312948487e-05,
      "loss": 0.8214,
      "step": 6839
    },
    {
      "epoch": 0.41990239111083827,
      "grad_norm": 0.7534700848434223,
      "learning_rate": 1.3031489588518816e-05,
      "loss": 0.9351,
      "step": 6840
    },
    {
      "epoch": 0.41996378034930476,
      "grad_norm": 0.791470863687818,
      "learning_rate": 1.302959474423815e-05,
      "loss": 0.8744,
      "step": 6841
    },
    {
      "epoch": 0.42002516958777125,
      "grad_norm": 0.7643452248194124,
      "learning_rate": 1.30276997801814e-05,
      "loss": 0.883,
      "step": 6842
    },
    {
      "epoch": 0.42008655882623774,
      "grad_norm": 0.7535815735135666,
      "learning_rate": 1.3025804696423483e-05,
      "loss": 0.8961,
      "step": 6843
    },
    {
      "epoch": 0.42014794806470424,
      "grad_norm": 0.803924930445977,
      "learning_rate": 1.3023909493039324e-05,
      "loss": 0.8551,
      "step": 6844
    },
    {
      "epoch": 0.4202093373031707,
      "grad_norm": 0.7684138118947206,
      "learning_rate": 1.3022014170103847e-05,
      "loss": 0.8933,
      "step": 6845
    },
    {
      "epoch": 0.4202707265416373,
      "grad_norm": 0.8100697038258778,
      "learning_rate": 1.302011872769199e-05,
      "loss": 0.8912,
      "step": 6846
    },
    {
      "epoch": 0.42033211578010377,
      "grad_norm": 0.7167087510009139,
      "learning_rate": 1.301822316587869e-05,
      "loss": 0.9081,
      "step": 6847
    },
    {
      "epoch": 0.42039350501857026,
      "grad_norm": 0.774053314462362,
      "learning_rate": 1.301632748473888e-05,
      "loss": 0.8846,
      "step": 6848
    },
    {
      "epoch": 0.42045489425703675,
      "grad_norm": 0.7367371335845124,
      "learning_rate": 1.3014431684347515e-05,
      "loss": 0.9109,
      "step": 6849
    },
    {
      "epoch": 0.42051628349550324,
      "grad_norm": 0.7530413563387576,
      "learning_rate": 1.3012535764779543e-05,
      "loss": 0.896,
      "step": 6850
    },
    {
      "epoch": 0.42057767273396973,
      "grad_norm": 0.7277831922554662,
      "learning_rate": 1.301063972610992e-05,
      "loss": 0.8878,
      "step": 6851
    },
    {
      "epoch": 0.4206390619724362,
      "grad_norm": 0.6604799198940835,
      "learning_rate": 1.3008743568413605e-05,
      "loss": 0.8162,
      "step": 6852
    },
    {
      "epoch": 0.4207004512109027,
      "grad_norm": 0.7941984415287165,
      "learning_rate": 1.3006847291765565e-05,
      "loss": 0.9146,
      "step": 6853
    },
    {
      "epoch": 0.4207618404493692,
      "grad_norm": 0.8502780010888141,
      "learning_rate": 1.3004950896240774e-05,
      "loss": 0.9569,
      "step": 6854
    },
    {
      "epoch": 0.4208232296878357,
      "grad_norm": 0.8120292345232747,
      "learning_rate": 1.30030543819142e-05,
      "loss": 0.8774,
      "step": 6855
    },
    {
      "epoch": 0.42088461892630225,
      "grad_norm": 0.6379838472530877,
      "learning_rate": 1.300115774886082e-05,
      "loss": 0.8157,
      "step": 6856
    },
    {
      "epoch": 0.42094600816476874,
      "grad_norm": 0.7228349755925862,
      "learning_rate": 1.2999260997155632e-05,
      "loss": 0.8439,
      "step": 6857
    },
    {
      "epoch": 0.42100739740323523,
      "grad_norm": 0.7254438882030932,
      "learning_rate": 1.2997364126873606e-05,
      "loss": 0.8555,
      "step": 6858
    },
    {
      "epoch": 0.4210687866417017,
      "grad_norm": 0.6734239223642171,
      "learning_rate": 1.299546713808975e-05,
      "loss": 0.8138,
      "step": 6859
    },
    {
      "epoch": 0.4211301758801682,
      "grad_norm": 0.6792588663402154,
      "learning_rate": 1.2993570030879059e-05,
      "loss": 0.8394,
      "step": 6860
    },
    {
      "epoch": 0.4211915651186347,
      "grad_norm": 0.6807965760803734,
      "learning_rate": 1.2991672805316534e-05,
      "loss": 0.8747,
      "step": 6861
    },
    {
      "epoch": 0.4212529543571012,
      "grad_norm": 0.7046062822542527,
      "learning_rate": 1.2989775461477179e-05,
      "loss": 0.8354,
      "step": 6862
    },
    {
      "epoch": 0.4213143435955677,
      "grad_norm": 0.7590178494552615,
      "learning_rate": 1.2987877999436008e-05,
      "loss": 0.9099,
      "step": 6863
    },
    {
      "epoch": 0.4213757328340342,
      "grad_norm": 0.7612468046928221,
      "learning_rate": 1.2985980419268045e-05,
      "loss": 0.9014,
      "step": 6864
    },
    {
      "epoch": 0.42143712207250067,
      "grad_norm": 0.6793927569951058,
      "learning_rate": 1.2984082721048301e-05,
      "loss": 0.9114,
      "step": 6865
    },
    {
      "epoch": 0.42149851131096716,
      "grad_norm": 0.7351344510487418,
      "learning_rate": 1.298218490485181e-05,
      "loss": 0.867,
      "step": 6866
    },
    {
      "epoch": 0.4215599005494337,
      "grad_norm": 0.7234947125627132,
      "learning_rate": 1.29802869707536e-05,
      "loss": 0.827,
      "step": 6867
    },
    {
      "epoch": 0.4216212897879002,
      "grad_norm": 0.693334456807308,
      "learning_rate": 1.2978388918828701e-05,
      "loss": 0.8684,
      "step": 6868
    },
    {
      "epoch": 0.4216826790263667,
      "grad_norm": 0.7667915195268563,
      "learning_rate": 1.2976490749152166e-05,
      "loss": 0.899,
      "step": 6869
    },
    {
      "epoch": 0.4217440682648332,
      "grad_norm": 0.6745306283892206,
      "learning_rate": 1.2974592461799026e-05,
      "loss": 0.8642,
      "step": 6870
    },
    {
      "epoch": 0.4218054575032997,
      "grad_norm": 0.6954208890525152,
      "learning_rate": 1.2972694056844344e-05,
      "loss": 0.8907,
      "step": 6871
    },
    {
      "epoch": 0.42186684674176617,
      "grad_norm": 0.717008568119723,
      "learning_rate": 1.2970795534363162e-05,
      "loss": 0.8765,
      "step": 6872
    },
    {
      "epoch": 0.42192823598023266,
      "grad_norm": 0.7172869760389765,
      "learning_rate": 1.2968896894430546e-05,
      "loss": 0.8702,
      "step": 6873
    },
    {
      "epoch": 0.42198962521869915,
      "grad_norm": 0.7370301755448446,
      "learning_rate": 1.2966998137121553e-05,
      "loss": 0.844,
      "step": 6874
    },
    {
      "epoch": 0.42205101445716564,
      "grad_norm": 0.7662669055896454,
      "learning_rate": 1.2965099262511256e-05,
      "loss": 0.9084,
      "step": 6875
    },
    {
      "epoch": 0.42211240369563213,
      "grad_norm": 0.7837317425840417,
      "learning_rate": 1.296320027067473e-05,
      "loss": 0.854,
      "step": 6876
    },
    {
      "epoch": 0.4221737929340987,
      "grad_norm": 0.7213068873699019,
      "learning_rate": 1.2961301161687045e-05,
      "loss": 0.8598,
      "step": 6877
    },
    {
      "epoch": 0.42223518217256517,
      "grad_norm": 0.7891980222895567,
      "learning_rate": 1.295940193562329e-05,
      "loss": 0.9109,
      "step": 6878
    },
    {
      "epoch": 0.42229657141103166,
      "grad_norm": 0.7664976848441155,
      "learning_rate": 1.2957502592558545e-05,
      "loss": 0.8745,
      "step": 6879
    },
    {
      "epoch": 0.42235796064949815,
      "grad_norm": 0.7755841986937987,
      "learning_rate": 1.2955603132567909e-05,
      "loss": 0.8724,
      "step": 6880
    },
    {
      "epoch": 0.42241934988796465,
      "grad_norm": 0.7677003980783549,
      "learning_rate": 1.2953703555726471e-05,
      "loss": 0.8861,
      "step": 6881
    },
    {
      "epoch": 0.42248073912643114,
      "grad_norm": 0.7050237212716622,
      "learning_rate": 1.2951803862109336e-05,
      "loss": 0.8583,
      "step": 6882
    },
    {
      "epoch": 0.42254212836489763,
      "grad_norm": 0.7693221781231093,
      "learning_rate": 1.2949904051791605e-05,
      "loss": 0.8647,
      "step": 6883
    },
    {
      "epoch": 0.4226035176033641,
      "grad_norm": 0.7987259836807022,
      "learning_rate": 1.294800412484839e-05,
      "loss": 0.916,
      "step": 6884
    },
    {
      "epoch": 0.4226649068418306,
      "grad_norm": 0.7522453502166255,
      "learning_rate": 1.2946104081354805e-05,
      "loss": 0.9001,
      "step": 6885
    },
    {
      "epoch": 0.4227262960802971,
      "grad_norm": 0.7837991646564572,
      "learning_rate": 1.2944203921385969e-05,
      "loss": 0.9006,
      "step": 6886
    },
    {
      "epoch": 0.4227876853187636,
      "grad_norm": 0.6956295488792005,
      "learning_rate": 1.2942303645017005e-05,
      "loss": 0.8641,
      "step": 6887
    },
    {
      "epoch": 0.42284907455723014,
      "grad_norm": 0.7109653423685577,
      "learning_rate": 1.294040325232304e-05,
      "loss": 0.882,
      "step": 6888
    },
    {
      "epoch": 0.42291046379569663,
      "grad_norm": 0.7296958288842824,
      "learning_rate": 1.2938502743379212e-05,
      "loss": 0.9017,
      "step": 6889
    },
    {
      "epoch": 0.4229718530341631,
      "grad_norm": 0.7048352147148353,
      "learning_rate": 1.2936602118260651e-05,
      "loss": 0.8675,
      "step": 6890
    },
    {
      "epoch": 0.4230332422726296,
      "grad_norm": 0.6560434975257012,
      "learning_rate": 1.2934701377042503e-05,
      "loss": 0.8614,
      "step": 6891
    },
    {
      "epoch": 0.4230946315110961,
      "grad_norm": 0.6950972308864855,
      "learning_rate": 1.2932800519799912e-05,
      "loss": 0.87,
      "step": 6892
    },
    {
      "epoch": 0.4231560207495626,
      "grad_norm": 0.780228953139597,
      "learning_rate": 1.2930899546608034e-05,
      "loss": 0.9389,
      "step": 6893
    },
    {
      "epoch": 0.4232174099880291,
      "grad_norm": 0.7186227434803536,
      "learning_rate": 1.2928998457542021e-05,
      "loss": 0.944,
      "step": 6894
    },
    {
      "epoch": 0.4232787992264956,
      "grad_norm": 0.6561666556269993,
      "learning_rate": 1.292709725267703e-05,
      "loss": 0.863,
      "step": 6895
    },
    {
      "epoch": 0.4233401884649621,
      "grad_norm": 0.6287271030973868,
      "learning_rate": 1.2925195932088234e-05,
      "loss": 0.8683,
      "step": 6896
    },
    {
      "epoch": 0.42340157770342857,
      "grad_norm": 0.7596170833182553,
      "learning_rate": 1.2923294495850793e-05,
      "loss": 0.8681,
      "step": 6897
    },
    {
      "epoch": 0.42346296694189506,
      "grad_norm": 0.662061315931439,
      "learning_rate": 1.292139294403989e-05,
      "loss": 0.8992,
      "step": 6898
    },
    {
      "epoch": 0.4235243561803616,
      "grad_norm": 0.7206057969251097,
      "learning_rate": 1.2919491276730698e-05,
      "loss": 0.843,
      "step": 6899
    },
    {
      "epoch": 0.4235857454188281,
      "grad_norm": 0.7211127470337078,
      "learning_rate": 1.29175894939984e-05,
      "loss": 0.8634,
      "step": 6900
    },
    {
      "epoch": 0.4236471346572946,
      "grad_norm": 0.7268656910059414,
      "learning_rate": 1.2915687595918187e-05,
      "loss": 0.8892,
      "step": 6901
    },
    {
      "epoch": 0.4237085238957611,
      "grad_norm": 0.7400675925070134,
      "learning_rate": 1.2913785582565247e-05,
      "loss": 0.9074,
      "step": 6902
    },
    {
      "epoch": 0.42376991313422757,
      "grad_norm": 0.8007397803362816,
      "learning_rate": 1.291188345401478e-05,
      "loss": 0.8764,
      "step": 6903
    },
    {
      "epoch": 0.42383130237269406,
      "grad_norm": 0.7544159254198469,
      "learning_rate": 1.2909981210341984e-05,
      "loss": 0.8997,
      "step": 6904
    },
    {
      "epoch": 0.42389269161116055,
      "grad_norm": 0.7517292621150556,
      "learning_rate": 1.2908078851622071e-05,
      "loss": 0.8827,
      "step": 6905
    },
    {
      "epoch": 0.42395408084962705,
      "grad_norm": 0.7545520769829628,
      "learning_rate": 1.2906176377930244e-05,
      "loss": 0.8717,
      "step": 6906
    },
    {
      "epoch": 0.42401547008809354,
      "grad_norm": 0.7918023515901449,
      "learning_rate": 1.2904273789341722e-05,
      "loss": 0.8557,
      "step": 6907
    },
    {
      "epoch": 0.42407685932656003,
      "grad_norm": 0.7506847793391703,
      "learning_rate": 1.2902371085931726e-05,
      "loss": 0.9205,
      "step": 6908
    },
    {
      "epoch": 0.4241382485650266,
      "grad_norm": 0.7498662583595068,
      "learning_rate": 1.2900468267775477e-05,
      "loss": 0.8568,
      "step": 6909
    },
    {
      "epoch": 0.42419963780349307,
      "grad_norm": 0.7273628422405594,
      "learning_rate": 1.2898565334948203e-05,
      "loss": 0.8935,
      "step": 6910
    },
    {
      "epoch": 0.42426102704195956,
      "grad_norm": 0.7369378334246113,
      "learning_rate": 1.2896662287525142e-05,
      "loss": 0.8482,
      "step": 6911
    },
    {
      "epoch": 0.42432241628042605,
      "grad_norm": 0.7710068257292298,
      "learning_rate": 1.2894759125581527e-05,
      "loss": 0.9325,
      "step": 6912
    },
    {
      "epoch": 0.42438380551889254,
      "grad_norm": 0.8119867225058961,
      "learning_rate": 1.2892855849192602e-05,
      "loss": 0.8874,
      "step": 6913
    },
    {
      "epoch": 0.42444519475735903,
      "grad_norm": 0.7933870092347993,
      "learning_rate": 1.289095245843361e-05,
      "loss": 0.8672,
      "step": 6914
    },
    {
      "epoch": 0.4245065839958255,
      "grad_norm": 0.6900946468690968,
      "learning_rate": 1.2889048953379808e-05,
      "loss": 0.8665,
      "step": 6915
    },
    {
      "epoch": 0.424567973234292,
      "grad_norm": 0.7129448761007182,
      "learning_rate": 1.2887145334106448e-05,
      "loss": 0.8861,
      "step": 6916
    },
    {
      "epoch": 0.4246293624727585,
      "grad_norm": 0.714574939156331,
      "learning_rate": 1.2885241600688794e-05,
      "loss": 0.8874,
      "step": 6917
    },
    {
      "epoch": 0.424690751711225,
      "grad_norm": 0.7273153060231902,
      "learning_rate": 1.2883337753202105e-05,
      "loss": 0.8509,
      "step": 6918
    },
    {
      "epoch": 0.4247521409496915,
      "grad_norm": 0.7206465870337643,
      "learning_rate": 1.2881433791721655e-05,
      "loss": 0.9262,
      "step": 6919
    },
    {
      "epoch": 0.42481353018815804,
      "grad_norm": 0.805283075867477,
      "learning_rate": 1.2879529716322716e-05,
      "loss": 0.8902,
      "step": 6920
    },
    {
      "epoch": 0.42487491942662453,
      "grad_norm": 0.756101233698977,
      "learning_rate": 1.2877625527080568e-05,
      "loss": 0.9073,
      "step": 6921
    },
    {
      "epoch": 0.424936308665091,
      "grad_norm": 0.6903881405579597,
      "learning_rate": 1.287572122407049e-05,
      "loss": 0.8267,
      "step": 6922
    },
    {
      "epoch": 0.4249976979035575,
      "grad_norm": 0.7507964158386202,
      "learning_rate": 1.2873816807367772e-05,
      "loss": 0.8498,
      "step": 6923
    },
    {
      "epoch": 0.425059087142024,
      "grad_norm": 0.7819468127842171,
      "learning_rate": 1.2871912277047707e-05,
      "loss": 0.9233,
      "step": 6924
    },
    {
      "epoch": 0.4251204763804905,
      "grad_norm": 0.6734711317394033,
      "learning_rate": 1.2870007633185588e-05,
      "loss": 0.8597,
      "step": 6925
    },
    {
      "epoch": 0.425181865618957,
      "grad_norm": 0.7236795423340407,
      "learning_rate": 1.2868102875856718e-05,
      "loss": 0.8518,
      "step": 6926
    },
    {
      "epoch": 0.4252432548574235,
      "grad_norm": 0.7538837035216421,
      "learning_rate": 1.28661980051364e-05,
      "loss": 0.8898,
      "step": 6927
    },
    {
      "epoch": 0.42530464409588997,
      "grad_norm": 0.788672734792815,
      "learning_rate": 1.2864293021099949e-05,
      "loss": 0.9114,
      "step": 6928
    },
    {
      "epoch": 0.42536603333435646,
      "grad_norm": 0.7412460270703445,
      "learning_rate": 1.2862387923822672e-05,
      "loss": 0.8149,
      "step": 6929
    },
    {
      "epoch": 0.425427422572823,
      "grad_norm": 0.7522056259403099,
      "learning_rate": 1.2860482713379892e-05,
      "loss": 0.8945,
      "step": 6930
    },
    {
      "epoch": 0.4254888118112895,
      "grad_norm": 0.6319648168081701,
      "learning_rate": 1.2858577389846934e-05,
      "loss": 0.8353,
      "step": 6931
    },
    {
      "epoch": 0.425550201049756,
      "grad_norm": 0.6812078679026039,
      "learning_rate": 1.2856671953299118e-05,
      "loss": 0.8535,
      "step": 6932
    },
    {
      "epoch": 0.4256115902882225,
      "grad_norm": 0.7223004911105851,
      "learning_rate": 1.2854766403811787e-05,
      "loss": 0.8717,
      "step": 6933
    },
    {
      "epoch": 0.425672979526689,
      "grad_norm": 0.7182643131102647,
      "learning_rate": 1.2852860741460268e-05,
      "loss": 0.8902,
      "step": 6934
    },
    {
      "epoch": 0.42573436876515547,
      "grad_norm": 0.8071345296130894,
      "learning_rate": 1.2850954966319908e-05,
      "loss": 0.979,
      "step": 6935
    },
    {
      "epoch": 0.42579575800362196,
      "grad_norm": 0.7136480068474798,
      "learning_rate": 1.2849049078466047e-05,
      "loss": 0.867,
      "step": 6936
    },
    {
      "epoch": 0.42585714724208845,
      "grad_norm": 0.6838428494039079,
      "learning_rate": 1.284714307797404e-05,
      "loss": 0.8231,
      "step": 6937
    },
    {
      "epoch": 0.42591853648055494,
      "grad_norm": 0.7133815901632751,
      "learning_rate": 1.284523696491924e-05,
      "loss": 0.9101,
      "step": 6938
    },
    {
      "epoch": 0.42597992571902143,
      "grad_norm": 0.7481165852872917,
      "learning_rate": 1.2843330739377003e-05,
      "loss": 0.9284,
      "step": 6939
    },
    {
      "epoch": 0.4260413149574879,
      "grad_norm": 0.7487876007649696,
      "learning_rate": 1.28414244014227e-05,
      "loss": 0.8752,
      "step": 6940
    },
    {
      "epoch": 0.4261027041959545,
      "grad_norm": 0.7548838498274344,
      "learning_rate": 1.2839517951131688e-05,
      "loss": 0.9087,
      "step": 6941
    },
    {
      "epoch": 0.42616409343442097,
      "grad_norm": 0.7323870879755603,
      "learning_rate": 1.2837611388579345e-05,
      "loss": 0.878,
      "step": 6942
    },
    {
      "epoch": 0.42622548267288746,
      "grad_norm": 0.7799916812456139,
      "learning_rate": 1.2835704713841049e-05,
      "loss": 0.8652,
      "step": 6943
    },
    {
      "epoch": 0.42628687191135395,
      "grad_norm": 0.7205156100765883,
      "learning_rate": 1.2833797926992179e-05,
      "loss": 0.8596,
      "step": 6944
    },
    {
      "epoch": 0.42634826114982044,
      "grad_norm": 0.7097179830389012,
      "learning_rate": 1.2831891028108121e-05,
      "loss": 0.8816,
      "step": 6945
    },
    {
      "epoch": 0.42640965038828693,
      "grad_norm": 0.8177000510796292,
      "learning_rate": 1.2829984017264263e-05,
      "loss": 0.9092,
      "step": 6946
    },
    {
      "epoch": 0.4264710396267534,
      "grad_norm": 0.7706663291571034,
      "learning_rate": 1.2828076894536003e-05,
      "loss": 0.9236,
      "step": 6947
    },
    {
      "epoch": 0.4265324288652199,
      "grad_norm": 0.7841891500153448,
      "learning_rate": 1.2826169659998738e-05,
      "loss": 0.9294,
      "step": 6948
    },
    {
      "epoch": 0.4265938181036864,
      "grad_norm": 0.7296372186405177,
      "learning_rate": 1.2824262313727869e-05,
      "loss": 0.8915,
      "step": 6949
    },
    {
      "epoch": 0.4266552073421529,
      "grad_norm": 0.7343972504024049,
      "learning_rate": 1.2822354855798808e-05,
      "loss": 0.9176,
      "step": 6950
    },
    {
      "epoch": 0.42671659658061944,
      "grad_norm": 0.7794370966354385,
      "learning_rate": 1.2820447286286964e-05,
      "loss": 0.8899,
      "step": 6951
    },
    {
      "epoch": 0.42677798581908594,
      "grad_norm": 0.7547838435435891,
      "learning_rate": 1.281853960526775e-05,
      "loss": 0.8509,
      "step": 6952
    },
    {
      "epoch": 0.42683937505755243,
      "grad_norm": 0.8009915362270446,
      "learning_rate": 1.2816631812816594e-05,
      "loss": 0.8775,
      "step": 6953
    },
    {
      "epoch": 0.4269007642960189,
      "grad_norm": 0.7635590264666224,
      "learning_rate": 1.2814723909008917e-05,
      "loss": 0.9082,
      "step": 6954
    },
    {
      "epoch": 0.4269621535344854,
      "grad_norm": 0.7332586759142904,
      "learning_rate": 1.2812815893920153e-05,
      "loss": 0.8594,
      "step": 6955
    },
    {
      "epoch": 0.4270235427729519,
      "grad_norm": 0.7836626944210632,
      "learning_rate": 1.2810907767625728e-05,
      "loss": 0.8702,
      "step": 6956
    },
    {
      "epoch": 0.4270849320114184,
      "grad_norm": 0.7999883923647289,
      "learning_rate": 1.2808999530201088e-05,
      "loss": 0.9554,
      "step": 6957
    },
    {
      "epoch": 0.4271463212498849,
      "grad_norm": 0.7641110787726864,
      "learning_rate": 1.2807091181721674e-05,
      "loss": 0.8651,
      "step": 6958
    },
    {
      "epoch": 0.4272077104883514,
      "grad_norm": 0.7841103242612526,
      "learning_rate": 1.2805182722262927e-05,
      "loss": 0.8649,
      "step": 6959
    },
    {
      "epoch": 0.42726909972681787,
      "grad_norm": 0.7519311778616102,
      "learning_rate": 1.2803274151900311e-05,
      "loss": 0.878,
      "step": 6960
    },
    {
      "epoch": 0.42733048896528436,
      "grad_norm": 0.7651258933156463,
      "learning_rate": 1.280136547070927e-05,
      "loss": 0.8679,
      "step": 6961
    },
    {
      "epoch": 0.4273918782037509,
      "grad_norm": 0.7550682624766207,
      "learning_rate": 1.279945667876527e-05,
      "loss": 0.9361,
      "step": 6962
    },
    {
      "epoch": 0.4274532674422174,
      "grad_norm": 0.7094634816580495,
      "learning_rate": 1.2797547776143775e-05,
      "loss": 0.919,
      "step": 6963
    },
    {
      "epoch": 0.4275146566806839,
      "grad_norm": 0.6923999174037232,
      "learning_rate": 1.2795638762920254e-05,
      "loss": 0.8496,
      "step": 6964
    },
    {
      "epoch": 0.4275760459191504,
      "grad_norm": 0.6783770267166522,
      "learning_rate": 1.2793729639170183e-05,
      "loss": 0.8426,
      "step": 6965
    },
    {
      "epoch": 0.4276374351576169,
      "grad_norm": 0.7724970346722843,
      "learning_rate": 1.2791820404969034e-05,
      "loss": 0.8806,
      "step": 6966
    },
    {
      "epoch": 0.42769882439608337,
      "grad_norm": 0.7043274161677018,
      "learning_rate": 1.2789911060392295e-05,
      "loss": 0.9134,
      "step": 6967
    },
    {
      "epoch": 0.42776021363454986,
      "grad_norm": 0.7606903700866241,
      "learning_rate": 1.2788001605515448e-05,
      "loss": 0.9354,
      "step": 6968
    },
    {
      "epoch": 0.42782160287301635,
      "grad_norm": 0.7384869787201493,
      "learning_rate": 1.278609204041399e-05,
      "loss": 0.8062,
      "step": 6969
    },
    {
      "epoch": 0.42788299211148284,
      "grad_norm": 0.7160895547199292,
      "learning_rate": 1.278418236516341e-05,
      "loss": 0.8855,
      "step": 6970
    },
    {
      "epoch": 0.42794438134994933,
      "grad_norm": 0.7344821158308048,
      "learning_rate": 1.2782272579839207e-05,
      "loss": 0.8617,
      "step": 6971
    },
    {
      "epoch": 0.4280057705884158,
      "grad_norm": 0.7237022227642786,
      "learning_rate": 1.2780362684516894e-05,
      "loss": 0.909,
      "step": 6972
    },
    {
      "epoch": 0.42806715982688237,
      "grad_norm": 0.617448725282354,
      "learning_rate": 1.2778452679271972e-05,
      "loss": 0.7348,
      "step": 6973
    },
    {
      "epoch": 0.42812854906534886,
      "grad_norm": 0.7783345618015062,
      "learning_rate": 1.2776542564179952e-05,
      "loss": 0.8844,
      "step": 6974
    },
    {
      "epoch": 0.42818993830381535,
      "grad_norm": 0.7777808373691033,
      "learning_rate": 1.277463233931636e-05,
      "loss": 0.8851,
      "step": 6975
    },
    {
      "epoch": 0.42825132754228185,
      "grad_norm": 0.7962605829670172,
      "learning_rate": 1.2772722004756707e-05,
      "loss": 0.8687,
      "step": 6976
    },
    {
      "epoch": 0.42831271678074834,
      "grad_norm": 0.781319331880626,
      "learning_rate": 1.2770811560576526e-05,
      "loss": 0.8663,
      "step": 6977
    },
    {
      "epoch": 0.42837410601921483,
      "grad_norm": 0.717243233281571,
      "learning_rate": 1.2768901006851345e-05,
      "loss": 0.8761,
      "step": 6978
    },
    {
      "epoch": 0.4284354952576813,
      "grad_norm": 0.7471328225300604,
      "learning_rate": 1.2766990343656695e-05,
      "loss": 0.8645,
      "step": 6979
    },
    {
      "epoch": 0.4284968844961478,
      "grad_norm": 0.7925417450058334,
      "learning_rate": 1.2765079571068122e-05,
      "loss": 0.8912,
      "step": 6980
    },
    {
      "epoch": 0.4285582737346143,
      "grad_norm": 0.7130185417327267,
      "learning_rate": 1.2763168689161164e-05,
      "loss": 0.869,
      "step": 6981
    },
    {
      "epoch": 0.4286196629730808,
      "grad_norm": 0.7654960123994887,
      "learning_rate": 1.2761257698011366e-05,
      "loss": 0.8516,
      "step": 6982
    },
    {
      "epoch": 0.42868105221154734,
      "grad_norm": 0.6240852986687184,
      "learning_rate": 1.2759346597694287e-05,
      "loss": 0.7498,
      "step": 6983
    },
    {
      "epoch": 0.42874244145001383,
      "grad_norm": 0.7643873878665185,
      "learning_rate": 1.2757435388285475e-05,
      "loss": 0.937,
      "step": 6984
    },
    {
      "epoch": 0.4288038306884803,
      "grad_norm": 0.7776178675373264,
      "learning_rate": 1.2755524069860497e-05,
      "loss": 0.8703,
      "step": 6985
    },
    {
      "epoch": 0.4288652199269468,
      "grad_norm": 0.8168437341208841,
      "learning_rate": 1.2753612642494915e-05,
      "loss": 0.9497,
      "step": 6986
    },
    {
      "epoch": 0.4289266091654133,
      "grad_norm": 0.6937160904246051,
      "learning_rate": 1.2751701106264298e-05,
      "loss": 0.8097,
      "step": 6987
    },
    {
      "epoch": 0.4289879984038798,
      "grad_norm": 0.6783492857204596,
      "learning_rate": 1.274978946124422e-05,
      "loss": 0.8812,
      "step": 6988
    },
    {
      "epoch": 0.4290493876423463,
      "grad_norm": 0.7340400852771184,
      "learning_rate": 1.2747877707510252e-05,
      "loss": 0.9228,
      "step": 6989
    },
    {
      "epoch": 0.4291107768808128,
      "grad_norm": 0.772914095078318,
      "learning_rate": 1.274596584513799e-05,
      "loss": 0.8666,
      "step": 6990
    },
    {
      "epoch": 0.4291721661192793,
      "grad_norm": 0.7938295974776846,
      "learning_rate": 1.2744053874203007e-05,
      "loss": 0.9118,
      "step": 6991
    },
    {
      "epoch": 0.42923355535774577,
      "grad_norm": 0.6956306870291815,
      "learning_rate": 1.27421417947809e-05,
      "loss": 0.8306,
      "step": 6992
    },
    {
      "epoch": 0.42929494459621226,
      "grad_norm": 0.7224014244673409,
      "learning_rate": 1.2740229606947257e-05,
      "loss": 0.8542,
      "step": 6993
    },
    {
      "epoch": 0.4293563338346788,
      "grad_norm": 0.7522014243688924,
      "learning_rate": 1.2738317310777685e-05,
      "loss": 0.937,
      "step": 6994
    },
    {
      "epoch": 0.4294177230731453,
      "grad_norm": 0.7729404540756021,
      "learning_rate": 1.2736404906347786e-05,
      "loss": 0.8791,
      "step": 6995
    },
    {
      "epoch": 0.4294791123116118,
      "grad_norm": 0.6755583450372863,
      "learning_rate": 1.2734492393733162e-05,
      "loss": 0.8366,
      "step": 6996
    },
    {
      "epoch": 0.4295405015500783,
      "grad_norm": 0.7420817130930305,
      "learning_rate": 1.2732579773009432e-05,
      "loss": 0.8811,
      "step": 6997
    },
    {
      "epoch": 0.42960189078854477,
      "grad_norm": 0.7787246774989737,
      "learning_rate": 1.2730667044252208e-05,
      "loss": 0.9062,
      "step": 6998
    },
    {
      "epoch": 0.42966328002701126,
      "grad_norm": 0.7725826903458841,
      "learning_rate": 1.272875420753711e-05,
      "loss": 0.8754,
      "step": 6999
    },
    {
      "epoch": 0.42972466926547775,
      "grad_norm": 0.8414781017954572,
      "learning_rate": 1.2726841262939764e-05,
      "loss": 0.8788,
      "step": 7000
    },
    {
      "epoch": 0.42978605850394425,
      "grad_norm": 0.7520142848766087,
      "learning_rate": 1.2724928210535801e-05,
      "loss": 0.8872,
      "step": 7001
    },
    {
      "epoch": 0.42984744774241074,
      "grad_norm": 0.813764944560775,
      "learning_rate": 1.2723015050400848e-05,
      "loss": 0.9334,
      "step": 7002
    },
    {
      "epoch": 0.42990883698087723,
      "grad_norm": 0.7915290800795369,
      "learning_rate": 1.2721101782610547e-05,
      "loss": 0.9562,
      "step": 7003
    },
    {
      "epoch": 0.4299702262193438,
      "grad_norm": 0.7024690166205453,
      "learning_rate": 1.2719188407240543e-05,
      "loss": 0.8933,
      "step": 7004
    },
    {
      "epoch": 0.43003161545781027,
      "grad_norm": 0.7505933415308873,
      "learning_rate": 1.2717274924366474e-05,
      "loss": 0.863,
      "step": 7005
    },
    {
      "epoch": 0.43009300469627676,
      "grad_norm": 0.6923842971248719,
      "learning_rate": 1.2715361334063996e-05,
      "loss": 0.847,
      "step": 7006
    },
    {
      "epoch": 0.43015439393474325,
      "grad_norm": 0.7333900848611234,
      "learning_rate": 1.271344763640876e-05,
      "loss": 0.888,
      "step": 7007
    },
    {
      "epoch": 0.43021578317320974,
      "grad_norm": 0.814771973959688,
      "learning_rate": 1.2711533831476429e-05,
      "loss": 0.7924,
      "step": 7008
    },
    {
      "epoch": 0.43027717241167623,
      "grad_norm": 0.6865344685527571,
      "learning_rate": 1.2709619919342662e-05,
      "loss": 0.8983,
      "step": 7009
    },
    {
      "epoch": 0.4303385616501427,
      "grad_norm": 0.7508163391974119,
      "learning_rate": 1.2707705900083128e-05,
      "loss": 0.8991,
      "step": 7010
    },
    {
      "epoch": 0.4303999508886092,
      "grad_norm": 0.8528209447280927,
      "learning_rate": 1.2705791773773494e-05,
      "loss": 0.9214,
      "step": 7011
    },
    {
      "epoch": 0.4304613401270757,
      "grad_norm": 0.7949164153493772,
      "learning_rate": 1.2703877540489444e-05,
      "loss": 0.893,
      "step": 7012
    },
    {
      "epoch": 0.4305227293655422,
      "grad_norm": 0.7242919374390104,
      "learning_rate": 1.2701963200306655e-05,
      "loss": 0.8957,
      "step": 7013
    },
    {
      "epoch": 0.4305841186040087,
      "grad_norm": 0.7424949244081036,
      "learning_rate": 1.2700048753300806e-05,
      "loss": 0.9126,
      "step": 7014
    },
    {
      "epoch": 0.43064550784247524,
      "grad_norm": 0.7639924427849835,
      "learning_rate": 1.2698134199547592e-05,
      "loss": 0.8891,
      "step": 7015
    },
    {
      "epoch": 0.43070689708094173,
      "grad_norm": 0.7725137152256494,
      "learning_rate": 1.2696219539122696e-05,
      "loss": 0.8794,
      "step": 7016
    },
    {
      "epoch": 0.4307682863194082,
      "grad_norm": 0.7187227088846916,
      "learning_rate": 1.2694304772101827e-05,
      "loss": 0.8864,
      "step": 7017
    },
    {
      "epoch": 0.4308296755578747,
      "grad_norm": 0.6759679083428459,
      "learning_rate": 1.269238989856068e-05,
      "loss": 0.8643,
      "step": 7018
    },
    {
      "epoch": 0.4308910647963412,
      "grad_norm": 0.7486547784195171,
      "learning_rate": 1.2690474918574958e-05,
      "loss": 0.8474,
      "step": 7019
    },
    {
      "epoch": 0.4309524540348077,
      "grad_norm": 0.7656289286699117,
      "learning_rate": 1.2688559832220376e-05,
      "loss": 0.9081,
      "step": 7020
    },
    {
      "epoch": 0.4310138432732742,
      "grad_norm": 0.6622089617476199,
      "learning_rate": 1.268664463957264e-05,
      "loss": 0.8352,
      "step": 7021
    },
    {
      "epoch": 0.4310752325117407,
      "grad_norm": 0.7590404209910463,
      "learning_rate": 1.2684729340707475e-05,
      "loss": 0.8552,
      "step": 7022
    },
    {
      "epoch": 0.43113662175020717,
      "grad_norm": 0.6513481456558023,
      "learning_rate": 1.2682813935700599e-05,
      "loss": 0.856,
      "step": 7023
    },
    {
      "epoch": 0.43119801098867366,
      "grad_norm": 0.6884288100396017,
      "learning_rate": 1.268089842462774e-05,
      "loss": 0.8442,
      "step": 7024
    },
    {
      "epoch": 0.43125940022714015,
      "grad_norm": 0.6043235548940971,
      "learning_rate": 1.267898280756463e-05,
      "loss": 0.8431,
      "step": 7025
    },
    {
      "epoch": 0.4313207894656067,
      "grad_norm": 0.8076664678069215,
      "learning_rate": 1.2677067084587e-05,
      "loss": 0.9316,
      "step": 7026
    },
    {
      "epoch": 0.4313821787040732,
      "grad_norm": 0.6983269630197686,
      "learning_rate": 1.267515125577059e-05,
      "loss": 0.9233,
      "step": 7027
    },
    {
      "epoch": 0.4314435679425397,
      "grad_norm": 0.7388426729655373,
      "learning_rate": 1.2673235321191141e-05,
      "loss": 0.8971,
      "step": 7028
    },
    {
      "epoch": 0.4315049571810062,
      "grad_norm": 0.7724053619805166,
      "learning_rate": 1.2671319280924408e-05,
      "loss": 0.8415,
      "step": 7029
    },
    {
      "epoch": 0.43156634641947267,
      "grad_norm": 0.74254892375114,
      "learning_rate": 1.266940313504613e-05,
      "loss": 0.8646,
      "step": 7030
    },
    {
      "epoch": 0.43162773565793916,
      "grad_norm": 0.7278122062191779,
      "learning_rate": 1.2667486883632074e-05,
      "loss": 0.871,
      "step": 7031
    },
    {
      "epoch": 0.43168912489640565,
      "grad_norm": 0.7181785521466315,
      "learning_rate": 1.2665570526757992e-05,
      "loss": 0.8785,
      "step": 7032
    },
    {
      "epoch": 0.43175051413487214,
      "grad_norm": 0.7797181412913664,
      "learning_rate": 1.2663654064499651e-05,
      "loss": 0.8798,
      "step": 7033
    },
    {
      "epoch": 0.43181190337333863,
      "grad_norm": 0.7366403848281455,
      "learning_rate": 1.266173749693282e-05,
      "loss": 0.851,
      "step": 7034
    },
    {
      "epoch": 0.4318732926118051,
      "grad_norm": 0.7080950181748235,
      "learning_rate": 1.2659820824133266e-05,
      "loss": 0.8555,
      "step": 7035
    },
    {
      "epoch": 0.4319346818502717,
      "grad_norm": 0.6654237867262723,
      "learning_rate": 1.2657904046176774e-05,
      "loss": 0.8352,
      "step": 7036
    },
    {
      "epoch": 0.43199607108873816,
      "grad_norm": 0.8286391284626569,
      "learning_rate": 1.2655987163139116e-05,
      "loss": 0.9058,
      "step": 7037
    },
    {
      "epoch": 0.43205746032720466,
      "grad_norm": 0.71567759622674,
      "learning_rate": 1.265407017509608e-05,
      "loss": 0.8585,
      "step": 7038
    },
    {
      "epoch": 0.43211884956567115,
      "grad_norm": 0.7504411842834302,
      "learning_rate": 1.2652153082123458e-05,
      "loss": 0.8512,
      "step": 7039
    },
    {
      "epoch": 0.43218023880413764,
      "grad_norm": 0.7135827652957929,
      "learning_rate": 1.2650235884297039e-05,
      "loss": 0.9183,
      "step": 7040
    },
    {
      "epoch": 0.43224162804260413,
      "grad_norm": 0.7057405260422122,
      "learning_rate": 1.264831858169262e-05,
      "loss": 0.9043,
      "step": 7041
    },
    {
      "epoch": 0.4323030172810706,
      "grad_norm": 0.7773601371288775,
      "learning_rate": 1.2646401174386002e-05,
      "loss": 0.8941,
      "step": 7042
    },
    {
      "epoch": 0.4323644065195371,
      "grad_norm": 0.7557613073344289,
      "learning_rate": 1.2644483662452993e-05,
      "loss": 0.8623,
      "step": 7043
    },
    {
      "epoch": 0.4324257957580036,
      "grad_norm": 0.721650556292204,
      "learning_rate": 1.2642566045969402e-05,
      "loss": 0.8777,
      "step": 7044
    },
    {
      "epoch": 0.4324871849964701,
      "grad_norm": 0.7622624277052922,
      "learning_rate": 1.2640648325011042e-05,
      "loss": 0.935,
      "step": 7045
    },
    {
      "epoch": 0.4325485742349366,
      "grad_norm": 0.7811072825687659,
      "learning_rate": 1.2638730499653731e-05,
      "loss": 0.9322,
      "step": 7046
    },
    {
      "epoch": 0.43260996347340314,
      "grad_norm": 0.7043856172142853,
      "learning_rate": 1.2636812569973288e-05,
      "loss": 0.8388,
      "step": 7047
    },
    {
      "epoch": 0.43267135271186963,
      "grad_norm": 0.6643955256454636,
      "learning_rate": 1.2634894536045543e-05,
      "loss": 0.8501,
      "step": 7048
    },
    {
      "epoch": 0.4327327419503361,
      "grad_norm": 0.7292327798103845,
      "learning_rate": 1.2632976397946325e-05,
      "loss": 0.9149,
      "step": 7049
    },
    {
      "epoch": 0.4327941311888026,
      "grad_norm": 0.7142886001930181,
      "learning_rate": 1.2631058155751465e-05,
      "loss": 0.8625,
      "step": 7050
    },
    {
      "epoch": 0.4328555204272691,
      "grad_norm": 0.7601743108302872,
      "learning_rate": 1.2629139809536809e-05,
      "loss": 0.8876,
      "step": 7051
    },
    {
      "epoch": 0.4329169096657356,
      "grad_norm": 0.7563692703682953,
      "learning_rate": 1.2627221359378193e-05,
      "loss": 0.8834,
      "step": 7052
    },
    {
      "epoch": 0.4329782989042021,
      "grad_norm": 0.751150099288631,
      "learning_rate": 1.262530280535146e-05,
      "loss": 0.8579,
      "step": 7053
    },
    {
      "epoch": 0.4330396881426686,
      "grad_norm": 0.7676733660586631,
      "learning_rate": 1.2623384147532473e-05,
      "loss": 0.8665,
      "step": 7054
    },
    {
      "epoch": 0.43310107738113507,
      "grad_norm": 0.7661225841149719,
      "learning_rate": 1.2621465385997077e-05,
      "loss": 0.9112,
      "step": 7055
    },
    {
      "epoch": 0.43316246661960156,
      "grad_norm": 0.7149488316548618,
      "learning_rate": 1.2619546520821133e-05,
      "loss": 0.899,
      "step": 7056
    },
    {
      "epoch": 0.4332238558580681,
      "grad_norm": 0.7993074245457422,
      "learning_rate": 1.2617627552080506e-05,
      "loss": 0.921,
      "step": 7057
    },
    {
      "epoch": 0.4332852450965346,
      "grad_norm": 0.689196244359375,
      "learning_rate": 1.2615708479851062e-05,
      "loss": 0.8439,
      "step": 7058
    },
    {
      "epoch": 0.4333466343350011,
      "grad_norm": 0.7894244167760037,
      "learning_rate": 1.2613789304208672e-05,
      "loss": 0.8644,
      "step": 7059
    },
    {
      "epoch": 0.4334080235734676,
      "grad_norm": 0.7560466648458651,
      "learning_rate": 1.261187002522921e-05,
      "loss": 0.8823,
      "step": 7060
    },
    {
      "epoch": 0.4334694128119341,
      "grad_norm": 0.7008735924810273,
      "learning_rate": 1.2609950642988558e-05,
      "loss": 0.8318,
      "step": 7061
    },
    {
      "epoch": 0.43353080205040057,
      "grad_norm": 0.7434764424239898,
      "learning_rate": 1.2608031157562594e-05,
      "loss": 0.8461,
      "step": 7062
    },
    {
      "epoch": 0.43359219128886706,
      "grad_norm": 0.744888103579301,
      "learning_rate": 1.2606111569027215e-05,
      "loss": 0.8845,
      "step": 7063
    },
    {
      "epoch": 0.43365358052733355,
      "grad_norm": 0.596401577284888,
      "learning_rate": 1.2604191877458307e-05,
      "loss": 0.7944,
      "step": 7064
    },
    {
      "epoch": 0.43371496976580004,
      "grad_norm": 0.6460495810917938,
      "learning_rate": 1.2602272082931764e-05,
      "loss": 0.8405,
      "step": 7065
    },
    {
      "epoch": 0.43377635900426653,
      "grad_norm": 0.7083104267137342,
      "learning_rate": 1.2600352185523488e-05,
      "loss": 0.8315,
      "step": 7066
    },
    {
      "epoch": 0.433837748242733,
      "grad_norm": 0.8238598720687513,
      "learning_rate": 1.259843218530938e-05,
      "loss": 0.8835,
      "step": 7067
    },
    {
      "epoch": 0.43389913748119957,
      "grad_norm": 0.735579747229532,
      "learning_rate": 1.2596512082365355e-05,
      "loss": 0.9043,
      "step": 7068
    },
    {
      "epoch": 0.43396052671966606,
      "grad_norm": 0.7106428560649191,
      "learning_rate": 1.2594591876767317e-05,
      "loss": 0.8653,
      "step": 7069
    },
    {
      "epoch": 0.43402191595813255,
      "grad_norm": 0.69708364727953,
      "learning_rate": 1.2592671568591186e-05,
      "loss": 0.8588,
      "step": 7070
    },
    {
      "epoch": 0.43408330519659905,
      "grad_norm": 0.7502894147932939,
      "learning_rate": 1.259075115791288e-05,
      "loss": 0.9214,
      "step": 7071
    },
    {
      "epoch": 0.43414469443506554,
      "grad_norm": 0.8131626472177729,
      "learning_rate": 1.2588830644808328e-05,
      "loss": 0.8797,
      "step": 7072
    },
    {
      "epoch": 0.43420608367353203,
      "grad_norm": 0.7433024325118234,
      "learning_rate": 1.2586910029353451e-05,
      "loss": 0.869,
      "step": 7073
    },
    {
      "epoch": 0.4342674729119985,
      "grad_norm": 0.7413039238253887,
      "learning_rate": 1.2584989311624186e-05,
      "loss": 0.8879,
      "step": 7074
    },
    {
      "epoch": 0.434328862150465,
      "grad_norm": 0.6883465685150817,
      "learning_rate": 1.2583068491696467e-05,
      "loss": 0.8423,
      "step": 7075
    },
    {
      "epoch": 0.4343902513889315,
      "grad_norm": 0.6907636825566899,
      "learning_rate": 1.2581147569646238e-05,
      "loss": 0.8948,
      "step": 7076
    },
    {
      "epoch": 0.434451640627398,
      "grad_norm": 0.751909895863401,
      "learning_rate": 1.257922654554944e-05,
      "loss": 0.897,
      "step": 7077
    },
    {
      "epoch": 0.4345130298658645,
      "grad_norm": 0.7241080510755477,
      "learning_rate": 1.257730541948202e-05,
      "loss": 0.9094,
      "step": 7078
    },
    {
      "epoch": 0.43457441910433103,
      "grad_norm": 0.7292833492423187,
      "learning_rate": 1.2575384191519932e-05,
      "loss": 0.8626,
      "step": 7079
    },
    {
      "epoch": 0.4346358083427975,
      "grad_norm": 0.6606395541618684,
      "learning_rate": 1.2573462861739133e-05,
      "loss": 0.9126,
      "step": 7080
    },
    {
      "epoch": 0.434697197581264,
      "grad_norm": 0.6671188687657598,
      "learning_rate": 1.2571541430215586e-05,
      "loss": 0.8547,
      "step": 7081
    },
    {
      "epoch": 0.4347585868197305,
      "grad_norm": 0.7265290631866569,
      "learning_rate": 1.2569619897025251e-05,
      "loss": 0.8798,
      "step": 7082
    },
    {
      "epoch": 0.434819976058197,
      "grad_norm": 0.760862796284897,
      "learning_rate": 1.2567698262244099e-05,
      "loss": 0.9138,
      "step": 7083
    },
    {
      "epoch": 0.4348813652966635,
      "grad_norm": 0.823856267446226,
      "learning_rate": 1.2565776525948102e-05,
      "loss": 0.8893,
      "step": 7084
    },
    {
      "epoch": 0.43494275453513,
      "grad_norm": 0.7430359933487332,
      "learning_rate": 1.256385468821323e-05,
      "loss": 0.8868,
      "step": 7085
    },
    {
      "epoch": 0.4350041437735965,
      "grad_norm": 0.8537206948118895,
      "learning_rate": 1.256193274911548e-05,
      "loss": 0.9013,
      "step": 7086
    },
    {
      "epoch": 0.43506553301206297,
      "grad_norm": 0.799373527853148,
      "learning_rate": 1.256001070873082e-05,
      "loss": 0.8526,
      "step": 7087
    },
    {
      "epoch": 0.43512692225052946,
      "grad_norm": 0.7928219879718162,
      "learning_rate": 1.2558088567135245e-05,
      "loss": 0.8692,
      "step": 7088
    },
    {
      "epoch": 0.435188311488996,
      "grad_norm": 0.6663563532122118,
      "learning_rate": 1.2556166324404747e-05,
      "loss": 0.8598,
      "step": 7089
    },
    {
      "epoch": 0.4352497007274625,
      "grad_norm": 0.7446184993574544,
      "learning_rate": 1.2554243980615325e-05,
      "loss": 0.8764,
      "step": 7090
    },
    {
      "epoch": 0.435311089965929,
      "grad_norm": 0.8105528877398489,
      "learning_rate": 1.2552321535842977e-05,
      "loss": 0.8726,
      "step": 7091
    },
    {
      "epoch": 0.4353724792043955,
      "grad_norm": 0.6948242673716675,
      "learning_rate": 1.2550398990163706e-05,
      "loss": 0.9181,
      "step": 7092
    },
    {
      "epoch": 0.43543386844286197,
      "grad_norm": 0.7482026265478466,
      "learning_rate": 1.2548476343653526e-05,
      "loss": 0.8621,
      "step": 7093
    },
    {
      "epoch": 0.43549525768132846,
      "grad_norm": 0.7327176427290756,
      "learning_rate": 1.2546553596388442e-05,
      "loss": 0.8742,
      "step": 7094
    },
    {
      "epoch": 0.43555664691979495,
      "grad_norm": 0.7532406663374968,
      "learning_rate": 1.2544630748444477e-05,
      "loss": 0.8665,
      "step": 7095
    },
    {
      "epoch": 0.43561803615826145,
      "grad_norm": 0.7066448722236255,
      "learning_rate": 1.254270779989765e-05,
      "loss": 0.8747,
      "step": 7096
    },
    {
      "epoch": 0.43567942539672794,
      "grad_norm": 0.7321481188569058,
      "learning_rate": 1.254078475082398e-05,
      "loss": 0.8529,
      "step": 7097
    },
    {
      "epoch": 0.43574081463519443,
      "grad_norm": 0.7823522345790692,
      "learning_rate": 1.2538861601299504e-05,
      "loss": 0.8463,
      "step": 7098
    },
    {
      "epoch": 0.4358022038736609,
      "grad_norm": 0.8042768174425668,
      "learning_rate": 1.2536938351400245e-05,
      "loss": 0.8473,
      "step": 7099
    },
    {
      "epoch": 0.43586359311212747,
      "grad_norm": 0.7010012187658159,
      "learning_rate": 1.253501500120225e-05,
      "loss": 0.8443,
      "step": 7100
    },
    {
      "epoch": 0.43592498235059396,
      "grad_norm": 0.6946798435540271,
      "learning_rate": 1.2533091550781552e-05,
      "loss": 0.8422,
      "step": 7101
    },
    {
      "epoch": 0.43598637158906045,
      "grad_norm": 0.7231391180765371,
      "learning_rate": 1.2531168000214196e-05,
      "loss": 0.8642,
      "step": 7102
    },
    {
      "epoch": 0.43604776082752694,
      "grad_norm": 0.706626301110484,
      "learning_rate": 1.252924434957623e-05,
      "loss": 0.8311,
      "step": 7103
    },
    {
      "epoch": 0.43610915006599343,
      "grad_norm": 0.7680234005439023,
      "learning_rate": 1.2527320598943711e-05,
      "loss": 0.9065,
      "step": 7104
    },
    {
      "epoch": 0.4361705393044599,
      "grad_norm": 0.7728836238022415,
      "learning_rate": 1.252539674839269e-05,
      "loss": 0.9185,
      "step": 7105
    },
    {
      "epoch": 0.4362319285429264,
      "grad_norm": 0.7814875461008807,
      "learning_rate": 1.2523472797999228e-05,
      "loss": 0.885,
      "step": 7106
    },
    {
      "epoch": 0.4362933177813929,
      "grad_norm": 0.762702345028829,
      "learning_rate": 1.2521548747839389e-05,
      "loss": 0.9076,
      "step": 7107
    },
    {
      "epoch": 0.4363547070198594,
      "grad_norm": 0.7697502398329993,
      "learning_rate": 1.2519624597989244e-05,
      "loss": 0.887,
      "step": 7108
    },
    {
      "epoch": 0.4364160962583259,
      "grad_norm": 0.7620930441477574,
      "learning_rate": 1.2517700348524864e-05,
      "loss": 0.8476,
      "step": 7109
    },
    {
      "epoch": 0.43647748549679244,
      "grad_norm": 0.7424078636182292,
      "learning_rate": 1.2515775999522322e-05,
      "loss": 0.8733,
      "step": 7110
    },
    {
      "epoch": 0.43653887473525893,
      "grad_norm": 0.7806408280165005,
      "learning_rate": 1.2513851551057699e-05,
      "loss": 0.9258,
      "step": 7111
    },
    {
      "epoch": 0.4366002639737254,
      "grad_norm": 0.8372638302638252,
      "learning_rate": 1.2511927003207077e-05,
      "loss": 0.9477,
      "step": 7112
    },
    {
      "epoch": 0.4366616532121919,
      "grad_norm": 0.7017332035542189,
      "learning_rate": 1.251000235604655e-05,
      "loss": 0.8709,
      "step": 7113
    },
    {
      "epoch": 0.4367230424506584,
      "grad_norm": 0.669626831434765,
      "learning_rate": 1.2508077609652203e-05,
      "loss": 0.8688,
      "step": 7114
    },
    {
      "epoch": 0.4367844316891249,
      "grad_norm": 0.7058551102545461,
      "learning_rate": 1.2506152764100135e-05,
      "loss": 0.8641,
      "step": 7115
    },
    {
      "epoch": 0.4368458209275914,
      "grad_norm": 0.7655945683640483,
      "learning_rate": 1.2504227819466443e-05,
      "loss": 0.8903,
      "step": 7116
    },
    {
      "epoch": 0.4369072101660579,
      "grad_norm": 0.6980046631030729,
      "learning_rate": 1.250230277582723e-05,
      "loss": 0.8949,
      "step": 7117
    },
    {
      "epoch": 0.43696859940452437,
      "grad_norm": 0.6809341787201874,
      "learning_rate": 1.2500377633258611e-05,
      "loss": 0.8288,
      "step": 7118
    },
    {
      "epoch": 0.43702998864299086,
      "grad_norm": 0.6433846567227434,
      "learning_rate": 1.2498452391836687e-05,
      "loss": 0.8193,
      "step": 7119
    },
    {
      "epoch": 0.43709137788145735,
      "grad_norm": 0.5942326209685385,
      "learning_rate": 1.2496527051637577e-05,
      "loss": 0.6878,
      "step": 7120
    },
    {
      "epoch": 0.4371527671199239,
      "grad_norm": 0.7784615034630232,
      "learning_rate": 1.2494601612737403e-05,
      "loss": 0.8739,
      "step": 7121
    },
    {
      "epoch": 0.4372141563583904,
      "grad_norm": 0.8072965598725953,
      "learning_rate": 1.2492676075212283e-05,
      "loss": 0.9182,
      "step": 7122
    },
    {
      "epoch": 0.4372755455968569,
      "grad_norm": 0.7331918011487564,
      "learning_rate": 1.2490750439138349e-05,
      "loss": 0.8961,
      "step": 7123
    },
    {
      "epoch": 0.4373369348353234,
      "grad_norm": 0.7029922976889681,
      "learning_rate": 1.2488824704591722e-05,
      "loss": 0.9159,
      "step": 7124
    },
    {
      "epoch": 0.43739832407378987,
      "grad_norm": 0.754968960900464,
      "learning_rate": 1.2486898871648552e-05,
      "loss": 0.8691,
      "step": 7125
    },
    {
      "epoch": 0.43745971331225636,
      "grad_norm": 0.6743907383248375,
      "learning_rate": 1.248497294038496e-05,
      "loss": 0.8798,
      "step": 7126
    },
    {
      "epoch": 0.43752110255072285,
      "grad_norm": 0.7377291568503432,
      "learning_rate": 1.2483046910877103e-05,
      "loss": 0.8849,
      "step": 7127
    },
    {
      "epoch": 0.43758249178918934,
      "grad_norm": 0.7202967124293125,
      "learning_rate": 1.248112078320112e-05,
      "loss": 0.8735,
      "step": 7128
    },
    {
      "epoch": 0.43764388102765583,
      "grad_norm": 0.7210468445215449,
      "learning_rate": 1.2479194557433163e-05,
      "loss": 0.8484,
      "step": 7129
    },
    {
      "epoch": 0.4377052702661223,
      "grad_norm": 0.6777811958882898,
      "learning_rate": 1.2477268233649384e-05,
      "loss": 0.8549,
      "step": 7130
    },
    {
      "epoch": 0.4377666595045889,
      "grad_norm": 0.8027714984072168,
      "learning_rate": 1.247534181192594e-05,
      "loss": 0.8874,
      "step": 7131
    },
    {
      "epoch": 0.43782804874305536,
      "grad_norm": 0.727122421090166,
      "learning_rate": 1.2473415292339001e-05,
      "loss": 0.878,
      "step": 7132
    },
    {
      "epoch": 0.43788943798152186,
      "grad_norm": 0.832825286071436,
      "learning_rate": 1.2471488674964722e-05,
      "loss": 0.9063,
      "step": 7133
    },
    {
      "epoch": 0.43795082721998835,
      "grad_norm": 0.7267698050380212,
      "learning_rate": 1.2469561959879281e-05,
      "loss": 0.8965,
      "step": 7134
    },
    {
      "epoch": 0.43801221645845484,
      "grad_norm": 0.7753642641610713,
      "learning_rate": 1.2467635147158845e-05,
      "loss": 0.8837,
      "step": 7135
    },
    {
      "epoch": 0.43807360569692133,
      "grad_norm": 0.7450903596816867,
      "learning_rate": 1.2465708236879594e-05,
      "loss": 0.8616,
      "step": 7136
    },
    {
      "epoch": 0.4381349949353878,
      "grad_norm": 0.7287592460624347,
      "learning_rate": 1.246378122911771e-05,
      "loss": 0.8344,
      "step": 7137
    },
    {
      "epoch": 0.4381963841738543,
      "grad_norm": 0.7351331506014034,
      "learning_rate": 1.2461854123949375e-05,
      "loss": 0.8981,
      "step": 7138
    },
    {
      "epoch": 0.4382577734123208,
      "grad_norm": 0.7255724776780086,
      "learning_rate": 1.245992692145078e-05,
      "loss": 0.8547,
      "step": 7139
    },
    {
      "epoch": 0.4383191626507873,
      "grad_norm": 0.7910951534075246,
      "learning_rate": 1.245799962169812e-05,
      "loss": 0.8827,
      "step": 7140
    },
    {
      "epoch": 0.4383805518892538,
      "grad_norm": 0.6931980594977897,
      "learning_rate": 1.2456072224767586e-05,
      "loss": 0.8142,
      "step": 7141
    },
    {
      "epoch": 0.43844194112772034,
      "grad_norm": 0.8612058312483086,
      "learning_rate": 1.2454144730735383e-05,
      "loss": 0.9072,
      "step": 7142
    },
    {
      "epoch": 0.4385033303661868,
      "grad_norm": 0.8067747474477329,
      "learning_rate": 1.245221713967771e-05,
      "loss": 0.8875,
      "step": 7143
    },
    {
      "epoch": 0.4385647196046533,
      "grad_norm": 0.6826291264139298,
      "learning_rate": 1.2450289451670778e-05,
      "loss": 0.8488,
      "step": 7144
    },
    {
      "epoch": 0.4386261088431198,
      "grad_norm": 0.6321151275124007,
      "learning_rate": 1.2448361666790803e-05,
      "loss": 0.7561,
      "step": 7145
    },
    {
      "epoch": 0.4386874980815863,
      "grad_norm": 0.75626495750955,
      "learning_rate": 1.2446433785113994e-05,
      "loss": 0.892,
      "step": 7146
    },
    {
      "epoch": 0.4387488873200528,
      "grad_norm": 0.8688004445488469,
      "learning_rate": 1.2444505806716572e-05,
      "loss": 0.9752,
      "step": 7147
    },
    {
      "epoch": 0.4388102765585193,
      "grad_norm": 0.6813723993014315,
      "learning_rate": 1.2442577731674763e-05,
      "loss": 0.8543,
      "step": 7148
    },
    {
      "epoch": 0.4388716657969858,
      "grad_norm": 0.7695556036734797,
      "learning_rate": 1.244064956006479e-05,
      "loss": 0.8963,
      "step": 7149
    },
    {
      "epoch": 0.43893305503545227,
      "grad_norm": 0.7809455745016682,
      "learning_rate": 1.2438721291962891e-05,
      "loss": 0.9056,
      "step": 7150
    },
    {
      "epoch": 0.43899444427391876,
      "grad_norm": 0.785090175787295,
      "learning_rate": 1.243679292744529e-05,
      "loss": 0.9592,
      "step": 7151
    },
    {
      "epoch": 0.43905583351238525,
      "grad_norm": 0.7681560117142373,
      "learning_rate": 1.2434864466588236e-05,
      "loss": 0.885,
      "step": 7152
    },
    {
      "epoch": 0.4391172227508518,
      "grad_norm": 0.7403584776620048,
      "learning_rate": 1.2432935909467968e-05,
      "loss": 0.866,
      "step": 7153
    },
    {
      "epoch": 0.4391786119893183,
      "grad_norm": 0.587864219472523,
      "learning_rate": 1.2431007256160728e-05,
      "loss": 0.7117,
      "step": 7154
    },
    {
      "epoch": 0.4392400012277848,
      "grad_norm": 0.7502974362661877,
      "learning_rate": 1.2429078506742774e-05,
      "loss": 0.923,
      "step": 7155
    },
    {
      "epoch": 0.4393013904662513,
      "grad_norm": 0.7360889073138663,
      "learning_rate": 1.2427149661290347e-05,
      "loss": 0.8657,
      "step": 7156
    },
    {
      "epoch": 0.43936277970471777,
      "grad_norm": 0.8302419694032771,
      "learning_rate": 1.2425220719879721e-05,
      "loss": 0.9028,
      "step": 7157
    },
    {
      "epoch": 0.43942416894318426,
      "grad_norm": 0.8285419222628422,
      "learning_rate": 1.2423291682587144e-05,
      "loss": 0.8866,
      "step": 7158
    },
    {
      "epoch": 0.43948555818165075,
      "grad_norm": 0.7844012295468583,
      "learning_rate": 1.2421362549488886e-05,
      "loss": 0.8592,
      "step": 7159
    },
    {
      "epoch": 0.43954694742011724,
      "grad_norm": 0.7956984998105747,
      "learning_rate": 1.2419433320661219e-05,
      "loss": 0.8664,
      "step": 7160
    },
    {
      "epoch": 0.43960833665858373,
      "grad_norm": 0.7123017092040306,
      "learning_rate": 1.2417503996180408e-05,
      "loss": 0.883,
      "step": 7161
    },
    {
      "epoch": 0.4396697258970502,
      "grad_norm": 0.7329748717127945,
      "learning_rate": 1.2415574576122741e-05,
      "loss": 0.8598,
      "step": 7162
    },
    {
      "epoch": 0.43973111513551677,
      "grad_norm": 0.6498649334804207,
      "learning_rate": 1.2413645060564486e-05,
      "loss": 0.8329,
      "step": 7163
    },
    {
      "epoch": 0.43979250437398326,
      "grad_norm": 0.7205012223479846,
      "learning_rate": 1.2411715449581938e-05,
      "loss": 0.8621,
      "step": 7164
    },
    {
      "epoch": 0.43985389361244975,
      "grad_norm": 0.7929419771191936,
      "learning_rate": 1.2409785743251375e-05,
      "loss": 0.8767,
      "step": 7165
    },
    {
      "epoch": 0.43991528285091624,
      "grad_norm": 0.648762232603684,
      "learning_rate": 1.2407855941649094e-05,
      "loss": 0.8552,
      "step": 7166
    },
    {
      "epoch": 0.43997667208938274,
      "grad_norm": 0.7077741284884224,
      "learning_rate": 1.240592604485139e-05,
      "loss": 0.851,
      "step": 7167
    },
    {
      "epoch": 0.44003806132784923,
      "grad_norm": 0.7537260617963666,
      "learning_rate": 1.2403996052934561e-05,
      "loss": 0.8341,
      "step": 7168
    },
    {
      "epoch": 0.4400994505663157,
      "grad_norm": 0.7467360983461735,
      "learning_rate": 1.2402065965974912e-05,
      "loss": 0.8268,
      "step": 7169
    },
    {
      "epoch": 0.4401608398047822,
      "grad_norm": 0.8135294741636848,
      "learning_rate": 1.2400135784048745e-05,
      "loss": 0.8889,
      "step": 7170
    },
    {
      "epoch": 0.4402222290432487,
      "grad_norm": 0.7024659104471609,
      "learning_rate": 1.2398205507232377e-05,
      "loss": 0.8317,
      "step": 7171
    },
    {
      "epoch": 0.4402836182817152,
      "grad_norm": 0.6957414305679327,
      "learning_rate": 1.2396275135602118e-05,
      "loss": 0.9114,
      "step": 7172
    },
    {
      "epoch": 0.4403450075201817,
      "grad_norm": 0.7658682444563928,
      "learning_rate": 1.2394344669234285e-05,
      "loss": 0.8902,
      "step": 7173
    },
    {
      "epoch": 0.44040639675864823,
      "grad_norm": 0.7383497323837578,
      "learning_rate": 1.2392414108205205e-05,
      "loss": 0.8824,
      "step": 7174
    },
    {
      "epoch": 0.4404677859971147,
      "grad_norm": 0.8363422492028175,
      "learning_rate": 1.2390483452591198e-05,
      "loss": 0.9084,
      "step": 7175
    },
    {
      "epoch": 0.4405291752355812,
      "grad_norm": 0.7018195741161494,
      "learning_rate": 1.2388552702468593e-05,
      "loss": 0.8356,
      "step": 7176
    },
    {
      "epoch": 0.4405905644740477,
      "grad_norm": 0.6989461963844914,
      "learning_rate": 1.2386621857913726e-05,
      "loss": 0.8497,
      "step": 7177
    },
    {
      "epoch": 0.4406519537125142,
      "grad_norm": 0.7810820755279798,
      "learning_rate": 1.2384690919002932e-05,
      "loss": 0.8578,
      "step": 7178
    },
    {
      "epoch": 0.4407133429509807,
      "grad_norm": 0.7452866376742006,
      "learning_rate": 1.2382759885812554e-05,
      "loss": 0.9079,
      "step": 7179
    },
    {
      "epoch": 0.4407747321894472,
      "grad_norm": 0.72446862072953,
      "learning_rate": 1.2380828758418932e-05,
      "loss": 0.888,
      "step": 7180
    },
    {
      "epoch": 0.4408361214279137,
      "grad_norm": 0.7814835581516577,
      "learning_rate": 1.2378897536898413e-05,
      "loss": 0.8391,
      "step": 7181
    },
    {
      "epoch": 0.44089751066638017,
      "grad_norm": 0.7112945554893757,
      "learning_rate": 1.2376966221327358e-05,
      "loss": 0.8838,
      "step": 7182
    },
    {
      "epoch": 0.44095889990484666,
      "grad_norm": 0.7286917875505694,
      "learning_rate": 1.237503481178211e-05,
      "loss": 0.9136,
      "step": 7183
    },
    {
      "epoch": 0.4410202891433132,
      "grad_norm": 0.5876600743043724,
      "learning_rate": 1.2373103308339034e-05,
      "loss": 0.6587,
      "step": 7184
    },
    {
      "epoch": 0.4410816783817797,
      "grad_norm": 0.6667535364982818,
      "learning_rate": 1.2371171711074493e-05,
      "loss": 0.8245,
      "step": 7185
    },
    {
      "epoch": 0.4411430676202462,
      "grad_norm": 0.7756440083802867,
      "learning_rate": 1.236924002006485e-05,
      "loss": 0.8481,
      "step": 7186
    },
    {
      "epoch": 0.4412044568587127,
      "grad_norm": 0.7883743240639698,
      "learning_rate": 1.2367308235386481e-05,
      "loss": 0.885,
      "step": 7187
    },
    {
      "epoch": 0.44126584609717917,
      "grad_norm": 0.7295652274077656,
      "learning_rate": 1.2365376357115755e-05,
      "loss": 0.877,
      "step": 7188
    },
    {
      "epoch": 0.44132723533564566,
      "grad_norm": 0.7129717717914477,
      "learning_rate": 1.2363444385329052e-05,
      "loss": 0.8554,
      "step": 7189
    },
    {
      "epoch": 0.44138862457411215,
      "grad_norm": 0.7702469415660076,
      "learning_rate": 1.236151232010275e-05,
      "loss": 0.9182,
      "step": 7190
    },
    {
      "epoch": 0.44145001381257865,
      "grad_norm": 0.7011781070563985,
      "learning_rate": 1.2359580161513233e-05,
      "loss": 0.8901,
      "step": 7191
    },
    {
      "epoch": 0.44151140305104514,
      "grad_norm": 0.6949155761188086,
      "learning_rate": 1.2357647909636897e-05,
      "loss": 0.8601,
      "step": 7192
    },
    {
      "epoch": 0.44157279228951163,
      "grad_norm": 0.7260651090555179,
      "learning_rate": 1.2355715564550126e-05,
      "loss": 0.8755,
      "step": 7193
    },
    {
      "epoch": 0.4416341815279781,
      "grad_norm": 0.7151041552763693,
      "learning_rate": 1.2353783126329323e-05,
      "loss": 0.8187,
      "step": 7194
    },
    {
      "epoch": 0.44169557076644467,
      "grad_norm": 0.7008914946687914,
      "learning_rate": 1.235185059505088e-05,
      "loss": 0.8411,
      "step": 7195
    },
    {
      "epoch": 0.44175696000491116,
      "grad_norm": 0.7835140341309524,
      "learning_rate": 1.234991797079121e-05,
      "loss": 0.9178,
      "step": 7196
    },
    {
      "epoch": 0.44181834924337765,
      "grad_norm": 0.7624475783633716,
      "learning_rate": 1.234798525362671e-05,
      "loss": 0.8419,
      "step": 7197
    },
    {
      "epoch": 0.44187973848184414,
      "grad_norm": 0.7000217061401589,
      "learning_rate": 1.2346052443633796e-05,
      "loss": 0.845,
      "step": 7198
    },
    {
      "epoch": 0.44194112772031063,
      "grad_norm": 0.8688353846855391,
      "learning_rate": 1.2344119540888882e-05,
      "loss": 0.9826,
      "step": 7199
    },
    {
      "epoch": 0.4420025169587771,
      "grad_norm": 0.8369825114552648,
      "learning_rate": 1.2342186545468381e-05,
      "loss": 0.9432,
      "step": 7200
    },
    {
      "epoch": 0.4420639061972436,
      "grad_norm": 0.7459473644124043,
      "learning_rate": 1.2340253457448728e-05,
      "loss": 0.8692,
      "step": 7201
    },
    {
      "epoch": 0.4421252954357101,
      "grad_norm": 0.6878720035103274,
      "learning_rate": 1.233832027690633e-05,
      "loss": 0.9429,
      "step": 7202
    },
    {
      "epoch": 0.4421866846741766,
      "grad_norm": 0.6953420066516424,
      "learning_rate": 1.233638700391763e-05,
      "loss": 0.8184,
      "step": 7203
    },
    {
      "epoch": 0.4422480739126431,
      "grad_norm": 0.7734483062083244,
      "learning_rate": 1.2334453638559057e-05,
      "loss": 0.8382,
      "step": 7204
    },
    {
      "epoch": 0.4423094631511096,
      "grad_norm": 0.7471582942536507,
      "learning_rate": 1.2332520180907044e-05,
      "loss": 0.8886,
      "step": 7205
    },
    {
      "epoch": 0.44237085238957613,
      "grad_norm": 0.7706808139393146,
      "learning_rate": 1.2330586631038033e-05,
      "loss": 0.8561,
      "step": 7206
    },
    {
      "epoch": 0.4424322416280426,
      "grad_norm": 0.7115748400009173,
      "learning_rate": 1.232865298902847e-05,
      "loss": 0.8764,
      "step": 7207
    },
    {
      "epoch": 0.4424936308665091,
      "grad_norm": 0.69917955636151,
      "learning_rate": 1.2326719254954793e-05,
      "loss": 0.8799,
      "step": 7208
    },
    {
      "epoch": 0.4425550201049756,
      "grad_norm": 0.7785611349338688,
      "learning_rate": 1.2324785428893464e-05,
      "loss": 0.9193,
      "step": 7209
    },
    {
      "epoch": 0.4426164093434421,
      "grad_norm": 0.7574946258906834,
      "learning_rate": 1.2322851510920934e-05,
      "loss": 0.8647,
      "step": 7210
    },
    {
      "epoch": 0.4426777985819086,
      "grad_norm": 0.7245980991250848,
      "learning_rate": 1.232091750111366e-05,
      "loss": 0.898,
      "step": 7211
    },
    {
      "epoch": 0.4427391878203751,
      "grad_norm": 0.6885801763167982,
      "learning_rate": 1.2318983399548106e-05,
      "loss": 0.8236,
      "step": 7212
    },
    {
      "epoch": 0.44280057705884157,
      "grad_norm": 0.7614063500150293,
      "learning_rate": 1.231704920630073e-05,
      "loss": 0.8849,
      "step": 7213
    },
    {
      "epoch": 0.44286196629730806,
      "grad_norm": 0.7694256774740758,
      "learning_rate": 1.2315114921448012e-05,
      "loss": 0.92,
      "step": 7214
    },
    {
      "epoch": 0.44292335553577455,
      "grad_norm": 0.7459065875558415,
      "learning_rate": 1.2313180545066416e-05,
      "loss": 0.8583,
      "step": 7215
    },
    {
      "epoch": 0.4429847447742411,
      "grad_norm": 0.8376907967203352,
      "learning_rate": 1.2311246077232424e-05,
      "loss": 0.8876,
      "step": 7216
    },
    {
      "epoch": 0.4430461340127076,
      "grad_norm": 0.8014412375617596,
      "learning_rate": 1.230931151802251e-05,
      "loss": 0.9111,
      "step": 7217
    },
    {
      "epoch": 0.4431075232511741,
      "grad_norm": 0.7716683992762373,
      "learning_rate": 1.2307376867513162e-05,
      "loss": 0.8851,
      "step": 7218
    },
    {
      "epoch": 0.4431689124896406,
      "grad_norm": 0.7691054836740947,
      "learning_rate": 1.2305442125780866e-05,
      "loss": 0.8988,
      "step": 7219
    },
    {
      "epoch": 0.44323030172810707,
      "grad_norm": 0.7695190003812812,
      "learning_rate": 1.230350729290211e-05,
      "loss": 0.8766,
      "step": 7220
    },
    {
      "epoch": 0.44329169096657356,
      "grad_norm": 0.685314103970917,
      "learning_rate": 1.2301572368953396e-05,
      "loss": 0.8752,
      "step": 7221
    },
    {
      "epoch": 0.44335308020504005,
      "grad_norm": 0.828123286329754,
      "learning_rate": 1.2299637354011211e-05,
      "loss": 0.9904,
      "step": 7222
    },
    {
      "epoch": 0.44341446944350654,
      "grad_norm": 0.7817214227993718,
      "learning_rate": 1.2297702248152064e-05,
      "loss": 0.8547,
      "step": 7223
    },
    {
      "epoch": 0.44347585868197303,
      "grad_norm": 0.756993669014807,
      "learning_rate": 1.229576705145246e-05,
      "loss": 0.8289,
      "step": 7224
    },
    {
      "epoch": 0.4435372479204395,
      "grad_norm": 0.6844381621333487,
      "learning_rate": 1.2293831763988901e-05,
      "loss": 0.8632,
      "step": 7225
    },
    {
      "epoch": 0.443598637158906,
      "grad_norm": 0.7491924332422447,
      "learning_rate": 1.2291896385837911e-05,
      "loss": 0.8851,
      "step": 7226
    },
    {
      "epoch": 0.44366002639737256,
      "grad_norm": 0.7978163583668842,
      "learning_rate": 1.2289960917075994e-05,
      "loss": 0.8958,
      "step": 7227
    },
    {
      "epoch": 0.44372141563583906,
      "grad_norm": 0.7046708304144557,
      "learning_rate": 1.2288025357779678e-05,
      "loss": 0.8671,
      "step": 7228
    },
    {
      "epoch": 0.44378280487430555,
      "grad_norm": 0.6873769563100212,
      "learning_rate": 1.2286089708025477e-05,
      "loss": 0.8671,
      "step": 7229
    },
    {
      "epoch": 0.44384419411277204,
      "grad_norm": 2.0832672605298854,
      "learning_rate": 1.2284153967889927e-05,
      "loss": 0.8638,
      "step": 7230
    },
    {
      "epoch": 0.44390558335123853,
      "grad_norm": 0.7125813323628886,
      "learning_rate": 1.2282218137449553e-05,
      "loss": 0.8968,
      "step": 7231
    },
    {
      "epoch": 0.443966972589705,
      "grad_norm": 0.9147341328498059,
      "learning_rate": 1.228028221678089e-05,
      "loss": 0.9001,
      "step": 7232
    },
    {
      "epoch": 0.4440283618281715,
      "grad_norm": 0.7843188839536799,
      "learning_rate": 1.2278346205960476e-05,
      "loss": 0.9256,
      "step": 7233
    },
    {
      "epoch": 0.444089751066638,
      "grad_norm": 0.7505113320527141,
      "learning_rate": 1.227641010506485e-05,
      "loss": 0.8774,
      "step": 7234
    },
    {
      "epoch": 0.4441511403051045,
      "grad_norm": 0.7301254935768228,
      "learning_rate": 1.2274473914170558e-05,
      "loss": 0.8801,
      "step": 7235
    },
    {
      "epoch": 0.444212529543571,
      "grad_norm": 0.7173710024424615,
      "learning_rate": 1.2272537633354147e-05,
      "loss": 0.874,
      "step": 7236
    },
    {
      "epoch": 0.44427391878203754,
      "grad_norm": 0.7542649933876907,
      "learning_rate": 1.227060126269217e-05,
      "loss": 0.8675,
      "step": 7237
    },
    {
      "epoch": 0.444335308020504,
      "grad_norm": 0.8081549978045275,
      "learning_rate": 1.226866480226118e-05,
      "loss": 0.9188,
      "step": 7238
    },
    {
      "epoch": 0.4443966972589705,
      "grad_norm": 0.793263698407924,
      "learning_rate": 1.2266728252137735e-05,
      "loss": 0.8702,
      "step": 7239
    },
    {
      "epoch": 0.444458086497437,
      "grad_norm": 0.734186377742119,
      "learning_rate": 1.22647916123984e-05,
      "loss": 0.868,
      "step": 7240
    },
    {
      "epoch": 0.4445194757359035,
      "grad_norm": 0.8276227247972316,
      "learning_rate": 1.226285488311974e-05,
      "loss": 0.8492,
      "step": 7241
    },
    {
      "epoch": 0.44458086497437,
      "grad_norm": 0.7038134312103841,
      "learning_rate": 1.2260918064378327e-05,
      "loss": 0.8834,
      "step": 7242
    },
    {
      "epoch": 0.4446422542128365,
      "grad_norm": 0.7622033992013184,
      "learning_rate": 1.2258981156250727e-05,
      "loss": 0.8965,
      "step": 7243
    },
    {
      "epoch": 0.444703643451303,
      "grad_norm": 0.7169212083907709,
      "learning_rate": 1.2257044158813521e-05,
      "loss": 0.8563,
      "step": 7244
    },
    {
      "epoch": 0.44476503268976947,
      "grad_norm": 0.7762406522894462,
      "learning_rate": 1.2255107072143287e-05,
      "loss": 0.807,
      "step": 7245
    },
    {
      "epoch": 0.44482642192823596,
      "grad_norm": 0.697936431727569,
      "learning_rate": 1.2253169896316612e-05,
      "loss": 0.8501,
      "step": 7246
    },
    {
      "epoch": 0.44488781116670245,
      "grad_norm": 0.7136776521815267,
      "learning_rate": 1.2251232631410077e-05,
      "loss": 0.8976,
      "step": 7247
    },
    {
      "epoch": 0.444949200405169,
      "grad_norm": 0.7462988289386475,
      "learning_rate": 1.2249295277500277e-05,
      "loss": 0.8797,
      "step": 7248
    },
    {
      "epoch": 0.4450105896436355,
      "grad_norm": 0.7781267550394011,
      "learning_rate": 1.2247357834663804e-05,
      "loss": 0.8615,
      "step": 7249
    },
    {
      "epoch": 0.445071978882102,
      "grad_norm": 0.8130606294248128,
      "learning_rate": 1.2245420302977256e-05,
      "loss": 0.9321,
      "step": 7250
    },
    {
      "epoch": 0.4451333681205685,
      "grad_norm": 0.7534244168414894,
      "learning_rate": 1.2243482682517236e-05,
      "loss": 0.9011,
      "step": 7251
    },
    {
      "epoch": 0.44519475735903496,
      "grad_norm": 0.67879811781979,
      "learning_rate": 1.2241544973360344e-05,
      "loss": 0.8483,
      "step": 7252
    },
    {
      "epoch": 0.44525614659750146,
      "grad_norm": 0.7904934567491797,
      "learning_rate": 1.2239607175583194e-05,
      "loss": 0.9002,
      "step": 7253
    },
    {
      "epoch": 0.44531753583596795,
      "grad_norm": 0.8048499769298262,
      "learning_rate": 1.223766928926239e-05,
      "loss": 0.8992,
      "step": 7254
    },
    {
      "epoch": 0.44537892507443444,
      "grad_norm": 0.6994599889929659,
      "learning_rate": 1.2235731314474553e-05,
      "loss": 0.8954,
      "step": 7255
    },
    {
      "epoch": 0.44544031431290093,
      "grad_norm": 0.7098430337147434,
      "learning_rate": 1.22337932512963e-05,
      "loss": 0.8655,
      "step": 7256
    },
    {
      "epoch": 0.4455017035513674,
      "grad_norm": 0.7344156978019121,
      "learning_rate": 1.2231855099804251e-05,
      "loss": 0.8378,
      "step": 7257
    },
    {
      "epoch": 0.4455630927898339,
      "grad_norm": 0.7218143707448198,
      "learning_rate": 1.2229916860075037e-05,
      "loss": 0.8858,
      "step": 7258
    },
    {
      "epoch": 0.44562448202830046,
      "grad_norm": 0.7656452232637656,
      "learning_rate": 1.2227978532185278e-05,
      "loss": 0.8391,
      "step": 7259
    },
    {
      "epoch": 0.44568587126676695,
      "grad_norm": 0.6839135701249983,
      "learning_rate": 1.2226040116211617e-05,
      "loss": 0.8389,
      "step": 7260
    },
    {
      "epoch": 0.44574726050523344,
      "grad_norm": 0.7936820361491219,
      "learning_rate": 1.222410161223068e-05,
      "loss": 0.8862,
      "step": 7261
    },
    {
      "epoch": 0.44580864974369994,
      "grad_norm": 0.7458086578400699,
      "learning_rate": 1.2222163020319111e-05,
      "loss": 0.8101,
      "step": 7262
    },
    {
      "epoch": 0.44587003898216643,
      "grad_norm": 0.8126793221481905,
      "learning_rate": 1.2220224340553555e-05,
      "loss": 0.8743,
      "step": 7263
    },
    {
      "epoch": 0.4459314282206329,
      "grad_norm": 0.7588492379290965,
      "learning_rate": 1.2218285573010654e-05,
      "loss": 0.8507,
      "step": 7264
    },
    {
      "epoch": 0.4459928174590994,
      "grad_norm": 0.817912925477819,
      "learning_rate": 1.2216346717767064e-05,
      "loss": 0.9052,
      "step": 7265
    },
    {
      "epoch": 0.4460542066975659,
      "grad_norm": 0.7721784891703527,
      "learning_rate": 1.221440777489943e-05,
      "loss": 0.8206,
      "step": 7266
    },
    {
      "epoch": 0.4461155959360324,
      "grad_norm": 0.8778921246547975,
      "learning_rate": 1.2212468744484416e-05,
      "loss": 0.9121,
      "step": 7267
    },
    {
      "epoch": 0.4461769851744989,
      "grad_norm": 0.7216651733944311,
      "learning_rate": 1.2210529626598678e-05,
      "loss": 0.824,
      "step": 7268
    },
    {
      "epoch": 0.44623837441296543,
      "grad_norm": 0.7710437521266873,
      "learning_rate": 1.2208590421318882e-05,
      "loss": 0.8708,
      "step": 7269
    },
    {
      "epoch": 0.4462997636514319,
      "grad_norm": 0.7414396960278367,
      "learning_rate": 1.2206651128721693e-05,
      "loss": 0.8564,
      "step": 7270
    },
    {
      "epoch": 0.4463611528898984,
      "grad_norm": 0.7505685599697809,
      "learning_rate": 1.2204711748883784e-05,
      "loss": 0.8547,
      "step": 7271
    },
    {
      "epoch": 0.4464225421283649,
      "grad_norm": 0.7537061222018435,
      "learning_rate": 1.2202772281881827e-05,
      "loss": 0.8565,
      "step": 7272
    },
    {
      "epoch": 0.4464839313668314,
      "grad_norm": 0.7855738372088571,
      "learning_rate": 1.2200832727792502e-05,
      "loss": 0.9146,
      "step": 7273
    },
    {
      "epoch": 0.4465453206052979,
      "grad_norm": 0.7743298516451467,
      "learning_rate": 1.2198893086692487e-05,
      "loss": 0.8836,
      "step": 7274
    },
    {
      "epoch": 0.4466067098437644,
      "grad_norm": 0.6891888487889725,
      "learning_rate": 1.219695335865847e-05,
      "loss": 0.8817,
      "step": 7275
    },
    {
      "epoch": 0.4466680990822309,
      "grad_norm": 0.7459146249228235,
      "learning_rate": 1.2195013543767136e-05,
      "loss": 0.8602,
      "step": 7276
    },
    {
      "epoch": 0.44672948832069737,
      "grad_norm": 0.687885715908745,
      "learning_rate": 1.2193073642095172e-05,
      "loss": 0.8732,
      "step": 7277
    },
    {
      "epoch": 0.44679087755916386,
      "grad_norm": 0.780454436149515,
      "learning_rate": 1.2191133653719284e-05,
      "loss": 0.9352,
      "step": 7278
    },
    {
      "epoch": 0.44685226679763035,
      "grad_norm": 0.7872707331222623,
      "learning_rate": 1.2189193578716162e-05,
      "loss": 0.8452,
      "step": 7279
    },
    {
      "epoch": 0.4469136560360969,
      "grad_norm": 0.7040759708050057,
      "learning_rate": 1.2187253417162506e-05,
      "loss": 0.8658,
      "step": 7280
    },
    {
      "epoch": 0.4469750452745634,
      "grad_norm": 0.727403791027151,
      "learning_rate": 1.2185313169135026e-05,
      "loss": 0.8732,
      "step": 7281
    },
    {
      "epoch": 0.4470364345130299,
      "grad_norm": 0.7528684047179086,
      "learning_rate": 1.2183372834710428e-05,
      "loss": 0.8712,
      "step": 7282
    },
    {
      "epoch": 0.44709782375149637,
      "grad_norm": 0.7234197204669482,
      "learning_rate": 1.2181432413965428e-05,
      "loss": 0.8344,
      "step": 7283
    },
    {
      "epoch": 0.44715921298996286,
      "grad_norm": 0.7024296874703397,
      "learning_rate": 1.2179491906976733e-05,
      "loss": 0.8557,
      "step": 7284
    },
    {
      "epoch": 0.44722060222842935,
      "grad_norm": 0.7517633167605948,
      "learning_rate": 1.217755131382107e-05,
      "loss": 0.8538,
      "step": 7285
    },
    {
      "epoch": 0.44728199146689585,
      "grad_norm": 0.7221722663403528,
      "learning_rate": 1.2175610634575154e-05,
      "loss": 0.911,
      "step": 7286
    },
    {
      "epoch": 0.44734338070536234,
      "grad_norm": 0.7431970621459002,
      "learning_rate": 1.2173669869315714e-05,
      "loss": 0.8909,
      "step": 7287
    },
    {
      "epoch": 0.44740476994382883,
      "grad_norm": 0.6780086172136003,
      "learning_rate": 1.217172901811948e-05,
      "loss": 0.8332,
      "step": 7288
    },
    {
      "epoch": 0.4474661591822953,
      "grad_norm": 0.709002043197676,
      "learning_rate": 1.2169788081063181e-05,
      "loss": 0.8635,
      "step": 7289
    },
    {
      "epoch": 0.44752754842076187,
      "grad_norm": 0.6751341139891114,
      "learning_rate": 1.2167847058223558e-05,
      "loss": 0.8535,
      "step": 7290
    },
    {
      "epoch": 0.44758893765922836,
      "grad_norm": 0.7166273311481309,
      "learning_rate": 1.2165905949677342e-05,
      "loss": 0.8535,
      "step": 7291
    },
    {
      "epoch": 0.44765032689769485,
      "grad_norm": 0.7932434648611886,
      "learning_rate": 1.2163964755501283e-05,
      "loss": 0.9127,
      "step": 7292
    },
    {
      "epoch": 0.44771171613616134,
      "grad_norm": 0.8398668616781813,
      "learning_rate": 1.216202347577212e-05,
      "loss": 0.9205,
      "step": 7293
    },
    {
      "epoch": 0.44777310537462783,
      "grad_norm": 0.7371583467037729,
      "learning_rate": 1.2160082110566609e-05,
      "loss": 0.9038,
      "step": 7294
    },
    {
      "epoch": 0.4478344946130943,
      "grad_norm": 0.7331725846596907,
      "learning_rate": 1.2158140659961497e-05,
      "loss": 0.8507,
      "step": 7295
    },
    {
      "epoch": 0.4478958838515608,
      "grad_norm": 0.7027585447787545,
      "learning_rate": 1.2156199124033541e-05,
      "loss": 0.8712,
      "step": 7296
    },
    {
      "epoch": 0.4479572730900273,
      "grad_norm": 0.6981028175835591,
      "learning_rate": 1.2154257502859506e-05,
      "loss": 0.8885,
      "step": 7297
    },
    {
      "epoch": 0.4480186623284938,
      "grad_norm": 0.7732258194174607,
      "learning_rate": 1.2152315796516146e-05,
      "loss": 0.9041,
      "step": 7298
    },
    {
      "epoch": 0.4480800515669603,
      "grad_norm": 0.7652105248713701,
      "learning_rate": 1.2150374005080233e-05,
      "loss": 0.9033,
      "step": 7299
    },
    {
      "epoch": 0.4481414408054268,
      "grad_norm": 0.7378964234416181,
      "learning_rate": 1.2148432128628534e-05,
      "loss": 0.8691,
      "step": 7300
    },
    {
      "epoch": 0.44820283004389333,
      "grad_norm": 0.721927183750301,
      "learning_rate": 1.2146490167237823e-05,
      "loss": 0.8673,
      "step": 7301
    },
    {
      "epoch": 0.4482642192823598,
      "grad_norm": 0.7484050948918928,
      "learning_rate": 1.2144548120984875e-05,
      "loss": 0.9129,
      "step": 7302
    },
    {
      "epoch": 0.4483256085208263,
      "grad_norm": 0.6660081411826884,
      "learning_rate": 1.214260598994647e-05,
      "loss": 0.8573,
      "step": 7303
    },
    {
      "epoch": 0.4483869977592928,
      "grad_norm": 0.7410539332182493,
      "learning_rate": 1.214066377419939e-05,
      "loss": 0.8335,
      "step": 7304
    },
    {
      "epoch": 0.4484483869977593,
      "grad_norm": 0.7365992719666467,
      "learning_rate": 1.2138721473820422e-05,
      "loss": 0.8441,
      "step": 7305
    },
    {
      "epoch": 0.4485097762362258,
      "grad_norm": 0.6767447507436791,
      "learning_rate": 1.2136779088886356e-05,
      "loss": 0.8675,
      "step": 7306
    },
    {
      "epoch": 0.4485711654746923,
      "grad_norm": 0.718799853844429,
      "learning_rate": 1.2134836619473986e-05,
      "loss": 0.7945,
      "step": 7307
    },
    {
      "epoch": 0.44863255471315877,
      "grad_norm": 1.0552888963306308,
      "learning_rate": 1.2132894065660106e-05,
      "loss": 0.8725,
      "step": 7308
    },
    {
      "epoch": 0.44869394395162526,
      "grad_norm": 0.8087804793162393,
      "learning_rate": 1.2130951427521514e-05,
      "loss": 0.9035,
      "step": 7309
    },
    {
      "epoch": 0.44875533319009175,
      "grad_norm": 0.7049879196682278,
      "learning_rate": 1.2129008705135015e-05,
      "loss": 0.8241,
      "step": 7310
    },
    {
      "epoch": 0.4488167224285583,
      "grad_norm": 0.7944153329214506,
      "learning_rate": 1.2127065898577417e-05,
      "loss": 0.8976,
      "step": 7311
    },
    {
      "epoch": 0.4488781116670248,
      "grad_norm": 0.7743215806740881,
      "learning_rate": 1.2125123007925528e-05,
      "loss": 0.8684,
      "step": 7312
    },
    {
      "epoch": 0.4489395009054913,
      "grad_norm": 0.7297171378056367,
      "learning_rate": 1.2123180033256158e-05,
      "loss": 0.8748,
      "step": 7313
    },
    {
      "epoch": 0.4490008901439578,
      "grad_norm": 0.7487491043343101,
      "learning_rate": 1.2121236974646127e-05,
      "loss": 0.8694,
      "step": 7314
    },
    {
      "epoch": 0.44906227938242427,
      "grad_norm": 0.745199748416326,
      "learning_rate": 1.2119293832172254e-05,
      "loss": 0.8737,
      "step": 7315
    },
    {
      "epoch": 0.44912366862089076,
      "grad_norm": 0.7255499168989521,
      "learning_rate": 1.211735060591136e-05,
      "loss": 0.9053,
      "step": 7316
    },
    {
      "epoch": 0.44918505785935725,
      "grad_norm": 0.6981325351507315,
      "learning_rate": 1.2115407295940274e-05,
      "loss": 0.8802,
      "step": 7317
    },
    {
      "epoch": 0.44924644709782374,
      "grad_norm": 0.7486879046791166,
      "learning_rate": 1.211346390233582e-05,
      "loss": 0.8908,
      "step": 7318
    },
    {
      "epoch": 0.44930783633629023,
      "grad_norm": 0.7837114849327826,
      "learning_rate": 1.2111520425174836e-05,
      "loss": 0.8969,
      "step": 7319
    },
    {
      "epoch": 0.4493692255747567,
      "grad_norm": 0.6401020771696362,
      "learning_rate": 1.2109576864534158e-05,
      "loss": 0.8739,
      "step": 7320
    },
    {
      "epoch": 0.4494306148132232,
      "grad_norm": 0.7006513800436682,
      "learning_rate": 1.2107633220490622e-05,
      "loss": 0.8722,
      "step": 7321
    },
    {
      "epoch": 0.44949200405168976,
      "grad_norm": 0.7635881366106206,
      "learning_rate": 1.2105689493121076e-05,
      "loss": 0.9327,
      "step": 7322
    },
    {
      "epoch": 0.44955339329015626,
      "grad_norm": 0.7274125633330125,
      "learning_rate": 1.2103745682502358e-05,
      "loss": 0.8352,
      "step": 7323
    },
    {
      "epoch": 0.44961478252862275,
      "grad_norm": 0.7877423127616625,
      "learning_rate": 1.2101801788711323e-05,
      "loss": 0.8914,
      "step": 7324
    },
    {
      "epoch": 0.44967617176708924,
      "grad_norm": 0.7341703334266355,
      "learning_rate": 1.209985781182482e-05,
      "loss": 0.8946,
      "step": 7325
    },
    {
      "epoch": 0.44973756100555573,
      "grad_norm": 0.6766951067033857,
      "learning_rate": 1.209791375191971e-05,
      "loss": 0.8294,
      "step": 7326
    },
    {
      "epoch": 0.4497989502440222,
      "grad_norm": 0.8330258851663457,
      "learning_rate": 1.2095969609072848e-05,
      "loss": 0.9682,
      "step": 7327
    },
    {
      "epoch": 0.4498603394824887,
      "grad_norm": 0.7456039423556093,
      "learning_rate": 1.2094025383361094e-05,
      "loss": 0.8625,
      "step": 7328
    },
    {
      "epoch": 0.4499217287209552,
      "grad_norm": 0.6284727685795061,
      "learning_rate": 1.2092081074861324e-05,
      "loss": 0.7528,
      "step": 7329
    },
    {
      "epoch": 0.4499831179594217,
      "grad_norm": 0.7339318637486635,
      "learning_rate": 1.2090136683650393e-05,
      "loss": 0.8362,
      "step": 7330
    },
    {
      "epoch": 0.4500445071978882,
      "grad_norm": 0.7919131978114163,
      "learning_rate": 1.2088192209805182e-05,
      "loss": 0.8932,
      "step": 7331
    },
    {
      "epoch": 0.4501058964363547,
      "grad_norm": 0.6920709691117244,
      "learning_rate": 1.2086247653402567e-05,
      "loss": 0.8566,
      "step": 7332
    },
    {
      "epoch": 0.4501672856748212,
      "grad_norm": 0.7168648078857652,
      "learning_rate": 1.2084303014519422e-05,
      "loss": 0.8834,
      "step": 7333
    },
    {
      "epoch": 0.4502286749132877,
      "grad_norm": 0.701558637498405,
      "learning_rate": 1.2082358293232632e-05,
      "loss": 0.8719,
      "step": 7334
    },
    {
      "epoch": 0.4502900641517542,
      "grad_norm": 0.7424067343509742,
      "learning_rate": 1.208041348961908e-05,
      "loss": 0.8426,
      "step": 7335
    },
    {
      "epoch": 0.4503514533902207,
      "grad_norm": 0.7309640141286023,
      "learning_rate": 1.2078468603755658e-05,
      "loss": 0.8856,
      "step": 7336
    },
    {
      "epoch": 0.4504128426286872,
      "grad_norm": 0.7603660874969934,
      "learning_rate": 1.2076523635719255e-05,
      "loss": 0.8665,
      "step": 7337
    },
    {
      "epoch": 0.4504742318671537,
      "grad_norm": 0.8022588764828753,
      "learning_rate": 1.2074578585586768e-05,
      "loss": 0.8726,
      "step": 7338
    },
    {
      "epoch": 0.4505356211056202,
      "grad_norm": 0.6506833013140809,
      "learning_rate": 1.2072633453435092e-05,
      "loss": 0.8445,
      "step": 7339
    },
    {
      "epoch": 0.45059701034408667,
      "grad_norm": 0.768260919248274,
      "learning_rate": 1.2070688239341131e-05,
      "loss": 0.8742,
      "step": 7340
    },
    {
      "epoch": 0.45065839958255316,
      "grad_norm": 0.7471685394589167,
      "learning_rate": 1.2068742943381788e-05,
      "loss": 0.8841,
      "step": 7341
    },
    {
      "epoch": 0.45071978882101965,
      "grad_norm": 0.7453312617370749,
      "learning_rate": 1.2066797565633972e-05,
      "loss": 0.9026,
      "step": 7342
    },
    {
      "epoch": 0.4507811780594862,
      "grad_norm": 0.7529417761143827,
      "learning_rate": 1.2064852106174596e-05,
      "loss": 0.8499,
      "step": 7343
    },
    {
      "epoch": 0.4508425672979527,
      "grad_norm": 0.7570180875782484,
      "learning_rate": 1.2062906565080572e-05,
      "loss": 0.8432,
      "step": 7344
    },
    {
      "epoch": 0.4509039565364192,
      "grad_norm": 0.7321825116349748,
      "learning_rate": 1.2060960942428819e-05,
      "loss": 0.8777,
      "step": 7345
    },
    {
      "epoch": 0.4509653457748857,
      "grad_norm": 0.7780724300673342,
      "learning_rate": 1.2059015238296254e-05,
      "loss": 0.8859,
      "step": 7346
    },
    {
      "epoch": 0.45102673501335216,
      "grad_norm": 0.8147375848813219,
      "learning_rate": 1.2057069452759809e-05,
      "loss": 0.9167,
      "step": 7347
    },
    {
      "epoch": 0.45108812425181866,
      "grad_norm": 0.7516703763144825,
      "learning_rate": 1.2055123585896402e-05,
      "loss": 0.8378,
      "step": 7348
    },
    {
      "epoch": 0.45114951349028515,
      "grad_norm": 0.778032505317255,
      "learning_rate": 1.2053177637782969e-05,
      "loss": 0.8829,
      "step": 7349
    },
    {
      "epoch": 0.45121090272875164,
      "grad_norm": 0.6718192264852519,
      "learning_rate": 1.2051231608496445e-05,
      "loss": 0.8712,
      "step": 7350
    },
    {
      "epoch": 0.45127229196721813,
      "grad_norm": 0.7437376195224566,
      "learning_rate": 1.2049285498113763e-05,
      "loss": 0.8948,
      "step": 7351
    },
    {
      "epoch": 0.4513336812056846,
      "grad_norm": 0.8027233404320576,
      "learning_rate": 1.2047339306711868e-05,
      "loss": 0.9178,
      "step": 7352
    },
    {
      "epoch": 0.4513950704441511,
      "grad_norm": 0.8018468673413757,
      "learning_rate": 1.2045393034367693e-05,
      "loss": 0.9126,
      "step": 7353
    },
    {
      "epoch": 0.45145645968261766,
      "grad_norm": 0.7266516457210339,
      "learning_rate": 1.2043446681158202e-05,
      "loss": 0.8523,
      "step": 7354
    },
    {
      "epoch": 0.45151784892108415,
      "grad_norm": 0.7410892422535673,
      "learning_rate": 1.2041500247160328e-05,
      "loss": 0.8725,
      "step": 7355
    },
    {
      "epoch": 0.45157923815955064,
      "grad_norm": 0.7593688867600791,
      "learning_rate": 1.2039553732451033e-05,
      "loss": 0.8535,
      "step": 7356
    },
    {
      "epoch": 0.45164062739801714,
      "grad_norm": 0.7345464557844409,
      "learning_rate": 1.2037607137107267e-05,
      "loss": 0.9041,
      "step": 7357
    },
    {
      "epoch": 0.4517020166364836,
      "grad_norm": 0.7725298350173156,
      "learning_rate": 1.2035660461205995e-05,
      "loss": 0.8633,
      "step": 7358
    },
    {
      "epoch": 0.4517634058749501,
      "grad_norm": 0.8159382321928189,
      "learning_rate": 1.203371370482418e-05,
      "loss": 0.8698,
      "step": 7359
    },
    {
      "epoch": 0.4518247951134166,
      "grad_norm": 0.8360637406274379,
      "learning_rate": 1.2031766868038779e-05,
      "loss": 0.8835,
      "step": 7360
    },
    {
      "epoch": 0.4518861843518831,
      "grad_norm": 0.7099077790828325,
      "learning_rate": 1.2029819950926776e-05,
      "loss": 0.894,
      "step": 7361
    },
    {
      "epoch": 0.4519475735903496,
      "grad_norm": 0.7459610253492421,
      "learning_rate": 1.2027872953565125e-05,
      "loss": 0.8993,
      "step": 7362
    },
    {
      "epoch": 0.4520089628288161,
      "grad_norm": 0.6840792979642936,
      "learning_rate": 1.2025925876030815e-05,
      "loss": 0.8296,
      "step": 7363
    },
    {
      "epoch": 0.45207035206728263,
      "grad_norm": 0.840344550526272,
      "learning_rate": 1.202397871840082e-05,
      "loss": 0.839,
      "step": 7364
    },
    {
      "epoch": 0.4521317413057491,
      "grad_norm": 0.7310971904021457,
      "learning_rate": 1.202203148075212e-05,
      "loss": 0.8569,
      "step": 7365
    },
    {
      "epoch": 0.4521931305442156,
      "grad_norm": 0.8442289108499383,
      "learning_rate": 1.2020084163161703e-05,
      "loss": 0.8892,
      "step": 7366
    },
    {
      "epoch": 0.4522545197826821,
      "grad_norm": 0.6844135183163493,
      "learning_rate": 1.2018136765706552e-05,
      "loss": 0.8097,
      "step": 7367
    },
    {
      "epoch": 0.4523159090211486,
      "grad_norm": 0.7471762063496923,
      "learning_rate": 1.2016189288463662e-05,
      "loss": 0.811,
      "step": 7368
    },
    {
      "epoch": 0.4523772982596151,
      "grad_norm": 0.7368880041511242,
      "learning_rate": 1.2014241731510026e-05,
      "loss": 0.8685,
      "step": 7369
    },
    {
      "epoch": 0.4524386874980816,
      "grad_norm": 0.8258066191022471,
      "learning_rate": 1.2012294094922643e-05,
      "loss": 0.8858,
      "step": 7370
    },
    {
      "epoch": 0.4525000767365481,
      "grad_norm": 0.7544450222725013,
      "learning_rate": 1.2010346378778511e-05,
      "loss": 0.7629,
      "step": 7371
    },
    {
      "epoch": 0.45256146597501457,
      "grad_norm": 0.8563335821940817,
      "learning_rate": 1.2008398583154635e-05,
      "loss": 0.926,
      "step": 7372
    },
    {
      "epoch": 0.45262285521348106,
      "grad_norm": 0.755608952972336,
      "learning_rate": 1.2006450708128017e-05,
      "loss": 0.8872,
      "step": 7373
    },
    {
      "epoch": 0.45268424445194755,
      "grad_norm": 0.7288379626328435,
      "learning_rate": 1.2004502753775676e-05,
      "loss": 0.867,
      "step": 7374
    },
    {
      "epoch": 0.4527456336904141,
      "grad_norm": 0.7828719461088163,
      "learning_rate": 1.200255472017462e-05,
      "loss": 0.8849,
      "step": 7375
    },
    {
      "epoch": 0.4528070229288806,
      "grad_norm": 0.7632536718175924,
      "learning_rate": 1.2000606607401863e-05,
      "loss": 0.8931,
      "step": 7376
    },
    {
      "epoch": 0.4528684121673471,
      "grad_norm": 0.7453301164872753,
      "learning_rate": 1.1998658415534429e-05,
      "loss": 0.9309,
      "step": 7377
    },
    {
      "epoch": 0.45292980140581357,
      "grad_norm": 0.6037471084330922,
      "learning_rate": 1.1996710144649337e-05,
      "loss": 0.7441,
      "step": 7378
    },
    {
      "epoch": 0.45299119064428006,
      "grad_norm": 0.7418116339110686,
      "learning_rate": 1.1994761794823618e-05,
      "loss": 0.8452,
      "step": 7379
    },
    {
      "epoch": 0.45305257988274655,
      "grad_norm": 0.8816517699374138,
      "learning_rate": 1.1992813366134291e-05,
      "loss": 0.9071,
      "step": 7380
    },
    {
      "epoch": 0.45311396912121304,
      "grad_norm": 0.6908724832527277,
      "learning_rate": 1.1990864858658395e-05,
      "loss": 0.8426,
      "step": 7381
    },
    {
      "epoch": 0.45317535835967954,
      "grad_norm": 0.73801435777344,
      "learning_rate": 1.1988916272472964e-05,
      "loss": 0.8853,
      "step": 7382
    },
    {
      "epoch": 0.45323674759814603,
      "grad_norm": 0.732056138783571,
      "learning_rate": 1.1986967607655035e-05,
      "loss": 0.8505,
      "step": 7383
    },
    {
      "epoch": 0.4532981368366125,
      "grad_norm": 0.6726630025530982,
      "learning_rate": 1.198501886428165e-05,
      "loss": 0.8437,
      "step": 7384
    },
    {
      "epoch": 0.453359526075079,
      "grad_norm": 0.7781085713029493,
      "learning_rate": 1.1983070042429849e-05,
      "loss": 0.8655,
      "step": 7385
    },
    {
      "epoch": 0.45342091531354556,
      "grad_norm": 0.825699610630709,
      "learning_rate": 1.1981121142176688e-05,
      "loss": 0.9075,
      "step": 7386
    },
    {
      "epoch": 0.45348230455201205,
      "grad_norm": 0.7407443021572948,
      "learning_rate": 1.1979172163599208e-05,
      "loss": 0.8743,
      "step": 7387
    },
    {
      "epoch": 0.45354369379047854,
      "grad_norm": 0.7461422384666904,
      "learning_rate": 1.1977223106774472e-05,
      "loss": 0.8409,
      "step": 7388
    },
    {
      "epoch": 0.45360508302894503,
      "grad_norm": 0.7149058433375913,
      "learning_rate": 1.1975273971779528e-05,
      "loss": 0.8713,
      "step": 7389
    },
    {
      "epoch": 0.4536664722674115,
      "grad_norm": 0.7471816945951181,
      "learning_rate": 1.1973324758691441e-05,
      "loss": 0.8865,
      "step": 7390
    },
    {
      "epoch": 0.453727861505878,
      "grad_norm": 0.8064478950135833,
      "learning_rate": 1.1971375467587271e-05,
      "loss": 0.9199,
      "step": 7391
    },
    {
      "epoch": 0.4537892507443445,
      "grad_norm": 0.8109833343150581,
      "learning_rate": 1.1969426098544086e-05,
      "loss": 0.8147,
      "step": 7392
    },
    {
      "epoch": 0.453850639982811,
      "grad_norm": 0.7487526151437628,
      "learning_rate": 1.1967476651638956e-05,
      "loss": 0.8859,
      "step": 7393
    },
    {
      "epoch": 0.4539120292212775,
      "grad_norm": 0.7613138482053569,
      "learning_rate": 1.1965527126948946e-05,
      "loss": 0.8381,
      "step": 7394
    },
    {
      "epoch": 0.453973418459744,
      "grad_norm": 0.7776888907894072,
      "learning_rate": 1.196357752455114e-05,
      "loss": 0.8971,
      "step": 7395
    },
    {
      "epoch": 0.45403480769821053,
      "grad_norm": 0.7845058986852267,
      "learning_rate": 1.1961627844522612e-05,
      "loss": 0.8831,
      "step": 7396
    },
    {
      "epoch": 0.454096196936677,
      "grad_norm": 0.719814728318968,
      "learning_rate": 1.1959678086940446e-05,
      "loss": 0.9077,
      "step": 7397
    },
    {
      "epoch": 0.4541575861751435,
      "grad_norm": 0.8367809829319924,
      "learning_rate": 1.1957728251881719e-05,
      "loss": 0.8983,
      "step": 7398
    },
    {
      "epoch": 0.45421897541361,
      "grad_norm": 0.8247622162711573,
      "learning_rate": 1.1955778339423527e-05,
      "loss": 0.9562,
      "step": 7399
    },
    {
      "epoch": 0.4542803646520765,
      "grad_norm": 0.7191046266413202,
      "learning_rate": 1.1953828349642955e-05,
      "loss": 0.854,
      "step": 7400
    },
    {
      "epoch": 0.454341753890543,
      "grad_norm": 0.6857479637984261,
      "learning_rate": 1.19518782826171e-05,
      "loss": 0.8448,
      "step": 7401
    },
    {
      "epoch": 0.4544031431290095,
      "grad_norm": 0.7338445446728252,
      "learning_rate": 1.1949928138423056e-05,
      "loss": 0.8631,
      "step": 7402
    },
    {
      "epoch": 0.45446453236747597,
      "grad_norm": 0.7932340647506808,
      "learning_rate": 1.1947977917137927e-05,
      "loss": 0.8234,
      "step": 7403
    },
    {
      "epoch": 0.45452592160594246,
      "grad_norm": 0.790452582565786,
      "learning_rate": 1.1946027618838811e-05,
      "loss": 0.8757,
      "step": 7404
    },
    {
      "epoch": 0.45458731084440895,
      "grad_norm": 0.7497396617204141,
      "learning_rate": 1.1944077243602812e-05,
      "loss": 0.8992,
      "step": 7405
    },
    {
      "epoch": 0.45464870008287545,
      "grad_norm": 0.8021721422691697,
      "learning_rate": 1.1942126791507046e-05,
      "loss": 0.8431,
      "step": 7406
    },
    {
      "epoch": 0.454710089321342,
      "grad_norm": 0.7419495396280199,
      "learning_rate": 1.1940176262628617e-05,
      "loss": 0.8859,
      "step": 7407
    },
    {
      "epoch": 0.4547714785598085,
      "grad_norm": 0.701871991884302,
      "learning_rate": 1.1938225657044647e-05,
      "loss": 0.8588,
      "step": 7408
    },
    {
      "epoch": 0.454832867798275,
      "grad_norm": 0.7255908548111876,
      "learning_rate": 1.1936274974832247e-05,
      "loss": 0.8617,
      "step": 7409
    },
    {
      "epoch": 0.45489425703674147,
      "grad_norm": 0.8439691754639018,
      "learning_rate": 1.1934324216068543e-05,
      "loss": 0.9321,
      "step": 7410
    },
    {
      "epoch": 0.45495564627520796,
      "grad_norm": 0.7930206925561436,
      "learning_rate": 1.1932373380830659e-05,
      "loss": 0.8371,
      "step": 7411
    },
    {
      "epoch": 0.45501703551367445,
      "grad_norm": 0.7593931961712993,
      "learning_rate": 1.1930422469195717e-05,
      "loss": 0.9003,
      "step": 7412
    },
    {
      "epoch": 0.45507842475214094,
      "grad_norm": 0.8007483180621678,
      "learning_rate": 1.1928471481240853e-05,
      "loss": 0.945,
      "step": 7413
    },
    {
      "epoch": 0.45513981399060743,
      "grad_norm": 0.7115764189997594,
      "learning_rate": 1.1926520417043195e-05,
      "loss": 0.9064,
      "step": 7414
    },
    {
      "epoch": 0.4552012032290739,
      "grad_norm": 0.7434150807047266,
      "learning_rate": 1.1924569276679883e-05,
      "loss": 0.8906,
      "step": 7415
    },
    {
      "epoch": 0.4552625924675404,
      "grad_norm": 0.817873986176734,
      "learning_rate": 1.1922618060228053e-05,
      "loss": 0.8562,
      "step": 7416
    },
    {
      "epoch": 0.45532398170600696,
      "grad_norm": 0.8179053607812036,
      "learning_rate": 1.1920666767764847e-05,
      "loss": 0.8799,
      "step": 7417
    },
    {
      "epoch": 0.45538537094447346,
      "grad_norm": 0.7669667270583106,
      "learning_rate": 1.1918715399367416e-05,
      "loss": 0.8111,
      "step": 7418
    },
    {
      "epoch": 0.45544676018293995,
      "grad_norm": 0.7968021797577066,
      "learning_rate": 1.1916763955112897e-05,
      "loss": 0.8887,
      "step": 7419
    },
    {
      "epoch": 0.45550814942140644,
      "grad_norm": 0.7320281400386911,
      "learning_rate": 1.191481243507845e-05,
      "loss": 0.9324,
      "step": 7420
    },
    {
      "epoch": 0.45556953865987293,
      "grad_norm": 0.7654975230533633,
      "learning_rate": 1.1912860839341227e-05,
      "loss": 0.8743,
      "step": 7421
    },
    {
      "epoch": 0.4556309278983394,
      "grad_norm": 0.7523781552875107,
      "learning_rate": 1.1910909167978385e-05,
      "loss": 0.9281,
      "step": 7422
    },
    {
      "epoch": 0.4556923171368059,
      "grad_norm": 0.7997763035564646,
      "learning_rate": 1.1908957421067083e-05,
      "loss": 0.8623,
      "step": 7423
    },
    {
      "epoch": 0.4557537063752724,
      "grad_norm": 0.8615240505207704,
      "learning_rate": 1.190700559868448e-05,
      "loss": 0.9359,
      "step": 7424
    },
    {
      "epoch": 0.4558150956137389,
      "grad_norm": 0.7367632537269879,
      "learning_rate": 1.1905053700907753e-05,
      "loss": 0.8687,
      "step": 7425
    },
    {
      "epoch": 0.4558764848522054,
      "grad_norm": 0.8495925139101096,
      "learning_rate": 1.190310172781406e-05,
      "loss": 0.9199,
      "step": 7426
    },
    {
      "epoch": 0.4559378740906719,
      "grad_norm": 0.7500602777413913,
      "learning_rate": 1.1901149679480577e-05,
      "loss": 0.8666,
      "step": 7427
    },
    {
      "epoch": 0.4559992633291384,
      "grad_norm": 0.7710627383562358,
      "learning_rate": 1.1899197555984481e-05,
      "loss": 0.8271,
      "step": 7428
    },
    {
      "epoch": 0.4560606525676049,
      "grad_norm": 0.7244033052388931,
      "learning_rate": 1.1897245357402948e-05,
      "loss": 0.8487,
      "step": 7429
    },
    {
      "epoch": 0.4561220418060714,
      "grad_norm": 0.8457377549476415,
      "learning_rate": 1.1895293083813158e-05,
      "loss": 0.8358,
      "step": 7430
    },
    {
      "epoch": 0.4561834310445379,
      "grad_norm": 0.7965534400951179,
      "learning_rate": 1.1893340735292294e-05,
      "loss": 0.8817,
      "step": 7431
    },
    {
      "epoch": 0.4562448202830044,
      "grad_norm": 0.8258256923108649,
      "learning_rate": 1.1891388311917547e-05,
      "loss": 0.8948,
      "step": 7432
    },
    {
      "epoch": 0.4563062095214709,
      "grad_norm": 0.8321807879560406,
      "learning_rate": 1.1889435813766103e-05,
      "loss": 0.8573,
      "step": 7433
    },
    {
      "epoch": 0.4563675987599374,
      "grad_norm": 0.7386854220869278,
      "learning_rate": 1.1887483240915157e-05,
      "loss": 0.8782,
      "step": 7434
    },
    {
      "epoch": 0.45642898799840387,
      "grad_norm": 0.7909774939038571,
      "learning_rate": 1.1885530593441903e-05,
      "loss": 0.8877,
      "step": 7435
    },
    {
      "epoch": 0.45649037723687036,
      "grad_norm": 0.7537640067465793,
      "learning_rate": 1.188357787142354e-05,
      "loss": 0.838,
      "step": 7436
    },
    {
      "epoch": 0.45655176647533685,
      "grad_norm": 0.705495037810192,
      "learning_rate": 1.1881625074937269e-05,
      "loss": 0.8663,
      "step": 7437
    },
    {
      "epoch": 0.45661315571380334,
      "grad_norm": 0.8329704321186486,
      "learning_rate": 1.1879672204060296e-05,
      "loss": 0.88,
      "step": 7438
    },
    {
      "epoch": 0.4566745449522699,
      "grad_norm": 0.748463464373828,
      "learning_rate": 1.1877719258869827e-05,
      "loss": 0.8678,
      "step": 7439
    },
    {
      "epoch": 0.4567359341907364,
      "grad_norm": 0.7827003518277059,
      "learning_rate": 1.1875766239443074e-05,
      "loss": 0.8981,
      "step": 7440
    },
    {
      "epoch": 0.4567973234292029,
      "grad_norm": 0.6969900955577505,
      "learning_rate": 1.187381314585725e-05,
      "loss": 0.841,
      "step": 7441
    },
    {
      "epoch": 0.45685871266766936,
      "grad_norm": 0.8341244924480272,
      "learning_rate": 1.1871859978189565e-05,
      "loss": 0.897,
      "step": 7442
    },
    {
      "epoch": 0.45692010190613586,
      "grad_norm": 0.7341150946366856,
      "learning_rate": 1.186990673651725e-05,
      "loss": 0.8586,
      "step": 7443
    },
    {
      "epoch": 0.45698149114460235,
      "grad_norm": 0.7687496255179971,
      "learning_rate": 1.1867953420917518e-05,
      "loss": 0.8909,
      "step": 7444
    },
    {
      "epoch": 0.45704288038306884,
      "grad_norm": 0.8372471841476365,
      "learning_rate": 1.1866000031467597e-05,
      "loss": 0.8783,
      "step": 7445
    },
    {
      "epoch": 0.45710426962153533,
      "grad_norm": 0.7242187765526505,
      "learning_rate": 1.1864046568244714e-05,
      "loss": 0.8563,
      "step": 7446
    },
    {
      "epoch": 0.4571656588600018,
      "grad_norm": 0.7763939003915776,
      "learning_rate": 1.1862093031326101e-05,
      "loss": 0.8634,
      "step": 7447
    },
    {
      "epoch": 0.4572270480984683,
      "grad_norm": 0.7674052004028309,
      "learning_rate": 1.1860139420788994e-05,
      "loss": 0.9117,
      "step": 7448
    },
    {
      "epoch": 0.45728843733693486,
      "grad_norm": 0.7384172640666139,
      "learning_rate": 1.1858185736710621e-05,
      "loss": 0.8611,
      "step": 7449
    },
    {
      "epoch": 0.45734982657540135,
      "grad_norm": 0.7589277075602853,
      "learning_rate": 1.1856231979168235e-05,
      "loss": 0.8871,
      "step": 7450
    },
    {
      "epoch": 0.45741121581386784,
      "grad_norm": 0.70722023105149,
      "learning_rate": 1.1854278148239064e-05,
      "loss": 0.9398,
      "step": 7451
    },
    {
      "epoch": 0.45747260505233434,
      "grad_norm": 0.7109364959835217,
      "learning_rate": 1.1852324244000365e-05,
      "loss": 0.8618,
      "step": 7452
    },
    {
      "epoch": 0.4575339942908008,
      "grad_norm": 0.7449869222480331,
      "learning_rate": 1.185037026652938e-05,
      "loss": 0.8837,
      "step": 7453
    },
    {
      "epoch": 0.4575953835292673,
      "grad_norm": 0.7771121252574361,
      "learning_rate": 1.1848416215903362e-05,
      "loss": 0.8889,
      "step": 7454
    },
    {
      "epoch": 0.4576567727677338,
      "grad_norm": 0.7518741248738521,
      "learning_rate": 1.1846462092199567e-05,
      "loss": 0.8811,
      "step": 7455
    },
    {
      "epoch": 0.4577181620062003,
      "grad_norm": 0.8153566349388279,
      "learning_rate": 1.1844507895495245e-05,
      "loss": 0.8537,
      "step": 7456
    },
    {
      "epoch": 0.4577795512446668,
      "grad_norm": 0.7581360081100632,
      "learning_rate": 1.1842553625867668e-05,
      "loss": 0.8296,
      "step": 7457
    },
    {
      "epoch": 0.4578409404831333,
      "grad_norm": 0.7263511719574832,
      "learning_rate": 1.1840599283394085e-05,
      "loss": 0.8358,
      "step": 7458
    },
    {
      "epoch": 0.4579023297215998,
      "grad_norm": 0.7663848497445511,
      "learning_rate": 1.1838644868151772e-05,
      "loss": 0.8429,
      "step": 7459
    },
    {
      "epoch": 0.4579637189600663,
      "grad_norm": 0.7665074531609639,
      "learning_rate": 1.1836690380217991e-05,
      "loss": 0.8383,
      "step": 7460
    },
    {
      "epoch": 0.4580251081985328,
      "grad_norm": 0.7686271920620019,
      "learning_rate": 1.1834735819670018e-05,
      "loss": 0.8471,
      "step": 7461
    },
    {
      "epoch": 0.4580864974369993,
      "grad_norm": 0.7594523436259403,
      "learning_rate": 1.1832781186585125e-05,
      "loss": 0.9019,
      "step": 7462
    },
    {
      "epoch": 0.4581478866754658,
      "grad_norm": 0.7349059152144799,
      "learning_rate": 1.1830826481040587e-05,
      "loss": 0.8616,
      "step": 7463
    },
    {
      "epoch": 0.4582092759139323,
      "grad_norm": 0.7313688630113688,
      "learning_rate": 1.1828871703113686e-05,
      "loss": 0.8636,
      "step": 7464
    },
    {
      "epoch": 0.4582706651523988,
      "grad_norm": 0.7521572509014901,
      "learning_rate": 1.1826916852881709e-05,
      "loss": 0.8431,
      "step": 7465
    },
    {
      "epoch": 0.4583320543908653,
      "grad_norm": 0.7804867163131696,
      "learning_rate": 1.1824961930421934e-05,
      "loss": 0.9199,
      "step": 7466
    },
    {
      "epoch": 0.45839344362933176,
      "grad_norm": 0.8095440869771603,
      "learning_rate": 1.1823006935811656e-05,
      "loss": 0.8543,
      "step": 7467
    },
    {
      "epoch": 0.45845483286779826,
      "grad_norm": 0.770106099269308,
      "learning_rate": 1.1821051869128165e-05,
      "loss": 0.8714,
      "step": 7468
    },
    {
      "epoch": 0.45851622210626475,
      "grad_norm": 0.800830041142692,
      "learning_rate": 1.181909673044875e-05,
      "loss": 0.8351,
      "step": 7469
    },
    {
      "epoch": 0.4585776113447313,
      "grad_norm": 0.7936803531272395,
      "learning_rate": 1.1817141519850713e-05,
      "loss": 0.8831,
      "step": 7470
    },
    {
      "epoch": 0.4586390005831978,
      "grad_norm": 0.7222384623732562,
      "learning_rate": 1.1815186237411353e-05,
      "loss": 0.8706,
      "step": 7471
    },
    {
      "epoch": 0.4587003898216643,
      "grad_norm": 0.6986579657876597,
      "learning_rate": 1.1813230883207974e-05,
      "loss": 0.8574,
      "step": 7472
    },
    {
      "epoch": 0.45876177906013077,
      "grad_norm": 0.6752964254930454,
      "learning_rate": 1.1811275457317879e-05,
      "loss": 0.8893,
      "step": 7473
    },
    {
      "epoch": 0.45882316829859726,
      "grad_norm": 0.736768968107597,
      "learning_rate": 1.1809319959818377e-05,
      "loss": 0.8533,
      "step": 7474
    },
    {
      "epoch": 0.45888455753706375,
      "grad_norm": 0.7422554110476415,
      "learning_rate": 1.1807364390786785e-05,
      "loss": 0.8889,
      "step": 7475
    },
    {
      "epoch": 0.45894594677553024,
      "grad_norm": 0.7850773174680278,
      "learning_rate": 1.1805408750300406e-05,
      "loss": 0.8626,
      "step": 7476
    },
    {
      "epoch": 0.45900733601399674,
      "grad_norm": 0.7384770115753455,
      "learning_rate": 1.1803453038436566e-05,
      "loss": 0.9011,
      "step": 7477
    },
    {
      "epoch": 0.45906872525246323,
      "grad_norm": 0.7365952438818385,
      "learning_rate": 1.1801497255272583e-05,
      "loss": 0.8294,
      "step": 7478
    },
    {
      "epoch": 0.4591301144909297,
      "grad_norm": 0.7700564415146378,
      "learning_rate": 1.1799541400885774e-05,
      "loss": 0.8812,
      "step": 7479
    },
    {
      "epoch": 0.4591915037293962,
      "grad_norm": 0.7433101571347285,
      "learning_rate": 1.1797585475353475e-05,
      "loss": 0.8938,
      "step": 7480
    },
    {
      "epoch": 0.45925289296786276,
      "grad_norm": 0.7868070507051977,
      "learning_rate": 1.1795629478753004e-05,
      "loss": 0.8992,
      "step": 7481
    },
    {
      "epoch": 0.45931428220632925,
      "grad_norm": 0.7671109943344575,
      "learning_rate": 1.1793673411161698e-05,
      "loss": 0.9171,
      "step": 7482
    },
    {
      "epoch": 0.45937567144479574,
      "grad_norm": 0.7654962037877916,
      "learning_rate": 1.1791717272656886e-05,
      "loss": 0.8707,
      "step": 7483
    },
    {
      "epoch": 0.45943706068326223,
      "grad_norm": 0.7951850072311104,
      "learning_rate": 1.178976106331591e-05,
      "loss": 0.8565,
      "step": 7484
    },
    {
      "epoch": 0.4594984499217287,
      "grad_norm": 0.740464022498234,
      "learning_rate": 1.1787804783216106e-05,
      "loss": 0.856,
      "step": 7485
    },
    {
      "epoch": 0.4595598391601952,
      "grad_norm": 0.8563120718945602,
      "learning_rate": 1.1785848432434814e-05,
      "loss": 0.8442,
      "step": 7486
    },
    {
      "epoch": 0.4596212283986617,
      "grad_norm": 0.7354009274090585,
      "learning_rate": 1.178389201104939e-05,
      "loss": 0.8683,
      "step": 7487
    },
    {
      "epoch": 0.4596826176371282,
      "grad_norm": 0.8104389890778052,
      "learning_rate": 1.1781935519137166e-05,
      "loss": 0.8906,
      "step": 7488
    },
    {
      "epoch": 0.4597440068755947,
      "grad_norm": 0.767419362306427,
      "learning_rate": 1.1779978956775507e-05,
      "loss": 0.8647,
      "step": 7489
    },
    {
      "epoch": 0.4598053961140612,
      "grad_norm": 0.7115349717732167,
      "learning_rate": 1.1778022324041754e-05,
      "loss": 0.8482,
      "step": 7490
    },
    {
      "epoch": 0.45986678535252773,
      "grad_norm": 0.8472067394882347,
      "learning_rate": 1.177606562101327e-05,
      "loss": 0.8784,
      "step": 7491
    },
    {
      "epoch": 0.4599281745909942,
      "grad_norm": 0.7504317872735143,
      "learning_rate": 1.1774108847767416e-05,
      "loss": 0.8497,
      "step": 7492
    },
    {
      "epoch": 0.4599895638294607,
      "grad_norm": 0.8369502036005081,
      "learning_rate": 1.177215200438155e-05,
      "loss": 0.8744,
      "step": 7493
    },
    {
      "epoch": 0.4600509530679272,
      "grad_norm": 0.8076393109083637,
      "learning_rate": 1.1770195090933035e-05,
      "loss": 0.8659,
      "step": 7494
    },
    {
      "epoch": 0.4601123423063937,
      "grad_norm": 0.7280468651457859,
      "learning_rate": 1.176823810749924e-05,
      "loss": 0.8295,
      "step": 7495
    },
    {
      "epoch": 0.4601737315448602,
      "grad_norm": 0.8211460506151851,
      "learning_rate": 1.1766281054157536e-05,
      "loss": 0.8982,
      "step": 7496
    },
    {
      "epoch": 0.4602351207833267,
      "grad_norm": 0.7541592726272967,
      "learning_rate": 1.1764323930985298e-05,
      "loss": 0.8761,
      "step": 7497
    },
    {
      "epoch": 0.46029651002179317,
      "grad_norm": 0.7018654166969376,
      "learning_rate": 1.1762366738059897e-05,
      "loss": 0.8907,
      "step": 7498
    },
    {
      "epoch": 0.46035789926025966,
      "grad_norm": 0.752729196379944,
      "learning_rate": 1.1760409475458712e-05,
      "loss": 0.8893,
      "step": 7499
    },
    {
      "epoch": 0.46041928849872615,
      "grad_norm": 0.6800525832534287,
      "learning_rate": 1.1758452143259128e-05,
      "loss": 0.889,
      "step": 7500
    },
    {
      "epoch": 0.46048067773719265,
      "grad_norm": 0.733339267160787,
      "learning_rate": 1.175649474153852e-05,
      "loss": 0.8426,
      "step": 7501
    },
    {
      "epoch": 0.4605420669756592,
      "grad_norm": 0.6969161279443401,
      "learning_rate": 1.1754537270374284e-05,
      "loss": 0.8828,
      "step": 7502
    },
    {
      "epoch": 0.4606034562141257,
      "grad_norm": 0.7200113219725907,
      "learning_rate": 1.1752579729843807e-05,
      "loss": 0.8563,
      "step": 7503
    },
    {
      "epoch": 0.4606648454525922,
      "grad_norm": 0.6571564501649796,
      "learning_rate": 1.175062212002448e-05,
      "loss": 0.8519,
      "step": 7504
    },
    {
      "epoch": 0.46072623469105867,
      "grad_norm": 0.7265418148178644,
      "learning_rate": 1.1748664440993695e-05,
      "loss": 0.8641,
      "step": 7505
    },
    {
      "epoch": 0.46078762392952516,
      "grad_norm": 0.7198279057675327,
      "learning_rate": 1.1746706692828853e-05,
      "loss": 0.8799,
      "step": 7506
    },
    {
      "epoch": 0.46084901316799165,
      "grad_norm": 0.6672418033129394,
      "learning_rate": 1.1744748875607357e-05,
      "loss": 0.8408,
      "step": 7507
    },
    {
      "epoch": 0.46091040240645814,
      "grad_norm": 0.6936301720965231,
      "learning_rate": 1.17427909894066e-05,
      "loss": 0.8438,
      "step": 7508
    },
    {
      "epoch": 0.46097179164492463,
      "grad_norm": 0.7115705962861486,
      "learning_rate": 1.1740833034303997e-05,
      "loss": 0.8698,
      "step": 7509
    },
    {
      "epoch": 0.4610331808833911,
      "grad_norm": 0.8322884638167366,
      "learning_rate": 1.1738875010376955e-05,
      "loss": 0.9012,
      "step": 7510
    },
    {
      "epoch": 0.4610945701218576,
      "grad_norm": 0.6289354663028275,
      "learning_rate": 1.1736916917702881e-05,
      "loss": 0.8097,
      "step": 7511
    },
    {
      "epoch": 0.4611559593603241,
      "grad_norm": 0.768126557173663,
      "learning_rate": 1.1734958756359196e-05,
      "loss": 0.8528,
      "step": 7512
    },
    {
      "epoch": 0.46121734859879066,
      "grad_norm": 0.7169312670206279,
      "learning_rate": 1.1733000526423309e-05,
      "loss": 0.8879,
      "step": 7513
    },
    {
      "epoch": 0.46127873783725715,
      "grad_norm": 0.6847611818384081,
      "learning_rate": 1.1731042227972645e-05,
      "loss": 0.8372,
      "step": 7514
    },
    {
      "epoch": 0.46134012707572364,
      "grad_norm": 0.775562354110037,
      "learning_rate": 1.1729083861084618e-05,
      "loss": 0.8895,
      "step": 7515
    },
    {
      "epoch": 0.46140151631419013,
      "grad_norm": 0.8061112017059039,
      "learning_rate": 1.1727125425836663e-05,
      "loss": 0.8637,
      "step": 7516
    },
    {
      "epoch": 0.4614629055526566,
      "grad_norm": 0.7547195687467958,
      "learning_rate": 1.1725166922306202e-05,
      "loss": 0.8814,
      "step": 7517
    },
    {
      "epoch": 0.4615242947911231,
      "grad_norm": 0.7534044253498425,
      "learning_rate": 1.1723208350570662e-05,
      "loss": 0.8483,
      "step": 7518
    },
    {
      "epoch": 0.4615856840295896,
      "grad_norm": 0.7866811902278542,
      "learning_rate": 1.1721249710707485e-05,
      "loss": 0.8861,
      "step": 7519
    },
    {
      "epoch": 0.4616470732680561,
      "grad_norm": 0.8043396472431964,
      "learning_rate": 1.1719291002794096e-05,
      "loss": 0.88,
      "step": 7520
    },
    {
      "epoch": 0.4617084625065226,
      "grad_norm": 0.751503089955557,
      "learning_rate": 1.1717332226907942e-05,
      "loss": 0.8461,
      "step": 7521
    },
    {
      "epoch": 0.4617698517449891,
      "grad_norm": 0.7521842073974147,
      "learning_rate": 1.1715373383126459e-05,
      "loss": 0.8646,
      "step": 7522
    },
    {
      "epoch": 0.4618312409834556,
      "grad_norm": 0.7909304144138296,
      "learning_rate": 1.171341447152709e-05,
      "loss": 0.8739,
      "step": 7523
    },
    {
      "epoch": 0.4618926302219221,
      "grad_norm": 0.7628862576095861,
      "learning_rate": 1.1711455492187284e-05,
      "loss": 0.9038,
      "step": 7524
    },
    {
      "epoch": 0.4619540194603886,
      "grad_norm": 0.7107506852367798,
      "learning_rate": 1.1709496445184489e-05,
      "loss": 0.8346,
      "step": 7525
    },
    {
      "epoch": 0.4620154086988551,
      "grad_norm": 0.7550686981741404,
      "learning_rate": 1.1707537330596159e-05,
      "loss": 0.877,
      "step": 7526
    },
    {
      "epoch": 0.4620767979373216,
      "grad_norm": 0.7906530017885639,
      "learning_rate": 1.1705578148499743e-05,
      "loss": 0.8724,
      "step": 7527
    },
    {
      "epoch": 0.4621381871757881,
      "grad_norm": 0.7490208457874044,
      "learning_rate": 1.17036188989727e-05,
      "loss": 0.8397,
      "step": 7528
    },
    {
      "epoch": 0.4621995764142546,
      "grad_norm": 0.7571782413714095,
      "learning_rate": 1.1701659582092493e-05,
      "loss": 0.8582,
      "step": 7529
    },
    {
      "epoch": 0.46226096565272107,
      "grad_norm": 0.766101259842319,
      "learning_rate": 1.1699700197936581e-05,
      "loss": 0.9259,
      "step": 7530
    },
    {
      "epoch": 0.46232235489118756,
      "grad_norm": 0.772542632885962,
      "learning_rate": 1.1697740746582428e-05,
      "loss": 0.8784,
      "step": 7531
    },
    {
      "epoch": 0.46238374412965405,
      "grad_norm": 0.725475804742687,
      "learning_rate": 1.1695781228107506e-05,
      "loss": 0.8407,
      "step": 7532
    },
    {
      "epoch": 0.46244513336812054,
      "grad_norm": 0.7024522461626885,
      "learning_rate": 1.1693821642589276e-05,
      "loss": 0.8512,
      "step": 7533
    },
    {
      "epoch": 0.4625065226065871,
      "grad_norm": 0.7740425613418556,
      "learning_rate": 1.1691861990105222e-05,
      "loss": 0.8938,
      "step": 7534
    },
    {
      "epoch": 0.4625679118450536,
      "grad_norm": 0.7606848952547897,
      "learning_rate": 1.1689902270732816e-05,
      "loss": 0.8773,
      "step": 7535
    },
    {
      "epoch": 0.4626293010835201,
      "grad_norm": 0.8203655351190615,
      "learning_rate": 1.1687942484549533e-05,
      "loss": 0.8227,
      "step": 7536
    },
    {
      "epoch": 0.46269069032198656,
      "grad_norm": 0.7626680313365337,
      "learning_rate": 1.1685982631632857e-05,
      "loss": 0.8265,
      "step": 7537
    },
    {
      "epoch": 0.46275207956045306,
      "grad_norm": 0.6971256131316426,
      "learning_rate": 1.1684022712060269e-05,
      "loss": 0.7673,
      "step": 7538
    },
    {
      "epoch": 0.46281346879891955,
      "grad_norm": 0.7014164482227622,
      "learning_rate": 1.1682062725909257e-05,
      "loss": 0.8717,
      "step": 7539
    },
    {
      "epoch": 0.46287485803738604,
      "grad_norm": 0.8076091638307386,
      "learning_rate": 1.1680102673257308e-05,
      "loss": 0.8511,
      "step": 7540
    },
    {
      "epoch": 0.46293624727585253,
      "grad_norm": 0.7654057852991688,
      "learning_rate": 1.1678142554181915e-05,
      "loss": 0.8559,
      "step": 7541
    },
    {
      "epoch": 0.462997636514319,
      "grad_norm": 0.7818812905420544,
      "learning_rate": 1.1676182368760573e-05,
      "loss": 0.8978,
      "step": 7542
    },
    {
      "epoch": 0.4630590257527855,
      "grad_norm": 0.7399615316504612,
      "learning_rate": 1.1674222117070774e-05,
      "loss": 0.9265,
      "step": 7543
    },
    {
      "epoch": 0.46312041499125206,
      "grad_norm": 0.8256320250810827,
      "learning_rate": 1.1672261799190026e-05,
      "loss": 0.8654,
      "step": 7544
    },
    {
      "epoch": 0.46318180422971855,
      "grad_norm": 0.752137030128421,
      "learning_rate": 1.167030141519582e-05,
      "loss": 0.8822,
      "step": 7545
    },
    {
      "epoch": 0.46324319346818504,
      "grad_norm": 0.7201843284507333,
      "learning_rate": 1.166834096516567e-05,
      "loss": 0.8909,
      "step": 7546
    },
    {
      "epoch": 0.46330458270665154,
      "grad_norm": 0.7751861397054958,
      "learning_rate": 1.1666380449177073e-05,
      "loss": 0.8917,
      "step": 7547
    },
    {
      "epoch": 0.463365971945118,
      "grad_norm": 0.838029932136675,
      "learning_rate": 1.1664419867307548e-05,
      "loss": 0.9026,
      "step": 7548
    },
    {
      "epoch": 0.4634273611835845,
      "grad_norm": 0.8123768933368958,
      "learning_rate": 1.1662459219634603e-05,
      "loss": 0.9004,
      "step": 7549
    },
    {
      "epoch": 0.463488750422051,
      "grad_norm": 0.7543880794803738,
      "learning_rate": 1.1660498506235754e-05,
      "loss": 0.8465,
      "step": 7550
    },
    {
      "epoch": 0.4635501396605175,
      "grad_norm": 0.7229559315156436,
      "learning_rate": 1.1658537727188519e-05,
      "loss": 0.8269,
      "step": 7551
    },
    {
      "epoch": 0.463611528898984,
      "grad_norm": 0.7996242479553077,
      "learning_rate": 1.1656576882570413e-05,
      "loss": 0.8996,
      "step": 7552
    },
    {
      "epoch": 0.4636729181374505,
      "grad_norm": 0.7557409604476935,
      "learning_rate": 1.1654615972458968e-05,
      "loss": 0.8693,
      "step": 7553
    },
    {
      "epoch": 0.463734307375917,
      "grad_norm": 0.7991474284853051,
      "learning_rate": 1.16526549969317e-05,
      "loss": 0.8248,
      "step": 7554
    },
    {
      "epoch": 0.4637956966143835,
      "grad_norm": 0.7377023447681629,
      "learning_rate": 1.1650693956066146e-05,
      "loss": 0.8697,
      "step": 7555
    },
    {
      "epoch": 0.46385708585285,
      "grad_norm": 0.8005729148688826,
      "learning_rate": 1.1648732849939827e-05,
      "loss": 0.8756,
      "step": 7556
    },
    {
      "epoch": 0.4639184750913165,
      "grad_norm": 0.7629486867787765,
      "learning_rate": 1.164677167863028e-05,
      "loss": 0.8769,
      "step": 7557
    },
    {
      "epoch": 0.463979864329783,
      "grad_norm": 0.7953319602629569,
      "learning_rate": 1.1644810442215044e-05,
      "loss": 0.8636,
      "step": 7558
    },
    {
      "epoch": 0.4640412535682495,
      "grad_norm": 0.7111988108341877,
      "learning_rate": 1.1642849140771653e-05,
      "loss": 0.8976,
      "step": 7559
    },
    {
      "epoch": 0.464102642806716,
      "grad_norm": 0.762338953573442,
      "learning_rate": 1.164088777437765e-05,
      "loss": 0.9019,
      "step": 7560
    },
    {
      "epoch": 0.4641640320451825,
      "grad_norm": 0.7343959681274369,
      "learning_rate": 1.1638926343110574e-05,
      "loss": 0.8603,
      "step": 7561
    },
    {
      "epoch": 0.46422542128364896,
      "grad_norm": 0.7437355486499109,
      "learning_rate": 1.1636964847047976e-05,
      "loss": 0.8588,
      "step": 7562
    },
    {
      "epoch": 0.46428681052211546,
      "grad_norm": 0.71028859810141,
      "learning_rate": 1.1635003286267403e-05,
      "loss": 0.834,
      "step": 7563
    },
    {
      "epoch": 0.46434819976058195,
      "grad_norm": 0.7528001589148839,
      "learning_rate": 1.1633041660846405e-05,
      "loss": 0.8598,
      "step": 7564
    },
    {
      "epoch": 0.46440958899904844,
      "grad_norm": 0.7976501024007132,
      "learning_rate": 1.1631079970862536e-05,
      "loss": 0.848,
      "step": 7565
    },
    {
      "epoch": 0.464470978237515,
      "grad_norm": 0.7277343815201363,
      "learning_rate": 1.1629118216393351e-05,
      "loss": 0.8964,
      "step": 7566
    },
    {
      "epoch": 0.4645323674759815,
      "grad_norm": 0.741299900196914,
      "learning_rate": 1.1627156397516412e-05,
      "loss": 0.8669,
      "step": 7567
    },
    {
      "epoch": 0.46459375671444797,
      "grad_norm": 0.8048525858630637,
      "learning_rate": 1.1625194514309277e-05,
      "loss": 0.8514,
      "step": 7568
    },
    {
      "epoch": 0.46465514595291446,
      "grad_norm": 0.7425251204269625,
      "learning_rate": 1.1623232566849512e-05,
      "loss": 0.8717,
      "step": 7569
    },
    {
      "epoch": 0.46471653519138095,
      "grad_norm": 0.7438141203805285,
      "learning_rate": 1.1621270555214677e-05,
      "loss": 0.8667,
      "step": 7570
    },
    {
      "epoch": 0.46477792442984744,
      "grad_norm": 0.7810835860189996,
      "learning_rate": 1.1619308479482352e-05,
      "loss": 0.9236,
      "step": 7571
    },
    {
      "epoch": 0.46483931366831394,
      "grad_norm": 0.6768542936308484,
      "learning_rate": 1.1617346339730098e-05,
      "loss": 0.8403,
      "step": 7572
    },
    {
      "epoch": 0.4649007029067804,
      "grad_norm": 0.8255278977940862,
      "learning_rate": 1.1615384136035494e-05,
      "loss": 0.8597,
      "step": 7573
    },
    {
      "epoch": 0.4649620921452469,
      "grad_norm": 0.8206384422161174,
      "learning_rate": 1.1613421868476115e-05,
      "loss": 0.8651,
      "step": 7574
    },
    {
      "epoch": 0.4650234813837134,
      "grad_norm": 0.7109631745198666,
      "learning_rate": 1.1611459537129542e-05,
      "loss": 0.8651,
      "step": 7575
    },
    {
      "epoch": 0.46508487062217996,
      "grad_norm": 0.7627053071584906,
      "learning_rate": 1.1609497142073356e-05,
      "loss": 0.8034,
      "step": 7576
    },
    {
      "epoch": 0.46514625986064645,
      "grad_norm": 0.809073070328644,
      "learning_rate": 1.1607534683385135e-05,
      "loss": 0.8766,
      "step": 7577
    },
    {
      "epoch": 0.46520764909911294,
      "grad_norm": 0.7470397107136545,
      "learning_rate": 1.1605572161142475e-05,
      "loss": 0.8465,
      "step": 7578
    },
    {
      "epoch": 0.46526903833757943,
      "grad_norm": 0.7370665218864719,
      "learning_rate": 1.1603609575422959e-05,
      "loss": 0.8674,
      "step": 7579
    },
    {
      "epoch": 0.4653304275760459,
      "grad_norm": 0.7886206311691056,
      "learning_rate": 1.1601646926304177e-05,
      "loss": 0.8522,
      "step": 7580
    },
    {
      "epoch": 0.4653918168145124,
      "grad_norm": 0.8146374416164418,
      "learning_rate": 1.1599684213863728e-05,
      "loss": 0.8967,
      "step": 7581
    },
    {
      "epoch": 0.4654532060529789,
      "grad_norm": 0.8250313612301822,
      "learning_rate": 1.1597721438179205e-05,
      "loss": 0.9258,
      "step": 7582
    },
    {
      "epoch": 0.4655145952914454,
      "grad_norm": 0.7084858098986264,
      "learning_rate": 1.1595758599328213e-05,
      "loss": 0.8138,
      "step": 7583
    },
    {
      "epoch": 0.4655759845299119,
      "grad_norm": 0.7415600449589995,
      "learning_rate": 1.1593795697388343e-05,
      "loss": 0.8126,
      "step": 7584
    },
    {
      "epoch": 0.4656373737683784,
      "grad_norm": 0.7331272097310799,
      "learning_rate": 1.159183273243721e-05,
      "loss": 0.8209,
      "step": 7585
    },
    {
      "epoch": 0.4656987630068449,
      "grad_norm": 0.7656110807024621,
      "learning_rate": 1.158986970455241e-05,
      "loss": 0.8903,
      "step": 7586
    },
    {
      "epoch": 0.4657601522453114,
      "grad_norm": 0.7636888494363725,
      "learning_rate": 1.158790661381156e-05,
      "loss": 0.9269,
      "step": 7587
    },
    {
      "epoch": 0.4658215414837779,
      "grad_norm": 0.7153387874450545,
      "learning_rate": 1.158594346029227e-05,
      "loss": 0.8589,
      "step": 7588
    },
    {
      "epoch": 0.4658829307222444,
      "grad_norm": 0.7727129268345152,
      "learning_rate": 1.158398024407215e-05,
      "loss": 0.9018,
      "step": 7589
    },
    {
      "epoch": 0.4659443199607109,
      "grad_norm": 0.7575613530927757,
      "learning_rate": 1.1582016965228823e-05,
      "loss": 0.8752,
      "step": 7590
    },
    {
      "epoch": 0.4660057091991774,
      "grad_norm": 0.7432946671936305,
      "learning_rate": 1.15800536238399e-05,
      "loss": 0.835,
      "step": 7591
    },
    {
      "epoch": 0.4660670984376439,
      "grad_norm": 0.7482247907434718,
      "learning_rate": 1.157809021998301e-05,
      "loss": 0.8565,
      "step": 7592
    },
    {
      "epoch": 0.46612848767611037,
      "grad_norm": 0.7190625829171073,
      "learning_rate": 1.1576126753735772e-05,
      "loss": 0.8463,
      "step": 7593
    },
    {
      "epoch": 0.46618987691457686,
      "grad_norm": 0.7158685742644109,
      "learning_rate": 1.1574163225175814e-05,
      "loss": 0.8271,
      "step": 7594
    },
    {
      "epoch": 0.46625126615304335,
      "grad_norm": 0.7768616966780206,
      "learning_rate": 1.1572199634380763e-05,
      "loss": 0.8703,
      "step": 7595
    },
    {
      "epoch": 0.46631265539150984,
      "grad_norm": 0.7064261787818129,
      "learning_rate": 1.1570235981428252e-05,
      "loss": 0.8947,
      "step": 7596
    },
    {
      "epoch": 0.4663740446299764,
      "grad_norm": 0.7288702708873219,
      "learning_rate": 1.1568272266395915e-05,
      "loss": 0.8442,
      "step": 7597
    },
    {
      "epoch": 0.4664354338684429,
      "grad_norm": 0.8074613730979113,
      "learning_rate": 1.1566308489361388e-05,
      "loss": 0.9241,
      "step": 7598
    },
    {
      "epoch": 0.4664968231069094,
      "grad_norm": 0.6366522435283225,
      "learning_rate": 1.156434465040231e-05,
      "loss": 0.6968,
      "step": 7599
    },
    {
      "epoch": 0.46655821234537587,
      "grad_norm": 0.5686123571759175,
      "learning_rate": 1.156238074959632e-05,
      "loss": 0.6818,
      "step": 7600
    },
    {
      "epoch": 0.46661960158384236,
      "grad_norm": 0.8215959326127904,
      "learning_rate": 1.1560416787021065e-05,
      "loss": 0.9225,
      "step": 7601
    },
    {
      "epoch": 0.46668099082230885,
      "grad_norm": 0.7389201132948356,
      "learning_rate": 1.1558452762754184e-05,
      "loss": 0.8481,
      "step": 7602
    },
    {
      "epoch": 0.46674238006077534,
      "grad_norm": 0.791679721626058,
      "learning_rate": 1.1556488676873336e-05,
      "loss": 0.8988,
      "step": 7603
    },
    {
      "epoch": 0.46680376929924183,
      "grad_norm": 0.7642046071509483,
      "learning_rate": 1.1554524529456162e-05,
      "loss": 0.8868,
      "step": 7604
    },
    {
      "epoch": 0.4668651585377083,
      "grad_norm": 0.7854551626265899,
      "learning_rate": 1.155256032058032e-05,
      "loss": 0.8385,
      "step": 7605
    },
    {
      "epoch": 0.4669265477761748,
      "grad_norm": 0.7492334086388197,
      "learning_rate": 1.1550596050323464e-05,
      "loss": 0.839,
      "step": 7606
    },
    {
      "epoch": 0.4669879370146413,
      "grad_norm": 0.7981955443632488,
      "learning_rate": 1.1548631718763253e-05,
      "loss": 0.9097,
      "step": 7607
    },
    {
      "epoch": 0.46704932625310785,
      "grad_norm": 0.7737450387818472,
      "learning_rate": 1.154666732597735e-05,
      "loss": 0.8919,
      "step": 7608
    },
    {
      "epoch": 0.46711071549157435,
      "grad_norm": 0.7468698983113123,
      "learning_rate": 1.1544702872043411e-05,
      "loss": 0.8667,
      "step": 7609
    },
    {
      "epoch": 0.46717210473004084,
      "grad_norm": 0.7224033909960983,
      "learning_rate": 1.1542738357039111e-05,
      "loss": 0.8524,
      "step": 7610
    },
    {
      "epoch": 0.46723349396850733,
      "grad_norm": 0.7433501498221031,
      "learning_rate": 1.1540773781042109e-05,
      "loss": 0.8303,
      "step": 7611
    },
    {
      "epoch": 0.4672948832069738,
      "grad_norm": 0.7679430645587051,
      "learning_rate": 1.1538809144130081e-05,
      "loss": 0.8808,
      "step": 7612
    },
    {
      "epoch": 0.4673562724454403,
      "grad_norm": 0.8521600006160716,
      "learning_rate": 1.1536844446380698e-05,
      "loss": 0.8715,
      "step": 7613
    },
    {
      "epoch": 0.4674176616839068,
      "grad_norm": 0.7770340652001775,
      "learning_rate": 1.1534879687871629e-05,
      "loss": 0.889,
      "step": 7614
    },
    {
      "epoch": 0.4674790509223733,
      "grad_norm": 0.75366991272358,
      "learning_rate": 1.1532914868680564e-05,
      "loss": 0.8712,
      "step": 7615
    },
    {
      "epoch": 0.4675404401608398,
      "grad_norm": 0.736334445014511,
      "learning_rate": 1.153094998888517e-05,
      "loss": 0.8593,
      "step": 7616
    },
    {
      "epoch": 0.4676018293993063,
      "grad_norm": 0.8091101831315318,
      "learning_rate": 1.152898504856314e-05,
      "loss": 0.8847,
      "step": 7617
    },
    {
      "epoch": 0.46766321863777277,
      "grad_norm": 0.7697052565097029,
      "learning_rate": 1.1527020047792148e-05,
      "loss": 0.8372,
      "step": 7618
    },
    {
      "epoch": 0.4677246078762393,
      "grad_norm": 0.8362282001384448,
      "learning_rate": 1.1525054986649891e-05,
      "loss": 0.892,
      "step": 7619
    },
    {
      "epoch": 0.4677859971147058,
      "grad_norm": 0.6931282361830157,
      "learning_rate": 1.152308986521405e-05,
      "loss": 0.8569,
      "step": 7620
    },
    {
      "epoch": 0.4678473863531723,
      "grad_norm": 0.7297644671330235,
      "learning_rate": 1.1521124683562322e-05,
      "loss": 0.8574,
      "step": 7621
    },
    {
      "epoch": 0.4679087755916388,
      "grad_norm": 0.7803602656194065,
      "learning_rate": 1.1519159441772403e-05,
      "loss": 0.8915,
      "step": 7622
    },
    {
      "epoch": 0.4679701648301053,
      "grad_norm": 0.7985386578612301,
      "learning_rate": 1.1517194139921981e-05,
      "loss": 0.9393,
      "step": 7623
    },
    {
      "epoch": 0.4680315540685718,
      "grad_norm": 0.730453641603195,
      "learning_rate": 1.1515228778088763e-05,
      "loss": 0.8904,
      "step": 7624
    },
    {
      "epoch": 0.46809294330703827,
      "grad_norm": 0.8128202670512834,
      "learning_rate": 1.1513263356350446e-05,
      "loss": 0.8782,
      "step": 7625
    },
    {
      "epoch": 0.46815433254550476,
      "grad_norm": 0.7513922167289865,
      "learning_rate": 1.1511297874784738e-05,
      "loss": 0.9018,
      "step": 7626
    },
    {
      "epoch": 0.46821572178397125,
      "grad_norm": 0.7725705981138815,
      "learning_rate": 1.1509332333469339e-05,
      "loss": 0.8608,
      "step": 7627
    },
    {
      "epoch": 0.46827711102243774,
      "grad_norm": 0.7567149542029078,
      "learning_rate": 1.150736673248196e-05,
      "loss": 0.855,
      "step": 7628
    },
    {
      "epoch": 0.4683385002609043,
      "grad_norm": 0.6629599656863869,
      "learning_rate": 1.1505401071900313e-05,
      "loss": 0.8135,
      "step": 7629
    },
    {
      "epoch": 0.4683998894993708,
      "grad_norm": 0.7599402795471658,
      "learning_rate": 1.150343535180211e-05,
      "loss": 0.856,
      "step": 7630
    },
    {
      "epoch": 0.4684612787378373,
      "grad_norm": 0.7298604470273483,
      "learning_rate": 1.1501469572265066e-05,
      "loss": 0.8944,
      "step": 7631
    },
    {
      "epoch": 0.46852266797630376,
      "grad_norm": 0.8563612823035229,
      "learning_rate": 1.1499503733366903e-05,
      "loss": 0.8992,
      "step": 7632
    },
    {
      "epoch": 0.46858405721477026,
      "grad_norm": 0.7705170189547937,
      "learning_rate": 1.1497537835185336e-05,
      "loss": 0.9162,
      "step": 7633
    },
    {
      "epoch": 0.46864544645323675,
      "grad_norm": 0.7276698157277433,
      "learning_rate": 1.1495571877798086e-05,
      "loss": 0.849,
      "step": 7634
    },
    {
      "epoch": 0.46870683569170324,
      "grad_norm": 0.8851310280596155,
      "learning_rate": 1.1493605861282882e-05,
      "loss": 0.8868,
      "step": 7635
    },
    {
      "epoch": 0.46876822493016973,
      "grad_norm": 0.7261658001919157,
      "learning_rate": 1.1491639785717452e-05,
      "loss": 0.8252,
      "step": 7636
    },
    {
      "epoch": 0.4688296141686362,
      "grad_norm": 0.7611141637783825,
      "learning_rate": 1.1489673651179523e-05,
      "loss": 0.8503,
      "step": 7637
    },
    {
      "epoch": 0.4688910034071027,
      "grad_norm": 0.7662387017007319,
      "learning_rate": 1.1487707457746826e-05,
      "loss": 0.8826,
      "step": 7638
    },
    {
      "epoch": 0.4689523926455692,
      "grad_norm": 0.8133510766924799,
      "learning_rate": 1.1485741205497094e-05,
      "loss": 0.9162,
      "step": 7639
    },
    {
      "epoch": 0.46901378188403575,
      "grad_norm": 0.7133158822939181,
      "learning_rate": 1.148377489450807e-05,
      "loss": 0.8434,
      "step": 7640
    },
    {
      "epoch": 0.46907517112250224,
      "grad_norm": 0.7240057598237175,
      "learning_rate": 1.1481808524857487e-05,
      "loss": 0.8614,
      "step": 7641
    },
    {
      "epoch": 0.46913656036096874,
      "grad_norm": 0.6539392847235568,
      "learning_rate": 1.1479842096623091e-05,
      "loss": 0.8133,
      "step": 7642
    },
    {
      "epoch": 0.4691979495994352,
      "grad_norm": 0.6665876781152306,
      "learning_rate": 1.1477875609882617e-05,
      "loss": 0.8536,
      "step": 7643
    },
    {
      "epoch": 0.4692593388379017,
      "grad_norm": 0.7402429255579384,
      "learning_rate": 1.1475909064713818e-05,
      "loss": 0.8895,
      "step": 7644
    },
    {
      "epoch": 0.4693207280763682,
      "grad_norm": 0.7596654053777551,
      "learning_rate": 1.147394246119444e-05,
      "loss": 0.8667,
      "step": 7645
    },
    {
      "epoch": 0.4693821173148347,
      "grad_norm": 0.765138232319007,
      "learning_rate": 1.1471975799402233e-05,
      "loss": 0.9045,
      "step": 7646
    },
    {
      "epoch": 0.4694435065533012,
      "grad_norm": 0.7659973346620677,
      "learning_rate": 1.1470009079414953e-05,
      "loss": 0.8438,
      "step": 7647
    },
    {
      "epoch": 0.4695048957917677,
      "grad_norm": 0.8140970817038885,
      "learning_rate": 1.1468042301310347e-05,
      "loss": 0.8944,
      "step": 7648
    },
    {
      "epoch": 0.4695662850302342,
      "grad_norm": 0.8885296197755467,
      "learning_rate": 1.1466075465166182e-05,
      "loss": 0.8846,
      "step": 7649
    },
    {
      "epoch": 0.4696276742687007,
      "grad_norm": 0.8322191966900487,
      "learning_rate": 1.1464108571060209e-05,
      "loss": 0.8985,
      "step": 7650
    },
    {
      "epoch": 0.4696890635071672,
      "grad_norm": 0.7669001030654022,
      "learning_rate": 1.1462141619070193e-05,
      "loss": 0.8774,
      "step": 7651
    },
    {
      "epoch": 0.4697504527456337,
      "grad_norm": 0.7149884410357005,
      "learning_rate": 1.1460174609273902e-05,
      "loss": 0.8587,
      "step": 7652
    },
    {
      "epoch": 0.4698118419841002,
      "grad_norm": 0.7324021491253158,
      "learning_rate": 1.1458207541749096e-05,
      "loss": 0.8259,
      "step": 7653
    },
    {
      "epoch": 0.4698732312225667,
      "grad_norm": 0.8029860101061472,
      "learning_rate": 1.145624041657355e-05,
      "loss": 0.8481,
      "step": 7654
    },
    {
      "epoch": 0.4699346204610332,
      "grad_norm": 0.6802716393186043,
      "learning_rate": 1.1454273233825028e-05,
      "loss": 0.8198,
      "step": 7655
    },
    {
      "epoch": 0.4699960096994997,
      "grad_norm": 0.7149908179859105,
      "learning_rate": 1.145230599358131e-05,
      "loss": 0.8608,
      "step": 7656
    },
    {
      "epoch": 0.47005739893796616,
      "grad_norm": 0.6883404096218982,
      "learning_rate": 1.1450338695920169e-05,
      "loss": 0.8855,
      "step": 7657
    },
    {
      "epoch": 0.47011878817643266,
      "grad_norm": 0.8047532950195676,
      "learning_rate": 1.144837134091938e-05,
      "loss": 0.9001,
      "step": 7658
    },
    {
      "epoch": 0.47018017741489915,
      "grad_norm": 0.7539363744998897,
      "learning_rate": 1.144640392865673e-05,
      "loss": 0.8959,
      "step": 7659
    },
    {
      "epoch": 0.47024156665336564,
      "grad_norm": 0.8321497560722936,
      "learning_rate": 1.1444436459209988e-05,
      "loss": 0.8267,
      "step": 7660
    },
    {
      "epoch": 0.4703029558918322,
      "grad_norm": 0.7677153462032985,
      "learning_rate": 1.1442468932656957e-05,
      "loss": 0.9099,
      "step": 7661
    },
    {
      "epoch": 0.4703643451302987,
      "grad_norm": 0.7889774350015829,
      "learning_rate": 1.1440501349075408e-05,
      "loss": 0.8387,
      "step": 7662
    },
    {
      "epoch": 0.47042573436876517,
      "grad_norm": 0.7828417312920335,
      "learning_rate": 1.1438533708543141e-05,
      "loss": 0.8135,
      "step": 7663
    },
    {
      "epoch": 0.47048712360723166,
      "grad_norm": 0.7478319000927369,
      "learning_rate": 1.143656601113794e-05,
      "loss": 0.879,
      "step": 7664
    },
    {
      "epoch": 0.47054851284569815,
      "grad_norm": 0.7729063122734173,
      "learning_rate": 1.14345982569376e-05,
      "loss": 0.8153,
      "step": 7665
    },
    {
      "epoch": 0.47060990208416464,
      "grad_norm": 0.8573533710238835,
      "learning_rate": 1.1432630446019918e-05,
      "loss": 0.86,
      "step": 7666
    },
    {
      "epoch": 0.47067129132263114,
      "grad_norm": 0.7590556712142424,
      "learning_rate": 1.1430662578462694e-05,
      "loss": 0.838,
      "step": 7667
    },
    {
      "epoch": 0.4707326805610976,
      "grad_norm": 0.7175170397762369,
      "learning_rate": 1.1428694654343726e-05,
      "loss": 0.8131,
      "step": 7668
    },
    {
      "epoch": 0.4707940697995641,
      "grad_norm": 0.8275598110858471,
      "learning_rate": 1.1426726673740817e-05,
      "loss": 0.8839,
      "step": 7669
    },
    {
      "epoch": 0.4708554590380306,
      "grad_norm": 0.772536059727323,
      "learning_rate": 1.1424758636731774e-05,
      "loss": 0.8425,
      "step": 7670
    },
    {
      "epoch": 0.47091684827649716,
      "grad_norm": 0.8201144865026263,
      "learning_rate": 1.14227905433944e-05,
      "loss": 0.9017,
      "step": 7671
    },
    {
      "epoch": 0.47097823751496365,
      "grad_norm": 0.7787461450677753,
      "learning_rate": 1.1420822393806508e-05,
      "loss": 0.8793,
      "step": 7672
    },
    {
      "epoch": 0.47103962675343014,
      "grad_norm": 0.7984418682048353,
      "learning_rate": 1.1418854188045904e-05,
      "loss": 0.8445,
      "step": 7673
    },
    {
      "epoch": 0.47110101599189663,
      "grad_norm": 0.8780251528362931,
      "learning_rate": 1.1416885926190409e-05,
      "loss": 0.8615,
      "step": 7674
    },
    {
      "epoch": 0.4711624052303631,
      "grad_norm": 0.7260070726908675,
      "learning_rate": 1.1414917608317832e-05,
      "loss": 0.8501,
      "step": 7675
    },
    {
      "epoch": 0.4712237944688296,
      "grad_norm": 0.7771626034928578,
      "learning_rate": 1.1412949234505999e-05,
      "loss": 0.9099,
      "step": 7676
    },
    {
      "epoch": 0.4712851837072961,
      "grad_norm": 0.7285476112440764,
      "learning_rate": 1.1410980804832722e-05,
      "loss": 0.8625,
      "step": 7677
    },
    {
      "epoch": 0.4713465729457626,
      "grad_norm": 0.7641837057057606,
      "learning_rate": 1.1409012319375828e-05,
      "loss": 0.8375,
      "step": 7678
    },
    {
      "epoch": 0.4714079621842291,
      "grad_norm": 0.7614984065495675,
      "learning_rate": 1.1407043778213142e-05,
      "loss": 0.8761,
      "step": 7679
    },
    {
      "epoch": 0.4714693514226956,
      "grad_norm": 0.7423981465241772,
      "learning_rate": 1.1405075181422489e-05,
      "loss": 0.867,
      "step": 7680
    },
    {
      "epoch": 0.4715307406611621,
      "grad_norm": 0.720466528728775,
      "learning_rate": 1.14031065290817e-05,
      "loss": 0.8395,
      "step": 7681
    },
    {
      "epoch": 0.4715921298996286,
      "grad_norm": 0.8621272874138802,
      "learning_rate": 1.1401137821268607e-05,
      "loss": 0.9122,
      "step": 7682
    },
    {
      "epoch": 0.4716535191380951,
      "grad_norm": 0.7499951126756137,
      "learning_rate": 1.139916905806104e-05,
      "loss": 0.8346,
      "step": 7683
    },
    {
      "epoch": 0.4717149083765616,
      "grad_norm": 0.8620997413105865,
      "learning_rate": 1.1397200239536836e-05,
      "loss": 0.9136,
      "step": 7684
    },
    {
      "epoch": 0.4717762976150281,
      "grad_norm": 0.7731707402728834,
      "learning_rate": 1.1395231365773833e-05,
      "loss": 0.8945,
      "step": 7685
    },
    {
      "epoch": 0.4718376868534946,
      "grad_norm": 0.7481008925416273,
      "learning_rate": 1.1393262436849876e-05,
      "loss": 0.8354,
      "step": 7686
    },
    {
      "epoch": 0.4718990760919611,
      "grad_norm": 0.8588635678804829,
      "learning_rate": 1.13912934528428e-05,
      "loss": 0.8972,
      "step": 7687
    },
    {
      "epoch": 0.47196046533042757,
      "grad_norm": 0.8202029620092314,
      "learning_rate": 1.1389324413830454e-05,
      "loss": 0.9065,
      "step": 7688
    },
    {
      "epoch": 0.47202185456889406,
      "grad_norm": 0.7318992319623148,
      "learning_rate": 1.1387355319890685e-05,
      "loss": 0.851,
      "step": 7689
    },
    {
      "epoch": 0.47208324380736055,
      "grad_norm": 0.7609453420515186,
      "learning_rate": 1.1385386171101338e-05,
      "loss": 0.8719,
      "step": 7690
    },
    {
      "epoch": 0.47214463304582704,
      "grad_norm": 0.7026582264989515,
      "learning_rate": 1.1383416967540266e-05,
      "loss": 0.8469,
      "step": 7691
    },
    {
      "epoch": 0.47220602228429354,
      "grad_norm": 0.7568317261694892,
      "learning_rate": 1.138144770928532e-05,
      "loss": 0.8064,
      "step": 7692
    },
    {
      "epoch": 0.4722674115227601,
      "grad_norm": 0.8551186639260655,
      "learning_rate": 1.137947839641436e-05,
      "loss": 0.9514,
      "step": 7693
    },
    {
      "epoch": 0.4723288007612266,
      "grad_norm": 0.8166791104262353,
      "learning_rate": 1.1377509029005243e-05,
      "loss": 0.8782,
      "step": 7694
    },
    {
      "epoch": 0.47239018999969307,
      "grad_norm": 0.6842696604213699,
      "learning_rate": 1.1375539607135827e-05,
      "loss": 0.8236,
      "step": 7695
    },
    {
      "epoch": 0.47245157923815956,
      "grad_norm": 0.8107414308588786,
      "learning_rate": 1.1373570130883968e-05,
      "loss": 0.8803,
      "step": 7696
    },
    {
      "epoch": 0.47251296847662605,
      "grad_norm": 0.851418761679186,
      "learning_rate": 1.1371600600327538e-05,
      "loss": 0.897,
      "step": 7697
    },
    {
      "epoch": 0.47257435771509254,
      "grad_norm": 0.8983051494938715,
      "learning_rate": 1.1369631015544402e-05,
      "loss": 0.8851,
      "step": 7698
    },
    {
      "epoch": 0.47263574695355903,
      "grad_norm": 0.8056921431902153,
      "learning_rate": 1.1367661376612425e-05,
      "loss": 0.8422,
      "step": 7699
    },
    {
      "epoch": 0.4726971361920255,
      "grad_norm": 0.8165496093287716,
      "learning_rate": 1.136569168360948e-05,
      "loss": 0.8461,
      "step": 7700
    },
    {
      "epoch": 0.472758525430492,
      "grad_norm": 0.809373223972153,
      "learning_rate": 1.1363721936613439e-05,
      "loss": 0.8551,
      "step": 7701
    },
    {
      "epoch": 0.4728199146689585,
      "grad_norm": 0.746620499365757,
      "learning_rate": 1.1361752135702175e-05,
      "loss": 0.83,
      "step": 7702
    },
    {
      "epoch": 0.47288130390742505,
      "grad_norm": 0.8137017986902388,
      "learning_rate": 1.1359782280953564e-05,
      "loss": 0.8499,
      "step": 7703
    },
    {
      "epoch": 0.47294269314589155,
      "grad_norm": 0.799277023116157,
      "learning_rate": 1.1357812372445492e-05,
      "loss": 0.8927,
      "step": 7704
    },
    {
      "epoch": 0.47300408238435804,
      "grad_norm": 0.7178966456259079,
      "learning_rate": 1.1355842410255831e-05,
      "loss": 0.8665,
      "step": 7705
    },
    {
      "epoch": 0.47306547162282453,
      "grad_norm": 0.7727197581302411,
      "learning_rate": 1.135387239446247e-05,
      "loss": 0.837,
      "step": 7706
    },
    {
      "epoch": 0.473126860861291,
      "grad_norm": 0.7084241831263223,
      "learning_rate": 1.135190232514329e-05,
      "loss": 0.8843,
      "step": 7707
    },
    {
      "epoch": 0.4731882500997575,
      "grad_norm": 0.7992215188892275,
      "learning_rate": 1.1349932202376182e-05,
      "loss": 0.8388,
      "step": 7708
    },
    {
      "epoch": 0.473249639338224,
      "grad_norm": 0.6656591663201382,
      "learning_rate": 1.1347962026239032e-05,
      "loss": 0.8108,
      "step": 7709
    },
    {
      "epoch": 0.4733110285766905,
      "grad_norm": 0.7145535658456467,
      "learning_rate": 1.1345991796809734e-05,
      "loss": 0.8221,
      "step": 7710
    },
    {
      "epoch": 0.473372417815157,
      "grad_norm": 0.7420113622705153,
      "learning_rate": 1.1344021514166186e-05,
      "loss": 0.8353,
      "step": 7711
    },
    {
      "epoch": 0.4734338070536235,
      "grad_norm": 0.8244589772793475,
      "learning_rate": 1.1342051178386276e-05,
      "loss": 0.9265,
      "step": 7712
    },
    {
      "epoch": 0.47349519629208997,
      "grad_norm": 0.7407353162387322,
      "learning_rate": 1.1340080789547905e-05,
      "loss": 0.8726,
      "step": 7713
    },
    {
      "epoch": 0.4735565855305565,
      "grad_norm": 0.7271125991484315,
      "learning_rate": 1.1338110347728973e-05,
      "loss": 0.8831,
      "step": 7714
    },
    {
      "epoch": 0.473617974769023,
      "grad_norm": 0.7314314080771306,
      "learning_rate": 1.1336139853007382e-05,
      "loss": 0.9066,
      "step": 7715
    },
    {
      "epoch": 0.4736793640074895,
      "grad_norm": 0.737010735299934,
      "learning_rate": 1.1334169305461037e-05,
      "loss": 0.8504,
      "step": 7716
    },
    {
      "epoch": 0.473740753245956,
      "grad_norm": 0.6722238289475122,
      "learning_rate": 1.1332198705167843e-05,
      "loss": 0.8861,
      "step": 7717
    },
    {
      "epoch": 0.4738021424844225,
      "grad_norm": 0.7234968478226361,
      "learning_rate": 1.1330228052205712e-05,
      "loss": 0.86,
      "step": 7718
    },
    {
      "epoch": 0.473863531722889,
      "grad_norm": 0.6593881900107449,
      "learning_rate": 1.1328257346652547e-05,
      "loss": 0.6835,
      "step": 7719
    },
    {
      "epoch": 0.47392492096135547,
      "grad_norm": 0.816666133916174,
      "learning_rate": 1.1326286588586268e-05,
      "loss": 0.8544,
      "step": 7720
    },
    {
      "epoch": 0.47398631019982196,
      "grad_norm": 0.7601045128424191,
      "learning_rate": 1.1324315778084788e-05,
      "loss": 0.8249,
      "step": 7721
    },
    {
      "epoch": 0.47404769943828845,
      "grad_norm": 0.695848697502685,
      "learning_rate": 1.1322344915226018e-05,
      "loss": 0.8538,
      "step": 7722
    },
    {
      "epoch": 0.47410908867675494,
      "grad_norm": 0.7801316502055105,
      "learning_rate": 1.1320374000087883e-05,
      "loss": 0.8628,
      "step": 7723
    },
    {
      "epoch": 0.4741704779152215,
      "grad_norm": 0.8270096235410596,
      "learning_rate": 1.1318403032748303e-05,
      "loss": 0.8489,
      "step": 7724
    },
    {
      "epoch": 0.474231867153688,
      "grad_norm": 0.8162858390572112,
      "learning_rate": 1.1316432013285198e-05,
      "loss": 0.8773,
      "step": 7725
    },
    {
      "epoch": 0.47429325639215447,
      "grad_norm": 0.8348532423034938,
      "learning_rate": 1.1314460941776497e-05,
      "loss": 0.8776,
      "step": 7726
    },
    {
      "epoch": 0.47435464563062096,
      "grad_norm": 0.7758108900360123,
      "learning_rate": 1.1312489818300123e-05,
      "loss": 0.8186,
      "step": 7727
    },
    {
      "epoch": 0.47441603486908746,
      "grad_norm": 0.7326162590929624,
      "learning_rate": 1.131051864293401e-05,
      "loss": 0.861,
      "step": 7728
    },
    {
      "epoch": 0.47447742410755395,
      "grad_norm": 0.7509657262926291,
      "learning_rate": 1.1308547415756084e-05,
      "loss": 0.7894,
      "step": 7729
    },
    {
      "epoch": 0.47453881334602044,
      "grad_norm": 0.827976319218649,
      "learning_rate": 1.1306576136844277e-05,
      "loss": 0.8795,
      "step": 7730
    },
    {
      "epoch": 0.47460020258448693,
      "grad_norm": 0.7368590746020545,
      "learning_rate": 1.1304604806276528e-05,
      "loss": 0.8135,
      "step": 7731
    },
    {
      "epoch": 0.4746615918229534,
      "grad_norm": 0.701620236761841,
      "learning_rate": 1.1302633424130779e-05,
      "loss": 0.8303,
      "step": 7732
    },
    {
      "epoch": 0.4747229810614199,
      "grad_norm": 0.76040247502634,
      "learning_rate": 1.1300661990484958e-05,
      "loss": 0.884,
      "step": 7733
    },
    {
      "epoch": 0.4747843702998864,
      "grad_norm": 0.809293780691845,
      "learning_rate": 1.1298690505417014e-05,
      "loss": 0.8283,
      "step": 7734
    },
    {
      "epoch": 0.47484575953835295,
      "grad_norm": 0.7977525293739557,
      "learning_rate": 1.1296718969004888e-05,
      "loss": 0.8837,
      "step": 7735
    },
    {
      "epoch": 0.47490714877681944,
      "grad_norm": 0.8179123167951697,
      "learning_rate": 1.1294747381326527e-05,
      "loss": 0.8926,
      "step": 7736
    },
    {
      "epoch": 0.47496853801528593,
      "grad_norm": 0.7997691671824249,
      "learning_rate": 1.1292775742459875e-05,
      "loss": 0.8694,
      "step": 7737
    },
    {
      "epoch": 0.4750299272537524,
      "grad_norm": 0.5995864469780879,
      "learning_rate": 1.1290804052482886e-05,
      "loss": 0.6773,
      "step": 7738
    },
    {
      "epoch": 0.4750913164922189,
      "grad_norm": 0.7990775866332139,
      "learning_rate": 1.1288832311473507e-05,
      "loss": 0.8376,
      "step": 7739
    },
    {
      "epoch": 0.4751527057306854,
      "grad_norm": 0.75384326890518,
      "learning_rate": 1.1286860519509697e-05,
      "loss": 0.859,
      "step": 7740
    },
    {
      "epoch": 0.4752140949691519,
      "grad_norm": 0.8040595119793896,
      "learning_rate": 1.1284888676669405e-05,
      "loss": 0.9344,
      "step": 7741
    },
    {
      "epoch": 0.4752754842076184,
      "grad_norm": 0.6947006404062596,
      "learning_rate": 1.1282916783030591e-05,
      "loss": 0.8453,
      "step": 7742
    },
    {
      "epoch": 0.4753368734460849,
      "grad_norm": 0.726302449853418,
      "learning_rate": 1.1280944838671219e-05,
      "loss": 0.8531,
      "step": 7743
    },
    {
      "epoch": 0.4753982626845514,
      "grad_norm": 0.7346894752008978,
      "learning_rate": 1.1278972843669242e-05,
      "loss": 0.8697,
      "step": 7744
    },
    {
      "epoch": 0.47545965192301787,
      "grad_norm": 0.7096637488007811,
      "learning_rate": 1.1277000798102631e-05,
      "loss": 0.8704,
      "step": 7745
    },
    {
      "epoch": 0.4755210411614844,
      "grad_norm": 0.7518072888527491,
      "learning_rate": 1.1275028702049348e-05,
      "loss": 0.8351,
      "step": 7746
    },
    {
      "epoch": 0.4755824303999509,
      "grad_norm": 0.7882491572445388,
      "learning_rate": 1.127305655558736e-05,
      "loss": 0.853,
      "step": 7747
    },
    {
      "epoch": 0.4756438196384174,
      "grad_norm": 0.7725614415679053,
      "learning_rate": 1.127108435879464e-05,
      "loss": 0.8593,
      "step": 7748
    },
    {
      "epoch": 0.4757052088768839,
      "grad_norm": 0.7387515228000735,
      "learning_rate": 1.1269112111749155e-05,
      "loss": 0.8256,
      "step": 7749
    },
    {
      "epoch": 0.4757665981153504,
      "grad_norm": 0.7876099044784053,
      "learning_rate": 1.1267139814528882e-05,
      "loss": 0.9714,
      "step": 7750
    },
    {
      "epoch": 0.4758279873538169,
      "grad_norm": 0.7893943513653512,
      "learning_rate": 1.1265167467211793e-05,
      "loss": 0.8625,
      "step": 7751
    },
    {
      "epoch": 0.47588937659228336,
      "grad_norm": 0.749076704651459,
      "learning_rate": 1.1263195069875867e-05,
      "loss": 0.8108,
      "step": 7752
    },
    {
      "epoch": 0.47595076583074986,
      "grad_norm": 0.8187177443668322,
      "learning_rate": 1.1261222622599086e-05,
      "loss": 0.9279,
      "step": 7753
    },
    {
      "epoch": 0.47601215506921635,
      "grad_norm": 0.7180128408787056,
      "learning_rate": 1.1259250125459429e-05,
      "loss": 0.8503,
      "step": 7754
    },
    {
      "epoch": 0.47607354430768284,
      "grad_norm": 0.7515709792120048,
      "learning_rate": 1.125727757853488e-05,
      "loss": 0.8608,
      "step": 7755
    },
    {
      "epoch": 0.4761349335461494,
      "grad_norm": 0.6587659145755327,
      "learning_rate": 1.1255304981903418e-05,
      "loss": 0.8406,
      "step": 7756
    },
    {
      "epoch": 0.4761963227846159,
      "grad_norm": 0.7604196070495094,
      "learning_rate": 1.1253332335643043e-05,
      "loss": 0.8946,
      "step": 7757
    },
    {
      "epoch": 0.47625771202308237,
      "grad_norm": 0.8182772051152681,
      "learning_rate": 1.1251359639831736e-05,
      "loss": 0.9002,
      "step": 7758
    },
    {
      "epoch": 0.47631910126154886,
      "grad_norm": 0.7636210289277774,
      "learning_rate": 1.1249386894547489e-05,
      "loss": 0.908,
      "step": 7759
    },
    {
      "epoch": 0.47638049050001535,
      "grad_norm": 0.7525051960212104,
      "learning_rate": 1.1247414099868297e-05,
      "loss": 0.8204,
      "step": 7760
    },
    {
      "epoch": 0.47644187973848184,
      "grad_norm": 0.8426810110767705,
      "learning_rate": 1.1245441255872154e-05,
      "loss": 0.9452,
      "step": 7761
    },
    {
      "epoch": 0.47650326897694834,
      "grad_norm": 0.8286572517424428,
      "learning_rate": 1.1243468362637055e-05,
      "loss": 0.8776,
      "step": 7762
    },
    {
      "epoch": 0.4765646582154148,
      "grad_norm": 0.7069482817584121,
      "learning_rate": 1.1241495420241003e-05,
      "loss": 0.884,
      "step": 7763
    },
    {
      "epoch": 0.4766260474538813,
      "grad_norm": 0.8319076649475675,
      "learning_rate": 1.1239522428761996e-05,
      "loss": 0.8493,
      "step": 7764
    },
    {
      "epoch": 0.4766874366923478,
      "grad_norm": 0.8147558023251379,
      "learning_rate": 1.1237549388278039e-05,
      "loss": 0.8638,
      "step": 7765
    },
    {
      "epoch": 0.4767488259308143,
      "grad_norm": 0.730712640137976,
      "learning_rate": 1.1235576298867135e-05,
      "loss": 0.8113,
      "step": 7766
    },
    {
      "epoch": 0.47681021516928085,
      "grad_norm": 0.8156261141248907,
      "learning_rate": 1.123360316060729e-05,
      "loss": 0.8615,
      "step": 7767
    },
    {
      "epoch": 0.47687160440774734,
      "grad_norm": 0.7138155304250234,
      "learning_rate": 1.1231629973576519e-05,
      "loss": 0.8482,
      "step": 7768
    },
    {
      "epoch": 0.47693299364621383,
      "grad_norm": 0.8154733675490069,
      "learning_rate": 1.1229656737852823e-05,
      "loss": 0.8721,
      "step": 7769
    },
    {
      "epoch": 0.4769943828846803,
      "grad_norm": 0.8300739617307027,
      "learning_rate": 1.1227683453514223e-05,
      "loss": 0.9401,
      "step": 7770
    },
    {
      "epoch": 0.4770557721231468,
      "grad_norm": 0.7515260748097056,
      "learning_rate": 1.1225710120638726e-05,
      "loss": 0.8476,
      "step": 7771
    },
    {
      "epoch": 0.4771171613616133,
      "grad_norm": 0.7075002596320762,
      "learning_rate": 1.1223736739304354e-05,
      "loss": 0.8279,
      "step": 7772
    },
    {
      "epoch": 0.4771785506000798,
      "grad_norm": 0.7177776680576233,
      "learning_rate": 1.1221763309589126e-05,
      "loss": 0.841,
      "step": 7773
    },
    {
      "epoch": 0.4772399398385463,
      "grad_norm": 0.7473457785638514,
      "learning_rate": 1.1219789831571058e-05,
      "loss": 0.8445,
      "step": 7774
    },
    {
      "epoch": 0.4773013290770128,
      "grad_norm": 0.7690163109549455,
      "learning_rate": 1.1217816305328176e-05,
      "loss": 0.8624,
      "step": 7775
    },
    {
      "epoch": 0.4773627183154793,
      "grad_norm": 0.7098646195679497,
      "learning_rate": 1.12158427309385e-05,
      "loss": 0.8633,
      "step": 7776
    },
    {
      "epoch": 0.4774241075539458,
      "grad_norm": 0.7691274228255045,
      "learning_rate": 1.1213869108480058e-05,
      "loss": 0.8632,
      "step": 7777
    },
    {
      "epoch": 0.4774854967924123,
      "grad_norm": 0.7906975146551429,
      "learning_rate": 1.121189543803088e-05,
      "loss": 0.8163,
      "step": 7778
    },
    {
      "epoch": 0.4775468860308788,
      "grad_norm": 0.8119774058490943,
      "learning_rate": 1.1209921719668992e-05,
      "loss": 0.8573,
      "step": 7779
    },
    {
      "epoch": 0.4776082752693453,
      "grad_norm": 0.8254226464790018,
      "learning_rate": 1.1207947953472427e-05,
      "loss": 0.916,
      "step": 7780
    },
    {
      "epoch": 0.4776696645078118,
      "grad_norm": 0.7461285680233162,
      "learning_rate": 1.1205974139519218e-05,
      "loss": 0.8652,
      "step": 7781
    },
    {
      "epoch": 0.4777310537462783,
      "grad_norm": 0.8182237148101897,
      "learning_rate": 1.1204000277887405e-05,
      "loss": 0.9042,
      "step": 7782
    },
    {
      "epoch": 0.47779244298474477,
      "grad_norm": 0.7448217352008042,
      "learning_rate": 1.1202026368655017e-05,
      "loss": 0.8522,
      "step": 7783
    },
    {
      "epoch": 0.47785383222321126,
      "grad_norm": 0.6115856786851487,
      "learning_rate": 1.12000524119001e-05,
      "loss": 0.8195,
      "step": 7784
    },
    {
      "epoch": 0.47791522146167775,
      "grad_norm": 0.7225548971388528,
      "learning_rate": 1.1198078407700695e-05,
      "loss": 0.8132,
      "step": 7785
    },
    {
      "epoch": 0.47797661070014424,
      "grad_norm": 0.7326126184766445,
      "learning_rate": 1.119610435613484e-05,
      "loss": 0.848,
      "step": 7786
    },
    {
      "epoch": 0.47803799993861074,
      "grad_norm": 0.7031180859597534,
      "learning_rate": 1.1194130257280581e-05,
      "loss": 0.8343,
      "step": 7787
    },
    {
      "epoch": 0.4780993891770773,
      "grad_norm": 0.8172369815423787,
      "learning_rate": 1.1192156111215969e-05,
      "loss": 0.8926,
      "step": 7788
    },
    {
      "epoch": 0.4781607784155438,
      "grad_norm": 0.8090544932709279,
      "learning_rate": 1.119018191801905e-05,
      "loss": 0.8761,
      "step": 7789
    },
    {
      "epoch": 0.47822216765401027,
      "grad_norm": 0.7480656728071604,
      "learning_rate": 1.1188207677767873e-05,
      "loss": 0.899,
      "step": 7790
    },
    {
      "epoch": 0.47828355689247676,
      "grad_norm": 0.7900048337467468,
      "learning_rate": 1.1186233390540493e-05,
      "loss": 0.8511,
      "step": 7791
    },
    {
      "epoch": 0.47834494613094325,
      "grad_norm": 0.7463186309840197,
      "learning_rate": 1.1184259056414961e-05,
      "loss": 0.8181,
      "step": 7792
    },
    {
      "epoch": 0.47840633536940974,
      "grad_norm": 0.6758457224673577,
      "learning_rate": 1.1182284675469335e-05,
      "loss": 0.7749,
      "step": 7793
    },
    {
      "epoch": 0.47846772460787623,
      "grad_norm": 0.7628840939761017,
      "learning_rate": 1.1180310247781672e-05,
      "loss": 0.8517,
      "step": 7794
    },
    {
      "epoch": 0.4785291138463427,
      "grad_norm": 0.8230450695463184,
      "learning_rate": 1.1178335773430033e-05,
      "loss": 0.9182,
      "step": 7795
    },
    {
      "epoch": 0.4785905030848092,
      "grad_norm": 0.8225392967177559,
      "learning_rate": 1.1176361252492478e-05,
      "loss": 0.8995,
      "step": 7796
    },
    {
      "epoch": 0.4786518923232757,
      "grad_norm": 0.7946948022981417,
      "learning_rate": 1.1174386685047072e-05,
      "loss": 0.8758,
      "step": 7797
    },
    {
      "epoch": 0.47871328156174225,
      "grad_norm": 0.7693789143570285,
      "learning_rate": 1.1172412071171878e-05,
      "loss": 0.887,
      "step": 7798
    },
    {
      "epoch": 0.47877467080020875,
      "grad_norm": 0.7458713128939956,
      "learning_rate": 1.1170437410944965e-05,
      "loss": 0.8227,
      "step": 7799
    },
    {
      "epoch": 0.47883606003867524,
      "grad_norm": 0.815103611416231,
      "learning_rate": 1.1168462704444404e-05,
      "loss": 0.8361,
      "step": 7800
    },
    {
      "epoch": 0.47889744927714173,
      "grad_norm": 0.7317132404024567,
      "learning_rate": 1.116648795174826e-05,
      "loss": 0.8386,
      "step": 7801
    },
    {
      "epoch": 0.4789588385156082,
      "grad_norm": 0.7106972933115905,
      "learning_rate": 1.116451315293461e-05,
      "loss": 0.8233,
      "step": 7802
    },
    {
      "epoch": 0.4790202277540747,
      "grad_norm": 0.7699307643614297,
      "learning_rate": 1.1162538308081523e-05,
      "loss": 0.8743,
      "step": 7803
    },
    {
      "epoch": 0.4790816169925412,
      "grad_norm": 0.8104051528210945,
      "learning_rate": 1.1160563417267081e-05,
      "loss": 0.8926,
      "step": 7804
    },
    {
      "epoch": 0.4791430062310077,
      "grad_norm": 0.783757881541956,
      "learning_rate": 1.1158588480569363e-05,
      "loss": 0.8563,
      "step": 7805
    },
    {
      "epoch": 0.4792043954694742,
      "grad_norm": 0.7545608982861668,
      "learning_rate": 1.1156613498066442e-05,
      "loss": 0.8539,
      "step": 7806
    },
    {
      "epoch": 0.4792657847079407,
      "grad_norm": 0.8213830675132754,
      "learning_rate": 1.1154638469836408e-05,
      "loss": 0.8954,
      "step": 7807
    },
    {
      "epoch": 0.47932717394640717,
      "grad_norm": 0.7845447069708972,
      "learning_rate": 1.1152663395957333e-05,
      "loss": 0.8946,
      "step": 7808
    },
    {
      "epoch": 0.4793885631848737,
      "grad_norm": 0.7676599184280798,
      "learning_rate": 1.1150688276507313e-05,
      "loss": 0.858,
      "step": 7809
    },
    {
      "epoch": 0.4794499524233402,
      "grad_norm": 0.703873240238344,
      "learning_rate": 1.1148713111564432e-05,
      "loss": 0.8173,
      "step": 7810
    },
    {
      "epoch": 0.4795113416618067,
      "grad_norm": 0.7149529619902373,
      "learning_rate": 1.1146737901206775e-05,
      "loss": 0.8269,
      "step": 7811
    },
    {
      "epoch": 0.4795727309002732,
      "grad_norm": 0.8085076709403424,
      "learning_rate": 1.1144762645512438e-05,
      "loss": 0.8509,
      "step": 7812
    },
    {
      "epoch": 0.4796341201387397,
      "grad_norm": 0.7459815943919538,
      "learning_rate": 1.1142787344559509e-05,
      "loss": 0.843,
      "step": 7813
    },
    {
      "epoch": 0.4796955093772062,
      "grad_norm": 0.725544221650116,
      "learning_rate": 1.1140811998426089e-05,
      "loss": 0.8411,
      "step": 7814
    },
    {
      "epoch": 0.47975689861567267,
      "grad_norm": 0.723345301157356,
      "learning_rate": 1.1138836607190265e-05,
      "loss": 0.7925,
      "step": 7815
    },
    {
      "epoch": 0.47981828785413916,
      "grad_norm": 0.7479913935017584,
      "learning_rate": 1.113686117093014e-05,
      "loss": 0.8417,
      "step": 7816
    },
    {
      "epoch": 0.47987967709260565,
      "grad_norm": 0.7428546059606507,
      "learning_rate": 1.113488568972381e-05,
      "loss": 0.8616,
      "step": 7817
    },
    {
      "epoch": 0.47994106633107214,
      "grad_norm": 0.7816800300718683,
      "learning_rate": 1.1132910163649385e-05,
      "loss": 0.8395,
      "step": 7818
    },
    {
      "epoch": 0.48000245556953863,
      "grad_norm": 0.772685100345014,
      "learning_rate": 1.1130934592784956e-05,
      "loss": 0.8651,
      "step": 7819
    },
    {
      "epoch": 0.4800638448080052,
      "grad_norm": 0.7303864348419716,
      "learning_rate": 1.1128958977208635e-05,
      "loss": 0.8284,
      "step": 7820
    },
    {
      "epoch": 0.48012523404647167,
      "grad_norm": 0.8579968981709288,
      "learning_rate": 1.112698331699853e-05,
      "loss": 0.9066,
      "step": 7821
    },
    {
      "epoch": 0.48018662328493816,
      "grad_norm": 0.7310082441663643,
      "learning_rate": 1.1125007612232746e-05,
      "loss": 0.8295,
      "step": 7822
    },
    {
      "epoch": 0.48024801252340465,
      "grad_norm": 0.7864974833706767,
      "learning_rate": 1.1123031862989393e-05,
      "loss": 0.9091,
      "step": 7823
    },
    {
      "epoch": 0.48030940176187115,
      "grad_norm": 0.7325702263826609,
      "learning_rate": 1.1121056069346585e-05,
      "loss": 0.8619,
      "step": 7824
    },
    {
      "epoch": 0.48037079100033764,
      "grad_norm": 0.7426555976961726,
      "learning_rate": 1.1119080231382435e-05,
      "loss": 0.8409,
      "step": 7825
    },
    {
      "epoch": 0.48043218023880413,
      "grad_norm": 0.7309293394529777,
      "learning_rate": 1.1117104349175057e-05,
      "loss": 0.8228,
      "step": 7826
    },
    {
      "epoch": 0.4804935694772706,
      "grad_norm": 0.7909511484136658,
      "learning_rate": 1.111512842280257e-05,
      "loss": 0.8717,
      "step": 7827
    },
    {
      "epoch": 0.4805549587157371,
      "grad_norm": 0.7918396528246332,
      "learning_rate": 1.1113152452343093e-05,
      "loss": 0.9035,
      "step": 7828
    },
    {
      "epoch": 0.4806163479542036,
      "grad_norm": 0.7987555569962796,
      "learning_rate": 1.1111176437874747e-05,
      "loss": 0.8079,
      "step": 7829
    },
    {
      "epoch": 0.48067773719267015,
      "grad_norm": 0.7184919346137103,
      "learning_rate": 1.1109200379475651e-05,
      "loss": 0.8574,
      "step": 7830
    },
    {
      "epoch": 0.48073912643113664,
      "grad_norm": 0.7269924391588563,
      "learning_rate": 1.1107224277223931e-05,
      "loss": 0.8424,
      "step": 7831
    },
    {
      "epoch": 0.48080051566960313,
      "grad_norm": 0.8076393383701668,
      "learning_rate": 1.1105248131197717e-05,
      "loss": 0.8996,
      "step": 7832
    },
    {
      "epoch": 0.4808619049080696,
      "grad_norm": 0.8056450449394379,
      "learning_rate": 1.1103271941475129e-05,
      "loss": 0.8731,
      "step": 7833
    },
    {
      "epoch": 0.4809232941465361,
      "grad_norm": 0.7886732693230106,
      "learning_rate": 1.1101295708134304e-05,
      "loss": 0.8271,
      "step": 7834
    },
    {
      "epoch": 0.4809846833850026,
      "grad_norm": 0.7713063581970744,
      "learning_rate": 1.1099319431253367e-05,
      "loss": 0.8429,
      "step": 7835
    },
    {
      "epoch": 0.4810460726234691,
      "grad_norm": 0.7731995802101718,
      "learning_rate": 1.1097343110910452e-05,
      "loss": 0.8707,
      "step": 7836
    },
    {
      "epoch": 0.4811074618619356,
      "grad_norm": 0.8049902503054144,
      "learning_rate": 1.10953667471837e-05,
      "loss": 0.8486,
      "step": 7837
    },
    {
      "epoch": 0.4811688511004021,
      "grad_norm": 0.7790991633342583,
      "learning_rate": 1.1093390340151237e-05,
      "loss": 0.8903,
      "step": 7838
    },
    {
      "epoch": 0.4812302403388686,
      "grad_norm": 0.771094825295428,
      "learning_rate": 1.1091413889891211e-05,
      "loss": 0.8124,
      "step": 7839
    },
    {
      "epoch": 0.48129162957733507,
      "grad_norm": 0.7803520443922024,
      "learning_rate": 1.1089437396481752e-05,
      "loss": 0.8704,
      "step": 7840
    },
    {
      "epoch": 0.4813530188158016,
      "grad_norm": 0.7658089444524214,
      "learning_rate": 1.1087460860001009e-05,
      "loss": 0.8451,
      "step": 7841
    },
    {
      "epoch": 0.4814144080542681,
      "grad_norm": 0.8356656344098495,
      "learning_rate": 1.1085484280527121e-05,
      "loss": 0.8162,
      "step": 7842
    },
    {
      "epoch": 0.4814757972927346,
      "grad_norm": 0.7278426343266369,
      "learning_rate": 1.1083507658138231e-05,
      "loss": 0.8108,
      "step": 7843
    },
    {
      "epoch": 0.4815371865312011,
      "grad_norm": 0.851259316469437,
      "learning_rate": 1.1081530992912493e-05,
      "loss": 0.9538,
      "step": 7844
    },
    {
      "epoch": 0.4815985757696676,
      "grad_norm": 0.7000188607590241,
      "learning_rate": 1.1079554284928047e-05,
      "loss": 0.8146,
      "step": 7845
    },
    {
      "epoch": 0.48165996500813407,
      "grad_norm": 0.8205142169894928,
      "learning_rate": 1.107757753426305e-05,
      "loss": 0.8315,
      "step": 7846
    },
    {
      "epoch": 0.48172135424660056,
      "grad_norm": 0.7525938026961195,
      "learning_rate": 1.1075600740995645e-05,
      "loss": 0.825,
      "step": 7847
    },
    {
      "epoch": 0.48178274348506706,
      "grad_norm": 0.7538135489144514,
      "learning_rate": 1.1073623905203993e-05,
      "loss": 0.8083,
      "step": 7848
    },
    {
      "epoch": 0.48184413272353355,
      "grad_norm": 0.7451824138113944,
      "learning_rate": 1.1071647026966245e-05,
      "loss": 0.8383,
      "step": 7849
    },
    {
      "epoch": 0.48190552196200004,
      "grad_norm": 0.8156198839968672,
      "learning_rate": 1.106967010636056e-05,
      "loss": 0.8763,
      "step": 7850
    },
    {
      "epoch": 0.4819669112004666,
      "grad_norm": 0.7000962345788375,
      "learning_rate": 1.1067693143465092e-05,
      "loss": 0.8347,
      "step": 7851
    },
    {
      "epoch": 0.4820283004389331,
      "grad_norm": 0.8007500786950374,
      "learning_rate": 1.1065716138358004e-05,
      "loss": 0.872,
      "step": 7852
    },
    {
      "epoch": 0.48208968967739957,
      "grad_norm": 0.747787166352023,
      "learning_rate": 1.106373909111746e-05,
      "loss": 0.8361,
      "step": 7853
    },
    {
      "epoch": 0.48215107891586606,
      "grad_norm": 0.5826699317028889,
      "learning_rate": 1.1061762001821618e-05,
      "loss": 0.705,
      "step": 7854
    },
    {
      "epoch": 0.48221246815433255,
      "grad_norm": 0.7520755575470235,
      "learning_rate": 1.1059784870548647e-05,
      "loss": 0.9219,
      "step": 7855
    },
    {
      "epoch": 0.48227385739279904,
      "grad_norm": 0.8281367030378713,
      "learning_rate": 1.105780769737671e-05,
      "loss": 0.8703,
      "step": 7856
    },
    {
      "epoch": 0.48233524663126554,
      "grad_norm": 0.8535051055595462,
      "learning_rate": 1.105583048238398e-05,
      "loss": 0.8366,
      "step": 7857
    },
    {
      "epoch": 0.482396635869732,
      "grad_norm": 0.7768154714198664,
      "learning_rate": 1.1053853225648619e-05,
      "loss": 0.8556,
      "step": 7858
    },
    {
      "epoch": 0.4824580251081985,
      "grad_norm": 0.8113270253093996,
      "learning_rate": 1.1051875927248807e-05,
      "loss": 0.827,
      "step": 7859
    },
    {
      "epoch": 0.482519414346665,
      "grad_norm": 0.749144224877868,
      "learning_rate": 1.1049898587262715e-05,
      "loss": 0.7826,
      "step": 7860
    },
    {
      "epoch": 0.4825808035851315,
      "grad_norm": 0.7866253569937911,
      "learning_rate": 1.1047921205768515e-05,
      "loss": 0.8374,
      "step": 7861
    },
    {
      "epoch": 0.48264219282359805,
      "grad_norm": 0.7679990498528688,
      "learning_rate": 1.1045943782844385e-05,
      "loss": 0.832,
      "step": 7862
    },
    {
      "epoch": 0.48270358206206454,
      "grad_norm": 0.8495199332444443,
      "learning_rate": 1.1043966318568502e-05,
      "loss": 0.8857,
      "step": 7863
    },
    {
      "epoch": 0.48276497130053103,
      "grad_norm": 0.7757374054380356,
      "learning_rate": 1.1041988813019051e-05,
      "loss": 0.8957,
      "step": 7864
    },
    {
      "epoch": 0.4828263605389975,
      "grad_norm": 0.7562880772536433,
      "learning_rate": 1.1040011266274205e-05,
      "loss": 0.8519,
      "step": 7865
    },
    {
      "epoch": 0.482887749777464,
      "grad_norm": 0.7635431669819366,
      "learning_rate": 1.1038033678412152e-05,
      "loss": 0.8126,
      "step": 7866
    },
    {
      "epoch": 0.4829491390159305,
      "grad_norm": 0.8030673446230503,
      "learning_rate": 1.1036056049511077e-05,
      "loss": 0.8111,
      "step": 7867
    },
    {
      "epoch": 0.483010528254397,
      "grad_norm": 0.7240970303540896,
      "learning_rate": 1.1034078379649164e-05,
      "loss": 0.7982,
      "step": 7868
    },
    {
      "epoch": 0.4830719174928635,
      "grad_norm": 0.8267129660709737,
      "learning_rate": 1.1032100668904606e-05,
      "loss": 0.855,
      "step": 7869
    },
    {
      "epoch": 0.48313330673133,
      "grad_norm": 0.8971367858990685,
      "learning_rate": 1.1030122917355584e-05,
      "loss": 0.8814,
      "step": 7870
    },
    {
      "epoch": 0.4831946959697965,
      "grad_norm": 0.7805125520872969,
      "learning_rate": 1.1028145125080297e-05,
      "loss": 0.84,
      "step": 7871
    },
    {
      "epoch": 0.48325608520826296,
      "grad_norm": 0.8550883538037054,
      "learning_rate": 1.1026167292156928e-05,
      "loss": 0.8623,
      "step": 7872
    },
    {
      "epoch": 0.4833174744467295,
      "grad_norm": 0.7817111617792556,
      "learning_rate": 1.1024189418663685e-05,
      "loss": 0.8768,
      "step": 7873
    },
    {
      "epoch": 0.483378863685196,
      "grad_norm": 0.8416417853617604,
      "learning_rate": 1.1022211504678753e-05,
      "loss": 0.841,
      "step": 7874
    },
    {
      "epoch": 0.4834402529236625,
      "grad_norm": 0.764250147744579,
      "learning_rate": 1.102023355028033e-05,
      "loss": 0.8128,
      "step": 7875
    },
    {
      "epoch": 0.483501642162129,
      "grad_norm": 0.7328651181094407,
      "learning_rate": 1.1018255555546624e-05,
      "loss": 0.8712,
      "step": 7876
    },
    {
      "epoch": 0.4835630314005955,
      "grad_norm": 0.7397455778485452,
      "learning_rate": 1.1016277520555828e-05,
      "loss": 0.8106,
      "step": 7877
    },
    {
      "epoch": 0.48362442063906197,
      "grad_norm": 0.7420272094103528,
      "learning_rate": 1.1014299445386146e-05,
      "loss": 0.8759,
      "step": 7878
    },
    {
      "epoch": 0.48368580987752846,
      "grad_norm": 0.739015024762715,
      "learning_rate": 1.101232133011578e-05,
      "loss": 0.8757,
      "step": 7879
    },
    {
      "epoch": 0.48374719911599495,
      "grad_norm": 0.7332658865587971,
      "learning_rate": 1.101034317482294e-05,
      "loss": 0.8172,
      "step": 7880
    },
    {
      "epoch": 0.48380858835446144,
      "grad_norm": 0.8293361220802077,
      "learning_rate": 1.100836497958583e-05,
      "loss": 0.878,
      "step": 7881
    },
    {
      "epoch": 0.48386997759292794,
      "grad_norm": 0.7822092524693114,
      "learning_rate": 1.1006386744482658e-05,
      "loss": 0.8872,
      "step": 7882
    },
    {
      "epoch": 0.4839313668313945,
      "grad_norm": 0.8261798008680238,
      "learning_rate": 1.1004408469591638e-05,
      "loss": 0.8298,
      "step": 7883
    },
    {
      "epoch": 0.483992756069861,
      "grad_norm": 0.8144806077126052,
      "learning_rate": 1.1002430154990977e-05,
      "loss": 0.8475,
      "step": 7884
    },
    {
      "epoch": 0.48405414530832747,
      "grad_norm": 0.8339912105845332,
      "learning_rate": 1.1000451800758892e-05,
      "loss": 0.8372,
      "step": 7885
    },
    {
      "epoch": 0.48411553454679396,
      "grad_norm": 0.77204063486675,
      "learning_rate": 1.0998473406973596e-05,
      "loss": 0.7938,
      "step": 7886
    },
    {
      "epoch": 0.48417692378526045,
      "grad_norm": 0.8123320035118783,
      "learning_rate": 1.0996494973713305e-05,
      "loss": 0.8528,
      "step": 7887
    },
    {
      "epoch": 0.48423831302372694,
      "grad_norm": 0.7674991838448616,
      "learning_rate": 1.0994516501056241e-05,
      "loss": 0.8804,
      "step": 7888
    },
    {
      "epoch": 0.48429970226219343,
      "grad_norm": 0.8364450866607952,
      "learning_rate": 1.0992537989080618e-05,
      "loss": 0.9153,
      "step": 7889
    },
    {
      "epoch": 0.4843610915006599,
      "grad_norm": 0.8210416176362424,
      "learning_rate": 1.0990559437864658e-05,
      "loss": 0.8276,
      "step": 7890
    },
    {
      "epoch": 0.4844224807391264,
      "grad_norm": 0.7646043737618503,
      "learning_rate": 1.098858084748659e-05,
      "loss": 0.8189,
      "step": 7891
    },
    {
      "epoch": 0.4844838699775929,
      "grad_norm": 0.9048882501590305,
      "learning_rate": 1.0986602218024632e-05,
      "loss": 0.8872,
      "step": 7892
    },
    {
      "epoch": 0.4845452592160594,
      "grad_norm": 0.7673267149185976,
      "learning_rate": 1.0984623549557012e-05,
      "loss": 0.8497,
      "step": 7893
    },
    {
      "epoch": 0.48460664845452595,
      "grad_norm": 0.7033818169362159,
      "learning_rate": 1.0982644842161956e-05,
      "loss": 0.8189,
      "step": 7894
    },
    {
      "epoch": 0.48466803769299244,
      "grad_norm": 0.7248855764118071,
      "learning_rate": 1.0980666095917694e-05,
      "loss": 0.8322,
      "step": 7895
    },
    {
      "epoch": 0.48472942693145893,
      "grad_norm": 0.8352604982183609,
      "learning_rate": 1.0978687310902459e-05,
      "loss": 0.8209,
      "step": 7896
    },
    {
      "epoch": 0.4847908161699254,
      "grad_norm": 0.801171822393558,
      "learning_rate": 1.0976708487194474e-05,
      "loss": 0.8119,
      "step": 7897
    },
    {
      "epoch": 0.4848522054083919,
      "grad_norm": 0.627407017216701,
      "learning_rate": 1.0974729624871983e-05,
      "loss": 0.7248,
      "step": 7898
    },
    {
      "epoch": 0.4849135946468584,
      "grad_norm": 0.837644774994588,
      "learning_rate": 1.0972750724013217e-05,
      "loss": 0.8767,
      "step": 7899
    },
    {
      "epoch": 0.4849749838853249,
      "grad_norm": 0.7355081812730795,
      "learning_rate": 1.097077178469641e-05,
      "loss": 0.801,
      "step": 7900
    },
    {
      "epoch": 0.4850363731237914,
      "grad_norm": 0.821714570921351,
      "learning_rate": 1.0968792806999806e-05,
      "loss": 0.9169,
      "step": 7901
    },
    {
      "epoch": 0.4850977623622579,
      "grad_norm": 0.8240324254851734,
      "learning_rate": 1.0966813791001635e-05,
      "loss": 0.8585,
      "step": 7902
    },
    {
      "epoch": 0.48515915160072437,
      "grad_norm": 0.8034819996397313,
      "learning_rate": 1.096483473678015e-05,
      "loss": 0.8556,
      "step": 7903
    },
    {
      "epoch": 0.4852205408391909,
      "grad_norm": 0.7707753781264146,
      "learning_rate": 1.0962855644413584e-05,
      "loss": 0.8698,
      "step": 7904
    },
    {
      "epoch": 0.4852819300776574,
      "grad_norm": 0.7861119988712952,
      "learning_rate": 1.0960876513980185e-05,
      "loss": 0.8442,
      "step": 7905
    },
    {
      "epoch": 0.4853433193161239,
      "grad_norm": 0.8017023026096384,
      "learning_rate": 1.09588973455582e-05,
      "loss": 0.8738,
      "step": 7906
    },
    {
      "epoch": 0.4854047085545904,
      "grad_norm": 0.7595746722447676,
      "learning_rate": 1.0956918139225871e-05,
      "loss": 0.8584,
      "step": 7907
    },
    {
      "epoch": 0.4854660977930569,
      "grad_norm": 0.7443747423721895,
      "learning_rate": 1.0954938895061455e-05,
      "loss": 0.8419,
      "step": 7908
    },
    {
      "epoch": 0.4855274870315234,
      "grad_norm": 0.6487068613723076,
      "learning_rate": 1.0952959613143193e-05,
      "loss": 0.8036,
      "step": 7909
    },
    {
      "epoch": 0.48558887626998987,
      "grad_norm": 0.5968214621160457,
      "learning_rate": 1.0950980293549342e-05,
      "loss": 0.717,
      "step": 7910
    },
    {
      "epoch": 0.48565026550845636,
      "grad_norm": 0.7765794589611066,
      "learning_rate": 1.0949000936358157e-05,
      "loss": 0.868,
      "step": 7911
    },
    {
      "epoch": 0.48571165474692285,
      "grad_norm": 0.7686118832633643,
      "learning_rate": 1.0947021541647884e-05,
      "loss": 0.8986,
      "step": 7912
    },
    {
      "epoch": 0.48577304398538934,
      "grad_norm": 0.7437952063418586,
      "learning_rate": 1.0945042109496789e-05,
      "loss": 0.8549,
      "step": 7913
    },
    {
      "epoch": 0.48583443322385583,
      "grad_norm": 0.6891733093680678,
      "learning_rate": 1.0943062639983119e-05,
      "loss": 0.822,
      "step": 7914
    },
    {
      "epoch": 0.4858958224623224,
      "grad_norm": 0.7928362568686669,
      "learning_rate": 1.0941083133185146e-05,
      "loss": 0.8797,
      "step": 7915
    },
    {
      "epoch": 0.48595721170078887,
      "grad_norm": 0.8626290008254327,
      "learning_rate": 1.0939103589181119e-05,
      "loss": 0.8915,
      "step": 7916
    },
    {
      "epoch": 0.48601860093925536,
      "grad_norm": 0.7290178381870773,
      "learning_rate": 1.0937124008049305e-05,
      "loss": 0.836,
      "step": 7917
    },
    {
      "epoch": 0.48607999017772185,
      "grad_norm": 0.7020991579861182,
      "learning_rate": 1.093514438986797e-05,
      "loss": 0.8632,
      "step": 7918
    },
    {
      "epoch": 0.48614137941618835,
      "grad_norm": 0.8161048538468102,
      "learning_rate": 1.0933164734715371e-05,
      "loss": 0.8426,
      "step": 7919
    },
    {
      "epoch": 0.48620276865465484,
      "grad_norm": 0.5994912065619937,
      "learning_rate": 1.0931185042669783e-05,
      "loss": 0.7276,
      "step": 7920
    },
    {
      "epoch": 0.48626415789312133,
      "grad_norm": 0.7102405417682274,
      "learning_rate": 1.0929205313809465e-05,
      "loss": 0.8789,
      "step": 7921
    },
    {
      "epoch": 0.4863255471315878,
      "grad_norm": 0.80379612353342,
      "learning_rate": 1.0927225548212696e-05,
      "loss": 0.898,
      "step": 7922
    },
    {
      "epoch": 0.4863869363700543,
      "grad_norm": 0.7522282873239288,
      "learning_rate": 1.092524574595774e-05,
      "loss": 0.8067,
      "step": 7923
    },
    {
      "epoch": 0.4864483256085208,
      "grad_norm": 0.7321383907305291,
      "learning_rate": 1.0923265907122872e-05,
      "loss": 0.8743,
      "step": 7924
    },
    {
      "epoch": 0.4865097148469873,
      "grad_norm": 0.851329731677074,
      "learning_rate": 1.0921286031786365e-05,
      "loss": 0.8632,
      "step": 7925
    },
    {
      "epoch": 0.48657110408545384,
      "grad_norm": 0.7829084751010525,
      "learning_rate": 1.0919306120026493e-05,
      "loss": 0.8678,
      "step": 7926
    },
    {
      "epoch": 0.48663249332392033,
      "grad_norm": 0.7033386083390578,
      "learning_rate": 1.0917326171921531e-05,
      "loss": 0.8159,
      "step": 7927
    },
    {
      "epoch": 0.4866938825623868,
      "grad_norm": 0.7695545435805785,
      "learning_rate": 1.0915346187549765e-05,
      "loss": 0.8614,
      "step": 7928
    },
    {
      "epoch": 0.4867552718008533,
      "grad_norm": 0.7870318562958626,
      "learning_rate": 1.0913366166989462e-05,
      "loss": 0.8799,
      "step": 7929
    },
    {
      "epoch": 0.4868166610393198,
      "grad_norm": 0.7305612169929572,
      "learning_rate": 1.0911386110318913e-05,
      "loss": 0.8135,
      "step": 7930
    },
    {
      "epoch": 0.4868780502777863,
      "grad_norm": 0.9029094110072063,
      "learning_rate": 1.0909406017616397e-05,
      "loss": 0.8434,
      "step": 7931
    },
    {
      "epoch": 0.4869394395162528,
      "grad_norm": 0.8220673988776758,
      "learning_rate": 1.0907425888960196e-05,
      "loss": 0.8468,
      "step": 7932
    },
    {
      "epoch": 0.4870008287547193,
      "grad_norm": 0.7365120905123427,
      "learning_rate": 1.0905445724428598e-05,
      "loss": 0.8386,
      "step": 7933
    },
    {
      "epoch": 0.4870622179931858,
      "grad_norm": 0.8643498142733662,
      "learning_rate": 1.0903465524099885e-05,
      "loss": 0.8599,
      "step": 7934
    },
    {
      "epoch": 0.48712360723165227,
      "grad_norm": 0.7180865575936373,
      "learning_rate": 1.090148528805235e-05,
      "loss": 0.8633,
      "step": 7935
    },
    {
      "epoch": 0.4871849964701188,
      "grad_norm": 0.752161337000964,
      "learning_rate": 1.089950501636428e-05,
      "loss": 0.8692,
      "step": 7936
    },
    {
      "epoch": 0.4872463857085853,
      "grad_norm": 0.7363546457613558,
      "learning_rate": 1.0897524709113965e-05,
      "loss": 0.8985,
      "step": 7937
    },
    {
      "epoch": 0.4873077749470518,
      "grad_norm": 0.765066337884793,
      "learning_rate": 1.08955443663797e-05,
      "loss": 0.85,
      "step": 7938
    },
    {
      "epoch": 0.4873691641855183,
      "grad_norm": 0.7357250204821965,
      "learning_rate": 1.0893563988239773e-05,
      "loss": 0.8582,
      "step": 7939
    },
    {
      "epoch": 0.4874305534239848,
      "grad_norm": 0.7804506953845186,
      "learning_rate": 1.0891583574772486e-05,
      "loss": 0.8816,
      "step": 7940
    },
    {
      "epoch": 0.48749194266245127,
      "grad_norm": 0.7957716546545429,
      "learning_rate": 1.0889603126056127e-05,
      "loss": 0.8618,
      "step": 7941
    },
    {
      "epoch": 0.48755333190091776,
      "grad_norm": 0.7356546052592162,
      "learning_rate": 1.0887622642169002e-05,
      "loss": 0.8118,
      "step": 7942
    },
    {
      "epoch": 0.48761472113938426,
      "grad_norm": 0.8488662670286802,
      "learning_rate": 1.0885642123189407e-05,
      "loss": 0.8943,
      "step": 7943
    },
    {
      "epoch": 0.48767611037785075,
      "grad_norm": 0.6840675371226521,
      "learning_rate": 1.0883661569195641e-05,
      "loss": 0.8084,
      "step": 7944
    },
    {
      "epoch": 0.48773749961631724,
      "grad_norm": 0.8083887141646406,
      "learning_rate": 1.0881680980266007e-05,
      "loss": 0.8755,
      "step": 7945
    },
    {
      "epoch": 0.48779888885478373,
      "grad_norm": 0.7950920092500602,
      "learning_rate": 1.0879700356478808e-05,
      "loss": 0.8545,
      "step": 7946
    },
    {
      "epoch": 0.4878602780932503,
      "grad_norm": 0.7281309716269299,
      "learning_rate": 1.0877719697912353e-05,
      "loss": 0.8644,
      "step": 7947
    },
    {
      "epoch": 0.48792166733171677,
      "grad_norm": 0.7490729634442088,
      "learning_rate": 1.0875739004644935e-05,
      "loss": 0.8087,
      "step": 7948
    },
    {
      "epoch": 0.48798305657018326,
      "grad_norm": 0.749447412556226,
      "learning_rate": 1.0873758276754877e-05,
      "loss": 0.8698,
      "step": 7949
    },
    {
      "epoch": 0.48804444580864975,
      "grad_norm": 0.70054834776504,
      "learning_rate": 1.0871777514320481e-05,
      "loss": 0.8948,
      "step": 7950
    },
    {
      "epoch": 0.48810583504711624,
      "grad_norm": 0.7072819228976643,
      "learning_rate": 1.0869796717420055e-05,
      "loss": 0.8543,
      "step": 7951
    },
    {
      "epoch": 0.48816722428558273,
      "grad_norm": 0.7911848952460485,
      "learning_rate": 1.0867815886131916e-05,
      "loss": 0.8233,
      "step": 7952
    },
    {
      "epoch": 0.4882286135240492,
      "grad_norm": 0.7957203629720071,
      "learning_rate": 1.086583502053437e-05,
      "loss": 0.8866,
      "step": 7953
    },
    {
      "epoch": 0.4882900027625157,
      "grad_norm": 0.813140344141894,
      "learning_rate": 1.0863854120705738e-05,
      "loss": 0.8944,
      "step": 7954
    },
    {
      "epoch": 0.4883513920009822,
      "grad_norm": 0.8840514675096245,
      "learning_rate": 1.086187318672433e-05,
      "loss": 0.8807,
      "step": 7955
    },
    {
      "epoch": 0.4884127812394487,
      "grad_norm": 0.8143702694313747,
      "learning_rate": 1.0859892218668466e-05,
      "loss": 0.815,
      "step": 7956
    },
    {
      "epoch": 0.48847417047791525,
      "grad_norm": 0.7559008459143244,
      "learning_rate": 1.0857911216616464e-05,
      "loss": 0.8184,
      "step": 7957
    },
    {
      "epoch": 0.48853555971638174,
      "grad_norm": 0.7842560219186496,
      "learning_rate": 1.0855930180646643e-05,
      "loss": 0.8278,
      "step": 7958
    },
    {
      "epoch": 0.48859694895484823,
      "grad_norm": 0.7628749597030203,
      "learning_rate": 1.0853949110837321e-05,
      "loss": 0.8251,
      "step": 7959
    },
    {
      "epoch": 0.4886583381933147,
      "grad_norm": 0.8453235632185723,
      "learning_rate": 1.0851968007266827e-05,
      "loss": 0.8796,
      "step": 7960
    },
    {
      "epoch": 0.4887197274317812,
      "grad_norm": 0.7502475826167567,
      "learning_rate": 1.0849986870013481e-05,
      "loss": 0.856,
      "step": 7961
    },
    {
      "epoch": 0.4887811166702477,
      "grad_norm": 0.8040562456732339,
      "learning_rate": 1.0848005699155608e-05,
      "loss": 0.8791,
      "step": 7962
    },
    {
      "epoch": 0.4888425059087142,
      "grad_norm": 0.8263867208325097,
      "learning_rate": 1.0846024494771534e-05,
      "loss": 0.8238,
      "step": 7963
    },
    {
      "epoch": 0.4889038951471807,
      "grad_norm": 0.8318615911964915,
      "learning_rate": 1.0844043256939585e-05,
      "loss": 0.8664,
      "step": 7964
    },
    {
      "epoch": 0.4889652843856472,
      "grad_norm": 0.7936043095558964,
      "learning_rate": 1.0842061985738095e-05,
      "loss": 0.7995,
      "step": 7965
    },
    {
      "epoch": 0.4890266736241137,
      "grad_norm": 0.7876734669031233,
      "learning_rate": 1.0840080681245389e-05,
      "loss": 0.8638,
      "step": 7966
    },
    {
      "epoch": 0.48908806286258016,
      "grad_norm": 0.8470974656815838,
      "learning_rate": 1.0838099343539803e-05,
      "loss": 0.8865,
      "step": 7967
    },
    {
      "epoch": 0.4891494521010467,
      "grad_norm": 0.7244687894674264,
      "learning_rate": 1.0836117972699663e-05,
      "loss": 0.8399,
      "step": 7968
    },
    {
      "epoch": 0.4892108413395132,
      "grad_norm": 0.7997894366024102,
      "learning_rate": 1.083413656880331e-05,
      "loss": 0.8448,
      "step": 7969
    },
    {
      "epoch": 0.4892722305779797,
      "grad_norm": 0.8157907791293303,
      "learning_rate": 1.0832155131929076e-05,
      "loss": 0.863,
      "step": 7970
    },
    {
      "epoch": 0.4893336198164462,
      "grad_norm": 0.8063230658474853,
      "learning_rate": 1.0830173662155299e-05,
      "loss": 0.855,
      "step": 7971
    },
    {
      "epoch": 0.4893950090549127,
      "grad_norm": 0.7713414707656964,
      "learning_rate": 1.0828192159560322e-05,
      "loss": 0.8472,
      "step": 7972
    },
    {
      "epoch": 0.48945639829337917,
      "grad_norm": 0.8072416195682642,
      "learning_rate": 1.0826210624222473e-05,
      "loss": 0.817,
      "step": 7973
    },
    {
      "epoch": 0.48951778753184566,
      "grad_norm": 0.8296262450423514,
      "learning_rate": 1.08242290562201e-05,
      "loss": 0.8802,
      "step": 7974
    },
    {
      "epoch": 0.48957917677031215,
      "grad_norm": 0.7898383616395158,
      "learning_rate": 1.082224745563155e-05,
      "loss": 0.8348,
      "step": 7975
    },
    {
      "epoch": 0.48964056600877864,
      "grad_norm": 0.7370409952775483,
      "learning_rate": 1.0820265822535155e-05,
      "loss": 0.8323,
      "step": 7976
    },
    {
      "epoch": 0.48970195524724514,
      "grad_norm": 0.5953958679738377,
      "learning_rate": 1.0818284157009267e-05,
      "loss": 0.7029,
      "step": 7977
    },
    {
      "epoch": 0.4897633444857117,
      "grad_norm": 0.857107909101726,
      "learning_rate": 1.0816302459132226e-05,
      "loss": 0.8727,
      "step": 7978
    },
    {
      "epoch": 0.4898247337241782,
      "grad_norm": 0.8137883973547628,
      "learning_rate": 1.0814320728982391e-05,
      "loss": 0.8391,
      "step": 7979
    },
    {
      "epoch": 0.48988612296264467,
      "grad_norm": 0.7254112231147335,
      "learning_rate": 1.0812338966638094e-05,
      "loss": 0.8362,
      "step": 7980
    },
    {
      "epoch": 0.48994751220111116,
      "grad_norm": 0.8140654245822759,
      "learning_rate": 1.0810357172177696e-05,
      "loss": 0.8123,
      "step": 7981
    },
    {
      "epoch": 0.49000890143957765,
      "grad_norm": 0.7497072180853679,
      "learning_rate": 1.0808375345679544e-05,
      "loss": 0.8119,
      "step": 7982
    },
    {
      "epoch": 0.49007029067804414,
      "grad_norm": 0.7459003566255672,
      "learning_rate": 1.0806393487221994e-05,
      "loss": 0.8507,
      "step": 7983
    },
    {
      "epoch": 0.49013167991651063,
      "grad_norm": 0.7693490585662998,
      "learning_rate": 1.0804411596883396e-05,
      "loss": 0.8357,
      "step": 7984
    },
    {
      "epoch": 0.4901930691549771,
      "grad_norm": 0.8223795084354483,
      "learning_rate": 1.0802429674742102e-05,
      "loss": 0.9232,
      "step": 7985
    },
    {
      "epoch": 0.4902544583934436,
      "grad_norm": 0.7599735034002877,
      "learning_rate": 1.0800447720876473e-05,
      "loss": 0.8616,
      "step": 7986
    },
    {
      "epoch": 0.4903158476319101,
      "grad_norm": 0.867852400619779,
      "learning_rate": 1.0798465735364864e-05,
      "loss": 0.8855,
      "step": 7987
    },
    {
      "epoch": 0.4903772368703766,
      "grad_norm": 0.8210205500600474,
      "learning_rate": 1.0796483718285636e-05,
      "loss": 0.8433,
      "step": 7988
    },
    {
      "epoch": 0.49043862610884315,
      "grad_norm": 0.7782276836272772,
      "learning_rate": 1.0794501669717146e-05,
      "loss": 0.8136,
      "step": 7989
    },
    {
      "epoch": 0.49050001534730964,
      "grad_norm": 0.8396747531087568,
      "learning_rate": 1.0792519589737756e-05,
      "loss": 0.8596,
      "step": 7990
    },
    {
      "epoch": 0.49056140458577613,
      "grad_norm": 0.8024965285940496,
      "learning_rate": 1.0790537478425824e-05,
      "loss": 0.8736,
      "step": 7991
    },
    {
      "epoch": 0.4906227938242426,
      "grad_norm": 0.8659847072396709,
      "learning_rate": 1.0788555335859721e-05,
      "loss": 0.8766,
      "step": 7992
    },
    {
      "epoch": 0.4906841830627091,
      "grad_norm": 0.6984890179109918,
      "learning_rate": 1.0786573162117809e-05,
      "loss": 0.8497,
      "step": 7993
    },
    {
      "epoch": 0.4907455723011756,
      "grad_norm": 0.8537332886076148,
      "learning_rate": 1.0784590957278452e-05,
      "loss": 0.8533,
      "step": 7994
    },
    {
      "epoch": 0.4908069615396421,
      "grad_norm": 0.6491892858340308,
      "learning_rate": 1.0782608721420015e-05,
      "loss": 0.7716,
      "step": 7995
    },
    {
      "epoch": 0.4908683507781086,
      "grad_norm": 0.8204248951792706,
      "learning_rate": 1.0780626454620873e-05,
      "loss": 0.8812,
      "step": 7996
    },
    {
      "epoch": 0.4909297400165751,
      "grad_norm": 0.748141296014705,
      "learning_rate": 1.0778644156959392e-05,
      "loss": 0.8302,
      "step": 7997
    },
    {
      "epoch": 0.49099112925504157,
      "grad_norm": 0.7726556081532924,
      "learning_rate": 1.0776661828513942e-05,
      "loss": 0.8324,
      "step": 7998
    },
    {
      "epoch": 0.49105251849350806,
      "grad_norm": 0.8003132112591445,
      "learning_rate": 1.0774679469362899e-05,
      "loss": 0.8472,
      "step": 7999
    },
    {
      "epoch": 0.4911139077319746,
      "grad_norm": 0.835713608370469,
      "learning_rate": 1.0772697079584628e-05,
      "loss": 0.8577,
      "step": 8000
    },
    {
      "epoch": 0.4911752969704411,
      "grad_norm": 0.8043400469728545,
      "learning_rate": 1.0770714659257513e-05,
      "loss": 0.8891,
      "step": 8001
    },
    {
      "epoch": 0.4912366862089076,
      "grad_norm": 0.864671291484569,
      "learning_rate": 1.0768732208459924e-05,
      "loss": 0.8408,
      "step": 8002
    },
    {
      "epoch": 0.4912980754473741,
      "grad_norm": 0.8904000356484482,
      "learning_rate": 1.0766749727270238e-05,
      "loss": 0.9372,
      "step": 8003
    },
    {
      "epoch": 0.4913594646858406,
      "grad_norm": 0.7393986148613979,
      "learning_rate": 1.0764767215766838e-05,
      "loss": 0.841,
      "step": 8004
    },
    {
      "epoch": 0.49142085392430707,
      "grad_norm": 0.7919482796212775,
      "learning_rate": 1.0762784674028095e-05,
      "loss": 0.8475,
      "step": 8005
    },
    {
      "epoch": 0.49148224316277356,
      "grad_norm": 0.8084985874695769,
      "learning_rate": 1.0760802102132398e-05,
      "loss": 0.8469,
      "step": 8006
    },
    {
      "epoch": 0.49154363240124005,
      "grad_norm": 0.7754557320472849,
      "learning_rate": 1.0758819500158124e-05,
      "loss": 0.8126,
      "step": 8007
    },
    {
      "epoch": 0.49160502163970654,
      "grad_norm": 0.8212523072748388,
      "learning_rate": 1.0756836868183655e-05,
      "loss": 0.8756,
      "step": 8008
    },
    {
      "epoch": 0.49166641087817303,
      "grad_norm": 0.7841471378457727,
      "learning_rate": 1.075485420628738e-05,
      "loss": 0.9204,
      "step": 8009
    },
    {
      "epoch": 0.4917278001166396,
      "grad_norm": 0.7200687341962713,
      "learning_rate": 1.0752871514547676e-05,
      "loss": 0.8311,
      "step": 8010
    },
    {
      "epoch": 0.49178918935510607,
      "grad_norm": 0.785061578870347,
      "learning_rate": 1.075088879304294e-05,
      "loss": 0.8806,
      "step": 8011
    },
    {
      "epoch": 0.49185057859357256,
      "grad_norm": 0.8647783203754591,
      "learning_rate": 1.074890604185155e-05,
      "loss": 0.8823,
      "step": 8012
    },
    {
      "epoch": 0.49191196783203905,
      "grad_norm": 0.8261090006526379,
      "learning_rate": 1.07469232610519e-05,
      "loss": 0.8436,
      "step": 8013
    },
    {
      "epoch": 0.49197335707050555,
      "grad_norm": 0.7142083479224209,
      "learning_rate": 1.0744940450722378e-05,
      "loss": 0.8562,
      "step": 8014
    },
    {
      "epoch": 0.49203474630897204,
      "grad_norm": 0.751133418551469,
      "learning_rate": 1.0742957610941378e-05,
      "loss": 0.8014,
      "step": 8015
    },
    {
      "epoch": 0.49209613554743853,
      "grad_norm": 0.777946651748155,
      "learning_rate": 1.0740974741787289e-05,
      "loss": 0.8598,
      "step": 8016
    },
    {
      "epoch": 0.492157524785905,
      "grad_norm": 0.7416386690389346,
      "learning_rate": 1.0738991843338502e-05,
      "loss": 0.8665,
      "step": 8017
    },
    {
      "epoch": 0.4922189140243715,
      "grad_norm": 0.7959541161153367,
      "learning_rate": 1.0737008915673418e-05,
      "loss": 0.8421,
      "step": 8018
    },
    {
      "epoch": 0.492280303262838,
      "grad_norm": 0.8159544011964016,
      "learning_rate": 1.073502595887043e-05,
      "loss": 0.877,
      "step": 8019
    },
    {
      "epoch": 0.4923416925013045,
      "grad_norm": 0.7641716158101236,
      "learning_rate": 1.0733042973007934e-05,
      "loss": 0.8079,
      "step": 8020
    },
    {
      "epoch": 0.49240308173977104,
      "grad_norm": 0.7394976487134408,
      "learning_rate": 1.0731059958164331e-05,
      "loss": 0.8677,
      "step": 8021
    },
    {
      "epoch": 0.49246447097823753,
      "grad_norm": 0.7526811236544461,
      "learning_rate": 1.0729076914418014e-05,
      "loss": 0.8142,
      "step": 8022
    },
    {
      "epoch": 0.492525860216704,
      "grad_norm": 0.8178734447434197,
      "learning_rate": 1.072709384184739e-05,
      "loss": 0.8355,
      "step": 8023
    },
    {
      "epoch": 0.4925872494551705,
      "grad_norm": 0.8322802499868949,
      "learning_rate": 1.0725110740530855e-05,
      "loss": 0.8751,
      "step": 8024
    },
    {
      "epoch": 0.492648638693637,
      "grad_norm": 0.7561909246318982,
      "learning_rate": 1.0723127610546818e-05,
      "loss": 0.8233,
      "step": 8025
    },
    {
      "epoch": 0.4927100279321035,
      "grad_norm": 0.7173702859709155,
      "learning_rate": 1.0721144451973677e-05,
      "loss": 0.8321,
      "step": 8026
    },
    {
      "epoch": 0.49277141717057,
      "grad_norm": 0.7646290526271097,
      "learning_rate": 1.071916126488984e-05,
      "loss": 0.8714,
      "step": 8027
    },
    {
      "epoch": 0.4928328064090365,
      "grad_norm": 0.8849317464910283,
      "learning_rate": 1.071717804937371e-05,
      "loss": 0.8449,
      "step": 8028
    },
    {
      "epoch": 0.492894195647503,
      "grad_norm": 0.7111923306896824,
      "learning_rate": 1.0715194805503697e-05,
      "loss": 0.8765,
      "step": 8029
    },
    {
      "epoch": 0.49295558488596947,
      "grad_norm": 0.7934184443263411,
      "learning_rate": 1.0713211533358205e-05,
      "loss": 0.8709,
      "step": 8030
    },
    {
      "epoch": 0.493016974124436,
      "grad_norm": 0.8406309538298077,
      "learning_rate": 1.0711228233015652e-05,
      "loss": 0.8786,
      "step": 8031
    },
    {
      "epoch": 0.4930783633629025,
      "grad_norm": 0.7605788623114742,
      "learning_rate": 1.0709244904554439e-05,
      "loss": 0.8885,
      "step": 8032
    },
    {
      "epoch": 0.493139752601369,
      "grad_norm": 0.7920798086261057,
      "learning_rate": 1.0707261548052985e-05,
      "loss": 0.877,
      "step": 8033
    },
    {
      "epoch": 0.4932011418398355,
      "grad_norm": 0.7976977329011341,
      "learning_rate": 1.0705278163589696e-05,
      "loss": 0.8373,
      "step": 8034
    },
    {
      "epoch": 0.493262531078302,
      "grad_norm": 0.7748204981770183,
      "learning_rate": 1.0703294751242989e-05,
      "loss": 0.8576,
      "step": 8035
    },
    {
      "epoch": 0.49332392031676847,
      "grad_norm": 0.7947117869413584,
      "learning_rate": 1.0701311311091285e-05,
      "loss": 0.8567,
      "step": 8036
    },
    {
      "epoch": 0.49338530955523496,
      "grad_norm": 0.8164858223340233,
      "learning_rate": 1.0699327843212986e-05,
      "loss": 0.8973,
      "step": 8037
    },
    {
      "epoch": 0.49344669879370145,
      "grad_norm": 0.7097941774326317,
      "learning_rate": 1.0697344347686522e-05,
      "loss": 0.8607,
      "step": 8038
    },
    {
      "epoch": 0.49350808803216795,
      "grad_norm": 0.7733499853100869,
      "learning_rate": 1.0695360824590304e-05,
      "loss": 0.8066,
      "step": 8039
    },
    {
      "epoch": 0.49356947727063444,
      "grad_norm": 0.7773736276351735,
      "learning_rate": 1.0693377274002757e-05,
      "loss": 0.8472,
      "step": 8040
    },
    {
      "epoch": 0.49363086650910093,
      "grad_norm": 0.7663892759884124,
      "learning_rate": 1.0691393696002295e-05,
      "loss": 0.8562,
      "step": 8041
    },
    {
      "epoch": 0.4936922557475675,
      "grad_norm": 0.7521227488539682,
      "learning_rate": 1.068941009066734e-05,
      "loss": 0.8258,
      "step": 8042
    },
    {
      "epoch": 0.49375364498603397,
      "grad_norm": 0.858140308301358,
      "learning_rate": 1.068742645807632e-05,
      "loss": 0.9046,
      "step": 8043
    },
    {
      "epoch": 0.49381503422450046,
      "grad_norm": 0.7587261016876309,
      "learning_rate": 1.0685442798307654e-05,
      "loss": 0.837,
      "step": 8044
    },
    {
      "epoch": 0.49387642346296695,
      "grad_norm": 0.8276169774457689,
      "learning_rate": 1.0683459111439771e-05,
      "loss": 0.8955,
      "step": 8045
    },
    {
      "epoch": 0.49393781270143344,
      "grad_norm": 0.8737608460597811,
      "learning_rate": 1.0681475397551093e-05,
      "loss": 0.8462,
      "step": 8046
    },
    {
      "epoch": 0.49399920193989993,
      "grad_norm": 0.7485009199277083,
      "learning_rate": 1.0679491656720047e-05,
      "loss": 0.853,
      "step": 8047
    },
    {
      "epoch": 0.4940605911783664,
      "grad_norm": 0.826219635915963,
      "learning_rate": 1.0677507889025063e-05,
      "loss": 0.8478,
      "step": 8048
    },
    {
      "epoch": 0.4941219804168329,
      "grad_norm": 0.8208756199510477,
      "learning_rate": 1.0675524094544564e-05,
      "loss": 0.8904,
      "step": 8049
    },
    {
      "epoch": 0.4941833696552994,
      "grad_norm": 0.7467207425372346,
      "learning_rate": 1.0673540273356988e-05,
      "loss": 0.8498,
      "step": 8050
    },
    {
      "epoch": 0.4942447588937659,
      "grad_norm": 0.8153417272874511,
      "learning_rate": 1.0671556425540763e-05,
      "loss": 0.8806,
      "step": 8051
    },
    {
      "epoch": 0.4943061481322324,
      "grad_norm": 0.7172977972466952,
      "learning_rate": 1.066957255117432e-05,
      "loss": 0.856,
      "step": 8052
    },
    {
      "epoch": 0.49436753737069894,
      "grad_norm": 0.8184090138587047,
      "learning_rate": 1.0667588650336094e-05,
      "loss": 0.8678,
      "step": 8053
    },
    {
      "epoch": 0.49442892660916543,
      "grad_norm": 0.7063894753402132,
      "learning_rate": 1.0665604723104517e-05,
      "loss": 0.8472,
      "step": 8054
    },
    {
      "epoch": 0.4944903158476319,
      "grad_norm": 0.825311580360987,
      "learning_rate": 1.0663620769558024e-05,
      "loss": 0.8641,
      "step": 8055
    },
    {
      "epoch": 0.4945517050860984,
      "grad_norm": 0.7099113399514924,
      "learning_rate": 1.0661636789775055e-05,
      "loss": 0.8834,
      "step": 8056
    },
    {
      "epoch": 0.4946130943245649,
      "grad_norm": 0.7546359261102266,
      "learning_rate": 1.0659652783834045e-05,
      "loss": 0.8288,
      "step": 8057
    },
    {
      "epoch": 0.4946744835630314,
      "grad_norm": 0.8396810326994629,
      "learning_rate": 1.065766875181343e-05,
      "loss": 0.8763,
      "step": 8058
    },
    {
      "epoch": 0.4947358728014979,
      "grad_norm": 0.8430341675296161,
      "learning_rate": 1.0655684693791655e-05,
      "loss": 0.8265,
      "step": 8059
    },
    {
      "epoch": 0.4947972620399644,
      "grad_norm": 0.7664992228113208,
      "learning_rate": 1.0653700609847153e-05,
      "loss": 0.8297,
      "step": 8060
    },
    {
      "epoch": 0.49485865127843087,
      "grad_norm": 0.7565458117667315,
      "learning_rate": 1.0651716500058376e-05,
      "loss": 0.8882,
      "step": 8061
    },
    {
      "epoch": 0.49492004051689736,
      "grad_norm": 0.8160927554172701,
      "learning_rate": 1.0649732364503756e-05,
      "loss": 0.8364,
      "step": 8062
    },
    {
      "epoch": 0.4949814297553639,
      "grad_norm": 0.7500051853965797,
      "learning_rate": 1.064774820326174e-05,
      "loss": 0.8434,
      "step": 8063
    },
    {
      "epoch": 0.4950428189938304,
      "grad_norm": 0.5964134448525044,
      "learning_rate": 1.0645764016410776e-05,
      "loss": 0.73,
      "step": 8064
    },
    {
      "epoch": 0.4951042082322969,
      "grad_norm": 0.7806805052360027,
      "learning_rate": 1.0643779804029304e-05,
      "loss": 0.8152,
      "step": 8065
    },
    {
      "epoch": 0.4951655974707634,
      "grad_norm": 0.8031692955070451,
      "learning_rate": 1.0641795566195774e-05,
      "loss": 0.8337,
      "step": 8066
    },
    {
      "epoch": 0.4952269867092299,
      "grad_norm": 0.7542736154899057,
      "learning_rate": 1.0639811302988631e-05,
      "loss": 0.8588,
      "step": 8067
    },
    {
      "epoch": 0.49528837594769637,
      "grad_norm": 0.7552143100631795,
      "learning_rate": 1.063782701448633e-05,
      "loss": 0.8228,
      "step": 8068
    },
    {
      "epoch": 0.49534976518616286,
      "grad_norm": 0.7782679508437627,
      "learning_rate": 1.0635842700767309e-05,
      "loss": 0.894,
      "step": 8069
    },
    {
      "epoch": 0.49541115442462935,
      "grad_norm": 0.708249387771797,
      "learning_rate": 1.063385836191003e-05,
      "loss": 0.7911,
      "step": 8070
    },
    {
      "epoch": 0.49547254366309584,
      "grad_norm": 0.8331959821438156,
      "learning_rate": 1.0631873997992941e-05,
      "loss": 0.8787,
      "step": 8071
    },
    {
      "epoch": 0.49553393290156234,
      "grad_norm": 0.82911277890362,
      "learning_rate": 1.062988960909449e-05,
      "loss": 0.8751,
      "step": 8072
    },
    {
      "epoch": 0.4955953221400288,
      "grad_norm": 0.8623888127986037,
      "learning_rate": 1.0627905195293135e-05,
      "loss": 0.8811,
      "step": 8073
    },
    {
      "epoch": 0.4956567113784954,
      "grad_norm": 0.7868863831292547,
      "learning_rate": 1.062592075666733e-05,
      "loss": 0.8755,
      "step": 8074
    },
    {
      "epoch": 0.49571810061696187,
      "grad_norm": 0.7387637194337965,
      "learning_rate": 1.062393629329553e-05,
      "loss": 0.8647,
      "step": 8075
    },
    {
      "epoch": 0.49577948985542836,
      "grad_norm": 0.8014786121061818,
      "learning_rate": 1.062195180525619e-05,
      "loss": 0.8931,
      "step": 8076
    },
    {
      "epoch": 0.49584087909389485,
      "grad_norm": 0.7474746526490406,
      "learning_rate": 1.0619967292627769e-05,
      "loss": 0.8437,
      "step": 8077
    },
    {
      "epoch": 0.49590226833236134,
      "grad_norm": 0.7751524454647034,
      "learning_rate": 1.0617982755488725e-05,
      "loss": 0.8504,
      "step": 8078
    },
    {
      "epoch": 0.49596365757082783,
      "grad_norm": 0.8551521215970453,
      "learning_rate": 1.0615998193917518e-05,
      "loss": 0.8954,
      "step": 8079
    },
    {
      "epoch": 0.4960250468092943,
      "grad_norm": 0.7637521192372763,
      "learning_rate": 1.0614013607992609e-05,
      "loss": 0.8885,
      "step": 8080
    },
    {
      "epoch": 0.4960864360477608,
      "grad_norm": 0.771169034831998,
      "learning_rate": 1.0612028997792455e-05,
      "loss": 0.8476,
      "step": 8081
    },
    {
      "epoch": 0.4961478252862273,
      "grad_norm": 0.8178641075908073,
      "learning_rate": 1.0610044363395524e-05,
      "loss": 0.8407,
      "step": 8082
    },
    {
      "epoch": 0.4962092145246938,
      "grad_norm": 0.7331488875292121,
      "learning_rate": 1.0608059704880275e-05,
      "loss": 0.8448,
      "step": 8083
    },
    {
      "epoch": 0.49627060376316035,
      "grad_norm": 0.7689460689160903,
      "learning_rate": 1.0606075022325174e-05,
      "loss": 0.8573,
      "step": 8084
    },
    {
      "epoch": 0.49633199300162684,
      "grad_norm": 0.8520940492955413,
      "learning_rate": 1.0604090315808689e-05,
      "loss": 0.8419,
      "step": 8085
    },
    {
      "epoch": 0.49639338224009333,
      "grad_norm": 0.8236052592501557,
      "learning_rate": 1.060210558540928e-05,
      "loss": 0.8514,
      "step": 8086
    },
    {
      "epoch": 0.4964547714785598,
      "grad_norm": 0.7842818944016334,
      "learning_rate": 1.0600120831205413e-05,
      "loss": 0.8698,
      "step": 8087
    },
    {
      "epoch": 0.4965161607170263,
      "grad_norm": 0.7834479979334735,
      "learning_rate": 1.0598136053275565e-05,
      "loss": 0.8523,
      "step": 8088
    },
    {
      "epoch": 0.4965775499554928,
      "grad_norm": 0.7599373324595405,
      "learning_rate": 1.05961512516982e-05,
      "loss": 0.8227,
      "step": 8089
    },
    {
      "epoch": 0.4966389391939593,
      "grad_norm": 0.7730113527863216,
      "learning_rate": 1.0594166426551787e-05,
      "loss": 0.8604,
      "step": 8090
    },
    {
      "epoch": 0.4967003284324258,
      "grad_norm": 0.7754741029419009,
      "learning_rate": 1.0592181577914798e-05,
      "loss": 0.8287,
      "step": 8091
    },
    {
      "epoch": 0.4967617176708923,
      "grad_norm": 0.8166783325196567,
      "learning_rate": 1.05901967058657e-05,
      "loss": 0.8576,
      "step": 8092
    },
    {
      "epoch": 0.49682310690935877,
      "grad_norm": 0.9037036646628716,
      "learning_rate": 1.0588211810482974e-05,
      "loss": 0.8981,
      "step": 8093
    },
    {
      "epoch": 0.49688449614782526,
      "grad_norm": 0.8007712913693377,
      "learning_rate": 1.0586226891845086e-05,
      "loss": 0.867,
      "step": 8094
    },
    {
      "epoch": 0.4969458853862918,
      "grad_norm": 0.7960110448013458,
      "learning_rate": 1.0584241950030515e-05,
      "loss": 0.8685,
      "step": 8095
    },
    {
      "epoch": 0.4970072746247583,
      "grad_norm": 0.6866905553511655,
      "learning_rate": 1.0582256985117735e-05,
      "loss": 0.843,
      "step": 8096
    },
    {
      "epoch": 0.4970686638632248,
      "grad_norm": 0.8431065398837508,
      "learning_rate": 1.058027199718522e-05,
      "loss": 0.8886,
      "step": 8097
    },
    {
      "epoch": 0.4971300531016913,
      "grad_norm": 0.6771568744327517,
      "learning_rate": 1.0578286986311454e-05,
      "loss": 0.8023,
      "step": 8098
    },
    {
      "epoch": 0.4971914423401578,
      "grad_norm": 0.7211735401791374,
      "learning_rate": 1.0576301952574908e-05,
      "loss": 0.842,
      "step": 8099
    },
    {
      "epoch": 0.49725283157862427,
      "grad_norm": 0.7522530141172098,
      "learning_rate": 1.0574316896054066e-05,
      "loss": 0.8362,
      "step": 8100
    },
    {
      "epoch": 0.49731422081709076,
      "grad_norm": 0.8139367750374666,
      "learning_rate": 1.0572331816827402e-05,
      "loss": 0.8295,
      "step": 8101
    },
    {
      "epoch": 0.49737561005555725,
      "grad_norm": 0.8109991876367179,
      "learning_rate": 1.0570346714973401e-05,
      "loss": 0.8186,
      "step": 8102
    },
    {
      "epoch": 0.49743699929402374,
      "grad_norm": 0.8528449849778423,
      "learning_rate": 1.0568361590570546e-05,
      "loss": 0.7771,
      "step": 8103
    },
    {
      "epoch": 0.49749838853249023,
      "grad_norm": 0.8363309125052631,
      "learning_rate": 1.0566376443697315e-05,
      "loss": 0.8583,
      "step": 8104
    },
    {
      "epoch": 0.4975597777709567,
      "grad_norm": 0.7972894437490355,
      "learning_rate": 1.0564391274432196e-05,
      "loss": 0.8703,
      "step": 8105
    },
    {
      "epoch": 0.49762116700942327,
      "grad_norm": 0.819576996197453,
      "learning_rate": 1.0562406082853668e-05,
      "loss": 0.8319,
      "step": 8106
    },
    {
      "epoch": 0.49768255624788976,
      "grad_norm": 0.7307676093102743,
      "learning_rate": 1.0560420869040221e-05,
      "loss": 0.8376,
      "step": 8107
    },
    {
      "epoch": 0.49774394548635625,
      "grad_norm": 0.8280265426274517,
      "learning_rate": 1.0558435633070342e-05,
      "loss": 0.8751,
      "step": 8108
    },
    {
      "epoch": 0.49780533472482275,
      "grad_norm": 0.7595524139254805,
      "learning_rate": 1.0556450375022516e-05,
      "loss": 0.8341,
      "step": 8109
    },
    {
      "epoch": 0.49786672396328924,
      "grad_norm": 0.7492804348223865,
      "learning_rate": 1.0554465094975227e-05,
      "loss": 0.7984,
      "step": 8110
    },
    {
      "epoch": 0.49792811320175573,
      "grad_norm": 0.838568762475531,
      "learning_rate": 1.055247979300697e-05,
      "loss": 0.8565,
      "step": 8111
    },
    {
      "epoch": 0.4979895024402222,
      "grad_norm": 0.8629955226573118,
      "learning_rate": 1.055049446919623e-05,
      "loss": 0.8609,
      "step": 8112
    },
    {
      "epoch": 0.4980508916786887,
      "grad_norm": 0.8069994274489426,
      "learning_rate": 1.05485091236215e-05,
      "loss": 0.8786,
      "step": 8113
    },
    {
      "epoch": 0.4981122809171552,
      "grad_norm": 0.7022123911834032,
      "learning_rate": 1.0546523756361271e-05,
      "loss": 0.8157,
      "step": 8114
    },
    {
      "epoch": 0.4981736701556217,
      "grad_norm": 0.8621632551888955,
      "learning_rate": 1.0544538367494037e-05,
      "loss": 0.8751,
      "step": 8115
    },
    {
      "epoch": 0.49823505939408824,
      "grad_norm": 0.7249855705481296,
      "learning_rate": 1.0542552957098287e-05,
      "loss": 0.8673,
      "step": 8116
    },
    {
      "epoch": 0.49829644863255473,
      "grad_norm": 0.7487044388615293,
      "learning_rate": 1.0540567525252517e-05,
      "loss": 0.826,
      "step": 8117
    },
    {
      "epoch": 0.4983578378710212,
      "grad_norm": 0.7583789365665428,
      "learning_rate": 1.0538582072035221e-05,
      "loss": 0.8252,
      "step": 8118
    },
    {
      "epoch": 0.4984192271094877,
      "grad_norm": 0.8233949788179544,
      "learning_rate": 1.0536596597524892e-05,
      "loss": 0.8522,
      "step": 8119
    },
    {
      "epoch": 0.4984806163479542,
      "grad_norm": 0.8096379041846304,
      "learning_rate": 1.0534611101800034e-05,
      "loss": 0.8829,
      "step": 8120
    },
    {
      "epoch": 0.4985420055864207,
      "grad_norm": 0.8543722426869941,
      "learning_rate": 1.053262558493914e-05,
      "loss": 0.8256,
      "step": 8121
    },
    {
      "epoch": 0.4986033948248872,
      "grad_norm": 0.7712047535780131,
      "learning_rate": 1.0530640047020708e-05,
      "loss": 0.8938,
      "step": 8122
    },
    {
      "epoch": 0.4986647840633537,
      "grad_norm": 0.814295385687819,
      "learning_rate": 1.0528654488123236e-05,
      "loss": 0.8339,
      "step": 8123
    },
    {
      "epoch": 0.4987261733018202,
      "grad_norm": 0.8005211113713983,
      "learning_rate": 1.0526668908325222e-05,
      "loss": 0.8858,
      "step": 8124
    },
    {
      "epoch": 0.49878756254028667,
      "grad_norm": 0.8047598782150538,
      "learning_rate": 1.0524683307705175e-05,
      "loss": 0.8711,
      "step": 8125
    },
    {
      "epoch": 0.49884895177875316,
      "grad_norm": 0.8446054712884769,
      "learning_rate": 1.0522697686341585e-05,
      "loss": 0.8282,
      "step": 8126
    },
    {
      "epoch": 0.4989103410172197,
      "grad_norm": 0.7485530562807406,
      "learning_rate": 1.0520712044312963e-05,
      "loss": 0.8709,
      "step": 8127
    },
    {
      "epoch": 0.4989717302556862,
      "grad_norm": 0.7881785501554268,
      "learning_rate": 1.0518726381697807e-05,
      "loss": 0.8318,
      "step": 8128
    },
    {
      "epoch": 0.4990331194941527,
      "grad_norm": 0.8268247539238197,
      "learning_rate": 1.0516740698574624e-05,
      "loss": 0.8458,
      "step": 8129
    },
    {
      "epoch": 0.4990945087326192,
      "grad_norm": 0.7609059181640994,
      "learning_rate": 1.0514754995021918e-05,
      "loss": 0.8704,
      "step": 8130
    },
    {
      "epoch": 0.49915589797108567,
      "grad_norm": 0.7618416022684619,
      "learning_rate": 1.0512769271118193e-05,
      "loss": 0.8734,
      "step": 8131
    },
    {
      "epoch": 0.49921728720955216,
      "grad_norm": 0.7178905097828414,
      "learning_rate": 1.0510783526941959e-05,
      "loss": 0.8233,
      "step": 8132
    },
    {
      "epoch": 0.49927867644801865,
      "grad_norm": 0.8207802544250351,
      "learning_rate": 1.0508797762571714e-05,
      "loss": 0.8725,
      "step": 8133
    },
    {
      "epoch": 0.49934006568648515,
      "grad_norm": 0.7553703856969339,
      "learning_rate": 1.0506811978085977e-05,
      "loss": 0.8202,
      "step": 8134
    },
    {
      "epoch": 0.49940145492495164,
      "grad_norm": 0.8111377453319283,
      "learning_rate": 1.0504826173563252e-05,
      "loss": 0.8328,
      "step": 8135
    },
    {
      "epoch": 0.49946284416341813,
      "grad_norm": 0.749203101096755,
      "learning_rate": 1.0502840349082046e-05,
      "loss": 0.8292,
      "step": 8136
    },
    {
      "epoch": 0.4995242334018847,
      "grad_norm": 0.7755586591499428,
      "learning_rate": 1.0500854504720874e-05,
      "loss": 0.8729,
      "step": 8137
    },
    {
      "epoch": 0.49958562264035117,
      "grad_norm": 0.7643166123368901,
      "learning_rate": 1.0498868640558242e-05,
      "loss": 0.8345,
      "step": 8138
    },
    {
      "epoch": 0.49964701187881766,
      "grad_norm": 0.7363170194142261,
      "learning_rate": 1.0496882756672667e-05,
      "loss": 0.8693,
      "step": 8139
    },
    {
      "epoch": 0.49970840111728415,
      "grad_norm": 0.7946401392523916,
      "learning_rate": 1.0494896853142658e-05,
      "loss": 0.8251,
      "step": 8140
    },
    {
      "epoch": 0.49976979035575064,
      "grad_norm": 0.7305996171376934,
      "learning_rate": 1.049291093004673e-05,
      "loss": 0.8198,
      "step": 8141
    },
    {
      "epoch": 0.49983117959421713,
      "grad_norm": 0.84231164309886,
      "learning_rate": 1.0490924987463396e-05,
      "loss": 0.8765,
      "step": 8142
    },
    {
      "epoch": 0.4998925688326836,
      "grad_norm": 0.7420521059204481,
      "learning_rate": 1.0488939025471172e-05,
      "loss": 0.8395,
      "step": 8143
    },
    {
      "epoch": 0.4999539580711501,
      "grad_norm": 0.8373997168625087,
      "learning_rate": 1.0486953044148573e-05,
      "loss": 0.8381,
      "step": 8144
    },
    {
      "epoch": 0.5000153473096166,
      "grad_norm": 0.8062658149561238,
      "learning_rate": 1.0484967043574114e-05,
      "loss": 0.8753,
      "step": 8145
    },
    {
      "epoch": 0.5000767365480832,
      "grad_norm": 0.7429654722138886,
      "learning_rate": 1.0482981023826318e-05,
      "loss": 0.8741,
      "step": 8146
    },
    {
      "epoch": 0.5001381257865496,
      "grad_norm": 0.7531567902968014,
      "learning_rate": 1.0480994984983696e-05,
      "loss": 0.8586,
      "step": 8147
    },
    {
      "epoch": 0.5001995150250161,
      "grad_norm": 0.8015971765149105,
      "learning_rate": 1.0479008927124772e-05,
      "loss": 0.8347,
      "step": 8148
    },
    {
      "epoch": 0.5002609042634826,
      "grad_norm": 0.7731657531868377,
      "learning_rate": 1.0477022850328063e-05,
      "loss": 0.8282,
      "step": 8149
    },
    {
      "epoch": 0.5003222935019491,
      "grad_norm": 0.8088536911094727,
      "learning_rate": 1.0475036754672087e-05,
      "loss": 0.8321,
      "step": 8150
    },
    {
      "epoch": 0.5003836827404156,
      "grad_norm": 0.7917309564989153,
      "learning_rate": 1.0473050640235367e-05,
      "loss": 0.8175,
      "step": 8151
    },
    {
      "epoch": 0.5004450719788821,
      "grad_norm": 0.749343188715656,
      "learning_rate": 1.0471064507096427e-05,
      "loss": 0.8339,
      "step": 8152
    },
    {
      "epoch": 0.5005064612173487,
      "grad_norm": 0.7923104848996703,
      "learning_rate": 1.0469078355333788e-05,
      "loss": 0.882,
      "step": 8153
    },
    {
      "epoch": 0.5005678504558151,
      "grad_norm": 0.7417387590082674,
      "learning_rate": 1.0467092185025973e-05,
      "loss": 0.8474,
      "step": 8154
    },
    {
      "epoch": 0.5006292396942816,
      "grad_norm": 0.7423453914335326,
      "learning_rate": 1.0465105996251505e-05,
      "loss": 0.8246,
      "step": 8155
    },
    {
      "epoch": 0.5006906289327481,
      "grad_norm": 0.8233741380000854,
      "learning_rate": 1.0463119789088907e-05,
      "loss": 0.8132,
      "step": 8156
    },
    {
      "epoch": 0.5007520181712146,
      "grad_norm": 0.8420193306271215,
      "learning_rate": 1.0461133563616712e-05,
      "loss": 0.8186,
      "step": 8157
    },
    {
      "epoch": 0.500813407409681,
      "grad_norm": 0.8159430216457101,
      "learning_rate": 1.0459147319913436e-05,
      "loss": 0.8836,
      "step": 8158
    },
    {
      "epoch": 0.5008747966481476,
      "grad_norm": 0.7543858687550727,
      "learning_rate": 1.0457161058057614e-05,
      "loss": 0.8652,
      "step": 8159
    },
    {
      "epoch": 0.500936185886614,
      "grad_norm": 0.8129840454879713,
      "learning_rate": 1.045517477812777e-05,
      "loss": 0.8232,
      "step": 8160
    },
    {
      "epoch": 0.5009975751250806,
      "grad_norm": 0.7410821670920709,
      "learning_rate": 1.045318848020243e-05,
      "loss": 0.8177,
      "step": 8161
    },
    {
      "epoch": 0.501058964363547,
      "grad_norm": 0.7781025149657855,
      "learning_rate": 1.0451202164360128e-05,
      "loss": 0.898,
      "step": 8162
    },
    {
      "epoch": 0.5011203536020136,
      "grad_norm": 0.8137469468746555,
      "learning_rate": 1.044921583067939e-05,
      "loss": 0.8359,
      "step": 8163
    },
    {
      "epoch": 0.5011817428404801,
      "grad_norm": 0.8138429184858407,
      "learning_rate": 1.044722947923875e-05,
      "loss": 0.8553,
      "step": 8164
    },
    {
      "epoch": 0.5012431320789466,
      "grad_norm": 0.7596235970007692,
      "learning_rate": 1.0445243110116733e-05,
      "loss": 0.8267,
      "step": 8165
    },
    {
      "epoch": 0.5013045213174131,
      "grad_norm": 0.8466228526906301,
      "learning_rate": 1.0443256723391877e-05,
      "loss": 0.8761,
      "step": 8166
    },
    {
      "epoch": 0.5013659105558795,
      "grad_norm": 0.8025886101371839,
      "learning_rate": 1.0441270319142711e-05,
      "loss": 0.8201,
      "step": 8167
    },
    {
      "epoch": 0.5014272997943461,
      "grad_norm": 0.8594978505345918,
      "learning_rate": 1.0439283897447768e-05,
      "loss": 0.8564,
      "step": 8168
    },
    {
      "epoch": 0.5014886890328125,
      "grad_norm": 0.8580159958016067,
      "learning_rate": 1.0437297458385587e-05,
      "loss": 0.8184,
      "step": 8169
    },
    {
      "epoch": 0.5015500782712791,
      "grad_norm": 0.7497565770103138,
      "learning_rate": 1.0435311002034697e-05,
      "loss": 0.8599,
      "step": 8170
    },
    {
      "epoch": 0.5016114675097455,
      "grad_norm": 0.7962509810147969,
      "learning_rate": 1.0433324528473632e-05,
      "loss": 0.856,
      "step": 8171
    },
    {
      "epoch": 0.501672856748212,
      "grad_norm": 0.5833609898584459,
      "learning_rate": 1.0431338037780934e-05,
      "loss": 0.6689,
      "step": 8172
    },
    {
      "epoch": 0.5017342459866785,
      "grad_norm": 0.92786273216212,
      "learning_rate": 1.0429351530035137e-05,
      "loss": 0.8928,
      "step": 8173
    },
    {
      "epoch": 0.501795635225145,
      "grad_norm": 0.8083635672391106,
      "learning_rate": 1.0427365005314776e-05,
      "loss": 0.9535,
      "step": 8174
    },
    {
      "epoch": 0.5018570244636116,
      "grad_norm": 0.77754706676551,
      "learning_rate": 1.042537846369839e-05,
      "loss": 0.8408,
      "step": 8175
    },
    {
      "epoch": 0.501918413702078,
      "grad_norm": 0.7490446814139738,
      "learning_rate": 1.0423391905264519e-05,
      "loss": 0.8715,
      "step": 8176
    },
    {
      "epoch": 0.5019798029405446,
      "grad_norm": 0.8125614841214049,
      "learning_rate": 1.0421405330091701e-05,
      "loss": 0.8436,
      "step": 8177
    },
    {
      "epoch": 0.502041192179011,
      "grad_norm": 0.5834681496436438,
      "learning_rate": 1.0419418738258475e-05,
      "loss": 0.6733,
      "step": 8178
    },
    {
      "epoch": 0.5021025814174775,
      "grad_norm": 0.8601376746175708,
      "learning_rate": 1.0417432129843389e-05,
      "loss": 0.8579,
      "step": 8179
    },
    {
      "epoch": 0.502163970655944,
      "grad_norm": 0.7901146767849688,
      "learning_rate": 1.0415445504924973e-05,
      "loss": 0.8723,
      "step": 8180
    },
    {
      "epoch": 0.5022253598944105,
      "grad_norm": 0.8135647633067568,
      "learning_rate": 1.0413458863581775e-05,
      "loss": 0.8107,
      "step": 8181
    },
    {
      "epoch": 0.502286749132877,
      "grad_norm": 0.8014831936223579,
      "learning_rate": 1.0411472205892339e-05,
      "loss": 0.863,
      "step": 8182
    },
    {
      "epoch": 0.5023481383713435,
      "grad_norm": 0.8351810484243346,
      "learning_rate": 1.0409485531935202e-05,
      "loss": 0.8718,
      "step": 8183
    },
    {
      "epoch": 0.50240952760981,
      "grad_norm": 0.8394967818116545,
      "learning_rate": 1.0407498841788915e-05,
      "loss": 0.8367,
      "step": 8184
    },
    {
      "epoch": 0.5024709168482765,
      "grad_norm": 0.8616792218405854,
      "learning_rate": 1.0405512135532019e-05,
      "loss": 0.8028,
      "step": 8185
    },
    {
      "epoch": 0.502532306086743,
      "grad_norm": 0.8049591351757391,
      "learning_rate": 1.0403525413243058e-05,
      "loss": 0.8476,
      "step": 8186
    },
    {
      "epoch": 0.5025936953252095,
      "grad_norm": 0.77087057303579,
      "learning_rate": 1.0401538675000582e-05,
      "loss": 0.8548,
      "step": 8187
    },
    {
      "epoch": 0.502655084563676,
      "grad_norm": 0.761148798392674,
      "learning_rate": 1.0399551920883131e-05,
      "loss": 0.8449,
      "step": 8188
    },
    {
      "epoch": 0.5027164738021425,
      "grad_norm": 0.7211580262495146,
      "learning_rate": 1.039756515096926e-05,
      "loss": 0.8682,
      "step": 8189
    },
    {
      "epoch": 0.502777863040609,
      "grad_norm": 0.8153494201880984,
      "learning_rate": 1.0395578365337506e-05,
      "loss": 0.8394,
      "step": 8190
    },
    {
      "epoch": 0.5028392522790754,
      "grad_norm": 0.7959127763526938,
      "learning_rate": 1.0393591564066428e-05,
      "loss": 0.8544,
      "step": 8191
    },
    {
      "epoch": 0.502900641517542,
      "grad_norm": 0.6987348009510699,
      "learning_rate": 1.039160474723457e-05,
      "loss": 0.7829,
      "step": 8192
    },
    {
      "epoch": 0.5029620307560084,
      "grad_norm": 0.8189076586525781,
      "learning_rate": 1.0389617914920481e-05,
      "loss": 0.8618,
      "step": 8193
    },
    {
      "epoch": 0.503023419994475,
      "grad_norm": 0.8129064413626282,
      "learning_rate": 1.0387631067202715e-05,
      "loss": 0.8617,
      "step": 8194
    },
    {
      "epoch": 0.5030848092329414,
      "grad_norm": 0.8439116197341471,
      "learning_rate": 1.0385644204159816e-05,
      "loss": 0.8737,
      "step": 8195
    },
    {
      "epoch": 0.503146198471408,
      "grad_norm": 0.7498203907719867,
      "learning_rate": 1.0383657325870342e-05,
      "loss": 0.812,
      "step": 8196
    },
    {
      "epoch": 0.5032075877098745,
      "grad_norm": 0.6208407684808316,
      "learning_rate": 1.0381670432412837e-05,
      "loss": 0.6958,
      "step": 8197
    },
    {
      "epoch": 0.5032689769483409,
      "grad_norm": 0.7886709408349328,
      "learning_rate": 1.0379683523865863e-05,
      "loss": 0.839,
      "step": 8198
    },
    {
      "epoch": 0.5033303661868075,
      "grad_norm": 0.8478427770352788,
      "learning_rate": 1.0377696600307967e-05,
      "loss": 0.8977,
      "step": 8199
    },
    {
      "epoch": 0.5033917554252739,
      "grad_norm": 0.8423628445778631,
      "learning_rate": 1.0375709661817703e-05,
      "loss": 0.8617,
      "step": 8200
    },
    {
      "epoch": 0.5034531446637405,
      "grad_norm": 0.806631380957543,
      "learning_rate": 1.037372270847363e-05,
      "loss": 0.8658,
      "step": 8201
    },
    {
      "epoch": 0.5035145339022069,
      "grad_norm": 0.7565986617327123,
      "learning_rate": 1.0371735740354296e-05,
      "loss": 0.8152,
      "step": 8202
    },
    {
      "epoch": 0.5035759231406735,
      "grad_norm": 0.8027524528938587,
      "learning_rate": 1.0369748757538263e-05,
      "loss": 0.8548,
      "step": 8203
    },
    {
      "epoch": 0.5036373123791399,
      "grad_norm": 0.8014043045087422,
      "learning_rate": 1.0367761760104083e-05,
      "loss": 0.8478,
      "step": 8204
    },
    {
      "epoch": 0.5036987016176064,
      "grad_norm": 0.8515742477457712,
      "learning_rate": 1.0365774748130315e-05,
      "loss": 0.8831,
      "step": 8205
    },
    {
      "epoch": 0.503760090856073,
      "grad_norm": 0.7367789338167421,
      "learning_rate": 1.0363787721695514e-05,
      "loss": 0.7949,
      "step": 8206
    },
    {
      "epoch": 0.5038214800945394,
      "grad_norm": 0.7450117819479481,
      "learning_rate": 1.0361800680878235e-05,
      "loss": 0.8132,
      "step": 8207
    },
    {
      "epoch": 0.503882869333006,
      "grad_norm": 0.728973037580976,
      "learning_rate": 1.0359813625757044e-05,
      "loss": 0.8333,
      "step": 8208
    },
    {
      "epoch": 0.5039442585714724,
      "grad_norm": 0.8356351300680904,
      "learning_rate": 1.0357826556410495e-05,
      "loss": 0.8151,
      "step": 8209
    },
    {
      "epoch": 0.504005647809939,
      "grad_norm": 0.6905683434912586,
      "learning_rate": 1.0355839472917148e-05,
      "loss": 0.7808,
      "step": 8210
    },
    {
      "epoch": 0.5040670370484054,
      "grad_norm": 0.8797832025621121,
      "learning_rate": 1.0353852375355564e-05,
      "loss": 0.8458,
      "step": 8211
    },
    {
      "epoch": 0.5041284262868719,
      "grad_norm": 0.7561940746569219,
      "learning_rate": 1.0351865263804304e-05,
      "loss": 0.8558,
      "step": 8212
    },
    {
      "epoch": 0.5041898155253384,
      "grad_norm": 0.8060002848980002,
      "learning_rate": 1.034987813834193e-05,
      "loss": 0.8221,
      "step": 8213
    },
    {
      "epoch": 0.5042512047638049,
      "grad_norm": 0.7636711605174061,
      "learning_rate": 1.0347890999046998e-05,
      "loss": 0.82,
      "step": 8214
    },
    {
      "epoch": 0.5043125940022714,
      "grad_norm": 0.874689186456709,
      "learning_rate": 1.0345903845998073e-05,
      "loss": 0.806,
      "step": 8215
    },
    {
      "epoch": 0.5043739832407379,
      "grad_norm": 0.8171468148807828,
      "learning_rate": 1.0343916679273721e-05,
      "loss": 0.8664,
      "step": 8216
    },
    {
      "epoch": 0.5044353724792044,
      "grad_norm": 0.8574085056544407,
      "learning_rate": 1.0341929498952506e-05,
      "loss": 0.8687,
      "step": 8217
    },
    {
      "epoch": 0.5044967617176709,
      "grad_norm": 0.7347239622392694,
      "learning_rate": 1.0339942305112986e-05,
      "loss": 0.8702,
      "step": 8218
    },
    {
      "epoch": 0.5045581509561374,
      "grad_norm": 0.7971262360590374,
      "learning_rate": 1.033795509783373e-05,
      "loss": 0.8489,
      "step": 8219
    },
    {
      "epoch": 0.5046195401946039,
      "grad_norm": 0.8178046191181193,
      "learning_rate": 1.0335967877193299e-05,
      "loss": 0.8243,
      "step": 8220
    },
    {
      "epoch": 0.5046809294330704,
      "grad_norm": 0.7299509629607746,
      "learning_rate": 1.0333980643270264e-05,
      "loss": 0.8166,
      "step": 8221
    },
    {
      "epoch": 0.5047423186715368,
      "grad_norm": 0.7398565083829723,
      "learning_rate": 1.0331993396143186e-05,
      "loss": 0.793,
      "step": 8222
    },
    {
      "epoch": 0.5048037079100034,
      "grad_norm": 0.821304568798222,
      "learning_rate": 1.0330006135890633e-05,
      "loss": 0.8096,
      "step": 8223
    },
    {
      "epoch": 0.5048650971484698,
      "grad_norm": 0.8254410770261612,
      "learning_rate": 1.0328018862591177e-05,
      "loss": 0.8205,
      "step": 8224
    },
    {
      "epoch": 0.5049264863869364,
      "grad_norm": 0.8375506378473454,
      "learning_rate": 1.0326031576323374e-05,
      "loss": 0.8821,
      "step": 8225
    },
    {
      "epoch": 0.5049878756254028,
      "grad_norm": 0.8766567771634645,
      "learning_rate": 1.0324044277165806e-05,
      "loss": 0.8734,
      "step": 8226
    },
    {
      "epoch": 0.5050492648638694,
      "grad_norm": 0.6821662253498683,
      "learning_rate": 1.0322056965197027e-05,
      "loss": 0.8141,
      "step": 8227
    },
    {
      "epoch": 0.5051106541023359,
      "grad_norm": 0.7400583073348338,
      "learning_rate": 1.032006964049562e-05,
      "loss": 0.8302,
      "step": 8228
    },
    {
      "epoch": 0.5051720433408023,
      "grad_norm": 0.808552059468962,
      "learning_rate": 1.0318082303140145e-05,
      "loss": 0.8582,
      "step": 8229
    },
    {
      "epoch": 0.5052334325792689,
      "grad_norm": 0.7877658270046833,
      "learning_rate": 1.0316094953209177e-05,
      "loss": 0.8612,
      "step": 8230
    },
    {
      "epoch": 0.5052948218177353,
      "grad_norm": 0.7615455556127081,
      "learning_rate": 1.0314107590781284e-05,
      "loss": 0.8244,
      "step": 8231
    },
    {
      "epoch": 0.5053562110562019,
      "grad_norm": 0.7483973789105516,
      "learning_rate": 1.0312120215935038e-05,
      "loss": 0.831,
      "step": 8232
    },
    {
      "epoch": 0.5054176002946683,
      "grad_norm": 0.8456323768225592,
      "learning_rate": 1.0310132828749013e-05,
      "loss": 0.8279,
      "step": 8233
    },
    {
      "epoch": 0.5054789895331349,
      "grad_norm": 0.8354621824969872,
      "learning_rate": 1.0308145429301775e-05,
      "loss": 0.8437,
      "step": 8234
    },
    {
      "epoch": 0.5055403787716013,
      "grad_norm": 0.7265661601152673,
      "learning_rate": 1.03061580176719e-05,
      "loss": 0.8252,
      "step": 8235
    },
    {
      "epoch": 0.5056017680100678,
      "grad_norm": 0.8015424697052451,
      "learning_rate": 1.0304170593937963e-05,
      "loss": 0.8437,
      "step": 8236
    },
    {
      "epoch": 0.5056631572485343,
      "grad_norm": 0.7700153743520282,
      "learning_rate": 1.0302183158178535e-05,
      "loss": 0.8835,
      "step": 8237
    },
    {
      "epoch": 0.5057245464870008,
      "grad_norm": 0.7208669168037687,
      "learning_rate": 1.0300195710472191e-05,
      "loss": 0.8596,
      "step": 8238
    },
    {
      "epoch": 0.5057859357254674,
      "grad_norm": 0.840182445022528,
      "learning_rate": 1.0298208250897504e-05,
      "loss": 0.8569,
      "step": 8239
    },
    {
      "epoch": 0.5058473249639338,
      "grad_norm": 0.7801141634317997,
      "learning_rate": 1.029622077953305e-05,
      "loss": 0.8545,
      "step": 8240
    },
    {
      "epoch": 0.5059087142024004,
      "grad_norm": 0.5872294945392007,
      "learning_rate": 1.0294233296457407e-05,
      "loss": 0.6596,
      "step": 8241
    },
    {
      "epoch": 0.5059701034408668,
      "grad_norm": 0.7861883744632597,
      "learning_rate": 1.0292245801749146e-05,
      "loss": 0.8276,
      "step": 8242
    },
    {
      "epoch": 0.5060314926793333,
      "grad_norm": 0.7833106032413898,
      "learning_rate": 1.0290258295486846e-05,
      "loss": 0.8504,
      "step": 8243
    },
    {
      "epoch": 0.5060928819177998,
      "grad_norm": 0.8374725154560833,
      "learning_rate": 1.0288270777749083e-05,
      "loss": 0.8468,
      "step": 8244
    },
    {
      "epoch": 0.5061542711562663,
      "grad_norm": 0.8370115311168839,
      "learning_rate": 1.0286283248614435e-05,
      "loss": 0.9087,
      "step": 8245
    },
    {
      "epoch": 0.5062156603947328,
      "grad_norm": 0.7760258205783364,
      "learning_rate": 1.0284295708161476e-05,
      "loss": 0.8744,
      "step": 8246
    },
    {
      "epoch": 0.5062770496331993,
      "grad_norm": 0.7873395213713053,
      "learning_rate": 1.028230815646879e-05,
      "loss": 0.8679,
      "step": 8247
    },
    {
      "epoch": 0.5063384388716659,
      "grad_norm": 0.8190174586531614,
      "learning_rate": 1.0280320593614952e-05,
      "loss": 0.8101,
      "step": 8248
    },
    {
      "epoch": 0.5063998281101323,
      "grad_norm": 0.7076100995267697,
      "learning_rate": 1.0278333019678542e-05,
      "loss": 0.8444,
      "step": 8249
    },
    {
      "epoch": 0.5064612173485988,
      "grad_norm": 0.6095228724017883,
      "learning_rate": 1.0276345434738137e-05,
      "loss": 0.7113,
      "step": 8250
    },
    {
      "epoch": 0.5065226065870653,
      "grad_norm": 0.7711674308235071,
      "learning_rate": 1.0274357838872322e-05,
      "loss": 0.8425,
      "step": 8251
    },
    {
      "epoch": 0.5065839958255318,
      "grad_norm": 0.8562563797399144,
      "learning_rate": 1.0272370232159672e-05,
      "loss": 0.8485,
      "step": 8252
    },
    {
      "epoch": 0.5066453850639983,
      "grad_norm": 0.7222361881209918,
      "learning_rate": 1.0270382614678774e-05,
      "loss": 0.8384,
      "step": 8253
    },
    {
      "epoch": 0.5067067743024648,
      "grad_norm": 0.9275896261951784,
      "learning_rate": 1.02683949865082e-05,
      "loss": 0.8721,
      "step": 8254
    },
    {
      "epoch": 0.5067681635409312,
      "grad_norm": 0.8552884195366208,
      "learning_rate": 1.0266407347726538e-05,
      "loss": 0.8302,
      "step": 8255
    },
    {
      "epoch": 0.5068295527793978,
      "grad_norm": 0.6789915868080664,
      "learning_rate": 1.0264419698412368e-05,
      "loss": 0.8065,
      "step": 8256
    },
    {
      "epoch": 0.5068909420178642,
      "grad_norm": 0.8337328622890743,
      "learning_rate": 1.0262432038644275e-05,
      "loss": 0.8062,
      "step": 8257
    },
    {
      "epoch": 0.5069523312563308,
      "grad_norm": 0.8216480265986805,
      "learning_rate": 1.0260444368500841e-05,
      "loss": 0.8673,
      "step": 8258
    },
    {
      "epoch": 0.5070137204947973,
      "grad_norm": 0.765487739183549,
      "learning_rate": 1.0258456688060645e-05,
      "loss": 0.7937,
      "step": 8259
    },
    {
      "epoch": 0.5070751097332638,
      "grad_norm": 0.8351363544014787,
      "learning_rate": 1.0256468997402278e-05,
      "loss": 0.8419,
      "step": 8260
    },
    {
      "epoch": 0.5071364989717303,
      "grad_norm": 0.7897915462251375,
      "learning_rate": 1.0254481296604315e-05,
      "loss": 0.8373,
      "step": 8261
    },
    {
      "epoch": 0.5071978882101967,
      "grad_norm": 0.8594856243931696,
      "learning_rate": 1.025249358574535e-05,
      "loss": 0.8898,
      "step": 8262
    },
    {
      "epoch": 0.5072592774486633,
      "grad_norm": 0.8132132765660156,
      "learning_rate": 1.0250505864903958e-05,
      "loss": 0.8667,
      "step": 8263
    },
    {
      "epoch": 0.5073206666871297,
      "grad_norm": 0.8158143889927636,
      "learning_rate": 1.024851813415873e-05,
      "loss": 0.8568,
      "step": 8264
    },
    {
      "epoch": 0.5073820559255963,
      "grad_norm": 0.8717497714172574,
      "learning_rate": 1.0246530393588256e-05,
      "loss": 0.8427,
      "step": 8265
    },
    {
      "epoch": 0.5074434451640627,
      "grad_norm": 0.7485864573154424,
      "learning_rate": 1.0244542643271113e-05,
      "loss": 0.8366,
      "step": 8266
    },
    {
      "epoch": 0.5075048344025292,
      "grad_norm": 0.8075441998575159,
      "learning_rate": 1.0242554883285893e-05,
      "loss": 0.8165,
      "step": 8267
    },
    {
      "epoch": 0.5075662236409957,
      "grad_norm": 0.8144540751239252,
      "learning_rate": 1.0240567113711181e-05,
      "loss": 0.8702,
      "step": 8268
    },
    {
      "epoch": 0.5076276128794622,
      "grad_norm": 0.748578446081729,
      "learning_rate": 1.0238579334625565e-05,
      "loss": 0.8615,
      "step": 8269
    },
    {
      "epoch": 0.5076890021179288,
      "grad_norm": 0.7302784736185055,
      "learning_rate": 1.023659154610763e-05,
      "loss": 0.8422,
      "step": 8270
    },
    {
      "epoch": 0.5077503913563952,
      "grad_norm": 0.7019355171728857,
      "learning_rate": 1.0234603748235965e-05,
      "loss": 0.7929,
      "step": 8271
    },
    {
      "epoch": 0.5078117805948618,
      "grad_norm": 0.7864963007077947,
      "learning_rate": 1.0232615941089161e-05,
      "loss": 0.8425,
      "step": 8272
    },
    {
      "epoch": 0.5078731698333282,
      "grad_norm": 0.717265515597853,
      "learning_rate": 1.0230628124745805e-05,
      "loss": 0.8079,
      "step": 8273
    },
    {
      "epoch": 0.5079345590717947,
      "grad_norm": 0.8021442498411312,
      "learning_rate": 1.0228640299284487e-05,
      "loss": 0.873,
      "step": 8274
    },
    {
      "epoch": 0.5079959483102612,
      "grad_norm": 0.8078689168719777,
      "learning_rate": 1.0226652464783792e-05,
      "loss": 0.8523,
      "step": 8275
    },
    {
      "epoch": 0.5080573375487277,
      "grad_norm": 0.7607856749707483,
      "learning_rate": 1.0224664621322315e-05,
      "loss": 0.884,
      "step": 8276
    },
    {
      "epoch": 0.5081187267871942,
      "grad_norm": 0.7568533632612748,
      "learning_rate": 1.0222676768978643e-05,
      "loss": 0.8705,
      "step": 8277
    },
    {
      "epoch": 0.5081801160256607,
      "grad_norm": 0.7373668754090051,
      "learning_rate": 1.0220688907831367e-05,
      "loss": 0.861,
      "step": 8278
    },
    {
      "epoch": 0.5082415052641271,
      "grad_norm": 0.8609664998092577,
      "learning_rate": 1.0218701037959077e-05,
      "loss": 0.8165,
      "step": 8279
    },
    {
      "epoch": 0.5083028945025937,
      "grad_norm": 0.8373885749805191,
      "learning_rate": 1.0216713159440368e-05,
      "loss": 0.8772,
      "step": 8280
    },
    {
      "epoch": 0.5083642837410602,
      "grad_norm": 0.819766983052478,
      "learning_rate": 1.021472527235383e-05,
      "loss": 0.892,
      "step": 8281
    },
    {
      "epoch": 0.5084256729795267,
      "grad_norm": 0.9218008216622996,
      "learning_rate": 1.021273737677805e-05,
      "loss": 0.8441,
      "step": 8282
    },
    {
      "epoch": 0.5084870622179932,
      "grad_norm": 0.8292993213863095,
      "learning_rate": 1.0210749472791625e-05,
      "loss": 0.8347,
      "step": 8283
    },
    {
      "epoch": 0.5085484514564597,
      "grad_norm": 0.7226985816466962,
      "learning_rate": 1.0208761560473144e-05,
      "loss": 0.81,
      "step": 8284
    },
    {
      "epoch": 0.5086098406949262,
      "grad_norm": 0.8150249605467137,
      "learning_rate": 1.0206773639901206e-05,
      "loss": 0.841,
      "step": 8285
    },
    {
      "epoch": 0.5086712299333926,
      "grad_norm": 0.7069390509745064,
      "learning_rate": 1.0204785711154397e-05,
      "loss": 0.8314,
      "step": 8286
    },
    {
      "epoch": 0.5087326191718592,
      "grad_norm": 0.7006516990381357,
      "learning_rate": 1.0202797774311315e-05,
      "loss": 0.8068,
      "step": 8287
    },
    {
      "epoch": 0.5087940084103256,
      "grad_norm": 0.7979148570623361,
      "learning_rate": 1.0200809829450553e-05,
      "loss": 0.8712,
      "step": 8288
    },
    {
      "epoch": 0.5088553976487922,
      "grad_norm": 0.7903353012815924,
      "learning_rate": 1.0198821876650702e-05,
      "loss": 0.7942,
      "step": 8289
    },
    {
      "epoch": 0.5089167868872586,
      "grad_norm": 0.908142068894723,
      "learning_rate": 1.0196833915990363e-05,
      "loss": 0.8524,
      "step": 8290
    },
    {
      "epoch": 0.5089781761257252,
      "grad_norm": 0.7978234727256842,
      "learning_rate": 1.0194845947548122e-05,
      "loss": 0.8823,
      "step": 8291
    },
    {
      "epoch": 0.5090395653641917,
      "grad_norm": 0.748094844898223,
      "learning_rate": 1.0192857971402582e-05,
      "loss": 0.875,
      "step": 8292
    },
    {
      "epoch": 0.5091009546026581,
      "grad_norm": 0.8092579045203475,
      "learning_rate": 1.0190869987632332e-05,
      "loss": 0.8888,
      "step": 8293
    },
    {
      "epoch": 0.5091623438411247,
      "grad_norm": 0.799037088590559,
      "learning_rate": 1.0188881996315972e-05,
      "loss": 0.8128,
      "step": 8294
    },
    {
      "epoch": 0.5092237330795911,
      "grad_norm": 0.8137620442336855,
      "learning_rate": 1.0186893997532098e-05,
      "loss": 0.8418,
      "step": 8295
    },
    {
      "epoch": 0.5092851223180577,
      "grad_norm": 0.7394577469672162,
      "learning_rate": 1.01849059913593e-05,
      "loss": 0.8218,
      "step": 8296
    },
    {
      "epoch": 0.5093465115565241,
      "grad_norm": 0.6058923504275988,
      "learning_rate": 1.0182917977876185e-05,
      "loss": 0.6454,
      "step": 8297
    },
    {
      "epoch": 0.5094079007949907,
      "grad_norm": 0.788070956568809,
      "learning_rate": 1.018092995716134e-05,
      "loss": 0.8544,
      "step": 8298
    },
    {
      "epoch": 0.5094692900334571,
      "grad_norm": 0.7835978978644612,
      "learning_rate": 1.0178941929293367e-05,
      "loss": 0.8412,
      "step": 8299
    },
    {
      "epoch": 0.5095306792719236,
      "grad_norm": 0.6844179423869011,
      "learning_rate": 1.0176953894350863e-05,
      "loss": 0.8074,
      "step": 8300
    },
    {
      "epoch": 0.5095920685103902,
      "grad_norm": 0.8107631959090965,
      "learning_rate": 1.0174965852412426e-05,
      "loss": 0.8227,
      "step": 8301
    },
    {
      "epoch": 0.5096534577488566,
      "grad_norm": 0.7751236245968706,
      "learning_rate": 1.0172977803556651e-05,
      "loss": 0.8618,
      "step": 8302
    },
    {
      "epoch": 0.5097148469873232,
      "grad_norm": 0.8510657722866714,
      "learning_rate": 1.017098974786214e-05,
      "loss": 0.8471,
      "step": 8303
    },
    {
      "epoch": 0.5097762362257896,
      "grad_norm": 0.8500654446178928,
      "learning_rate": 1.0169001685407489e-05,
      "loss": 0.8419,
      "step": 8304
    },
    {
      "epoch": 0.5098376254642562,
      "grad_norm": 0.7758003903218121,
      "learning_rate": 1.0167013616271298e-05,
      "loss": 0.8035,
      "step": 8305
    },
    {
      "epoch": 0.5098990147027226,
      "grad_norm": 0.7070402929641516,
      "learning_rate": 1.0165025540532165e-05,
      "loss": 0.8338,
      "step": 8306
    },
    {
      "epoch": 0.5099604039411891,
      "grad_norm": 0.7710322447342333,
      "learning_rate": 1.0163037458268689e-05,
      "loss": 0.8346,
      "step": 8307
    },
    {
      "epoch": 0.5100217931796556,
      "grad_norm": 0.7690751501361461,
      "learning_rate": 1.0161049369559473e-05,
      "loss": 0.8096,
      "step": 8308
    },
    {
      "epoch": 0.5100831824181221,
      "grad_norm": 0.7804482825377472,
      "learning_rate": 1.0159061274483113e-05,
      "loss": 0.833,
      "step": 8309
    },
    {
      "epoch": 0.5101445716565886,
      "grad_norm": 0.7645385921358383,
      "learning_rate": 1.0157073173118207e-05,
      "loss": 0.762,
      "step": 8310
    },
    {
      "epoch": 0.5102059608950551,
      "grad_norm": 0.7150070448846851,
      "learning_rate": 1.0155085065543361e-05,
      "loss": 0.8181,
      "step": 8311
    },
    {
      "epoch": 0.5102673501335216,
      "grad_norm": 0.7898054227899693,
      "learning_rate": 1.0153096951837174e-05,
      "loss": 0.8252,
      "step": 8312
    },
    {
      "epoch": 0.5103287393719881,
      "grad_norm": 0.7886768494541317,
      "learning_rate": 1.0151108832078245e-05,
      "loss": 0.8124,
      "step": 8313
    },
    {
      "epoch": 0.5103901286104546,
      "grad_norm": 0.7701174519227554,
      "learning_rate": 1.0149120706345175e-05,
      "loss": 0.8459,
      "step": 8314
    },
    {
      "epoch": 0.5104515178489211,
      "grad_norm": 0.7430736163225438,
      "learning_rate": 1.0147132574716565e-05,
      "loss": 0.8244,
      "step": 8315
    },
    {
      "epoch": 0.5105129070873876,
      "grad_norm": 0.758747166111702,
      "learning_rate": 1.0145144437271017e-05,
      "loss": 0.8156,
      "step": 8316
    },
    {
      "epoch": 0.510574296325854,
      "grad_norm": 0.8082334412347162,
      "learning_rate": 1.0143156294087135e-05,
      "loss": 0.8529,
      "step": 8317
    },
    {
      "epoch": 0.5106356855643206,
      "grad_norm": 0.7480045858880867,
      "learning_rate": 1.0141168145243519e-05,
      "loss": 0.8102,
      "step": 8318
    },
    {
      "epoch": 0.510697074802787,
      "grad_norm": 0.8235715841944502,
      "learning_rate": 1.013917999081877e-05,
      "loss": 0.8601,
      "step": 8319
    },
    {
      "epoch": 0.5107584640412536,
      "grad_norm": 0.8261520888935165,
      "learning_rate": 1.0137191830891493e-05,
      "loss": 0.8823,
      "step": 8320
    },
    {
      "epoch": 0.51081985327972,
      "grad_norm": 0.8172181793739505,
      "learning_rate": 1.0135203665540288e-05,
      "loss": 0.8513,
      "step": 8321
    },
    {
      "epoch": 0.5108812425181866,
      "grad_norm": 0.8104259044901022,
      "learning_rate": 1.0133215494843762e-05,
      "loss": 0.8106,
      "step": 8322
    },
    {
      "epoch": 0.5109426317566531,
      "grad_norm": 0.8194187567317802,
      "learning_rate": 1.013122731888051e-05,
      "loss": 0.8694,
      "step": 8323
    },
    {
      "epoch": 0.5110040209951195,
      "grad_norm": 0.7121527940377057,
      "learning_rate": 1.0129239137729146e-05,
      "loss": 0.7982,
      "step": 8324
    },
    {
      "epoch": 0.5110654102335861,
      "grad_norm": 0.815071712986431,
      "learning_rate": 1.0127250951468261e-05,
      "loss": 0.8402,
      "step": 8325
    },
    {
      "epoch": 0.5111267994720525,
      "grad_norm": 0.7852913446164339,
      "learning_rate": 1.0125262760176468e-05,
      "loss": 0.8396,
      "step": 8326
    },
    {
      "epoch": 0.5111881887105191,
      "grad_norm": 0.7998320423240296,
      "learning_rate": 1.012327456393237e-05,
      "loss": 0.8525,
      "step": 8327
    },
    {
      "epoch": 0.5112495779489855,
      "grad_norm": 0.8152236991126861,
      "learning_rate": 1.0121286362814566e-05,
      "loss": 0.8365,
      "step": 8328
    },
    {
      "epoch": 0.5113109671874521,
      "grad_norm": 0.8748208087488395,
      "learning_rate": 1.0119298156901669e-05,
      "loss": 0.8634,
      "step": 8329
    },
    {
      "epoch": 0.5113723564259185,
      "grad_norm": 0.8419018401034867,
      "learning_rate": 1.0117309946272271e-05,
      "loss": 0.8809,
      "step": 8330
    },
    {
      "epoch": 0.511433745664385,
      "grad_norm": 0.7966601052375414,
      "learning_rate": 1.0115321731004987e-05,
      "loss": 0.8065,
      "step": 8331
    },
    {
      "epoch": 0.5114951349028515,
      "grad_norm": 0.7464368574848578,
      "learning_rate": 1.0113333511178418e-05,
      "loss": 0.8042,
      "step": 8332
    },
    {
      "epoch": 0.511556524141318,
      "grad_norm": 0.8223397055689013,
      "learning_rate": 1.0111345286871171e-05,
      "loss": 0.8499,
      "step": 8333
    },
    {
      "epoch": 0.5116179133797846,
      "grad_norm": 0.7525442114195829,
      "learning_rate": 1.0109357058161847e-05,
      "loss": 0.8301,
      "step": 8334
    },
    {
      "epoch": 0.511679302618251,
      "grad_norm": 0.9046983091741821,
      "learning_rate": 1.0107368825129051e-05,
      "loss": 0.8461,
      "step": 8335
    },
    {
      "epoch": 0.5117406918567176,
      "grad_norm": 0.7896087237290671,
      "learning_rate": 1.0105380587851394e-05,
      "loss": 0.8314,
      "step": 8336
    },
    {
      "epoch": 0.511802081095184,
      "grad_norm": 0.8646906478361843,
      "learning_rate": 1.0103392346407478e-05,
      "loss": 0.8893,
      "step": 8337
    },
    {
      "epoch": 0.5118634703336505,
      "grad_norm": 0.7439529144605548,
      "learning_rate": 1.010140410087591e-05,
      "loss": 0.7967,
      "step": 8338
    },
    {
      "epoch": 0.511924859572117,
      "grad_norm": 0.8126980902098,
      "learning_rate": 1.00994158513353e-05,
      "loss": 0.8316,
      "step": 8339
    },
    {
      "epoch": 0.5119862488105835,
      "grad_norm": 0.8343744902388154,
      "learning_rate": 1.0097427597864245e-05,
      "loss": 0.8075,
      "step": 8340
    },
    {
      "epoch": 0.51204763804905,
      "grad_norm": 0.816480360203534,
      "learning_rate": 1.0095439340541355e-05,
      "loss": 0.8303,
      "step": 8341
    },
    {
      "epoch": 0.5121090272875165,
      "grad_norm": 0.8361391560470168,
      "learning_rate": 1.0093451079445238e-05,
      "loss": 0.8329,
      "step": 8342
    },
    {
      "epoch": 0.5121704165259829,
      "grad_norm": 0.7647630220026803,
      "learning_rate": 1.00914628146545e-05,
      "loss": 0.8028,
      "step": 8343
    },
    {
      "epoch": 0.5122318057644495,
      "grad_norm": 0.763444889120544,
      "learning_rate": 1.008947454624775e-05,
      "loss": 0.8005,
      "step": 8344
    },
    {
      "epoch": 0.512293195002916,
      "grad_norm": 0.7997050813742347,
      "learning_rate": 1.0087486274303591e-05,
      "loss": 0.8548,
      "step": 8345
    },
    {
      "epoch": 0.5123545842413825,
      "grad_norm": 0.8634823099960574,
      "learning_rate": 1.0085497998900632e-05,
      "loss": 0.9265,
      "step": 8346
    },
    {
      "epoch": 0.512415973479849,
      "grad_norm": 0.790336878941551,
      "learning_rate": 1.0083509720117482e-05,
      "loss": 0.8447,
      "step": 8347
    },
    {
      "epoch": 0.5124773627183155,
      "grad_norm": 0.8196154074183032,
      "learning_rate": 1.008152143803274e-05,
      "loss": 0.8214,
      "step": 8348
    },
    {
      "epoch": 0.512538751956782,
      "grad_norm": 0.7912602029700425,
      "learning_rate": 1.0079533152725025e-05,
      "loss": 0.8397,
      "step": 8349
    },
    {
      "epoch": 0.5126001411952484,
      "grad_norm": 0.8013202368191625,
      "learning_rate": 1.0077544864272937e-05,
      "loss": 0.8495,
      "step": 8350
    },
    {
      "epoch": 0.512661530433715,
      "grad_norm": 0.803353066025815,
      "learning_rate": 1.0075556572755087e-05,
      "loss": 0.8475,
      "step": 8351
    },
    {
      "epoch": 0.5127229196721814,
      "grad_norm": 0.7845795481159528,
      "learning_rate": 1.0073568278250081e-05,
      "loss": 0.8761,
      "step": 8352
    },
    {
      "epoch": 0.512784308910648,
      "grad_norm": 0.801568154354439,
      "learning_rate": 1.0071579980836526e-05,
      "loss": 0.8117,
      "step": 8353
    },
    {
      "epoch": 0.5128456981491145,
      "grad_norm": 0.8652087702014728,
      "learning_rate": 1.0069591680593036e-05,
      "loss": 0.8472,
      "step": 8354
    },
    {
      "epoch": 0.512907087387581,
      "grad_norm": 0.8709306498144774,
      "learning_rate": 1.006760337759821e-05,
      "loss": 0.8779,
      "step": 8355
    },
    {
      "epoch": 0.5129684766260475,
      "grad_norm": 0.6703699850643071,
      "learning_rate": 1.0065615071930661e-05,
      "loss": 0.7862,
      "step": 8356
    },
    {
      "epoch": 0.5130298658645139,
      "grad_norm": 0.809181984820337,
      "learning_rate": 1.0063626763668999e-05,
      "loss": 0.8001,
      "step": 8357
    },
    {
      "epoch": 0.5130912551029805,
      "grad_norm": 0.8728043196368059,
      "learning_rate": 1.0061638452891831e-05,
      "loss": 0.8182,
      "step": 8358
    },
    {
      "epoch": 0.5131526443414469,
      "grad_norm": 0.7051087759927126,
      "learning_rate": 1.0059650139677765e-05,
      "loss": 0.8359,
      "step": 8359
    },
    {
      "epoch": 0.5132140335799135,
      "grad_norm": 0.8722412605427405,
      "learning_rate": 1.0057661824105409e-05,
      "loss": 0.8436,
      "step": 8360
    },
    {
      "epoch": 0.5132754228183799,
      "grad_norm": 0.8696335613886786,
      "learning_rate": 1.0055673506253377e-05,
      "loss": 0.8793,
      "step": 8361
    },
    {
      "epoch": 0.5133368120568464,
      "grad_norm": 0.7653661050039222,
      "learning_rate": 1.0053685186200267e-05,
      "loss": 0.8628,
      "step": 8362
    },
    {
      "epoch": 0.5133982012953129,
      "grad_norm": 0.844985797368568,
      "learning_rate": 1.0051696864024699e-05,
      "loss": 0.8542,
      "step": 8363
    },
    {
      "epoch": 0.5134595905337794,
      "grad_norm": 0.8274867301747456,
      "learning_rate": 1.0049708539805274e-05,
      "loss": 0.8281,
      "step": 8364
    },
    {
      "epoch": 0.513520979772246,
      "grad_norm": 0.8025833749533776,
      "learning_rate": 1.0047720213620607e-05,
      "loss": 0.8023,
      "step": 8365
    },
    {
      "epoch": 0.5135823690107124,
      "grad_norm": 0.8360876155218755,
      "learning_rate": 1.0045731885549303e-05,
      "loss": 0.8724,
      "step": 8366
    },
    {
      "epoch": 0.513643758249179,
      "grad_norm": 0.8154567008152768,
      "learning_rate": 1.0043743555669974e-05,
      "loss": 0.8578,
      "step": 8367
    },
    {
      "epoch": 0.5137051474876454,
      "grad_norm": 0.704024492320826,
      "learning_rate": 1.0041755224061229e-05,
      "loss": 0.8569,
      "step": 8368
    },
    {
      "epoch": 0.5137665367261119,
      "grad_norm": 0.806828742413585,
      "learning_rate": 1.0039766890801676e-05,
      "loss": 0.8708,
      "step": 8369
    },
    {
      "epoch": 0.5138279259645784,
      "grad_norm": 0.7427763887314739,
      "learning_rate": 1.0037778555969927e-05,
      "loss": 0.8391,
      "step": 8370
    },
    {
      "epoch": 0.5138893152030449,
      "grad_norm": 0.7757929545172201,
      "learning_rate": 1.0035790219644589e-05,
      "loss": 0.854,
      "step": 8371
    },
    {
      "epoch": 0.5139507044415114,
      "grad_norm": 0.6941510234289264,
      "learning_rate": 1.0033801881904269e-05,
      "loss": 0.8423,
      "step": 8372
    },
    {
      "epoch": 0.5140120936799779,
      "grad_norm": 0.745913501519633,
      "learning_rate": 1.0031813542827581e-05,
      "loss": 0.8046,
      "step": 8373
    },
    {
      "epoch": 0.5140734829184443,
      "grad_norm": 0.765506498667368,
      "learning_rate": 1.0029825202493133e-05,
      "loss": 0.8293,
      "step": 8374
    },
    {
      "epoch": 0.5141348721569109,
      "grad_norm": 0.8350977440202273,
      "learning_rate": 1.0027836860979539e-05,
      "loss": 0.8806,
      "step": 8375
    },
    {
      "epoch": 0.5141962613953774,
      "grad_norm": 0.768126773969631,
      "learning_rate": 1.0025848518365401e-05,
      "loss": 0.8363,
      "step": 8376
    },
    {
      "epoch": 0.5142576506338439,
      "grad_norm": 0.7929425886207884,
      "learning_rate": 1.0023860174729336e-05,
      "loss": 0.8489,
      "step": 8377
    },
    {
      "epoch": 0.5143190398723104,
      "grad_norm": 0.8296591563753337,
      "learning_rate": 1.002187183014995e-05,
      "loss": 0.8703,
      "step": 8378
    },
    {
      "epoch": 0.5143804291107769,
      "grad_norm": 0.7574922091366043,
      "learning_rate": 1.0019883484705853e-05,
      "loss": 0.8817,
      "step": 8379
    },
    {
      "epoch": 0.5144418183492434,
      "grad_norm": 0.6860163423079187,
      "learning_rate": 1.0017895138475652e-05,
      "loss": 0.7942,
      "step": 8380
    },
    {
      "epoch": 0.5145032075877098,
      "grad_norm": 0.7480610458880995,
      "learning_rate": 1.0015906791537964e-05,
      "loss": 0.811,
      "step": 8381
    },
    {
      "epoch": 0.5145645968261764,
      "grad_norm": 0.7739751894132462,
      "learning_rate": 1.0013918443971396e-05,
      "loss": 0.8794,
      "step": 8382
    },
    {
      "epoch": 0.5146259860646428,
      "grad_norm": 0.7686136250690371,
      "learning_rate": 1.0011930095854557e-05,
      "loss": 0.8064,
      "step": 8383
    },
    {
      "epoch": 0.5146873753031094,
      "grad_norm": 0.7824542636615367,
      "learning_rate": 1.0009941747266057e-05,
      "loss": 0.8781,
      "step": 8384
    },
    {
      "epoch": 0.5147487645415758,
      "grad_norm": 0.7460293246443053,
      "learning_rate": 1.0007953398284505e-05,
      "loss": 0.8691,
      "step": 8385
    },
    {
      "epoch": 0.5148101537800424,
      "grad_norm": 0.7512704003177544,
      "learning_rate": 1.0005965048988514e-05,
      "loss": 0.8257,
      "step": 8386
    },
    {
      "epoch": 0.5148715430185089,
      "grad_norm": 0.7479471277754763,
      "learning_rate": 1.0003976699456693e-05,
      "loss": 0.805,
      "step": 8387
    },
    {
      "epoch": 0.5149329322569753,
      "grad_norm": 0.8381821016044667,
      "learning_rate": 1.0001988349767653e-05,
      "loss": 0.7947,
      "step": 8388
    },
    {
      "epoch": 0.5149943214954419,
      "grad_norm": 0.7784782426657455,
      "learning_rate": 1e-05,
      "loss": 0.85,
      "step": 8389
    },
    {
      "epoch": 0.5150557107339083,
      "grad_norm": 0.8014385778323838,
      "learning_rate": 9.99801165023235e-06,
      "loss": 0.8526,
      "step": 8390
    },
    {
      "epoch": 0.5151170999723749,
      "grad_norm": 0.7850615920333962,
      "learning_rate": 9.996023300543307e-06,
      "loss": 0.861,
      "step": 8391
    },
    {
      "epoch": 0.5151784892108413,
      "grad_norm": 0.8136835764451885,
      "learning_rate": 9.994034951011489e-06,
      "loss": 0.8532,
      "step": 8392
    },
    {
      "epoch": 0.5152398784493079,
      "grad_norm": 0.8452955500698358,
      "learning_rate": 9.992046601715498e-06,
      "loss": 0.8204,
      "step": 8393
    },
    {
      "epoch": 0.5153012676877743,
      "grad_norm": 0.7849641581832711,
      "learning_rate": 9.990058252733946e-06,
      "loss": 0.8469,
      "step": 8394
    },
    {
      "epoch": 0.5153626569262408,
      "grad_norm": 0.7943998764541511,
      "learning_rate": 9.988069904145447e-06,
      "loss": 0.8246,
      "step": 8395
    },
    {
      "epoch": 0.5154240461647073,
      "grad_norm": 0.9021721044017221,
      "learning_rate": 9.986081556028606e-06,
      "loss": 0.7969,
      "step": 8396
    },
    {
      "epoch": 0.5154854354031738,
      "grad_norm": 0.7583603188160777,
      "learning_rate": 9.98409320846204e-06,
      "loss": 0.877,
      "step": 8397
    },
    {
      "epoch": 0.5155468246416404,
      "grad_norm": 0.7848325262652437,
      "learning_rate": 9.982104861524351e-06,
      "loss": 0.8019,
      "step": 8398
    },
    {
      "epoch": 0.5156082138801068,
      "grad_norm": 0.8706937167999148,
      "learning_rate": 9.980116515294152e-06,
      "loss": 0.8446,
      "step": 8399
    },
    {
      "epoch": 0.5156696031185733,
      "grad_norm": 0.790130064891413,
      "learning_rate": 9.978128169850054e-06,
      "loss": 0.8681,
      "step": 8400
    },
    {
      "epoch": 0.5157309923570398,
      "grad_norm": 0.7687971478850986,
      "learning_rate": 9.976139825270666e-06,
      "loss": 0.8509,
      "step": 8401
    },
    {
      "epoch": 0.5157923815955063,
      "grad_norm": 0.7583370407161729,
      "learning_rate": 9.974151481634604e-06,
      "loss": 0.7756,
      "step": 8402
    },
    {
      "epoch": 0.5158537708339728,
      "grad_norm": 0.8009631529654901,
      "learning_rate": 9.972163139020466e-06,
      "loss": 0.7797,
      "step": 8403
    },
    {
      "epoch": 0.5159151600724393,
      "grad_norm": 0.7796336669059032,
      "learning_rate": 9.97017479750687e-06,
      "loss": 0.8401,
      "step": 8404
    },
    {
      "epoch": 0.5159765493109058,
      "grad_norm": 0.8452746559317031,
      "learning_rate": 9.96818645717242e-06,
      "loss": 0.8281,
      "step": 8405
    },
    {
      "epoch": 0.5160379385493723,
      "grad_norm": 0.7697619869227795,
      "learning_rate": 9.966198118095733e-06,
      "loss": 0.8788,
      "step": 8406
    },
    {
      "epoch": 0.5160993277878388,
      "grad_norm": 0.8341690893478189,
      "learning_rate": 9.964209780355418e-06,
      "loss": 0.881,
      "step": 8407
    },
    {
      "epoch": 0.5161607170263053,
      "grad_norm": 0.733369489541739,
      "learning_rate": 9.962221444030077e-06,
      "loss": 0.8233,
      "step": 8408
    },
    {
      "epoch": 0.5162221062647718,
      "grad_norm": 0.7326601383486546,
      "learning_rate": 9.960233109198327e-06,
      "loss": 0.8447,
      "step": 8409
    },
    {
      "epoch": 0.5162834955032383,
      "grad_norm": 0.7696323463358337,
      "learning_rate": 9.958244775938773e-06,
      "loss": 0.8549,
      "step": 8410
    },
    {
      "epoch": 0.5163448847417048,
      "grad_norm": 0.8688235392715677,
      "learning_rate": 9.956256444330028e-06,
      "loss": 0.8486,
      "step": 8411
    },
    {
      "epoch": 0.5164062739801712,
      "grad_norm": 0.7662926243047635,
      "learning_rate": 9.9542681144507e-06,
      "loss": 0.8363,
      "step": 8412
    },
    {
      "epoch": 0.5164676632186378,
      "grad_norm": 0.7662742523959525,
      "learning_rate": 9.952279786379397e-06,
      "loss": 0.84,
      "step": 8413
    },
    {
      "epoch": 0.5165290524571042,
      "grad_norm": 0.7026773885650911,
      "learning_rate": 9.950291460194729e-06,
      "loss": 0.7733,
      "step": 8414
    },
    {
      "epoch": 0.5165904416955708,
      "grad_norm": 0.7760240267998588,
      "learning_rate": 9.948303135975303e-06,
      "loss": 0.8098,
      "step": 8415
    },
    {
      "epoch": 0.5166518309340372,
      "grad_norm": 0.7308300141518874,
      "learning_rate": 9.946314813799735e-06,
      "loss": 0.8588,
      "step": 8416
    },
    {
      "epoch": 0.5167132201725038,
      "grad_norm": 0.7395242070920799,
      "learning_rate": 9.94432649374663e-06,
      "loss": 0.8314,
      "step": 8417
    },
    {
      "epoch": 0.5167746094109703,
      "grad_norm": 0.7832007911303461,
      "learning_rate": 9.942338175894594e-06,
      "loss": 0.8467,
      "step": 8418
    },
    {
      "epoch": 0.5168359986494367,
      "grad_norm": 0.7768631003777899,
      "learning_rate": 9.940349860322236e-06,
      "loss": 0.8392,
      "step": 8419
    },
    {
      "epoch": 0.5168973878879033,
      "grad_norm": 0.854547780213391,
      "learning_rate": 9.938361547108172e-06,
      "loss": 0.8426,
      "step": 8420
    },
    {
      "epoch": 0.5169587771263697,
      "grad_norm": 0.7060721468451178,
      "learning_rate": 9.936373236331001e-06,
      "loss": 0.8147,
      "step": 8421
    },
    {
      "epoch": 0.5170201663648363,
      "grad_norm": 0.7523161420381963,
      "learning_rate": 9.934384928069342e-06,
      "loss": 0.8194,
      "step": 8422
    },
    {
      "epoch": 0.5170815556033027,
      "grad_norm": 0.7792850689208921,
      "learning_rate": 9.932396622401794e-06,
      "loss": 0.7756,
      "step": 8423
    },
    {
      "epoch": 0.5171429448417693,
      "grad_norm": 0.8431589427305027,
      "learning_rate": 9.930408319406967e-06,
      "loss": 0.8264,
      "step": 8424
    },
    {
      "epoch": 0.5172043340802357,
      "grad_norm": 0.8174493329551074,
      "learning_rate": 9.928420019163474e-06,
      "loss": 0.854,
      "step": 8425
    },
    {
      "epoch": 0.5172657233187022,
      "grad_norm": 0.8771915438577914,
      "learning_rate": 9.926431721749924e-06,
      "loss": 0.8774,
      "step": 8426
    },
    {
      "epoch": 0.5173271125571687,
      "grad_norm": 0.7982968825577164,
      "learning_rate": 9.924443427244916e-06,
      "loss": 0.8369,
      "step": 8427
    },
    {
      "epoch": 0.5173885017956352,
      "grad_norm": 0.6916261492760096,
      "learning_rate": 9.922455135727066e-06,
      "loss": 0.8293,
      "step": 8428
    },
    {
      "epoch": 0.5174498910341018,
      "grad_norm": 0.6420883499316111,
      "learning_rate": 9.920466847274978e-06,
      "loss": 0.7333,
      "step": 8429
    },
    {
      "epoch": 0.5175112802725682,
      "grad_norm": 0.7940878231107829,
      "learning_rate": 9.91847856196726e-06,
      "loss": 0.8492,
      "step": 8430
    },
    {
      "epoch": 0.5175726695110348,
      "grad_norm": 0.745987505611191,
      "learning_rate": 9.916490279882525e-06,
      "loss": 0.7939,
      "step": 8431
    },
    {
      "epoch": 0.5176340587495012,
      "grad_norm": 0.7486019565826418,
      "learning_rate": 9.914502001099373e-06,
      "loss": 0.8617,
      "step": 8432
    },
    {
      "epoch": 0.5176954479879677,
      "grad_norm": 0.7756431451943144,
      "learning_rate": 9.91251372569641e-06,
      "loss": 0.8452,
      "step": 8433
    },
    {
      "epoch": 0.5177568372264342,
      "grad_norm": 0.8165431721094899,
      "learning_rate": 9.910525453752253e-06,
      "loss": 0.8658,
      "step": 8434
    },
    {
      "epoch": 0.5178182264649007,
      "grad_norm": 0.8388920762190895,
      "learning_rate": 9.9085371853455e-06,
      "loss": 0.8677,
      "step": 8435
    },
    {
      "epoch": 0.5178796157033672,
      "grad_norm": 0.7866956853072661,
      "learning_rate": 9.906548920554765e-06,
      "loss": 0.7795,
      "step": 8436
    },
    {
      "epoch": 0.5179410049418337,
      "grad_norm": 0.778787626457435,
      "learning_rate": 9.90456065945865e-06,
      "loss": 0.8292,
      "step": 8437
    },
    {
      "epoch": 0.5180023941803001,
      "grad_norm": 0.7003700761873233,
      "learning_rate": 9.902572402135759e-06,
      "loss": 0.7595,
      "step": 8438
    },
    {
      "epoch": 0.5180637834187667,
      "grad_norm": 0.8413279147639091,
      "learning_rate": 9.900584148664705e-06,
      "loss": 0.8411,
      "step": 8439
    },
    {
      "epoch": 0.5181251726572332,
      "grad_norm": 0.8242532248715391,
      "learning_rate": 9.898595899124088e-06,
      "loss": 0.8593,
      "step": 8440
    },
    {
      "epoch": 0.5181865618956997,
      "grad_norm": 0.7495624363620292,
      "learning_rate": 9.896607653592527e-06,
      "loss": 0.8284,
      "step": 8441
    },
    {
      "epoch": 0.5182479511341662,
      "grad_norm": 0.8015137139800005,
      "learning_rate": 9.894619412148607e-06,
      "loss": 0.8637,
      "step": 8442
    },
    {
      "epoch": 0.5183093403726327,
      "grad_norm": 0.8888287893005085,
      "learning_rate": 9.892631174870952e-06,
      "loss": 0.8567,
      "step": 8443
    },
    {
      "epoch": 0.5183707296110992,
      "grad_norm": 0.7791398032386874,
      "learning_rate": 9.890642941838156e-06,
      "loss": 0.8273,
      "step": 8444
    },
    {
      "epoch": 0.5184321188495656,
      "grad_norm": 0.8083519964614387,
      "learning_rate": 9.888654713128832e-06,
      "loss": 0.8369,
      "step": 8445
    },
    {
      "epoch": 0.5184935080880322,
      "grad_norm": 0.7719188163945782,
      "learning_rate": 9.886666488821587e-06,
      "loss": 0.8984,
      "step": 8446
    },
    {
      "epoch": 0.5185548973264986,
      "grad_norm": 0.7082316011570717,
      "learning_rate": 9.884678268995015e-06,
      "loss": 0.8433,
      "step": 8447
    },
    {
      "epoch": 0.5186162865649652,
      "grad_norm": 0.7908298355317556,
      "learning_rate": 9.882690053727732e-06,
      "loss": 0.8468,
      "step": 8448
    },
    {
      "epoch": 0.5186776758034316,
      "grad_norm": 0.7900280918587819,
      "learning_rate": 9.880701843098335e-06,
      "loss": 0.8265,
      "step": 8449
    },
    {
      "epoch": 0.5187390650418982,
      "grad_norm": 0.8181023026642156,
      "learning_rate": 9.878713637185433e-06,
      "loss": 0.8101,
      "step": 8450
    },
    {
      "epoch": 0.5188004542803647,
      "grad_norm": 0.761664936720759,
      "learning_rate": 9.876725436067635e-06,
      "loss": 0.845,
      "step": 8451
    },
    {
      "epoch": 0.5188618435188311,
      "grad_norm": 0.8184818141577213,
      "learning_rate": 9.874737239823533e-06,
      "loss": 0.8156,
      "step": 8452
    },
    {
      "epoch": 0.5189232327572977,
      "grad_norm": 0.8257752614742682,
      "learning_rate": 9.87274904853174e-06,
      "loss": 0.8191,
      "step": 8453
    },
    {
      "epoch": 0.5189846219957641,
      "grad_norm": 0.8456289802526527,
      "learning_rate": 9.87076086227086e-06,
      "loss": 0.8302,
      "step": 8454
    },
    {
      "epoch": 0.5190460112342307,
      "grad_norm": 0.5652203810209505,
      "learning_rate": 9.86877268111949e-06,
      "loss": 0.6458,
      "step": 8455
    },
    {
      "epoch": 0.5191074004726971,
      "grad_norm": 0.7923402209420644,
      "learning_rate": 9.866784505156245e-06,
      "loss": 0.856,
      "step": 8456
    },
    {
      "epoch": 0.5191687897111636,
      "grad_norm": 0.7756561981484582,
      "learning_rate": 9.864796334459716e-06,
      "loss": 0.8111,
      "step": 8457
    },
    {
      "epoch": 0.5192301789496301,
      "grad_norm": 0.8090327920914963,
      "learning_rate": 9.862808169108508e-06,
      "loss": 0.8999,
      "step": 8458
    },
    {
      "epoch": 0.5192915681880966,
      "grad_norm": 0.85914856210285,
      "learning_rate": 9.860820009181233e-06,
      "loss": 0.8638,
      "step": 8459
    },
    {
      "epoch": 0.5193529574265632,
      "grad_norm": 0.8065593538134836,
      "learning_rate": 9.858831854756483e-06,
      "loss": 0.8354,
      "step": 8460
    },
    {
      "epoch": 0.5194143466650296,
      "grad_norm": 0.7552661536803352,
      "learning_rate": 9.856843705912867e-06,
      "loss": 0.8524,
      "step": 8461
    },
    {
      "epoch": 0.5194757359034962,
      "grad_norm": 0.833672791135916,
      "learning_rate": 9.854855562728986e-06,
      "loss": 0.8422,
      "step": 8462
    },
    {
      "epoch": 0.5195371251419626,
      "grad_norm": 0.8243375280660823,
      "learning_rate": 9.852867425283437e-06,
      "loss": 0.8275,
      "step": 8463
    },
    {
      "epoch": 0.5195985143804291,
      "grad_norm": 0.7489696244967017,
      "learning_rate": 9.850879293654829e-06,
      "loss": 0.843,
      "step": 8464
    },
    {
      "epoch": 0.5196599036188956,
      "grad_norm": 0.7485207401295612,
      "learning_rate": 9.848891167921756e-06,
      "loss": 0.8135,
      "step": 8465
    },
    {
      "epoch": 0.5197212928573621,
      "grad_norm": 0.7951698950680047,
      "learning_rate": 9.846903048162829e-06,
      "loss": 0.846,
      "step": 8466
    },
    {
      "epoch": 0.5197826820958286,
      "grad_norm": 0.8379370262198691,
      "learning_rate": 9.844914934456642e-06,
      "loss": 0.8509,
      "step": 8467
    },
    {
      "epoch": 0.5198440713342951,
      "grad_norm": 0.768394252549955,
      "learning_rate": 9.842926826881796e-06,
      "loss": 0.8043,
      "step": 8468
    },
    {
      "epoch": 0.5199054605727615,
      "grad_norm": 0.8521344783938336,
      "learning_rate": 9.840938725516889e-06,
      "loss": 0.8905,
      "step": 8469
    },
    {
      "epoch": 0.5199668498112281,
      "grad_norm": 0.8234231882028171,
      "learning_rate": 9.83895063044053e-06,
      "loss": 0.8564,
      "step": 8470
    },
    {
      "epoch": 0.5200282390496946,
      "grad_norm": 0.9034952801306622,
      "learning_rate": 9.836962541731314e-06,
      "loss": 0.9169,
      "step": 8471
    },
    {
      "epoch": 0.5200896282881611,
      "grad_norm": 0.8145138632717976,
      "learning_rate": 9.834974459467837e-06,
      "loss": 0.815,
      "step": 8472
    },
    {
      "epoch": 0.5201510175266276,
      "grad_norm": 0.7540326096198269,
      "learning_rate": 9.832986383728706e-06,
      "loss": 0.8491,
      "step": 8473
    },
    {
      "epoch": 0.5202124067650941,
      "grad_norm": 0.881265199875064,
      "learning_rate": 9.830998314592511e-06,
      "loss": 0.8553,
      "step": 8474
    },
    {
      "epoch": 0.5202737960035606,
      "grad_norm": 0.7352575885906989,
      "learning_rate": 9.829010252137862e-06,
      "loss": 0.8095,
      "step": 8475
    },
    {
      "epoch": 0.520335185242027,
      "grad_norm": 0.7673046254886229,
      "learning_rate": 9.827022196443352e-06,
      "loss": 0.8498,
      "step": 8476
    },
    {
      "epoch": 0.5203965744804936,
      "grad_norm": 0.8148445091490528,
      "learning_rate": 9.825034147587576e-06,
      "loss": 0.8611,
      "step": 8477
    },
    {
      "epoch": 0.52045796371896,
      "grad_norm": 0.7985861155699298,
      "learning_rate": 9.823046105649139e-06,
      "loss": 0.8501,
      "step": 8478
    },
    {
      "epoch": 0.5205193529574266,
      "grad_norm": 0.8238960842548176,
      "learning_rate": 9.821058070706633e-06,
      "loss": 0.8174,
      "step": 8479
    },
    {
      "epoch": 0.520580742195893,
      "grad_norm": 0.8113782575358496,
      "learning_rate": 9.819070042838661e-06,
      "loss": 0.839,
      "step": 8480
    },
    {
      "epoch": 0.5206421314343596,
      "grad_norm": 0.8339954521193189,
      "learning_rate": 9.81708202212382e-06,
      "loss": 0.8328,
      "step": 8481
    },
    {
      "epoch": 0.5207035206728261,
      "grad_norm": 0.8181497209940134,
      "learning_rate": 9.815094008640702e-06,
      "loss": 0.8559,
      "step": 8482
    },
    {
      "epoch": 0.5207649099112925,
      "grad_norm": 0.7110190021150984,
      "learning_rate": 9.813106002467906e-06,
      "loss": 0.8389,
      "step": 8483
    },
    {
      "epoch": 0.5208262991497591,
      "grad_norm": 0.5842523601716842,
      "learning_rate": 9.81111800368403e-06,
      "loss": 0.7033,
      "step": 8484
    },
    {
      "epoch": 0.5208876883882255,
      "grad_norm": 0.7842885828212165,
      "learning_rate": 9.809130012367668e-06,
      "loss": 0.8777,
      "step": 8485
    },
    {
      "epoch": 0.5209490776266921,
      "grad_norm": 0.7868969237242718,
      "learning_rate": 9.807142028597423e-06,
      "loss": 0.8631,
      "step": 8486
    },
    {
      "epoch": 0.5210104668651585,
      "grad_norm": 0.719249609646741,
      "learning_rate": 9.805154052451881e-06,
      "loss": 0.833,
      "step": 8487
    },
    {
      "epoch": 0.521071856103625,
      "grad_norm": 0.8103881956688397,
      "learning_rate": 9.803166084009639e-06,
      "loss": 0.822,
      "step": 8488
    },
    {
      "epoch": 0.5211332453420915,
      "grad_norm": 0.7750441622110487,
      "learning_rate": 9.801178123349298e-06,
      "loss": 0.8624,
      "step": 8489
    },
    {
      "epoch": 0.521194634580558,
      "grad_norm": 0.7384634517333521,
      "learning_rate": 9.799190170549452e-06,
      "loss": 0.7967,
      "step": 8490
    },
    {
      "epoch": 0.5212560238190245,
      "grad_norm": 0.8269109494131027,
      "learning_rate": 9.797202225688687e-06,
      "loss": 0.8147,
      "step": 8491
    },
    {
      "epoch": 0.521317413057491,
      "grad_norm": 0.8715533740131977,
      "learning_rate": 9.795214288845607e-06,
      "loss": 0.8472,
      "step": 8492
    },
    {
      "epoch": 0.5213788022959576,
      "grad_norm": 0.7668975320333614,
      "learning_rate": 9.793226360098796e-06,
      "loss": 0.8669,
      "step": 8493
    },
    {
      "epoch": 0.521440191534424,
      "grad_norm": 0.8439827589250424,
      "learning_rate": 9.791238439526856e-06,
      "loss": 0.8255,
      "step": 8494
    },
    {
      "epoch": 0.5215015807728905,
      "grad_norm": 0.8895359815227967,
      "learning_rate": 9.78925052720838e-06,
      "loss": 0.8729,
      "step": 8495
    },
    {
      "epoch": 0.521562970011357,
      "grad_norm": 0.82509412842164,
      "learning_rate": 9.787262623221955e-06,
      "loss": 0.821,
      "step": 8496
    },
    {
      "epoch": 0.5216243592498235,
      "grad_norm": 0.7546163397474112,
      "learning_rate": 9.785274727646174e-06,
      "loss": 0.7694,
      "step": 8497
    },
    {
      "epoch": 0.52168574848829,
      "grad_norm": 0.5988757982894648,
      "learning_rate": 9.783286840559634e-06,
      "loss": 0.6746,
      "step": 8498
    },
    {
      "epoch": 0.5217471377267565,
      "grad_norm": 0.6117229735550902,
      "learning_rate": 9.781298962040923e-06,
      "loss": 0.7014,
      "step": 8499
    },
    {
      "epoch": 0.521808526965223,
      "grad_norm": 0.8122240123023513,
      "learning_rate": 9.779311092168636e-06,
      "loss": 0.808,
      "step": 8500
    },
    {
      "epoch": 0.5218699162036895,
      "grad_norm": 0.8070342123439382,
      "learning_rate": 9.777323231021362e-06,
      "loss": 0.8281,
      "step": 8501
    },
    {
      "epoch": 0.5219313054421559,
      "grad_norm": 0.8100740395152618,
      "learning_rate": 9.775335378677687e-06,
      "loss": 0.8339,
      "step": 8502
    },
    {
      "epoch": 0.5219926946806225,
      "grad_norm": 0.7928810056312391,
      "learning_rate": 9.77334753521621e-06,
      "loss": 0.8142,
      "step": 8503
    },
    {
      "epoch": 0.522054083919089,
      "grad_norm": 0.7637655817352794,
      "learning_rate": 9.771359700715514e-06,
      "loss": 0.8359,
      "step": 8504
    },
    {
      "epoch": 0.5221154731575555,
      "grad_norm": 0.8893022253748998,
      "learning_rate": 9.769371875254197e-06,
      "loss": 0.8122,
      "step": 8505
    },
    {
      "epoch": 0.522176862396022,
      "grad_norm": 0.7764872831615799,
      "learning_rate": 9.767384058910842e-06,
      "loss": 0.8273,
      "step": 8506
    },
    {
      "epoch": 0.5222382516344884,
      "grad_norm": 0.8144636236912001,
      "learning_rate": 9.765396251764037e-06,
      "loss": 0.8719,
      "step": 8507
    },
    {
      "epoch": 0.522299640872955,
      "grad_norm": 0.8226880119390559,
      "learning_rate": 9.763408453892372e-06,
      "loss": 0.8452,
      "step": 8508
    },
    {
      "epoch": 0.5223610301114214,
      "grad_norm": 0.7583724695339367,
      "learning_rate": 9.761420665374439e-06,
      "loss": 0.8071,
      "step": 8509
    },
    {
      "epoch": 0.522422419349888,
      "grad_norm": 0.7584630768857713,
      "learning_rate": 9.759432886288824e-06,
      "loss": 0.7759,
      "step": 8510
    },
    {
      "epoch": 0.5224838085883544,
      "grad_norm": 0.8222821808580791,
      "learning_rate": 9.757445116714109e-06,
      "loss": 0.8813,
      "step": 8511
    },
    {
      "epoch": 0.522545197826821,
      "grad_norm": 0.8462797164401686,
      "learning_rate": 9.755457356728889e-06,
      "loss": 0.8932,
      "step": 8512
    },
    {
      "epoch": 0.5226065870652875,
      "grad_norm": 0.8193407839798728,
      "learning_rate": 9.753469606411745e-06,
      "loss": 0.8734,
      "step": 8513
    },
    {
      "epoch": 0.522667976303754,
      "grad_norm": 0.7595106702202143,
      "learning_rate": 9.75148186584127e-06,
      "loss": 0.8135,
      "step": 8514
    },
    {
      "epoch": 0.5227293655422205,
      "grad_norm": 0.8158810604141461,
      "learning_rate": 9.749494135096045e-06,
      "loss": 0.8451,
      "step": 8515
    },
    {
      "epoch": 0.5227907547806869,
      "grad_norm": 0.840034538493809,
      "learning_rate": 9.747506414254654e-06,
      "loss": 0.8364,
      "step": 8516
    },
    {
      "epoch": 0.5228521440191535,
      "grad_norm": 0.7254641661115089,
      "learning_rate": 9.745518703395686e-06,
      "loss": 0.8014,
      "step": 8517
    },
    {
      "epoch": 0.5229135332576199,
      "grad_norm": 0.7315703395421449,
      "learning_rate": 9.743531002597725e-06,
      "loss": 0.7749,
      "step": 8518
    },
    {
      "epoch": 0.5229749224960865,
      "grad_norm": 0.8779356954935456,
      "learning_rate": 9.741543311939355e-06,
      "loss": 0.8551,
      "step": 8519
    },
    {
      "epoch": 0.5230363117345529,
      "grad_norm": 0.8017947560393847,
      "learning_rate": 9.739555631499164e-06,
      "loss": 0.8387,
      "step": 8520
    },
    {
      "epoch": 0.5230977009730194,
      "grad_norm": 0.840901181316453,
      "learning_rate": 9.737567961355728e-06,
      "loss": 0.872,
      "step": 8521
    },
    {
      "epoch": 0.5231590902114859,
      "grad_norm": 0.825693577032963,
      "learning_rate": 9.735580301587633e-06,
      "loss": 0.8345,
      "step": 8522
    },
    {
      "epoch": 0.5232204794499524,
      "grad_norm": 0.7922035263890064,
      "learning_rate": 9.733592652273465e-06,
      "loss": 0.8003,
      "step": 8523
    },
    {
      "epoch": 0.523281868688419,
      "grad_norm": 0.7634849482329626,
      "learning_rate": 9.731605013491802e-06,
      "loss": 0.8286,
      "step": 8524
    },
    {
      "epoch": 0.5233432579268854,
      "grad_norm": 0.7999258716693206,
      "learning_rate": 9.729617385321231e-06,
      "loss": 0.814,
      "step": 8525
    },
    {
      "epoch": 0.523404647165352,
      "grad_norm": 0.8852209136899694,
      "learning_rate": 9.727629767840331e-06,
      "loss": 0.8649,
      "step": 8526
    },
    {
      "epoch": 0.5234660364038184,
      "grad_norm": 0.801177938016377,
      "learning_rate": 9.725642161127681e-06,
      "loss": 0.851,
      "step": 8527
    },
    {
      "epoch": 0.5235274256422849,
      "grad_norm": 0.8847336592845801,
      "learning_rate": 9.723654565261864e-06,
      "loss": 0.8415,
      "step": 8528
    },
    {
      "epoch": 0.5235888148807514,
      "grad_norm": 0.7591008976542767,
      "learning_rate": 9.72166698032146e-06,
      "loss": 0.8329,
      "step": 8529
    },
    {
      "epoch": 0.5236502041192179,
      "grad_norm": 0.881755539640166,
      "learning_rate": 9.719679406385051e-06,
      "loss": 0.861,
      "step": 8530
    },
    {
      "epoch": 0.5237115933576844,
      "grad_norm": 0.771965954477612,
      "learning_rate": 9.717691843531214e-06,
      "loss": 0.8561,
      "step": 8531
    },
    {
      "epoch": 0.5237729825961509,
      "grad_norm": 0.8003626089524059,
      "learning_rate": 9.715704291838527e-06,
      "loss": 0.8514,
      "step": 8532
    },
    {
      "epoch": 0.5238343718346173,
      "grad_norm": 0.8989066032907351,
      "learning_rate": 9.713716751385569e-06,
      "loss": 0.8386,
      "step": 8533
    },
    {
      "epoch": 0.5238957610730839,
      "grad_norm": 0.8482692377058987,
      "learning_rate": 9.71172922225092e-06,
      "loss": 0.842,
      "step": 8534
    },
    {
      "epoch": 0.5239571503115504,
      "grad_norm": 0.852801722694873,
      "learning_rate": 9.709741704513159e-06,
      "loss": 0.7985,
      "step": 8535
    },
    {
      "epoch": 0.5240185395500169,
      "grad_norm": 0.7850192692476807,
      "learning_rate": 9.707754198250856e-06,
      "loss": 0.8401,
      "step": 8536
    },
    {
      "epoch": 0.5240799287884834,
      "grad_norm": 0.8386415067670866,
      "learning_rate": 9.705766703542596e-06,
      "loss": 0.8658,
      "step": 8537
    },
    {
      "epoch": 0.5241413180269499,
      "grad_norm": 0.7699930519214297,
      "learning_rate": 9.70377922046695e-06,
      "loss": 0.8636,
      "step": 8538
    },
    {
      "epoch": 0.5242027072654164,
      "grad_norm": 0.7665630166499338,
      "learning_rate": 9.701791749102496e-06,
      "loss": 0.811,
      "step": 8539
    },
    {
      "epoch": 0.5242640965038828,
      "grad_norm": 0.8125922739367497,
      "learning_rate": 9.699804289527812e-06,
      "loss": 0.924,
      "step": 8540
    },
    {
      "epoch": 0.5243254857423494,
      "grad_norm": 0.6999381733958354,
      "learning_rate": 9.697816841821466e-06,
      "loss": 0.8391,
      "step": 8541
    },
    {
      "epoch": 0.5243868749808158,
      "grad_norm": 0.7997673030507554,
      "learning_rate": 9.695829406062039e-06,
      "loss": 0.8338,
      "step": 8542
    },
    {
      "epoch": 0.5244482642192824,
      "grad_norm": 0.8039714620207763,
      "learning_rate": 9.6938419823281e-06,
      "loss": 0.8421,
      "step": 8543
    },
    {
      "epoch": 0.5245096534577488,
      "grad_norm": 0.8081151799749272,
      "learning_rate": 9.691854570698227e-06,
      "loss": 0.8788,
      "step": 8544
    },
    {
      "epoch": 0.5245710426962154,
      "grad_norm": 0.7390102156203516,
      "learning_rate": 9.689867171250993e-06,
      "loss": 0.8192,
      "step": 8545
    },
    {
      "epoch": 0.5246324319346819,
      "grad_norm": 0.8384041174032955,
      "learning_rate": 9.687879784064965e-06,
      "loss": 0.8699,
      "step": 8546
    },
    {
      "epoch": 0.5246938211731483,
      "grad_norm": 0.7606429864396035,
      "learning_rate": 9.685892409218718e-06,
      "loss": 0.8078,
      "step": 8547
    },
    {
      "epoch": 0.5247552104116149,
      "grad_norm": 0.8591344527564408,
      "learning_rate": 9.683905046790826e-06,
      "loss": 0.856,
      "step": 8548
    },
    {
      "epoch": 0.5248165996500813,
      "grad_norm": 0.8161030766968849,
      "learning_rate": 9.681917696859855e-06,
      "loss": 0.8253,
      "step": 8549
    },
    {
      "epoch": 0.5248779888885479,
      "grad_norm": 0.780919313101046,
      "learning_rate": 9.679930359504384e-06,
      "loss": 0.8018,
      "step": 8550
    },
    {
      "epoch": 0.5249393781270143,
      "grad_norm": 0.785504080576859,
      "learning_rate": 9.677943034802975e-06,
      "loss": 0.8267,
      "step": 8551
    },
    {
      "epoch": 0.5250007673654808,
      "grad_norm": 0.7262096990464634,
      "learning_rate": 9.675955722834199e-06,
      "loss": 0.7853,
      "step": 8552
    },
    {
      "epoch": 0.5250621566039473,
      "grad_norm": 0.7709519509872427,
      "learning_rate": 9.673968423676627e-06,
      "loss": 0.8311,
      "step": 8553
    },
    {
      "epoch": 0.5251235458424138,
      "grad_norm": 0.7866084508399548,
      "learning_rate": 9.67198113740883e-06,
      "loss": 0.8207,
      "step": 8554
    },
    {
      "epoch": 0.5251849350808803,
      "grad_norm": 0.8176249091127733,
      "learning_rate": 9.669993864109368e-06,
      "loss": 0.8172,
      "step": 8555
    },
    {
      "epoch": 0.5252463243193468,
      "grad_norm": 0.7224835723211016,
      "learning_rate": 9.668006603856818e-06,
      "loss": 0.813,
      "step": 8556
    },
    {
      "epoch": 0.5253077135578134,
      "grad_norm": 0.8276216428302569,
      "learning_rate": 9.666019356729737e-06,
      "loss": 0.8306,
      "step": 8557
    },
    {
      "epoch": 0.5253691027962798,
      "grad_norm": 0.8194605373662314,
      "learning_rate": 9.664032122806703e-06,
      "loss": 0.8733,
      "step": 8558
    },
    {
      "epoch": 0.5254304920347463,
      "grad_norm": 0.7870151420415841,
      "learning_rate": 9.662044902166275e-06,
      "loss": 0.8407,
      "step": 8559
    },
    {
      "epoch": 0.5254918812732128,
      "grad_norm": 0.8209465895266107,
      "learning_rate": 9.660057694887019e-06,
      "loss": 0.7719,
      "step": 8560
    },
    {
      "epoch": 0.5255532705116793,
      "grad_norm": 0.7335259235508673,
      "learning_rate": 9.658070501047498e-06,
      "loss": 0.8447,
      "step": 8561
    },
    {
      "epoch": 0.5256146597501458,
      "grad_norm": 0.7268086020723682,
      "learning_rate": 9.65608332072628e-06,
      "loss": 0.8221,
      "step": 8562
    },
    {
      "epoch": 0.5256760489886123,
      "grad_norm": 0.8782127728435899,
      "learning_rate": 9.654096154001927e-06,
      "loss": 0.8838,
      "step": 8563
    },
    {
      "epoch": 0.5257374382270787,
      "grad_norm": 0.878073995659049,
      "learning_rate": 9.652109000953007e-06,
      "loss": 0.8595,
      "step": 8564
    },
    {
      "epoch": 0.5257988274655453,
      "grad_norm": 0.7735227652629472,
      "learning_rate": 9.650121861658077e-06,
      "loss": 0.8106,
      "step": 8565
    },
    {
      "epoch": 0.5258602167040118,
      "grad_norm": 0.7255917460530332,
      "learning_rate": 9.648134736195697e-06,
      "loss": 0.8447,
      "step": 8566
    },
    {
      "epoch": 0.5259216059424783,
      "grad_norm": 0.8762527019462881,
      "learning_rate": 9.646147624644438e-06,
      "loss": 0.8114,
      "step": 8567
    },
    {
      "epoch": 0.5259829951809448,
      "grad_norm": 0.8969801109581926,
      "learning_rate": 9.644160527082852e-06,
      "loss": 0.8297,
      "step": 8568
    },
    {
      "epoch": 0.5260443844194113,
      "grad_norm": 0.7794430127366929,
      "learning_rate": 9.642173443589508e-06,
      "loss": 0.8041,
      "step": 8569
    },
    {
      "epoch": 0.5261057736578778,
      "grad_norm": 0.835505731551431,
      "learning_rate": 9.640186374242959e-06,
      "loss": 0.8509,
      "step": 8570
    },
    {
      "epoch": 0.5261671628963442,
      "grad_norm": 0.8787696630595909,
      "learning_rate": 9.638199319121768e-06,
      "loss": 0.8467,
      "step": 8571
    },
    {
      "epoch": 0.5262285521348108,
      "grad_norm": 0.9338083446993519,
      "learning_rate": 9.63621227830449e-06,
      "loss": 0.8823,
      "step": 8572
    },
    {
      "epoch": 0.5262899413732772,
      "grad_norm": 0.8309176017809285,
      "learning_rate": 9.634225251869689e-06,
      "loss": 0.828,
      "step": 8573
    },
    {
      "epoch": 0.5263513306117438,
      "grad_norm": 0.7971669443986686,
      "learning_rate": 9.632238239895922e-06,
      "loss": 0.846,
      "step": 8574
    },
    {
      "epoch": 0.5264127198502102,
      "grad_norm": 0.7866300396914275,
      "learning_rate": 9.63025124246174e-06,
      "loss": 0.8223,
      "step": 8575
    },
    {
      "epoch": 0.5264741090886768,
      "grad_norm": 0.6866837788596509,
      "learning_rate": 9.628264259645706e-06,
      "loss": 0.7897,
      "step": 8576
    },
    {
      "epoch": 0.5265354983271433,
      "grad_norm": 0.7591929251819158,
      "learning_rate": 9.626277291526372e-06,
      "loss": 0.7997,
      "step": 8577
    },
    {
      "epoch": 0.5265968875656097,
      "grad_norm": 0.7372018114991279,
      "learning_rate": 9.624290338182297e-06,
      "loss": 0.7533,
      "step": 8578
    },
    {
      "epoch": 0.5266582768040763,
      "grad_norm": 0.8432013605045436,
      "learning_rate": 9.622303399692038e-06,
      "loss": 0.8749,
      "step": 8579
    },
    {
      "epoch": 0.5267196660425427,
      "grad_norm": 0.788285006816946,
      "learning_rate": 9.62031647613414e-06,
      "loss": 0.8037,
      "step": 8580
    },
    {
      "epoch": 0.5267810552810093,
      "grad_norm": 0.7822153275813802,
      "learning_rate": 9.618329567587166e-06,
      "loss": 0.802,
      "step": 8581
    },
    {
      "epoch": 0.5268424445194757,
      "grad_norm": 0.8040367066026819,
      "learning_rate": 9.616342674129661e-06,
      "loss": 0.876,
      "step": 8582
    },
    {
      "epoch": 0.5269038337579423,
      "grad_norm": 0.9318871617890114,
      "learning_rate": 9.614355795840186e-06,
      "loss": 0.9033,
      "step": 8583
    },
    {
      "epoch": 0.5269652229964087,
      "grad_norm": 0.7844742067547642,
      "learning_rate": 9.612368932797292e-06,
      "loss": 0.8246,
      "step": 8584
    },
    {
      "epoch": 0.5270266122348752,
      "grad_norm": 0.9188285238775465,
      "learning_rate": 9.610382085079522e-06,
      "loss": 0.9023,
      "step": 8585
    },
    {
      "epoch": 0.5270880014733417,
      "grad_norm": 0.759707891071139,
      "learning_rate": 9.608395252765432e-06,
      "loss": 0.8146,
      "step": 8586
    },
    {
      "epoch": 0.5271493907118082,
      "grad_norm": 0.8756685836431508,
      "learning_rate": 9.606408435933574e-06,
      "loss": 0.8516,
      "step": 8587
    },
    {
      "epoch": 0.5272107799502748,
      "grad_norm": 0.8506904316716456,
      "learning_rate": 9.604421634662494e-06,
      "loss": 0.825,
      "step": 8588
    },
    {
      "epoch": 0.5272721691887412,
      "grad_norm": 0.8176055468629938,
      "learning_rate": 9.602434849030747e-06,
      "loss": 0.8824,
      "step": 8589
    },
    {
      "epoch": 0.5273335584272077,
      "grad_norm": 0.8665195803409717,
      "learning_rate": 9.600448079116874e-06,
      "loss": 0.8926,
      "step": 8590
    },
    {
      "epoch": 0.5273949476656742,
      "grad_norm": 0.7589672422980087,
      "learning_rate": 9.598461324999421e-06,
      "loss": 0.8319,
      "step": 8591
    },
    {
      "epoch": 0.5274563369041407,
      "grad_norm": 0.8240045192206188,
      "learning_rate": 9.596474586756944e-06,
      "loss": 0.8064,
      "step": 8592
    },
    {
      "epoch": 0.5275177261426072,
      "grad_norm": 0.7802482784707554,
      "learning_rate": 9.594487864467983e-06,
      "loss": 0.8201,
      "step": 8593
    },
    {
      "epoch": 0.5275791153810737,
      "grad_norm": 0.7457438782875425,
      "learning_rate": 9.592501158211088e-06,
      "loss": 0.824,
      "step": 8594
    },
    {
      "epoch": 0.5276405046195402,
      "grad_norm": 0.8263128504886132,
      "learning_rate": 9.590514468064802e-06,
      "loss": 0.8728,
      "step": 8595
    },
    {
      "epoch": 0.5277018938580067,
      "grad_norm": 0.8442574481733686,
      "learning_rate": 9.588527794107664e-06,
      "loss": 0.7912,
      "step": 8596
    },
    {
      "epoch": 0.5277632830964731,
      "grad_norm": 0.8477755223278709,
      "learning_rate": 9.586541136418227e-06,
      "loss": 0.852,
      "step": 8597
    },
    {
      "epoch": 0.5278246723349397,
      "grad_norm": 0.8248461019816637,
      "learning_rate": 9.58455449507503e-06,
      "loss": 0.8644,
      "step": 8598
    },
    {
      "epoch": 0.5278860615734062,
      "grad_norm": 0.9487606953087095,
      "learning_rate": 9.582567870156618e-06,
      "loss": 0.8915,
      "step": 8599
    },
    {
      "epoch": 0.5279474508118727,
      "grad_norm": 0.7959767992989454,
      "learning_rate": 9.580581261741526e-06,
      "loss": 0.8341,
      "step": 8600
    },
    {
      "epoch": 0.5280088400503392,
      "grad_norm": 0.7457030787588914,
      "learning_rate": 9.578594669908304e-06,
      "loss": 0.8402,
      "step": 8601
    },
    {
      "epoch": 0.5280702292888056,
      "grad_norm": 0.8332747723659809,
      "learning_rate": 9.576608094735483e-06,
      "loss": 0.8339,
      "step": 8602
    },
    {
      "epoch": 0.5281316185272722,
      "grad_norm": 0.8190808109868231,
      "learning_rate": 9.574621536301613e-06,
      "loss": 0.8041,
      "step": 8603
    },
    {
      "epoch": 0.5281930077657386,
      "grad_norm": 0.844115362430583,
      "learning_rate": 9.57263499468523e-06,
      "loss": 0.8926,
      "step": 8604
    },
    {
      "epoch": 0.5282543970042052,
      "grad_norm": 0.8283929321212247,
      "learning_rate": 9.570648469964868e-06,
      "loss": 0.8029,
      "step": 8605
    },
    {
      "epoch": 0.5283157862426716,
      "grad_norm": 0.7965273405155008,
      "learning_rate": 9.56866196221907e-06,
      "loss": 0.8373,
      "step": 8606
    },
    {
      "epoch": 0.5283771754811382,
      "grad_norm": 0.7560008764435499,
      "learning_rate": 9.566675471526368e-06,
      "loss": 0.8117,
      "step": 8607
    },
    {
      "epoch": 0.5284385647196047,
      "grad_norm": 0.7651112495539972,
      "learning_rate": 9.564688997965305e-06,
      "loss": 0.8567,
      "step": 8608
    },
    {
      "epoch": 0.5284999539580711,
      "grad_norm": 0.7125032593483905,
      "learning_rate": 9.562702541614416e-06,
      "loss": 0.8117,
      "step": 8609
    },
    {
      "epoch": 0.5285613431965377,
      "grad_norm": 0.7476496665396871,
      "learning_rate": 9.560716102552234e-06,
      "loss": 0.794,
      "step": 8610
    },
    {
      "epoch": 0.5286227324350041,
      "grad_norm": 0.7751317397376862,
      "learning_rate": 9.558729680857292e-06,
      "loss": 0.8443,
      "step": 8611
    },
    {
      "epoch": 0.5286841216734707,
      "grad_norm": 0.7923649826867456,
      "learning_rate": 9.556743276608127e-06,
      "loss": 0.8241,
      "step": 8612
    },
    {
      "epoch": 0.5287455109119371,
      "grad_norm": 0.7398889225587879,
      "learning_rate": 9.554756889883268e-06,
      "loss": 0.8369,
      "step": 8613
    },
    {
      "epoch": 0.5288069001504037,
      "grad_norm": 0.8719898169292843,
      "learning_rate": 9.552770520761256e-06,
      "loss": 0.8275,
      "step": 8614
    },
    {
      "epoch": 0.5288682893888701,
      "grad_norm": 0.7931300707972866,
      "learning_rate": 9.550784169320614e-06,
      "loss": 0.8172,
      "step": 8615
    },
    {
      "epoch": 0.5289296786273366,
      "grad_norm": 0.8094246971113258,
      "learning_rate": 9.548797835639874e-06,
      "loss": 0.8345,
      "step": 8616
    },
    {
      "epoch": 0.5289910678658031,
      "grad_norm": 0.766896165680242,
      "learning_rate": 9.546811519797572e-06,
      "loss": 0.8212,
      "step": 8617
    },
    {
      "epoch": 0.5290524571042696,
      "grad_norm": 0.8525743894704751,
      "learning_rate": 9.544825221872231e-06,
      "loss": 0.8329,
      "step": 8618
    },
    {
      "epoch": 0.5291138463427362,
      "grad_norm": 0.871194068473741,
      "learning_rate": 9.54283894194239e-06,
      "loss": 0.8733,
      "step": 8619
    },
    {
      "epoch": 0.5291752355812026,
      "grad_norm": 0.8403298782350798,
      "learning_rate": 9.540852680086566e-06,
      "loss": 0.8262,
      "step": 8620
    },
    {
      "epoch": 0.5292366248196692,
      "grad_norm": 0.7975842640746099,
      "learning_rate": 9.53886643638329e-06,
      "loss": 0.8075,
      "step": 8621
    },
    {
      "epoch": 0.5292980140581356,
      "grad_norm": 0.8024596972813133,
      "learning_rate": 9.536880210911092e-06,
      "loss": 0.8085,
      "step": 8622
    },
    {
      "epoch": 0.5293594032966021,
      "grad_norm": 0.8011576563410987,
      "learning_rate": 9.534894003748501e-06,
      "loss": 0.7994,
      "step": 8623
    },
    {
      "epoch": 0.5294207925350686,
      "grad_norm": 0.6731065348054456,
      "learning_rate": 9.532907814974032e-06,
      "loss": 0.6671,
      "step": 8624
    },
    {
      "epoch": 0.5294821817735351,
      "grad_norm": 0.7541953418016326,
      "learning_rate": 9.530921644666215e-06,
      "loss": 0.8192,
      "step": 8625
    },
    {
      "epoch": 0.5295435710120016,
      "grad_norm": 0.8136979746188054,
      "learning_rate": 9.528935492903575e-06,
      "loss": 0.8371,
      "step": 8626
    },
    {
      "epoch": 0.5296049602504681,
      "grad_norm": 0.8030241115098387,
      "learning_rate": 9.526949359764633e-06,
      "loss": 0.8359,
      "step": 8627
    },
    {
      "epoch": 0.5296663494889345,
      "grad_norm": 0.5851438826900244,
      "learning_rate": 9.524963245327918e-06,
      "loss": 0.7242,
      "step": 8628
    },
    {
      "epoch": 0.5297277387274011,
      "grad_norm": 0.8744415304005224,
      "learning_rate": 9.522977149671942e-06,
      "loss": 0.8997,
      "step": 8629
    },
    {
      "epoch": 0.5297891279658676,
      "grad_norm": 0.784120173981169,
      "learning_rate": 9.520991072875231e-06,
      "loss": 0.8815,
      "step": 8630
    },
    {
      "epoch": 0.5298505172043341,
      "grad_norm": 0.8411641203877891,
      "learning_rate": 9.519005015016305e-06,
      "loss": 0.819,
      "step": 8631
    },
    {
      "epoch": 0.5299119064428006,
      "grad_norm": 0.8647187804426102,
      "learning_rate": 9.517018976173682e-06,
      "loss": 0.8268,
      "step": 8632
    },
    {
      "epoch": 0.529973295681267,
      "grad_norm": 0.7278275452963267,
      "learning_rate": 9.515032956425887e-06,
      "loss": 0.8413,
      "step": 8633
    },
    {
      "epoch": 0.5300346849197336,
      "grad_norm": 0.7677985136957461,
      "learning_rate": 9.51304695585143e-06,
      "loss": 0.7895,
      "step": 8634
    },
    {
      "epoch": 0.5300960741582,
      "grad_norm": 0.8559053108041936,
      "learning_rate": 9.51106097452883e-06,
      "loss": 0.878,
      "step": 8635
    },
    {
      "epoch": 0.5301574633966666,
      "grad_norm": 0.9241702271008554,
      "learning_rate": 9.509075012536606e-06,
      "loss": 0.8139,
      "step": 8636
    },
    {
      "epoch": 0.530218852635133,
      "grad_norm": 0.8064992103965407,
      "learning_rate": 9.507089069953272e-06,
      "loss": 0.8316,
      "step": 8637
    },
    {
      "epoch": 0.5302802418735996,
      "grad_norm": 0.803904886335778,
      "learning_rate": 9.505103146857347e-06,
      "loss": 0.7736,
      "step": 8638
    },
    {
      "epoch": 0.530341631112066,
      "grad_norm": 0.7343571404521488,
      "learning_rate": 9.503117243327336e-06,
      "loss": 0.7721,
      "step": 8639
    },
    {
      "epoch": 0.5304030203505326,
      "grad_norm": 0.8373350629357855,
      "learning_rate": 9.501131359441761e-06,
      "loss": 0.8007,
      "step": 8640
    },
    {
      "epoch": 0.5304644095889991,
      "grad_norm": 0.8169628111607298,
      "learning_rate": 9.499145495279128e-06,
      "loss": 0.8305,
      "step": 8641
    },
    {
      "epoch": 0.5305257988274655,
      "grad_norm": 0.8569009966453931,
      "learning_rate": 9.497159650917956e-06,
      "loss": 0.7995,
      "step": 8642
    },
    {
      "epoch": 0.5305871880659321,
      "grad_norm": 0.9075178333959825,
      "learning_rate": 9.495173826436753e-06,
      "loss": 0.8374,
      "step": 8643
    },
    {
      "epoch": 0.5306485773043985,
      "grad_norm": 0.8070884849363265,
      "learning_rate": 9.493188021914026e-06,
      "loss": 0.8443,
      "step": 8644
    },
    {
      "epoch": 0.5307099665428651,
      "grad_norm": 0.7990426293780847,
      "learning_rate": 9.491202237428287e-06,
      "loss": 0.806,
      "step": 8645
    },
    {
      "epoch": 0.5307713557813315,
      "grad_norm": 0.8421563235548294,
      "learning_rate": 9.489216473058044e-06,
      "loss": 0.8032,
      "step": 8646
    },
    {
      "epoch": 0.530832745019798,
      "grad_norm": 0.8189674564715639,
      "learning_rate": 9.487230728881809e-06,
      "loss": 0.8305,
      "step": 8647
    },
    {
      "epoch": 0.5308941342582645,
      "grad_norm": 0.8073641390431119,
      "learning_rate": 9.485245004978087e-06,
      "loss": 0.839,
      "step": 8648
    },
    {
      "epoch": 0.530955523496731,
      "grad_norm": 0.8414573982849637,
      "learning_rate": 9.48325930142538e-06,
      "loss": 0.8107,
      "step": 8649
    },
    {
      "epoch": 0.5310169127351975,
      "grad_norm": 0.9008917287596608,
      "learning_rate": 9.481273618302194e-06,
      "loss": 0.8626,
      "step": 8650
    },
    {
      "epoch": 0.531078301973664,
      "grad_norm": 0.7573155219724564,
      "learning_rate": 9.47928795568704e-06,
      "loss": 0.8601,
      "step": 8651
    },
    {
      "epoch": 0.5311396912121306,
      "grad_norm": 0.8520745800528744,
      "learning_rate": 9.477302313658415e-06,
      "loss": 0.8577,
      "step": 8652
    },
    {
      "epoch": 0.531201080450597,
      "grad_norm": 1.024109875592914,
      "learning_rate": 9.47531669229483e-06,
      "loss": 0.8769,
      "step": 8653
    },
    {
      "epoch": 0.5312624696890635,
      "grad_norm": 0.8407233384877533,
      "learning_rate": 9.47333109167478e-06,
      "loss": 0.8897,
      "step": 8654
    },
    {
      "epoch": 0.53132385892753,
      "grad_norm": 0.8373768183950195,
      "learning_rate": 9.471345511876767e-06,
      "loss": 0.8684,
      "step": 8655
    },
    {
      "epoch": 0.5313852481659965,
      "grad_norm": 0.8883952804051681,
      "learning_rate": 9.469359952979295e-06,
      "loss": 0.8575,
      "step": 8656
    },
    {
      "epoch": 0.531446637404463,
      "grad_norm": 0.8047255733844039,
      "learning_rate": 9.467374415060861e-06,
      "loss": 0.8497,
      "step": 8657
    },
    {
      "epoch": 0.5315080266429295,
      "grad_norm": 0.7828212574495658,
      "learning_rate": 9.465388898199968e-06,
      "loss": 0.8592,
      "step": 8658
    },
    {
      "epoch": 0.531569415881396,
      "grad_norm": 0.8288780383803329,
      "learning_rate": 9.46340340247511e-06,
      "loss": 0.8748,
      "step": 8659
    },
    {
      "epoch": 0.5316308051198625,
      "grad_norm": 0.8537343646541942,
      "learning_rate": 9.461417927964782e-06,
      "loss": 0.8242,
      "step": 8660
    },
    {
      "epoch": 0.531692194358329,
      "grad_norm": 0.8452333679600611,
      "learning_rate": 9.459432474747487e-06,
      "loss": 0.8253,
      "step": 8661
    },
    {
      "epoch": 0.5317535835967955,
      "grad_norm": 0.8186813929093242,
      "learning_rate": 9.457447042901714e-06,
      "loss": 0.8482,
      "step": 8662
    },
    {
      "epoch": 0.531814972835262,
      "grad_norm": 0.7999807344533084,
      "learning_rate": 9.45546163250597e-06,
      "loss": 0.8423,
      "step": 8663
    },
    {
      "epoch": 0.5318763620737285,
      "grad_norm": 0.8488841070597926,
      "learning_rate": 9.45347624363873e-06,
      "loss": 0.8461,
      "step": 8664
    },
    {
      "epoch": 0.531937751312195,
      "grad_norm": 0.7451104468714786,
      "learning_rate": 9.451490876378502e-06,
      "loss": 0.8225,
      "step": 8665
    },
    {
      "epoch": 0.5319991405506614,
      "grad_norm": 0.8886474767463457,
      "learning_rate": 9.449505530803771e-06,
      "loss": 0.9095,
      "step": 8666
    },
    {
      "epoch": 0.532060529789128,
      "grad_norm": 0.7735173609276823,
      "learning_rate": 9.447520206993033e-06,
      "loss": 0.8464,
      "step": 8667
    },
    {
      "epoch": 0.5321219190275944,
      "grad_norm": 0.865036561923678,
      "learning_rate": 9.445534905024776e-06,
      "loss": 0.8422,
      "step": 8668
    },
    {
      "epoch": 0.532183308266061,
      "grad_norm": 0.7896766576262655,
      "learning_rate": 9.443549624977488e-06,
      "loss": 0.8349,
      "step": 8669
    },
    {
      "epoch": 0.5322446975045274,
      "grad_norm": 0.7664739337851356,
      "learning_rate": 9.441564366929661e-06,
      "loss": 0.8337,
      "step": 8670
    },
    {
      "epoch": 0.532306086742994,
      "grad_norm": 0.7483786109936073,
      "learning_rate": 9.439579130959779e-06,
      "loss": 0.8719,
      "step": 8671
    },
    {
      "epoch": 0.5323674759814605,
      "grad_norm": 0.7232761199747495,
      "learning_rate": 9.437593917146333e-06,
      "loss": 0.7825,
      "step": 8672
    },
    {
      "epoch": 0.5324288652199269,
      "grad_norm": 0.7536792413262073,
      "learning_rate": 9.43560872556781e-06,
      "loss": 0.8012,
      "step": 8673
    },
    {
      "epoch": 0.5324902544583935,
      "grad_norm": 0.860251532632621,
      "learning_rate": 9.433623556302686e-06,
      "loss": 0.8535,
      "step": 8674
    },
    {
      "epoch": 0.5325516436968599,
      "grad_norm": 0.8291055776869788,
      "learning_rate": 9.431638409429457e-06,
      "loss": 0.7897,
      "step": 8675
    },
    {
      "epoch": 0.5326130329353265,
      "grad_norm": 0.8352679811345142,
      "learning_rate": 9.4296532850266e-06,
      "loss": 0.8926,
      "step": 8676
    },
    {
      "epoch": 0.5326744221737929,
      "grad_norm": 0.872982478435084,
      "learning_rate": 9.4276681831726e-06,
      "loss": 0.838,
      "step": 8677
    },
    {
      "epoch": 0.5327358114122595,
      "grad_norm": 0.7022353468902104,
      "learning_rate": 9.425683103945939e-06,
      "loss": 0.826,
      "step": 8678
    },
    {
      "epoch": 0.5327972006507259,
      "grad_norm": 0.8633063521513032,
      "learning_rate": 9.423698047425096e-06,
      "loss": 0.8359,
      "step": 8679
    },
    {
      "epoch": 0.5328585898891924,
      "grad_norm": 0.7895639695642455,
      "learning_rate": 9.421713013688548e-06,
      "loss": 0.8152,
      "step": 8680
    },
    {
      "epoch": 0.5329199791276589,
      "grad_norm": 0.869585143375045,
      "learning_rate": 9.419728002814779e-06,
      "loss": 0.8088,
      "step": 8681
    },
    {
      "epoch": 0.5329813683661254,
      "grad_norm": 0.8991004266476738,
      "learning_rate": 9.417743014882264e-06,
      "loss": 0.8669,
      "step": 8682
    },
    {
      "epoch": 0.533042757604592,
      "grad_norm": 0.7754588086642042,
      "learning_rate": 9.415758049969488e-06,
      "loss": 0.8149,
      "step": 8683
    },
    {
      "epoch": 0.5331041468430584,
      "grad_norm": 0.8186627937306946,
      "learning_rate": 9.413773108154917e-06,
      "loss": 0.8299,
      "step": 8684
    },
    {
      "epoch": 0.533165536081525,
      "grad_norm": 0.8028508956393623,
      "learning_rate": 9.411788189517028e-06,
      "loss": 0.7965,
      "step": 8685
    },
    {
      "epoch": 0.5332269253199914,
      "grad_norm": 0.8556344520786834,
      "learning_rate": 9.409803294134301e-06,
      "loss": 0.8687,
      "step": 8686
    },
    {
      "epoch": 0.5332883145584579,
      "grad_norm": 0.8229398815326111,
      "learning_rate": 9.407818422085209e-06,
      "loss": 0.8601,
      "step": 8687
    },
    {
      "epoch": 0.5333497037969244,
      "grad_norm": 0.7666055481956346,
      "learning_rate": 9.405833573448218e-06,
      "loss": 0.792,
      "step": 8688
    },
    {
      "epoch": 0.5334110930353909,
      "grad_norm": 0.8556709341507555,
      "learning_rate": 9.403848748301802e-06,
      "loss": 0.8036,
      "step": 8689
    },
    {
      "epoch": 0.5334724822738574,
      "grad_norm": 0.9175562651439442,
      "learning_rate": 9.401863946724437e-06,
      "loss": 0.8504,
      "step": 8690
    },
    {
      "epoch": 0.5335338715123239,
      "grad_norm": 0.7938160569494078,
      "learning_rate": 9.399879168794585e-06,
      "loss": 0.8235,
      "step": 8691
    },
    {
      "epoch": 0.5335952607507903,
      "grad_norm": 0.9023480302629755,
      "learning_rate": 9.397894414590726e-06,
      "loss": 0.8748,
      "step": 8692
    },
    {
      "epoch": 0.5336566499892569,
      "grad_norm": 0.8388422020185916,
      "learning_rate": 9.395909684191318e-06,
      "loss": 0.8068,
      "step": 8693
    },
    {
      "epoch": 0.5337180392277234,
      "grad_norm": 0.833959581677384,
      "learning_rate": 9.393924977674827e-06,
      "loss": 0.8442,
      "step": 8694
    },
    {
      "epoch": 0.5337794284661899,
      "grad_norm": 0.8555452472530088,
      "learning_rate": 9.391940295119726e-06,
      "loss": 0.8598,
      "step": 8695
    },
    {
      "epoch": 0.5338408177046564,
      "grad_norm": 0.8900179222869768,
      "learning_rate": 9.389955636604478e-06,
      "loss": 0.8332,
      "step": 8696
    },
    {
      "epoch": 0.5339022069431228,
      "grad_norm": 0.8655781845181174,
      "learning_rate": 9.387971002207547e-06,
      "loss": 0.8341,
      "step": 8697
    },
    {
      "epoch": 0.5339635961815894,
      "grad_norm": 0.8211275995977297,
      "learning_rate": 9.385986392007396e-06,
      "loss": 0.8398,
      "step": 8698
    },
    {
      "epoch": 0.5340249854200558,
      "grad_norm": 0.7788363930988889,
      "learning_rate": 9.384001806082483e-06,
      "loss": 0.7974,
      "step": 8699
    },
    {
      "epoch": 0.5340863746585224,
      "grad_norm": 0.9019861362383317,
      "learning_rate": 9.382017244511277e-06,
      "loss": 0.854,
      "step": 8700
    },
    {
      "epoch": 0.5341477638969888,
      "grad_norm": 0.9164093414445438,
      "learning_rate": 9.380032707372231e-06,
      "loss": 0.8017,
      "step": 8701
    },
    {
      "epoch": 0.5342091531354554,
      "grad_norm": 0.7301454606729884,
      "learning_rate": 9.378048194743817e-06,
      "loss": 0.8238,
      "step": 8702
    },
    {
      "epoch": 0.5342705423739218,
      "grad_norm": 0.7844381873713457,
      "learning_rate": 9.376063706704474e-06,
      "loss": 0.7901,
      "step": 8703
    },
    {
      "epoch": 0.5343319316123883,
      "grad_norm": 0.7524769240467679,
      "learning_rate": 9.374079243332674e-06,
      "loss": 0.865,
      "step": 8704
    },
    {
      "epoch": 0.5343933208508549,
      "grad_norm": 0.7763433171943859,
      "learning_rate": 9.372094804706867e-06,
      "loss": 0.8078,
      "step": 8705
    },
    {
      "epoch": 0.5344547100893213,
      "grad_norm": 0.7974780026065564,
      "learning_rate": 9.370110390905513e-06,
      "loss": 0.7987,
      "step": 8706
    },
    {
      "epoch": 0.5345160993277879,
      "grad_norm": 0.7975934167062819,
      "learning_rate": 9.368126002007065e-06,
      "loss": 0.8432,
      "step": 8707
    },
    {
      "epoch": 0.5345774885662543,
      "grad_norm": 0.9246315250517674,
      "learning_rate": 9.366141638089972e-06,
      "loss": 0.858,
      "step": 8708
    },
    {
      "epoch": 0.5346388778047209,
      "grad_norm": 0.8296370999489013,
      "learning_rate": 9.364157299232693e-06,
      "loss": 0.855,
      "step": 8709
    },
    {
      "epoch": 0.5347002670431873,
      "grad_norm": 0.8546470320724572,
      "learning_rate": 9.362172985513673e-06,
      "loss": 0.7881,
      "step": 8710
    },
    {
      "epoch": 0.5347616562816538,
      "grad_norm": 0.8447902308494415,
      "learning_rate": 9.36018869701137e-06,
      "loss": 0.8564,
      "step": 8711
    },
    {
      "epoch": 0.5348230455201203,
      "grad_norm": 0.7996931300780517,
      "learning_rate": 9.358204433804231e-06,
      "loss": 0.8485,
      "step": 8712
    },
    {
      "epoch": 0.5348844347585868,
      "grad_norm": 0.796167725173167,
      "learning_rate": 9.356220195970698e-06,
      "loss": 0.8151,
      "step": 8713
    },
    {
      "epoch": 0.5349458239970534,
      "grad_norm": 0.8362924235142154,
      "learning_rate": 9.354235983589229e-06,
      "loss": 0.9027,
      "step": 8714
    },
    {
      "epoch": 0.5350072132355198,
      "grad_norm": 0.8388207552717543,
      "learning_rate": 9.352251796738263e-06,
      "loss": 0.8255,
      "step": 8715
    },
    {
      "epoch": 0.5350686024739864,
      "grad_norm": 0.8546781636728403,
      "learning_rate": 9.350267635496246e-06,
      "loss": 0.8228,
      "step": 8716
    },
    {
      "epoch": 0.5351299917124528,
      "grad_norm": 0.810196148461132,
      "learning_rate": 9.348283499941629e-06,
      "loss": 0.8455,
      "step": 8717
    },
    {
      "epoch": 0.5351913809509193,
      "grad_norm": 0.9055899918546019,
      "learning_rate": 9.346299390152848e-06,
      "loss": 0.7678,
      "step": 8718
    },
    {
      "epoch": 0.5352527701893858,
      "grad_norm": 0.7637572034247341,
      "learning_rate": 9.344315306208349e-06,
      "loss": 0.8233,
      "step": 8719
    },
    {
      "epoch": 0.5353141594278523,
      "grad_norm": 0.8077981132911348,
      "learning_rate": 9.342331248186571e-06,
      "loss": 0.8259,
      "step": 8720
    },
    {
      "epoch": 0.5353755486663188,
      "grad_norm": 0.8486669509256229,
      "learning_rate": 9.340347216165957e-06,
      "loss": 0.809,
      "step": 8721
    },
    {
      "epoch": 0.5354369379047853,
      "grad_norm": 0.8442899287738452,
      "learning_rate": 9.338363210224947e-06,
      "loss": 0.8194,
      "step": 8722
    },
    {
      "epoch": 0.5354983271432517,
      "grad_norm": 0.8030502260927405,
      "learning_rate": 9.336379230441978e-06,
      "loss": 0.8649,
      "step": 8723
    },
    {
      "epoch": 0.5355597163817183,
      "grad_norm": 0.8550806776675214,
      "learning_rate": 9.334395276895487e-06,
      "loss": 0.8218,
      "step": 8724
    },
    {
      "epoch": 0.5356211056201848,
      "grad_norm": 0.85375962506505,
      "learning_rate": 9.332411349663909e-06,
      "loss": 0.8508,
      "step": 8725
    },
    {
      "epoch": 0.5356824948586513,
      "grad_norm": 0.7631831152015498,
      "learning_rate": 9.330427448825681e-06,
      "loss": 0.8259,
      "step": 8726
    },
    {
      "epoch": 0.5357438840971178,
      "grad_norm": 0.8241517960356061,
      "learning_rate": 9.328443574459242e-06,
      "loss": 0.8654,
      "step": 8727
    },
    {
      "epoch": 0.5358052733355843,
      "grad_norm": 0.785658317252857,
      "learning_rate": 9.326459726643015e-06,
      "loss": 0.7758,
      "step": 8728
    },
    {
      "epoch": 0.5358666625740508,
      "grad_norm": 0.7476466048068956,
      "learning_rate": 9.324475905455439e-06,
      "loss": 0.8016,
      "step": 8729
    },
    {
      "epoch": 0.5359280518125172,
      "grad_norm": 0.8311360109087521,
      "learning_rate": 9.32249211097494e-06,
      "loss": 0.8452,
      "step": 8730
    },
    {
      "epoch": 0.5359894410509838,
      "grad_norm": 0.7602737711527919,
      "learning_rate": 9.320508343279957e-06,
      "loss": 0.7967,
      "step": 8731
    },
    {
      "epoch": 0.5360508302894502,
      "grad_norm": 0.7841690316887396,
      "learning_rate": 9.318524602448912e-06,
      "loss": 0.8199,
      "step": 8732
    },
    {
      "epoch": 0.5361122195279168,
      "grad_norm": 0.829266361176246,
      "learning_rate": 9.316540888560232e-06,
      "loss": 0.8351,
      "step": 8733
    },
    {
      "epoch": 0.5361736087663832,
      "grad_norm": 0.77362813331226,
      "learning_rate": 9.314557201692348e-06,
      "loss": 0.8314,
      "step": 8734
    },
    {
      "epoch": 0.5362349980048497,
      "grad_norm": 0.8472668128305635,
      "learning_rate": 9.312573541923681e-06,
      "loss": 0.8692,
      "step": 8735
    },
    {
      "epoch": 0.5362963872433163,
      "grad_norm": 0.7066029268544614,
      "learning_rate": 9.310589909332661e-06,
      "loss": 0.8305,
      "step": 8736
    },
    {
      "epoch": 0.5363577764817827,
      "grad_norm": 0.7561427919031254,
      "learning_rate": 9.308606303997711e-06,
      "loss": 0.7668,
      "step": 8737
    },
    {
      "epoch": 0.5364191657202493,
      "grad_norm": 0.8405765812581163,
      "learning_rate": 9.306622725997247e-06,
      "loss": 0.9064,
      "step": 8738
    },
    {
      "epoch": 0.5364805549587157,
      "grad_norm": 0.9045622218217222,
      "learning_rate": 9.304639175409699e-06,
      "loss": 0.8568,
      "step": 8739
    },
    {
      "epoch": 0.5365419441971823,
      "grad_norm": 0.9042478167931617,
      "learning_rate": 9.30265565231348e-06,
      "loss": 0.8365,
      "step": 8740
    },
    {
      "epoch": 0.5366033334356487,
      "grad_norm": 0.7840983692565722,
      "learning_rate": 9.300672156787014e-06,
      "loss": 0.7999,
      "step": 8741
    },
    {
      "epoch": 0.5366647226741152,
      "grad_norm": 0.788710622480814,
      "learning_rate": 9.298688688908722e-06,
      "loss": 0.8425,
      "step": 8742
    },
    {
      "epoch": 0.5367261119125817,
      "grad_norm": 0.7761045457248685,
      "learning_rate": 9.296705248757013e-06,
      "loss": 0.8448,
      "step": 8743
    },
    {
      "epoch": 0.5367875011510482,
      "grad_norm": 0.7976129316641186,
      "learning_rate": 9.294721836410305e-06,
      "loss": 0.8198,
      "step": 8744
    },
    {
      "epoch": 0.5368488903895147,
      "grad_norm": 0.7716148620927065,
      "learning_rate": 9.292738451947018e-06,
      "loss": 0.8589,
      "step": 8745
    },
    {
      "epoch": 0.5369102796279812,
      "grad_norm": 0.8131689169675841,
      "learning_rate": 9.29075509544556e-06,
      "loss": 0.8313,
      "step": 8746
    },
    {
      "epoch": 0.5369716688664478,
      "grad_norm": 0.7707499936515865,
      "learning_rate": 9.288771766984353e-06,
      "loss": 0.8488,
      "step": 8747
    },
    {
      "epoch": 0.5370330581049142,
      "grad_norm": 0.7560995802692734,
      "learning_rate": 9.286788466641797e-06,
      "loss": 0.781,
      "step": 8748
    },
    {
      "epoch": 0.5370944473433807,
      "grad_norm": 0.8403100354040189,
      "learning_rate": 9.284805194496305e-06,
      "loss": 0.8289,
      "step": 8749
    },
    {
      "epoch": 0.5371558365818472,
      "grad_norm": 0.8649178642695499,
      "learning_rate": 9.282821950626292e-06,
      "loss": 0.8556,
      "step": 8750
    },
    {
      "epoch": 0.5372172258203137,
      "grad_norm": 0.7596609610485691,
      "learning_rate": 9.28083873511016e-06,
      "loss": 0.9083,
      "step": 8751
    },
    {
      "epoch": 0.5372786150587802,
      "grad_norm": 0.8775990854616262,
      "learning_rate": 9.278855548026326e-06,
      "loss": 0.8118,
      "step": 8752
    },
    {
      "epoch": 0.5373400042972467,
      "grad_norm": 0.8608495730497489,
      "learning_rate": 9.276872389453185e-06,
      "loss": 0.8311,
      "step": 8753
    },
    {
      "epoch": 0.5374013935357131,
      "grad_norm": 0.8568130547106589,
      "learning_rate": 9.274889259469146e-06,
      "loss": 0.87,
      "step": 8754
    },
    {
      "epoch": 0.5374627827741797,
      "grad_norm": 0.8048173776435495,
      "learning_rate": 9.272906158152612e-06,
      "loss": 0.8214,
      "step": 8755
    },
    {
      "epoch": 0.5375241720126461,
      "grad_norm": 0.842654657743163,
      "learning_rate": 9.270923085581989e-06,
      "loss": 0.8389,
      "step": 8756
    },
    {
      "epoch": 0.5375855612511127,
      "grad_norm": 0.8278439134443641,
      "learning_rate": 9.268940041835675e-06,
      "loss": 0.8465,
      "step": 8757
    },
    {
      "epoch": 0.5376469504895792,
      "grad_norm": 0.9460493187691899,
      "learning_rate": 9.266957026992067e-06,
      "loss": 0.834,
      "step": 8758
    },
    {
      "epoch": 0.5377083397280457,
      "grad_norm": 0.7500264921193844,
      "learning_rate": 9.264974041129573e-06,
      "loss": 0.819,
      "step": 8759
    },
    {
      "epoch": 0.5377697289665122,
      "grad_norm": 0.8420381016026124,
      "learning_rate": 9.262991084326583e-06,
      "loss": 0.8886,
      "step": 8760
    },
    {
      "epoch": 0.5378311182049786,
      "grad_norm": 0.8059827998827285,
      "learning_rate": 9.2610081566615e-06,
      "loss": 0.8274,
      "step": 8761
    },
    {
      "epoch": 0.5378925074434452,
      "grad_norm": 0.8571367950162339,
      "learning_rate": 9.259025258212718e-06,
      "loss": 0.8367,
      "step": 8762
    },
    {
      "epoch": 0.5379538966819116,
      "grad_norm": 0.8576420391720855,
      "learning_rate": 9.257042389058626e-06,
      "loss": 0.8565,
      "step": 8763
    },
    {
      "epoch": 0.5380152859203782,
      "grad_norm": 0.856749592639198,
      "learning_rate": 9.255059549277624e-06,
      "loss": 0.8085,
      "step": 8764
    },
    {
      "epoch": 0.5380766751588446,
      "grad_norm": 0.7852156981893446,
      "learning_rate": 9.253076738948101e-06,
      "loss": 0.805,
      "step": 8765
    },
    {
      "epoch": 0.5381380643973112,
      "grad_norm": 0.8419442367241494,
      "learning_rate": 9.251093958148457e-06,
      "loss": 0.8242,
      "step": 8766
    },
    {
      "epoch": 0.5381994536357777,
      "grad_norm": 0.8623694617620219,
      "learning_rate": 9.249111206957065e-06,
      "loss": 0.8711,
      "step": 8767
    },
    {
      "epoch": 0.5382608428742441,
      "grad_norm": 0.7194877565342105,
      "learning_rate": 9.247128485452327e-06,
      "loss": 0.8021,
      "step": 8768
    },
    {
      "epoch": 0.5383222321127107,
      "grad_norm": 0.8427572986371413,
      "learning_rate": 9.245145793712625e-06,
      "loss": 0.7899,
      "step": 8769
    },
    {
      "epoch": 0.5383836213511771,
      "grad_norm": 0.873101784416187,
      "learning_rate": 9.243163131816347e-06,
      "loss": 0.8064,
      "step": 8770
    },
    {
      "epoch": 0.5384450105896437,
      "grad_norm": 0.8168540635177224,
      "learning_rate": 9.241180499841882e-06,
      "loss": 0.8232,
      "step": 8771
    },
    {
      "epoch": 0.5385063998281101,
      "grad_norm": 0.8776555950961619,
      "learning_rate": 9.239197897867606e-06,
      "loss": 0.8483,
      "step": 8772
    },
    {
      "epoch": 0.5385677890665767,
      "grad_norm": 0.8686020753869211,
      "learning_rate": 9.237215325971908e-06,
      "loss": 0.756,
      "step": 8773
    },
    {
      "epoch": 0.5386291783050431,
      "grad_norm": 0.8316172845775472,
      "learning_rate": 9.235232784233164e-06,
      "loss": 0.8493,
      "step": 8774
    },
    {
      "epoch": 0.5386905675435096,
      "grad_norm": 0.7673918043770108,
      "learning_rate": 9.233250272729764e-06,
      "loss": 0.8718,
      "step": 8775
    },
    {
      "epoch": 0.5387519567819761,
      "grad_norm": 0.8488818757019612,
      "learning_rate": 9.23126779154008e-06,
      "loss": 0.8077,
      "step": 8776
    },
    {
      "epoch": 0.5388133460204426,
      "grad_norm": 0.9279397093700251,
      "learning_rate": 9.22928534074249e-06,
      "loss": 0.8611,
      "step": 8777
    },
    {
      "epoch": 0.5388747352589092,
      "grad_norm": 0.7922282872111774,
      "learning_rate": 9.227302920415375e-06,
      "loss": 0.8044,
      "step": 8778
    },
    {
      "epoch": 0.5389361244973756,
      "grad_norm": 0.8252449166708353,
      "learning_rate": 9.225320530637104e-06,
      "loss": 0.8279,
      "step": 8779
    },
    {
      "epoch": 0.5389975137358421,
      "grad_norm": 0.7993051934539696,
      "learning_rate": 9.223338171486058e-06,
      "loss": 0.8464,
      "step": 8780
    },
    {
      "epoch": 0.5390589029743086,
      "grad_norm": 0.830959332811738,
      "learning_rate": 9.221355843040611e-06,
      "loss": 0.8081,
      "step": 8781
    },
    {
      "epoch": 0.5391202922127751,
      "grad_norm": 0.7998361809839699,
      "learning_rate": 9.21937354537913e-06,
      "loss": 0.863,
      "step": 8782
    },
    {
      "epoch": 0.5391816814512416,
      "grad_norm": 0.8275806518519485,
      "learning_rate": 9.217391278579986e-06,
      "loss": 0.846,
      "step": 8783
    },
    {
      "epoch": 0.5392430706897081,
      "grad_norm": 0.8098705091909857,
      "learning_rate": 9.215409042721553e-06,
      "loss": 0.8266,
      "step": 8784
    },
    {
      "epoch": 0.5393044599281746,
      "grad_norm": 0.738325917834541,
      "learning_rate": 9.213426837882193e-06,
      "loss": 0.7699,
      "step": 8785
    },
    {
      "epoch": 0.5393658491666411,
      "grad_norm": 0.7648968166890747,
      "learning_rate": 9.211444664140282e-06,
      "loss": 0.8474,
      "step": 8786
    },
    {
      "epoch": 0.5394272384051075,
      "grad_norm": 0.8401641208964047,
      "learning_rate": 9.209462521574178e-06,
      "loss": 0.8121,
      "step": 8787
    },
    {
      "epoch": 0.5394886276435741,
      "grad_norm": 0.8466889034723101,
      "learning_rate": 9.207480410262248e-06,
      "loss": 0.8121,
      "step": 8788
    },
    {
      "epoch": 0.5395500168820406,
      "grad_norm": 0.7742362208395043,
      "learning_rate": 9.205498330282857e-06,
      "loss": 0.7907,
      "step": 8789
    },
    {
      "epoch": 0.5396114061205071,
      "grad_norm": 0.857677390841062,
      "learning_rate": 9.203516281714364e-06,
      "loss": 0.848,
      "step": 8790
    },
    {
      "epoch": 0.5396727953589736,
      "grad_norm": 0.8308867786118221,
      "learning_rate": 9.201534264635137e-06,
      "loss": 0.8325,
      "step": 8791
    },
    {
      "epoch": 0.53973418459744,
      "grad_norm": 0.73851278950327,
      "learning_rate": 9.19955227912353e-06,
      "loss": 0.777,
      "step": 8792
    },
    {
      "epoch": 0.5397955738359066,
      "grad_norm": 0.8259490128880855,
      "learning_rate": 9.197570325257902e-06,
      "loss": 0.8328,
      "step": 8793
    },
    {
      "epoch": 0.539856963074373,
      "grad_norm": 0.8628546693489509,
      "learning_rate": 9.195588403116608e-06,
      "loss": 0.8759,
      "step": 8794
    },
    {
      "epoch": 0.5399183523128396,
      "grad_norm": 0.8599341082018751,
      "learning_rate": 9.193606512778008e-06,
      "loss": 0.8318,
      "step": 8795
    },
    {
      "epoch": 0.539979741551306,
      "grad_norm": 0.8105566341058821,
      "learning_rate": 9.191624654320459e-06,
      "loss": 0.835,
      "step": 8796
    },
    {
      "epoch": 0.5400411307897726,
      "grad_norm": 0.8378601645386476,
      "learning_rate": 9.189642827822307e-06,
      "loss": 0.8202,
      "step": 8797
    },
    {
      "epoch": 0.540102520028239,
      "grad_norm": 0.8588064004594868,
      "learning_rate": 9.187661033361909e-06,
      "loss": 0.8342,
      "step": 8798
    },
    {
      "epoch": 0.5401639092667055,
      "grad_norm": 0.8271577502297395,
      "learning_rate": 9.185679271017614e-06,
      "loss": 0.8247,
      "step": 8799
    },
    {
      "epoch": 0.5402252985051721,
      "grad_norm": 0.7871683175063745,
      "learning_rate": 9.183697540867774e-06,
      "loss": 0.7653,
      "step": 8800
    },
    {
      "epoch": 0.5402866877436385,
      "grad_norm": 0.7981219876172047,
      "learning_rate": 9.181715842990738e-06,
      "loss": 0.7746,
      "step": 8801
    },
    {
      "epoch": 0.5403480769821051,
      "grad_norm": 0.7518102083844579,
      "learning_rate": 9.179734177464847e-06,
      "loss": 0.8296,
      "step": 8802
    },
    {
      "epoch": 0.5404094662205715,
      "grad_norm": 0.8628519405500218,
      "learning_rate": 9.177752544368455e-06,
      "loss": 0.8419,
      "step": 8803
    },
    {
      "epoch": 0.5404708554590381,
      "grad_norm": 0.8098413530962263,
      "learning_rate": 9.175770943779898e-06,
      "loss": 0.8268,
      "step": 8804
    },
    {
      "epoch": 0.5405322446975045,
      "grad_norm": 0.815363965704805,
      "learning_rate": 9.173789375777527e-06,
      "loss": 0.8649,
      "step": 8805
    },
    {
      "epoch": 0.540593633935971,
      "grad_norm": 0.8533650518829086,
      "learning_rate": 9.171807840439683e-06,
      "loss": 0.8227,
      "step": 8806
    },
    {
      "epoch": 0.5406550231744375,
      "grad_norm": 0.8815393336777565,
      "learning_rate": 9.169826337844703e-06,
      "loss": 0.8785,
      "step": 8807
    },
    {
      "epoch": 0.540716412412904,
      "grad_norm": 0.8056986037767818,
      "learning_rate": 9.167844868070926e-06,
      "loss": 0.8604,
      "step": 8808
    },
    {
      "epoch": 0.5407778016513705,
      "grad_norm": 0.7404837799707492,
      "learning_rate": 9.165863431196693e-06,
      "loss": 0.8068,
      "step": 8809
    },
    {
      "epoch": 0.540839190889837,
      "grad_norm": 0.9439593660890611,
      "learning_rate": 9.163882027300339e-06,
      "loss": 0.8632,
      "step": 8810
    },
    {
      "epoch": 0.5409005801283036,
      "grad_norm": 0.7775426655780907,
      "learning_rate": 9.161900656460203e-06,
      "loss": 0.8384,
      "step": 8811
    },
    {
      "epoch": 0.54096196936677,
      "grad_norm": 0.8018020837058012,
      "learning_rate": 9.159919318754616e-06,
      "loss": 0.8096,
      "step": 8812
    },
    {
      "epoch": 0.5410233586052365,
      "grad_norm": 0.7930192780694373,
      "learning_rate": 9.157938014261909e-06,
      "loss": 0.8892,
      "step": 8813
    },
    {
      "epoch": 0.541084747843703,
      "grad_norm": 0.6659249747016311,
      "learning_rate": 9.155956743060417e-06,
      "loss": 0.8185,
      "step": 8814
    },
    {
      "epoch": 0.5411461370821695,
      "grad_norm": 0.7202667863379518,
      "learning_rate": 9.153975505228467e-06,
      "loss": 0.7768,
      "step": 8815
    },
    {
      "epoch": 0.541207526320636,
      "grad_norm": 0.8668905644525005,
      "learning_rate": 9.151994300844395e-06,
      "loss": 0.883,
      "step": 8816
    },
    {
      "epoch": 0.5412689155591025,
      "grad_norm": 0.872096490890682,
      "learning_rate": 9.15001312998652e-06,
      "loss": 0.847,
      "step": 8817
    },
    {
      "epoch": 0.5413303047975689,
      "grad_norm": 0.7509812230109587,
      "learning_rate": 9.148031992733174e-06,
      "loss": 0.8046,
      "step": 8818
    },
    {
      "epoch": 0.5413916940360355,
      "grad_norm": 0.8138500587210653,
      "learning_rate": 9.146050889162679e-06,
      "loss": 0.8067,
      "step": 8819
    },
    {
      "epoch": 0.541453083274502,
      "grad_norm": 0.7633164317303643,
      "learning_rate": 9.144069819353362e-06,
      "loss": 0.7981,
      "step": 8820
    },
    {
      "epoch": 0.5415144725129685,
      "grad_norm": 0.8352578701241835,
      "learning_rate": 9.142088783383541e-06,
      "loss": 0.9024,
      "step": 8821
    },
    {
      "epoch": 0.541575861751435,
      "grad_norm": 0.8006058272016368,
      "learning_rate": 9.140107781331537e-06,
      "loss": 0.853,
      "step": 8822
    },
    {
      "epoch": 0.5416372509899015,
      "grad_norm": 0.781357344299194,
      "learning_rate": 9.138126813275673e-06,
      "loss": 0.8239,
      "step": 8823
    },
    {
      "epoch": 0.541698640228368,
      "grad_norm": 0.7944243342640306,
      "learning_rate": 9.136145879294264e-06,
      "loss": 0.8474,
      "step": 8824
    },
    {
      "epoch": 0.5417600294668344,
      "grad_norm": 0.8000229669825563,
      "learning_rate": 9.134164979465633e-06,
      "loss": 0.8847,
      "step": 8825
    },
    {
      "epoch": 0.541821418705301,
      "grad_norm": 0.8164625750172869,
      "learning_rate": 9.13218411386809e-06,
      "loss": 0.8567,
      "step": 8826
    },
    {
      "epoch": 0.5418828079437674,
      "grad_norm": 0.7417901428007533,
      "learning_rate": 9.130203282579947e-06,
      "loss": 0.8384,
      "step": 8827
    },
    {
      "epoch": 0.541944197182234,
      "grad_norm": 0.7510070731640262,
      "learning_rate": 9.12822248567952e-06,
      "loss": 0.8398,
      "step": 8828
    },
    {
      "epoch": 0.5420055864207004,
      "grad_norm": 0.9039466868379015,
      "learning_rate": 9.126241723245123e-06,
      "loss": 0.8713,
      "step": 8829
    },
    {
      "epoch": 0.542066975659167,
      "grad_norm": 0.8019742461360303,
      "learning_rate": 9.124260995355068e-06,
      "loss": 0.7937,
      "step": 8830
    },
    {
      "epoch": 0.5421283648976335,
      "grad_norm": 0.809002742978914,
      "learning_rate": 9.122280302087654e-06,
      "loss": 0.8647,
      "step": 8831
    },
    {
      "epoch": 0.5421897541360999,
      "grad_norm": 0.8207680662593705,
      "learning_rate": 9.120299643521195e-06,
      "loss": 0.8665,
      "step": 8832
    },
    {
      "epoch": 0.5422511433745665,
      "grad_norm": 0.7234917477253898,
      "learning_rate": 9.118319019733995e-06,
      "loss": 0.7675,
      "step": 8833
    },
    {
      "epoch": 0.5423125326130329,
      "grad_norm": 0.7861386566952129,
      "learning_rate": 9.11633843080436e-06,
      "loss": 0.7977,
      "step": 8834
    },
    {
      "epoch": 0.5423739218514995,
      "grad_norm": 0.7944575487886922,
      "learning_rate": 9.114357876810598e-06,
      "loss": 0.8364,
      "step": 8835
    },
    {
      "epoch": 0.5424353110899659,
      "grad_norm": 0.7835093692780224,
      "learning_rate": 9.112377357831e-06,
      "loss": 0.8519,
      "step": 8836
    },
    {
      "epoch": 0.5424967003284324,
      "grad_norm": 0.8765227761778385,
      "learning_rate": 9.110396873943876e-06,
      "loss": 0.8249,
      "step": 8837
    },
    {
      "epoch": 0.5425580895668989,
      "grad_norm": 0.7802470592529529,
      "learning_rate": 9.108416425227517e-06,
      "loss": 0.8074,
      "step": 8838
    },
    {
      "epoch": 0.5426194788053654,
      "grad_norm": 0.7719818155826433,
      "learning_rate": 9.106436011760229e-06,
      "loss": 0.8135,
      "step": 8839
    },
    {
      "epoch": 0.5426808680438319,
      "grad_norm": 0.8440162734118851,
      "learning_rate": 9.104455633620305e-06,
      "loss": 0.8251,
      "step": 8840
    },
    {
      "epoch": 0.5427422572822984,
      "grad_norm": 0.89506143042581,
      "learning_rate": 9.102475290886037e-06,
      "loss": 0.8009,
      "step": 8841
    },
    {
      "epoch": 0.542803646520765,
      "grad_norm": 0.7568291547633254,
      "learning_rate": 9.100494983635723e-06,
      "loss": 0.7793,
      "step": 8842
    },
    {
      "epoch": 0.5428650357592314,
      "grad_norm": 0.8568203333506313,
      "learning_rate": 9.098514711947651e-06,
      "loss": 0.812,
      "step": 8843
    },
    {
      "epoch": 0.5429264249976979,
      "grad_norm": 0.8458476283988124,
      "learning_rate": 9.096534475900115e-06,
      "loss": 0.8,
      "step": 8844
    },
    {
      "epoch": 0.5429878142361644,
      "grad_norm": 0.8680975808770404,
      "learning_rate": 9.094554275571407e-06,
      "loss": 0.8672,
      "step": 8845
    },
    {
      "epoch": 0.5430492034746309,
      "grad_norm": 0.8157913993619722,
      "learning_rate": 9.092574111039808e-06,
      "loss": 0.8238,
      "step": 8846
    },
    {
      "epoch": 0.5431105927130974,
      "grad_norm": 0.776658709191601,
      "learning_rate": 9.090593982383605e-06,
      "loss": 0.8046,
      "step": 8847
    },
    {
      "epoch": 0.5431719819515639,
      "grad_norm": 0.8502173572879843,
      "learning_rate": 9.088613889681089e-06,
      "loss": 0.8116,
      "step": 8848
    },
    {
      "epoch": 0.5432333711900303,
      "grad_norm": 0.7809903516323151,
      "learning_rate": 9.086633833010538e-06,
      "loss": 0.8509,
      "step": 8849
    },
    {
      "epoch": 0.5432947604284969,
      "grad_norm": 0.780745369352836,
      "learning_rate": 9.08465381245024e-06,
      "loss": 0.8297,
      "step": 8850
    },
    {
      "epoch": 0.5433561496669633,
      "grad_norm": 0.8364645763938817,
      "learning_rate": 9.08267382807847e-06,
      "loss": 0.8287,
      "step": 8851
    },
    {
      "epoch": 0.5434175389054299,
      "grad_norm": 0.9182292109469188,
      "learning_rate": 9.080693879973508e-06,
      "loss": 0.8187,
      "step": 8852
    },
    {
      "epoch": 0.5434789281438964,
      "grad_norm": 0.7814214581278779,
      "learning_rate": 9.078713968213638e-06,
      "loss": 0.8402,
      "step": 8853
    },
    {
      "epoch": 0.5435403173823629,
      "grad_norm": 0.7248962916925374,
      "learning_rate": 9.076734092877129e-06,
      "loss": 0.7595,
      "step": 8854
    },
    {
      "epoch": 0.5436017066208294,
      "grad_norm": 0.7864286543335058,
      "learning_rate": 9.074754254042261e-06,
      "loss": 0.7695,
      "step": 8855
    },
    {
      "epoch": 0.5436630958592958,
      "grad_norm": 0.7441923786956068,
      "learning_rate": 9.072774451787307e-06,
      "loss": 0.768,
      "step": 8856
    },
    {
      "epoch": 0.5437244850977624,
      "grad_norm": 0.9145135571235334,
      "learning_rate": 9.070794686190537e-06,
      "loss": 0.8433,
      "step": 8857
    },
    {
      "epoch": 0.5437858743362288,
      "grad_norm": 0.8243690913255608,
      "learning_rate": 9.06881495733022e-06,
      "loss": 0.8071,
      "step": 8858
    },
    {
      "epoch": 0.5438472635746954,
      "grad_norm": 0.7262812314425452,
      "learning_rate": 9.06683526528463e-06,
      "loss": 0.8135,
      "step": 8859
    },
    {
      "epoch": 0.5439086528131618,
      "grad_norm": 0.8446227507298383,
      "learning_rate": 9.064855610132037e-06,
      "loss": 0.831,
      "step": 8860
    },
    {
      "epoch": 0.5439700420516284,
      "grad_norm": 0.8410575891765576,
      "learning_rate": 9.062875991950697e-06,
      "loss": 0.7973,
      "step": 8861
    },
    {
      "epoch": 0.5440314312900948,
      "grad_norm": 0.8471470305468548,
      "learning_rate": 9.060896410818885e-06,
      "loss": 0.8255,
      "step": 8862
    },
    {
      "epoch": 0.5440928205285613,
      "grad_norm": 0.9325028424695969,
      "learning_rate": 9.058916866814857e-06,
      "loss": 0.8321,
      "step": 8863
    },
    {
      "epoch": 0.5441542097670279,
      "grad_norm": 0.9132163010363998,
      "learning_rate": 9.056937360016881e-06,
      "loss": 0.7955,
      "step": 8864
    },
    {
      "epoch": 0.5442155990054943,
      "grad_norm": 0.7812542316026103,
      "learning_rate": 9.054957890503218e-06,
      "loss": 0.8034,
      "step": 8865
    },
    {
      "epoch": 0.5442769882439609,
      "grad_norm": 0.8206503178072229,
      "learning_rate": 9.05297845835212e-06,
      "loss": 0.8063,
      "step": 8866
    },
    {
      "epoch": 0.5443383774824273,
      "grad_norm": 0.8305713383372639,
      "learning_rate": 9.050999063641848e-06,
      "loss": 0.8095,
      "step": 8867
    },
    {
      "epoch": 0.5443997667208939,
      "grad_norm": 0.8632365362348172,
      "learning_rate": 9.049019706450658e-06,
      "loss": 0.9108,
      "step": 8868
    },
    {
      "epoch": 0.5444611559593603,
      "grad_norm": 0.8285193914641386,
      "learning_rate": 9.047040386856807e-06,
      "loss": 0.8124,
      "step": 8869
    },
    {
      "epoch": 0.5445225451978268,
      "grad_norm": 0.8693051471950015,
      "learning_rate": 9.04506110493855e-06,
      "loss": 0.8377,
      "step": 8870
    },
    {
      "epoch": 0.5445839344362933,
      "grad_norm": 0.8251570314505666,
      "learning_rate": 9.043081860774132e-06,
      "loss": 0.8179,
      "step": 8871
    },
    {
      "epoch": 0.5446453236747598,
      "grad_norm": 0.8408643713204773,
      "learning_rate": 9.041102654441802e-06,
      "loss": 0.8469,
      "step": 8872
    },
    {
      "epoch": 0.5447067129132264,
      "grad_norm": 0.8493031539689214,
      "learning_rate": 9.039123486019817e-06,
      "loss": 0.8273,
      "step": 8873
    },
    {
      "epoch": 0.5447681021516928,
      "grad_norm": 0.7756875417018065,
      "learning_rate": 9.037144355586417e-06,
      "loss": 0.8377,
      "step": 8874
    },
    {
      "epoch": 0.5448294913901593,
      "grad_norm": 0.8245990557004877,
      "learning_rate": 9.035165263219854e-06,
      "loss": 0.7853,
      "step": 8875
    },
    {
      "epoch": 0.5448908806286258,
      "grad_norm": 0.840904206264734,
      "learning_rate": 9.033186208998367e-06,
      "loss": 0.8305,
      "step": 8876
    },
    {
      "epoch": 0.5449522698670923,
      "grad_norm": 0.8508384180715597,
      "learning_rate": 9.031207193000198e-06,
      "loss": 0.7997,
      "step": 8877
    },
    {
      "epoch": 0.5450136591055588,
      "grad_norm": 0.8064341893374111,
      "learning_rate": 9.029228215303591e-06,
      "loss": 0.8162,
      "step": 8878
    },
    {
      "epoch": 0.5450750483440253,
      "grad_norm": 0.7775669049053713,
      "learning_rate": 9.027249275986783e-06,
      "loss": 0.7863,
      "step": 8879
    },
    {
      "epoch": 0.5451364375824918,
      "grad_norm": 0.6341718532849796,
      "learning_rate": 9.025270375128018e-06,
      "loss": 0.6617,
      "step": 8880
    },
    {
      "epoch": 0.5451978268209583,
      "grad_norm": 0.8117774391179665,
      "learning_rate": 9.02329151280553e-06,
      "loss": 0.8366,
      "step": 8881
    },
    {
      "epoch": 0.5452592160594247,
      "grad_norm": 0.9254425058762655,
      "learning_rate": 9.021312689097546e-06,
      "loss": 0.8835,
      "step": 8882
    },
    {
      "epoch": 0.5453206052978913,
      "grad_norm": 0.7732876332880297,
      "learning_rate": 9.019333904082307e-06,
      "loss": 0.8256,
      "step": 8883
    },
    {
      "epoch": 0.5453819945363578,
      "grad_norm": 0.7838356968863462,
      "learning_rate": 9.017355157838049e-06,
      "loss": 0.7685,
      "step": 8884
    },
    {
      "epoch": 0.5454433837748243,
      "grad_norm": 0.7715501546887331,
      "learning_rate": 9.015376450442995e-06,
      "loss": 0.8577,
      "step": 8885
    },
    {
      "epoch": 0.5455047730132908,
      "grad_norm": 0.7997414778905241,
      "learning_rate": 9.013397781975371e-06,
      "loss": 0.8455,
      "step": 8886
    },
    {
      "epoch": 0.5455661622517572,
      "grad_norm": 0.8301519521614392,
      "learning_rate": 9.011419152513414e-06,
      "loss": 0.7661,
      "step": 8887
    },
    {
      "epoch": 0.5456275514902238,
      "grad_norm": 0.8258811030156157,
      "learning_rate": 9.009440562135342e-06,
      "loss": 0.8379,
      "step": 8888
    },
    {
      "epoch": 0.5456889407286902,
      "grad_norm": 0.8366302517143868,
      "learning_rate": 9.007462010919387e-06,
      "loss": 0.8128,
      "step": 8889
    },
    {
      "epoch": 0.5457503299671568,
      "grad_norm": 0.8209190717235351,
      "learning_rate": 9.005483498943764e-06,
      "loss": 0.8646,
      "step": 8890
    },
    {
      "epoch": 0.5458117192056232,
      "grad_norm": 0.7679165273090501,
      "learning_rate": 9.003505026286697e-06,
      "loss": 0.7966,
      "step": 8891
    },
    {
      "epoch": 0.5458731084440898,
      "grad_norm": 0.8694157024041967,
      "learning_rate": 9.001526593026407e-06,
      "loss": 0.8099,
      "step": 8892
    },
    {
      "epoch": 0.5459344976825562,
      "grad_norm": 0.8421929299824027,
      "learning_rate": 8.99954819924111e-06,
      "loss": 0.7912,
      "step": 8893
    },
    {
      "epoch": 0.5459958869210227,
      "grad_norm": 0.8179250441302316,
      "learning_rate": 8.997569845009027e-06,
      "loss": 0.8054,
      "step": 8894
    },
    {
      "epoch": 0.5460572761594893,
      "grad_norm": 0.8241003848664562,
      "learning_rate": 8.995591530408367e-06,
      "loss": 0.7879,
      "step": 8895
    },
    {
      "epoch": 0.5461186653979557,
      "grad_norm": 0.798051747560385,
      "learning_rate": 8.993613255517345e-06,
      "loss": 0.8409,
      "step": 8896
    },
    {
      "epoch": 0.5461800546364223,
      "grad_norm": 0.8236741721982673,
      "learning_rate": 8.991635020414173e-06,
      "loss": 0.8743,
      "step": 8897
    },
    {
      "epoch": 0.5462414438748887,
      "grad_norm": 0.8618491307068364,
      "learning_rate": 8.989656825177062e-06,
      "loss": 0.8387,
      "step": 8898
    },
    {
      "epoch": 0.5463028331133553,
      "grad_norm": 0.7717143697637974,
      "learning_rate": 8.987678669884224e-06,
      "loss": 0.8019,
      "step": 8899
    },
    {
      "epoch": 0.5463642223518217,
      "grad_norm": 0.8834361186602747,
      "learning_rate": 8.98570055461386e-06,
      "loss": 0.8646,
      "step": 8900
    },
    {
      "epoch": 0.5464256115902882,
      "grad_norm": 0.7836295920293034,
      "learning_rate": 8.983722479444176e-06,
      "loss": 0.8252,
      "step": 8901
    },
    {
      "epoch": 0.5464870008287547,
      "grad_norm": 0.8242100323581234,
      "learning_rate": 8.981744444453378e-06,
      "loss": 0.7914,
      "step": 8902
    },
    {
      "epoch": 0.5465483900672212,
      "grad_norm": 0.869038894495724,
      "learning_rate": 8.97976644971967e-06,
      "loss": 0.869,
      "step": 8903
    },
    {
      "epoch": 0.5466097793056877,
      "grad_norm": 0.8624821466564885,
      "learning_rate": 8.977788495321252e-06,
      "loss": 0.8118,
      "step": 8904
    },
    {
      "epoch": 0.5466711685441542,
      "grad_norm": 0.7838759510019688,
      "learning_rate": 8.97581058133632e-06,
      "loss": 0.8392,
      "step": 8905
    },
    {
      "epoch": 0.5467325577826208,
      "grad_norm": 0.8065471374245969,
      "learning_rate": 8.973832707843074e-06,
      "loss": 0.7845,
      "step": 8906
    },
    {
      "epoch": 0.5467939470210872,
      "grad_norm": 0.8370055827218583,
      "learning_rate": 8.971854874919707e-06,
      "loss": 0.8798,
      "step": 8907
    },
    {
      "epoch": 0.5468553362595537,
      "grad_norm": 0.9462075395112882,
      "learning_rate": 8.969877082644418e-06,
      "loss": 0.8079,
      "step": 8908
    },
    {
      "epoch": 0.5469167254980202,
      "grad_norm": 0.9076575694642363,
      "learning_rate": 8.967899331095399e-06,
      "loss": 0.8731,
      "step": 8909
    },
    {
      "epoch": 0.5469781147364867,
      "grad_norm": 0.8433085584564335,
      "learning_rate": 8.96592162035084e-06,
      "loss": 0.8459,
      "step": 8910
    },
    {
      "epoch": 0.5470395039749532,
      "grad_norm": 0.8209343260490025,
      "learning_rate": 8.963943950488925e-06,
      "loss": 0.839,
      "step": 8911
    },
    {
      "epoch": 0.5471008932134197,
      "grad_norm": 0.8631630279852174,
      "learning_rate": 8.961966321587851e-06,
      "loss": 0.8271,
      "step": 8912
    },
    {
      "epoch": 0.5471622824518861,
      "grad_norm": 0.8325412826298247,
      "learning_rate": 8.959988733725797e-06,
      "loss": 0.7919,
      "step": 8913
    },
    {
      "epoch": 0.5472236716903527,
      "grad_norm": 0.79740613977284,
      "learning_rate": 8.958011186980954e-06,
      "loss": 0.8306,
      "step": 8914
    },
    {
      "epoch": 0.5472850609288191,
      "grad_norm": 0.8752979881300691,
      "learning_rate": 8.956033681431501e-06,
      "loss": 0.819,
      "step": 8915
    },
    {
      "epoch": 0.5473464501672857,
      "grad_norm": 0.7511878770245182,
      "learning_rate": 8.954056217155618e-06,
      "loss": 0.8406,
      "step": 8916
    },
    {
      "epoch": 0.5474078394057522,
      "grad_norm": 0.743133183862007,
      "learning_rate": 8.952078794231488e-06,
      "loss": 0.8132,
      "step": 8917
    },
    {
      "epoch": 0.5474692286442187,
      "grad_norm": 0.8496643658173374,
      "learning_rate": 8.950101412737287e-06,
      "loss": 0.8285,
      "step": 8918
    },
    {
      "epoch": 0.5475306178826852,
      "grad_norm": 0.7607792656549102,
      "learning_rate": 8.948124072751195e-06,
      "loss": 0.8203,
      "step": 8919
    },
    {
      "epoch": 0.5475920071211516,
      "grad_norm": 0.8745095146562385,
      "learning_rate": 8.946146774351383e-06,
      "loss": 0.7931,
      "step": 8920
    },
    {
      "epoch": 0.5476533963596182,
      "grad_norm": 0.7839892204236675,
      "learning_rate": 8.944169517616023e-06,
      "loss": 0.8006,
      "step": 8921
    },
    {
      "epoch": 0.5477147855980846,
      "grad_norm": 0.8711195934107759,
      "learning_rate": 8.942192302623292e-06,
      "loss": 0.8403,
      "step": 8922
    },
    {
      "epoch": 0.5477761748365512,
      "grad_norm": 0.7842296651717646,
      "learning_rate": 8.940215129451356e-06,
      "loss": 0.8291,
      "step": 8923
    },
    {
      "epoch": 0.5478375640750176,
      "grad_norm": 0.8195251685264063,
      "learning_rate": 8.938237998178387e-06,
      "loss": 0.859,
      "step": 8924
    },
    {
      "epoch": 0.5478989533134841,
      "grad_norm": 0.8044941098537705,
      "learning_rate": 8.936260908882544e-06,
      "loss": 0.8614,
      "step": 8925
    },
    {
      "epoch": 0.5479603425519507,
      "grad_norm": 0.8227464546667014,
      "learning_rate": 8.934283861641998e-06,
      "loss": 0.8446,
      "step": 8926
    },
    {
      "epoch": 0.5480217317904171,
      "grad_norm": 0.8136632216044305,
      "learning_rate": 8.93230685653491e-06,
      "loss": 0.755,
      "step": 8927
    },
    {
      "epoch": 0.5480831210288837,
      "grad_norm": 0.8441077698805538,
      "learning_rate": 8.930329893639444e-06,
      "loss": 0.8694,
      "step": 8928
    },
    {
      "epoch": 0.5481445102673501,
      "grad_norm": 0.8107745919460663,
      "learning_rate": 8.92835297303376e-06,
      "loss": 0.817,
      "step": 8929
    },
    {
      "epoch": 0.5482058995058167,
      "grad_norm": 0.7825391431167006,
      "learning_rate": 8.92637609479601e-06,
      "loss": 0.7822,
      "step": 8930
    },
    {
      "epoch": 0.5482672887442831,
      "grad_norm": 0.7358991595518923,
      "learning_rate": 8.924399259004357e-06,
      "loss": 0.8483,
      "step": 8931
    },
    {
      "epoch": 0.5483286779827496,
      "grad_norm": 0.8253292253251051,
      "learning_rate": 8.922422465736953e-06,
      "loss": 0.8585,
      "step": 8932
    },
    {
      "epoch": 0.5483900672212161,
      "grad_norm": 0.8205760850203289,
      "learning_rate": 8.920445715071953e-06,
      "loss": 0.8618,
      "step": 8933
    },
    {
      "epoch": 0.5484514564596826,
      "grad_norm": 0.8108921605185492,
      "learning_rate": 8.91846900708751e-06,
      "loss": 0.8586,
      "step": 8934
    },
    {
      "epoch": 0.5485128456981491,
      "grad_norm": 0.78881531606204,
      "learning_rate": 8.916492341861772e-06,
      "loss": 0.7686,
      "step": 8935
    },
    {
      "epoch": 0.5485742349366156,
      "grad_norm": 0.5986534059222294,
      "learning_rate": 8.914515719472882e-06,
      "loss": 0.6756,
      "step": 8936
    },
    {
      "epoch": 0.5486356241750822,
      "grad_norm": 0.7991085333294909,
      "learning_rate": 8.912539139998994e-06,
      "loss": 0.7872,
      "step": 8937
    },
    {
      "epoch": 0.5486970134135486,
      "grad_norm": 0.7656701477735613,
      "learning_rate": 8.91056260351825e-06,
      "loss": 0.8074,
      "step": 8938
    },
    {
      "epoch": 0.5487584026520151,
      "grad_norm": 0.7726068558317315,
      "learning_rate": 8.908586110108794e-06,
      "loss": 0.8484,
      "step": 8939
    },
    {
      "epoch": 0.5488197918904816,
      "grad_norm": 0.8328504171462293,
      "learning_rate": 8.906609659848766e-06,
      "loss": 0.8269,
      "step": 8940
    },
    {
      "epoch": 0.5488811811289481,
      "grad_norm": 0.7444507330977616,
      "learning_rate": 8.904633252816302e-06,
      "loss": 0.8311,
      "step": 8941
    },
    {
      "epoch": 0.5489425703674146,
      "grad_norm": 0.8416810477661198,
      "learning_rate": 8.902656889089548e-06,
      "loss": 0.8333,
      "step": 8942
    },
    {
      "epoch": 0.5490039596058811,
      "grad_norm": 0.8484836881399123,
      "learning_rate": 8.900680568746633e-06,
      "loss": 0.8116,
      "step": 8943
    },
    {
      "epoch": 0.5490653488443475,
      "grad_norm": 0.7766564800606028,
      "learning_rate": 8.898704291865701e-06,
      "loss": 0.8499,
      "step": 8944
    },
    {
      "epoch": 0.5491267380828141,
      "grad_norm": 0.8272008869774126,
      "learning_rate": 8.896728058524873e-06,
      "loss": 0.8316,
      "step": 8945
    },
    {
      "epoch": 0.5491881273212805,
      "grad_norm": 0.7154420149605639,
      "learning_rate": 8.894751868802286e-06,
      "loss": 0.7908,
      "step": 8946
    },
    {
      "epoch": 0.5492495165597471,
      "grad_norm": 0.766683092707077,
      "learning_rate": 8.89277572277607e-06,
      "loss": 0.8068,
      "step": 8947
    },
    {
      "epoch": 0.5493109057982136,
      "grad_norm": 0.9214529022494622,
      "learning_rate": 8.89079962052435e-06,
      "loss": 0.8783,
      "step": 8948
    },
    {
      "epoch": 0.5493722950366801,
      "grad_norm": 0.8279965427918404,
      "learning_rate": 8.88882356212526e-06,
      "loss": 0.8639,
      "step": 8949
    },
    {
      "epoch": 0.5494336842751466,
      "grad_norm": 0.90161168413021,
      "learning_rate": 8.88684754765691e-06,
      "loss": 0.8556,
      "step": 8950
    },
    {
      "epoch": 0.549495073513613,
      "grad_norm": 0.6865906022853794,
      "learning_rate": 8.884871577197433e-06,
      "loss": 0.8587,
      "step": 8951
    },
    {
      "epoch": 0.5495564627520796,
      "grad_norm": 0.8532423939899121,
      "learning_rate": 8.882895650824943e-06,
      "loss": 0.8052,
      "step": 8952
    },
    {
      "epoch": 0.549617851990546,
      "grad_norm": 0.8844921647075825,
      "learning_rate": 8.88091976861757e-06,
      "loss": 0.8043,
      "step": 8953
    },
    {
      "epoch": 0.5496792412290126,
      "grad_norm": 0.841381663459697,
      "learning_rate": 8.87894393065342e-06,
      "loss": 0.8221,
      "step": 8954
    },
    {
      "epoch": 0.549740630467479,
      "grad_norm": 0.8200902577954632,
      "learning_rate": 8.87696813701061e-06,
      "loss": 0.8249,
      "step": 8955
    },
    {
      "epoch": 0.5498020197059456,
      "grad_norm": 0.8506545776922783,
      "learning_rate": 8.874992387767257e-06,
      "loss": 0.8562,
      "step": 8956
    },
    {
      "epoch": 0.549863408944412,
      "grad_norm": 0.7874292724983233,
      "learning_rate": 8.873016683001471e-06,
      "loss": 0.8433,
      "step": 8957
    },
    {
      "epoch": 0.5499247981828785,
      "grad_norm": 0.8142869147087446,
      "learning_rate": 8.871041022791367e-06,
      "loss": 0.8204,
      "step": 8958
    },
    {
      "epoch": 0.5499861874213451,
      "grad_norm": 0.6447425435635128,
      "learning_rate": 8.869065407215047e-06,
      "loss": 0.7162,
      "step": 8959
    },
    {
      "epoch": 0.5500475766598115,
      "grad_norm": 0.8971201472922824,
      "learning_rate": 8.86708983635062e-06,
      "loss": 0.8666,
      "step": 8960
    },
    {
      "epoch": 0.5501089658982781,
      "grad_norm": 0.8488228789718644,
      "learning_rate": 8.86511431027619e-06,
      "loss": 0.8445,
      "step": 8961
    },
    {
      "epoch": 0.5501703551367445,
      "grad_norm": 0.8849313345106379,
      "learning_rate": 8.863138829069864e-06,
      "loss": 0.879,
      "step": 8962
    },
    {
      "epoch": 0.550231744375211,
      "grad_norm": 0.8007135042004933,
      "learning_rate": 8.86116339280974e-06,
      "loss": 0.8765,
      "step": 8963
    },
    {
      "epoch": 0.5502931336136775,
      "grad_norm": 0.8686803985514931,
      "learning_rate": 8.859188001573916e-06,
      "loss": 0.89,
      "step": 8964
    },
    {
      "epoch": 0.550354522852144,
      "grad_norm": 0.7944509454594493,
      "learning_rate": 8.857212655440493e-06,
      "loss": 0.8107,
      "step": 8965
    },
    {
      "epoch": 0.5504159120906105,
      "grad_norm": 0.8185115101413719,
      "learning_rate": 8.855237354487563e-06,
      "loss": 0.8323,
      "step": 8966
    },
    {
      "epoch": 0.550477301329077,
      "grad_norm": 0.8038905159726529,
      "learning_rate": 8.853262098793227e-06,
      "loss": 0.7889,
      "step": 8967
    },
    {
      "epoch": 0.5505386905675436,
      "grad_norm": 0.822038499769518,
      "learning_rate": 8.851286888435573e-06,
      "loss": 0.8317,
      "step": 8968
    },
    {
      "epoch": 0.55060007980601,
      "grad_norm": 0.8204895898042164,
      "learning_rate": 8.849311723492689e-06,
      "loss": 0.8524,
      "step": 8969
    },
    {
      "epoch": 0.5506614690444765,
      "grad_norm": 0.8302859162238441,
      "learning_rate": 8.847336604042669e-06,
      "loss": 0.8068,
      "step": 8970
    },
    {
      "epoch": 0.550722858282943,
      "grad_norm": 0.8476709802262608,
      "learning_rate": 8.845361530163597e-06,
      "loss": 0.8601,
      "step": 8971
    },
    {
      "epoch": 0.5507842475214095,
      "grad_norm": 0.794418591674026,
      "learning_rate": 8.84338650193356e-06,
      "loss": 0.8158,
      "step": 8972
    },
    {
      "epoch": 0.550845636759876,
      "grad_norm": 0.9039760847696623,
      "learning_rate": 8.841411519430642e-06,
      "loss": 0.838,
      "step": 8973
    },
    {
      "epoch": 0.5509070259983425,
      "grad_norm": 0.9055160623018829,
      "learning_rate": 8.839436582732922e-06,
      "loss": 0.8597,
      "step": 8974
    },
    {
      "epoch": 0.550968415236809,
      "grad_norm": 0.8784556501728015,
      "learning_rate": 8.837461691918478e-06,
      "loss": 0.8559,
      "step": 8975
    },
    {
      "epoch": 0.5510298044752755,
      "grad_norm": 0.8570052346136944,
      "learning_rate": 8.835486847065396e-06,
      "loss": 0.8244,
      "step": 8976
    },
    {
      "epoch": 0.5510911937137419,
      "grad_norm": 0.8115027039412634,
      "learning_rate": 8.833512048251742e-06,
      "loss": 0.8369,
      "step": 8977
    },
    {
      "epoch": 0.5511525829522085,
      "grad_norm": 0.8201696356529152,
      "learning_rate": 8.8315372955556e-06,
      "loss": 0.822,
      "step": 8978
    },
    {
      "epoch": 0.551213972190675,
      "grad_norm": 0.9062894352238864,
      "learning_rate": 8.829562589055037e-06,
      "loss": 0.8262,
      "step": 8979
    },
    {
      "epoch": 0.5512753614291415,
      "grad_norm": 0.897861594708466,
      "learning_rate": 8.827587928828123e-06,
      "loss": 0.7914,
      "step": 8980
    },
    {
      "epoch": 0.551336750667608,
      "grad_norm": 0.840205258216971,
      "learning_rate": 8.82561331495293e-06,
      "loss": 0.8112,
      "step": 8981
    },
    {
      "epoch": 0.5513981399060744,
      "grad_norm": 0.7539523261825885,
      "learning_rate": 8.823638747507523e-06,
      "loss": 0.7717,
      "step": 8982
    },
    {
      "epoch": 0.551459529144541,
      "grad_norm": 0.8157727018354178,
      "learning_rate": 8.82166422656997e-06,
      "loss": 0.8252,
      "step": 8983
    },
    {
      "epoch": 0.5515209183830074,
      "grad_norm": 0.8083269882087336,
      "learning_rate": 8.819689752218332e-06,
      "loss": 0.8488,
      "step": 8984
    },
    {
      "epoch": 0.551582307621474,
      "grad_norm": 0.7795618436290636,
      "learning_rate": 8.817715324530667e-06,
      "loss": 0.8004,
      "step": 8985
    },
    {
      "epoch": 0.5516436968599404,
      "grad_norm": 0.9136490778669477,
      "learning_rate": 8.815740943585042e-06,
      "loss": 0.8469,
      "step": 8986
    },
    {
      "epoch": 0.551705086098407,
      "grad_norm": 0.63691805576282,
      "learning_rate": 8.813766609459508e-06,
      "loss": 0.6457,
      "step": 8987
    },
    {
      "epoch": 0.5517664753368734,
      "grad_norm": 0.8436782833411215,
      "learning_rate": 8.811792322232132e-06,
      "loss": 0.8223,
      "step": 8988
    },
    {
      "epoch": 0.5518278645753399,
      "grad_norm": 0.787236285928035,
      "learning_rate": 8.809818081980954e-06,
      "loss": 0.8139,
      "step": 8989
    },
    {
      "epoch": 0.5518892538138065,
      "grad_norm": 0.7887881901708677,
      "learning_rate": 8.807843888784035e-06,
      "loss": 0.7925,
      "step": 8990
    },
    {
      "epoch": 0.5519506430522729,
      "grad_norm": 0.8115526450130119,
      "learning_rate": 8.80586974271942e-06,
      "loss": 0.872,
      "step": 8991
    },
    {
      "epoch": 0.5520120322907395,
      "grad_norm": 0.8996266879111375,
      "learning_rate": 8.803895643865163e-06,
      "loss": 0.8107,
      "step": 8992
    },
    {
      "epoch": 0.5520734215292059,
      "grad_norm": 0.8422967060483963,
      "learning_rate": 8.801921592299312e-06,
      "loss": 0.791,
      "step": 8993
    },
    {
      "epoch": 0.5521348107676725,
      "grad_norm": 0.8211918601260807,
      "learning_rate": 8.799947588099902e-06,
      "loss": 0.8332,
      "step": 8994
    },
    {
      "epoch": 0.5521962000061389,
      "grad_norm": 0.8124268474224013,
      "learning_rate": 8.797973631344986e-06,
      "loss": 0.8124,
      "step": 8995
    },
    {
      "epoch": 0.5522575892446054,
      "grad_norm": 0.7737842546748479,
      "learning_rate": 8.795999722112598e-06,
      "loss": 0.8095,
      "step": 8996
    },
    {
      "epoch": 0.5523189784830719,
      "grad_norm": 0.8008490177345812,
      "learning_rate": 8.794025860480782e-06,
      "loss": 0.8535,
      "step": 8997
    },
    {
      "epoch": 0.5523803677215384,
      "grad_norm": 0.8288468596371392,
      "learning_rate": 8.792052046527578e-06,
      "loss": 0.8681,
      "step": 8998
    },
    {
      "epoch": 0.5524417569600049,
      "grad_norm": 0.8263780325946155,
      "learning_rate": 8.790078280331011e-06,
      "loss": 0.845,
      "step": 8999
    },
    {
      "epoch": 0.5525031461984714,
      "grad_norm": 0.798966674934247,
      "learning_rate": 8.788104561969124e-06,
      "loss": 0.8328,
      "step": 9000
    },
    {
      "epoch": 0.552564535436938,
      "grad_norm": 0.8121772998891701,
      "learning_rate": 8.786130891519945e-06,
      "loss": 0.841,
      "step": 9001
    },
    {
      "epoch": 0.5526259246754044,
      "grad_norm": 0.7574667016571636,
      "learning_rate": 8.784157269061502e-06,
      "loss": 0.8216,
      "step": 9002
    },
    {
      "epoch": 0.5526873139138709,
      "grad_norm": 0.7346879289072066,
      "learning_rate": 8.78218369467183e-06,
      "loss": 0.8285,
      "step": 9003
    },
    {
      "epoch": 0.5527487031523374,
      "grad_norm": 0.8825857702078134,
      "learning_rate": 8.780210168428946e-06,
      "loss": 0.8218,
      "step": 9004
    },
    {
      "epoch": 0.5528100923908039,
      "grad_norm": 0.7968197915556894,
      "learning_rate": 8.778236690410877e-06,
      "loss": 0.8991,
      "step": 9005
    },
    {
      "epoch": 0.5528714816292704,
      "grad_norm": 0.8499101003937427,
      "learning_rate": 8.776263260695646e-06,
      "loss": 0.8213,
      "step": 9006
    },
    {
      "epoch": 0.5529328708677369,
      "grad_norm": 0.8948698762797446,
      "learning_rate": 8.774289879361274e-06,
      "loss": 0.8296,
      "step": 9007
    },
    {
      "epoch": 0.5529942601062033,
      "grad_norm": 0.8013663817637668,
      "learning_rate": 8.772316546485782e-06,
      "loss": 0.7977,
      "step": 9008
    },
    {
      "epoch": 0.5530556493446699,
      "grad_norm": 0.857963466367716,
      "learning_rate": 8.77034326214718e-06,
      "loss": 0.8012,
      "step": 9009
    },
    {
      "epoch": 0.5531170385831363,
      "grad_norm": 0.7987716397833317,
      "learning_rate": 8.768370026423484e-06,
      "loss": 0.8246,
      "step": 9010
    },
    {
      "epoch": 0.5531784278216029,
      "grad_norm": 0.9017440656660654,
      "learning_rate": 8.76639683939271e-06,
      "loss": 0.832,
      "step": 9011
    },
    {
      "epoch": 0.5532398170600694,
      "grad_norm": 0.8561718429365947,
      "learning_rate": 8.764423701132865e-06,
      "loss": 0.831,
      "step": 9012
    },
    {
      "epoch": 0.5533012062985359,
      "grad_norm": 0.816960781113737,
      "learning_rate": 8.762450611721966e-06,
      "loss": 0.8167,
      "step": 9013
    },
    {
      "epoch": 0.5533625955370024,
      "grad_norm": 0.6953761224250632,
      "learning_rate": 8.760477571238006e-06,
      "loss": 0.7323,
      "step": 9014
    },
    {
      "epoch": 0.5534239847754688,
      "grad_norm": 0.8579617327251585,
      "learning_rate": 8.758504579759e-06,
      "loss": 0.8415,
      "step": 9015
    },
    {
      "epoch": 0.5534853740139354,
      "grad_norm": 0.6746007175270803,
      "learning_rate": 8.756531637362946e-06,
      "loss": 0.7172,
      "step": 9016
    },
    {
      "epoch": 0.5535467632524018,
      "grad_norm": 0.8768504243906355,
      "learning_rate": 8.75455874412785e-06,
      "loss": 0.8188,
      "step": 9017
    },
    {
      "epoch": 0.5536081524908684,
      "grad_norm": 0.8398985949925768,
      "learning_rate": 8.752585900131707e-06,
      "loss": 0.798,
      "step": 9018
    },
    {
      "epoch": 0.5536695417293348,
      "grad_norm": 0.8432400256432948,
      "learning_rate": 8.750613105452513e-06,
      "loss": 0.8144,
      "step": 9019
    },
    {
      "epoch": 0.5537309309678013,
      "grad_norm": 0.7757078607284852,
      "learning_rate": 8.748640360168268e-06,
      "loss": 0.8202,
      "step": 9020
    },
    {
      "epoch": 0.5537923202062679,
      "grad_norm": 0.8086465279257173,
      "learning_rate": 8.746667664356957e-06,
      "loss": 0.8134,
      "step": 9021
    },
    {
      "epoch": 0.5538537094447343,
      "grad_norm": 0.8459554431884352,
      "learning_rate": 8.744695018096584e-06,
      "loss": 0.8569,
      "step": 9022
    },
    {
      "epoch": 0.5539150986832009,
      "grad_norm": 0.7889186182166147,
      "learning_rate": 8.742722421465126e-06,
      "loss": 0.8107,
      "step": 9023
    },
    {
      "epoch": 0.5539764879216673,
      "grad_norm": 0.8654052045985551,
      "learning_rate": 8.740749874540574e-06,
      "loss": 0.796,
      "step": 9024
    },
    {
      "epoch": 0.5540378771601339,
      "grad_norm": 0.8825812403462853,
      "learning_rate": 8.738777377400917e-06,
      "loss": 0.8954,
      "step": 9025
    },
    {
      "epoch": 0.5540992663986003,
      "grad_norm": 0.9387371491340664,
      "learning_rate": 8.736804930124133e-06,
      "loss": 0.8561,
      "step": 9026
    },
    {
      "epoch": 0.5541606556370668,
      "grad_norm": 0.9594497207394614,
      "learning_rate": 8.734832532788214e-06,
      "loss": 0.8538,
      "step": 9027
    },
    {
      "epoch": 0.5542220448755333,
      "grad_norm": 0.8096528976239754,
      "learning_rate": 8.732860185471123e-06,
      "loss": 0.8167,
      "step": 9028
    },
    {
      "epoch": 0.5542834341139998,
      "grad_norm": 0.766079477434021,
      "learning_rate": 8.73088788825085e-06,
      "loss": 0.8272,
      "step": 9029
    },
    {
      "epoch": 0.5543448233524663,
      "grad_norm": 0.8188736035299414,
      "learning_rate": 8.728915641205364e-06,
      "loss": 0.8245,
      "step": 9030
    },
    {
      "epoch": 0.5544062125909328,
      "grad_norm": 0.8255388788089529,
      "learning_rate": 8.726943444412641e-06,
      "loss": 0.8467,
      "step": 9031
    },
    {
      "epoch": 0.5544676018293994,
      "grad_norm": 0.819338386903568,
      "learning_rate": 8.724971297950657e-06,
      "loss": 0.7991,
      "step": 9032
    },
    {
      "epoch": 0.5545289910678658,
      "grad_norm": 0.8565865024135958,
      "learning_rate": 8.722999201897372e-06,
      "loss": 0.8044,
      "step": 9033
    },
    {
      "epoch": 0.5545903803063323,
      "grad_norm": 0.8666062222483478,
      "learning_rate": 8.72102715633076e-06,
      "loss": 0.8203,
      "step": 9034
    },
    {
      "epoch": 0.5546517695447988,
      "grad_norm": 0.8409616742626767,
      "learning_rate": 8.719055161328783e-06,
      "loss": 0.7912,
      "step": 9035
    },
    {
      "epoch": 0.5547131587832653,
      "grad_norm": 0.7810523519737564,
      "learning_rate": 8.717083216969409e-06,
      "loss": 0.8214,
      "step": 9036
    },
    {
      "epoch": 0.5547745480217318,
      "grad_norm": 0.7664012054776056,
      "learning_rate": 8.715111323330598e-06,
      "loss": 0.8496,
      "step": 9037
    },
    {
      "epoch": 0.5548359372601983,
      "grad_norm": 0.7822163682181182,
      "learning_rate": 8.713139480490306e-06,
      "loss": 0.7573,
      "step": 9038
    },
    {
      "epoch": 0.5548973264986647,
      "grad_norm": 0.7404884843449034,
      "learning_rate": 8.711167688526495e-06,
      "loss": 0.8452,
      "step": 9039
    },
    {
      "epoch": 0.5549587157371313,
      "grad_norm": 0.8237346325187603,
      "learning_rate": 8.709195947517117e-06,
      "loss": 0.8575,
      "step": 9040
    },
    {
      "epoch": 0.5550201049755977,
      "grad_norm": 0.7920198937556332,
      "learning_rate": 8.707224257540126e-06,
      "loss": 0.7713,
      "step": 9041
    },
    {
      "epoch": 0.5550814942140643,
      "grad_norm": 0.764113097329438,
      "learning_rate": 8.705252618673476e-06,
      "loss": 0.8085,
      "step": 9042
    },
    {
      "epoch": 0.5551428834525308,
      "grad_norm": 0.7858619376531314,
      "learning_rate": 8.703281030995116e-06,
      "loss": 0.8195,
      "step": 9043
    },
    {
      "epoch": 0.5552042726909973,
      "grad_norm": 0.9152996007711817,
      "learning_rate": 8.701309494582987e-06,
      "loss": 0.879,
      "step": 9044
    },
    {
      "epoch": 0.5552656619294638,
      "grad_norm": 0.8449309812896983,
      "learning_rate": 8.699338009515045e-06,
      "loss": 0.8093,
      "step": 9045
    },
    {
      "epoch": 0.5553270511679302,
      "grad_norm": 0.8802180304202375,
      "learning_rate": 8.697366575869223e-06,
      "loss": 0.856,
      "step": 9046
    },
    {
      "epoch": 0.5553884404063968,
      "grad_norm": 0.9128694136284555,
      "learning_rate": 8.695395193723473e-06,
      "loss": 0.8855,
      "step": 9047
    },
    {
      "epoch": 0.5554498296448632,
      "grad_norm": 0.8831011658982536,
      "learning_rate": 8.693423863155726e-06,
      "loss": 0.8534,
      "step": 9048
    },
    {
      "epoch": 0.5555112188833298,
      "grad_norm": 0.7768113554125542,
      "learning_rate": 8.69145258424392e-06,
      "loss": 0.8473,
      "step": 9049
    },
    {
      "epoch": 0.5555726081217962,
      "grad_norm": 0.8887882525178666,
      "learning_rate": 8.689481357065994e-06,
      "loss": 0.8146,
      "step": 9050
    },
    {
      "epoch": 0.5556339973602628,
      "grad_norm": 0.7307882828285784,
      "learning_rate": 8.687510181699877e-06,
      "loss": 0.813,
      "step": 9051
    },
    {
      "epoch": 0.5556953865987292,
      "grad_norm": 0.7927657296044164,
      "learning_rate": 8.685539058223508e-06,
      "loss": 0.7841,
      "step": 9052
    },
    {
      "epoch": 0.5557567758371957,
      "grad_norm": 0.8019603247563503,
      "learning_rate": 8.683567986714803e-06,
      "loss": 0.8019,
      "step": 9053
    },
    {
      "epoch": 0.5558181650756623,
      "grad_norm": 0.8409430081034941,
      "learning_rate": 8.6815969672517e-06,
      "loss": 0.8185,
      "step": 9054
    },
    {
      "epoch": 0.5558795543141287,
      "grad_norm": 0.8120627441896963,
      "learning_rate": 8.679625999912119e-06,
      "loss": 0.7988,
      "step": 9055
    },
    {
      "epoch": 0.5559409435525953,
      "grad_norm": 0.7926287903533464,
      "learning_rate": 8.677655084773983e-06,
      "loss": 0.8077,
      "step": 9056
    },
    {
      "epoch": 0.5560023327910617,
      "grad_norm": 0.771575619046475,
      "learning_rate": 8.675684221915219e-06,
      "loss": 0.8421,
      "step": 9057
    },
    {
      "epoch": 0.5560637220295283,
      "grad_norm": 0.8598087628408696,
      "learning_rate": 8.673713411413735e-06,
      "loss": 0.8599,
      "step": 9058
    },
    {
      "epoch": 0.5561251112679947,
      "grad_norm": 0.941236174239578,
      "learning_rate": 8.671742653347456e-06,
      "loss": 0.7939,
      "step": 9059
    },
    {
      "epoch": 0.5561865005064612,
      "grad_norm": 0.8764082108905348,
      "learning_rate": 8.669771947794291e-06,
      "loss": 0.8314,
      "step": 9060
    },
    {
      "epoch": 0.5562478897449277,
      "grad_norm": 0.849146083489923,
      "learning_rate": 8.667801294832158e-06,
      "loss": 0.8279,
      "step": 9061
    },
    {
      "epoch": 0.5563092789833942,
      "grad_norm": 0.8388763128742138,
      "learning_rate": 8.665830694538968e-06,
      "loss": 0.8199,
      "step": 9062
    },
    {
      "epoch": 0.5563706682218607,
      "grad_norm": 0.7698656606663931,
      "learning_rate": 8.66386014699262e-06,
      "loss": 0.7963,
      "step": 9063
    },
    {
      "epoch": 0.5564320574603272,
      "grad_norm": 0.7451628147903171,
      "learning_rate": 8.66188965227103e-06,
      "loss": 0.8315,
      "step": 9064
    },
    {
      "epoch": 0.5564934466987937,
      "grad_norm": 0.8727004977504873,
      "learning_rate": 8.659919210452097e-06,
      "loss": 0.8113,
      "step": 9065
    },
    {
      "epoch": 0.5565548359372602,
      "grad_norm": 0.7582774608139287,
      "learning_rate": 8.657948821613726e-06,
      "loss": 0.8242,
      "step": 9066
    },
    {
      "epoch": 0.5566162251757267,
      "grad_norm": 0.8351862119616915,
      "learning_rate": 8.655978485833819e-06,
      "loss": 0.8437,
      "step": 9067
    },
    {
      "epoch": 0.5566776144141932,
      "grad_norm": 0.9012267049800179,
      "learning_rate": 8.654008203190267e-06,
      "loss": 0.799,
      "step": 9068
    },
    {
      "epoch": 0.5567390036526597,
      "grad_norm": 0.810032887882938,
      "learning_rate": 8.65203797376097e-06,
      "loss": 0.7764,
      "step": 9069
    },
    {
      "epoch": 0.5568003928911262,
      "grad_norm": 0.810647818075856,
      "learning_rate": 8.650067797623822e-06,
      "loss": 0.8148,
      "step": 9070
    },
    {
      "epoch": 0.5568617821295927,
      "grad_norm": 0.8243597638182534,
      "learning_rate": 8.648097674856712e-06,
      "loss": 0.8245,
      "step": 9071
    },
    {
      "epoch": 0.5569231713680591,
      "grad_norm": 0.7887110613723638,
      "learning_rate": 8.646127605537536e-06,
      "loss": 0.8291,
      "step": 9072
    },
    {
      "epoch": 0.5569845606065257,
      "grad_norm": 0.8302945041811679,
      "learning_rate": 8.644157589744174e-06,
      "loss": 0.8246,
      "step": 9073
    },
    {
      "epoch": 0.5570459498449922,
      "grad_norm": 0.7423993543327275,
      "learning_rate": 8.64218762755451e-06,
      "loss": 0.7834,
      "step": 9074
    },
    {
      "epoch": 0.5571073390834587,
      "grad_norm": 0.8840655293307043,
      "learning_rate": 8.640217719046437e-06,
      "loss": 0.8508,
      "step": 9075
    },
    {
      "epoch": 0.5571687283219252,
      "grad_norm": 0.8351604395932657,
      "learning_rate": 8.638247864297827e-06,
      "loss": 0.8316,
      "step": 9076
    },
    {
      "epoch": 0.5572301175603916,
      "grad_norm": 0.8730692464640221,
      "learning_rate": 8.636278063386566e-06,
      "loss": 0.8033,
      "step": 9077
    },
    {
      "epoch": 0.5572915067988582,
      "grad_norm": 0.9205563796912288,
      "learning_rate": 8.634308316390523e-06,
      "loss": 0.8842,
      "step": 9078
    },
    {
      "epoch": 0.5573528960373246,
      "grad_norm": 0.7618127899300797,
      "learning_rate": 8.632338623387576e-06,
      "loss": 0.7845,
      "step": 9079
    },
    {
      "epoch": 0.5574142852757912,
      "grad_norm": 0.8257775719403989,
      "learning_rate": 8.6303689844556e-06,
      "loss": 0.846,
      "step": 9080
    },
    {
      "epoch": 0.5574756745142576,
      "grad_norm": 0.8117799777412424,
      "learning_rate": 8.628399399672465e-06,
      "loss": 0.8301,
      "step": 9081
    },
    {
      "epoch": 0.5575370637527242,
      "grad_norm": 0.8273166738202843,
      "learning_rate": 8.626429869116035e-06,
      "loss": 0.7961,
      "step": 9082
    },
    {
      "epoch": 0.5575984529911906,
      "grad_norm": 0.7570053108089265,
      "learning_rate": 8.624460392864178e-06,
      "loss": 0.8512,
      "step": 9083
    },
    {
      "epoch": 0.5576598422296571,
      "grad_norm": 0.8209058255929792,
      "learning_rate": 8.62249097099476e-06,
      "loss": 0.8115,
      "step": 9084
    },
    {
      "epoch": 0.5577212314681237,
      "grad_norm": 0.8550675184331313,
      "learning_rate": 8.620521603585638e-06,
      "loss": 0.8287,
      "step": 9085
    },
    {
      "epoch": 0.5577826207065901,
      "grad_norm": 0.8672852669049058,
      "learning_rate": 8.618552290714682e-06,
      "loss": 0.8137,
      "step": 9086
    },
    {
      "epoch": 0.5578440099450567,
      "grad_norm": 0.8188897954404564,
      "learning_rate": 8.616583032459739e-06,
      "loss": 0.8141,
      "step": 9087
    },
    {
      "epoch": 0.5579053991835231,
      "grad_norm": 0.8601658034708815,
      "learning_rate": 8.614613828898666e-06,
      "loss": 0.9374,
      "step": 9088
    },
    {
      "epoch": 0.5579667884219897,
      "grad_norm": 0.7853191142850129,
      "learning_rate": 8.61264468010932e-06,
      "loss": 0.7579,
      "step": 9089
    },
    {
      "epoch": 0.5580281776604561,
      "grad_norm": 0.849139751852574,
      "learning_rate": 8.610675586169546e-06,
      "loss": 0.7995,
      "step": 9090
    },
    {
      "epoch": 0.5580895668989226,
      "grad_norm": 0.8106909253754644,
      "learning_rate": 8.608706547157205e-06,
      "loss": 0.7971,
      "step": 9091
    },
    {
      "epoch": 0.5581509561373891,
      "grad_norm": 0.7790430925524789,
      "learning_rate": 8.606737563150127e-06,
      "loss": 0.8316,
      "step": 9092
    },
    {
      "epoch": 0.5582123453758556,
      "grad_norm": 0.9291432924729189,
      "learning_rate": 8.60476863422617e-06,
      "loss": 0.7919,
      "step": 9093
    },
    {
      "epoch": 0.5582737346143221,
      "grad_norm": 0.9096618049209357,
      "learning_rate": 8.602799760463167e-06,
      "loss": 0.7809,
      "step": 9094
    },
    {
      "epoch": 0.5583351238527886,
      "grad_norm": 0.8464553710686257,
      "learning_rate": 8.600830941938963e-06,
      "loss": 0.8411,
      "step": 9095
    },
    {
      "epoch": 0.5583965130912552,
      "grad_norm": 0.8844618706923257,
      "learning_rate": 8.5988621787314e-06,
      "loss": 0.8097,
      "step": 9096
    },
    {
      "epoch": 0.5584579023297216,
      "grad_norm": 0.7820144647349473,
      "learning_rate": 8.596893470918304e-06,
      "loss": 0.8115,
      "step": 9097
    },
    {
      "epoch": 0.5585192915681881,
      "grad_norm": 0.8145025621597357,
      "learning_rate": 8.594924818577514e-06,
      "loss": 0.7787,
      "step": 9098
    },
    {
      "epoch": 0.5585806808066546,
      "grad_norm": 0.806567903787521,
      "learning_rate": 8.59295622178686e-06,
      "loss": 0.8393,
      "step": 9099
    },
    {
      "epoch": 0.5586420700451211,
      "grad_norm": 0.8323357613551348,
      "learning_rate": 8.590987680624174e-06,
      "loss": 0.807,
      "step": 9100
    },
    {
      "epoch": 0.5587034592835876,
      "grad_norm": 0.9124329772116492,
      "learning_rate": 8.589019195167283e-06,
      "loss": 0.8344,
      "step": 9101
    },
    {
      "epoch": 0.5587648485220541,
      "grad_norm": 0.8939668363344553,
      "learning_rate": 8.587050765494004e-06,
      "loss": 0.8364,
      "step": 9102
    },
    {
      "epoch": 0.5588262377605205,
      "grad_norm": 0.7649115850567179,
      "learning_rate": 8.58508239168217e-06,
      "loss": 0.8088,
      "step": 9103
    },
    {
      "epoch": 0.5588876269989871,
      "grad_norm": 0.8129891665806658,
      "learning_rate": 8.583114073809595e-06,
      "loss": 0.7992,
      "step": 9104
    },
    {
      "epoch": 0.5589490162374535,
      "grad_norm": 0.8843609667317953,
      "learning_rate": 8.581145811954097e-06,
      "loss": 0.865,
      "step": 9105
    },
    {
      "epoch": 0.5590104054759201,
      "grad_norm": 0.8497901199454359,
      "learning_rate": 8.579177606193497e-06,
      "loss": 0.8176,
      "step": 9106
    },
    {
      "epoch": 0.5590717947143866,
      "grad_norm": 0.887477598505288,
      "learning_rate": 8.577209456605603e-06,
      "loss": 0.8345,
      "step": 9107
    },
    {
      "epoch": 0.559133183952853,
      "grad_norm": 0.771202645187754,
      "learning_rate": 8.575241363268229e-06,
      "loss": 0.8167,
      "step": 9108
    },
    {
      "epoch": 0.5591945731913196,
      "grad_norm": 0.8169591786977418,
      "learning_rate": 8.573273326259184e-06,
      "loss": 0.792,
      "step": 9109
    },
    {
      "epoch": 0.559255962429786,
      "grad_norm": 0.796590392493047,
      "learning_rate": 8.571305345656274e-06,
      "loss": 0.8101,
      "step": 9110
    },
    {
      "epoch": 0.5593173516682526,
      "grad_norm": 0.6505814924773682,
      "learning_rate": 8.569337421537309e-06,
      "loss": 0.7323,
      "step": 9111
    },
    {
      "epoch": 0.559378740906719,
      "grad_norm": 0.7752980465975476,
      "learning_rate": 8.567369553980085e-06,
      "loss": 0.7744,
      "step": 9112
    },
    {
      "epoch": 0.5594401301451856,
      "grad_norm": 0.8334396082347627,
      "learning_rate": 8.565401743062403e-06,
      "loss": 0.8491,
      "step": 9113
    },
    {
      "epoch": 0.559501519383652,
      "grad_norm": 0.8362213310481453,
      "learning_rate": 8.563433988862064e-06,
      "loss": 0.8101,
      "step": 9114
    },
    {
      "epoch": 0.5595629086221185,
      "grad_norm": 0.8504404970076138,
      "learning_rate": 8.56146629145686e-06,
      "loss": 0.8228,
      "step": 9115
    },
    {
      "epoch": 0.559624297860585,
      "grad_norm": 0.8628197175048331,
      "learning_rate": 8.559498650924597e-06,
      "loss": 0.8238,
      "step": 9116
    },
    {
      "epoch": 0.5596856870990515,
      "grad_norm": 0.7889935753322518,
      "learning_rate": 8.557531067343048e-06,
      "loss": 0.7747,
      "step": 9117
    },
    {
      "epoch": 0.5597470763375181,
      "grad_norm": 0.6422475625181118,
      "learning_rate": 8.555563540790013e-06,
      "loss": 0.6912,
      "step": 9118
    },
    {
      "epoch": 0.5598084655759845,
      "grad_norm": 0.8995765738704946,
      "learning_rate": 8.553596071343276e-06,
      "loss": 0.8407,
      "step": 9119
    },
    {
      "epoch": 0.5598698548144511,
      "grad_norm": 0.8327746513366125,
      "learning_rate": 8.551628659080622e-06,
      "loss": 0.785,
      "step": 9120
    },
    {
      "epoch": 0.5599312440529175,
      "grad_norm": 0.8252505376824085,
      "learning_rate": 8.549661304079838e-06,
      "loss": 0.8488,
      "step": 9121
    },
    {
      "epoch": 0.559992633291384,
      "grad_norm": 0.9342871542550393,
      "learning_rate": 8.547694006418693e-06,
      "loss": 0.8539,
      "step": 9122
    },
    {
      "epoch": 0.5600540225298505,
      "grad_norm": 0.8532543558054545,
      "learning_rate": 8.545726766174975e-06,
      "loss": 0.8026,
      "step": 9123
    },
    {
      "epoch": 0.560115411768317,
      "grad_norm": 0.9066866194108758,
      "learning_rate": 8.543759583426454e-06,
      "loss": 0.8159,
      "step": 9124
    },
    {
      "epoch": 0.5601768010067835,
      "grad_norm": 0.7802845728682143,
      "learning_rate": 8.541792458250906e-06,
      "loss": 0.8357,
      "step": 9125
    },
    {
      "epoch": 0.56023819024525,
      "grad_norm": 0.7476481234786364,
      "learning_rate": 8.539825390726105e-06,
      "loss": 0.8348,
      "step": 9126
    },
    {
      "epoch": 0.5602995794837166,
      "grad_norm": 0.8032836739705129,
      "learning_rate": 8.537858380929809e-06,
      "loss": 0.7826,
      "step": 9127
    },
    {
      "epoch": 0.560360968722183,
      "grad_norm": 0.8541012780657031,
      "learning_rate": 8.535891428939795e-06,
      "loss": 0.8253,
      "step": 9128
    },
    {
      "epoch": 0.5604223579606495,
      "grad_norm": 0.8345136408217008,
      "learning_rate": 8.533924534833822e-06,
      "loss": 0.8468,
      "step": 9129
    },
    {
      "epoch": 0.560483747199116,
      "grad_norm": 0.7552495166953852,
      "learning_rate": 8.531957698689655e-06,
      "loss": 0.8039,
      "step": 9130
    },
    {
      "epoch": 0.5605451364375825,
      "grad_norm": 0.7905084670549748,
      "learning_rate": 8.529990920585052e-06,
      "loss": 0.7581,
      "step": 9131
    },
    {
      "epoch": 0.560606525676049,
      "grad_norm": 0.7746921357263402,
      "learning_rate": 8.52802420059777e-06,
      "loss": 0.8009,
      "step": 9132
    },
    {
      "epoch": 0.5606679149145155,
      "grad_norm": 0.8892257000088042,
      "learning_rate": 8.526057538805563e-06,
      "loss": 0.8469,
      "step": 9133
    },
    {
      "epoch": 0.5607293041529819,
      "grad_norm": 0.7773119258995383,
      "learning_rate": 8.524090935286184e-06,
      "loss": 0.7936,
      "step": 9134
    },
    {
      "epoch": 0.5607906933914485,
      "grad_norm": 0.8806364642017837,
      "learning_rate": 8.522124390117383e-06,
      "loss": 0.8311,
      "step": 9135
    },
    {
      "epoch": 0.5608520826299149,
      "grad_norm": 0.7969023066825612,
      "learning_rate": 8.520157903376914e-06,
      "loss": 0.805,
      "step": 9136
    },
    {
      "epoch": 0.5609134718683815,
      "grad_norm": 0.8263239468145582,
      "learning_rate": 8.518191475142515e-06,
      "loss": 0.806,
      "step": 9137
    },
    {
      "epoch": 0.560974861106848,
      "grad_norm": 0.8377218865329976,
      "learning_rate": 8.516225105491931e-06,
      "loss": 0.836,
      "step": 9138
    },
    {
      "epoch": 0.5610362503453145,
      "grad_norm": 0.8068000924946391,
      "learning_rate": 8.514258794502906e-06,
      "loss": 0.8424,
      "step": 9139
    },
    {
      "epoch": 0.561097639583781,
      "grad_norm": 0.7890775747566414,
      "learning_rate": 8.512292542253176e-06,
      "loss": 0.7868,
      "step": 9140
    },
    {
      "epoch": 0.5611590288222474,
      "grad_norm": 0.8675289789379138,
      "learning_rate": 8.510326348820482e-06,
      "loss": 0.8179,
      "step": 9141
    },
    {
      "epoch": 0.561220418060714,
      "grad_norm": 0.8110379076725569,
      "learning_rate": 8.508360214282551e-06,
      "loss": 0.852,
      "step": 9142
    },
    {
      "epoch": 0.5612818072991804,
      "grad_norm": 0.7522779581509265,
      "learning_rate": 8.50639413871712e-06,
      "loss": 0.7636,
      "step": 9143
    },
    {
      "epoch": 0.561343196537647,
      "grad_norm": 0.8123989506464203,
      "learning_rate": 8.504428122201915e-06,
      "loss": 0.8192,
      "step": 9144
    },
    {
      "epoch": 0.5614045857761134,
      "grad_norm": 0.803624863856145,
      "learning_rate": 8.502462164814668e-06,
      "loss": 0.8096,
      "step": 9145
    },
    {
      "epoch": 0.56146597501458,
      "grad_norm": 0.87666663452451,
      "learning_rate": 8.500496266633102e-06,
      "loss": 0.8225,
      "step": 9146
    },
    {
      "epoch": 0.5615273642530464,
      "grad_norm": 0.7985707539036679,
      "learning_rate": 8.498530427734935e-06,
      "loss": 0.7721,
      "step": 9147
    },
    {
      "epoch": 0.5615887534915129,
      "grad_norm": 0.7825276912572389,
      "learning_rate": 8.496564648197893e-06,
      "loss": 0.7746,
      "step": 9148
    },
    {
      "epoch": 0.5616501427299795,
      "grad_norm": 0.8384231644248724,
      "learning_rate": 8.494598928099688e-06,
      "loss": 0.8096,
      "step": 9149
    },
    {
      "epoch": 0.5617115319684459,
      "grad_norm": 0.7840465201962573,
      "learning_rate": 8.492633267518044e-06,
      "loss": 0.7938,
      "step": 9150
    },
    {
      "epoch": 0.5617729212069125,
      "grad_norm": 0.8666161377019972,
      "learning_rate": 8.490667666530666e-06,
      "loss": 0.7945,
      "step": 9151
    },
    {
      "epoch": 0.5618343104453789,
      "grad_norm": 0.8901666101707345,
      "learning_rate": 8.488702125215267e-06,
      "loss": 0.8018,
      "step": 9152
    },
    {
      "epoch": 0.5618956996838455,
      "grad_norm": 0.8628786721415481,
      "learning_rate": 8.486736643649557e-06,
      "loss": 0.8093,
      "step": 9153
    },
    {
      "epoch": 0.5619570889223119,
      "grad_norm": 0.9111711767462214,
      "learning_rate": 8.484771221911239e-06,
      "loss": 0.8507,
      "step": 9154
    },
    {
      "epoch": 0.5620184781607784,
      "grad_norm": 0.7895360133829251,
      "learning_rate": 8.482805860078025e-06,
      "loss": 0.7899,
      "step": 9155
    },
    {
      "epoch": 0.5620798673992449,
      "grad_norm": 0.9002837336826957,
      "learning_rate": 8.480840558227604e-06,
      "loss": 0.8223,
      "step": 9156
    },
    {
      "epoch": 0.5621412566377114,
      "grad_norm": 0.8372334464374249,
      "learning_rate": 8.478875316437681e-06,
      "loss": 0.8181,
      "step": 9157
    },
    {
      "epoch": 0.5622026458761779,
      "grad_norm": 0.8602310163340823,
      "learning_rate": 8.476910134785952e-06,
      "loss": 0.8477,
      "step": 9158
    },
    {
      "epoch": 0.5622640351146444,
      "grad_norm": 0.9088704152850576,
      "learning_rate": 8.474945013350114e-06,
      "loss": 0.8322,
      "step": 9159
    },
    {
      "epoch": 0.562325424353111,
      "grad_norm": 0.8694490259477328,
      "learning_rate": 8.472979952207857e-06,
      "loss": 0.7932,
      "step": 9160
    },
    {
      "epoch": 0.5623868135915774,
      "grad_norm": 0.8550643044390416,
      "learning_rate": 8.471014951436865e-06,
      "loss": 0.7808,
      "step": 9161
    },
    {
      "epoch": 0.5624482028300439,
      "grad_norm": 0.857308095392372,
      "learning_rate": 8.469050011114832e-06,
      "loss": 0.7692,
      "step": 9162
    },
    {
      "epoch": 0.5625095920685104,
      "grad_norm": 0.8396467151988483,
      "learning_rate": 8.46708513131944e-06,
      "loss": 0.8261,
      "step": 9163
    },
    {
      "epoch": 0.5625709813069769,
      "grad_norm": 0.9052877636296889,
      "learning_rate": 8.465120312128371e-06,
      "loss": 0.8549,
      "step": 9164
    },
    {
      "epoch": 0.5626323705454433,
      "grad_norm": 0.7916207830031098,
      "learning_rate": 8.463155553619309e-06,
      "loss": 0.8356,
      "step": 9165
    },
    {
      "epoch": 0.5626937597839099,
      "grad_norm": 0.8923464210447208,
      "learning_rate": 8.461190855869922e-06,
      "loss": 0.8076,
      "step": 9166
    },
    {
      "epoch": 0.5627551490223763,
      "grad_norm": 0.9100183885731788,
      "learning_rate": 8.459226218957893e-06,
      "loss": 0.8519,
      "step": 9167
    },
    {
      "epoch": 0.5628165382608429,
      "grad_norm": 0.8106214316116983,
      "learning_rate": 8.45726164296089e-06,
      "loss": 0.7991,
      "step": 9168
    },
    {
      "epoch": 0.5628779274993093,
      "grad_norm": 0.8999638363158612,
      "learning_rate": 8.455297127956589e-06,
      "loss": 0.8483,
      "step": 9169
    },
    {
      "epoch": 0.5629393167377759,
      "grad_norm": 0.8763160592103578,
      "learning_rate": 8.453332674022654e-06,
      "loss": 0.8316,
      "step": 9170
    },
    {
      "epoch": 0.5630007059762424,
      "grad_norm": 0.8536366630475083,
      "learning_rate": 8.45136828123675e-06,
      "loss": 0.8709,
      "step": 9171
    },
    {
      "epoch": 0.5630620952147088,
      "grad_norm": 0.8292424542631974,
      "learning_rate": 8.449403949676538e-06,
      "loss": 0.8362,
      "step": 9172
    },
    {
      "epoch": 0.5631234844531754,
      "grad_norm": 0.8550647580994367,
      "learning_rate": 8.447439679419684e-06,
      "loss": 0.7708,
      "step": 9173
    },
    {
      "epoch": 0.5631848736916418,
      "grad_norm": 0.8714284050211171,
      "learning_rate": 8.44547547054384e-06,
      "loss": 0.8195,
      "step": 9174
    },
    {
      "epoch": 0.5632462629301084,
      "grad_norm": 0.7517357121777444,
      "learning_rate": 8.443511323126669e-06,
      "loss": 0.7539,
      "step": 9175
    },
    {
      "epoch": 0.5633076521685748,
      "grad_norm": 0.7549650161870859,
      "learning_rate": 8.441547237245818e-06,
      "loss": 0.8154,
      "step": 9176
    },
    {
      "epoch": 0.5633690414070414,
      "grad_norm": 0.8050313470192324,
      "learning_rate": 8.43958321297894e-06,
      "loss": 0.8266,
      "step": 9177
    },
    {
      "epoch": 0.5634304306455078,
      "grad_norm": 0.7195929660101947,
      "learning_rate": 8.437619250403682e-06,
      "loss": 0.7798,
      "step": 9178
    },
    {
      "epoch": 0.5634918198839743,
      "grad_norm": 0.9485970897950404,
      "learning_rate": 8.43565534959769e-06,
      "loss": 0.9676,
      "step": 9179
    },
    {
      "epoch": 0.5635532091224409,
      "grad_norm": 0.7894445374446903,
      "learning_rate": 8.433691510638614e-06,
      "loss": 0.7762,
      "step": 9180
    },
    {
      "epoch": 0.5636145983609073,
      "grad_norm": 0.8160384422171603,
      "learning_rate": 8.431727733604087e-06,
      "loss": 0.8243,
      "step": 9181
    },
    {
      "epoch": 0.5636759875993739,
      "grad_norm": 0.8611072646432131,
      "learning_rate": 8.429764018571751e-06,
      "loss": 0.8342,
      "step": 9182
    },
    {
      "epoch": 0.5637373768378403,
      "grad_norm": 0.8454007672314238,
      "learning_rate": 8.427800365619238e-06,
      "loss": 0.8212,
      "step": 9183
    },
    {
      "epoch": 0.5637987660763069,
      "grad_norm": 0.8156719736756863,
      "learning_rate": 8.42583677482419e-06,
      "loss": 0.8842,
      "step": 9184
    },
    {
      "epoch": 0.5638601553147733,
      "grad_norm": 0.846580252952177,
      "learning_rate": 8.423873246264233e-06,
      "loss": 0.7982,
      "step": 9185
    },
    {
      "epoch": 0.5639215445532398,
      "grad_norm": 0.6482421811557498,
      "learning_rate": 8.421909780016994e-06,
      "loss": 0.7847,
      "step": 9186
    },
    {
      "epoch": 0.5639829337917063,
      "grad_norm": 0.8309935080868083,
      "learning_rate": 8.419946376160101e-06,
      "loss": 0.7901,
      "step": 9187
    },
    {
      "epoch": 0.5640443230301728,
      "grad_norm": 0.8072777631632134,
      "learning_rate": 8.41798303477118e-06,
      "loss": 0.8597,
      "step": 9188
    },
    {
      "epoch": 0.5641057122686393,
      "grad_norm": 0.7501129106630731,
      "learning_rate": 8.416019755927851e-06,
      "loss": 0.8201,
      "step": 9189
    },
    {
      "epoch": 0.5641671015071058,
      "grad_norm": 0.7963202566588954,
      "learning_rate": 8.414056539707735e-06,
      "loss": 0.7952,
      "step": 9190
    },
    {
      "epoch": 0.5642284907455724,
      "grad_norm": 0.904670797852059,
      "learning_rate": 8.412093386188443e-06,
      "loss": 0.8289,
      "step": 9191
    },
    {
      "epoch": 0.5642898799840388,
      "grad_norm": 0.8391366133465509,
      "learning_rate": 8.410130295447592e-06,
      "loss": 0.8131,
      "step": 9192
    },
    {
      "epoch": 0.5643512692225053,
      "grad_norm": 0.8400551942748938,
      "learning_rate": 8.408167267562792e-06,
      "loss": 0.7992,
      "step": 9193
    },
    {
      "epoch": 0.5644126584609718,
      "grad_norm": 0.888416712741314,
      "learning_rate": 8.406204302611658e-06,
      "loss": 0.8141,
      "step": 9194
    },
    {
      "epoch": 0.5644740476994383,
      "grad_norm": 0.8298635445088135,
      "learning_rate": 8.404241400671792e-06,
      "loss": 0.8108,
      "step": 9195
    },
    {
      "epoch": 0.5645354369379048,
      "grad_norm": 0.8196775291227729,
      "learning_rate": 8.402278561820797e-06,
      "loss": 0.8016,
      "step": 9196
    },
    {
      "epoch": 0.5645968261763713,
      "grad_norm": 0.9308149659955838,
      "learning_rate": 8.400315786136273e-06,
      "loss": 0.8599,
      "step": 9197
    },
    {
      "epoch": 0.5646582154148377,
      "grad_norm": 0.9260487013112546,
      "learning_rate": 8.398353073695826e-06,
      "loss": 0.8884,
      "step": 9198
    },
    {
      "epoch": 0.5647196046533043,
      "grad_norm": 0.8599830505814404,
      "learning_rate": 8.396390424577043e-06,
      "loss": 0.8199,
      "step": 9199
    },
    {
      "epoch": 0.5647809938917707,
      "grad_norm": 0.8965129250765156,
      "learning_rate": 8.394427838857529e-06,
      "loss": 0.8296,
      "step": 9200
    },
    {
      "epoch": 0.5648423831302373,
      "grad_norm": 0.9207654964255353,
      "learning_rate": 8.392465316614867e-06,
      "loss": 0.815,
      "step": 9201
    },
    {
      "epoch": 0.5649037723687038,
      "grad_norm": 0.8597041147040646,
      "learning_rate": 8.390502857926647e-06,
      "loss": 0.8499,
      "step": 9202
    },
    {
      "epoch": 0.5649651616071703,
      "grad_norm": 0.7477905861515106,
      "learning_rate": 8.38854046287046e-06,
      "loss": 0.7926,
      "step": 9203
    },
    {
      "epoch": 0.5650265508456368,
      "grad_norm": 0.7198050459805626,
      "learning_rate": 8.386578131523883e-06,
      "loss": 0.7646,
      "step": 9204
    },
    {
      "epoch": 0.5650879400841032,
      "grad_norm": 0.8610447025323432,
      "learning_rate": 8.384615863964508e-06,
      "loss": 0.8654,
      "step": 9205
    },
    {
      "epoch": 0.5651493293225698,
      "grad_norm": 0.8250941581638532,
      "learning_rate": 8.382653660269906e-06,
      "loss": 0.8023,
      "step": 9206
    },
    {
      "epoch": 0.5652107185610362,
      "grad_norm": 0.8392042791663976,
      "learning_rate": 8.380691520517651e-06,
      "loss": 0.8359,
      "step": 9207
    },
    {
      "epoch": 0.5652721077995028,
      "grad_norm": 0.7467498540289691,
      "learning_rate": 8.378729444785323e-06,
      "loss": 0.8014,
      "step": 9208
    },
    {
      "epoch": 0.5653334970379692,
      "grad_norm": 0.8394886621103325,
      "learning_rate": 8.376767433150491e-06,
      "loss": 0.7819,
      "step": 9209
    },
    {
      "epoch": 0.5653948862764357,
      "grad_norm": 0.9075722343454226,
      "learning_rate": 8.374805485690728e-06,
      "loss": 0.8559,
      "step": 9210
    },
    {
      "epoch": 0.5654562755149022,
      "grad_norm": 0.7625032027422766,
      "learning_rate": 8.372843602483592e-06,
      "loss": 0.8012,
      "step": 9211
    },
    {
      "epoch": 0.5655176647533687,
      "grad_norm": 0.8843368995602597,
      "learning_rate": 8.370881783606652e-06,
      "loss": 0.8092,
      "step": 9212
    },
    {
      "epoch": 0.5655790539918353,
      "grad_norm": 0.8353593567519665,
      "learning_rate": 8.368920029137466e-06,
      "loss": 0.797,
      "step": 9213
    },
    {
      "epoch": 0.5656404432303017,
      "grad_norm": 0.9394827421759913,
      "learning_rate": 8.3669583391536e-06,
      "loss": 0.8736,
      "step": 9214
    },
    {
      "epoch": 0.5657018324687683,
      "grad_norm": 0.8212307377011901,
      "learning_rate": 8.364996713732602e-06,
      "loss": 0.8454,
      "step": 9215
    },
    {
      "epoch": 0.5657632217072347,
      "grad_norm": 0.7869523781616024,
      "learning_rate": 8.363035152952026e-06,
      "loss": 0.8065,
      "step": 9216
    },
    {
      "epoch": 0.5658246109457012,
      "grad_norm": 0.8695565729389365,
      "learning_rate": 8.361073656889427e-06,
      "loss": 0.854,
      "step": 9217
    },
    {
      "epoch": 0.5658860001841677,
      "grad_norm": 0.8015944630644812,
      "learning_rate": 8.359112225622352e-06,
      "loss": 0.8247,
      "step": 9218
    },
    {
      "epoch": 0.5659473894226342,
      "grad_norm": 0.7548766012633477,
      "learning_rate": 8.357150859228352e-06,
      "loss": 0.8244,
      "step": 9219
    },
    {
      "epoch": 0.5660087786611007,
      "grad_norm": 0.8445745206851928,
      "learning_rate": 8.35518955778496e-06,
      "loss": 0.8369,
      "step": 9220
    },
    {
      "epoch": 0.5660701678995672,
      "grad_norm": 0.7810475130114659,
      "learning_rate": 8.353228321369723e-06,
      "loss": 0.846,
      "step": 9221
    },
    {
      "epoch": 0.5661315571380336,
      "grad_norm": 0.7900924005387874,
      "learning_rate": 8.351267150060176e-06,
      "loss": 0.8268,
      "step": 9222
    },
    {
      "epoch": 0.5661929463765002,
      "grad_norm": 0.8772189427437509,
      "learning_rate": 8.349306043933859e-06,
      "loss": 0.8801,
      "step": 9223
    },
    {
      "epoch": 0.5662543356149667,
      "grad_norm": 0.8296496918437153,
      "learning_rate": 8.347345003068303e-06,
      "loss": 0.8172,
      "step": 9224
    },
    {
      "epoch": 0.5663157248534332,
      "grad_norm": 0.7528095387171184,
      "learning_rate": 8.345384027541035e-06,
      "loss": 0.7873,
      "step": 9225
    },
    {
      "epoch": 0.5663771140918997,
      "grad_norm": 0.8427126943690677,
      "learning_rate": 8.343423117429588e-06,
      "loss": 0.8355,
      "step": 9226
    },
    {
      "epoch": 0.5664385033303662,
      "grad_norm": 0.7488599231766049,
      "learning_rate": 8.341462272811485e-06,
      "loss": 0.8154,
      "step": 9227
    },
    {
      "epoch": 0.5664998925688327,
      "grad_norm": 0.7882044555225255,
      "learning_rate": 8.339501493764248e-06,
      "loss": 0.8353,
      "step": 9228
    },
    {
      "epoch": 0.5665612818072991,
      "grad_norm": 0.7992623490822822,
      "learning_rate": 8.337540780365402e-06,
      "loss": 0.8364,
      "step": 9229
    },
    {
      "epoch": 0.5666226710457657,
      "grad_norm": 0.7888268461461313,
      "learning_rate": 8.335580132692455e-06,
      "loss": 0.8162,
      "step": 9230
    },
    {
      "epoch": 0.5666840602842321,
      "grad_norm": 0.8141114087595053,
      "learning_rate": 8.33361955082293e-06,
      "loss": 0.8128,
      "step": 9231
    },
    {
      "epoch": 0.5667454495226987,
      "grad_norm": 0.7767058940547102,
      "learning_rate": 8.331659034834335e-06,
      "loss": 0.8098,
      "step": 9232
    },
    {
      "epoch": 0.5668068387611652,
      "grad_norm": 0.8142726687076095,
      "learning_rate": 8.329698584804182e-06,
      "loss": 0.8371,
      "step": 9233
    },
    {
      "epoch": 0.5668682279996317,
      "grad_norm": 0.8540915778906962,
      "learning_rate": 8.327738200809979e-06,
      "loss": 0.8309,
      "step": 9234
    },
    {
      "epoch": 0.5669296172380982,
      "grad_norm": 0.8392416112697755,
      "learning_rate": 8.325777882929229e-06,
      "loss": 0.7611,
      "step": 9235
    },
    {
      "epoch": 0.5669910064765646,
      "grad_norm": 0.8916416065280773,
      "learning_rate": 8.32381763123943e-06,
      "loss": 0.865,
      "step": 9236
    },
    {
      "epoch": 0.5670523957150312,
      "grad_norm": 0.8858568269220152,
      "learning_rate": 8.321857445818087e-06,
      "loss": 0.8101,
      "step": 9237
    },
    {
      "epoch": 0.5671137849534976,
      "grad_norm": 0.8134364770770401,
      "learning_rate": 8.319897326742693e-06,
      "loss": 0.8168,
      "step": 9238
    },
    {
      "epoch": 0.5671751741919642,
      "grad_norm": 0.9021408700007526,
      "learning_rate": 8.317937274090748e-06,
      "loss": 0.8362,
      "step": 9239
    },
    {
      "epoch": 0.5672365634304306,
      "grad_norm": 0.9545520478919682,
      "learning_rate": 8.315977287939736e-06,
      "loss": 0.8213,
      "step": 9240
    },
    {
      "epoch": 0.5672979526688972,
      "grad_norm": 0.8182140386025716,
      "learning_rate": 8.314017368367146e-06,
      "loss": 0.8166,
      "step": 9241
    },
    {
      "epoch": 0.5673593419073636,
      "grad_norm": 0.7792456358108805,
      "learning_rate": 8.31205751545047e-06,
      "loss": 0.7715,
      "step": 9242
    },
    {
      "epoch": 0.5674207311458301,
      "grad_norm": 0.8152571219844948,
      "learning_rate": 8.310097729267186e-06,
      "loss": 0.7955,
      "step": 9243
    },
    {
      "epoch": 0.5674821203842967,
      "grad_norm": 0.8550647466178153,
      "learning_rate": 8.308138009894781e-06,
      "loss": 0.8277,
      "step": 9244
    },
    {
      "epoch": 0.5675435096227631,
      "grad_norm": 0.7703040001972049,
      "learning_rate": 8.306178357410726e-06,
      "loss": 0.8424,
      "step": 9245
    },
    {
      "epoch": 0.5676048988612297,
      "grad_norm": 0.8372293251626541,
      "learning_rate": 8.304218771892499e-06,
      "loss": 0.8921,
      "step": 9246
    },
    {
      "epoch": 0.5676662880996961,
      "grad_norm": 0.8990060133811443,
      "learning_rate": 8.302259253417575e-06,
      "loss": 0.7921,
      "step": 9247
    },
    {
      "epoch": 0.5677276773381627,
      "grad_norm": 0.7948691397789652,
      "learning_rate": 8.300299802063422e-06,
      "loss": 0.8334,
      "step": 9248
    },
    {
      "epoch": 0.5677890665766291,
      "grad_norm": 0.7518106089664354,
      "learning_rate": 8.298340417907512e-06,
      "loss": 0.7873,
      "step": 9249
    },
    {
      "epoch": 0.5678504558150956,
      "grad_norm": 0.8942497759084236,
      "learning_rate": 8.296381101027302e-06,
      "loss": 0.8038,
      "step": 9250
    },
    {
      "epoch": 0.5679118450535621,
      "grad_norm": 0.8239306337742607,
      "learning_rate": 8.29442185150026e-06,
      "loss": 0.8653,
      "step": 9251
    },
    {
      "epoch": 0.5679732342920286,
      "grad_norm": 0.860321367768816,
      "learning_rate": 8.292462669403843e-06,
      "loss": 0.7703,
      "step": 9252
    },
    {
      "epoch": 0.568034623530495,
      "grad_norm": 0.948159134272575,
      "learning_rate": 8.290503554815513e-06,
      "loss": 0.8611,
      "step": 9253
    },
    {
      "epoch": 0.5680960127689616,
      "grad_norm": 0.8230085823613271,
      "learning_rate": 8.288544507812719e-06,
      "loss": 0.8388,
      "step": 9254
    },
    {
      "epoch": 0.5681574020074281,
      "grad_norm": 0.7762761424551554,
      "learning_rate": 8.286585528472912e-06,
      "loss": 0.8084,
      "step": 9255
    },
    {
      "epoch": 0.5682187912458946,
      "grad_norm": 0.8264764786277198,
      "learning_rate": 8.284626616873544e-06,
      "loss": 0.8137,
      "step": 9256
    },
    {
      "epoch": 0.5682801804843611,
      "grad_norm": 0.8168393890140786,
      "learning_rate": 8.282667773092059e-06,
      "loss": 0.8254,
      "step": 9257
    },
    {
      "epoch": 0.5683415697228276,
      "grad_norm": 0.8242064928389031,
      "learning_rate": 8.280708997205904e-06,
      "loss": 0.8218,
      "step": 9258
    },
    {
      "epoch": 0.5684029589612941,
      "grad_norm": 0.8213540744537507,
      "learning_rate": 8.27875028929252e-06,
      "loss": 0.7809,
      "step": 9259
    },
    {
      "epoch": 0.5684643481997605,
      "grad_norm": 0.8634746360013092,
      "learning_rate": 8.276791649429341e-06,
      "loss": 0.8433,
      "step": 9260
    },
    {
      "epoch": 0.5685257374382271,
      "grad_norm": 0.85975446486151,
      "learning_rate": 8.274833077693802e-06,
      "loss": 0.8143,
      "step": 9261
    },
    {
      "epoch": 0.5685871266766935,
      "grad_norm": 0.81935218531456,
      "learning_rate": 8.27287457416334e-06,
      "loss": 0.7902,
      "step": 9262
    },
    {
      "epoch": 0.5686485159151601,
      "grad_norm": 0.7145265976103232,
      "learning_rate": 8.270916138915381e-06,
      "loss": 0.8052,
      "step": 9263
    },
    {
      "epoch": 0.5687099051536265,
      "grad_norm": 0.9176753905280929,
      "learning_rate": 8.26895777202736e-06,
      "loss": 0.8477,
      "step": 9264
    },
    {
      "epoch": 0.5687712943920931,
      "grad_norm": 0.8521597715588668,
      "learning_rate": 8.266999473576696e-06,
      "loss": 0.7934,
      "step": 9265
    },
    {
      "epoch": 0.5688326836305596,
      "grad_norm": 0.8735144815579383,
      "learning_rate": 8.265041243640806e-06,
      "loss": 0.8412,
      "step": 9266
    },
    {
      "epoch": 0.568894072869026,
      "grad_norm": 0.8348540965713078,
      "learning_rate": 8.263083082297119e-06,
      "loss": 0.8034,
      "step": 9267
    },
    {
      "epoch": 0.5689554621074926,
      "grad_norm": 0.8662816927294097,
      "learning_rate": 8.261124989623045e-06,
      "loss": 0.8376,
      "step": 9268
    },
    {
      "epoch": 0.569016851345959,
      "grad_norm": 0.8657442826995568,
      "learning_rate": 8.259166965696004e-06,
      "loss": 0.856,
      "step": 9269
    },
    {
      "epoch": 0.5690782405844256,
      "grad_norm": 0.8267004409730132,
      "learning_rate": 8.257209010593401e-06,
      "loss": 0.7829,
      "step": 9270
    },
    {
      "epoch": 0.569139629822892,
      "grad_norm": 0.8303940176036694,
      "learning_rate": 8.255251124392648e-06,
      "loss": 0.8155,
      "step": 9271
    },
    {
      "epoch": 0.5692010190613586,
      "grad_norm": 0.8647075323574718,
      "learning_rate": 8.253293307171149e-06,
      "loss": 0.7561,
      "step": 9272
    },
    {
      "epoch": 0.569262408299825,
      "grad_norm": 0.764107706392159,
      "learning_rate": 8.251335559006304e-06,
      "loss": 0.8454,
      "step": 9273
    },
    {
      "epoch": 0.5693237975382915,
      "grad_norm": 0.8733612320677611,
      "learning_rate": 8.249377879975527e-06,
      "loss": 0.8311,
      "step": 9274
    },
    {
      "epoch": 0.569385186776758,
      "grad_norm": 0.7280528404444765,
      "learning_rate": 8.247420270156196e-06,
      "loss": 0.7777,
      "step": 9275
    },
    {
      "epoch": 0.5694465760152245,
      "grad_norm": 0.7864853704417094,
      "learning_rate": 8.24546272962572e-06,
      "loss": 0.8225,
      "step": 9276
    },
    {
      "epoch": 0.5695079652536911,
      "grad_norm": 0.8049457911692138,
      "learning_rate": 8.24350525846148e-06,
      "loss": 0.8746,
      "step": 9277
    },
    {
      "epoch": 0.5695693544921575,
      "grad_norm": 0.8864669237194163,
      "learning_rate": 8.241547856740879e-06,
      "loss": 0.772,
      "step": 9278
    },
    {
      "epoch": 0.5696307437306241,
      "grad_norm": 0.8952924293982112,
      "learning_rate": 8.239590524541293e-06,
      "loss": 0.8631,
      "step": 9279
    },
    {
      "epoch": 0.5696921329690905,
      "grad_norm": 0.8293714315762777,
      "learning_rate": 8.237633261940107e-06,
      "loss": 0.8601,
      "step": 9280
    },
    {
      "epoch": 0.569753522207557,
      "grad_norm": 0.7240559732755182,
      "learning_rate": 8.235676069014707e-06,
      "loss": 0.7801,
      "step": 9281
    },
    {
      "epoch": 0.5698149114460235,
      "grad_norm": 0.885850955276004,
      "learning_rate": 8.233718945842464e-06,
      "loss": 0.8479,
      "step": 9282
    },
    {
      "epoch": 0.56987630068449,
      "grad_norm": 0.8829901285323414,
      "learning_rate": 8.231761892500764e-06,
      "loss": 0.8322,
      "step": 9283
    },
    {
      "epoch": 0.5699376899229565,
      "grad_norm": 0.8053013684342225,
      "learning_rate": 8.22980490906697e-06,
      "loss": 0.8233,
      "step": 9284
    },
    {
      "epoch": 0.569999079161423,
      "grad_norm": 0.8274973209181156,
      "learning_rate": 8.227847995618453e-06,
      "loss": 0.8327,
      "step": 9285
    },
    {
      "epoch": 0.5700604683998896,
      "grad_norm": 0.8228273011143776,
      "learning_rate": 8.225891152232587e-06,
      "loss": 0.8403,
      "step": 9286
    },
    {
      "epoch": 0.570121857638356,
      "grad_norm": 0.947230714073049,
      "learning_rate": 8.223934378986733e-06,
      "loss": 0.8179,
      "step": 9287
    },
    {
      "epoch": 0.5701832468768225,
      "grad_norm": 0.7107638511740911,
      "learning_rate": 8.221977675958252e-06,
      "loss": 0.7764,
      "step": 9288
    },
    {
      "epoch": 0.570244636115289,
      "grad_norm": 0.8482555576203655,
      "learning_rate": 8.2200210432245e-06,
      "loss": 0.81,
      "step": 9289
    },
    {
      "epoch": 0.5703060253537555,
      "grad_norm": 0.7972712046616197,
      "learning_rate": 8.218064480862837e-06,
      "loss": 0.829,
      "step": 9290
    },
    {
      "epoch": 0.570367414592222,
      "grad_norm": 0.8296086914691441,
      "learning_rate": 8.216107988950614e-06,
      "loss": 0.8215,
      "step": 9291
    },
    {
      "epoch": 0.5704288038306885,
      "grad_norm": 0.9048840635182775,
      "learning_rate": 8.214151567565185e-06,
      "loss": 0.8158,
      "step": 9292
    },
    {
      "epoch": 0.5704901930691549,
      "grad_norm": 0.8014731015005417,
      "learning_rate": 8.212195216783899e-06,
      "loss": 0.8119,
      "step": 9293
    },
    {
      "epoch": 0.5705515823076215,
      "grad_norm": 0.8289252366779953,
      "learning_rate": 8.210238936684094e-06,
      "loss": 0.829,
      "step": 9294
    },
    {
      "epoch": 0.5706129715460879,
      "grad_norm": 0.8331872687367782,
      "learning_rate": 8.208282727343116e-06,
      "loss": 0.8042,
      "step": 9295
    },
    {
      "epoch": 0.5706743607845545,
      "grad_norm": 0.8972926461743658,
      "learning_rate": 8.206326588838305e-06,
      "loss": 0.8277,
      "step": 9296
    },
    {
      "epoch": 0.570735750023021,
      "grad_norm": 0.8691630932890311,
      "learning_rate": 8.204370521246998e-06,
      "loss": 0.7898,
      "step": 9297
    },
    {
      "epoch": 0.5707971392614875,
      "grad_norm": 0.7556625901877068,
      "learning_rate": 8.20241452464653e-06,
      "loss": 0.8123,
      "step": 9298
    },
    {
      "epoch": 0.570858528499954,
      "grad_norm": 0.8874321806235896,
      "learning_rate": 8.200458599114227e-06,
      "loss": 0.7661,
      "step": 9299
    },
    {
      "epoch": 0.5709199177384204,
      "grad_norm": 0.836720735774986,
      "learning_rate": 8.19850274472742e-06,
      "loss": 0.8234,
      "step": 9300
    },
    {
      "epoch": 0.570981306976887,
      "grad_norm": 0.8846780154499787,
      "learning_rate": 8.196546961563436e-06,
      "loss": 0.8395,
      "step": 9301
    },
    {
      "epoch": 0.5710426962153534,
      "grad_norm": 0.8578851804965075,
      "learning_rate": 8.194591249699595e-06,
      "loss": 0.799,
      "step": 9302
    },
    {
      "epoch": 0.57110408545382,
      "grad_norm": 0.8121978147012975,
      "learning_rate": 8.19263560921322e-06,
      "loss": 0.8718,
      "step": 9303
    },
    {
      "epoch": 0.5711654746922864,
      "grad_norm": 0.8698622672914333,
      "learning_rate": 8.190680040181625e-06,
      "loss": 0.8219,
      "step": 9304
    },
    {
      "epoch": 0.571226863930753,
      "grad_norm": 0.9579578249591327,
      "learning_rate": 8.188724542682123e-06,
      "loss": 0.8331,
      "step": 9305
    },
    {
      "epoch": 0.5712882531692194,
      "grad_norm": 0.8647802598198615,
      "learning_rate": 8.18676911679203e-06,
      "loss": 0.8257,
      "step": 9306
    },
    {
      "epoch": 0.5713496424076859,
      "grad_norm": 0.7642131455890439,
      "learning_rate": 8.184813762588649e-06,
      "loss": 0.8192,
      "step": 9307
    },
    {
      "epoch": 0.5714110316461525,
      "grad_norm": 0.9008057167508379,
      "learning_rate": 8.18285848014929e-06,
      "loss": 0.8315,
      "step": 9308
    },
    {
      "epoch": 0.5714724208846189,
      "grad_norm": 0.8449559805448233,
      "learning_rate": 8.180903269551254e-06,
      "loss": 0.7964,
      "step": 9309
    },
    {
      "epoch": 0.5715338101230855,
      "grad_norm": 0.7676930842101205,
      "learning_rate": 8.17894813087184e-06,
      "loss": 0.8366,
      "step": 9310
    },
    {
      "epoch": 0.5715951993615519,
      "grad_norm": 0.748515846344151,
      "learning_rate": 8.176993064188347e-06,
      "loss": 0.7921,
      "step": 9311
    },
    {
      "epoch": 0.5716565886000184,
      "grad_norm": 0.9103350619130652,
      "learning_rate": 8.175038069578066e-06,
      "loss": 0.8361,
      "step": 9312
    },
    {
      "epoch": 0.5717179778384849,
      "grad_norm": 0.7995386320998639,
      "learning_rate": 8.173083147118296e-06,
      "loss": 0.8116,
      "step": 9313
    },
    {
      "epoch": 0.5717793670769514,
      "grad_norm": 0.7845656186727086,
      "learning_rate": 8.171128296886316e-06,
      "loss": 0.818,
      "step": 9314
    },
    {
      "epoch": 0.5718407563154179,
      "grad_norm": 0.5938164262381499,
      "learning_rate": 8.169173518959417e-06,
      "loss": 0.6841,
      "step": 9315
    },
    {
      "epoch": 0.5719021455538844,
      "grad_norm": 0.8730993084658744,
      "learning_rate": 8.167218813414878e-06,
      "loss": 0.8551,
      "step": 9316
    },
    {
      "epoch": 0.5719635347923508,
      "grad_norm": 0.8208783769174667,
      "learning_rate": 8.165264180329985e-06,
      "loss": 0.817,
      "step": 9317
    },
    {
      "epoch": 0.5720249240308174,
      "grad_norm": 0.801186247492311,
      "learning_rate": 8.163309619782014e-06,
      "loss": 0.8242,
      "step": 9318
    },
    {
      "epoch": 0.5720863132692839,
      "grad_norm": 0.8878232196618114,
      "learning_rate": 8.161355131848232e-06,
      "loss": 0.8422,
      "step": 9319
    },
    {
      "epoch": 0.5721477025077504,
      "grad_norm": 0.8292561397563677,
      "learning_rate": 8.159400716605918e-06,
      "loss": 0.8018,
      "step": 9320
    },
    {
      "epoch": 0.5722090917462169,
      "grad_norm": 0.8435625848228704,
      "learning_rate": 8.157446374132335e-06,
      "loss": 0.8218,
      "step": 9321
    },
    {
      "epoch": 0.5722704809846834,
      "grad_norm": 0.7063572386395148,
      "learning_rate": 8.155492104504755e-06,
      "loss": 0.804,
      "step": 9322
    },
    {
      "epoch": 0.5723318702231499,
      "grad_norm": 0.8699205377354541,
      "learning_rate": 8.153537907800438e-06,
      "loss": 0.882,
      "step": 9323
    },
    {
      "epoch": 0.5723932594616163,
      "grad_norm": 0.7054509816951756,
      "learning_rate": 8.15158378409664e-06,
      "loss": 0.7897,
      "step": 9324
    },
    {
      "epoch": 0.5724546487000829,
      "grad_norm": 0.8237834699944221,
      "learning_rate": 8.149629733470622e-06,
      "loss": 0.8409,
      "step": 9325
    },
    {
      "epoch": 0.5725160379385493,
      "grad_norm": 0.8320859153969158,
      "learning_rate": 8.147675755999638e-06,
      "loss": 0.8058,
      "step": 9326
    },
    {
      "epoch": 0.5725774271770159,
      "grad_norm": 0.7563059280022374,
      "learning_rate": 8.145721851760934e-06,
      "loss": 0.8196,
      "step": 9327
    },
    {
      "epoch": 0.5726388164154824,
      "grad_norm": 0.7867536649895758,
      "learning_rate": 8.14376802083177e-06,
      "loss": 0.8377,
      "step": 9328
    },
    {
      "epoch": 0.5727002056539489,
      "grad_norm": 0.6024025446443698,
      "learning_rate": 8.14181426328938e-06,
      "loss": 0.6866,
      "step": 9329
    },
    {
      "epoch": 0.5727615948924154,
      "grad_norm": 0.8941749348306234,
      "learning_rate": 8.13986057921101e-06,
      "loss": 0.8225,
      "step": 9330
    },
    {
      "epoch": 0.5728229841308818,
      "grad_norm": 0.870175890280539,
      "learning_rate": 8.1379069686739e-06,
      "loss": 0.7913,
      "step": 9331
    },
    {
      "epoch": 0.5728843733693484,
      "grad_norm": 0.7871645774698103,
      "learning_rate": 8.135953431755286e-06,
      "loss": 0.8277,
      "step": 9332
    },
    {
      "epoch": 0.5729457626078148,
      "grad_norm": 0.7983877534310317,
      "learning_rate": 8.133999968532406e-06,
      "loss": 0.8214,
      "step": 9333
    },
    {
      "epoch": 0.5730071518462814,
      "grad_norm": 0.8360004885222904,
      "learning_rate": 8.132046579082486e-06,
      "loss": 0.8334,
      "step": 9334
    },
    {
      "epoch": 0.5730685410847478,
      "grad_norm": 0.7459009652830296,
      "learning_rate": 8.130093263482752e-06,
      "loss": 0.7901,
      "step": 9335
    },
    {
      "epoch": 0.5731299303232144,
      "grad_norm": 0.9862333223244426,
      "learning_rate": 8.128140021810436e-06,
      "loss": 0.8141,
      "step": 9336
    },
    {
      "epoch": 0.5731913195616808,
      "grad_norm": 0.8648262046640097,
      "learning_rate": 8.126186854142752e-06,
      "loss": 0.824,
      "step": 9337
    },
    {
      "epoch": 0.5732527088001473,
      "grad_norm": 0.9187058155602984,
      "learning_rate": 8.124233760556932e-06,
      "loss": 0.8307,
      "step": 9338
    },
    {
      "epoch": 0.5733140980386139,
      "grad_norm": 0.8227390660643096,
      "learning_rate": 8.122280741130177e-06,
      "loss": 0.8099,
      "step": 9339
    },
    {
      "epoch": 0.5733754872770803,
      "grad_norm": 0.6151131436810918,
      "learning_rate": 8.120327795939708e-06,
      "loss": 0.7033,
      "step": 9340
    },
    {
      "epoch": 0.5734368765155469,
      "grad_norm": 0.8730826063866325,
      "learning_rate": 8.118374925062733e-06,
      "loss": 0.8269,
      "step": 9341
    },
    {
      "epoch": 0.5734982657540133,
      "grad_norm": 0.8522553314994818,
      "learning_rate": 8.116422128576462e-06,
      "loss": 0.876,
      "step": 9342
    },
    {
      "epoch": 0.5735596549924799,
      "grad_norm": 0.8501302362431006,
      "learning_rate": 8.114469406558102e-06,
      "loss": 0.7884,
      "step": 9343
    },
    {
      "epoch": 0.5736210442309463,
      "grad_norm": 0.8073247480242655,
      "learning_rate": 8.112516759084845e-06,
      "loss": 0.7579,
      "step": 9344
    },
    {
      "epoch": 0.5736824334694128,
      "grad_norm": 0.5746412829859859,
      "learning_rate": 8.1105641862339e-06,
      "loss": 0.7319,
      "step": 9345
    },
    {
      "epoch": 0.5737438227078793,
      "grad_norm": 0.8644115984814223,
      "learning_rate": 8.108611688082453e-06,
      "loss": 0.8263,
      "step": 9346
    },
    {
      "epoch": 0.5738052119463458,
      "grad_norm": 0.7715883101496431,
      "learning_rate": 8.106659264707707e-06,
      "loss": 0.8031,
      "step": 9347
    },
    {
      "epoch": 0.5738666011848123,
      "grad_norm": 0.8094279066162334,
      "learning_rate": 8.104706916186847e-06,
      "loss": 0.7838,
      "step": 9348
    },
    {
      "epoch": 0.5739279904232788,
      "grad_norm": 0.9399730478891518,
      "learning_rate": 8.102754642597055e-06,
      "loss": 0.8736,
      "step": 9349
    },
    {
      "epoch": 0.5739893796617453,
      "grad_norm": 0.8323542130303553,
      "learning_rate": 8.100802444015522e-06,
      "loss": 0.8306,
      "step": 9350
    },
    {
      "epoch": 0.5740507689002118,
      "grad_norm": 0.951708045558342,
      "learning_rate": 8.098850320519423e-06,
      "loss": 0.8287,
      "step": 9351
    },
    {
      "epoch": 0.5741121581386783,
      "grad_norm": 0.8239886831180446,
      "learning_rate": 8.096898272185945e-06,
      "loss": 0.7708,
      "step": 9352
    },
    {
      "epoch": 0.5741735473771448,
      "grad_norm": 0.8404224132818735,
      "learning_rate": 8.094946299092252e-06,
      "loss": 0.8038,
      "step": 9353
    },
    {
      "epoch": 0.5742349366156113,
      "grad_norm": 0.8766273293855544,
      "learning_rate": 8.092994401315522e-06,
      "loss": 0.8282,
      "step": 9354
    },
    {
      "epoch": 0.5742963258540777,
      "grad_norm": 0.7464696348980032,
      "learning_rate": 8.09104257893292e-06,
      "loss": 0.8164,
      "step": 9355
    },
    {
      "epoch": 0.5743577150925443,
      "grad_norm": 0.7997864225468685,
      "learning_rate": 8.089090832021617e-06,
      "loss": 0.7808,
      "step": 9356
    },
    {
      "epoch": 0.5744191043310107,
      "grad_norm": 0.8040167477328838,
      "learning_rate": 8.087139160658778e-06,
      "loss": 0.7404,
      "step": 9357
    },
    {
      "epoch": 0.5744804935694773,
      "grad_norm": 0.8448950757290058,
      "learning_rate": 8.085187564921553e-06,
      "loss": 0.775,
      "step": 9358
    },
    {
      "epoch": 0.5745418828079437,
      "grad_norm": 0.7827096518672858,
      "learning_rate": 8.083236044887106e-06,
      "loss": 0.8184,
      "step": 9359
    },
    {
      "epoch": 0.5746032720464103,
      "grad_norm": 0.7684526763476035,
      "learning_rate": 8.081284600632589e-06,
      "loss": 0.7742,
      "step": 9360
    },
    {
      "epoch": 0.5746646612848768,
      "grad_norm": 0.7761037879291212,
      "learning_rate": 8.079333232235154e-06,
      "loss": 0.7995,
      "step": 9361
    },
    {
      "epoch": 0.5747260505233432,
      "grad_norm": 0.8509173751801836,
      "learning_rate": 8.077381939771952e-06,
      "loss": 0.8662,
      "step": 9362
    },
    {
      "epoch": 0.5747874397618098,
      "grad_norm": 0.8391856731074452,
      "learning_rate": 8.07543072332012e-06,
      "loss": 0.7693,
      "step": 9363
    },
    {
      "epoch": 0.5748488290002762,
      "grad_norm": 0.859132412144188,
      "learning_rate": 8.073479582956806e-06,
      "loss": 0.8166,
      "step": 9364
    },
    {
      "epoch": 0.5749102182387428,
      "grad_norm": 0.7896138298138268,
      "learning_rate": 8.07152851875915e-06,
      "loss": 0.766,
      "step": 9365
    },
    {
      "epoch": 0.5749716074772092,
      "grad_norm": 0.8306521149147978,
      "learning_rate": 8.069577530804283e-06,
      "loss": 0.8314,
      "step": 9366
    },
    {
      "epoch": 0.5750329967156758,
      "grad_norm": 0.8311697699419976,
      "learning_rate": 8.067626619169344e-06,
      "loss": 0.8498,
      "step": 9367
    },
    {
      "epoch": 0.5750943859541422,
      "grad_norm": 0.8088070262249554,
      "learning_rate": 8.06567578393146e-06,
      "loss": 0.7993,
      "step": 9368
    },
    {
      "epoch": 0.5751557751926087,
      "grad_norm": 0.866548845368458,
      "learning_rate": 8.063725025167755e-06,
      "loss": 0.8581,
      "step": 9369
    },
    {
      "epoch": 0.5752171644310752,
      "grad_norm": 0.8207864450522566,
      "learning_rate": 8.061774342955357e-06,
      "loss": 0.8366,
      "step": 9370
    },
    {
      "epoch": 0.5752785536695417,
      "grad_norm": 0.8593057893608242,
      "learning_rate": 8.059823737371384e-06,
      "loss": 0.8096,
      "step": 9371
    },
    {
      "epoch": 0.5753399429080083,
      "grad_norm": 0.8862566070985254,
      "learning_rate": 8.05787320849296e-06,
      "loss": 0.8379,
      "step": 9372
    },
    {
      "epoch": 0.5754013321464747,
      "grad_norm": 0.8076381643084203,
      "learning_rate": 8.055922756397192e-06,
      "loss": 0.7978,
      "step": 9373
    },
    {
      "epoch": 0.5754627213849413,
      "grad_norm": 0.8670347860701826,
      "learning_rate": 8.053972381161192e-06,
      "loss": 0.7966,
      "step": 9374
    },
    {
      "epoch": 0.5755241106234077,
      "grad_norm": 0.7967646949414146,
      "learning_rate": 8.052022082862076e-06,
      "loss": 0.8078,
      "step": 9375
    },
    {
      "epoch": 0.5755854998618742,
      "grad_norm": 0.8961504452696133,
      "learning_rate": 8.050071861576942e-06,
      "loss": 0.8012,
      "step": 9376
    },
    {
      "epoch": 0.5756468891003407,
      "grad_norm": 0.8079843660554825,
      "learning_rate": 8.048121717382904e-06,
      "loss": 0.8481,
      "step": 9377
    },
    {
      "epoch": 0.5757082783388072,
      "grad_norm": 0.934021999968231,
      "learning_rate": 8.046171650357047e-06,
      "loss": 0.8523,
      "step": 9378
    },
    {
      "epoch": 0.5757696675772737,
      "grad_norm": 0.8300074454017079,
      "learning_rate": 8.044221660576476e-06,
      "loss": 0.7979,
      "step": 9379
    },
    {
      "epoch": 0.5758310568157402,
      "grad_norm": 0.8505664676165169,
      "learning_rate": 8.042271748118283e-06,
      "loss": 0.8126,
      "step": 9380
    },
    {
      "epoch": 0.5758924460542068,
      "grad_norm": 0.8222257864224993,
      "learning_rate": 8.04032191305956e-06,
      "loss": 0.7907,
      "step": 9381
    },
    {
      "epoch": 0.5759538352926732,
      "grad_norm": 0.8263878159497261,
      "learning_rate": 8.038372155477393e-06,
      "loss": 0.7971,
      "step": 9382
    },
    {
      "epoch": 0.5760152245311397,
      "grad_norm": 0.9569297128853972,
      "learning_rate": 8.036422475448863e-06,
      "loss": 0.8537,
      "step": 9383
    },
    {
      "epoch": 0.5760766137696062,
      "grad_norm": 0.822036151279859,
      "learning_rate": 8.034472873051056e-06,
      "loss": 0.7892,
      "step": 9384
    },
    {
      "epoch": 0.5761380030080727,
      "grad_norm": 0.8234805081020461,
      "learning_rate": 8.032523348361047e-06,
      "loss": 0.7663,
      "step": 9385
    },
    {
      "epoch": 0.5761993922465392,
      "grad_norm": 0.8038382419201834,
      "learning_rate": 8.030573901455915e-06,
      "loss": 0.7829,
      "step": 9386
    },
    {
      "epoch": 0.5762607814850057,
      "grad_norm": 0.7938129917759273,
      "learning_rate": 8.028624532412734e-06,
      "loss": 0.8046,
      "step": 9387
    },
    {
      "epoch": 0.5763221707234721,
      "grad_norm": 0.9234805347181274,
      "learning_rate": 8.02667524130856e-06,
      "loss": 0.8098,
      "step": 9388
    },
    {
      "epoch": 0.5763835599619387,
      "grad_norm": 0.9481167020299617,
      "learning_rate": 8.024726028220474e-06,
      "loss": 0.8327,
      "step": 9389
    },
    {
      "epoch": 0.5764449492004051,
      "grad_norm": 0.8252109114338289,
      "learning_rate": 8.022776893225533e-06,
      "loss": 0.8339,
      "step": 9390
    },
    {
      "epoch": 0.5765063384388717,
      "grad_norm": 0.8220731730488421,
      "learning_rate": 8.020827836400792e-06,
      "loss": 0.8406,
      "step": 9391
    },
    {
      "epoch": 0.5765677276773382,
      "grad_norm": 0.9146521603867155,
      "learning_rate": 8.018878857823317e-06,
      "loss": 0.8324,
      "step": 9392
    },
    {
      "epoch": 0.5766291169158047,
      "grad_norm": 0.8782273869809855,
      "learning_rate": 8.016929957570154e-06,
      "loss": 0.8145,
      "step": 9393
    },
    {
      "epoch": 0.5766905061542712,
      "grad_norm": 0.9586027627501458,
      "learning_rate": 8.014981135718354e-06,
      "loss": 0.8237,
      "step": 9394
    },
    {
      "epoch": 0.5767518953927376,
      "grad_norm": 0.5729917325505324,
      "learning_rate": 8.013032392344969e-06,
      "loss": 0.682,
      "step": 9395
    },
    {
      "epoch": 0.5768132846312042,
      "grad_norm": 0.9486064795795017,
      "learning_rate": 8.011083727527038e-06,
      "loss": 0.8789,
      "step": 9396
    },
    {
      "epoch": 0.5768746738696706,
      "grad_norm": 0.8744602486830244,
      "learning_rate": 8.009135141341608e-06,
      "loss": 0.8045,
      "step": 9397
    },
    {
      "epoch": 0.5769360631081372,
      "grad_norm": 0.8774308764340951,
      "learning_rate": 8.007186633865714e-06,
      "loss": 0.7999,
      "step": 9398
    },
    {
      "epoch": 0.5769974523466036,
      "grad_norm": 0.7901429656994983,
      "learning_rate": 8.005238205176387e-06,
      "loss": 0.7622,
      "step": 9399
    },
    {
      "epoch": 0.5770588415850701,
      "grad_norm": 0.8280490621496723,
      "learning_rate": 8.003289855350665e-06,
      "loss": 0.7958,
      "step": 9400
    },
    {
      "epoch": 0.5771202308235366,
      "grad_norm": 0.8608483176344566,
      "learning_rate": 8.00134158446557e-06,
      "loss": 0.8777,
      "step": 9401
    },
    {
      "epoch": 0.5771816200620031,
      "grad_norm": 0.8528481223111254,
      "learning_rate": 7.99939339259814e-06,
      "loss": 0.7905,
      "step": 9402
    },
    {
      "epoch": 0.5772430093004697,
      "grad_norm": 0.5758526534691071,
      "learning_rate": 7.997445279825385e-06,
      "loss": 0.6677,
      "step": 9403
    },
    {
      "epoch": 0.5773043985389361,
      "grad_norm": 0.9455630587392095,
      "learning_rate": 7.995497246224328e-06,
      "loss": 0.8828,
      "step": 9404
    },
    {
      "epoch": 0.5773657877774027,
      "grad_norm": 0.8324463715948459,
      "learning_rate": 7.993549291871983e-06,
      "loss": 0.7961,
      "step": 9405
    },
    {
      "epoch": 0.5774271770158691,
      "grad_norm": 0.7951297613944365,
      "learning_rate": 7.991601416845368e-06,
      "loss": 0.8026,
      "step": 9406
    },
    {
      "epoch": 0.5774885662543356,
      "grad_norm": 0.8390132573745961,
      "learning_rate": 7.989653621221494e-06,
      "loss": 0.8443,
      "step": 9407
    },
    {
      "epoch": 0.5775499554928021,
      "grad_norm": 0.8262738201019472,
      "learning_rate": 7.98770590507736e-06,
      "loss": 0.8513,
      "step": 9408
    },
    {
      "epoch": 0.5776113447312686,
      "grad_norm": 0.8966070155527878,
      "learning_rate": 7.985758268489975e-06,
      "loss": 0.8441,
      "step": 9409
    },
    {
      "epoch": 0.5776727339697351,
      "grad_norm": 0.8465873033972878,
      "learning_rate": 7.98381071153634e-06,
      "loss": 0.851,
      "step": 9410
    },
    {
      "epoch": 0.5777341232082016,
      "grad_norm": 0.8371590028924706,
      "learning_rate": 7.981863234293453e-06,
      "loss": 0.8797,
      "step": 9411
    },
    {
      "epoch": 0.577795512446668,
      "grad_norm": 0.7298576240257941,
      "learning_rate": 7.979915836838302e-06,
      "loss": 0.803,
      "step": 9412
    },
    {
      "epoch": 0.5778569016851346,
      "grad_norm": 0.8913654410574934,
      "learning_rate": 7.977968519247881e-06,
      "loss": 0.8374,
      "step": 9413
    },
    {
      "epoch": 0.5779182909236011,
      "grad_norm": 0.8039215639851508,
      "learning_rate": 7.976021281599182e-06,
      "loss": 0.845,
      "step": 9414
    },
    {
      "epoch": 0.5779796801620676,
      "grad_norm": 0.9029929213437997,
      "learning_rate": 7.974074123969185e-06,
      "loss": 0.7967,
      "step": 9415
    },
    {
      "epoch": 0.5780410694005341,
      "grad_norm": 0.8847576928304893,
      "learning_rate": 7.972127046434878e-06,
      "loss": 0.8768,
      "step": 9416
    },
    {
      "epoch": 0.5781024586390006,
      "grad_norm": 0.8795218249787057,
      "learning_rate": 7.97018004907323e-06,
      "loss": 0.8795,
      "step": 9417
    },
    {
      "epoch": 0.5781638478774671,
      "grad_norm": 0.8269078118127124,
      "learning_rate": 7.968233131961223e-06,
      "loss": 0.7861,
      "step": 9418
    },
    {
      "epoch": 0.5782252371159335,
      "grad_norm": 0.81435707922313,
      "learning_rate": 7.966286295175824e-06,
      "loss": 0.8043,
      "step": 9419
    },
    {
      "epoch": 0.5782866263544001,
      "grad_norm": 0.8854329028165495,
      "learning_rate": 7.964339538794006e-06,
      "loss": 0.8081,
      "step": 9420
    },
    {
      "epoch": 0.5783480155928665,
      "grad_norm": 0.8348298200737053,
      "learning_rate": 7.962392862892738e-06,
      "loss": 0.7765,
      "step": 9421
    },
    {
      "epoch": 0.5784094048313331,
      "grad_norm": 0.8205285963475656,
      "learning_rate": 7.960446267548972e-06,
      "loss": 0.7772,
      "step": 9422
    },
    {
      "epoch": 0.5784707940697995,
      "grad_norm": 0.8488350923086533,
      "learning_rate": 7.958499752839677e-06,
      "loss": 0.7971,
      "step": 9423
    },
    {
      "epoch": 0.5785321833082661,
      "grad_norm": 0.831717140956946,
      "learning_rate": 7.956553318841801e-06,
      "loss": 0.9006,
      "step": 9424
    },
    {
      "epoch": 0.5785935725467326,
      "grad_norm": 0.9171975013689994,
      "learning_rate": 7.954606965632305e-06,
      "loss": 0.8165,
      "step": 9425
    },
    {
      "epoch": 0.578654961785199,
      "grad_norm": 0.8279543824385117,
      "learning_rate": 7.952660693288137e-06,
      "loss": 0.7925,
      "step": 9426
    },
    {
      "epoch": 0.5787163510236656,
      "grad_norm": 0.8999757526144919,
      "learning_rate": 7.950714501886239e-06,
      "loss": 0.7994,
      "step": 9427
    },
    {
      "epoch": 0.578777740262132,
      "grad_norm": 0.8499410300295027,
      "learning_rate": 7.948768391503558e-06,
      "loss": 0.8045,
      "step": 9428
    },
    {
      "epoch": 0.5788391295005986,
      "grad_norm": 0.8343982618862741,
      "learning_rate": 7.946822362217033e-06,
      "loss": 0.787,
      "step": 9429
    },
    {
      "epoch": 0.578900518739065,
      "grad_norm": 0.9156278434734152,
      "learning_rate": 7.9448764141036e-06,
      "loss": 0.8011,
      "step": 9430
    },
    {
      "epoch": 0.5789619079775316,
      "grad_norm": 0.8840128394703206,
      "learning_rate": 7.942930547240196e-06,
      "loss": 0.8689,
      "step": 9431
    },
    {
      "epoch": 0.579023297215998,
      "grad_norm": 0.8776422864694423,
      "learning_rate": 7.94098476170375e-06,
      "loss": 0.785,
      "step": 9432
    },
    {
      "epoch": 0.5790846864544645,
      "grad_norm": 0.9534017440460664,
      "learning_rate": 7.939039057571186e-06,
      "loss": 0.8444,
      "step": 9433
    },
    {
      "epoch": 0.5791460756929311,
      "grad_norm": 0.8805861021616063,
      "learning_rate": 7.937093434919431e-06,
      "loss": 0.8138,
      "step": 9434
    },
    {
      "epoch": 0.5792074649313975,
      "grad_norm": 0.6125798714299762,
      "learning_rate": 7.935147893825405e-06,
      "loss": 0.7064,
      "step": 9435
    },
    {
      "epoch": 0.5792688541698641,
      "grad_norm": 0.8761034400783723,
      "learning_rate": 7.933202434366032e-06,
      "loss": 0.8102,
      "step": 9436
    },
    {
      "epoch": 0.5793302434083305,
      "grad_norm": 0.8873905313393843,
      "learning_rate": 7.931257056618215e-06,
      "loss": 0.8257,
      "step": 9437
    },
    {
      "epoch": 0.579391632646797,
      "grad_norm": 0.8869971449962687,
      "learning_rate": 7.92931176065887e-06,
      "loss": 0.8261,
      "step": 9438
    },
    {
      "epoch": 0.5794530218852635,
      "grad_norm": 0.8685260489530968,
      "learning_rate": 7.927366546564911e-06,
      "loss": 0.7918,
      "step": 9439
    },
    {
      "epoch": 0.57951441112373,
      "grad_norm": 0.8763739152283605,
      "learning_rate": 7.925421414413234e-06,
      "loss": 0.8541,
      "step": 9440
    },
    {
      "epoch": 0.5795758003621965,
      "grad_norm": 0.9421569684410421,
      "learning_rate": 7.923476364280748e-06,
      "loss": 0.7702,
      "step": 9441
    },
    {
      "epoch": 0.579637189600663,
      "grad_norm": 0.8111048900490799,
      "learning_rate": 7.921531396244344e-06,
      "loss": 0.8384,
      "step": 9442
    },
    {
      "epoch": 0.5796985788391295,
      "grad_norm": 0.8832259529509817,
      "learning_rate": 7.919586510380922e-06,
      "loss": 0.8055,
      "step": 9443
    },
    {
      "epoch": 0.579759968077596,
      "grad_norm": 0.8251567027053348,
      "learning_rate": 7.91764170676737e-06,
      "loss": 0.7764,
      "step": 9444
    },
    {
      "epoch": 0.5798213573160625,
      "grad_norm": 0.7825283544564684,
      "learning_rate": 7.91569698548058e-06,
      "loss": 0.7746,
      "step": 9445
    },
    {
      "epoch": 0.579882746554529,
      "grad_norm": 0.8427107067664995,
      "learning_rate": 7.913752346597438e-06,
      "loss": 0.7904,
      "step": 9446
    },
    {
      "epoch": 0.5799441357929955,
      "grad_norm": 0.8661388706542149,
      "learning_rate": 7.91180779019482e-06,
      "loss": 0.7747,
      "step": 9447
    },
    {
      "epoch": 0.580005525031462,
      "grad_norm": 0.7491257734608068,
      "learning_rate": 7.90986331634961e-06,
      "loss": 0.8329,
      "step": 9448
    },
    {
      "epoch": 0.5800669142699285,
      "grad_norm": 0.8574730480432242,
      "learning_rate": 7.90791892513868e-06,
      "loss": 0.8075,
      "step": 9449
    },
    {
      "epoch": 0.580128303508395,
      "grad_norm": 0.8786527461142016,
      "learning_rate": 7.905974616638906e-06,
      "loss": 0.782,
      "step": 9450
    },
    {
      "epoch": 0.5801896927468615,
      "grad_norm": 0.8113565677514698,
      "learning_rate": 7.904030390927158e-06,
      "loss": 0.7845,
      "step": 9451
    },
    {
      "epoch": 0.5802510819853279,
      "grad_norm": 0.808919124406243,
      "learning_rate": 7.902086248080294e-06,
      "loss": 0.8026,
      "step": 9452
    },
    {
      "epoch": 0.5803124712237945,
      "grad_norm": 0.9106980235624944,
      "learning_rate": 7.900142188175183e-06,
      "loss": 0.8045,
      "step": 9453
    },
    {
      "epoch": 0.5803738604622609,
      "grad_norm": 0.8291418546226661,
      "learning_rate": 7.898198211288679e-06,
      "loss": 0.7967,
      "step": 9454
    },
    {
      "epoch": 0.5804352497007275,
      "grad_norm": 0.8811821795987922,
      "learning_rate": 7.896254317497644e-06,
      "loss": 0.8533,
      "step": 9455
    },
    {
      "epoch": 0.580496638939194,
      "grad_norm": 0.8217092352486678,
      "learning_rate": 7.894310506878931e-06,
      "loss": 0.8136,
      "step": 9456
    },
    {
      "epoch": 0.5805580281776604,
      "grad_norm": 0.8264097934258023,
      "learning_rate": 7.892366779509381e-06,
      "loss": 0.8203,
      "step": 9457
    },
    {
      "epoch": 0.580619417416127,
      "grad_norm": 0.7835179448980163,
      "learning_rate": 7.890423135465845e-06,
      "loss": 0.8195,
      "step": 9458
    },
    {
      "epoch": 0.5806808066545934,
      "grad_norm": 0.8897970651660141,
      "learning_rate": 7.888479574825166e-06,
      "loss": 0.8679,
      "step": 9459
    },
    {
      "epoch": 0.58074219589306,
      "grad_norm": 0.8487329579920467,
      "learning_rate": 7.88653609766418e-06,
      "loss": 0.8023,
      "step": 9460
    },
    {
      "epoch": 0.5808035851315264,
      "grad_norm": 0.8105602953125826,
      "learning_rate": 7.88459270405973e-06,
      "loss": 0.8151,
      "step": 9461
    },
    {
      "epoch": 0.580864974369993,
      "grad_norm": 0.8224573576122433,
      "learning_rate": 7.882649394088644e-06,
      "loss": 0.8376,
      "step": 9462
    },
    {
      "epoch": 0.5809263636084594,
      "grad_norm": 0.7889833180781137,
      "learning_rate": 7.880706167827748e-06,
      "loss": 0.8057,
      "step": 9463
    },
    {
      "epoch": 0.5809877528469259,
      "grad_norm": 0.8262891205728029,
      "learning_rate": 7.878763025353875e-06,
      "loss": 0.7763,
      "step": 9464
    },
    {
      "epoch": 0.5810491420853924,
      "grad_norm": 0.8067709016461589,
      "learning_rate": 7.876819966743842e-06,
      "loss": 0.8308,
      "step": 9465
    },
    {
      "epoch": 0.5811105313238589,
      "grad_norm": 0.8336026445354523,
      "learning_rate": 7.874876992074476e-06,
      "loss": 0.8055,
      "step": 9466
    },
    {
      "epoch": 0.5811719205623255,
      "grad_norm": 0.8986778281367006,
      "learning_rate": 7.872934101422585e-06,
      "loss": 0.8208,
      "step": 9467
    },
    {
      "epoch": 0.5812333098007919,
      "grad_norm": 0.7776170991709145,
      "learning_rate": 7.870991294864986e-06,
      "loss": 0.7918,
      "step": 9468
    },
    {
      "epoch": 0.5812946990392585,
      "grad_norm": 0.7501709222637978,
      "learning_rate": 7.869048572478488e-06,
      "loss": 0.8017,
      "step": 9469
    },
    {
      "epoch": 0.5813560882777249,
      "grad_norm": 0.9586140002919451,
      "learning_rate": 7.867105934339898e-06,
      "loss": 0.816,
      "step": 9470
    },
    {
      "epoch": 0.5814174775161914,
      "grad_norm": 0.9419669482801163,
      "learning_rate": 7.865163380526019e-06,
      "loss": 0.8636,
      "step": 9471
    },
    {
      "epoch": 0.5814788667546579,
      "grad_norm": 0.8558579158158891,
      "learning_rate": 7.863220911113645e-06,
      "loss": 0.8256,
      "step": 9472
    },
    {
      "epoch": 0.5815402559931244,
      "grad_norm": 0.8917227686794973,
      "learning_rate": 7.86127852617958e-06,
      "loss": 0.8417,
      "step": 9473
    },
    {
      "epoch": 0.5816016452315909,
      "grad_norm": 0.8014357635368681,
      "learning_rate": 7.85933622580061e-06,
      "loss": 0.8157,
      "step": 9474
    },
    {
      "epoch": 0.5816630344700574,
      "grad_norm": 0.8565851884616488,
      "learning_rate": 7.857394010053531e-06,
      "loss": 0.7777,
      "step": 9475
    },
    {
      "epoch": 0.5817244237085238,
      "grad_norm": 0.7606207577471273,
      "learning_rate": 7.85545187901513e-06,
      "loss": 0.7914,
      "step": 9476
    },
    {
      "epoch": 0.5817858129469904,
      "grad_norm": 0.9105877190371329,
      "learning_rate": 7.85350983276218e-06,
      "loss": 0.8515,
      "step": 9477
    },
    {
      "epoch": 0.5818472021854569,
      "grad_norm": 0.8310621473442791,
      "learning_rate": 7.851567871371468e-06,
      "loss": 0.7697,
      "step": 9478
    },
    {
      "epoch": 0.5819085914239234,
      "grad_norm": 0.8105326436622801,
      "learning_rate": 7.849625994919767e-06,
      "loss": 0.7981,
      "step": 9479
    },
    {
      "epoch": 0.5819699806623899,
      "grad_norm": 0.775647307185117,
      "learning_rate": 7.847684203483859e-06,
      "loss": 0.7968,
      "step": 9480
    },
    {
      "epoch": 0.5820313699008564,
      "grad_norm": 0.8748978002045806,
      "learning_rate": 7.845742497140498e-06,
      "loss": 0.8298,
      "step": 9481
    },
    {
      "epoch": 0.5820927591393229,
      "grad_norm": 0.9266560239732505,
      "learning_rate": 7.843800875966462e-06,
      "loss": 0.8671,
      "step": 9482
    },
    {
      "epoch": 0.5821541483777893,
      "grad_norm": 0.7608583445263086,
      "learning_rate": 7.841859340038505e-06,
      "loss": 0.7776,
      "step": 9483
    },
    {
      "epoch": 0.5822155376162559,
      "grad_norm": 1.018488031829931,
      "learning_rate": 7.839917889433395e-06,
      "loss": 0.8393,
      "step": 9484
    },
    {
      "epoch": 0.5822769268547223,
      "grad_norm": 0.974758595853701,
      "learning_rate": 7.837976524227884e-06,
      "loss": 0.8191,
      "step": 9485
    },
    {
      "epoch": 0.5823383160931889,
      "grad_norm": 0.8459043189423618,
      "learning_rate": 7.836035244498722e-06,
      "loss": 0.8165,
      "step": 9486
    },
    {
      "epoch": 0.5823997053316554,
      "grad_norm": 0.8092217744085457,
      "learning_rate": 7.834094050322661e-06,
      "loss": 0.8065,
      "step": 9487
    },
    {
      "epoch": 0.5824610945701219,
      "grad_norm": 0.8218790576057071,
      "learning_rate": 7.832152941776445e-06,
      "loss": 0.7943,
      "step": 9488
    },
    {
      "epoch": 0.5825224838085884,
      "grad_norm": 0.715665708754366,
      "learning_rate": 7.83021191893682e-06,
      "loss": 0.7714,
      "step": 9489
    },
    {
      "epoch": 0.5825838730470548,
      "grad_norm": 0.8463700871449673,
      "learning_rate": 7.828270981880525e-06,
      "loss": 0.7891,
      "step": 9490
    },
    {
      "epoch": 0.5826452622855214,
      "grad_norm": 0.8603742973017553,
      "learning_rate": 7.826330130684287e-06,
      "loss": 0.7739,
      "step": 9491
    },
    {
      "epoch": 0.5827066515239878,
      "grad_norm": 0.8887585597783096,
      "learning_rate": 7.824389365424849e-06,
      "loss": 0.78,
      "step": 9492
    },
    {
      "epoch": 0.5827680407624544,
      "grad_norm": 0.84422746676354,
      "learning_rate": 7.822448686178934e-06,
      "loss": 0.7873,
      "step": 9493
    },
    {
      "epoch": 0.5828294300009208,
      "grad_norm": 0.8301877847158655,
      "learning_rate": 7.820508093023268e-06,
      "loss": 0.8034,
      "step": 9494
    },
    {
      "epoch": 0.5828908192393873,
      "grad_norm": 0.8952436505455381,
      "learning_rate": 7.818567586034578e-06,
      "loss": 0.763,
      "step": 9495
    },
    {
      "epoch": 0.5829522084778538,
      "grad_norm": 0.8922573652966896,
      "learning_rate": 7.816627165289573e-06,
      "loss": 0.8517,
      "step": 9496
    },
    {
      "epoch": 0.5830135977163203,
      "grad_norm": 0.7385795982877945,
      "learning_rate": 7.814686830864975e-06,
      "loss": 0.7664,
      "step": 9497
    },
    {
      "epoch": 0.5830749869547869,
      "grad_norm": 0.9724837888134615,
      "learning_rate": 7.812746582837496e-06,
      "loss": 0.8282,
      "step": 9498
    },
    {
      "epoch": 0.5831363761932533,
      "grad_norm": 0.7573661203264326,
      "learning_rate": 7.81080642128384e-06,
      "loss": 0.8325,
      "step": 9499
    },
    {
      "epoch": 0.5831977654317199,
      "grad_norm": 0.9139522815888396,
      "learning_rate": 7.80886634628072e-06,
      "loss": 0.87,
      "step": 9500
    },
    {
      "epoch": 0.5832591546701863,
      "grad_norm": 0.919326192581944,
      "learning_rate": 7.80692635790483e-06,
      "loss": 0.8928,
      "step": 9501
    },
    {
      "epoch": 0.5833205439086528,
      "grad_norm": 0.9523607481064319,
      "learning_rate": 7.804986456232868e-06,
      "loss": 0.8692,
      "step": 9502
    },
    {
      "epoch": 0.5833819331471193,
      "grad_norm": 0.855439170541846,
      "learning_rate": 7.803046641341534e-06,
      "loss": 0.7834,
      "step": 9503
    },
    {
      "epoch": 0.5834433223855858,
      "grad_norm": 0.8774724115249957,
      "learning_rate": 7.801106913307512e-06,
      "loss": 0.8075,
      "step": 9504
    },
    {
      "epoch": 0.5835047116240523,
      "grad_norm": 0.8491350075283564,
      "learning_rate": 7.7991672722075e-06,
      "loss": 0.7809,
      "step": 9505
    },
    {
      "epoch": 0.5835661008625188,
      "grad_norm": 0.9542407428480237,
      "learning_rate": 7.797227718118176e-06,
      "loss": 0.7725,
      "step": 9506
    },
    {
      "epoch": 0.5836274901009852,
      "grad_norm": 0.8224309328896842,
      "learning_rate": 7.79528825111622e-06,
      "loss": 0.8221,
      "step": 9507
    },
    {
      "epoch": 0.5836888793394518,
      "grad_norm": 0.9392164755110212,
      "learning_rate": 7.793348871278308e-06,
      "loss": 0.8589,
      "step": 9508
    },
    {
      "epoch": 0.5837502685779183,
      "grad_norm": 0.8048049444999428,
      "learning_rate": 7.79140957868112e-06,
      "loss": 0.8001,
      "step": 9509
    },
    {
      "epoch": 0.5838116578163848,
      "grad_norm": 0.820279403848641,
      "learning_rate": 7.789470373401327e-06,
      "loss": 0.7844,
      "step": 9510
    },
    {
      "epoch": 0.5838730470548513,
      "grad_norm": 0.9814945821295032,
      "learning_rate": 7.787531255515587e-06,
      "loss": 0.8389,
      "step": 9511
    },
    {
      "epoch": 0.5839344362933178,
      "grad_norm": 0.9111355530170675,
      "learning_rate": 7.785592225100573e-06,
      "loss": 0.8431,
      "step": 9512
    },
    {
      "epoch": 0.5839958255317843,
      "grad_norm": 0.8955161975468386,
      "learning_rate": 7.78365328223294e-06,
      "loss": 0.8265,
      "step": 9513
    },
    {
      "epoch": 0.5840572147702507,
      "grad_norm": 0.7952402170813446,
      "learning_rate": 7.781714426989346e-06,
      "loss": 0.8017,
      "step": 9514
    },
    {
      "epoch": 0.5841186040087173,
      "grad_norm": 0.8333155612898089,
      "learning_rate": 7.779775659446449e-06,
      "loss": 0.8264,
      "step": 9515
    },
    {
      "epoch": 0.5841799932471837,
      "grad_norm": 0.882634016105373,
      "learning_rate": 7.77783697968089e-06,
      "loss": 0.8406,
      "step": 9516
    },
    {
      "epoch": 0.5842413824856503,
      "grad_norm": 0.8168852507014867,
      "learning_rate": 7.775898387769324e-06,
      "loss": 0.8235,
      "step": 9517
    },
    {
      "epoch": 0.5843027717241167,
      "grad_norm": 0.7955202525034782,
      "learning_rate": 7.773959883788387e-06,
      "loss": 0.7763,
      "step": 9518
    },
    {
      "epoch": 0.5843641609625833,
      "grad_norm": 0.7937901779843294,
      "learning_rate": 7.772021467814723e-06,
      "loss": 0.777,
      "step": 9519
    },
    {
      "epoch": 0.5844255502010498,
      "grad_norm": 0.7981341401991353,
      "learning_rate": 7.77008313992497e-06,
      "loss": 0.7793,
      "step": 9520
    },
    {
      "epoch": 0.5844869394395162,
      "grad_norm": 0.8285127380939431,
      "learning_rate": 7.768144900195752e-06,
      "loss": 0.7496,
      "step": 9521
    },
    {
      "epoch": 0.5845483286779828,
      "grad_norm": 0.884941403581906,
      "learning_rate": 7.766206748703703e-06,
      "loss": 0.8453,
      "step": 9522
    },
    {
      "epoch": 0.5846097179164492,
      "grad_norm": 0.9432485252446692,
      "learning_rate": 7.764268685525449e-06,
      "loss": 0.8752,
      "step": 9523
    },
    {
      "epoch": 0.5846711071549158,
      "grad_norm": 0.805707207883744,
      "learning_rate": 7.762330710737612e-06,
      "loss": 0.8193,
      "step": 9524
    },
    {
      "epoch": 0.5847324963933822,
      "grad_norm": 0.8825582410277822,
      "learning_rate": 7.760392824416811e-06,
      "loss": 0.8793,
      "step": 9525
    },
    {
      "epoch": 0.5847938856318488,
      "grad_norm": 0.8110477373113147,
      "learning_rate": 7.75845502663966e-06,
      "loss": 0.7903,
      "step": 9526
    },
    {
      "epoch": 0.5848552748703152,
      "grad_norm": 0.8788229021288357,
      "learning_rate": 7.756517317482767e-06,
      "loss": 0.8415,
      "step": 9527
    },
    {
      "epoch": 0.5849166641087817,
      "grad_norm": 0.9603748375589026,
      "learning_rate": 7.754579697022746e-06,
      "loss": 0.8141,
      "step": 9528
    },
    {
      "epoch": 0.5849780533472482,
      "grad_norm": 0.7537690478006936,
      "learning_rate": 7.752642165336195e-06,
      "loss": 0.7787,
      "step": 9529
    },
    {
      "epoch": 0.5850394425857147,
      "grad_norm": 0.8630487722692352,
      "learning_rate": 7.750704722499727e-06,
      "loss": 0.8221,
      "step": 9530
    },
    {
      "epoch": 0.5851008318241813,
      "grad_norm": 0.8967269258264394,
      "learning_rate": 7.748767368589927e-06,
      "loss": 0.841,
      "step": 9531
    },
    {
      "epoch": 0.5851622210626477,
      "grad_norm": 0.8365109116247246,
      "learning_rate": 7.746830103683391e-06,
      "loss": 0.786,
      "step": 9532
    },
    {
      "epoch": 0.5852236103011142,
      "grad_norm": 0.8496161118463085,
      "learning_rate": 7.744892927856715e-06,
      "loss": 0.8171,
      "step": 9533
    },
    {
      "epoch": 0.5852849995395807,
      "grad_norm": 0.7798353301494045,
      "learning_rate": 7.74295584118648e-06,
      "loss": 0.8044,
      "step": 9534
    },
    {
      "epoch": 0.5853463887780472,
      "grad_norm": 0.8130361447411925,
      "learning_rate": 7.741018843749279e-06,
      "loss": 0.8319,
      "step": 9535
    },
    {
      "epoch": 0.5854077780165137,
      "grad_norm": 0.9048725617404155,
      "learning_rate": 7.739081935621677e-06,
      "loss": 0.8191,
      "step": 9536
    },
    {
      "epoch": 0.5854691672549802,
      "grad_norm": 0.8391290436230487,
      "learning_rate": 7.737145116880261e-06,
      "loss": 0.808,
      "step": 9537
    },
    {
      "epoch": 0.5855305564934467,
      "grad_norm": 0.811043078771539,
      "learning_rate": 7.735208387601601e-06,
      "loss": 0.8228,
      "step": 9538
    },
    {
      "epoch": 0.5855919457319132,
      "grad_norm": 0.9155092282611755,
      "learning_rate": 7.733271747862265e-06,
      "loss": 0.8482,
      "step": 9539
    },
    {
      "epoch": 0.5856533349703797,
      "grad_norm": 0.9810305457030146,
      "learning_rate": 7.731335197738826e-06,
      "loss": 0.8386,
      "step": 9540
    },
    {
      "epoch": 0.5857147242088462,
      "grad_norm": 0.9629017190085727,
      "learning_rate": 7.729398737307834e-06,
      "loss": 0.787,
      "step": 9541
    },
    {
      "epoch": 0.5857761134473127,
      "grad_norm": 0.8774730861429674,
      "learning_rate": 7.727462366645856e-06,
      "loss": 0.8384,
      "step": 9542
    },
    {
      "epoch": 0.5858375026857792,
      "grad_norm": 0.9112563066693887,
      "learning_rate": 7.725526085829444e-06,
      "loss": 0.8105,
      "step": 9543
    },
    {
      "epoch": 0.5858988919242457,
      "grad_norm": 0.8386335816864032,
      "learning_rate": 7.723589894935154e-06,
      "loss": 0.8593,
      "step": 9544
    },
    {
      "epoch": 0.5859602811627121,
      "grad_norm": 0.8589103111187106,
      "learning_rate": 7.72165379403953e-06,
      "loss": 0.8027,
      "step": 9545
    },
    {
      "epoch": 0.5860216704011787,
      "grad_norm": 0.750189636221057,
      "learning_rate": 7.719717783219115e-06,
      "loss": 0.746,
      "step": 9546
    },
    {
      "epoch": 0.5860830596396451,
      "grad_norm": 0.8817088115858119,
      "learning_rate": 7.717781862550449e-06,
      "loss": 0.7991,
      "step": 9547
    },
    {
      "epoch": 0.5861444488781117,
      "grad_norm": 0.8019888697758846,
      "learning_rate": 7.715846032110076e-06,
      "loss": 0.8242,
      "step": 9548
    },
    {
      "epoch": 0.5862058381165781,
      "grad_norm": 0.8913000958282413,
      "learning_rate": 7.713910291974527e-06,
      "loss": 0.7446,
      "step": 9549
    },
    {
      "epoch": 0.5862672273550447,
      "grad_norm": 0.8486596870964834,
      "learning_rate": 7.711974642220329e-06,
      "loss": 0.823,
      "step": 9550
    },
    {
      "epoch": 0.5863286165935112,
      "grad_norm": 0.875840280297812,
      "learning_rate": 7.71003908292401e-06,
      "loss": 0.7791,
      "step": 9551
    },
    {
      "epoch": 0.5863900058319776,
      "grad_norm": 0.9590327141389052,
      "learning_rate": 7.708103614162092e-06,
      "loss": 0.8507,
      "step": 9552
    },
    {
      "epoch": 0.5864513950704442,
      "grad_norm": 0.7950977834639842,
      "learning_rate": 7.706168236011099e-06,
      "loss": 0.8139,
      "step": 9553
    },
    {
      "epoch": 0.5865127843089106,
      "grad_norm": 0.8787426370222975,
      "learning_rate": 7.704232948547544e-06,
      "loss": 0.8791,
      "step": 9554
    },
    {
      "epoch": 0.5865741735473772,
      "grad_norm": 0.8402442921071395,
      "learning_rate": 7.702297751847938e-06,
      "loss": 0.8237,
      "step": 9555
    },
    {
      "epoch": 0.5866355627858436,
      "grad_norm": 0.8205999304675688,
      "learning_rate": 7.700362645988792e-06,
      "loss": 0.8397,
      "step": 9556
    },
    {
      "epoch": 0.5866969520243102,
      "grad_norm": 0.8639981108465097,
      "learning_rate": 7.698427631046608e-06,
      "loss": 0.7036,
      "step": 9557
    },
    {
      "epoch": 0.5867583412627766,
      "grad_norm": 0.8603763600727967,
      "learning_rate": 7.69649270709789e-06,
      "loss": 0.7965,
      "step": 9558
    },
    {
      "epoch": 0.5868197305012431,
      "grad_norm": 0.940885532992849,
      "learning_rate": 7.694557874219139e-06,
      "loss": 0.8204,
      "step": 9559
    },
    {
      "epoch": 0.5868811197397096,
      "grad_norm": 0.8595729670572244,
      "learning_rate": 7.692623132486844e-06,
      "loss": 0.8729,
      "step": 9560
    },
    {
      "epoch": 0.5869425089781761,
      "grad_norm": 0.7905387854415753,
      "learning_rate": 7.690688481977493e-06,
      "loss": 0.8126,
      "step": 9561
    },
    {
      "epoch": 0.5870038982166427,
      "grad_norm": 0.8412830624558845,
      "learning_rate": 7.68875392276758e-06,
      "loss": 0.7525,
      "step": 9562
    },
    {
      "epoch": 0.5870652874551091,
      "grad_norm": 0.8396447806200319,
      "learning_rate": 7.686819454933584e-06,
      "loss": 0.8158,
      "step": 9563
    },
    {
      "epoch": 0.5871266766935757,
      "grad_norm": 0.8642933851823794,
      "learning_rate": 7.684885078551991e-06,
      "loss": 0.8565,
      "step": 9564
    },
    {
      "epoch": 0.5871880659320421,
      "grad_norm": 0.8569383664447913,
      "learning_rate": 7.682950793699271e-06,
      "loss": 0.846,
      "step": 9565
    },
    {
      "epoch": 0.5872494551705086,
      "grad_norm": 0.8942183279809532,
      "learning_rate": 7.681016600451897e-06,
      "loss": 0.8231,
      "step": 9566
    },
    {
      "epoch": 0.5873108444089751,
      "grad_norm": 0.8352352621631426,
      "learning_rate": 7.679082498886341e-06,
      "loss": 0.8436,
      "step": 9567
    },
    {
      "epoch": 0.5873722336474416,
      "grad_norm": 0.8874720559736639,
      "learning_rate": 7.677148489079064e-06,
      "loss": 0.7859,
      "step": 9568
    },
    {
      "epoch": 0.5874336228859081,
      "grad_norm": 0.7901160581868412,
      "learning_rate": 7.675214571106538e-06,
      "loss": 0.8191,
      "step": 9569
    },
    {
      "epoch": 0.5874950121243746,
      "grad_norm": 0.8630812330231307,
      "learning_rate": 7.673280745045208e-06,
      "loss": 0.8088,
      "step": 9570
    },
    {
      "epoch": 0.587556401362841,
      "grad_norm": 0.8872377875929063,
      "learning_rate": 7.671347010971536e-06,
      "loss": 0.8592,
      "step": 9571
    },
    {
      "epoch": 0.5876177906013076,
      "grad_norm": 0.7631585609475532,
      "learning_rate": 7.66941336896197e-06,
      "loss": 0.7784,
      "step": 9572
    },
    {
      "epoch": 0.5876791798397741,
      "grad_norm": 0.8242050705729106,
      "learning_rate": 7.66747981909296e-06,
      "loss": 0.8491,
      "step": 9573
    },
    {
      "epoch": 0.5877405690782406,
      "grad_norm": 0.7782862648392525,
      "learning_rate": 7.66554636144095e-06,
      "loss": 0.7903,
      "step": 9574
    },
    {
      "epoch": 0.5878019583167071,
      "grad_norm": 0.8246092611548957,
      "learning_rate": 7.663612996082372e-06,
      "loss": 0.809,
      "step": 9575
    },
    {
      "epoch": 0.5878633475551736,
      "grad_norm": 0.8993796289025567,
      "learning_rate": 7.661679723093673e-06,
      "loss": 0.8283,
      "step": 9576
    },
    {
      "epoch": 0.5879247367936401,
      "grad_norm": 0.891854664497923,
      "learning_rate": 7.659746542551275e-06,
      "loss": 0.7881,
      "step": 9577
    },
    {
      "epoch": 0.5879861260321065,
      "grad_norm": 0.817255806391117,
      "learning_rate": 7.657813454531619e-06,
      "loss": 0.7728,
      "step": 9578
    },
    {
      "epoch": 0.5880475152705731,
      "grad_norm": 0.859979014223842,
      "learning_rate": 7.655880459111123e-06,
      "loss": 0.8514,
      "step": 9579
    },
    {
      "epoch": 0.5881089045090395,
      "grad_norm": 0.890180314024258,
      "learning_rate": 7.653947556366207e-06,
      "loss": 0.7726,
      "step": 9580
    },
    {
      "epoch": 0.5881702937475061,
      "grad_norm": 0.8741974409202268,
      "learning_rate": 7.652014746373292e-06,
      "loss": 0.7991,
      "step": 9581
    },
    {
      "epoch": 0.5882316829859725,
      "grad_norm": 0.7506222741344322,
      "learning_rate": 7.650082029208793e-06,
      "loss": 0.7812,
      "step": 9582
    },
    {
      "epoch": 0.588293072224439,
      "grad_norm": 0.8784143795755979,
      "learning_rate": 7.64814940494912e-06,
      "loss": 0.8253,
      "step": 9583
    },
    {
      "epoch": 0.5883544614629056,
      "grad_norm": 0.8885536491928413,
      "learning_rate": 7.646216873670682e-06,
      "loss": 0.7815,
      "step": 9584
    },
    {
      "epoch": 0.588415850701372,
      "grad_norm": 0.9270058853395367,
      "learning_rate": 7.644284435449877e-06,
      "loss": 0.8261,
      "step": 9585
    },
    {
      "epoch": 0.5884772399398386,
      "grad_norm": 0.8199109174146302,
      "learning_rate": 7.642352090363105e-06,
      "loss": 0.7626,
      "step": 9586
    },
    {
      "epoch": 0.588538629178305,
      "grad_norm": 0.7773225428575976,
      "learning_rate": 7.640419838486769e-06,
      "loss": 0.7627,
      "step": 9587
    },
    {
      "epoch": 0.5886000184167716,
      "grad_norm": 0.8549080698192743,
      "learning_rate": 7.638487679897252e-06,
      "loss": 0.8292,
      "step": 9588
    },
    {
      "epoch": 0.588661407655238,
      "grad_norm": 0.8517734475241046,
      "learning_rate": 7.636555614670953e-06,
      "loss": 0.8032,
      "step": 9589
    },
    {
      "epoch": 0.5887227968937045,
      "grad_norm": 0.8793291789204526,
      "learning_rate": 7.634623642884249e-06,
      "loss": 0.8534,
      "step": 9590
    },
    {
      "epoch": 0.588784186132171,
      "grad_norm": 0.848160746986689,
      "learning_rate": 7.63269176461352e-06,
      "loss": 0.7824,
      "step": 9591
    },
    {
      "epoch": 0.5888455753706375,
      "grad_norm": 0.8602086230603532,
      "learning_rate": 7.63075997993515e-06,
      "loss": 0.799,
      "step": 9592
    },
    {
      "epoch": 0.5889069646091041,
      "grad_norm": 0.829079805915306,
      "learning_rate": 7.628828288925507e-06,
      "loss": 0.8051,
      "step": 9593
    },
    {
      "epoch": 0.5889683538475705,
      "grad_norm": 0.7582679083895191,
      "learning_rate": 7.626896691660969e-06,
      "loss": 0.7884,
      "step": 9594
    },
    {
      "epoch": 0.5890297430860371,
      "grad_norm": 0.7695875362290633,
      "learning_rate": 7.6249651882178935e-06,
      "loss": 0.8074,
      "step": 9595
    },
    {
      "epoch": 0.5890911323245035,
      "grad_norm": 0.8355867765316994,
      "learning_rate": 7.623033778672645e-06,
      "loss": 0.7966,
      "step": 9596
    },
    {
      "epoch": 0.58915252156297,
      "grad_norm": 0.8033784867404808,
      "learning_rate": 7.621102463101586e-06,
      "loss": 0.7466,
      "step": 9597
    },
    {
      "epoch": 0.5892139108014365,
      "grad_norm": 0.8477513674029336,
      "learning_rate": 7.619171241581068e-06,
      "loss": 0.7907,
      "step": 9598
    },
    {
      "epoch": 0.589275300039903,
      "grad_norm": 0.8991953756427412,
      "learning_rate": 7.617240114187452e-06,
      "loss": 0.8088,
      "step": 9599
    },
    {
      "epoch": 0.5893366892783695,
      "grad_norm": 0.940347773622032,
      "learning_rate": 7.61530908099707e-06,
      "loss": 0.8228,
      "step": 9600
    },
    {
      "epoch": 0.589398078516836,
      "grad_norm": 0.9259048477244596,
      "learning_rate": 7.6133781420862774e-06,
      "loss": 0.8624,
      "step": 9601
    },
    {
      "epoch": 0.5894594677553024,
      "grad_norm": 0.8699976523558054,
      "learning_rate": 7.6114472975314094e-06,
      "loss": 0.7736,
      "step": 9602
    },
    {
      "epoch": 0.589520856993769,
      "grad_norm": 0.8344122908403067,
      "learning_rate": 7.609516547408805e-06,
      "loss": 0.7992,
      "step": 9603
    },
    {
      "epoch": 0.5895822462322355,
      "grad_norm": 0.7411341040814413,
      "learning_rate": 7.607585891794799e-06,
      "loss": 0.8194,
      "step": 9604
    },
    {
      "epoch": 0.589643635470702,
      "grad_norm": 0.9613586586238604,
      "learning_rate": 7.605655330765716e-06,
      "loss": 0.8347,
      "step": 9605
    },
    {
      "epoch": 0.5897050247091685,
      "grad_norm": 0.8220635472769875,
      "learning_rate": 7.603724864397885e-06,
      "loss": 0.7808,
      "step": 9606
    },
    {
      "epoch": 0.589766413947635,
      "grad_norm": 0.9127666572490265,
      "learning_rate": 7.601794492767625e-06,
      "loss": 0.8096,
      "step": 9607
    },
    {
      "epoch": 0.5898278031861015,
      "grad_norm": 0.7426651793799035,
      "learning_rate": 7.599864215951257e-06,
      "loss": 0.7759,
      "step": 9608
    },
    {
      "epoch": 0.5898891924245679,
      "grad_norm": 0.8522792569888089,
      "learning_rate": 7.597934034025093e-06,
      "loss": 0.8194,
      "step": 9609
    },
    {
      "epoch": 0.5899505816630345,
      "grad_norm": 0.9805700098671517,
      "learning_rate": 7.5960039470654416e-06,
      "loss": 0.821,
      "step": 9610
    },
    {
      "epoch": 0.5900119709015009,
      "grad_norm": 0.8873018624860318,
      "learning_rate": 7.594073955148613e-06,
      "loss": 0.7567,
      "step": 9611
    },
    {
      "epoch": 0.5900733601399675,
      "grad_norm": 0.8821021490531918,
      "learning_rate": 7.59214405835091e-06,
      "loss": 0.8292,
      "step": 9612
    },
    {
      "epoch": 0.5901347493784339,
      "grad_norm": 0.7544538949897412,
      "learning_rate": 7.590214256748631e-06,
      "loss": 0.7762,
      "step": 9613
    },
    {
      "epoch": 0.5901961386169005,
      "grad_norm": 0.9319757931080804,
      "learning_rate": 7.588284550418068e-06,
      "loss": 0.7951,
      "step": 9614
    },
    {
      "epoch": 0.590257527855367,
      "grad_norm": 0.920980363571181,
      "learning_rate": 7.586354939435516e-06,
      "loss": 0.85,
      "step": 9615
    },
    {
      "epoch": 0.5903189170938334,
      "grad_norm": 0.8737445760220698,
      "learning_rate": 7.584425423877262e-06,
      "loss": 0.8107,
      "step": 9616
    },
    {
      "epoch": 0.5903803063323,
      "grad_norm": 0.9966402831140468,
      "learning_rate": 7.5824960038195915e-06,
      "loss": 0.8345,
      "step": 9617
    },
    {
      "epoch": 0.5904416955707664,
      "grad_norm": 0.8468771586734976,
      "learning_rate": 7.580566679338787e-06,
      "loss": 0.7888,
      "step": 9618
    },
    {
      "epoch": 0.590503084809233,
      "grad_norm": 0.7852359309518369,
      "learning_rate": 7.578637450511116e-06,
      "loss": 0.7834,
      "step": 9619
    },
    {
      "epoch": 0.5905644740476994,
      "grad_norm": 0.8980602005286584,
      "learning_rate": 7.576708317412859e-06,
      "loss": 0.7753,
      "step": 9620
    },
    {
      "epoch": 0.590625863286166,
      "grad_norm": 0.9168583342644202,
      "learning_rate": 7.574779280120281e-06,
      "loss": 0.8408,
      "step": 9621
    },
    {
      "epoch": 0.5906872525246324,
      "grad_norm": 0.7389971081456712,
      "learning_rate": 7.572850338709652e-06,
      "loss": 0.8105,
      "step": 9622
    },
    {
      "epoch": 0.5907486417630989,
      "grad_norm": 0.762778743508985,
      "learning_rate": 7.570921493257233e-06,
      "loss": 0.8104,
      "step": 9623
    },
    {
      "epoch": 0.5908100310015654,
      "grad_norm": 0.8588304575875587,
      "learning_rate": 7.568992743839275e-06,
      "loss": 0.7928,
      "step": 9624
    },
    {
      "epoch": 0.5908714202400319,
      "grad_norm": 0.7409799405288161,
      "learning_rate": 7.567064090532035e-06,
      "loss": 0.8081,
      "step": 9625
    },
    {
      "epoch": 0.5909328094784985,
      "grad_norm": 0.8272673333533833,
      "learning_rate": 7.565135533411766e-06,
      "loss": 0.7847,
      "step": 9626
    },
    {
      "epoch": 0.5909941987169649,
      "grad_norm": 0.8547418575644132,
      "learning_rate": 7.563207072554709e-06,
      "loss": 0.7658,
      "step": 9627
    },
    {
      "epoch": 0.5910555879554314,
      "grad_norm": 0.9471916310678146,
      "learning_rate": 7.561278708037114e-06,
      "loss": 0.7951,
      "step": 9628
    },
    {
      "epoch": 0.5911169771938979,
      "grad_norm": 0.8036905128734245,
      "learning_rate": 7.559350439935213e-06,
      "loss": 0.81,
      "step": 9629
    },
    {
      "epoch": 0.5911783664323644,
      "grad_norm": 0.8556730327446413,
      "learning_rate": 7.557422268325239e-06,
      "loss": 0.8251,
      "step": 9630
    },
    {
      "epoch": 0.5912397556708309,
      "grad_norm": 0.7739781412630639,
      "learning_rate": 7.55549419328343e-06,
      "loss": 0.7405,
      "step": 9631
    },
    {
      "epoch": 0.5913011449092974,
      "grad_norm": 0.9223925655365005,
      "learning_rate": 7.553566214886008e-06,
      "loss": 0.865,
      "step": 9632
    },
    {
      "epoch": 0.5913625341477639,
      "grad_norm": 0.865163258097281,
      "learning_rate": 7.551638333209202e-06,
      "loss": 0.8262,
      "step": 9633
    },
    {
      "epoch": 0.5914239233862304,
      "grad_norm": 0.8971662974326321,
      "learning_rate": 7.549710548329224e-06,
      "loss": 0.8288,
      "step": 9634
    },
    {
      "epoch": 0.591485312624697,
      "grad_norm": 0.8143657909076472,
      "learning_rate": 7.547782860322293e-06,
      "loss": 0.8194,
      "step": 9635
    },
    {
      "epoch": 0.5915467018631634,
      "grad_norm": 0.8692542565760681,
      "learning_rate": 7.545855269264621e-06,
      "loss": 0.808,
      "step": 9636
    },
    {
      "epoch": 0.5916080911016299,
      "grad_norm": 0.9321628675158581,
      "learning_rate": 7.543927775232414e-06,
      "loss": 0.8937,
      "step": 9637
    },
    {
      "epoch": 0.5916694803400964,
      "grad_norm": 0.9617065029636448,
      "learning_rate": 7.542000378301886e-06,
      "loss": 0.772,
      "step": 9638
    },
    {
      "epoch": 0.5917308695785629,
      "grad_norm": 0.9335746248703516,
      "learning_rate": 7.540073078549221e-06,
      "loss": 0.8163,
      "step": 9639
    },
    {
      "epoch": 0.5917922588170293,
      "grad_norm": 0.8394811609910723,
      "learning_rate": 7.538145876050628e-06,
      "loss": 0.8204,
      "step": 9640
    },
    {
      "epoch": 0.5918536480554959,
      "grad_norm": 0.874850057716661,
      "learning_rate": 7.5362187708822924e-06,
      "loss": 0.8158,
      "step": 9641
    },
    {
      "epoch": 0.5919150372939623,
      "grad_norm": 0.7775946112512477,
      "learning_rate": 7.534291763120407e-06,
      "loss": 0.7898,
      "step": 9642
    },
    {
      "epoch": 0.5919764265324289,
      "grad_norm": 0.8911715725008298,
      "learning_rate": 7.53236485284116e-06,
      "loss": 0.8278,
      "step": 9643
    },
    {
      "epoch": 0.5920378157708953,
      "grad_norm": 0.8047924794785144,
      "learning_rate": 7.530438040120722e-06,
      "loss": 0.8296,
      "step": 9644
    },
    {
      "epoch": 0.5920992050093619,
      "grad_norm": 0.8007940310367319,
      "learning_rate": 7.528511325035279e-06,
      "loss": 0.8077,
      "step": 9645
    },
    {
      "epoch": 0.5921605942478284,
      "grad_norm": 0.8961627464954186,
      "learning_rate": 7.526584707661001e-06,
      "loss": 0.8233,
      "step": 9646
    },
    {
      "epoch": 0.5922219834862948,
      "grad_norm": 0.9001355755664593,
      "learning_rate": 7.524658188074059e-06,
      "loss": 0.7942,
      "step": 9647
    },
    {
      "epoch": 0.5922833727247614,
      "grad_norm": 0.9258626009097788,
      "learning_rate": 7.52273176635062e-06,
      "loss": 0.7522,
      "step": 9648
    },
    {
      "epoch": 0.5923447619632278,
      "grad_norm": 0.8352854880056567,
      "learning_rate": 7.5208054425668405e-06,
      "loss": 0.7835,
      "step": 9649
    },
    {
      "epoch": 0.5924061512016944,
      "grad_norm": 0.8907952910354207,
      "learning_rate": 7.5188792167988835e-06,
      "loss": 0.7934,
      "step": 9650
    },
    {
      "epoch": 0.5924675404401608,
      "grad_norm": 0.8983732618723507,
      "learning_rate": 7.5169530891229e-06,
      "loss": 0.8292,
      "step": 9651
    },
    {
      "epoch": 0.5925289296786274,
      "grad_norm": 0.8105574727901598,
      "learning_rate": 7.51502705961504e-06,
      "loss": 0.8238,
      "step": 9652
    },
    {
      "epoch": 0.5925903189170938,
      "grad_norm": 0.8583212417880413,
      "learning_rate": 7.513101128351454e-06,
      "loss": 0.8305,
      "step": 9653
    },
    {
      "epoch": 0.5926517081555603,
      "grad_norm": 0.9034048435133746,
      "learning_rate": 7.511175295408279e-06,
      "loss": 0.8336,
      "step": 9654
    },
    {
      "epoch": 0.5927130973940268,
      "grad_norm": 0.9512505282235884,
      "learning_rate": 7.5092495608616555e-06,
      "loss": 0.7859,
      "step": 9655
    },
    {
      "epoch": 0.5927744866324933,
      "grad_norm": 0.9205694763297806,
      "learning_rate": 7.5073239247877195e-06,
      "loss": 0.8346,
      "step": 9656
    },
    {
      "epoch": 0.5928358758709599,
      "grad_norm": 0.8512229505151471,
      "learning_rate": 7.505398387262598e-06,
      "loss": 0.8176,
      "step": 9657
    },
    {
      "epoch": 0.5928972651094263,
      "grad_norm": 0.8513564006186741,
      "learning_rate": 7.503472948362425e-06,
      "loss": 0.8462,
      "step": 9658
    },
    {
      "epoch": 0.5929586543478929,
      "grad_norm": 0.8567307794586188,
      "learning_rate": 7.501547608163316e-06,
      "loss": 0.8437,
      "step": 9659
    },
    {
      "epoch": 0.5930200435863593,
      "grad_norm": 0.8191761258352918,
      "learning_rate": 7.499622366741391e-06,
      "loss": 0.8386,
      "step": 9660
    },
    {
      "epoch": 0.5930814328248258,
      "grad_norm": 0.8574665575413707,
      "learning_rate": 7.49769722417277e-06,
      "loss": 0.7953,
      "step": 9661
    },
    {
      "epoch": 0.5931428220632923,
      "grad_norm": 0.9183601692198579,
      "learning_rate": 7.4957721805335585e-06,
      "loss": 0.8224,
      "step": 9662
    },
    {
      "epoch": 0.5932042113017588,
      "grad_norm": 0.8444013663012359,
      "learning_rate": 7.493847235899871e-06,
      "loss": 0.7657,
      "step": 9663
    },
    {
      "epoch": 0.5932656005402253,
      "grad_norm": 0.8149908415372307,
      "learning_rate": 7.491922390347801e-06,
      "loss": 0.8172,
      "step": 9664
    },
    {
      "epoch": 0.5933269897786918,
      "grad_norm": 0.8583998209692448,
      "learning_rate": 7.489997643953455e-06,
      "loss": 0.8385,
      "step": 9665
    },
    {
      "epoch": 0.5933883790171582,
      "grad_norm": 0.8052771763914613,
      "learning_rate": 7.488072996792923e-06,
      "loss": 0.7974,
      "step": 9666
    },
    {
      "epoch": 0.5934497682556248,
      "grad_norm": 0.8899589922591079,
      "learning_rate": 7.486148448942305e-06,
      "loss": 0.8195,
      "step": 9667
    },
    {
      "epoch": 0.5935111574940913,
      "grad_norm": 0.813666328623889,
      "learning_rate": 7.484224000477684e-06,
      "loss": 0.8045,
      "step": 9668
    },
    {
      "epoch": 0.5935725467325578,
      "grad_norm": 0.8384535264623646,
      "learning_rate": 7.48229965147514e-06,
      "loss": 0.7982,
      "step": 9669
    },
    {
      "epoch": 0.5936339359710243,
      "grad_norm": 0.9780073829555681,
      "learning_rate": 7.480375402010758e-06,
      "loss": 0.7826,
      "step": 9670
    },
    {
      "epoch": 0.5936953252094908,
      "grad_norm": 0.9045857159804439,
      "learning_rate": 7.478451252160611e-06,
      "loss": 0.8234,
      "step": 9671
    },
    {
      "epoch": 0.5937567144479573,
      "grad_norm": 0.8165285226865169,
      "learning_rate": 7.476527202000774e-06,
      "loss": 0.7532,
      "step": 9672
    },
    {
      "epoch": 0.5938181036864237,
      "grad_norm": 0.794447420874295,
      "learning_rate": 7.4746032516073154e-06,
      "loss": 0.7917,
      "step": 9673
    },
    {
      "epoch": 0.5938794929248903,
      "grad_norm": 0.8705486506472915,
      "learning_rate": 7.472679401056293e-06,
      "loss": 0.8,
      "step": 9674
    },
    {
      "epoch": 0.5939408821633567,
      "grad_norm": 0.9168468027189364,
      "learning_rate": 7.470755650423772e-06,
      "loss": 0.8276,
      "step": 9675
    },
    {
      "epoch": 0.5940022714018233,
      "grad_norm": 0.8214048745656051,
      "learning_rate": 7.468831999785809e-06,
      "loss": 0.7786,
      "step": 9676
    },
    {
      "epoch": 0.5940636606402897,
      "grad_norm": 0.8757063989242265,
      "learning_rate": 7.466908449218455e-06,
      "loss": 0.8256,
      "step": 9677
    },
    {
      "epoch": 0.5941250498787563,
      "grad_norm": 0.7875995340755062,
      "learning_rate": 7.464984998797755e-06,
      "loss": 0.8227,
      "step": 9678
    },
    {
      "epoch": 0.5941864391172228,
      "grad_norm": 0.8638900796805477,
      "learning_rate": 7.463061648599757e-06,
      "loss": 0.8104,
      "step": 9679
    },
    {
      "epoch": 0.5942478283556892,
      "grad_norm": 0.9064452746823988,
      "learning_rate": 7.461138398700501e-06,
      "loss": 0.8152,
      "step": 9680
    },
    {
      "epoch": 0.5943092175941558,
      "grad_norm": 0.8249030261047684,
      "learning_rate": 7.459215249176021e-06,
      "loss": 0.8329,
      "step": 9681
    },
    {
      "epoch": 0.5943706068326222,
      "grad_norm": 0.9063648908736028,
      "learning_rate": 7.457292200102357e-06,
      "loss": 0.8282,
      "step": 9682
    },
    {
      "epoch": 0.5944319960710888,
      "grad_norm": 0.8691268503682409,
      "learning_rate": 7.455369251555527e-06,
      "loss": 0.816,
      "step": 9683
    },
    {
      "epoch": 0.5944933853095552,
      "grad_norm": 0.8114605549102415,
      "learning_rate": 7.453446403611561e-06,
      "loss": 0.8338,
      "step": 9684
    },
    {
      "epoch": 0.5945547745480217,
      "grad_norm": 0.8941846118489777,
      "learning_rate": 7.451523656346476e-06,
      "loss": 0.8341,
      "step": 9685
    },
    {
      "epoch": 0.5946161637864882,
      "grad_norm": 0.8244204113035195,
      "learning_rate": 7.449601009836295e-06,
      "loss": 0.8005,
      "step": 9686
    },
    {
      "epoch": 0.5946775530249547,
      "grad_norm": 0.778373151909993,
      "learning_rate": 7.447678464157028e-06,
      "loss": 0.7859,
      "step": 9687
    },
    {
      "epoch": 0.5947389422634213,
      "grad_norm": 0.830876047597177,
      "learning_rate": 7.44575601938468e-06,
      "loss": 0.8024,
      "step": 9688
    },
    {
      "epoch": 0.5948003315018877,
      "grad_norm": 0.8219484673671318,
      "learning_rate": 7.443833675595254e-06,
      "loss": 0.8205,
      "step": 9689
    },
    {
      "epoch": 0.5948617207403543,
      "grad_norm": 0.8411960708182151,
      "learning_rate": 7.441911432864758e-06,
      "loss": 0.8051,
      "step": 9690
    },
    {
      "epoch": 0.5949231099788207,
      "grad_norm": 0.8457727470314648,
      "learning_rate": 7.439989291269183e-06,
      "loss": 0.7992,
      "step": 9691
    },
    {
      "epoch": 0.5949844992172872,
      "grad_norm": 0.8078442301459585,
      "learning_rate": 7.438067250884526e-06,
      "loss": 0.8077,
      "step": 9692
    },
    {
      "epoch": 0.5950458884557537,
      "grad_norm": 0.8356066964603648,
      "learning_rate": 7.436145311786771e-06,
      "loss": 0.8095,
      "step": 9693
    },
    {
      "epoch": 0.5951072776942202,
      "grad_norm": 0.9012744992942584,
      "learning_rate": 7.434223474051903e-06,
      "loss": 0.8181,
      "step": 9694
    },
    {
      "epoch": 0.5951686669326867,
      "grad_norm": 0.8279157800757766,
      "learning_rate": 7.432301737755905e-06,
      "loss": 0.7794,
      "step": 9695
    },
    {
      "epoch": 0.5952300561711532,
      "grad_norm": 0.8725625377763977,
      "learning_rate": 7.43038010297475e-06,
      "loss": 0.871,
      "step": 9696
    },
    {
      "epoch": 0.5952914454096196,
      "grad_norm": 0.906830477149632,
      "learning_rate": 7.428458569784418e-06,
      "loss": 0.8274,
      "step": 9697
    },
    {
      "epoch": 0.5953528346480862,
      "grad_norm": 0.8308499492627197,
      "learning_rate": 7.42653713826087e-06,
      "loss": 0.8294,
      "step": 9698
    },
    {
      "epoch": 0.5954142238865527,
      "grad_norm": 0.9075191182689977,
      "learning_rate": 7.424615808480069e-06,
      "loss": 0.8203,
      "step": 9699
    },
    {
      "epoch": 0.5954756131250192,
      "grad_norm": 0.8790580424090926,
      "learning_rate": 7.422694580517984e-06,
      "loss": 0.8065,
      "step": 9700
    },
    {
      "epoch": 0.5955370023634857,
      "grad_norm": 0.9128476007022174,
      "learning_rate": 7.420773454450563e-06,
      "loss": 0.838,
      "step": 9701
    },
    {
      "epoch": 0.5955983916019522,
      "grad_norm": 0.8040128949598926,
      "learning_rate": 7.418852430353769e-06,
      "loss": 0.7913,
      "step": 9702
    },
    {
      "epoch": 0.5956597808404187,
      "grad_norm": 0.9430307361446414,
      "learning_rate": 7.4169315083035356e-06,
      "loss": 0.8192,
      "step": 9703
    },
    {
      "epoch": 0.5957211700788851,
      "grad_norm": 0.9054463683093852,
      "learning_rate": 7.415010688375819e-06,
      "loss": 0.8089,
      "step": 9704
    },
    {
      "epoch": 0.5957825593173517,
      "grad_norm": 0.8902240657090625,
      "learning_rate": 7.413089970646552e-06,
      "loss": 0.7694,
      "step": 9705
    },
    {
      "epoch": 0.5958439485558181,
      "grad_norm": 0.8268964972274263,
      "learning_rate": 7.411169355191676e-06,
      "loss": 0.8079,
      "step": 9706
    },
    {
      "epoch": 0.5959053377942847,
      "grad_norm": 0.8682793847695872,
      "learning_rate": 7.409248842087124e-06,
      "loss": 0.7961,
      "step": 9707
    },
    {
      "epoch": 0.5959667270327511,
      "grad_norm": 0.8481833792527919,
      "learning_rate": 7.407328431408818e-06,
      "loss": 0.801,
      "step": 9708
    },
    {
      "epoch": 0.5960281162712177,
      "grad_norm": 0.7915912250135202,
      "learning_rate": 7.405408123232687e-06,
      "loss": 0.7308,
      "step": 9709
    },
    {
      "epoch": 0.5960895055096842,
      "grad_norm": 0.9108981074438403,
      "learning_rate": 7.403487917634648e-06,
      "loss": 0.825,
      "step": 9710
    },
    {
      "epoch": 0.5961508947481506,
      "grad_norm": 0.9043997519161814,
      "learning_rate": 7.4015678146906215e-06,
      "loss": 0.7906,
      "step": 9711
    },
    {
      "epoch": 0.5962122839866172,
      "grad_norm": 0.8943368462752842,
      "learning_rate": 7.399647814476518e-06,
      "loss": 0.7961,
      "step": 9712
    },
    {
      "epoch": 0.5962736732250836,
      "grad_norm": 0.854048128719259,
      "learning_rate": 7.39772791706824e-06,
      "loss": 0.7964,
      "step": 9713
    },
    {
      "epoch": 0.5963350624635502,
      "grad_norm": 0.8811281475610957,
      "learning_rate": 7.395808122541697e-06,
      "loss": 0.7732,
      "step": 9714
    },
    {
      "epoch": 0.5963964517020166,
      "grad_norm": 0.8107425621698259,
      "learning_rate": 7.393888430972788e-06,
      "loss": 0.8355,
      "step": 9715
    },
    {
      "epoch": 0.5964578409404832,
      "grad_norm": 0.9378113929575586,
      "learning_rate": 7.391968842437404e-06,
      "loss": 0.8223,
      "step": 9716
    },
    {
      "epoch": 0.5965192301789496,
      "grad_norm": 0.8872181961961867,
      "learning_rate": 7.3900493570114466e-06,
      "loss": 0.7845,
      "step": 9717
    },
    {
      "epoch": 0.5965806194174161,
      "grad_norm": 0.8578656998614055,
      "learning_rate": 7.388129974770795e-06,
      "loss": 0.7869,
      "step": 9718
    },
    {
      "epoch": 0.5966420086558826,
      "grad_norm": 0.9300475303575484,
      "learning_rate": 7.386210695791331e-06,
      "loss": 0.847,
      "step": 9719
    },
    {
      "epoch": 0.5967033978943491,
      "grad_norm": 0.7888144662656191,
      "learning_rate": 7.384291520148941e-06,
      "loss": 0.8036,
      "step": 9720
    },
    {
      "epoch": 0.5967647871328157,
      "grad_norm": 0.5707149860813905,
      "learning_rate": 7.3823724479194944e-06,
      "loss": 0.6459,
      "step": 9721
    },
    {
      "epoch": 0.5968261763712821,
      "grad_norm": 0.7776819861962284,
      "learning_rate": 7.38045347917887e-06,
      "loss": 0.7675,
      "step": 9722
    },
    {
      "epoch": 0.5968875656097486,
      "grad_norm": 0.8372427414376782,
      "learning_rate": 7.378534614002926e-06,
      "loss": 0.7841,
      "step": 9723
    },
    {
      "epoch": 0.5969489548482151,
      "grad_norm": 0.8753029631690595,
      "learning_rate": 7.376615852467529e-06,
      "loss": 0.783,
      "step": 9724
    },
    {
      "epoch": 0.5970103440866816,
      "grad_norm": 0.8297975766186789,
      "learning_rate": 7.374697194648539e-06,
      "loss": 0.8389,
      "step": 9725
    },
    {
      "epoch": 0.5970717333251481,
      "grad_norm": 0.9697782961495304,
      "learning_rate": 7.372778640621809e-06,
      "loss": 0.8133,
      "step": 9726
    },
    {
      "epoch": 0.5971331225636146,
      "grad_norm": 0.9188473501970673,
      "learning_rate": 7.370860190463196e-06,
      "loss": 0.785,
      "step": 9727
    },
    {
      "epoch": 0.597194511802081,
      "grad_norm": 0.8687729279999524,
      "learning_rate": 7.368941844248536e-06,
      "loss": 0.8308,
      "step": 9728
    },
    {
      "epoch": 0.5972559010405476,
      "grad_norm": 1.0444503694640073,
      "learning_rate": 7.367023602053679e-06,
      "loss": 0.8526,
      "step": 9729
    },
    {
      "epoch": 0.597317290279014,
      "grad_norm": 0.8773473037712377,
      "learning_rate": 7.365105463954459e-06,
      "loss": 0.7905,
      "step": 9730
    },
    {
      "epoch": 0.5973786795174806,
      "grad_norm": 0.8771556733073486,
      "learning_rate": 7.3631874300267125e-06,
      "loss": 0.7789,
      "step": 9731
    },
    {
      "epoch": 0.5974400687559471,
      "grad_norm": 0.9215797892522523,
      "learning_rate": 7.361269500346274e-06,
      "loss": 0.7977,
      "step": 9732
    },
    {
      "epoch": 0.5975014579944136,
      "grad_norm": 0.8958722521404464,
      "learning_rate": 7.359351674988959e-06,
      "loss": 0.7673,
      "step": 9733
    },
    {
      "epoch": 0.5975628472328801,
      "grad_norm": 0.9201241199729102,
      "learning_rate": 7.357433954030599e-06,
      "loss": 0.7837,
      "step": 9734
    },
    {
      "epoch": 0.5976242364713465,
      "grad_norm": 0.9779800808104687,
      "learning_rate": 7.355516337547006e-06,
      "loss": 0.7924,
      "step": 9735
    },
    {
      "epoch": 0.5976856257098131,
      "grad_norm": 0.8138868478212059,
      "learning_rate": 7.353598825613999e-06,
      "loss": 0.8136,
      "step": 9736
    },
    {
      "epoch": 0.5977470149482795,
      "grad_norm": 0.8922305033714615,
      "learning_rate": 7.351681418307384e-06,
      "loss": 0.8025,
      "step": 9737
    },
    {
      "epoch": 0.5978084041867461,
      "grad_norm": 0.8777678174432424,
      "learning_rate": 7.349764115702964e-06,
      "loss": 0.8214,
      "step": 9738
    },
    {
      "epoch": 0.5978697934252125,
      "grad_norm": 0.8498325402613421,
      "learning_rate": 7.3478469178765444e-06,
      "loss": 0.8463,
      "step": 9739
    },
    {
      "epoch": 0.5979311826636791,
      "grad_norm": 0.8935638441384363,
      "learning_rate": 7.345929824903919e-06,
      "loss": 0.8085,
      "step": 9740
    },
    {
      "epoch": 0.5979925719021456,
      "grad_norm": 0.7811970989041743,
      "learning_rate": 7.3440128368608894e-06,
      "loss": 0.8136,
      "step": 9741
    },
    {
      "epoch": 0.598053961140612,
      "grad_norm": 0.8060546433638235,
      "learning_rate": 7.342095953823232e-06,
      "loss": 0.7964,
      "step": 9742
    },
    {
      "epoch": 0.5981153503790786,
      "grad_norm": 0.8479537398462809,
      "learning_rate": 7.3401791758667375e-06,
      "loss": 0.7492,
      "step": 9743
    },
    {
      "epoch": 0.598176739617545,
      "grad_norm": 0.9219304224598207,
      "learning_rate": 7.338262503067184e-06,
      "loss": 0.7903,
      "step": 9744
    },
    {
      "epoch": 0.5982381288560116,
      "grad_norm": 0.9135909828240613,
      "learning_rate": 7.336345935500353e-06,
      "loss": 0.7593,
      "step": 9745
    },
    {
      "epoch": 0.598299518094478,
      "grad_norm": 0.8882883931051402,
      "learning_rate": 7.334429473242014e-06,
      "loss": 0.8095,
      "step": 9746
    },
    {
      "epoch": 0.5983609073329446,
      "grad_norm": 0.8447324216205191,
      "learning_rate": 7.332513116367931e-06,
      "loss": 0.8249,
      "step": 9747
    },
    {
      "epoch": 0.598422296571411,
      "grad_norm": 0.7976676078976979,
      "learning_rate": 7.330596864953874e-06,
      "loss": 0.8057,
      "step": 9748
    },
    {
      "epoch": 0.5984836858098775,
      "grad_norm": 0.8756245570403499,
      "learning_rate": 7.328680719075596e-06,
      "loss": 0.8364,
      "step": 9749
    },
    {
      "epoch": 0.598545075048344,
      "grad_norm": 0.7792049532640755,
      "learning_rate": 7.32676467880886e-06,
      "loss": 0.7929,
      "step": 9750
    },
    {
      "epoch": 0.5986064642868105,
      "grad_norm": 0.9117710586137536,
      "learning_rate": 7.324848744229415e-06,
      "loss": 0.8211,
      "step": 9751
    },
    {
      "epoch": 0.5986678535252771,
      "grad_norm": 0.9159048731825353,
      "learning_rate": 7.322932915413004e-06,
      "loss": 0.8494,
      "step": 9752
    },
    {
      "epoch": 0.5987292427637435,
      "grad_norm": 0.8523831721425041,
      "learning_rate": 7.321017192435374e-06,
      "loss": 0.8379,
      "step": 9753
    },
    {
      "epoch": 0.59879063200221,
      "grad_norm": 0.7940312229278651,
      "learning_rate": 7.31910157537226e-06,
      "loss": 0.7893,
      "step": 9754
    },
    {
      "epoch": 0.5988520212406765,
      "grad_norm": 0.9886207439025855,
      "learning_rate": 7.317186064299401e-06,
      "loss": 0.7853,
      "step": 9755
    },
    {
      "epoch": 0.598913410479143,
      "grad_norm": 1.001808943492777,
      "learning_rate": 7.315270659292528e-06,
      "loss": 0.8507,
      "step": 9756
    },
    {
      "epoch": 0.5989747997176095,
      "grad_norm": 0.8568037945371272,
      "learning_rate": 7.313355360427363e-06,
      "loss": 0.7886,
      "step": 9757
    },
    {
      "epoch": 0.599036188956076,
      "grad_norm": 0.9030263653649525,
      "learning_rate": 7.3114401677796275e-06,
      "loss": 0.8102,
      "step": 9758
    },
    {
      "epoch": 0.5990975781945425,
      "grad_norm": 0.9565990694277838,
      "learning_rate": 7.309525081425044e-06,
      "loss": 0.8066,
      "step": 9759
    },
    {
      "epoch": 0.599158967433009,
      "grad_norm": 0.816841703050126,
      "learning_rate": 7.3076101014393215e-06,
      "loss": 0.7742,
      "step": 9760
    },
    {
      "epoch": 0.5992203566714754,
      "grad_norm": 0.8825501532157839,
      "learning_rate": 7.305695227898175e-06,
      "loss": 0.8497,
      "step": 9761
    },
    {
      "epoch": 0.599281745909942,
      "grad_norm": 0.8674910280881014,
      "learning_rate": 7.303780460877305e-06,
      "loss": 0.7742,
      "step": 9762
    },
    {
      "epoch": 0.5993431351484085,
      "grad_norm": 0.8171228761482208,
      "learning_rate": 7.301865800452412e-06,
      "loss": 0.8235,
      "step": 9763
    },
    {
      "epoch": 0.599404524386875,
      "grad_norm": 0.9679318056655675,
      "learning_rate": 7.299951246699198e-06,
      "loss": 0.8519,
      "step": 9764
    },
    {
      "epoch": 0.5994659136253415,
      "grad_norm": 0.8910736775050032,
      "learning_rate": 7.298036799693347e-06,
      "loss": 0.8226,
      "step": 9765
    },
    {
      "epoch": 0.599527302863808,
      "grad_norm": 0.9005850575054744,
      "learning_rate": 7.29612245951056e-06,
      "loss": 0.7881,
      "step": 9766
    },
    {
      "epoch": 0.5995886921022745,
      "grad_norm": 0.8703194039123324,
      "learning_rate": 7.294208226226507e-06,
      "loss": 0.7837,
      "step": 9767
    },
    {
      "epoch": 0.5996500813407409,
      "grad_norm": 0.94259809847688,
      "learning_rate": 7.292294099916877e-06,
      "loss": 0.8053,
      "step": 9768
    },
    {
      "epoch": 0.5997114705792075,
      "grad_norm": 0.8568576288855,
      "learning_rate": 7.29038008065734e-06,
      "loss": 0.7738,
      "step": 9769
    },
    {
      "epoch": 0.5997728598176739,
      "grad_norm": 0.8675632583253513,
      "learning_rate": 7.288466168523574e-06,
      "loss": 0.7622,
      "step": 9770
    },
    {
      "epoch": 0.5998342490561405,
      "grad_norm": 0.9256704292563418,
      "learning_rate": 7.286552363591244e-06,
      "loss": 0.7936,
      "step": 9771
    },
    {
      "epoch": 0.5998956382946069,
      "grad_norm": 0.877607778435087,
      "learning_rate": 7.284638665936008e-06,
      "loss": 0.7583,
      "step": 9772
    },
    {
      "epoch": 0.5999570275330735,
      "grad_norm": 0.8348685729661781,
      "learning_rate": 7.28272507563353e-06,
      "loss": 0.8393,
      "step": 9773
    },
    {
      "epoch": 0.60001841677154,
      "grad_norm": 0.8537352293693563,
      "learning_rate": 7.28081159275946e-06,
      "loss": 0.7845,
      "step": 9774
    },
    {
      "epoch": 0.6000798060100064,
      "grad_norm": 0.8731773394523776,
      "learning_rate": 7.278898217389454e-06,
      "loss": 0.7916,
      "step": 9775
    },
    {
      "epoch": 0.600141195248473,
      "grad_norm": 0.7747724863400502,
      "learning_rate": 7.276984949599156e-06,
      "loss": 0.7993,
      "step": 9776
    },
    {
      "epoch": 0.6002025844869394,
      "grad_norm": 0.7895373647050782,
      "learning_rate": 7.275071789464203e-06,
      "loss": 0.7635,
      "step": 9777
    },
    {
      "epoch": 0.600263973725406,
      "grad_norm": 0.7959477252412351,
      "learning_rate": 7.273158737060238e-06,
      "loss": 0.8342,
      "step": 9778
    },
    {
      "epoch": 0.6003253629638724,
      "grad_norm": 0.83151449066072,
      "learning_rate": 7.271245792462891e-06,
      "loss": 0.8317,
      "step": 9779
    },
    {
      "epoch": 0.600386752202339,
      "grad_norm": 0.8423195283067063,
      "learning_rate": 7.269332955747794e-06,
      "loss": 0.8067,
      "step": 9780
    },
    {
      "epoch": 0.6004481414408054,
      "grad_norm": 0.9051679790146746,
      "learning_rate": 7.2674202269905715e-06,
      "loss": 0.7859,
      "step": 9781
    },
    {
      "epoch": 0.6005095306792719,
      "grad_norm": 0.9181055467044942,
      "learning_rate": 7.265507606266841e-06,
      "loss": 0.8462,
      "step": 9782
    },
    {
      "epoch": 0.6005709199177384,
      "grad_norm": 0.9115007933114517,
      "learning_rate": 7.263595093652217e-06,
      "loss": 0.8428,
      "step": 9783
    },
    {
      "epoch": 0.6006323091562049,
      "grad_norm": 0.921410747184172,
      "learning_rate": 7.261682689222317e-06,
      "loss": 0.8309,
      "step": 9784
    },
    {
      "epoch": 0.6006936983946715,
      "grad_norm": 0.9018943413946975,
      "learning_rate": 7.259770393052743e-06,
      "loss": 0.8206,
      "step": 9785
    },
    {
      "epoch": 0.6007550876331379,
      "grad_norm": 0.8192583383624608,
      "learning_rate": 7.257858205219106e-06,
      "loss": 0.8365,
      "step": 9786
    },
    {
      "epoch": 0.6008164768716044,
      "grad_norm": 0.8664096261788021,
      "learning_rate": 7.255946125796998e-06,
      "loss": 0.851,
      "step": 9787
    },
    {
      "epoch": 0.6008778661100709,
      "grad_norm": 0.8195018669365804,
      "learning_rate": 7.254034154862013e-06,
      "loss": 0.752,
      "step": 9788
    },
    {
      "epoch": 0.6009392553485374,
      "grad_norm": 0.802921752806974,
      "learning_rate": 7.252122292489747e-06,
      "loss": 0.7691,
      "step": 9789
    },
    {
      "epoch": 0.6010006445870039,
      "grad_norm": 0.8973589270396137,
      "learning_rate": 7.250210538755782e-06,
      "loss": 0.8311,
      "step": 9790
    },
    {
      "epoch": 0.6010620338254704,
      "grad_norm": 0.8272857027447634,
      "learning_rate": 7.248298893735705e-06,
      "loss": 0.8243,
      "step": 9791
    },
    {
      "epoch": 0.6011234230639368,
      "grad_norm": 0.8066744363307677,
      "learning_rate": 7.246387357505087e-06,
      "loss": 0.7756,
      "step": 9792
    },
    {
      "epoch": 0.6011848123024034,
      "grad_norm": 0.8207142807041884,
      "learning_rate": 7.244475930139505e-06,
      "loss": 0.7818,
      "step": 9793
    },
    {
      "epoch": 0.6012462015408699,
      "grad_norm": 0.8861880876773848,
      "learning_rate": 7.242564611714524e-06,
      "loss": 0.7733,
      "step": 9794
    },
    {
      "epoch": 0.6013075907793364,
      "grad_norm": 0.8255145663065191,
      "learning_rate": 7.2406534023057155e-06,
      "loss": 0.7935,
      "step": 9795
    },
    {
      "epoch": 0.6013689800178029,
      "grad_norm": 0.9064841222682228,
      "learning_rate": 7.238742301988637e-06,
      "loss": 0.8018,
      "step": 9796
    },
    {
      "epoch": 0.6014303692562694,
      "grad_norm": 0.753536738725881,
      "learning_rate": 7.23683131083884e-06,
      "loss": 0.7846,
      "step": 9797
    },
    {
      "epoch": 0.6014917584947359,
      "grad_norm": 0.82466956479386,
      "learning_rate": 7.234920428931882e-06,
      "loss": 0.7841,
      "step": 9798
    },
    {
      "epoch": 0.6015531477332023,
      "grad_norm": 0.8480239302947279,
      "learning_rate": 7.233009656343304e-06,
      "loss": 0.7871,
      "step": 9799
    },
    {
      "epoch": 0.6016145369716689,
      "grad_norm": 0.8696615827409303,
      "learning_rate": 7.231098993148658e-06,
      "loss": 0.7716,
      "step": 9800
    },
    {
      "epoch": 0.6016759262101353,
      "grad_norm": 0.7610109954867909,
      "learning_rate": 7.229188439423478e-06,
      "loss": 0.7868,
      "step": 9801
    },
    {
      "epoch": 0.6017373154486019,
      "grad_norm": 0.8123045853304365,
      "learning_rate": 7.227277995243295e-06,
      "loss": 0.7998,
      "step": 9802
    },
    {
      "epoch": 0.6017987046870683,
      "grad_norm": 0.8323292173156501,
      "learning_rate": 7.225367660683644e-06,
      "loss": 0.8117,
      "step": 9803
    },
    {
      "epoch": 0.6018600939255349,
      "grad_norm": 0.8280072773850051,
      "learning_rate": 7.223457435820047e-06,
      "loss": 0.7953,
      "step": 9804
    },
    {
      "epoch": 0.6019214831640014,
      "grad_norm": 0.8616023395557997,
      "learning_rate": 7.221547320728035e-06,
      "loss": 0.8408,
      "step": 9805
    },
    {
      "epoch": 0.6019828724024678,
      "grad_norm": 0.8859306751184627,
      "learning_rate": 7.21963731548311e-06,
      "loss": 0.8098,
      "step": 9806
    },
    {
      "epoch": 0.6020442616409344,
      "grad_norm": 0.7026764720514739,
      "learning_rate": 7.217727420160796e-06,
      "loss": 0.7723,
      "step": 9807
    },
    {
      "epoch": 0.6021056508794008,
      "grad_norm": 0.7847458366647064,
      "learning_rate": 7.215817634836595e-06,
      "loss": 0.8178,
      "step": 9808
    },
    {
      "epoch": 0.6021670401178674,
      "grad_norm": 0.8516715011453337,
      "learning_rate": 7.213907959586015e-06,
      "loss": 0.8357,
      "step": 9809
    },
    {
      "epoch": 0.6022284293563338,
      "grad_norm": 0.7613661414534025,
      "learning_rate": 7.211998394484556e-06,
      "loss": 0.8124,
      "step": 9810
    },
    {
      "epoch": 0.6022898185948004,
      "grad_norm": 0.8413985478128518,
      "learning_rate": 7.210088939607709e-06,
      "loss": 0.8132,
      "step": 9811
    },
    {
      "epoch": 0.6023512078332668,
      "grad_norm": 0.9254656270037975,
      "learning_rate": 7.20817959503097e-06,
      "loss": 0.8126,
      "step": 9812
    },
    {
      "epoch": 0.6024125970717333,
      "grad_norm": 0.8474122412475975,
      "learning_rate": 7.20627036082982e-06,
      "loss": 0.7816,
      "step": 9813
    },
    {
      "epoch": 0.6024739863101998,
      "grad_norm": 0.8359652287391427,
      "learning_rate": 7.204361237079746e-06,
      "loss": 0.7755,
      "step": 9814
    },
    {
      "epoch": 0.6025353755486663,
      "grad_norm": 0.8942893063797075,
      "learning_rate": 7.202452223856229e-06,
      "loss": 0.7643,
      "step": 9815
    },
    {
      "epoch": 0.6025967647871329,
      "grad_norm": 0.9040470242456521,
      "learning_rate": 7.200543321234732e-06,
      "loss": 0.8135,
      "step": 9816
    },
    {
      "epoch": 0.6026581540255993,
      "grad_norm": 0.9095386040419169,
      "learning_rate": 7.198634529290733e-06,
      "loss": 0.8081,
      "step": 9817
    },
    {
      "epoch": 0.6027195432640658,
      "grad_norm": 0.8545719811080892,
      "learning_rate": 7.196725848099691e-06,
      "loss": 0.7959,
      "step": 9818
    },
    {
      "epoch": 0.6027809325025323,
      "grad_norm": 0.9011303321636898,
      "learning_rate": 7.194817277737072e-06,
      "loss": 0.8301,
      "step": 9819
    },
    {
      "epoch": 0.6028423217409988,
      "grad_norm": 0.8957936590069848,
      "learning_rate": 7.1929088182783314e-06,
      "loss": 0.8004,
      "step": 9820
    },
    {
      "epoch": 0.6029037109794653,
      "grad_norm": 0.8855678263432946,
      "learning_rate": 7.1910004697989166e-06,
      "loss": 0.8148,
      "step": 9821
    },
    {
      "epoch": 0.6029651002179318,
      "grad_norm": 0.9242152474923108,
      "learning_rate": 7.189092232374273e-06,
      "loss": 0.8663,
      "step": 9822
    },
    {
      "epoch": 0.6030264894563983,
      "grad_norm": 0.8023306465938438,
      "learning_rate": 7.187184106079851e-06,
      "loss": 0.7736,
      "step": 9823
    },
    {
      "epoch": 0.6030878786948648,
      "grad_norm": 0.8380132843043446,
      "learning_rate": 7.185276090991083e-06,
      "loss": 0.7678,
      "step": 9824
    },
    {
      "epoch": 0.6031492679333312,
      "grad_norm": 0.8253871511449586,
      "learning_rate": 7.1833681871834085e-06,
      "loss": 0.8089,
      "step": 9825
    },
    {
      "epoch": 0.6032106571717978,
      "grad_norm": 0.8707845039092292,
      "learning_rate": 7.181460394732254e-06,
      "loss": 0.7879,
      "step": 9826
    },
    {
      "epoch": 0.6032720464102643,
      "grad_norm": 0.7806735139315594,
      "learning_rate": 7.1795527137130405e-06,
      "loss": 0.7531,
      "step": 9827
    },
    {
      "epoch": 0.6033334356487308,
      "grad_norm": 0.7872515114512624,
      "learning_rate": 7.177645144201195e-06,
      "loss": 0.8186,
      "step": 9828
    },
    {
      "epoch": 0.6033948248871973,
      "grad_norm": 0.93794671958747,
      "learning_rate": 7.175737686272131e-06,
      "loss": 0.7914,
      "step": 9829
    },
    {
      "epoch": 0.6034562141256637,
      "grad_norm": 0.9168572055357592,
      "learning_rate": 7.173830340001266e-06,
      "loss": 0.7972,
      "step": 9830
    },
    {
      "epoch": 0.6035176033641303,
      "grad_norm": 0.7780598039547193,
      "learning_rate": 7.171923105464001e-06,
      "loss": 0.7884,
      "step": 9831
    },
    {
      "epoch": 0.6035789926025967,
      "grad_norm": 0.8233452892461194,
      "learning_rate": 7.1700159827357384e-06,
      "loss": 0.7696,
      "step": 9832
    },
    {
      "epoch": 0.6036403818410633,
      "grad_norm": 0.8699170628047693,
      "learning_rate": 7.1681089718918804e-06,
      "loss": 0.7584,
      "step": 9833
    },
    {
      "epoch": 0.6037017710795297,
      "grad_norm": 0.969727290181655,
      "learning_rate": 7.166202073007823e-06,
      "loss": 0.8617,
      "step": 9834
    },
    {
      "epoch": 0.6037631603179963,
      "grad_norm": 0.8554822930853241,
      "learning_rate": 7.164295286158955e-06,
      "loss": 0.7955,
      "step": 9835
    },
    {
      "epoch": 0.6038245495564627,
      "grad_norm": 0.8911261809085325,
      "learning_rate": 7.162388611420657e-06,
      "loss": 0.7658,
      "step": 9836
    },
    {
      "epoch": 0.6038859387949292,
      "grad_norm": 0.900519471316296,
      "learning_rate": 7.160482048868316e-06,
      "loss": 0.8213,
      "step": 9837
    },
    {
      "epoch": 0.6039473280333958,
      "grad_norm": 0.9041083176685212,
      "learning_rate": 7.158575598577304e-06,
      "loss": 0.8046,
      "step": 9838
    },
    {
      "epoch": 0.6040087172718622,
      "grad_norm": 0.8365015919486022,
      "learning_rate": 7.156669260622997e-06,
      "loss": 0.846,
      "step": 9839
    },
    {
      "epoch": 0.6040701065103288,
      "grad_norm": 0.8881783355708552,
      "learning_rate": 7.154763035080765e-06,
      "loss": 0.7875,
      "step": 9840
    },
    {
      "epoch": 0.6041314957487952,
      "grad_norm": 0.8825340269902091,
      "learning_rate": 7.152856922025962e-06,
      "loss": 0.8141,
      "step": 9841
    },
    {
      "epoch": 0.6041928849872618,
      "grad_norm": 0.9528926181573844,
      "learning_rate": 7.150950921533956e-06,
      "loss": 0.7913,
      "step": 9842
    },
    {
      "epoch": 0.6042542742257282,
      "grad_norm": 0.9243126111190233,
      "learning_rate": 7.149045033680095e-06,
      "loss": 0.7945,
      "step": 9843
    },
    {
      "epoch": 0.6043156634641947,
      "grad_norm": 0.8368441533868667,
      "learning_rate": 7.147139258539734e-06,
      "loss": 0.7461,
      "step": 9844
    },
    {
      "epoch": 0.6043770527026612,
      "grad_norm": 0.8574610573885322,
      "learning_rate": 7.145233596188218e-06,
      "loss": 0.7676,
      "step": 9845
    },
    {
      "epoch": 0.6044384419411277,
      "grad_norm": 0.9177447720648412,
      "learning_rate": 7.143328046700884e-06,
      "loss": 0.8341,
      "step": 9846
    },
    {
      "epoch": 0.6044998311795943,
      "grad_norm": 0.9285780399313773,
      "learning_rate": 7.14142261015307e-06,
      "loss": 0.8369,
      "step": 9847
    },
    {
      "epoch": 0.6045612204180607,
      "grad_norm": 0.6737352310571014,
      "learning_rate": 7.1395172866201105e-06,
      "loss": 0.7115,
      "step": 9848
    },
    {
      "epoch": 0.6046226096565273,
      "grad_norm": 0.8168002475666032,
      "learning_rate": 7.137612076177329e-06,
      "loss": 0.7521,
      "step": 9849
    },
    {
      "epoch": 0.6046839988949937,
      "grad_norm": 0.8247859863574868,
      "learning_rate": 7.135706978900055e-06,
      "loss": 0.8103,
      "step": 9850
    },
    {
      "epoch": 0.6047453881334602,
      "grad_norm": 0.8897555395541522,
      "learning_rate": 7.133801994863603e-06,
      "loss": 0.7924,
      "step": 9851
    },
    {
      "epoch": 0.6048067773719267,
      "grad_norm": 0.9222925295059033,
      "learning_rate": 7.1318971241432845e-06,
      "loss": 0.7992,
      "step": 9852
    },
    {
      "epoch": 0.6048681666103932,
      "grad_norm": 0.8994980767796932,
      "learning_rate": 7.1299923668144145e-06,
      "loss": 0.7908,
      "step": 9853
    },
    {
      "epoch": 0.6049295558488597,
      "grad_norm": 0.7520378625141576,
      "learning_rate": 7.1280877229522934e-06,
      "loss": 0.7937,
      "step": 9854
    },
    {
      "epoch": 0.6049909450873262,
      "grad_norm": 0.9285920140234418,
      "learning_rate": 7.12618319263223e-06,
      "loss": 0.8765,
      "step": 9855
    },
    {
      "epoch": 0.6050523343257926,
      "grad_norm": 0.8180247958702431,
      "learning_rate": 7.124278775929513e-06,
      "loss": 0.8293,
      "step": 9856
    },
    {
      "epoch": 0.6051137235642592,
      "grad_norm": 0.8969505287674178,
      "learning_rate": 7.122374472919434e-06,
      "loss": 0.8195,
      "step": 9857
    },
    {
      "epoch": 0.6051751128027257,
      "grad_norm": 0.8670749142742535,
      "learning_rate": 7.1204702836772856e-06,
      "loss": 0.829,
      "step": 9858
    },
    {
      "epoch": 0.6052365020411922,
      "grad_norm": 0.9276917500925657,
      "learning_rate": 7.118566208278346e-06,
      "loss": 0.8175,
      "step": 9859
    },
    {
      "epoch": 0.6052978912796587,
      "grad_norm": 0.9284860600160494,
      "learning_rate": 7.116662246797899e-06,
      "loss": 0.8422,
      "step": 9860
    },
    {
      "epoch": 0.6053592805181252,
      "grad_norm": 0.836145601841809,
      "learning_rate": 7.1147583993112105e-06,
      "loss": 0.8113,
      "step": 9861
    },
    {
      "epoch": 0.6054206697565917,
      "grad_norm": 0.8569601007909219,
      "learning_rate": 7.112854665893554e-06,
      "loss": 0.8183,
      "step": 9862
    },
    {
      "epoch": 0.6054820589950581,
      "grad_norm": 0.9161667387810887,
      "learning_rate": 7.110951046620194e-06,
      "loss": 0.7988,
      "step": 9863
    },
    {
      "epoch": 0.6055434482335247,
      "grad_norm": 0.8673345357559189,
      "learning_rate": 7.109047541566392e-06,
      "loss": 0.806,
      "step": 9864
    },
    {
      "epoch": 0.6056048374719911,
      "grad_norm": 0.9541297622901785,
      "learning_rate": 7.107144150807403e-06,
      "loss": 0.8258,
      "step": 9865
    },
    {
      "epoch": 0.6056662267104577,
      "grad_norm": 0.7966803191585459,
      "learning_rate": 7.105240874418475e-06,
      "loss": 0.7689,
      "step": 9866
    },
    {
      "epoch": 0.6057276159489241,
      "grad_norm": 0.8461420857169227,
      "learning_rate": 7.10333771247486e-06,
      "loss": 0.7565,
      "step": 9867
    },
    {
      "epoch": 0.6057890051873907,
      "grad_norm": 0.8798944797025737,
      "learning_rate": 7.101434665051796e-06,
      "loss": 0.7899,
      "step": 9868
    },
    {
      "epoch": 0.6058503944258572,
      "grad_norm": 0.8612307756650548,
      "learning_rate": 7.099531732224524e-06,
      "loss": 0.7528,
      "step": 9869
    },
    {
      "epoch": 0.6059117836643236,
      "grad_norm": 0.914714434505021,
      "learning_rate": 7.097628914068278e-06,
      "loss": 0.8147,
      "step": 9870
    },
    {
      "epoch": 0.6059731729027902,
      "grad_norm": 1.0478166796440576,
      "learning_rate": 7.095726210658281e-06,
      "loss": 0.8222,
      "step": 9871
    },
    {
      "epoch": 0.6060345621412566,
      "grad_norm": 0.8290443477726432,
      "learning_rate": 7.0938236220697575e-06,
      "loss": 0.779,
      "step": 9872
    },
    {
      "epoch": 0.6060959513797232,
      "grad_norm": 0.8913137177176877,
      "learning_rate": 7.091921148377932e-06,
      "loss": 0.8044,
      "step": 9873
    },
    {
      "epoch": 0.6061573406181896,
      "grad_norm": 0.8777635497492825,
      "learning_rate": 7.090018789658019e-06,
      "loss": 0.8223,
      "step": 9874
    },
    {
      "epoch": 0.6062187298566561,
      "grad_norm": 0.9031247825394584,
      "learning_rate": 7.088116545985224e-06,
      "loss": 0.755,
      "step": 9875
    },
    {
      "epoch": 0.6062801190951226,
      "grad_norm": 0.6393386321306297,
      "learning_rate": 7.086214417434758e-06,
      "loss": 0.6597,
      "step": 9876
    },
    {
      "epoch": 0.6063415083335891,
      "grad_norm": 0.7616707352135779,
      "learning_rate": 7.084312404081816e-06,
      "loss": 0.7394,
      "step": 9877
    },
    {
      "epoch": 0.6064028975720556,
      "grad_norm": 0.7755206802031707,
      "learning_rate": 7.0824105060016025e-06,
      "loss": 0.7796,
      "step": 9878
    },
    {
      "epoch": 0.6064642868105221,
      "grad_norm": 0.8939477988585013,
      "learning_rate": 7.080508723269308e-06,
      "loss": 0.84,
      "step": 9879
    },
    {
      "epoch": 0.6065256760489887,
      "grad_norm": 0.8770519153744831,
      "learning_rate": 7.078607055960114e-06,
      "loss": 0.7906,
      "step": 9880
    },
    {
      "epoch": 0.6065870652874551,
      "grad_norm": 0.9750471515024494,
      "learning_rate": 7.076705504149208e-06,
      "loss": 0.7931,
      "step": 9881
    },
    {
      "epoch": 0.6066484545259216,
      "grad_norm": 0.9263812456944548,
      "learning_rate": 7.074804067911769e-06,
      "loss": 0.8571,
      "step": 9882
    },
    {
      "epoch": 0.6067098437643881,
      "grad_norm": 0.8056644420980095,
      "learning_rate": 7.0729027473229715e-06,
      "loss": 0.7711,
      "step": 9883
    },
    {
      "epoch": 0.6067712330028546,
      "grad_norm": 0.8869756588930949,
      "learning_rate": 7.071001542457984e-06,
      "loss": 0.7878,
      "step": 9884
    },
    {
      "epoch": 0.6068326222413211,
      "grad_norm": 0.8815993365537557,
      "learning_rate": 7.069100453391971e-06,
      "loss": 0.8234,
      "step": 9885
    },
    {
      "epoch": 0.6068940114797876,
      "grad_norm": 0.8263230128809359,
      "learning_rate": 7.06719948020009e-06,
      "loss": 0.7862,
      "step": 9886
    },
    {
      "epoch": 0.606955400718254,
      "grad_norm": 0.9277330629125558,
      "learning_rate": 7.065298622957501e-06,
      "loss": 0.8437,
      "step": 9887
    },
    {
      "epoch": 0.6070167899567206,
      "grad_norm": 0.8430022958149002,
      "learning_rate": 7.063397881739351e-06,
      "loss": 0.7995,
      "step": 9888
    },
    {
      "epoch": 0.607078179195187,
      "grad_norm": 0.883374239552471,
      "learning_rate": 7.061497256620793e-06,
      "loss": 0.8286,
      "step": 9889
    },
    {
      "epoch": 0.6071395684336536,
      "grad_norm": 0.8252162548812445,
      "learning_rate": 7.059596747676963e-06,
      "loss": 0.8188,
      "step": 9890
    },
    {
      "epoch": 0.6072009576721201,
      "grad_norm": 0.8714333540437339,
      "learning_rate": 7.0576963549829965e-06,
      "loss": 0.8567,
      "step": 9891
    },
    {
      "epoch": 0.6072623469105866,
      "grad_norm": 0.8156770954007457,
      "learning_rate": 7.055796078614034e-06,
      "loss": 0.831,
      "step": 9892
    },
    {
      "epoch": 0.6073237361490531,
      "grad_norm": 0.8436434961493827,
      "learning_rate": 7.053895918645196e-06,
      "loss": 0.7698,
      "step": 9893
    },
    {
      "epoch": 0.6073851253875195,
      "grad_norm": 0.8460445813647192,
      "learning_rate": 7.051995875151614e-06,
      "loss": 0.828,
      "step": 9894
    },
    {
      "epoch": 0.6074465146259861,
      "grad_norm": 0.8326595152467267,
      "learning_rate": 7.050095948208399e-06,
      "loss": 0.7818,
      "step": 9895
    },
    {
      "epoch": 0.6075079038644525,
      "grad_norm": 0.8476295219628175,
      "learning_rate": 7.048196137890666e-06,
      "loss": 0.7564,
      "step": 9896
    },
    {
      "epoch": 0.6075692931029191,
      "grad_norm": 0.8407067330600193,
      "learning_rate": 7.046296444273531e-06,
      "loss": 0.7899,
      "step": 9897
    },
    {
      "epoch": 0.6076306823413855,
      "grad_norm": 0.870973153114571,
      "learning_rate": 7.044396867432093e-06,
      "loss": 0.8017,
      "step": 9898
    },
    {
      "epoch": 0.6076920715798521,
      "grad_norm": 0.9378871696076098,
      "learning_rate": 7.042497407441458e-06,
      "loss": 0.8635,
      "step": 9899
    },
    {
      "epoch": 0.6077534608183186,
      "grad_norm": 0.8919003799618449,
      "learning_rate": 7.040598064376713e-06,
      "loss": 0.836,
      "step": 9900
    },
    {
      "epoch": 0.607814850056785,
      "grad_norm": 0.8941754948385876,
      "learning_rate": 7.038698838312957e-06,
      "loss": 0.8265,
      "step": 9901
    },
    {
      "epoch": 0.6078762392952516,
      "grad_norm": 0.9824452201708872,
      "learning_rate": 7.036799729325272e-06,
      "loss": 0.8173,
      "step": 9902
    },
    {
      "epoch": 0.607937628533718,
      "grad_norm": 0.8730583277548506,
      "learning_rate": 7.0349007374887454e-06,
      "loss": 0.7935,
      "step": 9903
    },
    {
      "epoch": 0.6079990177721846,
      "grad_norm": 0.9388172413888598,
      "learning_rate": 7.033001862878452e-06,
      "loss": 0.7916,
      "step": 9904
    },
    {
      "epoch": 0.608060407010651,
      "grad_norm": 0.8153089667240649,
      "learning_rate": 7.031103105569459e-06,
      "loss": 0.7836,
      "step": 9905
    },
    {
      "epoch": 0.6081217962491176,
      "grad_norm": 0.921948745785663,
      "learning_rate": 7.029204465636842e-06,
      "loss": 0.8375,
      "step": 9906
    },
    {
      "epoch": 0.608183185487584,
      "grad_norm": 0.90636041783181,
      "learning_rate": 7.027305943155659e-06,
      "loss": 0.7727,
      "step": 9907
    },
    {
      "epoch": 0.6082445747260505,
      "grad_norm": 0.8927118018589474,
      "learning_rate": 7.025407538200973e-06,
      "loss": 0.8054,
      "step": 9908
    },
    {
      "epoch": 0.608305963964517,
      "grad_norm": 0.8681893311739898,
      "learning_rate": 7.0235092508478385e-06,
      "loss": 0.8275,
      "step": 9909
    },
    {
      "epoch": 0.6083673532029835,
      "grad_norm": 0.6054609548655463,
      "learning_rate": 7.0216110811713e-06,
      "loss": 0.6469,
      "step": 9910
    },
    {
      "epoch": 0.6084287424414501,
      "grad_norm": 0.8909547841468706,
      "learning_rate": 7.019713029246404e-06,
      "loss": 0.8312,
      "step": 9911
    },
    {
      "epoch": 0.6084901316799165,
      "grad_norm": 0.8282681693497953,
      "learning_rate": 7.017815095148193e-06,
      "loss": 0.8493,
      "step": 9912
    },
    {
      "epoch": 0.608551520918383,
      "grad_norm": 0.8969379266156241,
      "learning_rate": 7.015917278951699e-06,
      "loss": 0.7802,
      "step": 9913
    },
    {
      "epoch": 0.6086129101568495,
      "grad_norm": 0.7712771424590987,
      "learning_rate": 7.01401958073196e-06,
      "loss": 0.7943,
      "step": 9914
    },
    {
      "epoch": 0.608674299395316,
      "grad_norm": 0.8568986051472077,
      "learning_rate": 7.012122000563995e-06,
      "loss": 0.843,
      "step": 9915
    },
    {
      "epoch": 0.6087356886337825,
      "grad_norm": 0.9854067427833961,
      "learning_rate": 7.010224538522825e-06,
      "loss": 0.8088,
      "step": 9916
    },
    {
      "epoch": 0.608797077872249,
      "grad_norm": 0.8524974001060183,
      "learning_rate": 7.0083271946834705e-06,
      "loss": 0.8329,
      "step": 9917
    },
    {
      "epoch": 0.6088584671107155,
      "grad_norm": 0.8277048543070188,
      "learning_rate": 7.006429969120943e-06,
      "loss": 0.8279,
      "step": 9918
    },
    {
      "epoch": 0.608919856349182,
      "grad_norm": 0.973209029845214,
      "learning_rate": 7.004532861910251e-06,
      "loss": 0.7912,
      "step": 9919
    },
    {
      "epoch": 0.6089812455876484,
      "grad_norm": 0.8803196744051359,
      "learning_rate": 7.002635873126396e-06,
      "loss": 0.7954,
      "step": 9920
    },
    {
      "epoch": 0.609042634826115,
      "grad_norm": 0.7723748406297718,
      "learning_rate": 7.000739002844372e-06,
      "loss": 0.8365,
      "step": 9921
    },
    {
      "epoch": 0.6091040240645815,
      "grad_norm": 0.8369262682761937,
      "learning_rate": 6.998842251139179e-06,
      "loss": 0.7917,
      "step": 9922
    },
    {
      "epoch": 0.609165413303048,
      "grad_norm": 0.8936641829798213,
      "learning_rate": 6.996945618085802e-06,
      "loss": 0.7978,
      "step": 9923
    },
    {
      "epoch": 0.6092268025415145,
      "grad_norm": 0.8039923510884486,
      "learning_rate": 6.995049103759233e-06,
      "loss": 0.7342,
      "step": 9924
    },
    {
      "epoch": 0.609288191779981,
      "grad_norm": 0.8588238238256753,
      "learning_rate": 6.993152708234436e-06,
      "loss": 0.7808,
      "step": 9925
    },
    {
      "epoch": 0.6093495810184475,
      "grad_norm": 0.8540420864596816,
      "learning_rate": 6.991256431586397e-06,
      "loss": 0.8079,
      "step": 9926
    },
    {
      "epoch": 0.6094109702569139,
      "grad_norm": 0.9476959964582531,
      "learning_rate": 6.989360273890082e-06,
      "loss": 0.7581,
      "step": 9927
    },
    {
      "epoch": 0.6094723594953805,
      "grad_norm": 0.9869591003313647,
      "learning_rate": 6.987464235220459e-06,
      "loss": 0.7947,
      "step": 9928
    },
    {
      "epoch": 0.6095337487338469,
      "grad_norm": 0.8309169273330302,
      "learning_rate": 6.985568315652489e-06,
      "loss": 0.8016,
      "step": 9929
    },
    {
      "epoch": 0.6095951379723135,
      "grad_norm": 0.9585591057642182,
      "learning_rate": 6.983672515261122e-06,
      "loss": 0.8912,
      "step": 9930
    },
    {
      "epoch": 0.6096565272107799,
      "grad_norm": 0.906196048666951,
      "learning_rate": 6.981776834121314e-06,
      "loss": 0.806,
      "step": 9931
    },
    {
      "epoch": 0.6097179164492464,
      "grad_norm": 0.7745534467709936,
      "learning_rate": 6.979881272308009e-06,
      "loss": 0.7703,
      "step": 9932
    },
    {
      "epoch": 0.609779305687713,
      "grad_norm": 0.8209922570014306,
      "learning_rate": 6.9779858298961525e-06,
      "loss": 0.8465,
      "step": 9933
    },
    {
      "epoch": 0.6098406949261794,
      "grad_norm": 0.873177443579213,
      "learning_rate": 6.97609050696068e-06,
      "loss": 0.7825,
      "step": 9934
    },
    {
      "epoch": 0.609902084164646,
      "grad_norm": 0.7922304454540982,
      "learning_rate": 6.97419530357652e-06,
      "loss": 0.8007,
      "step": 9935
    },
    {
      "epoch": 0.6099634734031124,
      "grad_norm": 0.9355613295377342,
      "learning_rate": 6.972300219818604e-06,
      "loss": 0.8317,
      "step": 9936
    },
    {
      "epoch": 0.610024862641579,
      "grad_norm": 0.7753625743227827,
      "learning_rate": 6.970405255761854e-06,
      "loss": 0.7792,
      "step": 9937
    },
    {
      "epoch": 0.6100862518800454,
      "grad_norm": 0.8800083501795029,
      "learning_rate": 6.9685104114811884e-06,
      "loss": 0.7905,
      "step": 9938
    },
    {
      "epoch": 0.6101476411185119,
      "grad_norm": 0.6229250176117512,
      "learning_rate": 6.966615687051517e-06,
      "loss": 0.6831,
      "step": 9939
    },
    {
      "epoch": 0.6102090303569784,
      "grad_norm": 0.9282292561597609,
      "learning_rate": 6.964721082547753e-06,
      "loss": 0.751,
      "step": 9940
    },
    {
      "epoch": 0.6102704195954449,
      "grad_norm": 0.8471316927307535,
      "learning_rate": 6.962826598044796e-06,
      "loss": 0.7651,
      "step": 9941
    },
    {
      "epoch": 0.6103318088339114,
      "grad_norm": 0.970773257041073,
      "learning_rate": 6.96093223361755e-06,
      "loss": 0.8314,
      "step": 9942
    },
    {
      "epoch": 0.6103931980723779,
      "grad_norm": 0.6514926929365098,
      "learning_rate": 6.959037989340909e-06,
      "loss": 0.6999,
      "step": 9943
    },
    {
      "epoch": 0.6104545873108445,
      "grad_norm": 0.995177948940755,
      "learning_rate": 6.9571438652897565e-06,
      "loss": 0.7989,
      "step": 9944
    },
    {
      "epoch": 0.6105159765493109,
      "grad_norm": 0.9328769210813287,
      "learning_rate": 6.9552498615389826e-06,
      "loss": 0.8105,
      "step": 9945
    },
    {
      "epoch": 0.6105773657877774,
      "grad_norm": 0.8377520181632017,
      "learning_rate": 6.953355978163465e-06,
      "loss": 0.775,
      "step": 9946
    },
    {
      "epoch": 0.6106387550262439,
      "grad_norm": 0.8764536812503767,
      "learning_rate": 6.951462215238081e-06,
      "loss": 0.7965,
      "step": 9947
    },
    {
      "epoch": 0.6107001442647104,
      "grad_norm": 0.8870289799891248,
      "learning_rate": 6.949568572837704e-06,
      "loss": 0.7996,
      "step": 9948
    },
    {
      "epoch": 0.6107615335031769,
      "grad_norm": 0.9144063216301213,
      "learning_rate": 6.947675051037193e-06,
      "loss": 0.7483,
      "step": 9949
    },
    {
      "epoch": 0.6108229227416434,
      "grad_norm": 0.9447692135899101,
      "learning_rate": 6.94578164991141e-06,
      "loss": 0.8029,
      "step": 9950
    },
    {
      "epoch": 0.6108843119801098,
      "grad_norm": 0.8975310885311829,
      "learning_rate": 6.943888369535217e-06,
      "loss": 0.846,
      "step": 9951
    },
    {
      "epoch": 0.6109457012185764,
      "grad_norm": 0.8760636731946667,
      "learning_rate": 6.941995209983458e-06,
      "loss": 0.795,
      "step": 9952
    },
    {
      "epoch": 0.6110070904570429,
      "grad_norm": 0.8494092022712607,
      "learning_rate": 6.940102171330989e-06,
      "loss": 0.8069,
      "step": 9953
    },
    {
      "epoch": 0.6110684796955094,
      "grad_norm": 0.9275055592385425,
      "learning_rate": 6.938209253652644e-06,
      "loss": 0.8271,
      "step": 9954
    },
    {
      "epoch": 0.6111298689339759,
      "grad_norm": 0.9651280954987574,
      "learning_rate": 6.936316457023262e-06,
      "loss": 0.8503,
      "step": 9955
    },
    {
      "epoch": 0.6111912581724424,
      "grad_norm": 0.8359511036115421,
      "learning_rate": 6.934423781517676e-06,
      "loss": 0.787,
      "step": 9956
    },
    {
      "epoch": 0.6112526474109089,
      "grad_norm": 0.8256314900781584,
      "learning_rate": 6.932531227210714e-06,
      "loss": 0.7908,
      "step": 9957
    },
    {
      "epoch": 0.6113140366493753,
      "grad_norm": 0.8465355835057831,
      "learning_rate": 6.930638794177203e-06,
      "loss": 0.8003,
      "step": 9958
    },
    {
      "epoch": 0.6113754258878419,
      "grad_norm": 0.9648582752682429,
      "learning_rate": 6.928746482491953e-06,
      "loss": 0.8016,
      "step": 9959
    },
    {
      "epoch": 0.6114368151263083,
      "grad_norm": 0.9223102295663026,
      "learning_rate": 6.9268542922297775e-06,
      "loss": 0.8122,
      "step": 9960
    },
    {
      "epoch": 0.6114982043647749,
      "grad_norm": 1.012834940997894,
      "learning_rate": 6.9249622234654925e-06,
      "loss": 0.835,
      "step": 9961
    },
    {
      "epoch": 0.6115595936032413,
      "grad_norm": 0.8367890207829042,
      "learning_rate": 6.923070276273896e-06,
      "loss": 0.7915,
      "step": 9962
    },
    {
      "epoch": 0.6116209828417078,
      "grad_norm": 0.874214002923169,
      "learning_rate": 6.921178450729791e-06,
      "loss": 0.785,
      "step": 9963
    },
    {
      "epoch": 0.6116823720801744,
      "grad_norm": 0.8934882192721452,
      "learning_rate": 6.9192867469079625e-06,
      "loss": 0.824,
      "step": 9964
    },
    {
      "epoch": 0.6117437613186408,
      "grad_norm": 0.8418165906136823,
      "learning_rate": 6.9173951648832104e-06,
      "loss": 0.7317,
      "step": 9965
    },
    {
      "epoch": 0.6118051505571074,
      "grad_norm": 0.9147986577937135,
      "learning_rate": 6.915503704730311e-06,
      "loss": 0.8204,
      "step": 9966
    },
    {
      "epoch": 0.6118665397955738,
      "grad_norm": 0.9129814524298511,
      "learning_rate": 6.9136123665240495e-06,
      "loss": 0.7755,
      "step": 9967
    },
    {
      "epoch": 0.6119279290340404,
      "grad_norm": 0.915819968710442,
      "learning_rate": 6.9117211503392e-06,
      "loss": 0.7979,
      "step": 9968
    },
    {
      "epoch": 0.6119893182725068,
      "grad_norm": 0.8870377599687084,
      "learning_rate": 6.909830056250527e-06,
      "loss": 0.8636,
      "step": 9969
    },
    {
      "epoch": 0.6120507075109733,
      "grad_norm": 0.8655554622789844,
      "learning_rate": 6.907939084332802e-06,
      "loss": 0.773,
      "step": 9970
    },
    {
      "epoch": 0.6121120967494398,
      "grad_norm": 0.8540289020705573,
      "learning_rate": 6.906048234660778e-06,
      "loss": 0.7755,
      "step": 9971
    },
    {
      "epoch": 0.6121734859879063,
      "grad_norm": 0.8760549882949457,
      "learning_rate": 6.9041575073092196e-06,
      "loss": 0.7814,
      "step": 9972
    },
    {
      "epoch": 0.6122348752263728,
      "grad_norm": 0.815998133520709,
      "learning_rate": 6.902266902352874e-06,
      "loss": 0.7832,
      "step": 9973
    },
    {
      "epoch": 0.6122962644648393,
      "grad_norm": 0.8128491051827399,
      "learning_rate": 6.9003764198664835e-06,
      "loss": 0.7645,
      "step": 9974
    },
    {
      "epoch": 0.6123576537033059,
      "grad_norm": 0.8027511419303661,
      "learning_rate": 6.8984860599247885e-06,
      "loss": 0.791,
      "step": 9975
    },
    {
      "epoch": 0.6124190429417723,
      "grad_norm": 0.9217054407009836,
      "learning_rate": 6.89659582260253e-06,
      "loss": 0.7713,
      "step": 9976
    },
    {
      "epoch": 0.6124804321802388,
      "grad_norm": 0.9721812189927562,
      "learning_rate": 6.894705707974434e-06,
      "loss": 0.7968,
      "step": 9977
    },
    {
      "epoch": 0.6125418214187053,
      "grad_norm": 0.9769092678183752,
      "learning_rate": 6.892815716115236e-06,
      "loss": 0.8852,
      "step": 9978
    },
    {
      "epoch": 0.6126032106571718,
      "grad_norm": 0.8722376245061887,
      "learning_rate": 6.890925847099646e-06,
      "loss": 0.8253,
      "step": 9979
    },
    {
      "epoch": 0.6126645998956383,
      "grad_norm": 0.9443585309086105,
      "learning_rate": 6.889036101002385e-06,
      "loss": 0.783,
      "step": 9980
    },
    {
      "epoch": 0.6127259891341048,
      "grad_norm": 0.8613339901954451,
      "learning_rate": 6.887146477898168e-06,
      "loss": 0.8096,
      "step": 9981
    },
    {
      "epoch": 0.6127873783725712,
      "grad_norm": 0.8758350682346252,
      "learning_rate": 6.885256977861698e-06,
      "loss": 0.8439,
      "step": 9982
    },
    {
      "epoch": 0.6128487676110378,
      "grad_norm": 0.7885660119458767,
      "learning_rate": 6.883367600967681e-06,
      "loss": 0.7526,
      "step": 9983
    },
    {
      "epoch": 0.6129101568495042,
      "grad_norm": 0.8666245099397012,
      "learning_rate": 6.8814783472908106e-06,
      "loss": 0.7984,
      "step": 9984
    },
    {
      "epoch": 0.6129715460879708,
      "grad_norm": 0.7453529609709736,
      "learning_rate": 6.879589216905777e-06,
      "loss": 0.7478,
      "step": 9985
    },
    {
      "epoch": 0.6130329353264373,
      "grad_norm": 0.8763036904457833,
      "learning_rate": 6.877700209887275e-06,
      "loss": 0.8553,
      "step": 9986
    },
    {
      "epoch": 0.6130943245649038,
      "grad_norm": 0.8010558858613378,
      "learning_rate": 6.8758113263099794e-06,
      "loss": 0.7751,
      "step": 9987
    },
    {
      "epoch": 0.6131557138033703,
      "grad_norm": 0.8205216441456138,
      "learning_rate": 6.873922566248577e-06,
      "loss": 0.7818,
      "step": 9988
    },
    {
      "epoch": 0.6132171030418367,
      "grad_norm": 0.9736497082098625,
      "learning_rate": 6.872033929777731e-06,
      "loss": 0.7852,
      "step": 9989
    },
    {
      "epoch": 0.6132784922803033,
      "grad_norm": 0.8824686697912262,
      "learning_rate": 6.8701454169721135e-06,
      "loss": 0.7777,
      "step": 9990
    },
    {
      "epoch": 0.6133398815187697,
      "grad_norm": 0.8661891750047778,
      "learning_rate": 6.868257027906385e-06,
      "loss": 0.7551,
      "step": 9991
    },
    {
      "epoch": 0.6134012707572363,
      "grad_norm": 0.9180274840014621,
      "learning_rate": 6.866368762655209e-06,
      "loss": 0.7756,
      "step": 9992
    },
    {
      "epoch": 0.6134626599957027,
      "grad_norm": 0.8942417239080908,
      "learning_rate": 6.864480621293237e-06,
      "loss": 0.8266,
      "step": 9993
    },
    {
      "epoch": 0.6135240492341693,
      "grad_norm": 0.9088429821714541,
      "learning_rate": 6.862592603895113e-06,
      "loss": 0.8279,
      "step": 9994
    },
    {
      "epoch": 0.6135854384726358,
      "grad_norm": 0.9111121242392285,
      "learning_rate": 6.860704710535484e-06,
      "loss": 0.7935,
      "step": 9995
    },
    {
      "epoch": 0.6136468277111022,
      "grad_norm": 0.9427900953819098,
      "learning_rate": 6.858816941288987e-06,
      "loss": 0.7836,
      "step": 9996
    },
    {
      "epoch": 0.6137082169495688,
      "grad_norm": 0.841636508347563,
      "learning_rate": 6.856929296230258e-06,
      "loss": 0.8091,
      "step": 9997
    },
    {
      "epoch": 0.6137696061880352,
      "grad_norm": 0.8881399080891482,
      "learning_rate": 6.855041775433926e-06,
      "loss": 0.8957,
      "step": 9998
    },
    {
      "epoch": 0.6138309954265018,
      "grad_norm": 1.0345783325015887,
      "learning_rate": 6.85315437897461e-06,
      "loss": 0.8688,
      "step": 9999
    },
    {
      "epoch": 0.6138923846649682,
      "grad_norm": 0.7357972025851824,
      "learning_rate": 6.851267106926933e-06,
      "loss": 0.7535,
      "step": 10000
    },
    {
      "epoch": 0.6139537739034348,
      "grad_norm": 0.830779149101513,
      "learning_rate": 6.849379959365509e-06,
      "loss": 0.8452,
      "step": 10001
    },
    {
      "epoch": 0.6140151631419012,
      "grad_norm": 0.8556555617999587,
      "learning_rate": 6.8474929363649466e-06,
      "loss": 0.77,
      "step": 10002
    },
    {
      "epoch": 0.6140765523803677,
      "grad_norm": 0.9203073984372235,
      "learning_rate": 6.845606037999846e-06,
      "loss": 0.8569,
      "step": 10003
    },
    {
      "epoch": 0.6141379416188342,
      "grad_norm": 1.0311632131247734,
      "learning_rate": 6.843719264344812e-06,
      "loss": 0.8395,
      "step": 10004
    },
    {
      "epoch": 0.6141993308573007,
      "grad_norm": 0.8441360071722896,
      "learning_rate": 6.841832615474433e-06,
      "loss": 0.8039,
      "step": 10005
    },
    {
      "epoch": 0.6142607200957673,
      "grad_norm": 0.8302424691750087,
      "learning_rate": 6.839946091463305e-06,
      "loss": 0.7901,
      "step": 10006
    },
    {
      "epoch": 0.6143221093342337,
      "grad_norm": 0.8388172546689739,
      "learning_rate": 6.8380596923860096e-06,
      "loss": 0.8689,
      "step": 10007
    },
    {
      "epoch": 0.6143834985727002,
      "grad_norm": 0.8776829720533623,
      "learning_rate": 6.836173418317124e-06,
      "loss": 0.8091,
      "step": 10008
    },
    {
      "epoch": 0.6144448878111667,
      "grad_norm": 0.859295705654135,
      "learning_rate": 6.834287269331226e-06,
      "loss": 0.7822,
      "step": 10009
    },
    {
      "epoch": 0.6145062770496332,
      "grad_norm": 0.9837647593802613,
      "learning_rate": 6.83240124550288e-06,
      "loss": 0.7984,
      "step": 10010
    },
    {
      "epoch": 0.6145676662880997,
      "grad_norm": 0.9032919225164558,
      "learning_rate": 6.830515346906658e-06,
      "loss": 0.7953,
      "step": 10011
    },
    {
      "epoch": 0.6146290555265662,
      "grad_norm": 0.818243799357814,
      "learning_rate": 6.8286295736171175e-06,
      "loss": 0.8215,
      "step": 10012
    },
    {
      "epoch": 0.6146904447650327,
      "grad_norm": 0.8795965119417706,
      "learning_rate": 6.82674392570881e-06,
      "loss": 0.7831,
      "step": 10013
    },
    {
      "epoch": 0.6147518340034992,
      "grad_norm": 0.796528780311238,
      "learning_rate": 6.824858403256284e-06,
      "loss": 0.8057,
      "step": 10014
    },
    {
      "epoch": 0.6148132232419656,
      "grad_norm": 0.9202513025567974,
      "learning_rate": 6.8229730063340895e-06,
      "loss": 0.7934,
      "step": 10015
    },
    {
      "epoch": 0.6148746124804322,
      "grad_norm": 0.7951070543467471,
      "learning_rate": 6.821087735016762e-06,
      "loss": 0.8019,
      "step": 10016
    },
    {
      "epoch": 0.6149360017188987,
      "grad_norm": 0.8260426781224973,
      "learning_rate": 6.819202589378841e-06,
      "loss": 0.8021,
      "step": 10017
    },
    {
      "epoch": 0.6149973909573652,
      "grad_norm": 0.9099792217496921,
      "learning_rate": 6.817317569494855e-06,
      "loss": 0.8294,
      "step": 10018
    },
    {
      "epoch": 0.6150587801958317,
      "grad_norm": 0.5884338390878269,
      "learning_rate": 6.815432675439323e-06,
      "loss": 0.7272,
      "step": 10019
    },
    {
      "epoch": 0.6151201694342981,
      "grad_norm": 0.828263000927018,
      "learning_rate": 6.813547907286773e-06,
      "loss": 0.8223,
      "step": 10020
    },
    {
      "epoch": 0.6151815586727647,
      "grad_norm": 0.8209811721640461,
      "learning_rate": 6.811663265111713e-06,
      "loss": 0.8123,
      "step": 10021
    },
    {
      "epoch": 0.6152429479112311,
      "grad_norm": 0.8368873610556661,
      "learning_rate": 6.809778748988663e-06,
      "loss": 0.8314,
      "step": 10022
    },
    {
      "epoch": 0.6153043371496977,
      "grad_norm": 0.8506083017853198,
      "learning_rate": 6.8078943589921176e-06,
      "loss": 0.8111,
      "step": 10023
    },
    {
      "epoch": 0.6153657263881641,
      "grad_norm": 0.8291314462262763,
      "learning_rate": 6.806010095196578e-06,
      "loss": 0.8141,
      "step": 10024
    },
    {
      "epoch": 0.6154271156266307,
      "grad_norm": 0.8234774688840976,
      "learning_rate": 6.804125957676546e-06,
      "loss": 0.806,
      "step": 10025
    },
    {
      "epoch": 0.6154885048650971,
      "grad_norm": 0.93156503428581,
      "learning_rate": 6.802241946506505e-06,
      "loss": 0.806,
      "step": 10026
    },
    {
      "epoch": 0.6155498941035636,
      "grad_norm": 0.9276811025018201,
      "learning_rate": 6.800358061760948e-06,
      "loss": 0.8526,
      "step": 10027
    },
    {
      "epoch": 0.6156112833420302,
      "grad_norm": 0.8347194536443135,
      "learning_rate": 6.7984743035143445e-06,
      "loss": 0.7977,
      "step": 10028
    },
    {
      "epoch": 0.6156726725804966,
      "grad_norm": 0.8295326930960143,
      "learning_rate": 6.7965906718411766e-06,
      "loss": 0.7919,
      "step": 10029
    },
    {
      "epoch": 0.6157340618189632,
      "grad_norm": 0.8345595948183008,
      "learning_rate": 6.794707166815911e-06,
      "loss": 0.7783,
      "step": 10030
    },
    {
      "epoch": 0.6157954510574296,
      "grad_norm": 0.8126925276106078,
      "learning_rate": 6.792823788513015e-06,
      "loss": 0.7818,
      "step": 10031
    },
    {
      "epoch": 0.6158568402958962,
      "grad_norm": 0.9193388620860375,
      "learning_rate": 6.7909405370069495e-06,
      "loss": 0.7902,
      "step": 10032
    },
    {
      "epoch": 0.6159182295343626,
      "grad_norm": 0.8720464726574985,
      "learning_rate": 6.789057412372165e-06,
      "loss": 0.7772,
      "step": 10033
    },
    {
      "epoch": 0.6159796187728291,
      "grad_norm": 0.9633985930054427,
      "learning_rate": 6.7871744146831166e-06,
      "loss": 0.7818,
      "step": 10034
    },
    {
      "epoch": 0.6160410080112956,
      "grad_norm": 0.8792584416884656,
      "learning_rate": 6.7852915440142444e-06,
      "loss": 0.7592,
      "step": 10035
    },
    {
      "epoch": 0.6161023972497621,
      "grad_norm": 0.9165398257688453,
      "learning_rate": 6.783408800439992e-06,
      "loss": 0.7965,
      "step": 10036
    },
    {
      "epoch": 0.6161637864882286,
      "grad_norm": 0.9886186220921003,
      "learning_rate": 6.7815261840347964e-06,
      "loss": 0.7643,
      "step": 10037
    },
    {
      "epoch": 0.6162251757266951,
      "grad_norm": 0.9149227601308697,
      "learning_rate": 6.779643694873081e-06,
      "loss": 0.808,
      "step": 10038
    },
    {
      "epoch": 0.6162865649651617,
      "grad_norm": 0.8803265389469912,
      "learning_rate": 6.777761333029274e-06,
      "loss": 0.7789,
      "step": 10039
    },
    {
      "epoch": 0.6163479542036281,
      "grad_norm": 0.5791572661204296,
      "learning_rate": 6.775879098577798e-06,
      "loss": 0.6305,
      "step": 10040
    },
    {
      "epoch": 0.6164093434420946,
      "grad_norm": 0.7418730342635665,
      "learning_rate": 6.773996991593061e-06,
      "loss": 0.7804,
      "step": 10041
    },
    {
      "epoch": 0.6164707326805611,
      "grad_norm": 0.9275042057768114,
      "learning_rate": 6.772115012149481e-06,
      "loss": 0.8077,
      "step": 10042
    },
    {
      "epoch": 0.6165321219190276,
      "grad_norm": 0.8905171866447845,
      "learning_rate": 6.770233160321457e-06,
      "loss": 0.8098,
      "step": 10043
    },
    {
      "epoch": 0.6165935111574941,
      "grad_norm": 0.9397612835900384,
      "learning_rate": 6.768351436183387e-06,
      "loss": 0.8161,
      "step": 10044
    },
    {
      "epoch": 0.6166549003959606,
      "grad_norm": 0.8336092613415875,
      "learning_rate": 6.766469839809673e-06,
      "loss": 0.7478,
      "step": 10045
    },
    {
      "epoch": 0.616716289634427,
      "grad_norm": 0.9113445644115702,
      "learning_rate": 6.764588371274696e-06,
      "loss": 0.8055,
      "step": 10046
    },
    {
      "epoch": 0.6167776788728936,
      "grad_norm": 0.6506404492321409,
      "learning_rate": 6.762707030652851e-06,
      "loss": 0.7144,
      "step": 10047
    },
    {
      "epoch": 0.6168390681113601,
      "grad_norm": 0.9572647567517765,
      "learning_rate": 6.7608258180185085e-06,
      "loss": 0.8328,
      "step": 10048
    },
    {
      "epoch": 0.6169004573498266,
      "grad_norm": 0.8235559289065487,
      "learning_rate": 6.758944733446043e-06,
      "loss": 0.7671,
      "step": 10049
    },
    {
      "epoch": 0.6169618465882931,
      "grad_norm": 0.9069000199394949,
      "learning_rate": 6.757063777009829e-06,
      "loss": 0.7831,
      "step": 10050
    },
    {
      "epoch": 0.6170232358267596,
      "grad_norm": 0.9189715906967613,
      "learning_rate": 6.755182948784227e-06,
      "loss": 0.8107,
      "step": 10051
    },
    {
      "epoch": 0.6170846250652261,
      "grad_norm": 0.7754051611485063,
      "learning_rate": 6.753302248843603e-06,
      "loss": 0.7588,
      "step": 10052
    },
    {
      "epoch": 0.6171460143036925,
      "grad_norm": 0.9671513194243183,
      "learning_rate": 6.7514216772623e-06,
      "loss": 0.9174,
      "step": 10053
    },
    {
      "epoch": 0.6172074035421591,
      "grad_norm": 0.8932043360925701,
      "learning_rate": 6.749541234114674e-06,
      "loss": 0.7576,
      "step": 10054
    },
    {
      "epoch": 0.6172687927806255,
      "grad_norm": 0.9548516545699888,
      "learning_rate": 6.747660919475065e-06,
      "loss": 0.7833,
      "step": 10055
    },
    {
      "epoch": 0.6173301820190921,
      "grad_norm": 0.8566788735825943,
      "learning_rate": 6.745780733417819e-06,
      "loss": 0.7978,
      "step": 10056
    },
    {
      "epoch": 0.6173915712575585,
      "grad_norm": 0.9464735311540998,
      "learning_rate": 6.743900676017265e-06,
      "loss": 0.8263,
      "step": 10057
    },
    {
      "epoch": 0.617452960496025,
      "grad_norm": 0.8548401335723494,
      "learning_rate": 6.742020747347731e-06,
      "loss": 0.776,
      "step": 10058
    },
    {
      "epoch": 0.6175143497344916,
      "grad_norm": 0.8709821677999715,
      "learning_rate": 6.740140947483541e-06,
      "loss": 0.8186,
      "step": 10059
    },
    {
      "epoch": 0.617575738972958,
      "grad_norm": 0.8125018436818625,
      "learning_rate": 6.738261276499013e-06,
      "loss": 0.7675,
      "step": 10060
    },
    {
      "epoch": 0.6176371282114246,
      "grad_norm": 0.8881149249445625,
      "learning_rate": 6.736381734468465e-06,
      "loss": 0.8057,
      "step": 10061
    },
    {
      "epoch": 0.617698517449891,
      "grad_norm": 0.7863867345522271,
      "learning_rate": 6.734502321466202e-06,
      "loss": 0.8393,
      "step": 10062
    },
    {
      "epoch": 0.6177599066883576,
      "grad_norm": 0.8709096501748332,
      "learning_rate": 6.732623037566525e-06,
      "loss": 0.8304,
      "step": 10063
    },
    {
      "epoch": 0.617821295926824,
      "grad_norm": 0.8518633726977874,
      "learning_rate": 6.730743882843736e-06,
      "loss": 0.7794,
      "step": 10064
    },
    {
      "epoch": 0.6178826851652905,
      "grad_norm": 0.8591472845375714,
      "learning_rate": 6.7288648573721236e-06,
      "loss": 0.8196,
      "step": 10065
    },
    {
      "epoch": 0.617944074403757,
      "grad_norm": 0.8896166211483693,
      "learning_rate": 6.726985961225983e-06,
      "loss": 0.7412,
      "step": 10066
    },
    {
      "epoch": 0.6180054636422235,
      "grad_norm": 0.9255781278384723,
      "learning_rate": 6.7251071944795924e-06,
      "loss": 0.8248,
      "step": 10067
    },
    {
      "epoch": 0.61806685288069,
      "grad_norm": 0.7962154927431465,
      "learning_rate": 6.723228557207229e-06,
      "loss": 0.767,
      "step": 10068
    },
    {
      "epoch": 0.6181282421191565,
      "grad_norm": 0.852304699240773,
      "learning_rate": 6.721350049483163e-06,
      "loss": 0.8362,
      "step": 10069
    },
    {
      "epoch": 0.6181896313576231,
      "grad_norm": 0.8865699288781237,
      "learning_rate": 6.719471671381668e-06,
      "loss": 0.8044,
      "step": 10070
    },
    {
      "epoch": 0.6182510205960895,
      "grad_norm": 0.8726615026246737,
      "learning_rate": 6.717593422977004e-06,
      "loss": 0.8187,
      "step": 10071
    },
    {
      "epoch": 0.618312409834556,
      "grad_norm": 0.7982102471554908,
      "learning_rate": 6.715715304343424e-06,
      "loss": 0.7684,
      "step": 10072
    },
    {
      "epoch": 0.6183737990730225,
      "grad_norm": 0.823228007863961,
      "learning_rate": 6.713837315555187e-06,
      "loss": 0.8131,
      "step": 10073
    },
    {
      "epoch": 0.618435188311489,
      "grad_norm": 0.7499558901185989,
      "learning_rate": 6.711959456686534e-06,
      "loss": 0.7421,
      "step": 10074
    },
    {
      "epoch": 0.6184965775499555,
      "grad_norm": 1.012087763606216,
      "learning_rate": 6.710081727811711e-06,
      "loss": 0.8186,
      "step": 10075
    },
    {
      "epoch": 0.618557966788422,
      "grad_norm": 0.9288403136224115,
      "learning_rate": 6.708204129004955e-06,
      "loss": 0.8515,
      "step": 10076
    },
    {
      "epoch": 0.6186193560268884,
      "grad_norm": 0.8937809473512335,
      "learning_rate": 6.706326660340492e-06,
      "loss": 0.7588,
      "step": 10077
    },
    {
      "epoch": 0.618680745265355,
      "grad_norm": 0.8560609843434216,
      "learning_rate": 6.704449321892552e-06,
      "loss": 0.8162,
      "step": 10078
    },
    {
      "epoch": 0.6187421345038214,
      "grad_norm": 0.9361245211607757,
      "learning_rate": 6.702572113735358e-06,
      "loss": 0.8321,
      "step": 10079
    },
    {
      "epoch": 0.618803523742288,
      "grad_norm": 0.8868339722287448,
      "learning_rate": 6.700695035943122e-06,
      "loss": 0.7723,
      "step": 10080
    },
    {
      "epoch": 0.6188649129807545,
      "grad_norm": 0.8479937437164378,
      "learning_rate": 6.698818088590062e-06,
      "loss": 0.775,
      "step": 10081
    },
    {
      "epoch": 0.618926302219221,
      "grad_norm": 0.8182255007164998,
      "learning_rate": 6.696941271750376e-06,
      "loss": 0.8162,
      "step": 10082
    },
    {
      "epoch": 0.6189876914576875,
      "grad_norm": 0.9237069460957722,
      "learning_rate": 6.695064585498266e-06,
      "loss": 0.7898,
      "step": 10083
    },
    {
      "epoch": 0.6190490806961539,
      "grad_norm": 0.8001324663199354,
      "learning_rate": 6.693188029907929e-06,
      "loss": 0.7816,
      "step": 10084
    },
    {
      "epoch": 0.6191104699346205,
      "grad_norm": 0.9592457720779513,
      "learning_rate": 6.691311605053554e-06,
      "loss": 0.7756,
      "step": 10085
    },
    {
      "epoch": 0.6191718591730869,
      "grad_norm": 0.8370743806823359,
      "learning_rate": 6.689435311009333e-06,
      "loss": 0.7954,
      "step": 10086
    },
    {
      "epoch": 0.6192332484115535,
      "grad_norm": 0.9053883188903407,
      "learning_rate": 6.687559147849437e-06,
      "loss": 0.8168,
      "step": 10087
    },
    {
      "epoch": 0.6192946376500199,
      "grad_norm": 0.8951236071089752,
      "learning_rate": 6.685683115648043e-06,
      "loss": 0.749,
      "step": 10088
    },
    {
      "epoch": 0.6193560268884865,
      "grad_norm": 0.8646434163751856,
      "learning_rate": 6.683807214479323e-06,
      "loss": 0.7871,
      "step": 10089
    },
    {
      "epoch": 0.6194174161269529,
      "grad_norm": 0.8904720281684575,
      "learning_rate": 6.681931444417438e-06,
      "loss": 0.8035,
      "step": 10090
    },
    {
      "epoch": 0.6194788053654194,
      "grad_norm": 0.9787709134577529,
      "learning_rate": 6.680055805536556e-06,
      "loss": 0.819,
      "step": 10091
    },
    {
      "epoch": 0.619540194603886,
      "grad_norm": 0.94142620989406,
      "learning_rate": 6.678180297910817e-06,
      "loss": 0.8474,
      "step": 10092
    },
    {
      "epoch": 0.6196015838423524,
      "grad_norm": 0.8816408208183085,
      "learning_rate": 6.67630492161438e-06,
      "loss": 0.7614,
      "step": 10093
    },
    {
      "epoch": 0.619662973080819,
      "grad_norm": 0.8046241257237662,
      "learning_rate": 6.674429676721384e-06,
      "loss": 0.803,
      "step": 10094
    },
    {
      "epoch": 0.6197243623192854,
      "grad_norm": 0.9083831179733267,
      "learning_rate": 6.672554563305971e-06,
      "loss": 0.8204,
      "step": 10095
    },
    {
      "epoch": 0.619785751557752,
      "grad_norm": 0.8093987111711043,
      "learning_rate": 6.670679581442274e-06,
      "loss": 0.8507,
      "step": 10096
    },
    {
      "epoch": 0.6198471407962184,
      "grad_norm": 0.8152397110533592,
      "learning_rate": 6.668804731204417e-06,
      "loss": 0.7483,
      "step": 10097
    },
    {
      "epoch": 0.6199085300346849,
      "grad_norm": 0.860870974689436,
      "learning_rate": 6.666930012666526e-06,
      "loss": 0.7554,
      "step": 10098
    },
    {
      "epoch": 0.6199699192731514,
      "grad_norm": 0.8952929716740261,
      "learning_rate": 6.665055425902716e-06,
      "loss": 0.8578,
      "step": 10099
    },
    {
      "epoch": 0.6200313085116179,
      "grad_norm": 0.8728130935305668,
      "learning_rate": 6.663180970987105e-06,
      "loss": 0.808,
      "step": 10100
    },
    {
      "epoch": 0.6200926977500845,
      "grad_norm": 0.872731675427603,
      "learning_rate": 6.6613066479937985e-06,
      "loss": 0.7647,
      "step": 10101
    },
    {
      "epoch": 0.6201540869885509,
      "grad_norm": 0.818884094441352,
      "learning_rate": 6.659432456996893e-06,
      "loss": 0.7753,
      "step": 10102
    },
    {
      "epoch": 0.6202154762270174,
      "grad_norm": 0.9226171858140706,
      "learning_rate": 6.65755839807049e-06,
      "loss": 0.7845,
      "step": 10103
    },
    {
      "epoch": 0.6202768654654839,
      "grad_norm": 0.8814793517501118,
      "learning_rate": 6.655684471288678e-06,
      "loss": 0.7761,
      "step": 10104
    },
    {
      "epoch": 0.6203382547039504,
      "grad_norm": 0.947262503516861,
      "learning_rate": 6.653810676725548e-06,
      "loss": 0.8165,
      "step": 10105
    },
    {
      "epoch": 0.6203996439424169,
      "grad_norm": 0.7738352720778868,
      "learning_rate": 6.651937014455181e-06,
      "loss": 0.7533,
      "step": 10106
    },
    {
      "epoch": 0.6204610331808834,
      "grad_norm": 0.9515313023426063,
      "learning_rate": 6.650063484551647e-06,
      "loss": 0.8205,
      "step": 10107
    },
    {
      "epoch": 0.6205224224193499,
      "grad_norm": 0.8434373750681776,
      "learning_rate": 6.64819008708902e-06,
      "loss": 0.7899,
      "step": 10108
    },
    {
      "epoch": 0.6205838116578164,
      "grad_norm": 0.8827760494737822,
      "learning_rate": 6.646316822141368e-06,
      "loss": 0.7677,
      "step": 10109
    },
    {
      "epoch": 0.6206452008962828,
      "grad_norm": 0.9057724753142501,
      "learning_rate": 6.644443689782745e-06,
      "loss": 0.7973,
      "step": 10110
    },
    {
      "epoch": 0.6207065901347494,
      "grad_norm": 0.8039373014925073,
      "learning_rate": 6.6425706900872155e-06,
      "loss": 0.795,
      "step": 10111
    },
    {
      "epoch": 0.6207679793732159,
      "grad_norm": 0.7936193747320268,
      "learning_rate": 6.64069782312882e-06,
      "loss": 0.7614,
      "step": 10112
    },
    {
      "epoch": 0.6208293686116824,
      "grad_norm": 0.8274630389373472,
      "learning_rate": 6.638825088981604e-06,
      "loss": 0.8314,
      "step": 10113
    },
    {
      "epoch": 0.6208907578501489,
      "grad_norm": 0.8940937057863567,
      "learning_rate": 6.636952487719612e-06,
      "loss": 0.8973,
      "step": 10114
    },
    {
      "epoch": 0.6209521470886153,
      "grad_norm": 0.9561293292995919,
      "learning_rate": 6.635080019416873e-06,
      "loss": 0.7976,
      "step": 10115
    },
    {
      "epoch": 0.6210135363270819,
      "grad_norm": 0.8713545563288213,
      "learning_rate": 6.6332076841474225e-06,
      "loss": 0.8165,
      "step": 10116
    },
    {
      "epoch": 0.6210749255655483,
      "grad_norm": 0.9722233223947266,
      "learning_rate": 6.631335481985275e-06,
      "loss": 0.7737,
      "step": 10117
    },
    {
      "epoch": 0.6211363148040149,
      "grad_norm": 0.9590134834573552,
      "learning_rate": 6.6294634130044545e-06,
      "loss": 0.78,
      "step": 10118
    },
    {
      "epoch": 0.6211977040424813,
      "grad_norm": 0.9280513193033104,
      "learning_rate": 6.62759147727897e-06,
      "loss": 0.8086,
      "step": 10119
    },
    {
      "epoch": 0.6212590932809479,
      "grad_norm": 0.8682395329139613,
      "learning_rate": 6.625719674882832e-06,
      "loss": 0.8136,
      "step": 10120
    },
    {
      "epoch": 0.6213204825194143,
      "grad_norm": 0.9506186328451082,
      "learning_rate": 6.623848005890046e-06,
      "loss": 0.8706,
      "step": 10121
    },
    {
      "epoch": 0.6213818717578808,
      "grad_norm": 0.9738754124052161,
      "learning_rate": 6.6219764703746e-06,
      "loss": 0.82,
      "step": 10122
    },
    {
      "epoch": 0.6214432609963474,
      "grad_norm": 0.9191002016622588,
      "learning_rate": 6.620105068410494e-06,
      "loss": 0.7878,
      "step": 10123
    },
    {
      "epoch": 0.6215046502348138,
      "grad_norm": 0.9685945603183223,
      "learning_rate": 6.618233800071708e-06,
      "loss": 0.7801,
      "step": 10124
    },
    {
      "epoch": 0.6215660394732804,
      "grad_norm": 0.8395205105082578,
      "learning_rate": 6.61636266543223e-06,
      "loss": 0.775,
      "step": 10125
    },
    {
      "epoch": 0.6216274287117468,
      "grad_norm": 0.8779526002986301,
      "learning_rate": 6.614491664566035e-06,
      "loss": 0.7816,
      "step": 10126
    },
    {
      "epoch": 0.6216888179502134,
      "grad_norm": 0.770833418663516,
      "learning_rate": 6.612620797547087e-06,
      "loss": 0.7542,
      "step": 10127
    },
    {
      "epoch": 0.6217502071886798,
      "grad_norm": 0.9493017091000726,
      "learning_rate": 6.610750064449358e-06,
      "loss": 0.7458,
      "step": 10128
    },
    {
      "epoch": 0.6218115964271463,
      "grad_norm": 0.9123971186343697,
      "learning_rate": 6.608879465346804e-06,
      "loss": 0.8057,
      "step": 10129
    },
    {
      "epoch": 0.6218729856656128,
      "grad_norm": 0.785972847139596,
      "learning_rate": 6.607009000313384e-06,
      "loss": 0.7728,
      "step": 10130
    },
    {
      "epoch": 0.6219343749040793,
      "grad_norm": 0.8546168131202108,
      "learning_rate": 6.605138669423046e-06,
      "loss": 0.7899,
      "step": 10131
    },
    {
      "epoch": 0.6219957641425458,
      "grad_norm": 0.8636544815020047,
      "learning_rate": 6.603268472749733e-06,
      "loss": 0.7911,
      "step": 10132
    },
    {
      "epoch": 0.6220571533810123,
      "grad_norm": 0.7990279517018122,
      "learning_rate": 6.601398410367381e-06,
      "loss": 0.8009,
      "step": 10133
    },
    {
      "epoch": 0.6221185426194789,
      "grad_norm": 0.9213849645891752,
      "learning_rate": 6.5995284823499295e-06,
      "loss": 0.8354,
      "step": 10134
    },
    {
      "epoch": 0.6221799318579453,
      "grad_norm": 0.9075725439809718,
      "learning_rate": 6.597658688771307e-06,
      "loss": 0.8558,
      "step": 10135
    },
    {
      "epoch": 0.6222413210964118,
      "grad_norm": 0.8797783615933474,
      "learning_rate": 6.595789029705427e-06,
      "loss": 0.78,
      "step": 10136
    },
    {
      "epoch": 0.6223027103348783,
      "grad_norm": 0.786439053192878,
      "learning_rate": 6.593919505226218e-06,
      "loss": 0.8082,
      "step": 10137
    },
    {
      "epoch": 0.6223640995733448,
      "grad_norm": 0.8491423896653989,
      "learning_rate": 6.592050115407584e-06,
      "loss": 0.7852,
      "step": 10138
    },
    {
      "epoch": 0.6224254888118113,
      "grad_norm": 0.9950316457735299,
      "learning_rate": 6.59018086032344e-06,
      "loss": 0.8408,
      "step": 10139
    },
    {
      "epoch": 0.6224868780502778,
      "grad_norm": 0.8455926303714826,
      "learning_rate": 6.588311740047684e-06,
      "loss": 0.7982,
      "step": 10140
    },
    {
      "epoch": 0.6225482672887442,
      "grad_norm": 0.8710738136109537,
      "learning_rate": 6.5864427546542085e-06,
      "loss": 0.7712,
      "step": 10141
    },
    {
      "epoch": 0.6226096565272108,
      "grad_norm": 0.8225432169691651,
      "learning_rate": 6.584573904216911e-06,
      "loss": 0.7612,
      "step": 10142
    },
    {
      "epoch": 0.6226710457656772,
      "grad_norm": 0.6291758833221949,
      "learning_rate": 6.582705188809671e-06,
      "loss": 0.6923,
      "step": 10143
    },
    {
      "epoch": 0.6227324350041438,
      "grad_norm": 0.8752702657867644,
      "learning_rate": 6.580836608506374e-06,
      "loss": 0.784,
      "step": 10144
    },
    {
      "epoch": 0.6227938242426103,
      "grad_norm": 0.8207074908040031,
      "learning_rate": 6.5789681633808945e-06,
      "loss": 0.7967,
      "step": 10145
    },
    {
      "epoch": 0.6228552134810768,
      "grad_norm": 0.8600714940903137,
      "learning_rate": 6.577099853507099e-06,
      "loss": 0.7869,
      "step": 10146
    },
    {
      "epoch": 0.6229166027195433,
      "grad_norm": 0.8416622519555785,
      "learning_rate": 6.575231678958849e-06,
      "loss": 0.7776,
      "step": 10147
    },
    {
      "epoch": 0.6229779919580097,
      "grad_norm": 0.6008614528430986,
      "learning_rate": 6.573363639810012e-06,
      "loss": 0.7169,
      "step": 10148
    },
    {
      "epoch": 0.6230393811964763,
      "grad_norm": 0.8668208011242634,
      "learning_rate": 6.571495736134435e-06,
      "loss": 0.7906,
      "step": 10149
    },
    {
      "epoch": 0.6231007704349427,
      "grad_norm": 0.9375143167892399,
      "learning_rate": 6.569627968005972e-06,
      "loss": 0.8031,
      "step": 10150
    },
    {
      "epoch": 0.6231621596734093,
      "grad_norm": 0.8677568797510058,
      "learning_rate": 6.567760335498461e-06,
      "loss": 0.8328,
      "step": 10151
    },
    {
      "epoch": 0.6232235489118757,
      "grad_norm": 0.87143138968463,
      "learning_rate": 6.565892838685739e-06,
      "loss": 0.7315,
      "step": 10152
    },
    {
      "epoch": 0.6232849381503422,
      "grad_norm": 0.8996099487575702,
      "learning_rate": 6.56402547764164e-06,
      "loss": 0.8355,
      "step": 10153
    },
    {
      "epoch": 0.6233463273888088,
      "grad_norm": 0.9464141849340635,
      "learning_rate": 6.5621582524399915e-06,
      "loss": 0.7871,
      "step": 10154
    },
    {
      "epoch": 0.6234077166272752,
      "grad_norm": 0.8191052217427682,
      "learning_rate": 6.5602911631546165e-06,
      "loss": 0.7996,
      "step": 10155
    },
    {
      "epoch": 0.6234691058657418,
      "grad_norm": 0.8426214215993408,
      "learning_rate": 6.558424209859327e-06,
      "loss": 0.7996,
      "step": 10156
    },
    {
      "epoch": 0.6235304951042082,
      "grad_norm": 0.917386653402422,
      "learning_rate": 6.556557392627936e-06,
      "loss": 0.7898,
      "step": 10157
    },
    {
      "epoch": 0.6235918843426748,
      "grad_norm": 0.914425685650769,
      "learning_rate": 6.554690711534245e-06,
      "loss": 0.7914,
      "step": 10158
    },
    {
      "epoch": 0.6236532735811412,
      "grad_norm": 0.8069669823654941,
      "learning_rate": 6.552824166652059e-06,
      "loss": 0.7931,
      "step": 10159
    },
    {
      "epoch": 0.6237146628196077,
      "grad_norm": 0.8902733131808432,
      "learning_rate": 6.550957758055173e-06,
      "loss": 0.7717,
      "step": 10160
    },
    {
      "epoch": 0.6237760520580742,
      "grad_norm": 0.8191168069332323,
      "learning_rate": 6.549091485817369e-06,
      "loss": 0.8068,
      "step": 10161
    },
    {
      "epoch": 0.6238374412965407,
      "grad_norm": 0.8334407954284633,
      "learning_rate": 6.547225350012438e-06,
      "loss": 0.8474,
      "step": 10162
    },
    {
      "epoch": 0.6238988305350072,
      "grad_norm": 0.9424096079199304,
      "learning_rate": 6.545359350714153e-06,
      "loss": 0.8653,
      "step": 10163
    },
    {
      "epoch": 0.6239602197734737,
      "grad_norm": 0.8536970535161453,
      "learning_rate": 6.543493487996293e-06,
      "loss": 0.8311,
      "step": 10164
    },
    {
      "epoch": 0.6240216090119403,
      "grad_norm": 0.9925821999839679,
      "learning_rate": 6.541627761932623e-06,
      "loss": 0.8274,
      "step": 10165
    },
    {
      "epoch": 0.6240829982504067,
      "grad_norm": 0.846255077048435,
      "learning_rate": 6.539762172596901e-06,
      "loss": 0.8252,
      "step": 10166
    },
    {
      "epoch": 0.6241443874888732,
      "grad_norm": 0.8487402029414649,
      "learning_rate": 6.5378967200628885e-06,
      "loss": 0.8035,
      "step": 10167
    },
    {
      "epoch": 0.6242057767273397,
      "grad_norm": 0.8746870188111721,
      "learning_rate": 6.536031404404333e-06,
      "loss": 0.7982,
      "step": 10168
    },
    {
      "epoch": 0.6242671659658062,
      "grad_norm": 0.763166116632638,
      "learning_rate": 6.5341662256949844e-06,
      "loss": 0.8208,
      "step": 10169
    },
    {
      "epoch": 0.6243285552042727,
      "grad_norm": 0.7436845140860696,
      "learning_rate": 6.532301184008585e-06,
      "loss": 0.7396,
      "step": 10170
    },
    {
      "epoch": 0.6243899444427392,
      "grad_norm": 0.7817702405212157,
      "learning_rate": 6.530436279418864e-06,
      "loss": 0.7996,
      "step": 10171
    },
    {
      "epoch": 0.6244513336812056,
      "grad_norm": 0.9928227537795625,
      "learning_rate": 6.52857151199955e-06,
      "loss": 0.8135,
      "step": 10172
    },
    {
      "epoch": 0.6245127229196722,
      "grad_norm": 0.8458418926531792,
      "learning_rate": 6.526706881824373e-06,
      "loss": 0.7404,
      "step": 10173
    },
    {
      "epoch": 0.6245741121581386,
      "grad_norm": 0.9150630507794955,
      "learning_rate": 6.524842388967048e-06,
      "loss": 0.8291,
      "step": 10174
    },
    {
      "epoch": 0.6246355013966052,
      "grad_norm": 0.9642255359901928,
      "learning_rate": 6.522978033501293e-06,
      "loss": 0.8214,
      "step": 10175
    },
    {
      "epoch": 0.6246968906350717,
      "grad_norm": 0.852610606354081,
      "learning_rate": 6.521113815500812e-06,
      "loss": 0.8285,
      "step": 10176
    },
    {
      "epoch": 0.6247582798735382,
      "grad_norm": 0.832630755632229,
      "learning_rate": 6.519249735039306e-06,
      "loss": 0.7824,
      "step": 10177
    },
    {
      "epoch": 0.6248196691120047,
      "grad_norm": 0.8580811367883231,
      "learning_rate": 6.517385792190476e-06,
      "loss": 0.8167,
      "step": 10178
    },
    {
      "epoch": 0.6248810583504711,
      "grad_norm": 0.9235387879612424,
      "learning_rate": 6.515521987028009e-06,
      "loss": 0.8451,
      "step": 10179
    },
    {
      "epoch": 0.6249424475889377,
      "grad_norm": 0.9325652113329815,
      "learning_rate": 6.5136583196256e-06,
      "loss": 0.7525,
      "step": 10180
    },
    {
      "epoch": 0.6250038368274041,
      "grad_norm": 0.8723182585952217,
      "learning_rate": 6.51179479005692e-06,
      "loss": 0.7996,
      "step": 10181
    },
    {
      "epoch": 0.6250652260658707,
      "grad_norm": 0.909674307236729,
      "learning_rate": 6.509931398395648e-06,
      "loss": 0.8244,
      "step": 10182
    },
    {
      "epoch": 0.6251266153043371,
      "grad_norm": 0.9148863949469874,
      "learning_rate": 6.508068144715455e-06,
      "loss": 0.7831,
      "step": 10183
    },
    {
      "epoch": 0.6251880045428037,
      "grad_norm": 0.89911250655353,
      "learning_rate": 6.506205029090005e-06,
      "loss": 0.8116,
      "step": 10184
    },
    {
      "epoch": 0.6252493937812701,
      "grad_norm": 0.9179507492423188,
      "learning_rate": 6.504342051592958e-06,
      "loss": 0.8207,
      "step": 10185
    },
    {
      "epoch": 0.6253107830197366,
      "grad_norm": 0.8330485110374434,
      "learning_rate": 6.50247921229796e-06,
      "loss": 0.7814,
      "step": 10186
    },
    {
      "epoch": 0.6253721722582032,
      "grad_norm": 0.9191515638180824,
      "learning_rate": 6.50061651127867e-06,
      "loss": 0.7992,
      "step": 10187
    },
    {
      "epoch": 0.6254335614966696,
      "grad_norm": 0.8016381847585733,
      "learning_rate": 6.498753948608722e-06,
      "loss": 0.8224,
      "step": 10188
    },
    {
      "epoch": 0.6254949507351362,
      "grad_norm": 0.8921721042568264,
      "learning_rate": 6.496891524361757e-06,
      "loss": 0.8136,
      "step": 10189
    },
    {
      "epoch": 0.6255563399736026,
      "grad_norm": 0.8017600081818255,
      "learning_rate": 6.49502923861141e-06,
      "loss": 0.7495,
      "step": 10190
    },
    {
      "epoch": 0.6256177292120692,
      "grad_norm": 0.8986272653532598,
      "learning_rate": 6.493167091431298e-06,
      "loss": 0.8673,
      "step": 10191
    },
    {
      "epoch": 0.6256791184505356,
      "grad_norm": 0.839333175572983,
      "learning_rate": 6.49130508289505e-06,
      "loss": 0.8216,
      "step": 10192
    },
    {
      "epoch": 0.6257405076890021,
      "grad_norm": 0.8396155539445415,
      "learning_rate": 6.4894432130762745e-06,
      "loss": 0.8162,
      "step": 10193
    },
    {
      "epoch": 0.6258018969274686,
      "grad_norm": 0.9427445738978255,
      "learning_rate": 6.487581482048586e-06,
      "loss": 0.8079,
      "step": 10194
    },
    {
      "epoch": 0.6258632861659351,
      "grad_norm": 0.9173137190721062,
      "learning_rate": 6.485719889885591e-06,
      "loss": 0.8475,
      "step": 10195
    },
    {
      "epoch": 0.6259246754044016,
      "grad_norm": 0.8843828336479502,
      "learning_rate": 6.483858436660882e-06,
      "loss": 0.849,
      "step": 10196
    },
    {
      "epoch": 0.6259860646428681,
      "grad_norm": 0.8065060504310801,
      "learning_rate": 6.481997122448052e-06,
      "loss": 0.8238,
      "step": 10197
    },
    {
      "epoch": 0.6260474538813346,
      "grad_norm": 0.8396276005331791,
      "learning_rate": 6.4801359473206935e-06,
      "loss": 0.8292,
      "step": 10198
    },
    {
      "epoch": 0.6261088431198011,
      "grad_norm": 0.8709680006133377,
      "learning_rate": 6.478274911352385e-06,
      "loss": 0.8143,
      "step": 10199
    },
    {
      "epoch": 0.6261702323582676,
      "grad_norm": 0.8270568926571392,
      "learning_rate": 6.4764140146167075e-06,
      "loss": 0.7402,
      "step": 10200
    },
    {
      "epoch": 0.6262316215967341,
      "grad_norm": 0.8394373724076124,
      "learning_rate": 6.474553257187229e-06,
      "loss": 0.8031,
      "step": 10201
    },
    {
      "epoch": 0.6262930108352006,
      "grad_norm": 0.7517300505354726,
      "learning_rate": 6.472692639137513e-06,
      "loss": 0.7943,
      "step": 10202
    },
    {
      "epoch": 0.626354400073667,
      "grad_norm": 0.8253138313764421,
      "learning_rate": 6.470832160541125e-06,
      "loss": 0.7477,
      "step": 10203
    },
    {
      "epoch": 0.6264157893121336,
      "grad_norm": 0.8445910023504215,
      "learning_rate": 6.468971821471619e-06,
      "loss": 0.8105,
      "step": 10204
    },
    {
      "epoch": 0.6264771785506,
      "grad_norm": 0.8378350121787463,
      "learning_rate": 6.467111622002538e-06,
      "loss": 0.7789,
      "step": 10205
    },
    {
      "epoch": 0.6265385677890666,
      "grad_norm": 0.8378781034624838,
      "learning_rate": 6.465251562207431e-06,
      "loss": 0.772,
      "step": 10206
    },
    {
      "epoch": 0.6265999570275331,
      "grad_norm": 0.8665630575806884,
      "learning_rate": 6.463391642159833e-06,
      "loss": 0.8001,
      "step": 10207
    },
    {
      "epoch": 0.6266613462659996,
      "grad_norm": 0.8694855934055816,
      "learning_rate": 6.461531861933281e-06,
      "loss": 0.7419,
      "step": 10208
    },
    {
      "epoch": 0.6267227355044661,
      "grad_norm": 0.852676865559685,
      "learning_rate": 6.459672221601301e-06,
      "loss": 0.7847,
      "step": 10209
    },
    {
      "epoch": 0.6267841247429325,
      "grad_norm": 0.9134513742095144,
      "learning_rate": 6.457812721237411e-06,
      "loss": 0.8147,
      "step": 10210
    },
    {
      "epoch": 0.6268455139813991,
      "grad_norm": 0.8920336772974954,
      "learning_rate": 6.455953360915128e-06,
      "loss": 0.7585,
      "step": 10211
    },
    {
      "epoch": 0.6269069032198655,
      "grad_norm": 0.8708842971320814,
      "learning_rate": 6.454094140707965e-06,
      "loss": 0.7671,
      "step": 10212
    },
    {
      "epoch": 0.6269682924583321,
      "grad_norm": 0.9587051975588307,
      "learning_rate": 6.452235060689423e-06,
      "loss": 0.8256,
      "step": 10213
    },
    {
      "epoch": 0.6270296816967985,
      "grad_norm": 0.942089310840063,
      "learning_rate": 6.450376120933008e-06,
      "loss": 0.7874,
      "step": 10214
    },
    {
      "epoch": 0.6270910709352651,
      "grad_norm": 0.9860516990033023,
      "learning_rate": 6.448517321512209e-06,
      "loss": 0.8299,
      "step": 10215
    },
    {
      "epoch": 0.6271524601737315,
      "grad_norm": 0.8327387007769183,
      "learning_rate": 6.446658662500512e-06,
      "loss": 0.7701,
      "step": 10216
    },
    {
      "epoch": 0.627213849412198,
      "grad_norm": 0.91287471993199,
      "learning_rate": 6.444800143971404e-06,
      "loss": 0.7434,
      "step": 10217
    },
    {
      "epoch": 0.6272752386506646,
      "grad_norm": 0.9927129385600691,
      "learning_rate": 6.442941765998361e-06,
      "loss": 0.8445,
      "step": 10218
    },
    {
      "epoch": 0.627336627889131,
      "grad_norm": 1.0497695046366091,
      "learning_rate": 6.441083528654857e-06,
      "loss": 0.7947,
      "step": 10219
    },
    {
      "epoch": 0.6273980171275976,
      "grad_norm": 0.9678238190053886,
      "learning_rate": 6.439225432014353e-06,
      "loss": 0.8466,
      "step": 10220
    },
    {
      "epoch": 0.627459406366064,
      "grad_norm": 0.8522668207066549,
      "learning_rate": 6.437367476150312e-06,
      "loss": 0.7834,
      "step": 10221
    },
    {
      "epoch": 0.6275207956045306,
      "grad_norm": 0.9173716711597549,
      "learning_rate": 6.4355096611361875e-06,
      "loss": 0.8093,
      "step": 10222
    },
    {
      "epoch": 0.627582184842997,
      "grad_norm": 0.8819242869205203,
      "learning_rate": 6.433651987045433e-06,
      "loss": 0.7761,
      "step": 10223
    },
    {
      "epoch": 0.6276435740814635,
      "grad_norm": 0.8353340295475833,
      "learning_rate": 6.431794453951491e-06,
      "loss": 0.8036,
      "step": 10224
    },
    {
      "epoch": 0.62770496331993,
      "grad_norm": 0.7887655969631424,
      "learning_rate": 6.429937061927795e-06,
      "loss": 0.7842,
      "step": 10225
    },
    {
      "epoch": 0.6277663525583965,
      "grad_norm": 0.8646560973089593,
      "learning_rate": 6.428079811047781e-06,
      "loss": 0.8123,
      "step": 10226
    },
    {
      "epoch": 0.627827741796863,
      "grad_norm": 0.7993606191390132,
      "learning_rate": 6.426222701384876e-06,
      "loss": 0.7982,
      "step": 10227
    },
    {
      "epoch": 0.6278891310353295,
      "grad_norm": 0.8300374986283627,
      "learning_rate": 6.424365733012503e-06,
      "loss": 0.7729,
      "step": 10228
    },
    {
      "epoch": 0.627950520273796,
      "grad_norm": 0.8522567471199625,
      "learning_rate": 6.422508906004079e-06,
      "loss": 0.7935,
      "step": 10229
    },
    {
      "epoch": 0.6280119095122625,
      "grad_norm": 0.9095201248646002,
      "learning_rate": 6.420652220433006e-06,
      "loss": 0.8008,
      "step": 10230
    },
    {
      "epoch": 0.628073298750729,
      "grad_norm": 0.8645829791422043,
      "learning_rate": 6.418795676372698e-06,
      "loss": 0.8194,
      "step": 10231
    },
    {
      "epoch": 0.6281346879891955,
      "grad_norm": 0.9505161651497278,
      "learning_rate": 6.416939273896547e-06,
      "loss": 0.7642,
      "step": 10232
    },
    {
      "epoch": 0.628196077227662,
      "grad_norm": 0.9120843029480259,
      "learning_rate": 6.415083013077954e-06,
      "loss": 0.7995,
      "step": 10233
    },
    {
      "epoch": 0.6282574664661285,
      "grad_norm": 0.9133632496007794,
      "learning_rate": 6.413226893990303e-06,
      "loss": 0.824,
      "step": 10234
    },
    {
      "epoch": 0.628318855704595,
      "grad_norm": 0.850317824548271,
      "learning_rate": 6.411370916706976e-06,
      "loss": 0.7318,
      "step": 10235
    },
    {
      "epoch": 0.6283802449430614,
      "grad_norm": 0.8581465383972755,
      "learning_rate": 6.409515081301347e-06,
      "loss": 0.8074,
      "step": 10236
    },
    {
      "epoch": 0.628441634181528,
      "grad_norm": 0.9701100675963231,
      "learning_rate": 6.407659387846792e-06,
      "loss": 0.8369,
      "step": 10237
    },
    {
      "epoch": 0.6285030234199944,
      "grad_norm": 0.9712790316646794,
      "learning_rate": 6.405803836416673e-06,
      "loss": 0.7992,
      "step": 10238
    },
    {
      "epoch": 0.628564412658461,
      "grad_norm": 0.8390731661303007,
      "learning_rate": 6.403948427084356e-06,
      "loss": 0.7829,
      "step": 10239
    },
    {
      "epoch": 0.6286258018969275,
      "grad_norm": 0.5960610158046113,
      "learning_rate": 6.402093159923188e-06,
      "loss": 0.6696,
      "step": 10240
    },
    {
      "epoch": 0.628687191135394,
      "grad_norm": 0.870546113746258,
      "learning_rate": 6.400238035006519e-06,
      "loss": 0.8228,
      "step": 10241
    },
    {
      "epoch": 0.6287485803738605,
      "grad_norm": 0.8647699516004775,
      "learning_rate": 6.398383052407695e-06,
      "loss": 0.7861,
      "step": 10242
    },
    {
      "epoch": 0.6288099696123269,
      "grad_norm": 0.7593358711416133,
      "learning_rate": 6.396528212200048e-06,
      "loss": 0.8023,
      "step": 10243
    },
    {
      "epoch": 0.6288713588507935,
      "grad_norm": 0.9718724944193887,
      "learning_rate": 6.3946735144569194e-06,
      "loss": 0.7469,
      "step": 10244
    },
    {
      "epoch": 0.6289327480892599,
      "grad_norm": 0.8587086726284697,
      "learning_rate": 6.392818959251628e-06,
      "loss": 0.7735,
      "step": 10245
    },
    {
      "epoch": 0.6289941373277265,
      "grad_norm": 0.8366886939975205,
      "learning_rate": 6.390964546657492e-06,
      "loss": 0.7455,
      "step": 10246
    },
    {
      "epoch": 0.6290555265661929,
      "grad_norm": 0.9177504065517996,
      "learning_rate": 6.389110276747834e-06,
      "loss": 0.7971,
      "step": 10247
    },
    {
      "epoch": 0.6291169158046594,
      "grad_norm": 0.8869526170564443,
      "learning_rate": 6.387256149595957e-06,
      "loss": 0.779,
      "step": 10248
    },
    {
      "epoch": 0.6291783050431259,
      "grad_norm": 0.8111406212088972,
      "learning_rate": 6.38540216527517e-06,
      "loss": 0.7401,
      "step": 10249
    },
    {
      "epoch": 0.6292396942815924,
      "grad_norm": 0.9014236161129522,
      "learning_rate": 6.3835483238587635e-06,
      "loss": 0.7717,
      "step": 10250
    },
    {
      "epoch": 0.629301083520059,
      "grad_norm": 0.9711891760392253,
      "learning_rate": 6.3816946254200366e-06,
      "loss": 0.7931,
      "step": 10251
    },
    {
      "epoch": 0.6293624727585254,
      "grad_norm": 0.9653176752479766,
      "learning_rate": 6.379841070032269e-06,
      "loss": 0.7757,
      "step": 10252
    },
    {
      "epoch": 0.629423861996992,
      "grad_norm": 0.8253670828637442,
      "learning_rate": 6.3779876577687495e-06,
      "loss": 0.7841,
      "step": 10253
    },
    {
      "epoch": 0.6294852512354584,
      "grad_norm": 0.9524118878133555,
      "learning_rate": 6.376134388702751e-06,
      "loss": 0.8054,
      "step": 10254
    },
    {
      "epoch": 0.629546640473925,
      "grad_norm": 0.8919375904233773,
      "learning_rate": 6.374281262907538e-06,
      "loss": 0.7926,
      "step": 10255
    },
    {
      "epoch": 0.6296080297123914,
      "grad_norm": 0.8806456907384835,
      "learning_rate": 6.372428280456382e-06,
      "loss": 0.8141,
      "step": 10256
    },
    {
      "epoch": 0.6296694189508579,
      "grad_norm": 0.9935078373597043,
      "learning_rate": 6.370575441422533e-06,
      "loss": 0.8342,
      "step": 10257
    },
    {
      "epoch": 0.6297308081893244,
      "grad_norm": 0.7328057045545242,
      "learning_rate": 6.368722745879252e-06,
      "loss": 0.7925,
      "step": 10258
    },
    {
      "epoch": 0.6297921974277909,
      "grad_norm": 0.9958431159831328,
      "learning_rate": 6.366870193899784e-06,
      "loss": 0.8283,
      "step": 10259
    },
    {
      "epoch": 0.6298535866662575,
      "grad_norm": 0.791478590513215,
      "learning_rate": 6.365017785557367e-06,
      "loss": 0.8292,
      "step": 10260
    },
    {
      "epoch": 0.6299149759047239,
      "grad_norm": 0.8499302782958407,
      "learning_rate": 6.363165520925237e-06,
      "loss": 0.7935,
      "step": 10261
    },
    {
      "epoch": 0.6299763651431904,
      "grad_norm": 0.8980986810604847,
      "learning_rate": 6.361313400076625e-06,
      "loss": 0.7567,
      "step": 10262
    },
    {
      "epoch": 0.6300377543816569,
      "grad_norm": 0.8887611825567626,
      "learning_rate": 6.359461423084754e-06,
      "loss": 0.775,
      "step": 10263
    },
    {
      "epoch": 0.6300991436201234,
      "grad_norm": 0.8434995481022607,
      "learning_rate": 6.357609590022849e-06,
      "loss": 0.8061,
      "step": 10264
    },
    {
      "epoch": 0.6301605328585899,
      "grad_norm": 0.7874072295456344,
      "learning_rate": 6.3557579009641144e-06,
      "loss": 0.8152,
      "step": 10265
    },
    {
      "epoch": 0.6302219220970564,
      "grad_norm": 0.9200445194078501,
      "learning_rate": 6.353906355981759e-06,
      "loss": 0.7616,
      "step": 10266
    },
    {
      "epoch": 0.6302833113355228,
      "grad_norm": 0.8377388336652357,
      "learning_rate": 6.352054955148989e-06,
      "loss": 0.7866,
      "step": 10267
    },
    {
      "epoch": 0.6303447005739894,
      "grad_norm": 0.8851855555206781,
      "learning_rate": 6.350203698538998e-06,
      "loss": 0.7745,
      "step": 10268
    },
    {
      "epoch": 0.6304060898124558,
      "grad_norm": 0.924684405578122,
      "learning_rate": 6.348352586224972e-06,
      "loss": 0.8066,
      "step": 10269
    },
    {
      "epoch": 0.6304674790509224,
      "grad_norm": 0.8823050878027162,
      "learning_rate": 6.346501618280101e-06,
      "loss": 0.8096,
      "step": 10270
    },
    {
      "epoch": 0.6305288682893889,
      "grad_norm": 0.8870471721723493,
      "learning_rate": 6.344650794777558e-06,
      "loss": 0.8163,
      "step": 10271
    },
    {
      "epoch": 0.6305902575278554,
      "grad_norm": 0.9119723407232712,
      "learning_rate": 6.342800115790522e-06,
      "loss": 0.817,
      "step": 10272
    },
    {
      "epoch": 0.6306516467663219,
      "grad_norm": 0.8540909113480227,
      "learning_rate": 6.340949581392159e-06,
      "loss": 0.7456,
      "step": 10273
    },
    {
      "epoch": 0.6307130360047883,
      "grad_norm": 0.9211762027556003,
      "learning_rate": 6.339099191655629e-06,
      "loss": 0.8426,
      "step": 10274
    },
    {
      "epoch": 0.6307744252432549,
      "grad_norm": 0.8583005891114804,
      "learning_rate": 6.337248946654084e-06,
      "loss": 0.8348,
      "step": 10275
    },
    {
      "epoch": 0.6308358144817213,
      "grad_norm": 0.9399924928000735,
      "learning_rate": 6.33539884646068e-06,
      "loss": 0.8145,
      "step": 10276
    },
    {
      "epoch": 0.6308972037201879,
      "grad_norm": 0.8570825640320707,
      "learning_rate": 6.333548891148558e-06,
      "loss": 0.7983,
      "step": 10277
    },
    {
      "epoch": 0.6309585929586543,
      "grad_norm": 0.9051271077464266,
      "learning_rate": 6.331699080790861e-06,
      "loss": 0.786,
      "step": 10278
    },
    {
      "epoch": 0.6310199821971209,
      "grad_norm": 0.9668216802843782,
      "learning_rate": 6.3298494154607175e-06,
      "loss": 0.8323,
      "step": 10279
    },
    {
      "epoch": 0.6310813714355873,
      "grad_norm": 0.92726835653731,
      "learning_rate": 6.327999895231254e-06,
      "loss": 0.7738,
      "step": 10280
    },
    {
      "epoch": 0.6311427606740538,
      "grad_norm": 0.9288062970148904,
      "learning_rate": 6.326150520175596e-06,
      "loss": 0.789,
      "step": 10281
    },
    {
      "epoch": 0.6312041499125204,
      "grad_norm": 0.8840187548360893,
      "learning_rate": 6.324301290366854e-06,
      "loss": 0.7718,
      "step": 10282
    },
    {
      "epoch": 0.6312655391509868,
      "grad_norm": 0.9148805916898946,
      "learning_rate": 6.3224522058781455e-06,
      "loss": 0.7839,
      "step": 10283
    },
    {
      "epoch": 0.6313269283894534,
      "grad_norm": 0.8226102840914459,
      "learning_rate": 6.320603266782568e-06,
      "loss": 0.7527,
      "step": 10284
    },
    {
      "epoch": 0.6313883176279198,
      "grad_norm": 0.8597896373882474,
      "learning_rate": 6.318754473153221e-06,
      "loss": 0.8385,
      "step": 10285
    },
    {
      "epoch": 0.6314497068663864,
      "grad_norm": 0.939824155806749,
      "learning_rate": 6.3169058250631995e-06,
      "loss": 0.7901,
      "step": 10286
    },
    {
      "epoch": 0.6315110961048528,
      "grad_norm": 0.8674374069378168,
      "learning_rate": 6.315057322585589e-06,
      "loss": 0.8205,
      "step": 10287
    },
    {
      "epoch": 0.6315724853433193,
      "grad_norm": 0.640047543048391,
      "learning_rate": 6.313208965793474e-06,
      "loss": 0.7206,
      "step": 10288
    },
    {
      "epoch": 0.6316338745817858,
      "grad_norm": 0.9452848274516523,
      "learning_rate": 6.311360754759923e-06,
      "loss": 0.781,
      "step": 10289
    },
    {
      "epoch": 0.6316952638202523,
      "grad_norm": 0.8701789628104069,
      "learning_rate": 6.309512689558012e-06,
      "loss": 0.7882,
      "step": 10290
    },
    {
      "epoch": 0.6317566530587188,
      "grad_norm": 0.6051168476415164,
      "learning_rate": 6.307664770260799e-06,
      "loss": 0.6532,
      "step": 10291
    },
    {
      "epoch": 0.6318180422971853,
      "grad_norm": 0.9174254712531463,
      "learning_rate": 6.3058169969413484e-06,
      "loss": 0.7562,
      "step": 10292
    },
    {
      "epoch": 0.6318794315356518,
      "grad_norm": 0.9812872933361175,
      "learning_rate": 6.303969369672712e-06,
      "loss": 0.8215,
      "step": 10293
    },
    {
      "epoch": 0.6319408207741183,
      "grad_norm": 0.8325595629151409,
      "learning_rate": 6.30212188852793e-06,
      "loss": 0.7748,
      "step": 10294
    },
    {
      "epoch": 0.6320022100125848,
      "grad_norm": 0.9562875179711356,
      "learning_rate": 6.300274553580049e-06,
      "loss": 0.7795,
      "step": 10295
    },
    {
      "epoch": 0.6320635992510513,
      "grad_norm": 0.9027683900757834,
      "learning_rate": 6.298427364902101e-06,
      "loss": 0.811,
      "step": 10296
    },
    {
      "epoch": 0.6321249884895178,
      "grad_norm": 0.8678202428155115,
      "learning_rate": 6.296580322567119e-06,
      "loss": 0.8137,
      "step": 10297
    },
    {
      "epoch": 0.6321863777279843,
      "grad_norm": 0.9373379956245854,
      "learning_rate": 6.294733426648125e-06,
      "loss": 0.8091,
      "step": 10298
    },
    {
      "epoch": 0.6322477669664508,
      "grad_norm": 0.8902294102640398,
      "learning_rate": 6.292886677218134e-06,
      "loss": 0.7901,
      "step": 10299
    },
    {
      "epoch": 0.6323091562049172,
      "grad_norm": 0.9092252206354962,
      "learning_rate": 6.291040074350159e-06,
      "loss": 0.7606,
      "step": 10300
    },
    {
      "epoch": 0.6323705454433838,
      "grad_norm": 0.920534393518629,
      "learning_rate": 6.289193618117207e-06,
      "loss": 0.8205,
      "step": 10301
    },
    {
      "epoch": 0.6324319346818502,
      "grad_norm": 0.8883117575831971,
      "learning_rate": 6.287347308592277e-06,
      "loss": 0.7941,
      "step": 10302
    },
    {
      "epoch": 0.6324933239203168,
      "grad_norm": 0.8695869184267124,
      "learning_rate": 6.285501145848368e-06,
      "loss": 0.7712,
      "step": 10303
    },
    {
      "epoch": 0.6325547131587833,
      "grad_norm": 0.8539012641362607,
      "learning_rate": 6.283655129958463e-06,
      "loss": 0.7394,
      "step": 10304
    },
    {
      "epoch": 0.6326161023972497,
      "grad_norm": 0.88343267943547,
      "learning_rate": 6.2818092609955465e-06,
      "loss": 0.8151,
      "step": 10305
    },
    {
      "epoch": 0.6326774916357163,
      "grad_norm": 0.8451893105733421,
      "learning_rate": 6.279963539032597e-06,
      "loss": 0.8114,
      "step": 10306
    },
    {
      "epoch": 0.6327388808741827,
      "grad_norm": 0.9097112140981782,
      "learning_rate": 6.278117964142584e-06,
      "loss": 0.7788,
      "step": 10307
    },
    {
      "epoch": 0.6328002701126493,
      "grad_norm": 0.8740087441031624,
      "learning_rate": 6.276272536398478e-06,
      "loss": 0.8386,
      "step": 10308
    },
    {
      "epoch": 0.6328616593511157,
      "grad_norm": 0.8861195359611189,
      "learning_rate": 6.274427255873231e-06,
      "loss": 0.8132,
      "step": 10309
    },
    {
      "epoch": 0.6329230485895823,
      "grad_norm": 0.8993709267491602,
      "learning_rate": 6.272582122639799e-06,
      "loss": 0.7654,
      "step": 10310
    },
    {
      "epoch": 0.6329844378280487,
      "grad_norm": 0.895902165164412,
      "learning_rate": 6.2707371367711345e-06,
      "loss": 0.7751,
      "step": 10311
    },
    {
      "epoch": 0.6330458270665152,
      "grad_norm": 0.5951479739414024,
      "learning_rate": 6.268892298340173e-06,
      "loss": 0.6835,
      "step": 10312
    },
    {
      "epoch": 0.6331072163049818,
      "grad_norm": 0.8226763379475319,
      "learning_rate": 6.2670476074198606e-06,
      "loss": 0.784,
      "step": 10313
    },
    {
      "epoch": 0.6331686055434482,
      "grad_norm": 0.8883077333893625,
      "learning_rate": 6.265203064083117e-06,
      "loss": 0.8203,
      "step": 10314
    },
    {
      "epoch": 0.6332299947819148,
      "grad_norm": 0.8338829173214521,
      "learning_rate": 6.2633586684028705e-06,
      "loss": 0.7606,
      "step": 10315
    },
    {
      "epoch": 0.6332913840203812,
      "grad_norm": 0.8386059377758874,
      "learning_rate": 6.261514420452041e-06,
      "loss": 0.7087,
      "step": 10316
    },
    {
      "epoch": 0.6333527732588478,
      "grad_norm": 0.976671958555953,
      "learning_rate": 6.259670320303542e-06,
      "loss": 0.7673,
      "step": 10317
    },
    {
      "epoch": 0.6334141624973142,
      "grad_norm": 0.892530105327169,
      "learning_rate": 6.257826368030283e-06,
      "loss": 0.8008,
      "step": 10318
    },
    {
      "epoch": 0.6334755517357807,
      "grad_norm": 0.9102609993663229,
      "learning_rate": 6.255982563705159e-06,
      "loss": 0.7924,
      "step": 10319
    },
    {
      "epoch": 0.6335369409742472,
      "grad_norm": 0.8908780518333891,
      "learning_rate": 6.254138907401068e-06,
      "loss": 0.7443,
      "step": 10320
    },
    {
      "epoch": 0.6335983302127137,
      "grad_norm": 0.9970198814321561,
      "learning_rate": 6.252295399190899e-06,
      "loss": 0.8398,
      "step": 10321
    },
    {
      "epoch": 0.6336597194511802,
      "grad_norm": 0.935148935550805,
      "learning_rate": 6.250452039147541e-06,
      "loss": 0.7498,
      "step": 10322
    },
    {
      "epoch": 0.6337211086896467,
      "grad_norm": 0.8753997896724978,
      "learning_rate": 6.248608827343868e-06,
      "loss": 0.7669,
      "step": 10323
    },
    {
      "epoch": 0.6337824979281133,
      "grad_norm": 0.8265988044366377,
      "learning_rate": 6.246765763852749e-06,
      "loss": 0.7806,
      "step": 10324
    },
    {
      "epoch": 0.6338438871665797,
      "grad_norm": 0.9154984204021466,
      "learning_rate": 6.244922848747055e-06,
      "loss": 0.8337,
      "step": 10325
    },
    {
      "epoch": 0.6339052764050462,
      "grad_norm": 0.8519878859054266,
      "learning_rate": 6.243080082099644e-06,
      "loss": 0.775,
      "step": 10326
    },
    {
      "epoch": 0.6339666656435127,
      "grad_norm": 0.8178217291676131,
      "learning_rate": 6.2412374639833685e-06,
      "loss": 0.7747,
      "step": 10327
    },
    {
      "epoch": 0.6340280548819792,
      "grad_norm": 0.953010643980257,
      "learning_rate": 6.239394994471084e-06,
      "loss": 0.7975,
      "step": 10328
    },
    {
      "epoch": 0.6340894441204457,
      "grad_norm": 0.8391139232379359,
      "learning_rate": 6.237552673635625e-06,
      "loss": 0.7942,
      "step": 10329
    },
    {
      "epoch": 0.6341508333589122,
      "grad_norm": 0.8853063582905237,
      "learning_rate": 6.235710501549832e-06,
      "loss": 0.7948,
      "step": 10330
    },
    {
      "epoch": 0.6342122225973786,
      "grad_norm": 0.8527165891012569,
      "learning_rate": 6.233868478286536e-06,
      "loss": 0.7681,
      "step": 10331
    },
    {
      "epoch": 0.6342736118358452,
      "grad_norm": 0.9592111592789807,
      "learning_rate": 6.232026603918564e-06,
      "loss": 0.7689,
      "step": 10332
    },
    {
      "epoch": 0.6343350010743116,
      "grad_norm": 0.9322367826698182,
      "learning_rate": 6.23018487851873e-06,
      "loss": 0.7999,
      "step": 10333
    },
    {
      "epoch": 0.6343963903127782,
      "grad_norm": 0.8955875889863689,
      "learning_rate": 6.228343302159852e-06,
      "loss": 0.8461,
      "step": 10334
    },
    {
      "epoch": 0.6344577795512447,
      "grad_norm": 0.9359966333680227,
      "learning_rate": 6.226501874914732e-06,
      "loss": 0.8308,
      "step": 10335
    },
    {
      "epoch": 0.6345191687897112,
      "grad_norm": 0.9251457734188218,
      "learning_rate": 6.224660596856178e-06,
      "loss": 0.7777,
      "step": 10336
    },
    {
      "epoch": 0.6345805580281777,
      "grad_norm": 0.9263171971016936,
      "learning_rate": 6.222819468056984e-06,
      "loss": 0.835,
      "step": 10337
    },
    {
      "epoch": 0.6346419472666441,
      "grad_norm": 0.7788185830735653,
      "learning_rate": 6.220978488589937e-06,
      "loss": 0.7882,
      "step": 10338
    },
    {
      "epoch": 0.6347033365051107,
      "grad_norm": 0.8522942960567667,
      "learning_rate": 6.219137658527819e-06,
      "loss": 0.8237,
      "step": 10339
    },
    {
      "epoch": 0.6347647257435771,
      "grad_norm": 0.8928448953499376,
      "learning_rate": 6.2172969779434135e-06,
      "loss": 0.7573,
      "step": 10340
    },
    {
      "epoch": 0.6348261149820437,
      "grad_norm": 0.944137043837663,
      "learning_rate": 6.215456446909487e-06,
      "loss": 0.7006,
      "step": 10341
    },
    {
      "epoch": 0.6348875042205101,
      "grad_norm": 0.9160519657658088,
      "learning_rate": 6.213616065498813e-06,
      "loss": 0.7913,
      "step": 10342
    },
    {
      "epoch": 0.6349488934589766,
      "grad_norm": 0.8092080915341989,
      "learning_rate": 6.211775833784146e-06,
      "loss": 0.7627,
      "step": 10343
    },
    {
      "epoch": 0.6350102826974431,
      "grad_norm": 0.8728915120190462,
      "learning_rate": 6.209935751838238e-06,
      "loss": 0.8184,
      "step": 10344
    },
    {
      "epoch": 0.6350716719359096,
      "grad_norm": 0.8464438981850354,
      "learning_rate": 6.2080958197338415e-06,
      "loss": 0.8379,
      "step": 10345
    },
    {
      "epoch": 0.6351330611743762,
      "grad_norm": 0.7832721714740196,
      "learning_rate": 6.206256037543697e-06,
      "loss": 0.7537,
      "step": 10346
    },
    {
      "epoch": 0.6351944504128426,
      "grad_norm": 0.8682818058427894,
      "learning_rate": 6.204416405340546e-06,
      "loss": 0.7932,
      "step": 10347
    },
    {
      "epoch": 0.6352558396513092,
      "grad_norm": 0.9180185107071973,
      "learning_rate": 6.202576923197112e-06,
      "loss": 0.7948,
      "step": 10348
    },
    {
      "epoch": 0.6353172288897756,
      "grad_norm": 0.9388151410861069,
      "learning_rate": 6.20073759118612e-06,
      "loss": 0.7766,
      "step": 10349
    },
    {
      "epoch": 0.6353786181282421,
      "grad_norm": 0.986482787474881,
      "learning_rate": 6.198898409380294e-06,
      "loss": 0.789,
      "step": 10350
    },
    {
      "epoch": 0.6354400073667086,
      "grad_norm": 0.9078241183186285,
      "learning_rate": 6.19705937785234e-06,
      "loss": 0.7626,
      "step": 10351
    },
    {
      "epoch": 0.6355013966051751,
      "grad_norm": 0.9378048174008242,
      "learning_rate": 6.195220496674976e-06,
      "loss": 0.767,
      "step": 10352
    },
    {
      "epoch": 0.6355627858436416,
      "grad_norm": 0.8509671094544221,
      "learning_rate": 6.193381765920888e-06,
      "loss": 0.7833,
      "step": 10353
    },
    {
      "epoch": 0.6356241750821081,
      "grad_norm": 0.837589452940642,
      "learning_rate": 6.191543185662781e-06,
      "loss": 0.7797,
      "step": 10354
    },
    {
      "epoch": 0.6356855643205747,
      "grad_norm": 0.8430037066869491,
      "learning_rate": 6.189704755973338e-06,
      "loss": 0.766,
      "step": 10355
    },
    {
      "epoch": 0.6357469535590411,
      "grad_norm": 0.92453754008418,
      "learning_rate": 6.1878664769252476e-06,
      "loss": 0.8351,
      "step": 10356
    },
    {
      "epoch": 0.6358083427975076,
      "grad_norm": 0.840901348147174,
      "learning_rate": 6.1860283485911854e-06,
      "loss": 0.7845,
      "step": 10357
    },
    {
      "epoch": 0.6358697320359741,
      "grad_norm": 0.906652470528547,
      "learning_rate": 6.184190371043817e-06,
      "loss": 0.762,
      "step": 10358
    },
    {
      "epoch": 0.6359311212744406,
      "grad_norm": 0.9017766427540128,
      "learning_rate": 6.182352544355814e-06,
      "loss": 0.7527,
      "step": 10359
    },
    {
      "epoch": 0.6359925105129071,
      "grad_norm": 0.9524705188076581,
      "learning_rate": 6.180514868599832e-06,
      "loss": 0.8017,
      "step": 10360
    },
    {
      "epoch": 0.6360538997513736,
      "grad_norm": 0.8598018487898846,
      "learning_rate": 6.1786773438485274e-06,
      "loss": 0.7531,
      "step": 10361
    },
    {
      "epoch": 0.63611528898984,
      "grad_norm": 0.7501005938239074,
      "learning_rate": 6.176839970174545e-06,
      "loss": 0.7313,
      "step": 10362
    },
    {
      "epoch": 0.6361766782283066,
      "grad_norm": 0.918810388332303,
      "learning_rate": 6.175002747650524e-06,
      "loss": 0.7984,
      "step": 10363
    },
    {
      "epoch": 0.636238067466773,
      "grad_norm": 0.9385776462255326,
      "learning_rate": 6.173165676349103e-06,
      "loss": 0.7771,
      "step": 10364
    },
    {
      "epoch": 0.6362994567052396,
      "grad_norm": 0.7794522693840465,
      "learning_rate": 6.171328756342911e-06,
      "loss": 0.7502,
      "step": 10365
    },
    {
      "epoch": 0.6363608459437061,
      "grad_norm": 0.8303642450326206,
      "learning_rate": 6.169491987704568e-06,
      "loss": 0.8143,
      "step": 10366
    },
    {
      "epoch": 0.6364222351821726,
      "grad_norm": 0.8911394359741833,
      "learning_rate": 6.167655370506698e-06,
      "loss": 0.799,
      "step": 10367
    },
    {
      "epoch": 0.6364836244206391,
      "grad_norm": 0.9295710370536137,
      "learning_rate": 6.165818904821906e-06,
      "loss": 0.7899,
      "step": 10368
    },
    {
      "epoch": 0.6365450136591055,
      "grad_norm": 0.8902150182341565,
      "learning_rate": 6.1639825907227964e-06,
      "loss": 0.7963,
      "step": 10369
    },
    {
      "epoch": 0.6366064028975721,
      "grad_norm": 0.9564349609251565,
      "learning_rate": 6.162146428281976e-06,
      "loss": 0.8343,
      "step": 10370
    },
    {
      "epoch": 0.6366677921360385,
      "grad_norm": 0.9503485196757707,
      "learning_rate": 6.1603104175720286e-06,
      "loss": 0.832,
      "step": 10371
    },
    {
      "epoch": 0.6367291813745051,
      "grad_norm": 0.9546158663371994,
      "learning_rate": 6.1584745586655526e-06,
      "loss": 0.7889,
      "step": 10372
    },
    {
      "epoch": 0.6367905706129715,
      "grad_norm": 0.927388583462173,
      "learning_rate": 6.156638851635121e-06,
      "loss": 0.8116,
      "step": 10373
    },
    {
      "epoch": 0.636851959851438,
      "grad_norm": 0.9277487370730364,
      "learning_rate": 6.154803296553307e-06,
      "loss": 0.8032,
      "step": 10374
    },
    {
      "epoch": 0.6369133490899045,
      "grad_norm": 0.8434696309228337,
      "learning_rate": 6.15296789349269e-06,
      "loss": 0.8247,
      "step": 10375
    },
    {
      "epoch": 0.636974738328371,
      "grad_norm": 0.9217040652402541,
      "learning_rate": 6.151132642525822e-06,
      "loss": 0.782,
      "step": 10376
    },
    {
      "epoch": 0.6370361275668376,
      "grad_norm": 0.8862037277624202,
      "learning_rate": 6.149297543725274e-06,
      "loss": 0.7605,
      "step": 10377
    },
    {
      "epoch": 0.637097516805304,
      "grad_norm": 0.8243752681392946,
      "learning_rate": 6.147462597163583e-06,
      "loss": 0.778,
      "step": 10378
    },
    {
      "epoch": 0.6371589060437706,
      "grad_norm": 0.6074878791350038,
      "learning_rate": 6.145627802913301e-06,
      "loss": 0.7185,
      "step": 10379
    },
    {
      "epoch": 0.637220295282237,
      "grad_norm": 0.915126700408988,
      "learning_rate": 6.143793161046965e-06,
      "loss": 0.7834,
      "step": 10380
    },
    {
      "epoch": 0.6372816845207036,
      "grad_norm": 0.8717333112635167,
      "learning_rate": 6.141958671637112e-06,
      "loss": 0.7926,
      "step": 10381
    },
    {
      "epoch": 0.63734307375917,
      "grad_norm": 0.882529993002439,
      "learning_rate": 6.14012433475627e-06,
      "loss": 0.7557,
      "step": 10382
    },
    {
      "epoch": 0.6374044629976365,
      "grad_norm": 0.9427767016765921,
      "learning_rate": 6.138290150476952e-06,
      "loss": 0.8421,
      "step": 10383
    },
    {
      "epoch": 0.637465852236103,
      "grad_norm": 1.0264144236105917,
      "learning_rate": 6.136456118871681e-06,
      "loss": 0.856,
      "step": 10384
    },
    {
      "epoch": 0.6375272414745695,
      "grad_norm": 0.9489117118336464,
      "learning_rate": 6.1346222400129595e-06,
      "loss": 0.7974,
      "step": 10385
    },
    {
      "epoch": 0.637588630713036,
      "grad_norm": 0.9148592165678417,
      "learning_rate": 6.132788513973298e-06,
      "loss": 0.8081,
      "step": 10386
    },
    {
      "epoch": 0.6376500199515025,
      "grad_norm": 0.8101839568823842,
      "learning_rate": 6.130954940825191e-06,
      "loss": 0.7401,
      "step": 10387
    },
    {
      "epoch": 0.637711409189969,
      "grad_norm": 0.7841507009676094,
      "learning_rate": 6.129121520641126e-06,
      "loss": 0.7641,
      "step": 10388
    },
    {
      "epoch": 0.6377727984284355,
      "grad_norm": 0.8949261655489413,
      "learning_rate": 6.127288253493591e-06,
      "loss": 0.7339,
      "step": 10389
    },
    {
      "epoch": 0.637834187666902,
      "grad_norm": 0.8639930041534247,
      "learning_rate": 6.125455139455061e-06,
      "loss": 0.8208,
      "step": 10390
    },
    {
      "epoch": 0.6378955769053685,
      "grad_norm": 0.9179582633028258,
      "learning_rate": 6.123622178598015e-06,
      "loss": 0.8177,
      "step": 10391
    },
    {
      "epoch": 0.637956966143835,
      "grad_norm": 0.8015809781334382,
      "learning_rate": 6.1217893709949196e-06,
      "loss": 0.7675,
      "step": 10392
    },
    {
      "epoch": 0.6380183553823014,
      "grad_norm": 0.9816760926830116,
      "learning_rate": 6.11995671671823e-06,
      "loss": 0.8205,
      "step": 10393
    },
    {
      "epoch": 0.638079744620768,
      "grad_norm": 0.8541102012237467,
      "learning_rate": 6.1181242158404e-06,
      "loss": 0.7734,
      "step": 10394
    },
    {
      "epoch": 0.6381411338592344,
      "grad_norm": 0.5960354736455087,
      "learning_rate": 6.116291868433883e-06,
      "loss": 0.6221,
      "step": 10395
    },
    {
      "epoch": 0.638202523097701,
      "grad_norm": 0.7690077534144532,
      "learning_rate": 6.11445967457112e-06,
      "loss": 0.7588,
      "step": 10396
    },
    {
      "epoch": 0.6382639123361674,
      "grad_norm": 0.9047372275876974,
      "learning_rate": 6.112627634324551e-06,
      "loss": 0.7816,
      "step": 10397
    },
    {
      "epoch": 0.638325301574634,
      "grad_norm": 0.894813968821997,
      "learning_rate": 6.1107957477666e-06,
      "loss": 0.814,
      "step": 10398
    },
    {
      "epoch": 0.6383866908131005,
      "grad_norm": 0.8715763962737285,
      "learning_rate": 6.108964014969691e-06,
      "loss": 0.781,
      "step": 10399
    },
    {
      "epoch": 0.638448080051567,
      "grad_norm": 0.9767771505896992,
      "learning_rate": 6.107132436006249e-06,
      "loss": 0.7811,
      "step": 10400
    },
    {
      "epoch": 0.6385094692900335,
      "grad_norm": 0.8984850762374383,
      "learning_rate": 6.105301010948684e-06,
      "loss": 0.7873,
      "step": 10401
    },
    {
      "epoch": 0.6385708585284999,
      "grad_norm": 0.9736760437353259,
      "learning_rate": 6.103469739869397e-06,
      "loss": 0.8544,
      "step": 10402
    },
    {
      "epoch": 0.6386322477669665,
      "grad_norm": 0.7852946259520245,
      "learning_rate": 6.101638622840792e-06,
      "loss": 0.7227,
      "step": 10403
    },
    {
      "epoch": 0.6386936370054329,
      "grad_norm": 0.9093215073860574,
      "learning_rate": 6.099807659935263e-06,
      "loss": 0.8241,
      "step": 10404
    },
    {
      "epoch": 0.6387550262438995,
      "grad_norm": 0.7577062282265684,
      "learning_rate": 6.097976851225194e-06,
      "loss": 0.7809,
      "step": 10405
    },
    {
      "epoch": 0.6388164154823659,
      "grad_norm": 0.8865622787657056,
      "learning_rate": 6.096146196782975e-06,
      "loss": 0.7558,
      "step": 10406
    },
    {
      "epoch": 0.6388778047208324,
      "grad_norm": 0.8061308790804619,
      "learning_rate": 6.0943156966809726e-06,
      "loss": 0.7527,
      "step": 10407
    },
    {
      "epoch": 0.638939193959299,
      "grad_norm": 0.5866915368985114,
      "learning_rate": 6.092485350991558e-06,
      "loss": 0.6622,
      "step": 10408
    },
    {
      "epoch": 0.6390005831977654,
      "grad_norm": 0.8212731192650815,
      "learning_rate": 6.0906551597871e-06,
      "loss": 0.7793,
      "step": 10409
    },
    {
      "epoch": 0.639061972436232,
      "grad_norm": 1.0562905161233287,
      "learning_rate": 6.0888251231399474e-06,
      "loss": 0.7753,
      "step": 10410
    },
    {
      "epoch": 0.6391233616746984,
      "grad_norm": 0.9076586607138392,
      "learning_rate": 6.086995241122462e-06,
      "loss": 0.7938,
      "step": 10411
    },
    {
      "epoch": 0.639184750913165,
      "grad_norm": 0.7527011663543506,
      "learning_rate": 6.085165513806981e-06,
      "loss": 0.7599,
      "step": 10412
    },
    {
      "epoch": 0.6392461401516314,
      "grad_norm": 0.9376360305599849,
      "learning_rate": 6.083335941265842e-06,
      "loss": 0.8054,
      "step": 10413
    },
    {
      "epoch": 0.6393075293900979,
      "grad_norm": 0.8699017127695797,
      "learning_rate": 6.081506523571384e-06,
      "loss": 0.8089,
      "step": 10414
    },
    {
      "epoch": 0.6393689186285644,
      "grad_norm": 0.9024019977316973,
      "learning_rate": 6.079677260795929e-06,
      "loss": 0.8106,
      "step": 10415
    },
    {
      "epoch": 0.6394303078670309,
      "grad_norm": 1.0110364174252808,
      "learning_rate": 6.077848153011805e-06,
      "loss": 0.8113,
      "step": 10416
    },
    {
      "epoch": 0.6394916971054974,
      "grad_norm": 0.92189601518916,
      "learning_rate": 6.076019200291314e-06,
      "loss": 0.7825,
      "step": 10417
    },
    {
      "epoch": 0.6395530863439639,
      "grad_norm": 0.8665758371650675,
      "learning_rate": 6.074190402706774e-06,
      "loss": 0.7833,
      "step": 10418
    },
    {
      "epoch": 0.6396144755824305,
      "grad_norm": 0.9847415163734965,
      "learning_rate": 6.072361760330481e-06,
      "loss": 0.7293,
      "step": 10419
    },
    {
      "epoch": 0.6396758648208969,
      "grad_norm": 1.0554080146912013,
      "learning_rate": 6.070533273234737e-06,
      "loss": 0.7943,
      "step": 10420
    },
    {
      "epoch": 0.6397372540593634,
      "grad_norm": 0.9010132018812312,
      "learning_rate": 6.06870494149183e-06,
      "loss": 0.7994,
      "step": 10421
    },
    {
      "epoch": 0.6397986432978299,
      "grad_norm": 0.9245891793418624,
      "learning_rate": 6.066876765174039e-06,
      "loss": 0.7663,
      "step": 10422
    },
    {
      "epoch": 0.6398600325362964,
      "grad_norm": 0.7969256088519383,
      "learning_rate": 6.0650487443536474e-06,
      "loss": 0.779,
      "step": 10423
    },
    {
      "epoch": 0.6399214217747629,
      "grad_norm": 0.8447868287459404,
      "learning_rate": 6.063220879102924e-06,
      "loss": 0.7527,
      "step": 10424
    },
    {
      "epoch": 0.6399828110132294,
      "grad_norm": 0.883309274773421,
      "learning_rate": 6.061393169494134e-06,
      "loss": 0.7933,
      "step": 10425
    },
    {
      "epoch": 0.6400442002516958,
      "grad_norm": 0.9111585852453616,
      "learning_rate": 6.059565615599541e-06,
      "loss": 0.8115,
      "step": 10426
    },
    {
      "epoch": 0.6401055894901624,
      "grad_norm": 0.9570837141641468,
      "learning_rate": 6.057738217491389e-06,
      "loss": 0.8249,
      "step": 10427
    },
    {
      "epoch": 0.6401669787286288,
      "grad_norm": 0.8392052514353376,
      "learning_rate": 6.055910975241933e-06,
      "loss": 0.8116,
      "step": 10428
    },
    {
      "epoch": 0.6402283679670954,
      "grad_norm": 0.862647709799252,
      "learning_rate": 6.0540838889234076e-06,
      "loss": 0.7436,
      "step": 10429
    },
    {
      "epoch": 0.6402897572055619,
      "grad_norm": 0.8703275886779651,
      "learning_rate": 6.052256958608054e-06,
      "loss": 0.7341,
      "step": 10430
    },
    {
      "epoch": 0.6403511464440284,
      "grad_norm": 0.9451650112784169,
      "learning_rate": 6.050430184368097e-06,
      "loss": 0.8032,
      "step": 10431
    },
    {
      "epoch": 0.6404125356824949,
      "grad_norm": 0.991148429959784,
      "learning_rate": 6.048603566275757e-06,
      "loss": 0.7876,
      "step": 10432
    },
    {
      "epoch": 0.6404739249209613,
      "grad_norm": 0.9168897085957773,
      "learning_rate": 6.04677710440325e-06,
      "loss": 0.7846,
      "step": 10433
    },
    {
      "epoch": 0.6405353141594279,
      "grad_norm": 0.933248542116053,
      "learning_rate": 6.044950798822789e-06,
      "loss": 0.8085,
      "step": 10434
    },
    {
      "epoch": 0.6405967033978943,
      "grad_norm": 1.0613410670935293,
      "learning_rate": 6.043124649606575e-06,
      "loss": 0.7998,
      "step": 10435
    },
    {
      "epoch": 0.6406580926363609,
      "grad_norm": 0.8273775769041479,
      "learning_rate": 6.04129865682681e-06,
      "loss": 0.8104,
      "step": 10436
    },
    {
      "epoch": 0.6407194818748273,
      "grad_norm": 0.8684028275379765,
      "learning_rate": 6.0394728205556795e-06,
      "loss": 0.761,
      "step": 10437
    },
    {
      "epoch": 0.6407808711132938,
      "grad_norm": 0.998259193667824,
      "learning_rate": 6.037647140865368e-06,
      "loss": 0.8565,
      "step": 10438
    },
    {
      "epoch": 0.6408422603517603,
      "grad_norm": 0.9246622447398116,
      "learning_rate": 6.03582161782806e-06,
      "loss": 0.7851,
      "step": 10439
    },
    {
      "epoch": 0.6409036495902268,
      "grad_norm": 0.9547677709070885,
      "learning_rate": 6.033996251515924e-06,
      "loss": 0.8389,
      "step": 10440
    },
    {
      "epoch": 0.6409650388286934,
      "grad_norm": 0.8352886089170941,
      "learning_rate": 6.032171042001132e-06,
      "loss": 0.7805,
      "step": 10441
    },
    {
      "epoch": 0.6410264280671598,
      "grad_norm": 0.9542572765585318,
      "learning_rate": 6.030345989355837e-06,
      "loss": 0.7514,
      "step": 10442
    },
    {
      "epoch": 0.6410878173056264,
      "grad_norm": 0.8723989296639303,
      "learning_rate": 6.028521093652195e-06,
      "loss": 0.7621,
      "step": 10443
    },
    {
      "epoch": 0.6411492065440928,
      "grad_norm": 0.9599891478335648,
      "learning_rate": 6.026696354962356e-06,
      "loss": 0.8185,
      "step": 10444
    },
    {
      "epoch": 0.6412105957825593,
      "grad_norm": 0.9238986483566641,
      "learning_rate": 6.024871773358461e-06,
      "loss": 0.7851,
      "step": 10445
    },
    {
      "epoch": 0.6412719850210258,
      "grad_norm": 0.820387092098579,
      "learning_rate": 6.0230473489126475e-06,
      "loss": 0.8136,
      "step": 10446
    },
    {
      "epoch": 0.6413333742594923,
      "grad_norm": 0.9188428198623012,
      "learning_rate": 6.021223081697039e-06,
      "loss": 0.809,
      "step": 10447
    },
    {
      "epoch": 0.6413947634979588,
      "grad_norm": 0.81574349837035,
      "learning_rate": 6.019398971783764e-06,
      "loss": 0.7744,
      "step": 10448
    },
    {
      "epoch": 0.6414561527364253,
      "grad_norm": 0.8954076526856806,
      "learning_rate": 6.017575019244935e-06,
      "loss": 0.7719,
      "step": 10449
    },
    {
      "epoch": 0.6415175419748917,
      "grad_norm": 0.7998215764037467,
      "learning_rate": 6.0157512241526685e-06,
      "loss": 0.7545,
      "step": 10450
    },
    {
      "epoch": 0.6415789312133583,
      "grad_norm": 0.965076033435866,
      "learning_rate": 6.013927586579065e-06,
      "loss": 0.8162,
      "step": 10451
    },
    {
      "epoch": 0.6416403204518248,
      "grad_norm": 0.9102911462980732,
      "learning_rate": 6.0121041065962204e-06,
      "loss": 0.7781,
      "step": 10452
    },
    {
      "epoch": 0.6417017096902913,
      "grad_norm": 0.8309997732976389,
      "learning_rate": 6.0102807842762315e-06,
      "loss": 0.7786,
      "step": 10453
    },
    {
      "epoch": 0.6417630989287578,
      "grad_norm": 0.878883848462516,
      "learning_rate": 6.0084576196911796e-06,
      "loss": 0.8145,
      "step": 10454
    },
    {
      "epoch": 0.6418244881672243,
      "grad_norm": 0.8537240256827271,
      "learning_rate": 6.006634612913147e-06,
      "loss": 0.7477,
      "step": 10455
    },
    {
      "epoch": 0.6418858774056908,
      "grad_norm": 0.9080527879192556,
      "learning_rate": 6.0048117640142085e-06,
      "loss": 0.8491,
      "step": 10456
    },
    {
      "epoch": 0.6419472666441572,
      "grad_norm": 0.8886203146987481,
      "learning_rate": 6.002989073066427e-06,
      "loss": 0.7951,
      "step": 10457
    },
    {
      "epoch": 0.6420086558826238,
      "grad_norm": 0.9337646279156596,
      "learning_rate": 6.001166540141864e-06,
      "loss": 0.8008,
      "step": 10458
    },
    {
      "epoch": 0.6420700451210902,
      "grad_norm": 0.9000708293813589,
      "learning_rate": 5.999344165312576e-06,
      "loss": 0.7984,
      "step": 10459
    },
    {
      "epoch": 0.6421314343595568,
      "grad_norm": 0.9776000125742687,
      "learning_rate": 5.997521948650609e-06,
      "loss": 0.8153,
      "step": 10460
    },
    {
      "epoch": 0.6421928235980233,
      "grad_norm": 0.9369057714961934,
      "learning_rate": 5.995699890228008e-06,
      "loss": 0.7814,
      "step": 10461
    },
    {
      "epoch": 0.6422542128364898,
      "grad_norm": 0.856223334026813,
      "learning_rate": 5.993877990116808e-06,
      "loss": 0.7601,
      "step": 10462
    },
    {
      "epoch": 0.6423156020749563,
      "grad_norm": 0.9044376522231166,
      "learning_rate": 5.992056248389033e-06,
      "loss": 0.7951,
      "step": 10463
    },
    {
      "epoch": 0.6423769913134227,
      "grad_norm": 0.9101301306129528,
      "learning_rate": 5.990234665116713e-06,
      "loss": 0.8096,
      "step": 10464
    },
    {
      "epoch": 0.6424383805518893,
      "grad_norm": 0.9542727586439006,
      "learning_rate": 5.988413240371864e-06,
      "loss": 0.7833,
      "step": 10465
    },
    {
      "epoch": 0.6424997697903557,
      "grad_norm": 0.8520298949418355,
      "learning_rate": 5.986591974226492e-06,
      "loss": 0.7625,
      "step": 10466
    },
    {
      "epoch": 0.6425611590288223,
      "grad_norm": 0.9299452244117525,
      "learning_rate": 5.984770866752606e-06,
      "loss": 0.8024,
      "step": 10467
    },
    {
      "epoch": 0.6426225482672887,
      "grad_norm": 0.9178240187637792,
      "learning_rate": 5.982949918022201e-06,
      "loss": 0.7919,
      "step": 10468
    },
    {
      "epoch": 0.6426839375057553,
      "grad_norm": 0.7963499101790086,
      "learning_rate": 5.9811291281072725e-06,
      "loss": 0.7297,
      "step": 10469
    },
    {
      "epoch": 0.6427453267442217,
      "grad_norm": 0.8824126857326974,
      "learning_rate": 5.979308497079805e-06,
      "loss": 0.7957,
      "step": 10470
    },
    {
      "epoch": 0.6428067159826882,
      "grad_norm": 0.9539378006823412,
      "learning_rate": 5.9774880250117755e-06,
      "loss": 0.7799,
      "step": 10471
    },
    {
      "epoch": 0.6428681052211548,
      "grad_norm": 0.9155081402901355,
      "learning_rate": 5.975667711975156e-06,
      "loss": 0.7559,
      "step": 10472
    },
    {
      "epoch": 0.6429294944596212,
      "grad_norm": 0.9384671293585958,
      "learning_rate": 5.973847558041917e-06,
      "loss": 0.7789,
      "step": 10473
    },
    {
      "epoch": 0.6429908836980878,
      "grad_norm": 0.8655833455998778,
      "learning_rate": 5.972027563284016e-06,
      "loss": 0.8112,
      "step": 10474
    },
    {
      "epoch": 0.6430522729365542,
      "grad_norm": 0.8352618164184669,
      "learning_rate": 5.970207727773414e-06,
      "loss": 0.7729,
      "step": 10475
    },
    {
      "epoch": 0.6431136621750208,
      "grad_norm": 0.8565571158977259,
      "learning_rate": 5.968388051582049e-06,
      "loss": 0.765,
      "step": 10476
    },
    {
      "epoch": 0.6431750514134872,
      "grad_norm": 0.7378049489816492,
      "learning_rate": 5.966568534781866e-06,
      "loss": 0.7664,
      "step": 10477
    },
    {
      "epoch": 0.6432364406519537,
      "grad_norm": 0.8563627791551824,
      "learning_rate": 5.964749177444803e-06,
      "loss": 0.7763,
      "step": 10478
    },
    {
      "epoch": 0.6432978298904202,
      "grad_norm": 0.7748701392359992,
      "learning_rate": 5.962929979642784e-06,
      "loss": 0.7374,
      "step": 10479
    },
    {
      "epoch": 0.6433592191288867,
      "grad_norm": 0.8654988606564207,
      "learning_rate": 5.961110941447741e-06,
      "loss": 0.7557,
      "step": 10480
    },
    {
      "epoch": 0.6434206083673532,
      "grad_norm": 1.03445590496987,
      "learning_rate": 5.959292062931581e-06,
      "loss": 0.8334,
      "step": 10481
    },
    {
      "epoch": 0.6434819976058197,
      "grad_norm": 0.9041858470682888,
      "learning_rate": 5.957473344166216e-06,
      "loss": 0.8325,
      "step": 10482
    },
    {
      "epoch": 0.6435433868442862,
      "grad_norm": 0.9098235052543937,
      "learning_rate": 5.955654785223549e-06,
      "loss": 0.8312,
      "step": 10483
    },
    {
      "epoch": 0.6436047760827527,
      "grad_norm": 0.9187914488679407,
      "learning_rate": 5.9538363861754825e-06,
      "loss": 0.7748,
      "step": 10484
    },
    {
      "epoch": 0.6436661653212192,
      "grad_norm": 0.8632188567464143,
      "learning_rate": 5.952018147093904e-06,
      "loss": 0.7523,
      "step": 10485
    },
    {
      "epoch": 0.6437275545596857,
      "grad_norm": 0.9683972123901504,
      "learning_rate": 5.950200068050696e-06,
      "loss": 0.7739,
      "step": 10486
    },
    {
      "epoch": 0.6437889437981522,
      "grad_norm": 1.0040981031007536,
      "learning_rate": 5.948382149117739e-06,
      "loss": 0.8359,
      "step": 10487
    },
    {
      "epoch": 0.6438503330366186,
      "grad_norm": 0.7790735269105342,
      "learning_rate": 5.946564390366905e-06,
      "loss": 0.7837,
      "step": 10488
    },
    {
      "epoch": 0.6439117222750852,
      "grad_norm": 0.8221689203170243,
      "learning_rate": 5.944746791870062e-06,
      "loss": 0.7356,
      "step": 10489
    },
    {
      "epoch": 0.6439731115135516,
      "grad_norm": 0.809772948052486,
      "learning_rate": 5.9429293536990685e-06,
      "loss": 0.7873,
      "step": 10490
    },
    {
      "epoch": 0.6440345007520182,
      "grad_norm": 0.8416452788880711,
      "learning_rate": 5.941112075925773e-06,
      "loss": 0.7724,
      "step": 10491
    },
    {
      "epoch": 0.6440958899904846,
      "grad_norm": 0.9653948356499846,
      "learning_rate": 5.939294958622026e-06,
      "loss": 0.771,
      "step": 10492
    },
    {
      "epoch": 0.6441572792289512,
      "grad_norm": 0.8641710169059187,
      "learning_rate": 5.937478001859668e-06,
      "loss": 0.7747,
      "step": 10493
    },
    {
      "epoch": 0.6442186684674177,
      "grad_norm": 1.0093139499143575,
      "learning_rate": 5.935661205710532e-06,
      "loss": 0.83,
      "step": 10494
    },
    {
      "epoch": 0.6442800577058841,
      "grad_norm": 0.8841386248976643,
      "learning_rate": 5.93384457024645e-06,
      "loss": 0.8171,
      "step": 10495
    },
    {
      "epoch": 0.6443414469443507,
      "grad_norm": 0.9378522912162693,
      "learning_rate": 5.932028095539237e-06,
      "loss": 0.7836,
      "step": 10496
    },
    {
      "epoch": 0.6444028361828171,
      "grad_norm": 0.9216785117050771,
      "learning_rate": 5.930211781660708e-06,
      "loss": 0.7487,
      "step": 10497
    },
    {
      "epoch": 0.6444642254212837,
      "grad_norm": 0.8453980394540478,
      "learning_rate": 5.928395628682677e-06,
      "loss": 0.8004,
      "step": 10498
    },
    {
      "epoch": 0.6445256146597501,
      "grad_norm": 0.8106279033728527,
      "learning_rate": 5.92657963667694e-06,
      "loss": 0.7519,
      "step": 10499
    },
    {
      "epoch": 0.6445870038982167,
      "grad_norm": 0.8638613068380635,
      "learning_rate": 5.924763805715301e-06,
      "loss": 0.8404,
      "step": 10500
    },
    {
      "epoch": 0.6446483931366831,
      "grad_norm": 0.8889231956225655,
      "learning_rate": 5.9229481358695415e-06,
      "loss": 0.7902,
      "step": 10501
    },
    {
      "epoch": 0.6447097823751496,
      "grad_norm": 0.9011463596012379,
      "learning_rate": 5.921132627211448e-06,
      "loss": 0.7684,
      "step": 10502
    },
    {
      "epoch": 0.6447711716136161,
      "grad_norm": 0.8669886909434421,
      "learning_rate": 5.9193172798127975e-06,
      "loss": 0.7608,
      "step": 10503
    },
    {
      "epoch": 0.6448325608520826,
      "grad_norm": 0.886474723887245,
      "learning_rate": 5.917502093745357e-06,
      "loss": 0.7694,
      "step": 10504
    },
    {
      "epoch": 0.6448939500905492,
      "grad_norm": 0.913075459708482,
      "learning_rate": 5.9156870690809e-06,
      "loss": 0.7511,
      "step": 10505
    },
    {
      "epoch": 0.6449553393290156,
      "grad_norm": 0.8610388666803283,
      "learning_rate": 5.913872205891174e-06,
      "loss": 0.7674,
      "step": 10506
    },
    {
      "epoch": 0.6450167285674822,
      "grad_norm": 0.9652686634613693,
      "learning_rate": 5.912057504247935e-06,
      "loss": 0.7884,
      "step": 10507
    },
    {
      "epoch": 0.6450781178059486,
      "grad_norm": 0.9100328292162335,
      "learning_rate": 5.910242964222923e-06,
      "loss": 0.7633,
      "step": 10508
    },
    {
      "epoch": 0.6451395070444151,
      "grad_norm": 0.9679939950356741,
      "learning_rate": 5.9084285858878835e-06,
      "loss": 0.7828,
      "step": 10509
    },
    {
      "epoch": 0.6452008962828816,
      "grad_norm": 0.9090989230405762,
      "learning_rate": 5.906614369314548e-06,
      "loss": 0.8003,
      "step": 10510
    },
    {
      "epoch": 0.6452622855213481,
      "grad_norm": 0.9373794093166874,
      "learning_rate": 5.904800314574632e-06,
      "loss": 0.7732,
      "step": 10511
    },
    {
      "epoch": 0.6453236747598146,
      "grad_norm": 0.8840562684125022,
      "learning_rate": 5.902986421739867e-06,
      "loss": 0.7548,
      "step": 10512
    },
    {
      "epoch": 0.6453850639982811,
      "grad_norm": 0.8600039033724755,
      "learning_rate": 5.901172690881959e-06,
      "loss": 0.7647,
      "step": 10513
    },
    {
      "epoch": 0.6454464532367477,
      "grad_norm": 0.8876937519842396,
      "learning_rate": 5.899359122072617e-06,
      "loss": 0.7679,
      "step": 10514
    },
    {
      "epoch": 0.6455078424752141,
      "grad_norm": 0.8649321490980959,
      "learning_rate": 5.897545715383545e-06,
      "loss": 0.7898,
      "step": 10515
    },
    {
      "epoch": 0.6455692317136806,
      "grad_norm": 0.8897040791797356,
      "learning_rate": 5.895732470886426e-06,
      "loss": 0.7367,
      "step": 10516
    },
    {
      "epoch": 0.6456306209521471,
      "grad_norm": 0.5903987467653599,
      "learning_rate": 5.893919388652957e-06,
      "loss": 0.7562,
      "step": 10517
    },
    {
      "epoch": 0.6456920101906136,
      "grad_norm": 0.8741077237380679,
      "learning_rate": 5.892106468754815e-06,
      "loss": 0.7757,
      "step": 10518
    },
    {
      "epoch": 0.64575339942908,
      "grad_norm": 0.8909534375389936,
      "learning_rate": 5.890293711263674e-06,
      "loss": 0.7526,
      "step": 10519
    },
    {
      "epoch": 0.6458147886675466,
      "grad_norm": 0.9670141629049543,
      "learning_rate": 5.8884811162512055e-06,
      "loss": 0.7739,
      "step": 10520
    },
    {
      "epoch": 0.645876177906013,
      "grad_norm": 0.9189888184450713,
      "learning_rate": 5.886668683789067e-06,
      "loss": 0.8147,
      "step": 10521
    },
    {
      "epoch": 0.6459375671444796,
      "grad_norm": 0.9676367076857078,
      "learning_rate": 5.884856413948913e-06,
      "loss": 0.8007,
      "step": 10522
    },
    {
      "epoch": 0.645998956382946,
      "grad_norm": 0.8572684849470059,
      "learning_rate": 5.883044306802397e-06,
      "loss": 0.7726,
      "step": 10523
    },
    {
      "epoch": 0.6460603456214126,
      "grad_norm": 0.9481984274187927,
      "learning_rate": 5.881232362421154e-06,
      "loss": 0.8149,
      "step": 10524
    },
    {
      "epoch": 0.6461217348598791,
      "grad_norm": 0.9326261111857782,
      "learning_rate": 5.879420580876831e-06,
      "loss": 0.8006,
      "step": 10525
    },
    {
      "epoch": 0.6461831240983456,
      "grad_norm": 0.8440426933934527,
      "learning_rate": 5.877608962241048e-06,
      "loss": 0.7872,
      "step": 10526
    },
    {
      "epoch": 0.6462445133368121,
      "grad_norm": 0.9171522879494947,
      "learning_rate": 5.875797506585429e-06,
      "loss": 0.7875,
      "step": 10527
    },
    {
      "epoch": 0.6463059025752785,
      "grad_norm": 1.019892603040472,
      "learning_rate": 5.873986213981595e-06,
      "loss": 0.8127,
      "step": 10528
    },
    {
      "epoch": 0.6463672918137451,
      "grad_norm": 0.8618083102343215,
      "learning_rate": 5.872175084501154e-06,
      "loss": 0.7439,
      "step": 10529
    },
    {
      "epoch": 0.6464286810522115,
      "grad_norm": 0.8685225954977457,
      "learning_rate": 5.870364118215706e-06,
      "loss": 0.8218,
      "step": 10530
    },
    {
      "epoch": 0.6464900702906781,
      "grad_norm": 0.9094967500941457,
      "learning_rate": 5.868553315196852e-06,
      "loss": 0.8189,
      "step": 10531
    },
    {
      "epoch": 0.6465514595291445,
      "grad_norm": 0.9072701339607884,
      "learning_rate": 5.866742675516182e-06,
      "loss": 0.827,
      "step": 10532
    },
    {
      "epoch": 0.646612848767611,
      "grad_norm": 0.9281612543895693,
      "learning_rate": 5.864932199245281e-06,
      "loss": 0.7344,
      "step": 10533
    },
    {
      "epoch": 0.6466742380060775,
      "grad_norm": 0.7821489150144505,
      "learning_rate": 5.863121886455728e-06,
      "loss": 0.7593,
      "step": 10534
    },
    {
      "epoch": 0.646735627244544,
      "grad_norm": 0.9490644764355117,
      "learning_rate": 5.861311737219091e-06,
      "loss": 0.8075,
      "step": 10535
    },
    {
      "epoch": 0.6467970164830106,
      "grad_norm": 0.8386681123648859,
      "learning_rate": 5.859501751606933e-06,
      "loss": 0.8316,
      "step": 10536
    },
    {
      "epoch": 0.646858405721477,
      "grad_norm": 0.9525724724794913,
      "learning_rate": 5.857691929690819e-06,
      "loss": 0.8541,
      "step": 10537
    },
    {
      "epoch": 0.6469197949599436,
      "grad_norm": 0.9772741555641614,
      "learning_rate": 5.855882271542296e-06,
      "loss": 0.8589,
      "step": 10538
    },
    {
      "epoch": 0.64698118419841,
      "grad_norm": 0.9326925288300809,
      "learning_rate": 5.854072777232914e-06,
      "loss": 0.7796,
      "step": 10539
    },
    {
      "epoch": 0.6470425734368765,
      "grad_norm": 0.8760764222581429,
      "learning_rate": 5.852263446834208e-06,
      "loss": 0.777,
      "step": 10540
    },
    {
      "epoch": 0.647103962675343,
      "grad_norm": 0.8668947239517709,
      "learning_rate": 5.850454280417709e-06,
      "loss": 0.7595,
      "step": 10541
    },
    {
      "epoch": 0.6471653519138095,
      "grad_norm": 0.8618897284098249,
      "learning_rate": 5.848645278054947e-06,
      "loss": 0.7621,
      "step": 10542
    },
    {
      "epoch": 0.647226741152276,
      "grad_norm": 0.6084500558728578,
      "learning_rate": 5.8468364398174395e-06,
      "loss": 0.675,
      "step": 10543
    },
    {
      "epoch": 0.6472881303907425,
      "grad_norm": 0.8323118704617027,
      "learning_rate": 5.845027765776703e-06,
      "loss": 0.8214,
      "step": 10544
    },
    {
      "epoch": 0.647349519629209,
      "grad_norm": 0.9212220997706897,
      "learning_rate": 5.84321925600424e-06,
      "loss": 0.8033,
      "step": 10545
    },
    {
      "epoch": 0.6474109088676755,
      "grad_norm": 0.9845447281900257,
      "learning_rate": 5.841410910571552e-06,
      "loss": 0.8111,
      "step": 10546
    },
    {
      "epoch": 0.647472298106142,
      "grad_norm": 0.9796164805595912,
      "learning_rate": 5.83960272955013e-06,
      "loss": 0.7764,
      "step": 10547
    },
    {
      "epoch": 0.6475336873446085,
      "grad_norm": 0.7516505033790559,
      "learning_rate": 5.837794713011465e-06,
      "loss": 0.8209,
      "step": 10548
    },
    {
      "epoch": 0.647595076583075,
      "grad_norm": 0.9441838512073126,
      "learning_rate": 5.835986861027038e-06,
      "loss": 0.7394,
      "step": 10549
    },
    {
      "epoch": 0.6476564658215415,
      "grad_norm": 0.9188123927491283,
      "learning_rate": 5.834179173668321e-06,
      "loss": 0.7801,
      "step": 10550
    },
    {
      "epoch": 0.647717855060008,
      "grad_norm": 0.8135992581801509,
      "learning_rate": 5.832371651006776e-06,
      "loss": 0.7991,
      "step": 10551
    },
    {
      "epoch": 0.6477792442984744,
      "grad_norm": 0.9225464678533808,
      "learning_rate": 5.830564293113874e-06,
      "loss": 0.7805,
      "step": 10552
    },
    {
      "epoch": 0.647840633536941,
      "grad_norm": 0.9303185478758239,
      "learning_rate": 5.828757100061067e-06,
      "loss": 0.7831,
      "step": 10553
    },
    {
      "epoch": 0.6479020227754074,
      "grad_norm": 0.8682407631895659,
      "learning_rate": 5.826950071919798e-06,
      "loss": 0.7917,
      "step": 10554
    },
    {
      "epoch": 0.647963412013874,
      "grad_norm": 0.8843436748511894,
      "learning_rate": 5.8251432087615135e-06,
      "loss": 0.8148,
      "step": 10555
    },
    {
      "epoch": 0.6480248012523404,
      "grad_norm": 0.8557516578453421,
      "learning_rate": 5.823336510657647e-06,
      "loss": 0.729,
      "step": 10556
    },
    {
      "epoch": 0.648086190490807,
      "grad_norm": 0.9532569942893105,
      "learning_rate": 5.821529977679625e-06,
      "loss": 0.8226,
      "step": 10557
    },
    {
      "epoch": 0.6481475797292735,
      "grad_norm": 0.5613418078921977,
      "learning_rate": 5.819723609898869e-06,
      "loss": 0.6404,
      "step": 10558
    },
    {
      "epoch": 0.6482089689677399,
      "grad_norm": 0.9058528792207378,
      "learning_rate": 5.817917407386802e-06,
      "loss": 0.7978,
      "step": 10559
    },
    {
      "epoch": 0.6482703582062065,
      "grad_norm": 0.8295272415982451,
      "learning_rate": 5.816111370214825e-06,
      "loss": 0.7725,
      "step": 10560
    },
    {
      "epoch": 0.6483317474446729,
      "grad_norm": 1.0149391310039244,
      "learning_rate": 5.814305498454342e-06,
      "loss": 0.7961,
      "step": 10561
    },
    {
      "epoch": 0.6483931366831395,
      "grad_norm": 0.9195513781781273,
      "learning_rate": 5.812499792176744e-06,
      "loss": 0.7551,
      "step": 10562
    },
    {
      "epoch": 0.6484545259216059,
      "grad_norm": 0.965830612041751,
      "learning_rate": 5.8106942514534325e-06,
      "loss": 0.8516,
      "step": 10563
    },
    {
      "epoch": 0.6485159151600725,
      "grad_norm": 1.0092472262396595,
      "learning_rate": 5.808888876355785e-06,
      "loss": 0.7943,
      "step": 10564
    },
    {
      "epoch": 0.6485773043985389,
      "grad_norm": 0.8309137202063501,
      "learning_rate": 5.807083666955169e-06,
      "loss": 0.7858,
      "step": 10565
    },
    {
      "epoch": 0.6486386936370054,
      "grad_norm": 0.9056375190090274,
      "learning_rate": 5.805278623322964e-06,
      "loss": 0.8067,
      "step": 10566
    },
    {
      "epoch": 0.648700082875472,
      "grad_norm": 0.8533902837993882,
      "learning_rate": 5.80347374553053e-06,
      "loss": 0.805,
      "step": 10567
    },
    {
      "epoch": 0.6487614721139384,
      "grad_norm": 0.8580445328611921,
      "learning_rate": 5.801669033649224e-06,
      "loss": 0.7294,
      "step": 10568
    },
    {
      "epoch": 0.648822861352405,
      "grad_norm": 0.8370681854671603,
      "learning_rate": 5.799864487750395e-06,
      "loss": 0.754,
      "step": 10569
    },
    {
      "epoch": 0.6488842505908714,
      "grad_norm": 0.8623992081815922,
      "learning_rate": 5.798060107905387e-06,
      "loss": 0.7758,
      "step": 10570
    },
    {
      "epoch": 0.648945639829338,
      "grad_norm": 0.8365056824271637,
      "learning_rate": 5.796255894185538e-06,
      "loss": 0.7556,
      "step": 10571
    },
    {
      "epoch": 0.6490070290678044,
      "grad_norm": 0.7964317024146118,
      "learning_rate": 5.79445184666217e-06,
      "loss": 0.7601,
      "step": 10572
    },
    {
      "epoch": 0.6490684183062709,
      "grad_norm": 0.9291878174114618,
      "learning_rate": 5.7926479654066195e-06,
      "loss": 0.8188,
      "step": 10573
    },
    {
      "epoch": 0.6491298075447374,
      "grad_norm": 0.9060559571293193,
      "learning_rate": 5.7908442504902e-06,
      "loss": 0.833,
      "step": 10574
    },
    {
      "epoch": 0.6491911967832039,
      "grad_norm": 0.956666245566008,
      "learning_rate": 5.789040701984215e-06,
      "loss": 0.8006,
      "step": 10575
    },
    {
      "epoch": 0.6492525860216704,
      "grad_norm": 0.9505249346845352,
      "learning_rate": 5.787237319959971e-06,
      "loss": 0.7639,
      "step": 10576
    },
    {
      "epoch": 0.6493139752601369,
      "grad_norm": 0.9689462251475817,
      "learning_rate": 5.78543410448877e-06,
      "loss": 0.8288,
      "step": 10577
    },
    {
      "epoch": 0.6493753644986034,
      "grad_norm": 0.9152648433758056,
      "learning_rate": 5.783631055641898e-06,
      "loss": 0.7818,
      "step": 10578
    },
    {
      "epoch": 0.6494367537370699,
      "grad_norm": 0.8934684877801871,
      "learning_rate": 5.781828173490644e-06,
      "loss": 0.7529,
      "step": 10579
    },
    {
      "epoch": 0.6494981429755364,
      "grad_norm": 0.8900948187710452,
      "learning_rate": 5.780025458106282e-06,
      "loss": 0.7842,
      "step": 10580
    },
    {
      "epoch": 0.6495595322140029,
      "grad_norm": 0.9620310642141136,
      "learning_rate": 5.778222909560083e-06,
      "loss": 0.7955,
      "step": 10581
    },
    {
      "epoch": 0.6496209214524694,
      "grad_norm": 0.9102238469518718,
      "learning_rate": 5.776420527923312e-06,
      "loss": 0.7678,
      "step": 10582
    },
    {
      "epoch": 0.6496823106909358,
      "grad_norm": 0.9587426082378254,
      "learning_rate": 5.774618313267223e-06,
      "loss": 0.8166,
      "step": 10583
    },
    {
      "epoch": 0.6497436999294024,
      "grad_norm": 0.8955117962310656,
      "learning_rate": 5.7728162656630795e-06,
      "loss": 0.8002,
      "step": 10584
    },
    {
      "epoch": 0.6498050891678688,
      "grad_norm": 0.8541138095180167,
      "learning_rate": 5.771014385182112e-06,
      "loss": 0.7725,
      "step": 10585
    },
    {
      "epoch": 0.6498664784063354,
      "grad_norm": 0.9137692763182302,
      "learning_rate": 5.769212671895565e-06,
      "loss": 0.7721,
      "step": 10586
    },
    {
      "epoch": 0.6499278676448018,
      "grad_norm": 0.9018944695769898,
      "learning_rate": 5.767411125874665e-06,
      "loss": 0.8063,
      "step": 10587
    },
    {
      "epoch": 0.6499892568832684,
      "grad_norm": 0.8641670923552558,
      "learning_rate": 5.765609747190646e-06,
      "loss": 0.804,
      "step": 10588
    },
    {
      "epoch": 0.6500506461217349,
      "grad_norm": 0.9130335407911386,
      "learning_rate": 5.7638085359147235e-06,
      "loss": 0.757,
      "step": 10589
    },
    {
      "epoch": 0.6501120353602013,
      "grad_norm": 0.7774706276562033,
      "learning_rate": 5.762007492118098e-06,
      "loss": 0.751,
      "step": 10590
    },
    {
      "epoch": 0.6501734245986679,
      "grad_norm": 0.8859136434977205,
      "learning_rate": 5.760206615871987e-06,
      "loss": 0.7829,
      "step": 10591
    },
    {
      "epoch": 0.6502348138371343,
      "grad_norm": 0.5896525040011854,
      "learning_rate": 5.758405907247585e-06,
      "loss": 0.6556,
      "step": 10592
    },
    {
      "epoch": 0.6502962030756009,
      "grad_norm": 0.9127963726393274,
      "learning_rate": 5.7566053663160825e-06,
      "loss": 0.7521,
      "step": 10593
    },
    {
      "epoch": 0.6503575923140673,
      "grad_norm": 0.960803362587223,
      "learning_rate": 5.754804993148666e-06,
      "loss": 0.8174,
      "step": 10594
    },
    {
      "epoch": 0.6504189815525339,
      "grad_norm": 0.8151251626494403,
      "learning_rate": 5.753004787816512e-06,
      "loss": 0.7262,
      "step": 10595
    },
    {
      "epoch": 0.6504803707910003,
      "grad_norm": 0.9910515742147301,
      "learning_rate": 5.751204750390793e-06,
      "loss": 0.8531,
      "step": 10596
    },
    {
      "epoch": 0.6505417600294668,
      "grad_norm": 0.8213828120330533,
      "learning_rate": 5.749404880942672e-06,
      "loss": 0.7764,
      "step": 10597
    },
    {
      "epoch": 0.6506031492679333,
      "grad_norm": 0.9620809662615833,
      "learning_rate": 5.747605179543317e-06,
      "loss": 0.7863,
      "step": 10598
    },
    {
      "epoch": 0.6506645385063998,
      "grad_norm": 0.8655520603015632,
      "learning_rate": 5.745805646263868e-06,
      "loss": 0.8127,
      "step": 10599
    },
    {
      "epoch": 0.6507259277448664,
      "grad_norm": 0.951094882180742,
      "learning_rate": 5.744006281175476e-06,
      "loss": 0.8056,
      "step": 10600
    },
    {
      "epoch": 0.6507873169833328,
      "grad_norm": 0.906583642017596,
      "learning_rate": 5.742207084349274e-06,
      "loss": 0.7621,
      "step": 10601
    },
    {
      "epoch": 0.6508487062217994,
      "grad_norm": 0.8732103933292884,
      "learning_rate": 5.740408055856401e-06,
      "loss": 0.8183,
      "step": 10602
    },
    {
      "epoch": 0.6509100954602658,
      "grad_norm": 0.8583931814676656,
      "learning_rate": 5.7386091957679844e-06,
      "loss": 0.7734,
      "step": 10603
    },
    {
      "epoch": 0.6509714846987323,
      "grad_norm": 0.9410578027420051,
      "learning_rate": 5.7368105041551305e-06,
      "loss": 0.7356,
      "step": 10604
    },
    {
      "epoch": 0.6510328739371988,
      "grad_norm": 0.6549900407013067,
      "learning_rate": 5.735011981088962e-06,
      "loss": 0.717,
      "step": 10605
    },
    {
      "epoch": 0.6510942631756653,
      "grad_norm": 0.8816910255969611,
      "learning_rate": 5.733213626640579e-06,
      "loss": 0.7859,
      "step": 10606
    },
    {
      "epoch": 0.6511556524141318,
      "grad_norm": 0.9121800371510468,
      "learning_rate": 5.731415440881084e-06,
      "loss": 0.7646,
      "step": 10607
    },
    {
      "epoch": 0.6512170416525983,
      "grad_norm": 0.9124834650410584,
      "learning_rate": 5.729617423881566e-06,
      "loss": 0.7832,
      "step": 10608
    },
    {
      "epoch": 0.6512784308910647,
      "grad_norm": 0.7545452064556845,
      "learning_rate": 5.72781957571311e-06,
      "loss": 0.7433,
      "step": 10609
    },
    {
      "epoch": 0.6513398201295313,
      "grad_norm": 0.8324825204109315,
      "learning_rate": 5.726021896446796e-06,
      "loss": 0.7561,
      "step": 10610
    },
    {
      "epoch": 0.6514012093679978,
      "grad_norm": 0.9470360174208602,
      "learning_rate": 5.724224386153692e-06,
      "loss": 0.8178,
      "step": 10611
    },
    {
      "epoch": 0.6514625986064643,
      "grad_norm": 0.9844768692400225,
      "learning_rate": 5.72242704490487e-06,
      "loss": 0.8351,
      "step": 10612
    },
    {
      "epoch": 0.6515239878449308,
      "grad_norm": 0.8166927370666666,
      "learning_rate": 5.7206298727713885e-06,
      "loss": 0.7481,
      "step": 10613
    },
    {
      "epoch": 0.6515853770833973,
      "grad_norm": 0.8085653748963395,
      "learning_rate": 5.718832869824291e-06,
      "loss": 0.7689,
      "step": 10614
    },
    {
      "epoch": 0.6516467663218638,
      "grad_norm": 0.8976553810587184,
      "learning_rate": 5.717036036134625e-06,
      "loss": 0.765,
      "step": 10615
    },
    {
      "epoch": 0.6517081555603302,
      "grad_norm": 0.8891704627504866,
      "learning_rate": 5.715239371773436e-06,
      "loss": 0.7801,
      "step": 10616
    },
    {
      "epoch": 0.6517695447987968,
      "grad_norm": 0.8751805010452658,
      "learning_rate": 5.71344287681175e-06,
      "loss": 0.7783,
      "step": 10617
    },
    {
      "epoch": 0.6518309340372632,
      "grad_norm": 0.9931383878823649,
      "learning_rate": 5.711646551320593e-06,
      "loss": 0.7977,
      "step": 10618
    },
    {
      "epoch": 0.6518923232757298,
      "grad_norm": 0.773049120939819,
      "learning_rate": 5.709850395370984e-06,
      "loss": 0.817,
      "step": 10619
    },
    {
      "epoch": 0.6519537125141963,
      "grad_norm": 0.8559687915778633,
      "learning_rate": 5.708054409033934e-06,
      "loss": 0.756,
      "step": 10620
    },
    {
      "epoch": 0.6520151017526628,
      "grad_norm": 1.037267419190704,
      "learning_rate": 5.706258592380448e-06,
      "loss": 0.7915,
      "step": 10621
    },
    {
      "epoch": 0.6520764909911293,
      "grad_norm": 0.9539473097511519,
      "learning_rate": 5.70446294548152e-06,
      "loss": 0.8057,
      "step": 10622
    },
    {
      "epoch": 0.6521378802295957,
      "grad_norm": 0.8783889983837886,
      "learning_rate": 5.702667468408155e-06,
      "loss": 0.7628,
      "step": 10623
    },
    {
      "epoch": 0.6521992694680623,
      "grad_norm": 0.6153448246753261,
      "learning_rate": 5.700872161231325e-06,
      "loss": 0.6612,
      "step": 10624
    },
    {
      "epoch": 0.6522606587065287,
      "grad_norm": 0.9297212739859444,
      "learning_rate": 5.699077024022011e-06,
      "loss": 0.7557,
      "step": 10625
    },
    {
      "epoch": 0.6523220479449953,
      "grad_norm": 0.7628029882571357,
      "learning_rate": 5.6972820568511815e-06,
      "loss": 0.7662,
      "step": 10626
    },
    {
      "epoch": 0.6523834371834617,
      "grad_norm": 0.9507403412680124,
      "learning_rate": 5.695487259789807e-06,
      "loss": 0.7945,
      "step": 10627
    },
    {
      "epoch": 0.6524448264219282,
      "grad_norm": 0.9936025861660956,
      "learning_rate": 5.693692632908849e-06,
      "loss": 0.7676,
      "step": 10628
    },
    {
      "epoch": 0.6525062156603947,
      "grad_norm": 0.929071591400881,
      "learning_rate": 5.6918981762792446e-06,
      "loss": 0.7729,
      "step": 10629
    },
    {
      "epoch": 0.6525676048988612,
      "grad_norm": 0.9034847968707451,
      "learning_rate": 5.690103889971952e-06,
      "loss": 0.7975,
      "step": 10630
    },
    {
      "epoch": 0.6526289941373278,
      "grad_norm": 0.9493944403002119,
      "learning_rate": 5.688309774057902e-06,
      "loss": 0.7469,
      "step": 10631
    },
    {
      "epoch": 0.6526903833757942,
      "grad_norm": 0.919964883466254,
      "learning_rate": 5.686515828608028e-06,
      "loss": 0.7606,
      "step": 10632
    },
    {
      "epoch": 0.6527517726142608,
      "grad_norm": 0.8874795013852017,
      "learning_rate": 5.684722053693253e-06,
      "loss": 0.7739,
      "step": 10633
    },
    {
      "epoch": 0.6528131618527272,
      "grad_norm": 0.8638093750370643,
      "learning_rate": 5.682928449384495e-06,
      "loss": 0.7835,
      "step": 10634
    },
    {
      "epoch": 0.6528745510911937,
      "grad_norm": 0.9351108355519716,
      "learning_rate": 5.6811350157526635e-06,
      "loss": 0.7945,
      "step": 10635
    },
    {
      "epoch": 0.6529359403296602,
      "grad_norm": 0.8932591199507255,
      "learning_rate": 5.679341752868661e-06,
      "loss": 0.8195,
      "step": 10636
    },
    {
      "epoch": 0.6529973295681267,
      "grad_norm": 0.8563246920881528,
      "learning_rate": 5.6775486608033915e-06,
      "loss": 0.8087,
      "step": 10637
    },
    {
      "epoch": 0.6530587188065932,
      "grad_norm": 0.8308905054939629,
      "learning_rate": 5.675755739627747e-06,
      "loss": 0.7562,
      "step": 10638
    },
    {
      "epoch": 0.6531201080450597,
      "grad_norm": 0.9088327729810933,
      "learning_rate": 5.673962989412599e-06,
      "loss": 0.77,
      "step": 10639
    },
    {
      "epoch": 0.6531814972835261,
      "grad_norm": 0.8415682543633494,
      "learning_rate": 5.672170410228829e-06,
      "loss": 0.7761,
      "step": 10640
    },
    {
      "epoch": 0.6532428865219927,
      "grad_norm": 0.911950340336759,
      "learning_rate": 5.670378002147313e-06,
      "loss": 0.755,
      "step": 10641
    },
    {
      "epoch": 0.6533042757604592,
      "grad_norm": 0.9658187149317959,
      "learning_rate": 5.668585765238912e-06,
      "loss": 0.8249,
      "step": 10642
    },
    {
      "epoch": 0.6533656649989257,
      "grad_norm": 0.821459570677332,
      "learning_rate": 5.6667936995744796e-06,
      "loss": 0.7467,
      "step": 10643
    },
    {
      "epoch": 0.6534270542373922,
      "grad_norm": 0.8989218583584266,
      "learning_rate": 5.66500180522487e-06,
      "loss": 0.7599,
      "step": 10644
    },
    {
      "epoch": 0.6534884434758587,
      "grad_norm": 0.8153345682856808,
      "learning_rate": 5.663210082260924e-06,
      "loss": 0.7818,
      "step": 10645
    },
    {
      "epoch": 0.6535498327143252,
      "grad_norm": 0.9690898848162649,
      "learning_rate": 5.661418530753477e-06,
      "loss": 0.8188,
      "step": 10646
    },
    {
      "epoch": 0.6536112219527916,
      "grad_norm": 0.8714356059271295,
      "learning_rate": 5.659627150773357e-06,
      "loss": 0.8016,
      "step": 10647
    },
    {
      "epoch": 0.6536726111912582,
      "grad_norm": 0.8529703569514081,
      "learning_rate": 5.6578359423913966e-06,
      "loss": 0.7631,
      "step": 10648
    },
    {
      "epoch": 0.6537340004297246,
      "grad_norm": 0.8774239943017326,
      "learning_rate": 5.656044905678402e-06,
      "loss": 0.7959,
      "step": 10649
    },
    {
      "epoch": 0.6537953896681912,
      "grad_norm": 0.8461644852528065,
      "learning_rate": 5.654254040705184e-06,
      "loss": 0.7981,
      "step": 10650
    },
    {
      "epoch": 0.6538567789066576,
      "grad_norm": 0.9870714938301225,
      "learning_rate": 5.652463347542543e-06,
      "loss": 0.7796,
      "step": 10651
    },
    {
      "epoch": 0.6539181681451242,
      "grad_norm": 0.891960323016305,
      "learning_rate": 5.650672826261283e-06,
      "loss": 0.7746,
      "step": 10652
    },
    {
      "epoch": 0.6539795573835907,
      "grad_norm": 0.8952886487086255,
      "learning_rate": 5.648882476932192e-06,
      "loss": 0.7265,
      "step": 10653
    },
    {
      "epoch": 0.6540409466220571,
      "grad_norm": 0.919918042248514,
      "learning_rate": 5.647092299626038e-06,
      "loss": 0.7773,
      "step": 10654
    },
    {
      "epoch": 0.6541023358605237,
      "grad_norm": 0.9996354729953602,
      "learning_rate": 5.645302294413613e-06,
      "loss": 0.7988,
      "step": 10655
    },
    {
      "epoch": 0.6541637250989901,
      "grad_norm": 0.9637787555718393,
      "learning_rate": 5.6435124613656764e-06,
      "loss": 0.7855,
      "step": 10656
    },
    {
      "epoch": 0.6542251143374567,
      "grad_norm": 0.9032313057581669,
      "learning_rate": 5.641722800552994e-06,
      "loss": 0.7605,
      "step": 10657
    },
    {
      "epoch": 0.6542865035759231,
      "grad_norm": 0.8609373365325392,
      "learning_rate": 5.63993331204632e-06,
      "loss": 0.7695,
      "step": 10658
    },
    {
      "epoch": 0.6543478928143897,
      "grad_norm": 0.9018509692695963,
      "learning_rate": 5.6381439959164e-06,
      "loss": 0.7937,
      "step": 10659
    },
    {
      "epoch": 0.6544092820528561,
      "grad_norm": 0.8840064355510469,
      "learning_rate": 5.636354852233976e-06,
      "loss": 0.8077,
      "step": 10660
    },
    {
      "epoch": 0.6544706712913226,
      "grad_norm": 0.8486762358115347,
      "learning_rate": 5.63456588106978e-06,
      "loss": 0.7941,
      "step": 10661
    },
    {
      "epoch": 0.6545320605297891,
      "grad_norm": 0.8428136232331032,
      "learning_rate": 5.632777082494551e-06,
      "loss": 0.757,
      "step": 10662
    },
    {
      "epoch": 0.6545934497682556,
      "grad_norm": 0.9715642366474873,
      "learning_rate": 5.6309884565789974e-06,
      "loss": 0.8326,
      "step": 10663
    },
    {
      "epoch": 0.6546548390067222,
      "grad_norm": 0.8658892047271123,
      "learning_rate": 5.629200003393838e-06,
      "loss": 0.8372,
      "step": 10664
    },
    {
      "epoch": 0.6547162282451886,
      "grad_norm": 0.9087059587712806,
      "learning_rate": 5.627411723009772e-06,
      "loss": 0.7616,
      "step": 10665
    },
    {
      "epoch": 0.6547776174836551,
      "grad_norm": 0.7960700535510179,
      "learning_rate": 5.625623615497514e-06,
      "loss": 0.7838,
      "step": 10666
    },
    {
      "epoch": 0.6548390067221216,
      "grad_norm": 0.9721631319741294,
      "learning_rate": 5.623835680927754e-06,
      "loss": 0.8052,
      "step": 10667
    },
    {
      "epoch": 0.6549003959605881,
      "grad_norm": 0.9664860352855189,
      "learning_rate": 5.622047919371165e-06,
      "loss": 0.8177,
      "step": 10668
    },
    {
      "epoch": 0.6549617851990546,
      "grad_norm": 0.8451959726616646,
      "learning_rate": 5.620260330898441e-06,
      "loss": 0.7618,
      "step": 10669
    },
    {
      "epoch": 0.6550231744375211,
      "grad_norm": 0.9226935790223693,
      "learning_rate": 5.618472915580253e-06,
      "loss": 0.8014,
      "step": 10670
    },
    {
      "epoch": 0.6550845636759876,
      "grad_norm": 0.8120718547407121,
      "learning_rate": 5.616685673487263e-06,
      "loss": 0.7641,
      "step": 10671
    },
    {
      "epoch": 0.6551459529144541,
      "grad_norm": 0.8561248118847355,
      "learning_rate": 5.614898604690132e-06,
      "loss": 0.8328,
      "step": 10672
    },
    {
      "epoch": 0.6552073421529206,
      "grad_norm": 0.9861811871805962,
      "learning_rate": 5.613111709259512e-06,
      "loss": 0.786,
      "step": 10673
    },
    {
      "epoch": 0.6552687313913871,
      "grad_norm": 0.900501106163804,
      "learning_rate": 5.611324987266049e-06,
      "loss": 0.8131,
      "step": 10674
    },
    {
      "epoch": 0.6553301206298536,
      "grad_norm": 0.9168365097696272,
      "learning_rate": 5.609538438780378e-06,
      "loss": 0.7643,
      "step": 10675
    },
    {
      "epoch": 0.6553915098683201,
      "grad_norm": 0.8400158443336811,
      "learning_rate": 5.607752063873139e-06,
      "loss": 0.7861,
      "step": 10676
    },
    {
      "epoch": 0.6554528991067866,
      "grad_norm": 0.9061050120751042,
      "learning_rate": 5.605965862614955e-06,
      "loss": 0.8444,
      "step": 10677
    },
    {
      "epoch": 0.655514288345253,
      "grad_norm": 0.9476793729558444,
      "learning_rate": 5.604179835076437e-06,
      "loss": 0.7816,
      "step": 10678
    },
    {
      "epoch": 0.6555756775837196,
      "grad_norm": 0.9243112689441771,
      "learning_rate": 5.602393981328198e-06,
      "loss": 0.8075,
      "step": 10679
    },
    {
      "epoch": 0.655637066822186,
      "grad_norm": 0.9116889383330824,
      "learning_rate": 5.600608301440848e-06,
      "loss": 0.7553,
      "step": 10680
    },
    {
      "epoch": 0.6556984560606526,
      "grad_norm": 0.9081143278881485,
      "learning_rate": 5.5988227954849826e-06,
      "loss": 0.7832,
      "step": 10681
    },
    {
      "epoch": 0.655759845299119,
      "grad_norm": 0.8807019754874861,
      "learning_rate": 5.5970374635311905e-06,
      "loss": 0.8243,
      "step": 10682
    },
    {
      "epoch": 0.6558212345375856,
      "grad_norm": 0.8745084162559592,
      "learning_rate": 5.595252305650056e-06,
      "loss": 0.7314,
      "step": 10683
    },
    {
      "epoch": 0.6558826237760521,
      "grad_norm": 0.5652796597348249,
      "learning_rate": 5.593467321912157e-06,
      "loss": 0.6556,
      "step": 10684
    },
    {
      "epoch": 0.6559440130145185,
      "grad_norm": 0.9015591527832526,
      "learning_rate": 5.591682512388062e-06,
      "loss": 0.7426,
      "step": 10685
    },
    {
      "epoch": 0.6560054022529851,
      "grad_norm": 0.9748536642921046,
      "learning_rate": 5.58989787714833e-06,
      "loss": 0.7903,
      "step": 10686
    },
    {
      "epoch": 0.6560667914914515,
      "grad_norm": 0.9099218556482283,
      "learning_rate": 5.58811341626353e-06,
      "loss": 0.7643,
      "step": 10687
    },
    {
      "epoch": 0.6561281807299181,
      "grad_norm": 0.9699913915986409,
      "learning_rate": 5.5863291298042e-06,
      "loss": 0.8316,
      "step": 10688
    },
    {
      "epoch": 0.6561895699683845,
      "grad_norm": 0.8849435370038021,
      "learning_rate": 5.584545017840886e-06,
      "loss": 0.7952,
      "step": 10689
    },
    {
      "epoch": 0.6562509592068511,
      "grad_norm": 0.6021652414652429,
      "learning_rate": 5.582761080444117e-06,
      "loss": 0.6632,
      "step": 10690
    },
    {
      "epoch": 0.6563123484453175,
      "grad_norm": 0.84803562121768,
      "learning_rate": 5.5809773176844325e-06,
      "loss": 0.7735,
      "step": 10691
    },
    {
      "epoch": 0.656373737683784,
      "grad_norm": 0.8882947318826283,
      "learning_rate": 5.579193729632353e-06,
      "loss": 0.7767,
      "step": 10692
    },
    {
      "epoch": 0.6564351269222505,
      "grad_norm": 0.8022308141434775,
      "learning_rate": 5.57741031635838e-06,
      "loss": 0.734,
      "step": 10693
    },
    {
      "epoch": 0.656496516160717,
      "grad_norm": 0.8934455104180064,
      "learning_rate": 5.575627077933038e-06,
      "loss": 0.8284,
      "step": 10694
    },
    {
      "epoch": 0.6565579053991836,
      "grad_norm": 0.9284501979162778,
      "learning_rate": 5.573844014426819e-06,
      "loss": 0.7992,
      "step": 10695
    },
    {
      "epoch": 0.65661929463765,
      "grad_norm": 0.9247546750315797,
      "learning_rate": 5.57206112591022e-06,
      "loss": 0.8007,
      "step": 10696
    },
    {
      "epoch": 0.6566806838761166,
      "grad_norm": 0.9196943394664004,
      "learning_rate": 5.570278412453725e-06,
      "loss": 0.758,
      "step": 10697
    },
    {
      "epoch": 0.656742073114583,
      "grad_norm": 0.9568406551498556,
      "learning_rate": 5.5684958741278175e-06,
      "loss": 0.7614,
      "step": 10698
    },
    {
      "epoch": 0.6568034623530495,
      "grad_norm": 0.9042977904512829,
      "learning_rate": 5.566713511002969e-06,
      "loss": 0.836,
      "step": 10699
    },
    {
      "epoch": 0.656864851591516,
      "grad_norm": 0.837252661723295,
      "learning_rate": 5.564931323149643e-06,
      "loss": 0.774,
      "step": 10700
    },
    {
      "epoch": 0.6569262408299825,
      "grad_norm": 0.9034521107625422,
      "learning_rate": 5.563149310638305e-06,
      "loss": 0.8175,
      "step": 10701
    },
    {
      "epoch": 0.656987630068449,
      "grad_norm": 0.8596148085434002,
      "learning_rate": 5.56136747353941e-06,
      "loss": 0.8122,
      "step": 10702
    },
    {
      "epoch": 0.6570490193069155,
      "grad_norm": 0.9119548268692262,
      "learning_rate": 5.559585811923393e-06,
      "loss": 0.8149,
      "step": 10703
    },
    {
      "epoch": 0.6571104085453819,
      "grad_norm": 0.9144521259051341,
      "learning_rate": 5.5578043258606955e-06,
      "loss": 0.8046,
      "step": 10704
    },
    {
      "epoch": 0.6571717977838485,
      "grad_norm": 0.9036104936285944,
      "learning_rate": 5.556023015421755e-06,
      "loss": 0.7396,
      "step": 10705
    },
    {
      "epoch": 0.657233187022315,
      "grad_norm": 0.8961955338905715,
      "learning_rate": 5.5542418806769915e-06,
      "loss": 0.8121,
      "step": 10706
    },
    {
      "epoch": 0.6572945762607815,
      "grad_norm": 0.891967921995613,
      "learning_rate": 5.552460921696825e-06,
      "loss": 0.7461,
      "step": 10707
    },
    {
      "epoch": 0.657355965499248,
      "grad_norm": 0.8779060052176034,
      "learning_rate": 5.550680138551665e-06,
      "loss": 0.7523,
      "step": 10708
    },
    {
      "epoch": 0.6574173547377145,
      "grad_norm": 1.0199907134963644,
      "learning_rate": 5.548899531311915e-06,
      "loss": 0.7591,
      "step": 10709
    },
    {
      "epoch": 0.657478743976181,
      "grad_norm": 0.9270405395275274,
      "learning_rate": 5.547119100047975e-06,
      "loss": 0.789,
      "step": 10710
    },
    {
      "epoch": 0.6575401332146474,
      "grad_norm": 0.9502966780465371,
      "learning_rate": 5.545338844830227e-06,
      "loss": 0.7569,
      "step": 10711
    },
    {
      "epoch": 0.657601522453114,
      "grad_norm": 0.9713275591373542,
      "learning_rate": 5.543558765729068e-06,
      "loss": 0.783,
      "step": 10712
    },
    {
      "epoch": 0.6576629116915804,
      "grad_norm": 0.9326580500734826,
      "learning_rate": 5.541778862814862e-06,
      "loss": 0.8094,
      "step": 10713
    },
    {
      "epoch": 0.657724300930047,
      "grad_norm": 0.9974043383152075,
      "learning_rate": 5.539999136157977e-06,
      "loss": 0.7947,
      "step": 10714
    },
    {
      "epoch": 0.6577856901685135,
      "grad_norm": 0.8813186423366625,
      "learning_rate": 5.5382195858287844e-06,
      "loss": 0.7603,
      "step": 10715
    },
    {
      "epoch": 0.65784707940698,
      "grad_norm": 0.9921796768753928,
      "learning_rate": 5.536440211897636e-06,
      "loss": 0.83,
      "step": 10716
    },
    {
      "epoch": 0.6579084686454465,
      "grad_norm": 0.9774365205104004,
      "learning_rate": 5.534661014434881e-06,
      "loss": 0.715,
      "step": 10717
    },
    {
      "epoch": 0.6579698578839129,
      "grad_norm": 0.9409503267976341,
      "learning_rate": 5.532881993510852e-06,
      "loss": 0.7733,
      "step": 10718
    },
    {
      "epoch": 0.6580312471223795,
      "grad_norm": 0.8568685355336867,
      "learning_rate": 5.531103149195891e-06,
      "loss": 0.7593,
      "step": 10719
    },
    {
      "epoch": 0.6580926363608459,
      "grad_norm": 0.9577005886943318,
      "learning_rate": 5.529324481560327e-06,
      "loss": 0.7393,
      "step": 10720
    },
    {
      "epoch": 0.6581540255993125,
      "grad_norm": 0.8899360170653986,
      "learning_rate": 5.527545990674475e-06,
      "loss": 0.7892,
      "step": 10721
    },
    {
      "epoch": 0.6582154148377789,
      "grad_norm": 0.8644695882028727,
      "learning_rate": 5.525767676608651e-06,
      "loss": 0.79,
      "step": 10722
    },
    {
      "epoch": 0.6582768040762454,
      "grad_norm": 0.9407567890715864,
      "learning_rate": 5.523989539433161e-06,
      "loss": 0.7848,
      "step": 10723
    },
    {
      "epoch": 0.6583381933147119,
      "grad_norm": 0.921230010461309,
      "learning_rate": 5.522211579218304e-06,
      "loss": 0.7897,
      "step": 10724
    },
    {
      "epoch": 0.6583995825531784,
      "grad_norm": 0.8552542248423589,
      "learning_rate": 5.5204337960343666e-06,
      "loss": 0.8002,
      "step": 10725
    },
    {
      "epoch": 0.658460971791645,
      "grad_norm": 0.8495509949395943,
      "learning_rate": 5.518656189951645e-06,
      "loss": 0.8164,
      "step": 10726
    },
    {
      "epoch": 0.6585223610301114,
      "grad_norm": 1.0160691771027741,
      "learning_rate": 5.516878761040416e-06,
      "loss": 0.8212,
      "step": 10727
    },
    {
      "epoch": 0.658583750268578,
      "grad_norm": 0.916598026422667,
      "learning_rate": 5.515101509370944e-06,
      "loss": 0.7615,
      "step": 10728
    },
    {
      "epoch": 0.6586451395070444,
      "grad_norm": 0.9230163557614192,
      "learning_rate": 5.51332443501349e-06,
      "loss": 0.8003,
      "step": 10729
    },
    {
      "epoch": 0.6587065287455109,
      "grad_norm": 0.9679911177346209,
      "learning_rate": 5.511547538038322e-06,
      "loss": 0.7479,
      "step": 10730
    },
    {
      "epoch": 0.6587679179839774,
      "grad_norm": 0.8885947900135485,
      "learning_rate": 5.5097708185156914e-06,
      "loss": 0.7506,
      "step": 10731
    },
    {
      "epoch": 0.6588293072224439,
      "grad_norm": 0.7869309829433865,
      "learning_rate": 5.5079942765158266e-06,
      "loss": 0.7959,
      "step": 10732
    },
    {
      "epoch": 0.6588906964609104,
      "grad_norm": 0.8998198835238027,
      "learning_rate": 5.506217912108977e-06,
      "loss": 0.7889,
      "step": 10733
    },
    {
      "epoch": 0.6589520856993769,
      "grad_norm": 0.8542367714408199,
      "learning_rate": 5.504441725365368e-06,
      "loss": 0.7569,
      "step": 10734
    },
    {
      "epoch": 0.6590134749378433,
      "grad_norm": 0.9489045298764754,
      "learning_rate": 5.502665716355222e-06,
      "loss": 0.7662,
      "step": 10735
    },
    {
      "epoch": 0.6590748641763099,
      "grad_norm": 0.895190983334577,
      "learning_rate": 5.500889885148752e-06,
      "loss": 0.7737,
      "step": 10736
    },
    {
      "epoch": 0.6591362534147764,
      "grad_norm": 0.972790012472864,
      "learning_rate": 5.49911423181617e-06,
      "loss": 0.7426,
      "step": 10737
    },
    {
      "epoch": 0.6591976426532429,
      "grad_norm": 0.9473767618002347,
      "learning_rate": 5.497338756427672e-06,
      "loss": 0.791,
      "step": 10738
    },
    {
      "epoch": 0.6592590318917094,
      "grad_norm": 0.8147923981871483,
      "learning_rate": 5.495563459053455e-06,
      "loss": 0.7666,
      "step": 10739
    },
    {
      "epoch": 0.6593204211301759,
      "grad_norm": 0.9681001560872053,
      "learning_rate": 5.493788339763706e-06,
      "loss": 0.782,
      "step": 10740
    },
    {
      "epoch": 0.6593818103686424,
      "grad_norm": 1.0267134537610538,
      "learning_rate": 5.492013398628611e-06,
      "loss": 0.7882,
      "step": 10741
    },
    {
      "epoch": 0.6594431996071088,
      "grad_norm": 0.8636395411833998,
      "learning_rate": 5.490238635718332e-06,
      "loss": 0.7663,
      "step": 10742
    },
    {
      "epoch": 0.6595045888455754,
      "grad_norm": 0.9578140391141747,
      "learning_rate": 5.488464051103035e-06,
      "loss": 0.763,
      "step": 10743
    },
    {
      "epoch": 0.6595659780840418,
      "grad_norm": 0.899370854713087,
      "learning_rate": 5.48668964485289e-06,
      "loss": 0.7728,
      "step": 10744
    },
    {
      "epoch": 0.6596273673225084,
      "grad_norm": 0.9725967588883098,
      "learning_rate": 5.4849154170380395e-06,
      "loss": 0.7943,
      "step": 10745
    },
    {
      "epoch": 0.6596887565609748,
      "grad_norm": 0.9017839401419552,
      "learning_rate": 5.483141367728631e-06,
      "loss": 0.7539,
      "step": 10746
    },
    {
      "epoch": 0.6597501457994414,
      "grad_norm": 0.9654210132839428,
      "learning_rate": 5.481367496994804e-06,
      "loss": 0.809,
      "step": 10747
    },
    {
      "epoch": 0.6598115350379079,
      "grad_norm": 0.9653970721314405,
      "learning_rate": 5.479593804906687e-06,
      "loss": 0.7759,
      "step": 10748
    },
    {
      "epoch": 0.6598729242763743,
      "grad_norm": 1.019627323017693,
      "learning_rate": 5.477820291534401e-06,
      "loss": 0.731,
      "step": 10749
    },
    {
      "epoch": 0.6599343135148409,
      "grad_norm": 0.8853906416583472,
      "learning_rate": 5.476046956948065e-06,
      "loss": 0.7475,
      "step": 10750
    },
    {
      "epoch": 0.6599957027533073,
      "grad_norm": 0.6042111567582674,
      "learning_rate": 5.474273801217793e-06,
      "loss": 0.6514,
      "step": 10751
    },
    {
      "epoch": 0.6600570919917739,
      "grad_norm": 0.9500925050003646,
      "learning_rate": 5.47250082441368e-06,
      "loss": 0.8107,
      "step": 10752
    },
    {
      "epoch": 0.6601184812302403,
      "grad_norm": 0.9987841152215181,
      "learning_rate": 5.4707280266058215e-06,
      "loss": 0.7756,
      "step": 10753
    },
    {
      "epoch": 0.6601798704687069,
      "grad_norm": 1.044842459884791,
      "learning_rate": 5.468955407864312e-06,
      "loss": 0.844,
      "step": 10754
    },
    {
      "epoch": 0.6602412597071733,
      "grad_norm": 0.8837116685396598,
      "learning_rate": 5.4671829682592285e-06,
      "loss": 0.8089,
      "step": 10755
    },
    {
      "epoch": 0.6603026489456398,
      "grad_norm": 0.8224098890351619,
      "learning_rate": 5.46541070786065e-06,
      "loss": 0.7696,
      "step": 10756
    },
    {
      "epoch": 0.6603640381841063,
      "grad_norm": 0.8964873459334335,
      "learning_rate": 5.4636386267386295e-06,
      "loss": 0.8031,
      "step": 10757
    },
    {
      "epoch": 0.6604254274225728,
      "grad_norm": 0.9064694726816518,
      "learning_rate": 5.461866724963242e-06,
      "loss": 0.7913,
      "step": 10758
    },
    {
      "epoch": 0.6604868166610394,
      "grad_norm": 0.9377594544153264,
      "learning_rate": 5.460095002604533e-06,
      "loss": 0.8057,
      "step": 10759
    },
    {
      "epoch": 0.6605482058995058,
      "grad_norm": 0.8150623430109114,
      "learning_rate": 5.458323459732551e-06,
      "loss": 0.7613,
      "step": 10760
    },
    {
      "epoch": 0.6606095951379723,
      "grad_norm": 0.8727661129327469,
      "learning_rate": 5.4565520964173326e-06,
      "loss": 0.8275,
      "step": 10761
    },
    {
      "epoch": 0.6606709843764388,
      "grad_norm": 0.8373031669125306,
      "learning_rate": 5.45478091272891e-06,
      "loss": 0.7773,
      "step": 10762
    },
    {
      "epoch": 0.6607323736149053,
      "grad_norm": 0.8599497535983192,
      "learning_rate": 5.453009908737307e-06,
      "loss": 0.8205,
      "step": 10763
    },
    {
      "epoch": 0.6607937628533718,
      "grad_norm": 0.8839802752294194,
      "learning_rate": 5.451239084512537e-06,
      "loss": 0.7505,
      "step": 10764
    },
    {
      "epoch": 0.6608551520918383,
      "grad_norm": 0.950494793302272,
      "learning_rate": 5.449468440124619e-06,
      "loss": 0.7694,
      "step": 10765
    },
    {
      "epoch": 0.6609165413303048,
      "grad_norm": 0.9351701790810962,
      "learning_rate": 5.447697975643556e-06,
      "loss": 0.8187,
      "step": 10766
    },
    {
      "epoch": 0.6609779305687713,
      "grad_norm": 0.8623523508717161,
      "learning_rate": 5.445927691139336e-06,
      "loss": 0.8255,
      "step": 10767
    },
    {
      "epoch": 0.6610393198072378,
      "grad_norm": 0.8928093026381871,
      "learning_rate": 5.444157586681947e-06,
      "loss": 0.8163,
      "step": 10768
    },
    {
      "epoch": 0.6611007090457043,
      "grad_norm": 0.8656228110692487,
      "learning_rate": 5.442387662341377e-06,
      "loss": 0.7687,
      "step": 10769
    },
    {
      "epoch": 0.6611620982841708,
      "grad_norm": 0.8590896659806753,
      "learning_rate": 5.440617918187601e-06,
      "loss": 0.7173,
      "step": 10770
    },
    {
      "epoch": 0.6612234875226373,
      "grad_norm": 0.9529112311620774,
      "learning_rate": 5.4388483542905825e-06,
      "loss": 0.7501,
      "step": 10771
    },
    {
      "epoch": 0.6612848767611038,
      "grad_norm": 0.9716974797806572,
      "learning_rate": 5.4370789707202835e-06,
      "loss": 0.7957,
      "step": 10772
    },
    {
      "epoch": 0.6613462659995702,
      "grad_norm": 0.9192743088255826,
      "learning_rate": 5.435309767546657e-06,
      "loss": 0.8232,
      "step": 10773
    },
    {
      "epoch": 0.6614076552380368,
      "grad_norm": 0.9004251366275305,
      "learning_rate": 5.4335407448396495e-06,
      "loss": 0.8055,
      "step": 10774
    },
    {
      "epoch": 0.6614690444765032,
      "grad_norm": 0.9267748910663872,
      "learning_rate": 5.431771902669194e-06,
      "loss": 0.8052,
      "step": 10775
    },
    {
      "epoch": 0.6615304337149698,
      "grad_norm": 0.9755667010582217,
      "learning_rate": 5.430003241105237e-06,
      "loss": 0.8114,
      "step": 10776
    },
    {
      "epoch": 0.6615918229534362,
      "grad_norm": 0.9523704855176632,
      "learning_rate": 5.42823476021769e-06,
      "loss": 0.7677,
      "step": 10777
    },
    {
      "epoch": 0.6616532121919028,
      "grad_norm": 0.8589412935924966,
      "learning_rate": 5.426466460076471e-06,
      "loss": 0.7861,
      "step": 10778
    },
    {
      "epoch": 0.6617146014303693,
      "grad_norm": 1.0007579530877289,
      "learning_rate": 5.424698340751497e-06,
      "loss": 0.7843,
      "step": 10779
    },
    {
      "epoch": 0.6617759906688357,
      "grad_norm": 0.9770048483742659,
      "learning_rate": 5.422930402312668e-06,
      "loss": 0.7663,
      "step": 10780
    },
    {
      "epoch": 0.6618373799073023,
      "grad_norm": 0.8668792600166816,
      "learning_rate": 5.421162644829885e-06,
      "loss": 0.747,
      "step": 10781
    },
    {
      "epoch": 0.6618987691457687,
      "grad_norm": 0.8938126957281888,
      "learning_rate": 5.419395068373024e-06,
      "loss": 0.7957,
      "step": 10782
    },
    {
      "epoch": 0.6619601583842353,
      "grad_norm": 0.9438892221703412,
      "learning_rate": 5.417627673011977e-06,
      "loss": 0.7274,
      "step": 10783
    },
    {
      "epoch": 0.6620215476227017,
      "grad_norm": 1.0268063194224584,
      "learning_rate": 5.415860458816617e-06,
      "loss": 0.7865,
      "step": 10784
    },
    {
      "epoch": 0.6620829368611683,
      "grad_norm": 0.9175349522515707,
      "learning_rate": 5.4140934258568125e-06,
      "loss": 0.8393,
      "step": 10785
    },
    {
      "epoch": 0.6621443260996347,
      "grad_norm": 0.9561487008260463,
      "learning_rate": 5.4123265742024204e-06,
      "loss": 0.7863,
      "step": 10786
    },
    {
      "epoch": 0.6622057153381012,
      "grad_norm": 0.8490727015917849,
      "learning_rate": 5.410559903923296e-06,
      "loss": 0.784,
      "step": 10787
    },
    {
      "epoch": 0.6622671045765677,
      "grad_norm": 1.0197128742093764,
      "learning_rate": 5.408793415089284e-06,
      "loss": 0.784,
      "step": 10788
    },
    {
      "epoch": 0.6623284938150342,
      "grad_norm": 0.9086815168371495,
      "learning_rate": 5.40702710777022e-06,
      "loss": 0.7612,
      "step": 10789
    },
    {
      "epoch": 0.6623898830535008,
      "grad_norm": 0.9556539810268195,
      "learning_rate": 5.405260982035943e-06,
      "loss": 0.8002,
      "step": 10790
    },
    {
      "epoch": 0.6624512722919672,
      "grad_norm": 0.9846094851137382,
      "learning_rate": 5.403495037956279e-06,
      "loss": 0.7894,
      "step": 10791
    },
    {
      "epoch": 0.6625126615304338,
      "grad_norm": 0.8964024809381186,
      "learning_rate": 5.401729275601031e-06,
      "loss": 0.7677,
      "step": 10792
    },
    {
      "epoch": 0.6625740507689002,
      "grad_norm": 0.9564757700685186,
      "learning_rate": 5.399963695040022e-06,
      "loss": 0.7865,
      "step": 10793
    },
    {
      "epoch": 0.6626354400073667,
      "grad_norm": 0.8712072289497739,
      "learning_rate": 5.398198296343051e-06,
      "loss": 0.7656,
      "step": 10794
    },
    {
      "epoch": 0.6626968292458332,
      "grad_norm": 0.8506635898951239,
      "learning_rate": 5.396433079579918e-06,
      "loss": 0.8175,
      "step": 10795
    },
    {
      "epoch": 0.6627582184842997,
      "grad_norm": 0.9747173310154829,
      "learning_rate": 5.3946680448204e-06,
      "loss": 0.7846,
      "step": 10796
    },
    {
      "epoch": 0.6628196077227662,
      "grad_norm": 0.8731753620344945,
      "learning_rate": 5.392903192134287e-06,
      "loss": 0.7382,
      "step": 10797
    },
    {
      "epoch": 0.6628809969612327,
      "grad_norm": 0.919507645029337,
      "learning_rate": 5.391138521591351e-06,
      "loss": 0.8036,
      "step": 10798
    },
    {
      "epoch": 0.6629423861996991,
      "grad_norm": 0.983398980365823,
      "learning_rate": 5.389374033261361e-06,
      "loss": 0.8044,
      "step": 10799
    },
    {
      "epoch": 0.6630037754381657,
      "grad_norm": 0.9701355471491371,
      "learning_rate": 5.387609727214073e-06,
      "loss": 0.7664,
      "step": 10800
    },
    {
      "epoch": 0.6630651646766322,
      "grad_norm": 0.9290449657044587,
      "learning_rate": 5.3858456035192444e-06,
      "loss": 0.7796,
      "step": 10801
    },
    {
      "epoch": 0.6631265539150987,
      "grad_norm": 0.9789101581809396,
      "learning_rate": 5.384081662246614e-06,
      "loss": 0.8094,
      "step": 10802
    },
    {
      "epoch": 0.6631879431535652,
      "grad_norm": 0.8982151601623779,
      "learning_rate": 5.382317903465921e-06,
      "loss": 0.7655,
      "step": 10803
    },
    {
      "epoch": 0.6632493323920317,
      "grad_norm": 0.9494048806499412,
      "learning_rate": 5.3805543272469014e-06,
      "loss": 0.7986,
      "step": 10804
    },
    {
      "epoch": 0.6633107216304982,
      "grad_norm": 0.9348806010227791,
      "learning_rate": 5.3787909336592814e-06,
      "loss": 0.7829,
      "step": 10805
    },
    {
      "epoch": 0.6633721108689646,
      "grad_norm": 0.9482047612281024,
      "learning_rate": 5.377027722772767e-06,
      "loss": 0.8166,
      "step": 10806
    },
    {
      "epoch": 0.6634335001074312,
      "grad_norm": 0.9077967046365325,
      "learning_rate": 5.375264694657067e-06,
      "loss": 0.7774,
      "step": 10807
    },
    {
      "epoch": 0.6634948893458976,
      "grad_norm": 0.9673706120253518,
      "learning_rate": 5.373501849381892e-06,
      "loss": 0.7744,
      "step": 10808
    },
    {
      "epoch": 0.6635562785843642,
      "grad_norm": 1.0854985444219767,
      "learning_rate": 5.371739187016935e-06,
      "loss": 0.7786,
      "step": 10809
    },
    {
      "epoch": 0.6636176678228306,
      "grad_norm": 0.9352794063256747,
      "learning_rate": 5.369976707631881e-06,
      "loss": 0.7846,
      "step": 10810
    },
    {
      "epoch": 0.6636790570612972,
      "grad_norm": 0.8923057287171685,
      "learning_rate": 5.368214411296411e-06,
      "loss": 0.7915,
      "step": 10811
    },
    {
      "epoch": 0.6637404462997637,
      "grad_norm": 0.9599304686487775,
      "learning_rate": 5.366452298080198e-06,
      "loss": 0.774,
      "step": 10812
    },
    {
      "epoch": 0.6638018355382301,
      "grad_norm": 0.7900594578806874,
      "learning_rate": 5.364690368052907e-06,
      "loss": 0.7514,
      "step": 10813
    },
    {
      "epoch": 0.6638632247766967,
      "grad_norm": 1.001345908265695,
      "learning_rate": 5.362928621284193e-06,
      "loss": 0.7955,
      "step": 10814
    },
    {
      "epoch": 0.6639246140151631,
      "grad_norm": 0.9440904092427489,
      "learning_rate": 5.36116705784372e-06,
      "loss": 0.7735,
      "step": 10815
    },
    {
      "epoch": 0.6639860032536297,
      "grad_norm": 0.9389965422666635,
      "learning_rate": 5.3594056778011196e-06,
      "loss": 0.7837,
      "step": 10816
    },
    {
      "epoch": 0.6640473924920961,
      "grad_norm": 0.9492744939726944,
      "learning_rate": 5.357644481226027e-06,
      "loss": 0.8015,
      "step": 10817
    },
    {
      "epoch": 0.6641087817305626,
      "grad_norm": 0.9770677840972669,
      "learning_rate": 5.355883468188083e-06,
      "loss": 0.7424,
      "step": 10818
    },
    {
      "epoch": 0.6641701709690291,
      "grad_norm": 0.9923951655517507,
      "learning_rate": 5.354122638756903e-06,
      "loss": 0.7665,
      "step": 10819
    },
    {
      "epoch": 0.6642315602074956,
      "grad_norm": 0.8447836121232876,
      "learning_rate": 5.352361993002108e-06,
      "loss": 0.7849,
      "step": 10820
    },
    {
      "epoch": 0.6642929494459622,
      "grad_norm": 0.9591891904386101,
      "learning_rate": 5.350601530993291e-06,
      "loss": 0.7764,
      "step": 10821
    },
    {
      "epoch": 0.6643543386844286,
      "grad_norm": 0.9477596153786617,
      "learning_rate": 5.348841252800068e-06,
      "loss": 0.7461,
      "step": 10822
    },
    {
      "epoch": 0.6644157279228952,
      "grad_norm": 0.9580038418555912,
      "learning_rate": 5.347081158492025e-06,
      "loss": 0.7885,
      "step": 10823
    },
    {
      "epoch": 0.6644771171613616,
      "grad_norm": 1.0008644452752082,
      "learning_rate": 5.345321248138749e-06,
      "loss": 0.8086,
      "step": 10824
    },
    {
      "epoch": 0.6645385063998281,
      "grad_norm": 0.8339236289221349,
      "learning_rate": 5.3435615218098216e-06,
      "loss": 0.7633,
      "step": 10825
    },
    {
      "epoch": 0.6645998956382946,
      "grad_norm": 0.6198165506857659,
      "learning_rate": 5.341801979574809e-06,
      "loss": 0.6864,
      "step": 10826
    },
    {
      "epoch": 0.6646612848767611,
      "grad_norm": 0.8500531356962542,
      "learning_rate": 5.340042621503278e-06,
      "loss": 0.7853,
      "step": 10827
    },
    {
      "epoch": 0.6647226741152276,
      "grad_norm": 0.9119411021877678,
      "learning_rate": 5.338283447664783e-06,
      "loss": 0.7564,
      "step": 10828
    },
    {
      "epoch": 0.6647840633536941,
      "grad_norm": 0.8578752315271968,
      "learning_rate": 5.33652445812888e-06,
      "loss": 0.7961,
      "step": 10829
    },
    {
      "epoch": 0.6648454525921605,
      "grad_norm": 0.934865878657335,
      "learning_rate": 5.334765652965109e-06,
      "loss": 0.7573,
      "step": 10830
    },
    {
      "epoch": 0.6649068418306271,
      "grad_norm": 0.8424003538457794,
      "learning_rate": 5.333007032242997e-06,
      "loss": 0.8062,
      "step": 10831
    },
    {
      "epoch": 0.6649682310690936,
      "grad_norm": 0.9138505544071692,
      "learning_rate": 5.331248596032082e-06,
      "loss": 0.8236,
      "step": 10832
    },
    {
      "epoch": 0.6650296203075601,
      "grad_norm": 0.9418511485901566,
      "learning_rate": 5.32949034440188e-06,
      "loss": 0.7819,
      "step": 10833
    },
    {
      "epoch": 0.6650910095460266,
      "grad_norm": 0.9081817625513094,
      "learning_rate": 5.327732277421903e-06,
      "loss": 0.7737,
      "step": 10834
    },
    {
      "epoch": 0.6651523987844931,
      "grad_norm": 0.6063907315747655,
      "learning_rate": 5.3259743951616595e-06,
      "loss": 0.6734,
      "step": 10835
    },
    {
      "epoch": 0.6652137880229596,
      "grad_norm": 0.9729268836408631,
      "learning_rate": 5.324216697690645e-06,
      "loss": 0.8341,
      "step": 10836
    },
    {
      "epoch": 0.665275177261426,
      "grad_norm": 0.9098851721300666,
      "learning_rate": 5.322459185078355e-06,
      "loss": 0.8313,
      "step": 10837
    },
    {
      "epoch": 0.6653365664998926,
      "grad_norm": 0.8433726203263081,
      "learning_rate": 5.3207018573942684e-06,
      "loss": 0.7535,
      "step": 10838
    },
    {
      "epoch": 0.665397955738359,
      "grad_norm": 0.891738252675692,
      "learning_rate": 5.318944714707861e-06,
      "loss": 0.7704,
      "step": 10839
    },
    {
      "epoch": 0.6654593449768256,
      "grad_norm": 0.9441946580122298,
      "learning_rate": 5.317187757088612e-06,
      "loss": 0.7704,
      "step": 10840
    },
    {
      "epoch": 0.665520734215292,
      "grad_norm": 0.9418258316040742,
      "learning_rate": 5.315430984605974e-06,
      "loss": 0.7578,
      "step": 10841
    },
    {
      "epoch": 0.6655821234537586,
      "grad_norm": 0.8995293924092245,
      "learning_rate": 5.313674397329398e-06,
      "loss": 0.7849,
      "step": 10842
    },
    {
      "epoch": 0.6656435126922251,
      "grad_norm": 1.0093531500094657,
      "learning_rate": 5.311917995328344e-06,
      "loss": 0.778,
      "step": 10843
    },
    {
      "epoch": 0.6657049019306915,
      "grad_norm": 0.9197869719000511,
      "learning_rate": 5.310161778672242e-06,
      "loss": 0.7522,
      "step": 10844
    },
    {
      "epoch": 0.6657662911691581,
      "grad_norm": 0.9755919984813485,
      "learning_rate": 5.308405747430534e-06,
      "loss": 0.7918,
      "step": 10845
    },
    {
      "epoch": 0.6658276804076245,
      "grad_norm": 0.8217012545288656,
      "learning_rate": 5.306649901672631e-06,
      "loss": 0.7497,
      "step": 10846
    },
    {
      "epoch": 0.6658890696460911,
      "grad_norm": 0.8483047972999587,
      "learning_rate": 5.304894241467964e-06,
      "loss": 0.8089,
      "step": 10847
    },
    {
      "epoch": 0.6659504588845575,
      "grad_norm": 1.0261471835024494,
      "learning_rate": 5.303138766885938e-06,
      "loss": 0.8156,
      "step": 10848
    },
    {
      "epoch": 0.666011848123024,
      "grad_norm": 0.8885250284772002,
      "learning_rate": 5.3013834779959564e-06,
      "loss": 0.7916,
      "step": 10849
    },
    {
      "epoch": 0.6660732373614905,
      "grad_norm": 0.8623603621603338,
      "learning_rate": 5.299628374867416e-06,
      "loss": 0.7529,
      "step": 10850
    },
    {
      "epoch": 0.666134626599957,
      "grad_norm": 0.915985827334519,
      "learning_rate": 5.297873457569706e-06,
      "loss": 0.7646,
      "step": 10851
    },
    {
      "epoch": 0.6661960158384235,
      "grad_norm": 0.6211619924508972,
      "learning_rate": 5.296118726172208e-06,
      "loss": 0.6559,
      "step": 10852
    },
    {
      "epoch": 0.66625740507689,
      "grad_norm": 1.0261792943374035,
      "learning_rate": 5.294364180744289e-06,
      "loss": 0.8013,
      "step": 10853
    },
    {
      "epoch": 0.6663187943153566,
      "grad_norm": 0.8516986670475593,
      "learning_rate": 5.292609821355326e-06,
      "loss": 0.8002,
      "step": 10854
    },
    {
      "epoch": 0.666380183553823,
      "grad_norm": 0.9353108861248695,
      "learning_rate": 5.2908556480746775e-06,
      "loss": 0.7939,
      "step": 10855
    },
    {
      "epoch": 0.6664415727922895,
      "grad_norm": 0.963945529588522,
      "learning_rate": 5.289101660971685e-06,
      "loss": 0.8213,
      "step": 10856
    },
    {
      "epoch": 0.666502962030756,
      "grad_norm": 0.8988993780891442,
      "learning_rate": 5.287347860115701e-06,
      "loss": 0.7444,
      "step": 10857
    },
    {
      "epoch": 0.6665643512692225,
      "grad_norm": 0.9778892145028006,
      "learning_rate": 5.285594245576062e-06,
      "loss": 0.8343,
      "step": 10858
    },
    {
      "epoch": 0.666625740507689,
      "grad_norm": 0.9100436213128812,
      "learning_rate": 5.283840817422102e-06,
      "loss": 0.7613,
      "step": 10859
    },
    {
      "epoch": 0.6666871297461555,
      "grad_norm": 0.8393381437320659,
      "learning_rate": 5.282087575723129e-06,
      "loss": 0.7751,
      "step": 10860
    },
    {
      "epoch": 0.666748518984622,
      "grad_norm": 0.8986504890482697,
      "learning_rate": 5.280334520548472e-06,
      "loss": 0.7849,
      "step": 10861
    },
    {
      "epoch": 0.6668099082230885,
      "grad_norm": 0.8576884342894879,
      "learning_rate": 5.278581651967434e-06,
      "loss": 0.7918,
      "step": 10862
    },
    {
      "epoch": 0.6668712974615549,
      "grad_norm": 0.8630677708577379,
      "learning_rate": 5.276828970049315e-06,
      "loss": 0.8109,
      "step": 10863
    },
    {
      "epoch": 0.6669326867000215,
      "grad_norm": 0.8710263443555427,
      "learning_rate": 5.275076474863408e-06,
      "loss": 0.7561,
      "step": 10864
    },
    {
      "epoch": 0.666994075938488,
      "grad_norm": 0.9679685893811464,
      "learning_rate": 5.2733241664789994e-06,
      "loss": 0.8055,
      "step": 10865
    },
    {
      "epoch": 0.6670554651769545,
      "grad_norm": 0.789820300401914,
      "learning_rate": 5.2715720449653654e-06,
      "loss": 0.7256,
      "step": 10866
    },
    {
      "epoch": 0.667116854415421,
      "grad_norm": 0.915959558164443,
      "learning_rate": 5.269820110391774e-06,
      "loss": 0.7853,
      "step": 10867
    },
    {
      "epoch": 0.6671782436538874,
      "grad_norm": 0.998122643376716,
      "learning_rate": 5.268068362827498e-06,
      "loss": 0.7858,
      "step": 10868
    },
    {
      "epoch": 0.667239632892354,
      "grad_norm": 0.8769927243594111,
      "learning_rate": 5.26631680234179e-06,
      "loss": 0.7868,
      "step": 10869
    },
    {
      "epoch": 0.6673010221308204,
      "grad_norm": 0.7919755454239291,
      "learning_rate": 5.26456542900389e-06,
      "loss": 0.7927,
      "step": 10870
    },
    {
      "epoch": 0.667362411369287,
      "grad_norm": 0.9398622371235408,
      "learning_rate": 5.2628142428830475e-06,
      "loss": 0.7454,
      "step": 10871
    },
    {
      "epoch": 0.6674238006077534,
      "grad_norm": 0.937627762536235,
      "learning_rate": 5.261063244048495e-06,
      "loss": 0.7792,
      "step": 10872
    },
    {
      "epoch": 0.66748518984622,
      "grad_norm": 0.8358949461008299,
      "learning_rate": 5.259312432569458e-06,
      "loss": 0.7902,
      "step": 10873
    },
    {
      "epoch": 0.6675465790846865,
      "grad_norm": 0.8787310194311384,
      "learning_rate": 5.257561808515156e-06,
      "loss": 0.8092,
      "step": 10874
    },
    {
      "epoch": 0.667607968323153,
      "grad_norm": 0.9329719208266964,
      "learning_rate": 5.2558113719548e-06,
      "loss": 0.7749,
      "step": 10875
    },
    {
      "epoch": 0.6676693575616195,
      "grad_norm": 0.8767057450484727,
      "learning_rate": 5.254061122957593e-06,
      "loss": 0.782,
      "step": 10876
    },
    {
      "epoch": 0.6677307468000859,
      "grad_norm": 0.9792202947108438,
      "learning_rate": 5.252311061592734e-06,
      "loss": 0.7707,
      "step": 10877
    },
    {
      "epoch": 0.6677921360385525,
      "grad_norm": 0.9482453610796212,
      "learning_rate": 5.250561187929407e-06,
      "loss": 0.7889,
      "step": 10878
    },
    {
      "epoch": 0.6678535252770189,
      "grad_norm": 0.8194425664070217,
      "learning_rate": 5.248811502036806e-06,
      "loss": 0.8052,
      "step": 10879
    },
    {
      "epoch": 0.6679149145154855,
      "grad_norm": 1.0161330087478202,
      "learning_rate": 5.2470620039840935e-06,
      "loss": 0.7656,
      "step": 10880
    },
    {
      "epoch": 0.6679763037539519,
      "grad_norm": 0.8787214707675236,
      "learning_rate": 5.245312693840436e-06,
      "loss": 0.7745,
      "step": 10881
    },
    {
      "epoch": 0.6680376929924184,
      "grad_norm": 0.8898678654236584,
      "learning_rate": 5.243563571675002e-06,
      "loss": 0.7795,
      "step": 10882
    },
    {
      "epoch": 0.6680990822308849,
      "grad_norm": 0.8902920548957188,
      "learning_rate": 5.241814637556939e-06,
      "loss": 0.7358,
      "step": 10883
    },
    {
      "epoch": 0.6681604714693514,
      "grad_norm": 0.9510232438182908,
      "learning_rate": 5.240065891555397e-06,
      "loss": 0.7687,
      "step": 10884
    },
    {
      "epoch": 0.668221860707818,
      "grad_norm": 0.8835314194502374,
      "learning_rate": 5.238317333739499e-06,
      "loss": 0.7944,
      "step": 10885
    },
    {
      "epoch": 0.6682832499462844,
      "grad_norm": 1.022532910429455,
      "learning_rate": 5.236568964178388e-06,
      "loss": 0.8618,
      "step": 10886
    },
    {
      "epoch": 0.668344639184751,
      "grad_norm": 0.90994683059384,
      "learning_rate": 5.234820782941184e-06,
      "loss": 0.8162,
      "step": 10887
    },
    {
      "epoch": 0.6684060284232174,
      "grad_norm": 0.9084735601844192,
      "learning_rate": 5.233072790096998e-06,
      "loss": 0.7477,
      "step": 10888
    },
    {
      "epoch": 0.6684674176616839,
      "grad_norm": 0.9197269853923925,
      "learning_rate": 5.231324985714942e-06,
      "loss": 0.8167,
      "step": 10889
    },
    {
      "epoch": 0.6685288069001504,
      "grad_norm": 0.8536063520453903,
      "learning_rate": 5.229577369864113e-06,
      "loss": 0.7604,
      "step": 10890
    },
    {
      "epoch": 0.6685901961386169,
      "grad_norm": 0.9088621484433819,
      "learning_rate": 5.227829942613605e-06,
      "loss": 0.7972,
      "step": 10891
    },
    {
      "epoch": 0.6686515853770834,
      "grad_norm": 0.879373406121019,
      "learning_rate": 5.226082704032498e-06,
      "loss": 0.7905,
      "step": 10892
    },
    {
      "epoch": 0.6687129746155499,
      "grad_norm": 0.9858759693902344,
      "learning_rate": 5.2243356541898794e-06,
      "loss": 0.7589,
      "step": 10893
    },
    {
      "epoch": 0.6687743638540163,
      "grad_norm": 0.9635197274160883,
      "learning_rate": 5.2225887931548165e-06,
      "loss": 0.7725,
      "step": 10894
    },
    {
      "epoch": 0.6688357530924829,
      "grad_norm": 0.8945704786150481,
      "learning_rate": 5.220842120996365e-06,
      "loss": 0.7787,
      "step": 10895
    },
    {
      "epoch": 0.6688971423309494,
      "grad_norm": 0.9531707273090895,
      "learning_rate": 5.2190956377835875e-06,
      "loss": 0.7711,
      "step": 10896
    },
    {
      "epoch": 0.6689585315694159,
      "grad_norm": 0.8615388203412253,
      "learning_rate": 5.217349343585529e-06,
      "loss": 0.7956,
      "step": 10897
    },
    {
      "epoch": 0.6690199208078824,
      "grad_norm": 0.9683231620309849,
      "learning_rate": 5.215603238471232e-06,
      "loss": 0.7498,
      "step": 10898
    },
    {
      "epoch": 0.6690813100463489,
      "grad_norm": 0.9330599420345728,
      "learning_rate": 5.213857322509727e-06,
      "loss": 0.8005,
      "step": 10899
    },
    {
      "epoch": 0.6691426992848154,
      "grad_norm": 0.8423403098891861,
      "learning_rate": 5.21211159577004e-06,
      "loss": 0.7985,
      "step": 10900
    },
    {
      "epoch": 0.6692040885232818,
      "grad_norm": 0.967359755537688,
      "learning_rate": 5.210366058321188e-06,
      "loss": 0.7661,
      "step": 10901
    },
    {
      "epoch": 0.6692654777617484,
      "grad_norm": 0.9980279546040658,
      "learning_rate": 5.208620710232184e-06,
      "loss": 0.773,
      "step": 10902
    },
    {
      "epoch": 0.6693268670002148,
      "grad_norm": 1.0060284826376054,
      "learning_rate": 5.206875551572025e-06,
      "loss": 0.7592,
      "step": 10903
    },
    {
      "epoch": 0.6693882562386814,
      "grad_norm": 0.9014484875928641,
      "learning_rate": 5.205130582409719e-06,
      "loss": 0.7648,
      "step": 10904
    },
    {
      "epoch": 0.6694496454771478,
      "grad_norm": 0.9520380213636487,
      "learning_rate": 5.20338580281424e-06,
      "loss": 0.8375,
      "step": 10905
    },
    {
      "epoch": 0.6695110347156144,
      "grad_norm": 0.635970211331725,
      "learning_rate": 5.2016412128545735e-06,
      "loss": 0.7179,
      "step": 10906
    },
    {
      "epoch": 0.6695724239540809,
      "grad_norm": 0.8960146609938436,
      "learning_rate": 5.199896812599695e-06,
      "loss": 0.7901,
      "step": 10907
    },
    {
      "epoch": 0.6696338131925473,
      "grad_norm": 0.8149853176853842,
      "learning_rate": 5.198152602118569e-06,
      "loss": 0.7243,
      "step": 10908
    },
    {
      "epoch": 0.6696952024310139,
      "grad_norm": 0.9734025537225528,
      "learning_rate": 5.196408581480152e-06,
      "loss": 0.7544,
      "step": 10909
    },
    {
      "epoch": 0.6697565916694803,
      "grad_norm": 1.0275668148391783,
      "learning_rate": 5.194664750753397e-06,
      "loss": 0.8128,
      "step": 10910
    },
    {
      "epoch": 0.6698179809079469,
      "grad_norm": 0.9443896350278592,
      "learning_rate": 5.1929211100072426e-06,
      "loss": 0.7872,
      "step": 10911
    },
    {
      "epoch": 0.6698793701464133,
      "grad_norm": 0.8333238040563538,
      "learning_rate": 5.191177659310629e-06,
      "loss": 0.8015,
      "step": 10912
    },
    {
      "epoch": 0.6699407593848798,
      "grad_norm": 0.9213846058844094,
      "learning_rate": 5.1894343987324805e-06,
      "loss": 0.7747,
      "step": 10913
    },
    {
      "epoch": 0.6700021486233463,
      "grad_norm": 0.8903112193512284,
      "learning_rate": 5.1876913283417196e-06,
      "loss": 0.7442,
      "step": 10914
    },
    {
      "epoch": 0.6700635378618128,
      "grad_norm": 0.9906493972892276,
      "learning_rate": 5.185948448207259e-06,
      "loss": 0.8379,
      "step": 10915
    },
    {
      "epoch": 0.6701249271002793,
      "grad_norm": 0.9186223213226583,
      "learning_rate": 5.184205758398002e-06,
      "loss": 0.7675,
      "step": 10916
    },
    {
      "epoch": 0.6701863163387458,
      "grad_norm": 1.0769379704286715,
      "learning_rate": 5.1824632589828465e-06,
      "loss": 0.7377,
      "step": 10917
    },
    {
      "epoch": 0.6702477055772124,
      "grad_norm": 0.9360425116338181,
      "learning_rate": 5.1807209500306865e-06,
      "loss": 0.7801,
      "step": 10918
    },
    {
      "epoch": 0.6703090948156788,
      "grad_norm": 0.9627525068126491,
      "learning_rate": 5.178978831610407e-06,
      "loss": 0.818,
      "step": 10919
    },
    {
      "epoch": 0.6703704840541453,
      "grad_norm": 0.9612017541420752,
      "learning_rate": 5.177236903790871e-06,
      "loss": 0.7775,
      "step": 10920
    },
    {
      "epoch": 0.6704318732926118,
      "grad_norm": 0.8340520076764655,
      "learning_rate": 5.175495166640958e-06,
      "loss": 0.7993,
      "step": 10921
    },
    {
      "epoch": 0.6704932625310783,
      "grad_norm": 0.9690968239514505,
      "learning_rate": 5.173753620229525e-06,
      "loss": 0.7997,
      "step": 10922
    },
    {
      "epoch": 0.6705546517695448,
      "grad_norm": 0.929771824757203,
      "learning_rate": 5.172012264625423e-06,
      "loss": 0.8154,
      "step": 10923
    },
    {
      "epoch": 0.6706160410080113,
      "grad_norm": 0.9402980937253357,
      "learning_rate": 5.170271099897499e-06,
      "loss": 0.8354,
      "step": 10924
    },
    {
      "epoch": 0.6706774302464777,
      "grad_norm": 0.9011087372413584,
      "learning_rate": 5.168530126114589e-06,
      "loss": 0.743,
      "step": 10925
    },
    {
      "epoch": 0.6707388194849443,
      "grad_norm": 0.9205775441385493,
      "learning_rate": 5.1667893433455244e-06,
      "loss": 0.8581,
      "step": 10926
    },
    {
      "epoch": 0.6708002087234108,
      "grad_norm": 0.9133240213298635,
      "learning_rate": 5.1650487516591255e-06,
      "loss": 0.7745,
      "step": 10927
    },
    {
      "epoch": 0.6708615979618773,
      "grad_norm": 0.9342347573611557,
      "learning_rate": 5.16330835112421e-06,
      "loss": 0.7633,
      "step": 10928
    },
    {
      "epoch": 0.6709229872003438,
      "grad_norm": 0.9762640468836549,
      "learning_rate": 5.161568141809583e-06,
      "loss": 0.7966,
      "step": 10929
    },
    {
      "epoch": 0.6709843764388103,
      "grad_norm": 0.926096419644421,
      "learning_rate": 5.159828123784046e-06,
      "loss": 0.8315,
      "step": 10930
    },
    {
      "epoch": 0.6710457656772768,
      "grad_norm": 0.8303878968164448,
      "learning_rate": 5.158088297116385e-06,
      "loss": 0.7616,
      "step": 10931
    },
    {
      "epoch": 0.6711071549157432,
      "grad_norm": 0.902544433686503,
      "learning_rate": 5.1563486618753945e-06,
      "loss": 0.7721,
      "step": 10932
    },
    {
      "epoch": 0.6711685441542098,
      "grad_norm": 0.8887175807740619,
      "learning_rate": 5.154609218129851e-06,
      "loss": 0.7334,
      "step": 10933
    },
    {
      "epoch": 0.6712299333926762,
      "grad_norm": 0.9185471575312596,
      "learning_rate": 5.152869965948513e-06,
      "loss": 0.7507,
      "step": 10934
    },
    {
      "epoch": 0.6712913226311428,
      "grad_norm": 0.9248917597544516,
      "learning_rate": 5.151130905400152e-06,
      "loss": 0.7903,
      "step": 10935
    },
    {
      "epoch": 0.6713527118696092,
      "grad_norm": 0.5803215764342348,
      "learning_rate": 5.149392036553521e-06,
      "loss": 0.6122,
      "step": 10936
    },
    {
      "epoch": 0.6714141011080758,
      "grad_norm": 0.9554409253887624,
      "learning_rate": 5.147653359477365e-06,
      "loss": 0.8037,
      "step": 10937
    },
    {
      "epoch": 0.6714754903465423,
      "grad_norm": 1.2527504616704956,
      "learning_rate": 5.145914874240424e-06,
      "loss": 0.9276,
      "step": 10938
    },
    {
      "epoch": 0.6715368795850087,
      "grad_norm": 0.9326374132251671,
      "learning_rate": 5.144176580911431e-06,
      "loss": 0.7799,
      "step": 10939
    },
    {
      "epoch": 0.6715982688234753,
      "grad_norm": 0.8506464228760031,
      "learning_rate": 5.1424384795591066e-06,
      "loss": 0.7618,
      "step": 10940
    },
    {
      "epoch": 0.6716596580619417,
      "grad_norm": 0.9903914451386683,
      "learning_rate": 5.140700570252169e-06,
      "loss": 0.7671,
      "step": 10941
    },
    {
      "epoch": 0.6717210473004083,
      "grad_norm": 0.9952312182971593,
      "learning_rate": 5.138962853059324e-06,
      "loss": 0.7678,
      "step": 10942
    },
    {
      "epoch": 0.6717824365388747,
      "grad_norm": 0.8651228678028805,
      "learning_rate": 5.137225328049285e-06,
      "loss": 0.7704,
      "step": 10943
    },
    {
      "epoch": 0.6718438257773413,
      "grad_norm": 0.9320242403845215,
      "learning_rate": 5.135487995290731e-06,
      "loss": 0.7528,
      "step": 10944
    },
    {
      "epoch": 0.6719052150158077,
      "grad_norm": 0.9225201750141359,
      "learning_rate": 5.13375085485235e-06,
      "loss": 0.785,
      "step": 10945
    },
    {
      "epoch": 0.6719666042542742,
      "grad_norm": 0.9650733966040899,
      "learning_rate": 5.132013906802829e-06,
      "loss": 0.7907,
      "step": 10946
    },
    {
      "epoch": 0.6720279934927407,
      "grad_norm": 0.8888241388767041,
      "learning_rate": 5.130277151210834e-06,
      "loss": 0.8066,
      "step": 10947
    },
    {
      "epoch": 0.6720893827312072,
      "grad_norm": 0.9011132678882096,
      "learning_rate": 5.128540588145032e-06,
      "loss": 0.7817,
      "step": 10948
    },
    {
      "epoch": 0.6721507719696738,
      "grad_norm": 0.9062473507356544,
      "learning_rate": 5.126804217674068e-06,
      "loss": 0.7799,
      "step": 10949
    },
    {
      "epoch": 0.6722121612081402,
      "grad_norm": 0.9132263825542554,
      "learning_rate": 5.125068039866601e-06,
      "loss": 0.7813,
      "step": 10950
    },
    {
      "epoch": 0.6722735504466067,
      "grad_norm": 0.8481646496373648,
      "learning_rate": 5.123332054791265e-06,
      "loss": 0.7641,
      "step": 10951
    },
    {
      "epoch": 0.6723349396850732,
      "grad_norm": 1.0045761092093544,
      "learning_rate": 5.121596262516697e-06,
      "loss": 0.8215,
      "step": 10952
    },
    {
      "epoch": 0.6723963289235397,
      "grad_norm": 0.9256879412068248,
      "learning_rate": 5.11986066311152e-06,
      "loss": 0.7543,
      "step": 10953
    },
    {
      "epoch": 0.6724577181620062,
      "grad_norm": 0.9225430845098942,
      "learning_rate": 5.118125256644353e-06,
      "loss": 0.7646,
      "step": 10954
    },
    {
      "epoch": 0.6725191074004727,
      "grad_norm": 1.0122603636631229,
      "learning_rate": 5.116390043183803e-06,
      "loss": 0.7395,
      "step": 10955
    },
    {
      "epoch": 0.6725804966389392,
      "grad_norm": 0.9287232362653979,
      "learning_rate": 5.114655022798469e-06,
      "loss": 0.7471,
      "step": 10956
    },
    {
      "epoch": 0.6726418858774057,
      "grad_norm": 1.039332870465878,
      "learning_rate": 5.112920195556957e-06,
      "loss": 0.7726,
      "step": 10957
    },
    {
      "epoch": 0.6727032751158721,
      "grad_norm": 1.0081782153090508,
      "learning_rate": 5.1111855615278505e-06,
      "loss": 0.849,
      "step": 10958
    },
    {
      "epoch": 0.6727646643543387,
      "grad_norm": 0.8897378264533301,
      "learning_rate": 5.109451120779718e-06,
      "loss": 0.7356,
      "step": 10959
    },
    {
      "epoch": 0.6728260535928052,
      "grad_norm": 0.8356426490857134,
      "learning_rate": 5.107716873381144e-06,
      "loss": 0.8076,
      "step": 10960
    },
    {
      "epoch": 0.6728874428312717,
      "grad_norm": 0.9527748520870957,
      "learning_rate": 5.105982819400687e-06,
      "loss": 0.7598,
      "step": 10961
    },
    {
      "epoch": 0.6729488320697382,
      "grad_norm": 0.8493631231584893,
      "learning_rate": 5.104248958906903e-06,
      "loss": 0.749,
      "step": 10962
    },
    {
      "epoch": 0.6730102213082046,
      "grad_norm": 1.0150378513811407,
      "learning_rate": 5.102515291968344e-06,
      "loss": 0.784,
      "step": 10963
    },
    {
      "epoch": 0.6730716105466712,
      "grad_norm": 0.9849887916814111,
      "learning_rate": 5.100781818653549e-06,
      "loss": 0.7914,
      "step": 10964
    },
    {
      "epoch": 0.6731329997851376,
      "grad_norm": 0.9919518419011581,
      "learning_rate": 5.09904853903105e-06,
      "loss": 0.7418,
      "step": 10965
    },
    {
      "epoch": 0.6731943890236042,
      "grad_norm": 0.9694709842755703,
      "learning_rate": 5.097315453169376e-06,
      "loss": 0.7629,
      "step": 10966
    },
    {
      "epoch": 0.6732557782620706,
      "grad_norm": 0.9247730162740468,
      "learning_rate": 5.095582561137038e-06,
      "loss": 0.757,
      "step": 10967
    },
    {
      "epoch": 0.6733171675005372,
      "grad_norm": 0.8880222916442618,
      "learning_rate": 5.093849863002561e-06,
      "loss": 0.7641,
      "step": 10968
    },
    {
      "epoch": 0.6733785567390036,
      "grad_norm": 0.9351048330880297,
      "learning_rate": 5.092117358834434e-06,
      "loss": 0.7727,
      "step": 10969
    },
    {
      "epoch": 0.6734399459774701,
      "grad_norm": 0.961382588476756,
      "learning_rate": 5.090385048701154e-06,
      "loss": 0.7792,
      "step": 10970
    },
    {
      "epoch": 0.6735013352159367,
      "grad_norm": 1.0334773636903642,
      "learning_rate": 5.088652932671216e-06,
      "loss": 0.7637,
      "step": 10971
    },
    {
      "epoch": 0.6735627244544031,
      "grad_norm": 0.9842020617009203,
      "learning_rate": 5.086921010813094e-06,
      "loss": 0.8018,
      "step": 10972
    },
    {
      "epoch": 0.6736241136928697,
      "grad_norm": 0.9336953983990515,
      "learning_rate": 5.085189283195262e-06,
      "loss": 0.7863,
      "step": 10973
    },
    {
      "epoch": 0.6736855029313361,
      "grad_norm": 0.9349464272654677,
      "learning_rate": 5.083457749886183e-06,
      "loss": 0.7366,
      "step": 10974
    },
    {
      "epoch": 0.6737468921698027,
      "grad_norm": 0.983742072309058,
      "learning_rate": 5.081726410954316e-06,
      "loss": 0.7817,
      "step": 10975
    },
    {
      "epoch": 0.6738082814082691,
      "grad_norm": 0.9410480760487144,
      "learning_rate": 5.0799952664681086e-06,
      "loss": 0.7751,
      "step": 10976
    },
    {
      "epoch": 0.6738696706467356,
      "grad_norm": 0.953089294005169,
      "learning_rate": 5.078264316496002e-06,
      "loss": 0.7906,
      "step": 10977
    },
    {
      "epoch": 0.6739310598852021,
      "grad_norm": 0.9384891399340118,
      "learning_rate": 5.076533561106429e-06,
      "loss": 0.8202,
      "step": 10978
    },
    {
      "epoch": 0.6739924491236686,
      "grad_norm": 1.0133480712340452,
      "learning_rate": 5.074803000367818e-06,
      "loss": 0.84,
      "step": 10979
    },
    {
      "epoch": 0.6740538383621352,
      "grad_norm": 0.9725813790998127,
      "learning_rate": 5.073072634348588e-06,
      "loss": 0.7757,
      "step": 10980
    },
    {
      "epoch": 0.6741152276006016,
      "grad_norm": 0.9280667548107706,
      "learning_rate": 5.071342463117142e-06,
      "loss": 0.7717,
      "step": 10981
    },
    {
      "epoch": 0.6741766168390682,
      "grad_norm": 0.9449428055997761,
      "learning_rate": 5.069612486741893e-06,
      "loss": 0.7181,
      "step": 10982
    },
    {
      "epoch": 0.6742380060775346,
      "grad_norm": 0.8962286865438873,
      "learning_rate": 5.067882705291236e-06,
      "loss": 0.7193,
      "step": 10983
    },
    {
      "epoch": 0.6742993953160011,
      "grad_norm": 0.9403884810171379,
      "learning_rate": 5.066153118833546e-06,
      "loss": 0.7576,
      "step": 10984
    },
    {
      "epoch": 0.6743607845544676,
      "grad_norm": 0.7980794105437838,
      "learning_rate": 5.064423727437215e-06,
      "loss": 0.777,
      "step": 10985
    },
    {
      "epoch": 0.6744221737929341,
      "grad_norm": 0.9914345937942517,
      "learning_rate": 5.062694531170612e-06,
      "loss": 0.8171,
      "step": 10986
    },
    {
      "epoch": 0.6744835630314006,
      "grad_norm": 0.9879065544525215,
      "learning_rate": 5.060965530102101e-06,
      "loss": 0.7486,
      "step": 10987
    },
    {
      "epoch": 0.6745449522698671,
      "grad_norm": 0.990290031006514,
      "learning_rate": 5.059236724300038e-06,
      "loss": 0.797,
      "step": 10988
    },
    {
      "epoch": 0.6746063415083335,
      "grad_norm": 0.8261821625760224,
      "learning_rate": 5.057508113832772e-06,
      "loss": 0.7727,
      "step": 10989
    },
    {
      "epoch": 0.6746677307468001,
      "grad_norm": 0.8993667567717748,
      "learning_rate": 5.055779698768646e-06,
      "loss": 0.7642,
      "step": 10990
    },
    {
      "epoch": 0.6747291199852666,
      "grad_norm": 0.880914997186403,
      "learning_rate": 5.054051479175991e-06,
      "loss": 0.7617,
      "step": 10991
    },
    {
      "epoch": 0.6747905092237331,
      "grad_norm": 1.006058817059422,
      "learning_rate": 5.052323455123134e-06,
      "loss": 0.8077,
      "step": 10992
    },
    {
      "epoch": 0.6748518984621996,
      "grad_norm": 0.9385370411845266,
      "learning_rate": 5.050595626678392e-06,
      "loss": 0.7328,
      "step": 10993
    },
    {
      "epoch": 0.674913287700666,
      "grad_norm": 0.8768925381450384,
      "learning_rate": 5.048867993910077e-06,
      "loss": 0.7713,
      "step": 10994
    },
    {
      "epoch": 0.6749746769391326,
      "grad_norm": 0.9168388727873389,
      "learning_rate": 5.047140556886487e-06,
      "loss": 0.7979,
      "step": 10995
    },
    {
      "epoch": 0.675036066177599,
      "grad_norm": 0.8312697510712882,
      "learning_rate": 5.045413315675925e-06,
      "loss": 0.7849,
      "step": 10996
    },
    {
      "epoch": 0.6750974554160656,
      "grad_norm": 0.9504787258194282,
      "learning_rate": 5.043686270346676e-06,
      "loss": 0.7764,
      "step": 10997
    },
    {
      "epoch": 0.675158844654532,
      "grad_norm": 0.946520734046938,
      "learning_rate": 5.04195942096701e-06,
      "loss": 0.8245,
      "step": 10998
    },
    {
      "epoch": 0.6752202338929986,
      "grad_norm": 1.037224859852384,
      "learning_rate": 5.040232767605209e-06,
      "loss": 0.8234,
      "step": 10999
    },
    {
      "epoch": 0.675281623131465,
      "grad_norm": 1.1017292439702673,
      "learning_rate": 5.038506310329534e-06,
      "loss": 0.7571,
      "step": 11000
    },
    {
      "epoch": 0.6753430123699316,
      "grad_norm": 0.800130425425111,
      "learning_rate": 5.036780049208239e-06,
      "loss": 0.779,
      "step": 11001
    },
    {
      "epoch": 0.6754044016083981,
      "grad_norm": 0.8549926988845048,
      "learning_rate": 5.0350539843095755e-06,
      "loss": 0.7652,
      "step": 11002
    },
    {
      "epoch": 0.6754657908468645,
      "grad_norm": 0.5988203370322506,
      "learning_rate": 5.033328115701782e-06,
      "loss": 0.6426,
      "step": 11003
    },
    {
      "epoch": 0.6755271800853311,
      "grad_norm": 0.9239618574688654,
      "learning_rate": 5.031602443453092e-06,
      "loss": 0.7489,
      "step": 11004
    },
    {
      "epoch": 0.6755885693237975,
      "grad_norm": 0.9568703692006882,
      "learning_rate": 5.029876967631731e-06,
      "loss": 0.756,
      "step": 11005
    },
    {
      "epoch": 0.6756499585622641,
      "grad_norm": 1.0095102206120123,
      "learning_rate": 5.028151688305909e-06,
      "loss": 0.7854,
      "step": 11006
    },
    {
      "epoch": 0.6757113478007305,
      "grad_norm": 0.9668134417537234,
      "learning_rate": 5.0264266055438524e-06,
      "loss": 0.7962,
      "step": 11007
    },
    {
      "epoch": 0.675772737039197,
      "grad_norm": 0.579046162127261,
      "learning_rate": 5.024701719413747e-06,
      "loss": 0.6324,
      "step": 11008
    },
    {
      "epoch": 0.6758341262776635,
      "grad_norm": 0.8965429324912239,
      "learning_rate": 5.0229770299837886e-06,
      "loss": 0.7405,
      "step": 11009
    },
    {
      "epoch": 0.67589551551613,
      "grad_norm": 1.0344339621629637,
      "learning_rate": 5.021252537322172e-06,
      "loss": 0.7513,
      "step": 11010
    },
    {
      "epoch": 0.6759569047545965,
      "grad_norm": 0.8929325493996463,
      "learning_rate": 5.019528241497071e-06,
      "loss": 0.7655,
      "step": 11011
    },
    {
      "epoch": 0.676018293993063,
      "grad_norm": 0.9171545307376573,
      "learning_rate": 5.017804142576656e-06,
      "loss": 0.7762,
      "step": 11012
    },
    {
      "epoch": 0.6760796832315296,
      "grad_norm": 0.8678927760269483,
      "learning_rate": 5.0160802406290884e-06,
      "loss": 0.7502,
      "step": 11013
    },
    {
      "epoch": 0.676141072469996,
      "grad_norm": 0.564771485788253,
      "learning_rate": 5.014356535722527e-06,
      "loss": 0.6712,
      "step": 11014
    },
    {
      "epoch": 0.6762024617084625,
      "grad_norm": 0.834768616247699,
      "learning_rate": 5.0126330279251155e-06,
      "loss": 0.7503,
      "step": 11015
    },
    {
      "epoch": 0.676263850946929,
      "grad_norm": 0.594448625300534,
      "learning_rate": 5.010909717304995e-06,
      "loss": 0.6863,
      "step": 11016
    },
    {
      "epoch": 0.6763252401853955,
      "grad_norm": 0.8652847072849087,
      "learning_rate": 5.009186603930296e-06,
      "loss": 0.7542,
      "step": 11017
    },
    {
      "epoch": 0.676386629423862,
      "grad_norm": 0.9156959000695131,
      "learning_rate": 5.007463687869145e-06,
      "loss": 0.7948,
      "step": 11018
    },
    {
      "epoch": 0.6764480186623285,
      "grad_norm": 0.9176699684797572,
      "learning_rate": 5.005740969189655e-06,
      "loss": 0.7486,
      "step": 11019
    },
    {
      "epoch": 0.676509407900795,
      "grad_norm": 1.021357847777156,
      "learning_rate": 5.004018447959933e-06,
      "loss": 0.8195,
      "step": 11020
    },
    {
      "epoch": 0.6765707971392615,
      "grad_norm": 0.940688849187245,
      "learning_rate": 5.002296124248085e-06,
      "loss": 0.7655,
      "step": 11021
    },
    {
      "epoch": 0.6766321863777279,
      "grad_norm": 0.900514474964778,
      "learning_rate": 5.000573998122205e-06,
      "loss": 0.8354,
      "step": 11022
    },
    {
      "epoch": 0.6766935756161945,
      "grad_norm": 0.9185057527781924,
      "learning_rate": 4.9988520696503665e-06,
      "loss": 0.7873,
      "step": 11023
    },
    {
      "epoch": 0.676754964854661,
      "grad_norm": 0.8623118087514271,
      "learning_rate": 4.997130338900657e-06,
      "loss": 0.7696,
      "step": 11024
    },
    {
      "epoch": 0.6768163540931275,
      "grad_norm": 0.9017469647356449,
      "learning_rate": 4.995408805941142e-06,
      "loss": 0.7859,
      "step": 11025
    },
    {
      "epoch": 0.676877743331594,
      "grad_norm": 1.0509585467162448,
      "learning_rate": 4.993687470839884e-06,
      "loss": 0.7815,
      "step": 11026
    },
    {
      "epoch": 0.6769391325700604,
      "grad_norm": 0.899116481462835,
      "learning_rate": 4.991966333664935e-06,
      "loss": 0.7303,
      "step": 11027
    },
    {
      "epoch": 0.677000521808527,
      "grad_norm": 0.9465918692654725,
      "learning_rate": 4.990245394484343e-06,
      "loss": 0.7713,
      "step": 11028
    },
    {
      "epoch": 0.6770619110469934,
      "grad_norm": 0.9649488353763321,
      "learning_rate": 4.988524653366144e-06,
      "loss": 0.7703,
      "step": 11029
    },
    {
      "epoch": 0.67712330028546,
      "grad_norm": 0.884465953734545,
      "learning_rate": 4.986804110378368e-06,
      "loss": 0.7724,
      "step": 11030
    },
    {
      "epoch": 0.6771846895239264,
      "grad_norm": 0.8844349298298866,
      "learning_rate": 4.9850837655890346e-06,
      "loss": 0.7702,
      "step": 11031
    },
    {
      "epoch": 0.677246078762393,
      "grad_norm": 1.0090107651044493,
      "learning_rate": 4.983363619066171e-06,
      "loss": 0.8172,
      "step": 11032
    },
    {
      "epoch": 0.6773074680008595,
      "grad_norm": 0.9072125176419805,
      "learning_rate": 4.9816436708777685e-06,
      "loss": 0.7778,
      "step": 11033
    },
    {
      "epoch": 0.6773688572393259,
      "grad_norm": 0.9523526698745889,
      "learning_rate": 4.979923921091828e-06,
      "loss": 0.7859,
      "step": 11034
    },
    {
      "epoch": 0.6774302464777925,
      "grad_norm": 0.8685859810931933,
      "learning_rate": 4.978204369776348e-06,
      "loss": 0.7821,
      "step": 11035
    },
    {
      "epoch": 0.6774916357162589,
      "grad_norm": 0.8319171948153334,
      "learning_rate": 4.976485016999309e-06,
      "loss": 0.7668,
      "step": 11036
    },
    {
      "epoch": 0.6775530249547255,
      "grad_norm": 0.9334277829658211,
      "learning_rate": 4.974765862828683e-06,
      "loss": 0.7698,
      "step": 11037
    },
    {
      "epoch": 0.6776144141931919,
      "grad_norm": 0.9084748847622921,
      "learning_rate": 4.973046907332441e-06,
      "loss": 0.8136,
      "step": 11038
    },
    {
      "epoch": 0.6776758034316585,
      "grad_norm": 0.9086189179398584,
      "learning_rate": 4.9713281505785404e-06,
      "loss": 0.763,
      "step": 11039
    },
    {
      "epoch": 0.6777371926701249,
      "grad_norm": 0.8597322715511649,
      "learning_rate": 4.969609592634933e-06,
      "loss": 0.7013,
      "step": 11040
    },
    {
      "epoch": 0.6777985819085914,
      "grad_norm": 0.8910582711542071,
      "learning_rate": 4.967891233569563e-06,
      "loss": 0.7838,
      "step": 11041
    },
    {
      "epoch": 0.6778599711470579,
      "grad_norm": 0.921223333350274,
      "learning_rate": 4.966173073450366e-06,
      "loss": 0.752,
      "step": 11042
    },
    {
      "epoch": 0.6779213603855244,
      "grad_norm": 0.8559120599989073,
      "learning_rate": 4.96445511234527e-06,
      "loss": 0.7522,
      "step": 11043
    },
    {
      "epoch": 0.677982749623991,
      "grad_norm": 0.8810202580827742,
      "learning_rate": 4.962737350322195e-06,
      "loss": 0.8167,
      "step": 11044
    },
    {
      "epoch": 0.6780441388624574,
      "grad_norm": 0.8491524744797622,
      "learning_rate": 4.961019787449051e-06,
      "loss": 0.779,
      "step": 11045
    },
    {
      "epoch": 0.678105528100924,
      "grad_norm": 0.9210717841022845,
      "learning_rate": 4.959302423793748e-06,
      "loss": 0.7965,
      "step": 11046
    },
    {
      "epoch": 0.6781669173393904,
      "grad_norm": 1.0200370986139007,
      "learning_rate": 4.957585259424184e-06,
      "loss": 0.7669,
      "step": 11047
    },
    {
      "epoch": 0.6782283065778569,
      "grad_norm": 0.79850136305581,
      "learning_rate": 4.955868294408236e-06,
      "loss": 0.7637,
      "step": 11048
    },
    {
      "epoch": 0.6782896958163234,
      "grad_norm": 0.8731773385027418,
      "learning_rate": 4.954151528813796e-06,
      "loss": 0.7774,
      "step": 11049
    },
    {
      "epoch": 0.6783510850547899,
      "grad_norm": 0.9141710699200799,
      "learning_rate": 4.952434962708732e-06,
      "loss": 0.7788,
      "step": 11050
    },
    {
      "epoch": 0.6784124742932564,
      "grad_norm": 0.842020067658981,
      "learning_rate": 4.950718596160912e-06,
      "loss": 0.8064,
      "step": 11051
    },
    {
      "epoch": 0.6784738635317229,
      "grad_norm": 0.8424548515753895,
      "learning_rate": 4.94900242923819e-06,
      "loss": 0.7291,
      "step": 11052
    },
    {
      "epoch": 0.6785352527701893,
      "grad_norm": 0.8804553260610096,
      "learning_rate": 4.947286462008417e-06,
      "loss": 0.7684,
      "step": 11053
    },
    {
      "epoch": 0.6785966420086559,
      "grad_norm": 0.9559682653109052,
      "learning_rate": 4.945570694539434e-06,
      "loss": 0.8037,
      "step": 11054
    },
    {
      "epoch": 0.6786580312471224,
      "grad_norm": 0.8676495034337314,
      "learning_rate": 4.943855126899075e-06,
      "loss": 0.7205,
      "step": 11055
    },
    {
      "epoch": 0.6787194204855889,
      "grad_norm": 0.9935305511347194,
      "learning_rate": 4.942139759155164e-06,
      "loss": 0.7858,
      "step": 11056
    },
    {
      "epoch": 0.6787808097240554,
      "grad_norm": 0.8704363748091384,
      "learning_rate": 4.940424591375521e-06,
      "loss": 0.7874,
      "step": 11057
    },
    {
      "epoch": 0.6788421989625218,
      "grad_norm": 0.9697009186739514,
      "learning_rate": 4.938709623627953e-06,
      "loss": 0.7953,
      "step": 11058
    },
    {
      "epoch": 0.6789035882009884,
      "grad_norm": 0.8231373711972831,
      "learning_rate": 4.93699485598026e-06,
      "loss": 0.758,
      "step": 11059
    },
    {
      "epoch": 0.6789649774394548,
      "grad_norm": 0.974843495177568,
      "learning_rate": 4.935280288500244e-06,
      "loss": 0.8004,
      "step": 11060
    },
    {
      "epoch": 0.6790263666779214,
      "grad_norm": 0.8985869596076477,
      "learning_rate": 4.933565921255689e-06,
      "loss": 0.7586,
      "step": 11061
    },
    {
      "epoch": 0.6790877559163878,
      "grad_norm": 0.9180131352954667,
      "learning_rate": 4.931851754314363e-06,
      "loss": 0.7706,
      "step": 11062
    },
    {
      "epoch": 0.6791491451548544,
      "grad_norm": 0.8748893205160061,
      "learning_rate": 4.930137787744047e-06,
      "loss": 0.7781,
      "step": 11063
    },
    {
      "epoch": 0.6792105343933208,
      "grad_norm": 0.9632563069634352,
      "learning_rate": 4.928424021612499e-06,
      "loss": 0.7484,
      "step": 11064
    },
    {
      "epoch": 0.6792719236317873,
      "grad_norm": 0.8774601013316822,
      "learning_rate": 4.926710455987475e-06,
      "loss": 0.77,
      "step": 11065
    },
    {
      "epoch": 0.6793333128702539,
      "grad_norm": 0.8634741952970546,
      "learning_rate": 4.924997090936721e-06,
      "loss": 0.7748,
      "step": 11066
    },
    {
      "epoch": 0.6793947021087203,
      "grad_norm": 1.036453013399155,
      "learning_rate": 4.9232839265279746e-06,
      "loss": 0.8359,
      "step": 11067
    },
    {
      "epoch": 0.6794560913471869,
      "grad_norm": 0.9047932299802536,
      "learning_rate": 4.9215709628289665e-06,
      "loss": 0.7647,
      "step": 11068
    },
    {
      "epoch": 0.6795174805856533,
      "grad_norm": 0.867364971800013,
      "learning_rate": 4.91985819990742e-06,
      "loss": 0.788,
      "step": 11069
    },
    {
      "epoch": 0.6795788698241199,
      "grad_norm": 0.9092925874797555,
      "learning_rate": 4.918145637831046e-06,
      "loss": 0.7478,
      "step": 11070
    },
    {
      "epoch": 0.6796402590625863,
      "grad_norm": 0.9357393327312952,
      "learning_rate": 4.916433276667561e-06,
      "loss": 0.741,
      "step": 11071
    },
    {
      "epoch": 0.6797016483010528,
      "grad_norm": 0.910816764307111,
      "learning_rate": 4.914721116484654e-06,
      "loss": 0.7853,
      "step": 11072
    },
    {
      "epoch": 0.6797630375395193,
      "grad_norm": 1.0023733413859637,
      "learning_rate": 4.913009157350016e-06,
      "loss": 0.7871,
      "step": 11073
    },
    {
      "epoch": 0.6798244267779858,
      "grad_norm": 1.0458411182635068,
      "learning_rate": 4.911297399331336e-06,
      "loss": 0.8492,
      "step": 11074
    },
    {
      "epoch": 0.6798858160164524,
      "grad_norm": 0.86342792639813,
      "learning_rate": 4.909585842496287e-06,
      "loss": 0.7485,
      "step": 11075
    },
    {
      "epoch": 0.6799472052549188,
      "grad_norm": 0.9522024889882399,
      "learning_rate": 4.907874486912535e-06,
      "loss": 0.7566,
      "step": 11076
    },
    {
      "epoch": 0.6800085944933854,
      "grad_norm": 0.908468847497418,
      "learning_rate": 4.906163332647739e-06,
      "loss": 0.7415,
      "step": 11077
    },
    {
      "epoch": 0.6800699837318518,
      "grad_norm": 0.7846245758715304,
      "learning_rate": 4.90445237976955e-06,
      "loss": 0.8023,
      "step": 11078
    },
    {
      "epoch": 0.6801313729703183,
      "grad_norm": 0.8954747317652183,
      "learning_rate": 4.902741628345612e-06,
      "loss": 0.7418,
      "step": 11079
    },
    {
      "epoch": 0.6801927622087848,
      "grad_norm": 0.9205561758893672,
      "learning_rate": 4.901031078443559e-06,
      "loss": 0.8038,
      "step": 11080
    },
    {
      "epoch": 0.6802541514472513,
      "grad_norm": 0.8478407603479192,
      "learning_rate": 4.8993207301310185e-06,
      "loss": 0.718,
      "step": 11081
    },
    {
      "epoch": 0.6803155406857178,
      "grad_norm": 0.8377982703295324,
      "learning_rate": 4.897610583475609e-06,
      "loss": 0.7335,
      "step": 11082
    },
    {
      "epoch": 0.6803769299241843,
      "grad_norm": 0.9610379608804697,
      "learning_rate": 4.8959006385449446e-06,
      "loss": 0.7677,
      "step": 11083
    },
    {
      "epoch": 0.6804383191626507,
      "grad_norm": 0.888126010249932,
      "learning_rate": 4.894190895406622e-06,
      "loss": 0.7989,
      "step": 11084
    },
    {
      "epoch": 0.6804997084011173,
      "grad_norm": 0.9064382889918543,
      "learning_rate": 4.892481354128244e-06,
      "loss": 0.748,
      "step": 11085
    },
    {
      "epoch": 0.6805610976395838,
      "grad_norm": 0.9607332647864925,
      "learning_rate": 4.890772014777399e-06,
      "loss": 0.7794,
      "step": 11086
    },
    {
      "epoch": 0.6806224868780503,
      "grad_norm": 0.8371721435280444,
      "learning_rate": 4.889062877421657e-06,
      "loss": 0.8059,
      "step": 11087
    },
    {
      "epoch": 0.6806838761165168,
      "grad_norm": 1.0504008359957544,
      "learning_rate": 4.8873539421285965e-06,
      "loss": 0.7993,
      "step": 11088
    },
    {
      "epoch": 0.6807452653549833,
      "grad_norm": 0.9780907873909365,
      "learning_rate": 4.885645208965779e-06,
      "loss": 0.7581,
      "step": 11089
    },
    {
      "epoch": 0.6808066545934498,
      "grad_norm": 0.8604940903888729,
      "learning_rate": 4.88393667800076e-06,
      "loss": 0.7609,
      "step": 11090
    },
    {
      "epoch": 0.6808680438319162,
      "grad_norm": 0.9741184791216366,
      "learning_rate": 4.882228349301087e-06,
      "loss": 0.8252,
      "step": 11091
    },
    {
      "epoch": 0.6809294330703828,
      "grad_norm": 0.9530881597034104,
      "learning_rate": 4.8805202229342985e-06,
      "loss": 0.7562,
      "step": 11092
    },
    {
      "epoch": 0.6809908223088492,
      "grad_norm": 0.932939035145314,
      "learning_rate": 4.8788122989679275e-06,
      "loss": 0.7787,
      "step": 11093
    },
    {
      "epoch": 0.6810522115473158,
      "grad_norm": 0.9282536141668752,
      "learning_rate": 4.877104577469496e-06,
      "loss": 0.8065,
      "step": 11094
    },
    {
      "epoch": 0.6811136007857822,
      "grad_norm": 0.9709807574272008,
      "learning_rate": 4.875397058506516e-06,
      "loss": 0.7639,
      "step": 11095
    },
    {
      "epoch": 0.6811749900242487,
      "grad_norm": 0.9973830514605556,
      "learning_rate": 4.873689742146506e-06,
      "loss": 0.7637,
      "step": 11096
    },
    {
      "epoch": 0.6812363792627153,
      "grad_norm": 0.8771021733037032,
      "learning_rate": 4.871982628456954e-06,
      "loss": 0.7519,
      "step": 11097
    },
    {
      "epoch": 0.6812977685011817,
      "grad_norm": 0.9706856277818012,
      "learning_rate": 4.870275717505351e-06,
      "loss": 0.7604,
      "step": 11098
    },
    {
      "epoch": 0.6813591577396483,
      "grad_norm": 0.9195038914879587,
      "learning_rate": 4.868569009359189e-06,
      "loss": 0.766,
      "step": 11099
    },
    {
      "epoch": 0.6814205469781147,
      "grad_norm": 1.0376628862920965,
      "learning_rate": 4.8668625040859386e-06,
      "loss": 0.7869,
      "step": 11100
    },
    {
      "epoch": 0.6814819362165813,
      "grad_norm": 1.0494414161930716,
      "learning_rate": 4.8651562017530685e-06,
      "loss": 0.7431,
      "step": 11101
    },
    {
      "epoch": 0.6815433254550477,
      "grad_norm": 1.0787396564506853,
      "learning_rate": 4.863450102428036e-06,
      "loss": 0.7876,
      "step": 11102
    },
    {
      "epoch": 0.6816047146935142,
      "grad_norm": 0.9905061599248207,
      "learning_rate": 4.861744206178293e-06,
      "loss": 0.7607,
      "step": 11103
    },
    {
      "epoch": 0.6816661039319807,
      "grad_norm": 0.826257000316852,
      "learning_rate": 4.860038513071282e-06,
      "loss": 0.7584,
      "step": 11104
    },
    {
      "epoch": 0.6817274931704472,
      "grad_norm": 0.9851234134459984,
      "learning_rate": 4.858333023174436e-06,
      "loss": 0.8311,
      "step": 11105
    },
    {
      "epoch": 0.6817888824089137,
      "grad_norm": 0.9528345756034332,
      "learning_rate": 4.856627736555194e-06,
      "loss": 0.8579,
      "step": 11106
    },
    {
      "epoch": 0.6818502716473802,
      "grad_norm": 0.8368450233805347,
      "learning_rate": 4.8549226532809615e-06,
      "loss": 0.7579,
      "step": 11107
    },
    {
      "epoch": 0.6819116608858468,
      "grad_norm": 0.957599953665364,
      "learning_rate": 4.853217773419153e-06,
      "loss": 0.7303,
      "step": 11108
    },
    {
      "epoch": 0.6819730501243132,
      "grad_norm": 0.9765656886642106,
      "learning_rate": 4.851513097037171e-06,
      "loss": 0.786,
      "step": 11109
    },
    {
      "epoch": 0.6820344393627797,
      "grad_norm": 1.0477524118607482,
      "learning_rate": 4.849808624202414e-06,
      "loss": 0.813,
      "step": 11110
    },
    {
      "epoch": 0.6820958286012462,
      "grad_norm": 0.9809314374078052,
      "learning_rate": 4.848104354982273e-06,
      "loss": 0.8391,
      "step": 11111
    },
    {
      "epoch": 0.6821572178397127,
      "grad_norm": 1.0018072158516498,
      "learning_rate": 4.846400289444113e-06,
      "loss": 0.8128,
      "step": 11112
    },
    {
      "epoch": 0.6822186070781792,
      "grad_norm": 1.0091766488130267,
      "learning_rate": 4.844696427655317e-06,
      "loss": 0.8021,
      "step": 11113
    },
    {
      "epoch": 0.6822799963166457,
      "grad_norm": 0.9380630494062797,
      "learning_rate": 4.8429927696832434e-06,
      "loss": 0.7795,
      "step": 11114
    },
    {
      "epoch": 0.6823413855551121,
      "grad_norm": 0.9667845125615934,
      "learning_rate": 4.8412893155952465e-06,
      "loss": 0.7894,
      "step": 11115
    },
    {
      "epoch": 0.6824027747935787,
      "grad_norm": 0.8214822559895976,
      "learning_rate": 4.839586065458674e-06,
      "loss": 0.7299,
      "step": 11116
    },
    {
      "epoch": 0.6824641640320451,
      "grad_norm": 0.991232134105129,
      "learning_rate": 4.837883019340866e-06,
      "loss": 0.79,
      "step": 11117
    },
    {
      "epoch": 0.6825255532705117,
      "grad_norm": 0.9190076640093952,
      "learning_rate": 4.836180177309149e-06,
      "loss": 0.7913,
      "step": 11118
    },
    {
      "epoch": 0.6825869425089782,
      "grad_norm": 0.9210828148539244,
      "learning_rate": 4.834477539430848e-06,
      "loss": 0.7802,
      "step": 11119
    },
    {
      "epoch": 0.6826483317474447,
      "grad_norm": 0.8514690431839933,
      "learning_rate": 4.8327751057732745e-06,
      "loss": 0.7822,
      "step": 11120
    },
    {
      "epoch": 0.6827097209859112,
      "grad_norm": 0.932774013152856,
      "learning_rate": 4.831072876403744e-06,
      "loss": 0.7187,
      "step": 11121
    },
    {
      "epoch": 0.6827711102243776,
      "grad_norm": 0.9365388922984483,
      "learning_rate": 4.829370851389545e-06,
      "loss": 0.7537,
      "step": 11122
    },
    {
      "epoch": 0.6828324994628442,
      "grad_norm": 0.840612334668671,
      "learning_rate": 4.827669030797966e-06,
      "loss": 0.7403,
      "step": 11123
    },
    {
      "epoch": 0.6828938887013106,
      "grad_norm": 0.9856869756865562,
      "learning_rate": 4.825967414696297e-06,
      "loss": 0.7517,
      "step": 11124
    },
    {
      "epoch": 0.6829552779397772,
      "grad_norm": 0.8772927796013267,
      "learning_rate": 4.824266003151814e-06,
      "loss": 0.7882,
      "step": 11125
    },
    {
      "epoch": 0.6830166671782436,
      "grad_norm": 0.9698832319061258,
      "learning_rate": 4.822564796231769e-06,
      "loss": 0.8121,
      "step": 11126
    },
    {
      "epoch": 0.6830780564167102,
      "grad_norm": 0.91051435177168,
      "learning_rate": 4.8208637940034335e-06,
      "loss": 0.7622,
      "step": 11127
    },
    {
      "epoch": 0.6831394456551767,
      "grad_norm": 0.9150654034827875,
      "learning_rate": 4.8191629965340504e-06,
      "loss": 0.7375,
      "step": 11128
    },
    {
      "epoch": 0.6832008348936431,
      "grad_norm": 0.8999729319274811,
      "learning_rate": 4.8174624038908645e-06,
      "loss": 0.8099,
      "step": 11129
    },
    {
      "epoch": 0.6832622241321097,
      "grad_norm": 0.9915209380013444,
      "learning_rate": 4.815762016141106e-06,
      "loss": 0.8064,
      "step": 11130
    },
    {
      "epoch": 0.6833236133705761,
      "grad_norm": 0.8651323886351243,
      "learning_rate": 4.814061833352005e-06,
      "loss": 0.7358,
      "step": 11131
    },
    {
      "epoch": 0.6833850026090427,
      "grad_norm": 0.8517715273633554,
      "learning_rate": 4.812361855590775e-06,
      "loss": 0.7377,
      "step": 11132
    },
    {
      "epoch": 0.6834463918475091,
      "grad_norm": 0.9187647050111036,
      "learning_rate": 4.810662082924626e-06,
      "loss": 0.7745,
      "step": 11133
    },
    {
      "epoch": 0.6835077810859757,
      "grad_norm": 0.8953801330927424,
      "learning_rate": 4.808962515420756e-06,
      "loss": 0.7069,
      "step": 11134
    },
    {
      "epoch": 0.6835691703244421,
      "grad_norm": 0.9395768626028996,
      "learning_rate": 4.807263153146368e-06,
      "loss": 0.8395,
      "step": 11135
    },
    {
      "epoch": 0.6836305595629086,
      "grad_norm": 0.8761214232715323,
      "learning_rate": 4.805563996168637e-06,
      "loss": 0.7645,
      "step": 11136
    },
    {
      "epoch": 0.6836919488013751,
      "grad_norm": 0.8982419780494707,
      "learning_rate": 4.803865044554739e-06,
      "loss": 0.7599,
      "step": 11137
    },
    {
      "epoch": 0.6837533380398416,
      "grad_norm": 0.8976601805417872,
      "learning_rate": 4.802166298371852e-06,
      "loss": 0.771,
      "step": 11138
    },
    {
      "epoch": 0.6838147272783082,
      "grad_norm": 0.9436329157275817,
      "learning_rate": 4.800467757687131e-06,
      "loss": 0.7591,
      "step": 11139
    },
    {
      "epoch": 0.6838761165167746,
      "grad_norm": 0.9659644647709357,
      "learning_rate": 4.798769422567727e-06,
      "loss": 0.7753,
      "step": 11140
    },
    {
      "epoch": 0.6839375057552411,
      "grad_norm": 0.913918901947475,
      "learning_rate": 4.797071293080786e-06,
      "loss": 0.7612,
      "step": 11141
    },
    {
      "epoch": 0.6839988949937076,
      "grad_norm": 0.8555632225798598,
      "learning_rate": 4.7953733692934445e-06,
      "loss": 0.7432,
      "step": 11142
    },
    {
      "epoch": 0.6840602842321741,
      "grad_norm": 0.9711162841173875,
      "learning_rate": 4.7936756512728296e-06,
      "loss": 0.7884,
      "step": 11143
    },
    {
      "epoch": 0.6841216734706406,
      "grad_norm": 0.9602807184109187,
      "learning_rate": 4.791978139086059e-06,
      "loss": 0.7784,
      "step": 11144
    },
    {
      "epoch": 0.6841830627091071,
      "grad_norm": 0.9320724467215561,
      "learning_rate": 4.7902808328002535e-06,
      "loss": 0.7758,
      "step": 11145
    },
    {
      "epoch": 0.6842444519475736,
      "grad_norm": 1.0076638980607853,
      "learning_rate": 4.7885837324825064e-06,
      "loss": 0.8097,
      "step": 11146
    },
    {
      "epoch": 0.6843058411860401,
      "grad_norm": 0.9490754931375375,
      "learning_rate": 4.786886838199918e-06,
      "loss": 0.7509,
      "step": 11147
    },
    {
      "epoch": 0.6843672304245065,
      "grad_norm": 0.8200983537821976,
      "learning_rate": 4.785190150019571e-06,
      "loss": 0.7704,
      "step": 11148
    },
    {
      "epoch": 0.6844286196629731,
      "grad_norm": 0.8827142041444865,
      "learning_rate": 4.783493668008551e-06,
      "loss": 0.7543,
      "step": 11149
    },
    {
      "epoch": 0.6844900089014396,
      "grad_norm": 1.0340623679468568,
      "learning_rate": 4.781797392233929e-06,
      "loss": 0.8043,
      "step": 11150
    },
    {
      "epoch": 0.6845513981399061,
      "grad_norm": 0.853049924345892,
      "learning_rate": 4.780101322762759e-06,
      "loss": 0.7589,
      "step": 11151
    },
    {
      "epoch": 0.6846127873783726,
      "grad_norm": 0.9345899994976024,
      "learning_rate": 4.778405459662105e-06,
      "loss": 0.7856,
      "step": 11152
    },
    {
      "epoch": 0.684674176616839,
      "grad_norm": 0.8962266812023781,
      "learning_rate": 4.77670980299901e-06,
      "loss": 0.7528,
      "step": 11153
    },
    {
      "epoch": 0.6847355658553056,
      "grad_norm": 0.966127454642899,
      "learning_rate": 4.775014352840512e-06,
      "loss": 0.7568,
      "step": 11154
    },
    {
      "epoch": 0.684796955093772,
      "grad_norm": 1.0312134089611464,
      "learning_rate": 4.7733191092536435e-06,
      "loss": 0.8106,
      "step": 11155
    },
    {
      "epoch": 0.6848583443322386,
      "grad_norm": 0.9019108497173228,
      "learning_rate": 4.771624072305423e-06,
      "loss": 0.7738,
      "step": 11156
    },
    {
      "epoch": 0.684919733570705,
      "grad_norm": 0.9615519887367384,
      "learning_rate": 4.7699292420628675e-06,
      "loss": 0.7687,
      "step": 11157
    },
    {
      "epoch": 0.6849811228091716,
      "grad_norm": 0.9495769299291448,
      "learning_rate": 4.768234618592981e-06,
      "loss": 0.7636,
      "step": 11158
    },
    {
      "epoch": 0.685042512047638,
      "grad_norm": 0.94055980845642,
      "learning_rate": 4.7665402019627585e-06,
      "loss": 0.7355,
      "step": 11159
    },
    {
      "epoch": 0.6851039012861045,
      "grad_norm": 0.9429703421423542,
      "learning_rate": 4.764845992239198e-06,
      "loss": 0.7821,
      "step": 11160
    },
    {
      "epoch": 0.6851652905245711,
      "grad_norm": 0.9294239850246475,
      "learning_rate": 4.763151989489273e-06,
      "loss": 0.7608,
      "step": 11161
    },
    {
      "epoch": 0.6852266797630375,
      "grad_norm": 1.0018492243390786,
      "learning_rate": 4.761458193779954e-06,
      "loss": 0.7814,
      "step": 11162
    },
    {
      "epoch": 0.6852880690015041,
      "grad_norm": 1.0712781757687495,
      "learning_rate": 4.759764605178214e-06,
      "loss": 0.8016,
      "step": 11163
    },
    {
      "epoch": 0.6853494582399705,
      "grad_norm": 0.9264897946469525,
      "learning_rate": 4.758071223751006e-06,
      "loss": 0.7689,
      "step": 11164
    },
    {
      "epoch": 0.6854108474784371,
      "grad_norm": 0.8721116201392729,
      "learning_rate": 4.756378049565279e-06,
      "loss": 0.7567,
      "step": 11165
    },
    {
      "epoch": 0.6854722367169035,
      "grad_norm": 0.9041088254509932,
      "learning_rate": 4.754685082687972e-06,
      "loss": 0.8681,
      "step": 11166
    },
    {
      "epoch": 0.68553362595537,
      "grad_norm": 0.9807039444851381,
      "learning_rate": 4.752992323186017e-06,
      "loss": 0.7684,
      "step": 11167
    },
    {
      "epoch": 0.6855950151938365,
      "grad_norm": 0.9516903345761556,
      "learning_rate": 4.75129977112634e-06,
      "loss": 0.7458,
      "step": 11168
    },
    {
      "epoch": 0.685656404432303,
      "grad_norm": 0.8608249519180945,
      "learning_rate": 4.749607426575849e-06,
      "loss": 0.7716,
      "step": 11169
    },
    {
      "epoch": 0.6857177936707695,
      "grad_norm": 0.9337775993943809,
      "learning_rate": 4.747915289601467e-06,
      "loss": 0.7489,
      "step": 11170
    },
    {
      "epoch": 0.685779182909236,
      "grad_norm": 0.6063863845606426,
      "learning_rate": 4.7462233602700794e-06,
      "loss": 0.6742,
      "step": 11171
    },
    {
      "epoch": 0.6858405721477026,
      "grad_norm": 0.9169792538059592,
      "learning_rate": 4.7445316386485814e-06,
      "loss": 0.7636,
      "step": 11172
    },
    {
      "epoch": 0.685901961386169,
      "grad_norm": 0.893375609569779,
      "learning_rate": 4.742840124803852e-06,
      "loss": 0.7726,
      "step": 11173
    },
    {
      "epoch": 0.6859633506246355,
      "grad_norm": 0.8937522491579615,
      "learning_rate": 4.741148818802773e-06,
      "loss": 0.7527,
      "step": 11174
    },
    {
      "epoch": 0.686024739863102,
      "grad_norm": 0.8943049703516248,
      "learning_rate": 4.7394577207122125e-06,
      "loss": 0.773,
      "step": 11175
    },
    {
      "epoch": 0.6860861291015685,
      "grad_norm": 0.9259946631727655,
      "learning_rate": 4.737766830599016e-06,
      "loss": 0.7894,
      "step": 11176
    },
    {
      "epoch": 0.686147518340035,
      "grad_norm": 0.9126735765856752,
      "learning_rate": 4.736076148530044e-06,
      "loss": 0.7348,
      "step": 11177
    },
    {
      "epoch": 0.6862089075785015,
      "grad_norm": 0.8800183330666986,
      "learning_rate": 4.734385674572136e-06,
      "loss": 0.766,
      "step": 11178
    },
    {
      "epoch": 0.6862702968169679,
      "grad_norm": 0.9316657037622685,
      "learning_rate": 4.732695408792125e-06,
      "loss": 0.8269,
      "step": 11179
    },
    {
      "epoch": 0.6863316860554345,
      "grad_norm": 1.045575399811736,
      "learning_rate": 4.731005351256835e-06,
      "loss": 0.7807,
      "step": 11180
    },
    {
      "epoch": 0.686393075293901,
      "grad_norm": 0.8228019788335549,
      "learning_rate": 4.7293155020330846e-06,
      "loss": 0.7414,
      "step": 11181
    },
    {
      "epoch": 0.6864544645323675,
      "grad_norm": 0.9200606061290809,
      "learning_rate": 4.727625861187682e-06,
      "loss": 0.7719,
      "step": 11182
    },
    {
      "epoch": 0.686515853770834,
      "grad_norm": 0.964791253898858,
      "learning_rate": 4.725936428787424e-06,
      "loss": 0.7903,
      "step": 11183
    },
    {
      "epoch": 0.6865772430093005,
      "grad_norm": 0.9771925495636087,
      "learning_rate": 4.72424720489911e-06,
      "loss": 0.7718,
      "step": 11184
    },
    {
      "epoch": 0.686638632247767,
      "grad_norm": 0.9207471312732691,
      "learning_rate": 4.722558189589526e-06,
      "loss": 0.7718,
      "step": 11185
    },
    {
      "epoch": 0.6867000214862334,
      "grad_norm": 0.8727219357365569,
      "learning_rate": 4.720869382925437e-06,
      "loss": 0.7575,
      "step": 11186
    },
    {
      "epoch": 0.6867614107247,
      "grad_norm": 0.9687864197489903,
      "learning_rate": 4.719180784973613e-06,
      "loss": 0.7689,
      "step": 11187
    },
    {
      "epoch": 0.6868227999631664,
      "grad_norm": 0.9360711679848477,
      "learning_rate": 4.71749239580082e-06,
      "loss": 0.8039,
      "step": 11188
    },
    {
      "epoch": 0.686884189201633,
      "grad_norm": 0.9458034799172933,
      "learning_rate": 4.7158042154738094e-06,
      "loss": 0.7742,
      "step": 11189
    },
    {
      "epoch": 0.6869455784400994,
      "grad_norm": 0.8634766805103341,
      "learning_rate": 4.714116244059312e-06,
      "loss": 0.7466,
      "step": 11190
    },
    {
      "epoch": 0.687006967678566,
      "grad_norm": 0.9722389309911351,
      "learning_rate": 4.712428481624074e-06,
      "loss": 0.8006,
      "step": 11191
    },
    {
      "epoch": 0.6870683569170325,
      "grad_norm": 0.9060889372768822,
      "learning_rate": 4.7107409282348194e-06,
      "loss": 0.7995,
      "step": 11192
    },
    {
      "epoch": 0.6871297461554989,
      "grad_norm": 0.8670965646737907,
      "learning_rate": 4.709053583958263e-06,
      "loss": 0.7904,
      "step": 11193
    },
    {
      "epoch": 0.6871911353939655,
      "grad_norm": 0.9289342056505753,
      "learning_rate": 4.7073664488611185e-06,
      "loss": 0.7794,
      "step": 11194
    },
    {
      "epoch": 0.6872525246324319,
      "grad_norm": 1.008978975133801,
      "learning_rate": 4.705679523010084e-06,
      "loss": 0.8055,
      "step": 11195
    },
    {
      "epoch": 0.6873139138708985,
      "grad_norm": 1.0405036000229257,
      "learning_rate": 4.703992806471853e-06,
      "loss": 0.796,
      "step": 11196
    },
    {
      "epoch": 0.6873753031093649,
      "grad_norm": 0.9356379011460211,
      "learning_rate": 4.702306299313113e-06,
      "loss": 0.7376,
      "step": 11197
    },
    {
      "epoch": 0.6874366923478314,
      "grad_norm": 0.8680021665495881,
      "learning_rate": 4.700620001600534e-06,
      "loss": 0.7797,
      "step": 11198
    },
    {
      "epoch": 0.6874980815862979,
      "grad_norm": 0.8889945998413682,
      "learning_rate": 4.698933913400798e-06,
      "loss": 0.7624,
      "step": 11199
    },
    {
      "epoch": 0.6875594708247644,
      "grad_norm": 0.8909078302785487,
      "learning_rate": 4.697248034780553e-06,
      "loss": 0.8021,
      "step": 11200
    },
    {
      "epoch": 0.6876208600632309,
      "grad_norm": 0.9387713731158651,
      "learning_rate": 4.69556236580645e-06,
      "loss": 0.7716,
      "step": 11201
    },
    {
      "epoch": 0.6876822493016974,
      "grad_norm": 0.8538516217786516,
      "learning_rate": 4.693876906545141e-06,
      "loss": 0.7956,
      "step": 11202
    },
    {
      "epoch": 0.687743638540164,
      "grad_norm": 0.9095078240205975,
      "learning_rate": 4.692191657063257e-06,
      "loss": 0.7409,
      "step": 11203
    },
    {
      "epoch": 0.6878050277786304,
      "grad_norm": 0.9598985599885037,
      "learning_rate": 4.690506617427424e-06,
      "loss": 0.7684,
      "step": 11204
    },
    {
      "epoch": 0.6878664170170969,
      "grad_norm": 0.9384246728837491,
      "learning_rate": 4.6888217877042616e-06,
      "loss": 0.7798,
      "step": 11205
    },
    {
      "epoch": 0.6879278062555634,
      "grad_norm": 0.9455480818572735,
      "learning_rate": 4.687137167960381e-06,
      "loss": 0.7945,
      "step": 11206
    },
    {
      "epoch": 0.6879891954940299,
      "grad_norm": 0.8951268149054411,
      "learning_rate": 4.685452758262382e-06,
      "loss": 0.7903,
      "step": 11207
    },
    {
      "epoch": 0.6880505847324964,
      "grad_norm": 0.959798474027011,
      "learning_rate": 4.683768558676858e-06,
      "loss": 0.8427,
      "step": 11208
    },
    {
      "epoch": 0.6881119739709629,
      "grad_norm": 0.960098561077682,
      "learning_rate": 4.682084569270402e-06,
      "loss": 0.7967,
      "step": 11209
    },
    {
      "epoch": 0.6881733632094293,
      "grad_norm": 0.9672887986695503,
      "learning_rate": 4.680400790109581e-06,
      "loss": 0.8093,
      "step": 11210
    },
    {
      "epoch": 0.6882347524478959,
      "grad_norm": 0.8441618405566184,
      "learning_rate": 4.67871722126097e-06,
      "loss": 0.7308,
      "step": 11211
    },
    {
      "epoch": 0.6882961416863623,
      "grad_norm": 0.949257297809415,
      "learning_rate": 4.677033862791122e-06,
      "loss": 0.7955,
      "step": 11212
    },
    {
      "epoch": 0.6883575309248289,
      "grad_norm": 0.9366284437046327,
      "learning_rate": 4.675350714766599e-06,
      "loss": 0.7454,
      "step": 11213
    },
    {
      "epoch": 0.6884189201632954,
      "grad_norm": 0.8685775154616622,
      "learning_rate": 4.673667777253944e-06,
      "loss": 0.7286,
      "step": 11214
    },
    {
      "epoch": 0.6884803094017619,
      "grad_norm": 0.8602366398179127,
      "learning_rate": 4.671985050319681e-06,
      "loss": 0.719,
      "step": 11215
    },
    {
      "epoch": 0.6885416986402284,
      "grad_norm": 1.0617813454821214,
      "learning_rate": 4.670302534030351e-06,
      "loss": 0.8142,
      "step": 11216
    },
    {
      "epoch": 0.6886030878786948,
      "grad_norm": 0.845628427609757,
      "learning_rate": 4.668620228452465e-06,
      "loss": 0.7864,
      "step": 11217
    },
    {
      "epoch": 0.6886644771171614,
      "grad_norm": 0.9377263545652615,
      "learning_rate": 4.666938133652537e-06,
      "loss": 0.7898,
      "step": 11218
    },
    {
      "epoch": 0.6887258663556278,
      "grad_norm": 0.9902447953882029,
      "learning_rate": 4.665256249697067e-06,
      "loss": 0.7892,
      "step": 11219
    },
    {
      "epoch": 0.6887872555940944,
      "grad_norm": 0.8542775016601012,
      "learning_rate": 4.663574576652549e-06,
      "loss": 0.8016,
      "step": 11220
    },
    {
      "epoch": 0.6888486448325608,
      "grad_norm": 0.8439942154342133,
      "learning_rate": 4.66189311458547e-06,
      "loss": 0.7585,
      "step": 11221
    },
    {
      "epoch": 0.6889100340710274,
      "grad_norm": 0.9249575504803065,
      "learning_rate": 4.6602118635623064e-06,
      "loss": 0.7859,
      "step": 11222
    },
    {
      "epoch": 0.6889714233094938,
      "grad_norm": 1.0076854213460567,
      "learning_rate": 4.658530823649523e-06,
      "loss": 0.7903,
      "step": 11223
    },
    {
      "epoch": 0.6890328125479603,
      "grad_norm": 0.8734727142271846,
      "learning_rate": 4.656849994913593e-06,
      "loss": 0.7384,
      "step": 11224
    },
    {
      "epoch": 0.6890942017864269,
      "grad_norm": 0.9668000482537982,
      "learning_rate": 4.6551693774209535e-06,
      "loss": 0.8694,
      "step": 11225
    },
    {
      "epoch": 0.6891555910248933,
      "grad_norm": 0.9147179872543404,
      "learning_rate": 4.653488971238054e-06,
      "loss": 0.7285,
      "step": 11226
    },
    {
      "epoch": 0.6892169802633599,
      "grad_norm": 0.9250186631617656,
      "learning_rate": 4.651808776431333e-06,
      "loss": 0.8039,
      "step": 11227
    },
    {
      "epoch": 0.6892783695018263,
      "grad_norm": 0.8877925533110081,
      "learning_rate": 4.650128793067215e-06,
      "loss": 0.7489,
      "step": 11228
    },
    {
      "epoch": 0.6893397587402929,
      "grad_norm": 0.9098672554436463,
      "learning_rate": 4.648449021212118e-06,
      "loss": 0.7573,
      "step": 11229
    },
    {
      "epoch": 0.6894011479787593,
      "grad_norm": 1.0375139805259455,
      "learning_rate": 4.646769460932454e-06,
      "loss": 0.8004,
      "step": 11230
    },
    {
      "epoch": 0.6894625372172258,
      "grad_norm": 0.5660920457025901,
      "learning_rate": 4.6450901122946255e-06,
      "loss": 0.6573,
      "step": 11231
    },
    {
      "epoch": 0.6895239264556923,
      "grad_norm": 0.9878667518393663,
      "learning_rate": 4.643410975365024e-06,
      "loss": 0.8075,
      "step": 11232
    },
    {
      "epoch": 0.6895853156941588,
      "grad_norm": 0.9991949277731254,
      "learning_rate": 4.641732050210032e-06,
      "loss": 0.7337,
      "step": 11233
    },
    {
      "epoch": 0.6896467049326254,
      "grad_norm": 0.8921350579071052,
      "learning_rate": 4.640053336896038e-06,
      "loss": 0.7315,
      "step": 11234
    },
    {
      "epoch": 0.6897080941710918,
      "grad_norm": 1.0047273053103005,
      "learning_rate": 4.638374835489398e-06,
      "loss": 0.7434,
      "step": 11235
    },
    {
      "epoch": 0.6897694834095583,
      "grad_norm": 0.8766397933072498,
      "learning_rate": 4.636696546056478e-06,
      "loss": 0.8033,
      "step": 11236
    },
    {
      "epoch": 0.6898308726480248,
      "grad_norm": 0.7894528832174916,
      "learning_rate": 4.635018468663623e-06,
      "loss": 0.766,
      "step": 11237
    },
    {
      "epoch": 0.6898922618864913,
      "grad_norm": 0.9806529288803655,
      "learning_rate": 4.6333406033771865e-06,
      "loss": 0.7576,
      "step": 11238
    },
    {
      "epoch": 0.6899536511249578,
      "grad_norm": 1.006253403150475,
      "learning_rate": 4.631662950263502e-06,
      "loss": 0.7701,
      "step": 11239
    },
    {
      "epoch": 0.6900150403634243,
      "grad_norm": 0.9016149644743405,
      "learning_rate": 4.629985509388887e-06,
      "loss": 0.7748,
      "step": 11240
    },
    {
      "epoch": 0.6900764296018908,
      "grad_norm": 0.8937868831356881,
      "learning_rate": 4.6283082808196685e-06,
      "loss": 0.7297,
      "step": 11241
    },
    {
      "epoch": 0.6901378188403573,
      "grad_norm": 0.8822434058484951,
      "learning_rate": 4.626631264622153e-06,
      "loss": 0.8034,
      "step": 11242
    },
    {
      "epoch": 0.6901992080788237,
      "grad_norm": 0.9931627296685183,
      "learning_rate": 4.624954460862644e-06,
      "loss": 0.7759,
      "step": 11243
    },
    {
      "epoch": 0.6902605973172903,
      "grad_norm": 0.9892968677860043,
      "learning_rate": 4.6232778696074306e-06,
      "loss": 0.7931,
      "step": 11244
    },
    {
      "epoch": 0.6903219865557568,
      "grad_norm": 0.6798483097671681,
      "learning_rate": 4.621601490922803e-06,
      "loss": 0.7317,
      "step": 11245
    },
    {
      "epoch": 0.6903833757942233,
      "grad_norm": 0.8775423462547436,
      "learning_rate": 4.619925324875031e-06,
      "loss": 0.8167,
      "step": 11246
    },
    {
      "epoch": 0.6904447650326898,
      "grad_norm": 0.9005970001558731,
      "learning_rate": 4.618249371530383e-06,
      "loss": 0.8015,
      "step": 11247
    },
    {
      "epoch": 0.6905061542711562,
      "grad_norm": 0.9962879446970266,
      "learning_rate": 4.616573630955125e-06,
      "loss": 0.7691,
      "step": 11248
    },
    {
      "epoch": 0.6905675435096228,
      "grad_norm": 0.9401888113803359,
      "learning_rate": 4.614898103215507e-06,
      "loss": 0.7839,
      "step": 11249
    },
    {
      "epoch": 0.6906289327480892,
      "grad_norm": 0.9700894197387949,
      "learning_rate": 4.613222788377766e-06,
      "loss": 0.771,
      "step": 11250
    },
    {
      "epoch": 0.6906903219865558,
      "grad_norm": 0.9217242518255117,
      "learning_rate": 4.611547686508134e-06,
      "loss": 0.7092,
      "step": 11251
    },
    {
      "epoch": 0.6907517112250222,
      "grad_norm": 0.8939149229890269,
      "learning_rate": 4.609872797672845e-06,
      "loss": 0.8033,
      "step": 11252
    },
    {
      "epoch": 0.6908131004634888,
      "grad_norm": 0.9903313441066781,
      "learning_rate": 4.6081981219381166e-06,
      "loss": 0.7459,
      "step": 11253
    },
    {
      "epoch": 0.6908744897019552,
      "grad_norm": 0.9545812818764191,
      "learning_rate": 4.606523659370147e-06,
      "loss": 0.7716,
      "step": 11254
    },
    {
      "epoch": 0.6909358789404217,
      "grad_norm": 0.9812215027548653,
      "learning_rate": 4.604849410035146e-06,
      "loss": 0.7396,
      "step": 11255
    },
    {
      "epoch": 0.6909972681788883,
      "grad_norm": 0.9183594813648479,
      "learning_rate": 4.603175373999305e-06,
      "loss": 0.7957,
      "step": 11256
    },
    {
      "epoch": 0.6910586574173547,
      "grad_norm": 0.6107350742366237,
      "learning_rate": 4.601501551328804e-06,
      "loss": 0.6845,
      "step": 11257
    },
    {
      "epoch": 0.6911200466558213,
      "grad_norm": 0.9508109028129182,
      "learning_rate": 4.5998279420898206e-06,
      "loss": 0.8098,
      "step": 11258
    },
    {
      "epoch": 0.6911814358942877,
      "grad_norm": 0.9104511021935976,
      "learning_rate": 4.59815454634852e-06,
      "loss": 0.8264,
      "step": 11259
    },
    {
      "epoch": 0.6912428251327543,
      "grad_norm": 0.874217343213091,
      "learning_rate": 4.596481364171062e-06,
      "loss": 0.7481,
      "step": 11260
    },
    {
      "epoch": 0.6913042143712207,
      "grad_norm": 0.9763098459798832,
      "learning_rate": 4.5948083956235955e-06,
      "loss": 0.8073,
      "step": 11261
    },
    {
      "epoch": 0.6913656036096872,
      "grad_norm": 0.9247341393697386,
      "learning_rate": 4.593135640772259e-06,
      "loss": 0.7662,
      "step": 11262
    },
    {
      "epoch": 0.6914269928481537,
      "grad_norm": 0.9863901212239613,
      "learning_rate": 4.591463099683196e-06,
      "loss": 0.7727,
      "step": 11263
    },
    {
      "epoch": 0.6914883820866202,
      "grad_norm": 0.9759246459833711,
      "learning_rate": 4.589790772422519e-06,
      "loss": 0.771,
      "step": 11264
    },
    {
      "epoch": 0.6915497713250867,
      "grad_norm": 1.0485172596661447,
      "learning_rate": 4.588118659056346e-06,
      "loss": 0.7858,
      "step": 11265
    },
    {
      "epoch": 0.6916111605635532,
      "grad_norm": 0.9444152343727125,
      "learning_rate": 4.58644675965079e-06,
      "loss": 0.7708,
      "step": 11266
    },
    {
      "epoch": 0.6916725498020198,
      "grad_norm": 0.9556662360039385,
      "learning_rate": 4.584775074271946e-06,
      "loss": 0.7399,
      "step": 11267
    },
    {
      "epoch": 0.6917339390404862,
      "grad_norm": 1.0097145887096315,
      "learning_rate": 4.583103602985909e-06,
      "loss": 0.756,
      "step": 11268
    },
    {
      "epoch": 0.6917953282789527,
      "grad_norm": 0.8839623360617702,
      "learning_rate": 4.5814323458587565e-06,
      "loss": 0.8045,
      "step": 11269
    },
    {
      "epoch": 0.6918567175174192,
      "grad_norm": 0.9458785135076454,
      "learning_rate": 4.579761302956564e-06,
      "loss": 0.777,
      "step": 11270
    },
    {
      "epoch": 0.6919181067558857,
      "grad_norm": 1.026711746329291,
      "learning_rate": 4.5780904743453965e-06,
      "loss": 0.7433,
      "step": 11271
    },
    {
      "epoch": 0.6919794959943522,
      "grad_norm": 1.014861231052664,
      "learning_rate": 4.576419860091308e-06,
      "loss": 0.804,
      "step": 11272
    },
    {
      "epoch": 0.6920408852328187,
      "grad_norm": 0.9508168863886157,
      "learning_rate": 4.574749460260356e-06,
      "loss": 0.8027,
      "step": 11273
    },
    {
      "epoch": 0.6921022744712851,
      "grad_norm": 0.8839996031166688,
      "learning_rate": 4.573079274918571e-06,
      "loss": 0.7559,
      "step": 11274
    },
    {
      "epoch": 0.6921636637097517,
      "grad_norm": 0.8616108518736691,
      "learning_rate": 4.571409304131987e-06,
      "loss": 0.7972,
      "step": 11275
    },
    {
      "epoch": 0.6922250529482181,
      "grad_norm": 0.8945283152410417,
      "learning_rate": 4.569739547966625e-06,
      "loss": 0.7279,
      "step": 11276
    },
    {
      "epoch": 0.6922864421866847,
      "grad_norm": 0.8466322721455963,
      "learning_rate": 4.568070006488504e-06,
      "loss": 0.7508,
      "step": 11277
    },
    {
      "epoch": 0.6923478314251512,
      "grad_norm": 0.9369135758650474,
      "learning_rate": 4.566400679763633e-06,
      "loss": 0.7718,
      "step": 11278
    },
    {
      "epoch": 0.6924092206636177,
      "grad_norm": 0.9727181576059876,
      "learning_rate": 4.564731567857995e-06,
      "loss": 0.7883,
      "step": 11279
    },
    {
      "epoch": 0.6924706099020842,
      "grad_norm": 0.9197605954028483,
      "learning_rate": 4.563062670837593e-06,
      "loss": 0.7486,
      "step": 11280
    },
    {
      "epoch": 0.6925319991405506,
      "grad_norm": 0.9543565440569546,
      "learning_rate": 4.561393988768401e-06,
      "loss": 0.7591,
      "step": 11281
    },
    {
      "epoch": 0.6925933883790172,
      "grad_norm": 0.882492138895281,
      "learning_rate": 4.559725521716393e-06,
      "loss": 0.7525,
      "step": 11282
    },
    {
      "epoch": 0.6926547776174836,
      "grad_norm": 0.8368650272920081,
      "learning_rate": 4.558057269747532e-06,
      "loss": 0.7634,
      "step": 11283
    },
    {
      "epoch": 0.6927161668559502,
      "grad_norm": 0.8912617267695189,
      "learning_rate": 4.556389232927773e-06,
      "loss": 0.8088,
      "step": 11284
    },
    {
      "epoch": 0.6927775560944166,
      "grad_norm": 0.901577701571526,
      "learning_rate": 4.5547214113230605e-06,
      "loss": 0.7719,
      "step": 11285
    },
    {
      "epoch": 0.6928389453328831,
      "grad_norm": 0.8720296932689542,
      "learning_rate": 4.553053804999332e-06,
      "loss": 0.7545,
      "step": 11286
    },
    {
      "epoch": 0.6929003345713497,
      "grad_norm": 0.9214294272920255,
      "learning_rate": 4.551386414022522e-06,
      "loss": 0.7702,
      "step": 11287
    },
    {
      "epoch": 0.6929617238098161,
      "grad_norm": 0.9775203268191262,
      "learning_rate": 4.549719238458552e-06,
      "loss": 0.7616,
      "step": 11288
    },
    {
      "epoch": 0.6930231130482827,
      "grad_norm": 0.8912673782626591,
      "learning_rate": 4.548052278373327e-06,
      "loss": 0.7565,
      "step": 11289
    },
    {
      "epoch": 0.6930845022867491,
      "grad_norm": 1.0510066883667826,
      "learning_rate": 4.546385533832751e-06,
      "loss": 0.7762,
      "step": 11290
    },
    {
      "epoch": 0.6931458915252157,
      "grad_norm": 0.8949671558024413,
      "learning_rate": 4.544719004902726e-06,
      "loss": 0.8329,
      "step": 11291
    },
    {
      "epoch": 0.6932072807636821,
      "grad_norm": 0.8908215221373749,
      "learning_rate": 4.543052691649136e-06,
      "loss": 0.7963,
      "step": 11292
    },
    {
      "epoch": 0.6932686700021486,
      "grad_norm": 0.6086957536829469,
      "learning_rate": 4.5413865941378585e-06,
      "loss": 0.6757,
      "step": 11293
    },
    {
      "epoch": 0.6933300592406151,
      "grad_norm": 0.8958787172825978,
      "learning_rate": 4.539720712434764e-06,
      "loss": 0.7025,
      "step": 11294
    },
    {
      "epoch": 0.6933914484790816,
      "grad_norm": 0.8882103240646148,
      "learning_rate": 4.538055046605714e-06,
      "loss": 0.7599,
      "step": 11295
    },
    {
      "epoch": 0.6934528377175481,
      "grad_norm": 0.9090997176151948,
      "learning_rate": 4.53638959671656e-06,
      "loss": 0.7656,
      "step": 11296
    },
    {
      "epoch": 0.6935142269560146,
      "grad_norm": 0.8828031563231763,
      "learning_rate": 4.5347243628331425e-06,
      "loss": 0.7401,
      "step": 11297
    },
    {
      "epoch": 0.6935756161944812,
      "grad_norm": 1.0026414822790979,
      "learning_rate": 4.533059345021309e-06,
      "loss": 0.7687,
      "step": 11298
    },
    {
      "epoch": 0.6936370054329476,
      "grad_norm": 1.0312589625535442,
      "learning_rate": 4.531394543346875e-06,
      "loss": 0.7968,
      "step": 11299
    },
    {
      "epoch": 0.6936983946714141,
      "grad_norm": 0.9447735739037066,
      "learning_rate": 4.529729957875664e-06,
      "loss": 0.7359,
      "step": 11300
    },
    {
      "epoch": 0.6937597839098806,
      "grad_norm": 0.9061303402223415,
      "learning_rate": 4.528065588673479e-06,
      "loss": 0.8528,
      "step": 11301
    },
    {
      "epoch": 0.6938211731483471,
      "grad_norm": 0.9537075300707725,
      "learning_rate": 4.526401435806133e-06,
      "loss": 0.722,
      "step": 11302
    },
    {
      "epoch": 0.6938825623868136,
      "grad_norm": 0.95675123817704,
      "learning_rate": 4.524737499339415e-06,
      "loss": 0.7876,
      "step": 11303
    },
    {
      "epoch": 0.6939439516252801,
      "grad_norm": 1.025777554510087,
      "learning_rate": 4.523073779339101e-06,
      "loss": 0.7546,
      "step": 11304
    },
    {
      "epoch": 0.6940053408637465,
      "grad_norm": 0.8563327065647247,
      "learning_rate": 4.5214102758709774e-06,
      "loss": 0.7514,
      "step": 11305
    },
    {
      "epoch": 0.6940667301022131,
      "grad_norm": 0.9350676419479592,
      "learning_rate": 4.519746989000806e-06,
      "loss": 0.785,
      "step": 11306
    },
    {
      "epoch": 0.6941281193406795,
      "grad_norm": 0.7637684773558179,
      "learning_rate": 4.518083918794347e-06,
      "loss": 0.7419,
      "step": 11307
    },
    {
      "epoch": 0.6941895085791461,
      "grad_norm": 0.9407127630315312,
      "learning_rate": 4.516421065317351e-06,
      "loss": 0.7634,
      "step": 11308
    },
    {
      "epoch": 0.6942508978176126,
      "grad_norm": 0.9927063191189139,
      "learning_rate": 4.5147584286355575e-06,
      "loss": 0.7838,
      "step": 11309
    },
    {
      "epoch": 0.6943122870560791,
      "grad_norm": 0.9196228381256751,
      "learning_rate": 4.5130960088147e-06,
      "loss": 0.7805,
      "step": 11310
    },
    {
      "epoch": 0.6943736762945456,
      "grad_norm": 0.9040684456137358,
      "learning_rate": 4.511433805920501e-06,
      "loss": 0.7574,
      "step": 11311
    },
    {
      "epoch": 0.694435065533012,
      "grad_norm": 0.8936532838816198,
      "learning_rate": 4.509771820018682e-06,
      "loss": 0.7856,
      "step": 11312
    },
    {
      "epoch": 0.6944964547714786,
      "grad_norm": 0.944864769105484,
      "learning_rate": 4.50811005117495e-06,
      "loss": 0.7919,
      "step": 11313
    },
    {
      "epoch": 0.694557844009945,
      "grad_norm": 0.5540551857981912,
      "learning_rate": 4.506448499454996e-06,
      "loss": 0.6265,
      "step": 11314
    },
    {
      "epoch": 0.6946192332484116,
      "grad_norm": 0.9242754267336385,
      "learning_rate": 4.504787164924511e-06,
      "loss": 0.8059,
      "step": 11315
    },
    {
      "epoch": 0.694680622486878,
      "grad_norm": 0.9358688868663253,
      "learning_rate": 4.503126047649184e-06,
      "loss": 0.7671,
      "step": 11316
    },
    {
      "epoch": 0.6947420117253446,
      "grad_norm": 1.0664226190638209,
      "learning_rate": 4.501465147694684e-06,
      "loss": 0.7735,
      "step": 11317
    },
    {
      "epoch": 0.694803400963811,
      "grad_norm": 0.9056380133500337,
      "learning_rate": 4.499804465126675e-06,
      "loss": 0.7458,
      "step": 11318
    },
    {
      "epoch": 0.6948647902022775,
      "grad_norm": 0.9473142008004015,
      "learning_rate": 4.498144000010811e-06,
      "loss": 0.8101,
      "step": 11319
    },
    {
      "epoch": 0.6949261794407441,
      "grad_norm": 1.1066833669348526,
      "learning_rate": 4.496483752412743e-06,
      "loss": 0.7765,
      "step": 11320
    },
    {
      "epoch": 0.6949875686792105,
      "grad_norm": 1.0543044415123803,
      "learning_rate": 4.494823722398105e-06,
      "loss": 0.7706,
      "step": 11321
    },
    {
      "epoch": 0.6950489579176771,
      "grad_norm": 0.8402842100616131,
      "learning_rate": 4.49316391003253e-06,
      "loss": 0.7472,
      "step": 11322
    },
    {
      "epoch": 0.6951103471561435,
      "grad_norm": 0.9332103658663512,
      "learning_rate": 4.491504315381638e-06,
      "loss": 0.7992,
      "step": 11323
    },
    {
      "epoch": 0.69517173639461,
      "grad_norm": 0.9847481560125708,
      "learning_rate": 4.489844938511042e-06,
      "loss": 0.7797,
      "step": 11324
    },
    {
      "epoch": 0.6952331256330765,
      "grad_norm": 0.8590913093726779,
      "learning_rate": 4.4881857794863424e-06,
      "loss": 0.7741,
      "step": 11325
    },
    {
      "epoch": 0.695294514871543,
      "grad_norm": 0.8682985407044972,
      "learning_rate": 4.486526838373142e-06,
      "loss": 0.7288,
      "step": 11326
    },
    {
      "epoch": 0.6953559041100095,
      "grad_norm": 1.041897566129664,
      "learning_rate": 4.4848681152370274e-06,
      "loss": 0.8086,
      "step": 11327
    },
    {
      "epoch": 0.695417293348476,
      "grad_norm": 0.9051812278767766,
      "learning_rate": 4.48320961014357e-06,
      "loss": 0.7703,
      "step": 11328
    },
    {
      "epoch": 0.6954786825869425,
      "grad_norm": 0.9762193569483857,
      "learning_rate": 4.4815513231583385e-06,
      "loss": 0.7679,
      "step": 11329
    },
    {
      "epoch": 0.695540071825409,
      "grad_norm": 0.9007086530586991,
      "learning_rate": 4.479893254346901e-06,
      "loss": 0.7856,
      "step": 11330
    },
    {
      "epoch": 0.6956014610638755,
      "grad_norm": 0.8489682133792499,
      "learning_rate": 4.478235403774808e-06,
      "loss": 0.7515,
      "step": 11331
    },
    {
      "epoch": 0.695662850302342,
      "grad_norm": 0.9936987235141429,
      "learning_rate": 4.476577771507601e-06,
      "loss": 0.736,
      "step": 11332
    },
    {
      "epoch": 0.6957242395408085,
      "grad_norm": 0.8798806308425755,
      "learning_rate": 4.474920357610816e-06,
      "loss": 0.7478,
      "step": 11333
    },
    {
      "epoch": 0.695785628779275,
      "grad_norm": 0.8908758730110051,
      "learning_rate": 4.47326316214998e-06,
      "loss": 0.774,
      "step": 11334
    },
    {
      "epoch": 0.6958470180177415,
      "grad_norm": 0.8458713760932628,
      "learning_rate": 4.47160618519061e-06,
      "loss": 0.7354,
      "step": 11335
    },
    {
      "epoch": 0.695908407256208,
      "grad_norm": 0.8001729316127263,
      "learning_rate": 4.469949426798211e-06,
      "loss": 0.7538,
      "step": 11336
    },
    {
      "epoch": 0.6959697964946745,
      "grad_norm": 0.9622458766430334,
      "learning_rate": 4.468292887038297e-06,
      "loss": 0.7847,
      "step": 11337
    },
    {
      "epoch": 0.6960311857331409,
      "grad_norm": 1.0973833295831783,
      "learning_rate": 4.466636565976345e-06,
      "loss": 0.771,
      "step": 11338
    },
    {
      "epoch": 0.6960925749716075,
      "grad_norm": 0.8767836119978347,
      "learning_rate": 4.464980463677846e-06,
      "loss": 0.7482,
      "step": 11339
    },
    {
      "epoch": 0.696153964210074,
      "grad_norm": 0.9356531488632446,
      "learning_rate": 4.463324580208268e-06,
      "loss": 0.7413,
      "step": 11340
    },
    {
      "epoch": 0.6962153534485405,
      "grad_norm": 0.8088987050026832,
      "learning_rate": 4.461668915633085e-06,
      "loss": 0.768,
      "step": 11341
    },
    {
      "epoch": 0.696276742687007,
      "grad_norm": 1.0402947944472973,
      "learning_rate": 4.460013470017756e-06,
      "loss": 0.7684,
      "step": 11342
    },
    {
      "epoch": 0.6963381319254734,
      "grad_norm": 0.931874590230359,
      "learning_rate": 4.458358243427715e-06,
      "loss": 0.7372,
      "step": 11343
    },
    {
      "epoch": 0.69639952116394,
      "grad_norm": 1.002384260184485,
      "learning_rate": 4.456703235928417e-06,
      "loss": 0.8072,
      "step": 11344
    },
    {
      "epoch": 0.6964609104024064,
      "grad_norm": 0.8523999559249983,
      "learning_rate": 4.455048447585286e-06,
      "loss": 0.7903,
      "step": 11345
    },
    {
      "epoch": 0.696522299640873,
      "grad_norm": 0.9302664505928675,
      "learning_rate": 4.453393878463748e-06,
      "loss": 0.7533,
      "step": 11346
    },
    {
      "epoch": 0.6965836888793394,
      "grad_norm": 0.8757443660718331,
      "learning_rate": 4.4517395286292145e-06,
      "loss": 0.7299,
      "step": 11347
    },
    {
      "epoch": 0.696645078117806,
      "grad_norm": 1.0590621961897686,
      "learning_rate": 4.450085398147091e-06,
      "loss": 0.7485,
      "step": 11348
    },
    {
      "epoch": 0.6967064673562724,
      "grad_norm": 1.011507160248187,
      "learning_rate": 4.448431487082776e-06,
      "loss": 0.8134,
      "step": 11349
    },
    {
      "epoch": 0.6967678565947389,
      "grad_norm": 1.0040479433296612,
      "learning_rate": 4.446777795501652e-06,
      "loss": 0.7363,
      "step": 11350
    },
    {
      "epoch": 0.6968292458332055,
      "grad_norm": 0.902053250363779,
      "learning_rate": 4.445124323469106e-06,
      "loss": 0.778,
      "step": 11351
    },
    {
      "epoch": 0.6968906350716719,
      "grad_norm": 0.8161828325048108,
      "learning_rate": 4.443471071050509e-06,
      "loss": 0.7786,
      "step": 11352
    },
    {
      "epoch": 0.6969520243101385,
      "grad_norm": 1.0036651602204427,
      "learning_rate": 4.441818038311215e-06,
      "loss": 0.7835,
      "step": 11353
    },
    {
      "epoch": 0.6970134135486049,
      "grad_norm": 0.9341806648629621,
      "learning_rate": 4.4401652253165775e-06,
      "loss": 0.7469,
      "step": 11354
    },
    {
      "epoch": 0.6970748027870715,
      "grad_norm": 0.8552043737686128,
      "learning_rate": 4.438512632131948e-06,
      "loss": 0.7402,
      "step": 11355
    },
    {
      "epoch": 0.6971361920255379,
      "grad_norm": 1.0496094484208067,
      "learning_rate": 4.43686025882266e-06,
      "loss": 0.833,
      "step": 11356
    },
    {
      "epoch": 0.6971975812640044,
      "grad_norm": 1.0282376266109081,
      "learning_rate": 4.43520810545404e-06,
      "loss": 0.8601,
      "step": 11357
    },
    {
      "epoch": 0.6972589705024709,
      "grad_norm": 1.0293002059249567,
      "learning_rate": 4.433556172091404e-06,
      "loss": 0.7835,
      "step": 11358
    },
    {
      "epoch": 0.6973203597409374,
      "grad_norm": 0.9163207277545556,
      "learning_rate": 4.4319044588000656e-06,
      "loss": 0.7497,
      "step": 11359
    },
    {
      "epoch": 0.6973817489794039,
      "grad_norm": 0.961621372470881,
      "learning_rate": 4.430252965645325e-06,
      "loss": 0.7836,
      "step": 11360
    },
    {
      "epoch": 0.6974431382178704,
      "grad_norm": 0.9606147756982679,
      "learning_rate": 4.428601692692469e-06,
      "loss": 0.7763,
      "step": 11361
    },
    {
      "epoch": 0.697504527456337,
      "grad_norm": 0.9923253485071457,
      "learning_rate": 4.426950640006793e-06,
      "loss": 0.7824,
      "step": 11362
    },
    {
      "epoch": 0.6975659166948034,
      "grad_norm": 0.939536437759865,
      "learning_rate": 4.425299807653563e-06,
      "loss": 0.7665,
      "step": 11363
    },
    {
      "epoch": 0.6976273059332699,
      "grad_norm": 0.8749176900655111,
      "learning_rate": 4.423649195698042e-06,
      "loss": 0.6947,
      "step": 11364
    },
    {
      "epoch": 0.6976886951717364,
      "grad_norm": 0.9117282358582504,
      "learning_rate": 4.421998804205497e-06,
      "loss": 0.7594,
      "step": 11365
    },
    {
      "epoch": 0.6977500844102029,
      "grad_norm": 0.8835511746666107,
      "learning_rate": 4.420348633241172e-06,
      "loss": 0.7862,
      "step": 11366
    },
    {
      "epoch": 0.6978114736486694,
      "grad_norm": 0.9388825728700049,
      "learning_rate": 4.418698682870312e-06,
      "loss": 0.7779,
      "step": 11367
    },
    {
      "epoch": 0.6978728628871359,
      "grad_norm": 0.9594068773316035,
      "learning_rate": 4.417048953158135e-06,
      "loss": 0.8052,
      "step": 11368
    },
    {
      "epoch": 0.6979342521256023,
      "grad_norm": 1.0173865994296538,
      "learning_rate": 4.415399444169878e-06,
      "loss": 0.7631,
      "step": 11369
    },
    {
      "epoch": 0.6979956413640689,
      "grad_norm": 0.8904246425220966,
      "learning_rate": 4.413750155970749e-06,
      "loss": 0.7304,
      "step": 11370
    },
    {
      "epoch": 0.6980570306025353,
      "grad_norm": 0.9711299829075085,
      "learning_rate": 4.412101088625953e-06,
      "loss": 0.8036,
      "step": 11371
    },
    {
      "epoch": 0.6981184198410019,
      "grad_norm": 0.5753034483715129,
      "learning_rate": 4.410452242200688e-06,
      "loss": 0.6789,
      "step": 11372
    },
    {
      "epoch": 0.6981798090794684,
      "grad_norm": 0.9556269031629788,
      "learning_rate": 4.408803616760141e-06,
      "loss": 0.7664,
      "step": 11373
    },
    {
      "epoch": 0.6982411983179349,
      "grad_norm": 0.7929529701851588,
      "learning_rate": 4.407155212369491e-06,
      "loss": 0.7782,
      "step": 11374
    },
    {
      "epoch": 0.6983025875564014,
      "grad_norm": 0.8379916933352664,
      "learning_rate": 4.4055070290939025e-06,
      "loss": 0.7606,
      "step": 11375
    },
    {
      "epoch": 0.6983639767948678,
      "grad_norm": 0.9348807422124873,
      "learning_rate": 4.403859066998548e-06,
      "loss": 0.7424,
      "step": 11376
    },
    {
      "epoch": 0.6984253660333344,
      "grad_norm": 0.9334346166374999,
      "learning_rate": 4.402211326148579e-06,
      "loss": 0.8207,
      "step": 11377
    },
    {
      "epoch": 0.6984867552718008,
      "grad_norm": 0.8936992394349477,
      "learning_rate": 4.40056380660913e-06,
      "loss": 0.7347,
      "step": 11378
    },
    {
      "epoch": 0.6985481445102674,
      "grad_norm": 0.9370935126723537,
      "learning_rate": 4.398916508445339e-06,
      "loss": 0.7218,
      "step": 11379
    },
    {
      "epoch": 0.6986095337487338,
      "grad_norm": 0.9155425861573769,
      "learning_rate": 4.397269431722339e-06,
      "loss": 0.7132,
      "step": 11380
    },
    {
      "epoch": 0.6986709229872003,
      "grad_norm": 0.825723559613721,
      "learning_rate": 4.395622576505244e-06,
      "loss": 0.6903,
      "step": 11381
    },
    {
      "epoch": 0.6987323122256668,
      "grad_norm": 0.9956969146100026,
      "learning_rate": 4.393975942859162e-06,
      "loss": 0.8129,
      "step": 11382
    },
    {
      "epoch": 0.6987937014641333,
      "grad_norm": 1.0654552506115365,
      "learning_rate": 4.392329530849194e-06,
      "loss": 0.7872,
      "step": 11383
    },
    {
      "epoch": 0.6988550907025999,
      "grad_norm": 0.9161060580567191,
      "learning_rate": 4.390683340540433e-06,
      "loss": 0.7589,
      "step": 11384
    },
    {
      "epoch": 0.6989164799410663,
      "grad_norm": 1.001575246410199,
      "learning_rate": 4.389037371997958e-06,
      "loss": 0.7508,
      "step": 11385
    },
    {
      "epoch": 0.6989778691795329,
      "grad_norm": 0.9944116558966286,
      "learning_rate": 4.387391625286848e-06,
      "loss": 0.7889,
      "step": 11386
    },
    {
      "epoch": 0.6990392584179993,
      "grad_norm": 0.9831695611873383,
      "learning_rate": 4.385746100472163e-06,
      "loss": 0.7516,
      "step": 11387
    },
    {
      "epoch": 0.6991006476564658,
      "grad_norm": 0.932991673465778,
      "learning_rate": 4.384100797618963e-06,
      "loss": 0.7314,
      "step": 11388
    },
    {
      "epoch": 0.6991620368949323,
      "grad_norm": 0.9338055497082955,
      "learning_rate": 4.382455716792291e-06,
      "loss": 0.7471,
      "step": 11389
    },
    {
      "epoch": 0.6992234261333988,
      "grad_norm": 0.9992464387065376,
      "learning_rate": 4.3808108580571915e-06,
      "loss": 0.8053,
      "step": 11390
    },
    {
      "epoch": 0.6992848153718653,
      "grad_norm": 1.0178833931223867,
      "learning_rate": 4.379166221478697e-06,
      "loss": 0.7557,
      "step": 11391
    },
    {
      "epoch": 0.6993462046103318,
      "grad_norm": 1.0615869534998106,
      "learning_rate": 4.37752180712182e-06,
      "loss": 0.7566,
      "step": 11392
    },
    {
      "epoch": 0.6994075938487984,
      "grad_norm": 0.9382237399480764,
      "learning_rate": 4.375877615051575e-06,
      "loss": 0.7875,
      "step": 11393
    },
    {
      "epoch": 0.6994689830872648,
      "grad_norm": 0.900604218695959,
      "learning_rate": 4.374233645332969e-06,
      "loss": 0.7233,
      "step": 11394
    },
    {
      "epoch": 0.6995303723257313,
      "grad_norm": 1.0247633217396976,
      "learning_rate": 4.372589898030998e-06,
      "loss": 0.7651,
      "step": 11395
    },
    {
      "epoch": 0.6995917615641978,
      "grad_norm": 0.955491292522649,
      "learning_rate": 4.370946373210644e-06,
      "loss": 0.789,
      "step": 11396
    },
    {
      "epoch": 0.6996531508026643,
      "grad_norm": 0.9360688376976242,
      "learning_rate": 4.369303070936886e-06,
      "loss": 0.7079,
      "step": 11397
    },
    {
      "epoch": 0.6997145400411308,
      "grad_norm": 1.0070343170504281,
      "learning_rate": 4.367659991274694e-06,
      "loss": 0.7812,
      "step": 11398
    },
    {
      "epoch": 0.6997759292795973,
      "grad_norm": 1.0024109594076576,
      "learning_rate": 4.366017134289027e-06,
      "loss": 0.788,
      "step": 11399
    },
    {
      "epoch": 0.6998373185180637,
      "grad_norm": 0.910673611173405,
      "learning_rate": 4.36437450004483e-06,
      "loss": 0.8104,
      "step": 11400
    },
    {
      "epoch": 0.6998987077565303,
      "grad_norm": 1.0350233433033347,
      "learning_rate": 4.362732088607059e-06,
      "loss": 0.802,
      "step": 11401
    },
    {
      "epoch": 0.6999600969949967,
      "grad_norm": 0.8383734866459748,
      "learning_rate": 4.3610899000406346e-06,
      "loss": 0.7342,
      "step": 11402
    },
    {
      "epoch": 0.7000214862334633,
      "grad_norm": 0.9218142998676824,
      "learning_rate": 4.359447934410481e-06,
      "loss": 0.7564,
      "step": 11403
    },
    {
      "epoch": 0.7000828754719298,
      "grad_norm": 0.979006375018057,
      "learning_rate": 4.3578061917815236e-06,
      "loss": 0.7497,
      "step": 11404
    },
    {
      "epoch": 0.7001442647103963,
      "grad_norm": 0.9258275688977534,
      "learning_rate": 4.356164672218664e-06,
      "loss": 0.767,
      "step": 11405
    },
    {
      "epoch": 0.7002056539488628,
      "grad_norm": 0.9458560085803329,
      "learning_rate": 4.354523375786802e-06,
      "loss": 0.7642,
      "step": 11406
    },
    {
      "epoch": 0.7002670431873292,
      "grad_norm": 0.9817175757322147,
      "learning_rate": 4.352882302550819e-06,
      "loss": 0.7558,
      "step": 11407
    },
    {
      "epoch": 0.7003284324257958,
      "grad_norm": 0.9318533109614433,
      "learning_rate": 4.3512414525756054e-06,
      "loss": 0.7447,
      "step": 11408
    },
    {
      "epoch": 0.7003898216642622,
      "grad_norm": 0.993256744427205,
      "learning_rate": 4.349600825926028e-06,
      "loss": 0.7744,
      "step": 11409
    },
    {
      "epoch": 0.7004512109027288,
      "grad_norm": 0.9153956961565531,
      "learning_rate": 4.3479604226669515e-06,
      "loss": 0.7532,
      "step": 11410
    },
    {
      "epoch": 0.7005126001411952,
      "grad_norm": 0.980091315879348,
      "learning_rate": 4.346320242863228e-06,
      "loss": 0.8212,
      "step": 11411
    },
    {
      "epoch": 0.7005739893796618,
      "grad_norm": 1.0449896197931177,
      "learning_rate": 4.344680286579703e-06,
      "loss": 0.7475,
      "step": 11412
    },
    {
      "epoch": 0.7006353786181282,
      "grad_norm": 0.9834682032693521,
      "learning_rate": 4.343040553881214e-06,
      "loss": 0.7755,
      "step": 11413
    },
    {
      "epoch": 0.7006967678565947,
      "grad_norm": 0.8780321160372061,
      "learning_rate": 4.341401044832583e-06,
      "loss": 0.7357,
      "step": 11414
    },
    {
      "epoch": 0.7007581570950613,
      "grad_norm": 0.9525277961579335,
      "learning_rate": 4.3397617594986375e-06,
      "loss": 0.7818,
      "step": 11415
    },
    {
      "epoch": 0.7008195463335277,
      "grad_norm": 0.913452760758621,
      "learning_rate": 4.338122697944185e-06,
      "loss": 0.7414,
      "step": 11416
    },
    {
      "epoch": 0.7008809355719943,
      "grad_norm": 0.9837267053467443,
      "learning_rate": 4.336483860234022e-06,
      "loss": 0.7467,
      "step": 11417
    },
    {
      "epoch": 0.7009423248104607,
      "grad_norm": 0.9101427028557108,
      "learning_rate": 4.3348452464329384e-06,
      "loss": 0.7838,
      "step": 11418
    },
    {
      "epoch": 0.7010037140489273,
      "grad_norm": 0.975118868875215,
      "learning_rate": 4.333206856605725e-06,
      "loss": 0.7811,
      "step": 11419
    },
    {
      "epoch": 0.7010651032873937,
      "grad_norm": 0.904456875261362,
      "learning_rate": 4.331568690817153e-06,
      "loss": 0.7873,
      "step": 11420
    },
    {
      "epoch": 0.7011264925258602,
      "grad_norm": 0.9204969071762178,
      "learning_rate": 4.329930749131987e-06,
      "loss": 0.7583,
      "step": 11421
    },
    {
      "epoch": 0.7011878817643267,
      "grad_norm": 0.8402955243823221,
      "learning_rate": 4.328293031614984e-06,
      "loss": 0.7282,
      "step": 11422
    },
    {
      "epoch": 0.7012492710027932,
      "grad_norm": 0.9788199252197608,
      "learning_rate": 4.3266555383308924e-06,
      "loss": 0.8247,
      "step": 11423
    },
    {
      "epoch": 0.7013106602412597,
      "grad_norm": 0.8788168824648247,
      "learning_rate": 4.325018269344451e-06,
      "loss": 0.701,
      "step": 11424
    },
    {
      "epoch": 0.7013720494797262,
      "grad_norm": 0.9432182415340217,
      "learning_rate": 4.323381224720384e-06,
      "loss": 0.7946,
      "step": 11425
    },
    {
      "epoch": 0.7014334387181927,
      "grad_norm": 0.9093322990838538,
      "learning_rate": 4.321744404523427e-06,
      "loss": 0.747,
      "step": 11426
    },
    {
      "epoch": 0.7014948279566592,
      "grad_norm": 0.9815108029309138,
      "learning_rate": 4.3201078088182795e-06,
      "loss": 0.7643,
      "step": 11427
    },
    {
      "epoch": 0.7015562171951257,
      "grad_norm": 0.8975636457253133,
      "learning_rate": 4.318471437669644e-06,
      "loss": 0.7799,
      "step": 11428
    },
    {
      "epoch": 0.7016176064335922,
      "grad_norm": 0.9623023746264527,
      "learning_rate": 4.316835291142223e-06,
      "loss": 0.771,
      "step": 11429
    },
    {
      "epoch": 0.7016789956720587,
      "grad_norm": 1.0072111586858574,
      "learning_rate": 4.315199369300699e-06,
      "loss": 0.7487,
      "step": 11430
    },
    {
      "epoch": 0.7017403849105252,
      "grad_norm": 0.949356649636456,
      "learning_rate": 4.313563672209753e-06,
      "loss": 0.7858,
      "step": 11431
    },
    {
      "epoch": 0.7018017741489917,
      "grad_norm": 0.9635842169021791,
      "learning_rate": 4.311928199934039e-06,
      "loss": 0.8144,
      "step": 11432
    },
    {
      "epoch": 0.7018631633874581,
      "grad_norm": 0.9875076531822748,
      "learning_rate": 4.310292952538231e-06,
      "loss": 0.7712,
      "step": 11433
    },
    {
      "epoch": 0.7019245526259247,
      "grad_norm": 0.9277155408054129,
      "learning_rate": 4.308657930086971e-06,
      "loss": 0.8126,
      "step": 11434
    },
    {
      "epoch": 0.7019859418643912,
      "grad_norm": 0.8222398529057408,
      "learning_rate": 4.307023132644904e-06,
      "loss": 0.7416,
      "step": 11435
    },
    {
      "epoch": 0.7020473311028577,
      "grad_norm": 0.9542288934067158,
      "learning_rate": 4.305388560276661e-06,
      "loss": 0.7629,
      "step": 11436
    },
    {
      "epoch": 0.7021087203413242,
      "grad_norm": 1.1000716356529656,
      "learning_rate": 4.303754213046865e-06,
      "loss": 0.783,
      "step": 11437
    },
    {
      "epoch": 0.7021701095797906,
      "grad_norm": 0.9916550464352026,
      "learning_rate": 4.302120091020129e-06,
      "loss": 0.7847,
      "step": 11438
    },
    {
      "epoch": 0.7022314988182572,
      "grad_norm": 0.9453559066933902,
      "learning_rate": 4.3004861942610575e-06,
      "loss": 0.7524,
      "step": 11439
    },
    {
      "epoch": 0.7022928880567236,
      "grad_norm": 0.9693220491523615,
      "learning_rate": 4.298852522834254e-06,
      "loss": 0.7746,
      "step": 11440
    },
    {
      "epoch": 0.7023542772951902,
      "grad_norm": 0.9496092191670008,
      "learning_rate": 4.2972190768043055e-06,
      "loss": 0.7633,
      "step": 11441
    },
    {
      "epoch": 0.7024156665336566,
      "grad_norm": 0.9810309090549703,
      "learning_rate": 4.29558585623578e-06,
      "loss": 0.7656,
      "step": 11442
    },
    {
      "epoch": 0.7024770557721232,
      "grad_norm": 0.9164181798020258,
      "learning_rate": 4.293952861193259e-06,
      "loss": 0.8,
      "step": 11443
    },
    {
      "epoch": 0.7025384450105896,
      "grad_norm": 0.9679222923928353,
      "learning_rate": 4.2923200917413e-06,
      "loss": 0.7658,
      "step": 11444
    },
    {
      "epoch": 0.7025998342490561,
      "grad_norm": 0.9662683099431483,
      "learning_rate": 4.290687547944453e-06,
      "loss": 0.7822,
      "step": 11445
    },
    {
      "epoch": 0.7026612234875227,
      "grad_norm": 0.9422422569925802,
      "learning_rate": 4.289055229867264e-06,
      "loss": 0.7605,
      "step": 11446
    },
    {
      "epoch": 0.7027226127259891,
      "grad_norm": 0.8026244190286854,
      "learning_rate": 4.287423137574266e-06,
      "loss": 0.7654,
      "step": 11447
    },
    {
      "epoch": 0.7027840019644557,
      "grad_norm": 0.9018131206491847,
      "learning_rate": 4.285791271129984e-06,
      "loss": 0.8067,
      "step": 11448
    },
    {
      "epoch": 0.7028453912029221,
      "grad_norm": 0.958166797994078,
      "learning_rate": 4.284159630598935e-06,
      "loss": 0.7976,
      "step": 11449
    },
    {
      "epoch": 0.7029067804413887,
      "grad_norm": 0.8659484274827056,
      "learning_rate": 4.282528216045623e-06,
      "loss": 0.7443,
      "step": 11450
    },
    {
      "epoch": 0.7029681696798551,
      "grad_norm": 0.9903337297098812,
      "learning_rate": 4.280897027534556e-06,
      "loss": 0.7486,
      "step": 11451
    },
    {
      "epoch": 0.7030295589183216,
      "grad_norm": 0.9435566147378367,
      "learning_rate": 4.279266065130214e-06,
      "loss": 0.7466,
      "step": 11452
    },
    {
      "epoch": 0.7030909481567881,
      "grad_norm": 0.8695428674707497,
      "learning_rate": 4.277635328897079e-06,
      "loss": 0.6923,
      "step": 11453
    },
    {
      "epoch": 0.7031523373952546,
      "grad_norm": 0.9360038573237031,
      "learning_rate": 4.276004818899626e-06,
      "loss": 0.7789,
      "step": 11454
    },
    {
      "epoch": 0.7032137266337211,
      "grad_norm": 1.0320781690181322,
      "learning_rate": 4.274374535202321e-06,
      "loss": 0.7875,
      "step": 11455
    },
    {
      "epoch": 0.7032751158721876,
      "grad_norm": 0.8563002777868336,
      "learning_rate": 4.2727444778696115e-06,
      "loss": 0.7442,
      "step": 11456
    },
    {
      "epoch": 0.7033365051106542,
      "grad_norm": 0.9046730095626921,
      "learning_rate": 4.271114646965939e-06,
      "loss": 0.7372,
      "step": 11457
    },
    {
      "epoch": 0.7033978943491206,
      "grad_norm": 0.903378236670203,
      "learning_rate": 4.269485042555749e-06,
      "loss": 0.8111,
      "step": 11458
    },
    {
      "epoch": 0.7034592835875871,
      "grad_norm": 0.8558803578343508,
      "learning_rate": 4.267855664703464e-06,
      "loss": 0.7702,
      "step": 11459
    },
    {
      "epoch": 0.7035206728260536,
      "grad_norm": 1.056828677951525,
      "learning_rate": 4.266226513473502e-06,
      "loss": 0.7873,
      "step": 11460
    },
    {
      "epoch": 0.7035820620645201,
      "grad_norm": 1.0115101179250818,
      "learning_rate": 4.2645975889302725e-06,
      "loss": 0.7726,
      "step": 11461
    },
    {
      "epoch": 0.7036434513029866,
      "grad_norm": 0.8677630833856926,
      "learning_rate": 4.262968891138176e-06,
      "loss": 0.7903,
      "step": 11462
    },
    {
      "epoch": 0.7037048405414531,
      "grad_norm": 0.9744127668158806,
      "learning_rate": 4.261340420161603e-06,
      "loss": 0.7605,
      "step": 11463
    },
    {
      "epoch": 0.7037662297799195,
      "grad_norm": 0.9997676718645981,
      "learning_rate": 4.25971217606493e-06,
      "loss": 0.7837,
      "step": 11464
    },
    {
      "epoch": 0.7038276190183861,
      "grad_norm": 1.0988640648214107,
      "learning_rate": 4.258084158912545e-06,
      "loss": 0.7953,
      "step": 11465
    },
    {
      "epoch": 0.7038890082568525,
      "grad_norm": 0.8754626175989321,
      "learning_rate": 4.2564563687688e-06,
      "loss": 0.7967,
      "step": 11466
    },
    {
      "epoch": 0.7039503974953191,
      "grad_norm": 0.9988713740917164,
      "learning_rate": 4.254828805698049e-06,
      "loss": 0.7504,
      "step": 11467
    },
    {
      "epoch": 0.7040117867337856,
      "grad_norm": 0.8659186400722161,
      "learning_rate": 4.253201469764646e-06,
      "loss": 0.7571,
      "step": 11468
    },
    {
      "epoch": 0.704073175972252,
      "grad_norm": 0.9763918315298822,
      "learning_rate": 4.251574361032926e-06,
      "loss": 0.8151,
      "step": 11469
    },
    {
      "epoch": 0.7041345652107186,
      "grad_norm": 0.9361718667685612,
      "learning_rate": 4.249947479567218e-06,
      "loss": 0.7182,
      "step": 11470
    },
    {
      "epoch": 0.704195954449185,
      "grad_norm": 0.9512847364451761,
      "learning_rate": 4.2483208254318344e-06,
      "loss": 0.7801,
      "step": 11471
    },
    {
      "epoch": 0.7042573436876516,
      "grad_norm": 0.9063317022126748,
      "learning_rate": 4.246694398691092e-06,
      "loss": 0.7585,
      "step": 11472
    },
    {
      "epoch": 0.704318732926118,
      "grad_norm": 0.9450804388951634,
      "learning_rate": 4.245068199409292e-06,
      "loss": 0.7624,
      "step": 11473
    },
    {
      "epoch": 0.7043801221645846,
      "grad_norm": 0.9061162256586485,
      "learning_rate": 4.243442227650727e-06,
      "loss": 0.772,
      "step": 11474
    },
    {
      "epoch": 0.704441511403051,
      "grad_norm": 1.0248851768542906,
      "learning_rate": 4.241816483479677e-06,
      "loss": 0.7497,
      "step": 11475
    },
    {
      "epoch": 0.7045029006415175,
      "grad_norm": 0.9922679498179185,
      "learning_rate": 4.2401909669604194e-06,
      "loss": 0.7766,
      "step": 11476
    },
    {
      "epoch": 0.704564289879984,
      "grad_norm": 0.9106124953019317,
      "learning_rate": 4.238565678157218e-06,
      "loss": 0.7522,
      "step": 11477
    },
    {
      "epoch": 0.7046256791184505,
      "grad_norm": 0.8792758526851666,
      "learning_rate": 4.236940617134326e-06,
      "loss": 0.7598,
      "step": 11478
    },
    {
      "epoch": 0.7046870683569171,
      "grad_norm": 1.1101670729201738,
      "learning_rate": 4.235315783955999e-06,
      "loss": 0.7621,
      "step": 11479
    },
    {
      "epoch": 0.7047484575953835,
      "grad_norm": 0.9288751734401987,
      "learning_rate": 4.233691178686473e-06,
      "loss": 0.8311,
      "step": 11480
    },
    {
      "epoch": 0.7048098468338501,
      "grad_norm": 0.9814226632830811,
      "learning_rate": 4.232066801389969e-06,
      "loss": 0.7204,
      "step": 11481
    },
    {
      "epoch": 0.7048712360723165,
      "grad_norm": 0.966478908475791,
      "learning_rate": 4.230442652130716e-06,
      "loss": 0.7845,
      "step": 11482
    },
    {
      "epoch": 0.704932625310783,
      "grad_norm": 1.0111043012579477,
      "learning_rate": 4.228818730972923e-06,
      "loss": 0.7947,
      "step": 11483
    },
    {
      "epoch": 0.7049940145492495,
      "grad_norm": 0.912668185173449,
      "learning_rate": 4.2271950379807935e-06,
      "loss": 0.7691,
      "step": 11484
    },
    {
      "epoch": 0.705055403787716,
      "grad_norm": 0.870232135128604,
      "learning_rate": 4.2255715732185175e-06,
      "loss": 0.7636,
      "step": 11485
    },
    {
      "epoch": 0.7051167930261825,
      "grad_norm": 0.8758201094421554,
      "learning_rate": 4.223948336750282e-06,
      "loss": 0.778,
      "step": 11486
    },
    {
      "epoch": 0.705178182264649,
      "grad_norm": 0.8878849163803155,
      "learning_rate": 4.222325328640261e-06,
      "loss": 0.7546,
      "step": 11487
    },
    {
      "epoch": 0.7052395715031156,
      "grad_norm": 0.9022545245405426,
      "learning_rate": 4.22070254895262e-06,
      "loss": 0.7419,
      "step": 11488
    },
    {
      "epoch": 0.705300960741582,
      "grad_norm": 0.9278872006377725,
      "learning_rate": 4.219079997751515e-06,
      "loss": 0.7801,
      "step": 11489
    },
    {
      "epoch": 0.7053623499800485,
      "grad_norm": 1.0139401435921047,
      "learning_rate": 4.2174576751011024e-06,
      "loss": 0.7575,
      "step": 11490
    },
    {
      "epoch": 0.705423739218515,
      "grad_norm": 1.051675638769908,
      "learning_rate": 4.215835581065512e-06,
      "loss": 0.7666,
      "step": 11491
    },
    {
      "epoch": 0.7054851284569815,
      "grad_norm": 0.8805017269503262,
      "learning_rate": 4.214213715708873e-06,
      "loss": 0.7371,
      "step": 11492
    },
    {
      "epoch": 0.705546517695448,
      "grad_norm": 0.8959053941707056,
      "learning_rate": 4.212592079095315e-06,
      "loss": 0.7286,
      "step": 11493
    },
    {
      "epoch": 0.7056079069339145,
      "grad_norm": 0.8723817653403522,
      "learning_rate": 4.210970671288943e-06,
      "loss": 0.7892,
      "step": 11494
    },
    {
      "epoch": 0.7056692961723809,
      "grad_norm": 0.9079299504152465,
      "learning_rate": 4.209349492353868e-06,
      "loss": 0.7683,
      "step": 11495
    },
    {
      "epoch": 0.7057306854108475,
      "grad_norm": 0.8739643823615366,
      "learning_rate": 4.207728542354171e-06,
      "loss": 0.7439,
      "step": 11496
    },
    {
      "epoch": 0.7057920746493139,
      "grad_norm": 1.01272764044804,
      "learning_rate": 4.206107821353946e-06,
      "loss": 0.7777,
      "step": 11497
    },
    {
      "epoch": 0.7058534638877805,
      "grad_norm": 1.0499859045228213,
      "learning_rate": 4.204487329417267e-06,
      "loss": 0.7864,
      "step": 11498
    },
    {
      "epoch": 0.705914853126247,
      "grad_norm": 0.938549853291334,
      "learning_rate": 4.202867066608202e-06,
      "loss": 0.733,
      "step": 11499
    },
    {
      "epoch": 0.7059762423647135,
      "grad_norm": 1.018952255793696,
      "learning_rate": 4.201247032990806e-06,
      "loss": 0.7546,
      "step": 11500
    },
    {
      "epoch": 0.70603763160318,
      "grad_norm": 0.9620273979857875,
      "learning_rate": 4.199627228629128e-06,
      "loss": 0.7146,
      "step": 11501
    },
    {
      "epoch": 0.7060990208416464,
      "grad_norm": 0.9911869518029554,
      "learning_rate": 4.19800765358721e-06,
      "loss": 0.7512,
      "step": 11502
    },
    {
      "epoch": 0.706160410080113,
      "grad_norm": 0.9020085615015558,
      "learning_rate": 4.196388307929076e-06,
      "loss": 0.7698,
      "step": 11503
    },
    {
      "epoch": 0.7062217993185794,
      "grad_norm": 0.9034135098074659,
      "learning_rate": 4.194769191718756e-06,
      "loss": 0.7516,
      "step": 11504
    },
    {
      "epoch": 0.706283188557046,
      "grad_norm": 0.9943416548378086,
      "learning_rate": 4.1931503050202614e-06,
      "loss": 0.7539,
      "step": 11505
    },
    {
      "epoch": 0.7063445777955124,
      "grad_norm": 1.0313526774853872,
      "learning_rate": 4.191531647897586e-06,
      "loss": 0.8364,
      "step": 11506
    },
    {
      "epoch": 0.706405967033979,
      "grad_norm": 0.9253495325757939,
      "learning_rate": 4.189913220414734e-06,
      "loss": 0.7415,
      "step": 11507
    },
    {
      "epoch": 0.7064673562724454,
      "grad_norm": 0.9179705313058601,
      "learning_rate": 4.1882950226356865e-06,
      "loss": 0.8042,
      "step": 11508
    },
    {
      "epoch": 0.7065287455109119,
      "grad_norm": 0.9804497190141165,
      "learning_rate": 4.186677054624421e-06,
      "loss": 0.7514,
      "step": 11509
    },
    {
      "epoch": 0.7065901347493785,
      "grad_norm": 0.8847163209960123,
      "learning_rate": 4.185059316444902e-06,
      "loss": 0.7152,
      "step": 11510
    },
    {
      "epoch": 0.7066515239878449,
      "grad_norm": 1.051616638147833,
      "learning_rate": 4.183441808161088e-06,
      "loss": 0.7855,
      "step": 11511
    },
    {
      "epoch": 0.7067129132263115,
      "grad_norm": 0.9643493198298484,
      "learning_rate": 4.181824529836931e-06,
      "loss": 0.7388,
      "step": 11512
    },
    {
      "epoch": 0.7067743024647779,
      "grad_norm": 0.9675102244102571,
      "learning_rate": 4.1802074815363656e-06,
      "loss": 0.8021,
      "step": 11513
    },
    {
      "epoch": 0.7068356917032445,
      "grad_norm": 0.9407981639038868,
      "learning_rate": 4.178590663323323e-06,
      "loss": 0.7249,
      "step": 11514
    },
    {
      "epoch": 0.7068970809417109,
      "grad_norm": 1.0236475613042901,
      "learning_rate": 4.176974075261734e-06,
      "loss": 0.7953,
      "step": 11515
    },
    {
      "epoch": 0.7069584701801774,
      "grad_norm": 1.053560185062511,
      "learning_rate": 4.175357717415499e-06,
      "loss": 0.7798,
      "step": 11516
    },
    {
      "epoch": 0.7070198594186439,
      "grad_norm": 0.988255358245965,
      "learning_rate": 4.173741589848522e-06,
      "loss": 0.8043,
      "step": 11517
    },
    {
      "epoch": 0.7070812486571104,
      "grad_norm": 0.866285326767108,
      "learning_rate": 4.1721256926247044e-06,
      "loss": 0.7743,
      "step": 11518
    },
    {
      "epoch": 0.7071426378955769,
      "grad_norm": 0.8435220022574721,
      "learning_rate": 4.170510025807933e-06,
      "loss": 0.7856,
      "step": 11519
    },
    {
      "epoch": 0.7072040271340434,
      "grad_norm": 0.9401211613160589,
      "learning_rate": 4.168894589462073e-06,
      "loss": 0.8,
      "step": 11520
    },
    {
      "epoch": 0.70726541637251,
      "grad_norm": 0.9562820087966827,
      "learning_rate": 4.167279383650995e-06,
      "loss": 0.7274,
      "step": 11521
    },
    {
      "epoch": 0.7073268056109764,
      "grad_norm": 0.9936286048147174,
      "learning_rate": 4.165664408438561e-06,
      "loss": 0.7956,
      "step": 11522
    },
    {
      "epoch": 0.7073881948494429,
      "grad_norm": 0.8221275806321706,
      "learning_rate": 4.164049663888618e-06,
      "loss": 0.7156,
      "step": 11523
    },
    {
      "epoch": 0.7074495840879094,
      "grad_norm": 1.0872364813018354,
      "learning_rate": 4.162435150065004e-06,
      "loss": 0.7581,
      "step": 11524
    },
    {
      "epoch": 0.7075109733263759,
      "grad_norm": 0.9376502332921339,
      "learning_rate": 4.16082086703155e-06,
      "loss": 0.7863,
      "step": 11525
    },
    {
      "epoch": 0.7075723625648423,
      "grad_norm": 1.015168920330118,
      "learning_rate": 4.159206814852077e-06,
      "loss": 0.7599,
      "step": 11526
    },
    {
      "epoch": 0.7076337518033089,
      "grad_norm": 0.9005574298855836,
      "learning_rate": 4.157592993590398e-06,
      "loss": 0.7869,
      "step": 11527
    },
    {
      "epoch": 0.7076951410417753,
      "grad_norm": 1.004504159519476,
      "learning_rate": 4.155979403310312e-06,
      "loss": 0.7864,
      "step": 11528
    },
    {
      "epoch": 0.7077565302802419,
      "grad_norm": 0.946852957438874,
      "learning_rate": 4.154366044075623e-06,
      "loss": 0.7651,
      "step": 11529
    },
    {
      "epoch": 0.7078179195187083,
      "grad_norm": 0.9564625467384034,
      "learning_rate": 4.152752915950105e-06,
      "loss": 0.768,
      "step": 11530
    },
    {
      "epoch": 0.7078793087571749,
      "grad_norm": 1.037476135555618,
      "learning_rate": 4.151140018997534e-06,
      "loss": 0.7625,
      "step": 11531
    },
    {
      "epoch": 0.7079406979956414,
      "grad_norm": 1.0069337024454539,
      "learning_rate": 4.149527353281684e-06,
      "loss": 0.815,
      "step": 11532
    },
    {
      "epoch": 0.7080020872341078,
      "grad_norm": 0.9483678004189774,
      "learning_rate": 4.147914918866308e-06,
      "loss": 0.7375,
      "step": 11533
    },
    {
      "epoch": 0.7080634764725744,
      "grad_norm": 0.9794686196186895,
      "learning_rate": 4.1463027158151585e-06,
      "loss": 0.7639,
      "step": 11534
    },
    {
      "epoch": 0.7081248657110408,
      "grad_norm": 0.9374341652121142,
      "learning_rate": 4.144690744191961e-06,
      "loss": 0.7663,
      "step": 11535
    },
    {
      "epoch": 0.7081862549495074,
      "grad_norm": 0.9912460448034478,
      "learning_rate": 4.143079004060461e-06,
      "loss": 0.7613,
      "step": 11536
    },
    {
      "epoch": 0.7082476441879738,
      "grad_norm": 0.9159123567277054,
      "learning_rate": 4.141467495484371e-06,
      "loss": 0.7521,
      "step": 11537
    },
    {
      "epoch": 0.7083090334264404,
      "grad_norm": 1.044839112493545,
      "learning_rate": 4.139856218527406e-06,
      "loss": 0.8136,
      "step": 11538
    },
    {
      "epoch": 0.7083704226649068,
      "grad_norm": 0.850834099792928,
      "learning_rate": 4.138245173253267e-06,
      "loss": 0.8055,
      "step": 11539
    },
    {
      "epoch": 0.7084318119033733,
      "grad_norm": 0.9775136806863388,
      "learning_rate": 4.1366343597256465e-06,
      "loss": 0.7466,
      "step": 11540
    },
    {
      "epoch": 0.7084932011418399,
      "grad_norm": 0.8439406341366799,
      "learning_rate": 4.135023778008229e-06,
      "loss": 0.7805,
      "step": 11541
    },
    {
      "epoch": 0.7085545903803063,
      "grad_norm": 0.9479544421873534,
      "learning_rate": 4.133413428164688e-06,
      "loss": 0.7264,
      "step": 11542
    },
    {
      "epoch": 0.7086159796187729,
      "grad_norm": 0.9581026267374946,
      "learning_rate": 4.131803310258692e-06,
      "loss": 0.7864,
      "step": 11543
    },
    {
      "epoch": 0.7086773688572393,
      "grad_norm": 0.7970697731028047,
      "learning_rate": 4.130193424353901e-06,
      "loss": 0.7144,
      "step": 11544
    },
    {
      "epoch": 0.7087387580957059,
      "grad_norm": 0.9899356987178651,
      "learning_rate": 4.128583770513951e-06,
      "loss": 0.7626,
      "step": 11545
    },
    {
      "epoch": 0.7088001473341723,
      "grad_norm": 0.8184435431489842,
      "learning_rate": 4.12697434880249e-06,
      "loss": 0.7504,
      "step": 11546
    },
    {
      "epoch": 0.7088615365726388,
      "grad_norm": 0.9046884172643921,
      "learning_rate": 4.125365159283144e-06,
      "loss": 0.7657,
      "step": 11547
    },
    {
      "epoch": 0.7089229258111053,
      "grad_norm": 0.8844262485923746,
      "learning_rate": 4.123756202019535e-06,
      "loss": 0.7661,
      "step": 11548
    },
    {
      "epoch": 0.7089843150495718,
      "grad_norm": 0.973713936944147,
      "learning_rate": 4.12214747707527e-06,
      "loss": 0.7738,
      "step": 11549
    },
    {
      "epoch": 0.7090457042880383,
      "grad_norm": 0.9188325081479628,
      "learning_rate": 4.120538984513952e-06,
      "loss": 0.7657,
      "step": 11550
    },
    {
      "epoch": 0.7091070935265048,
      "grad_norm": 0.9456963030087302,
      "learning_rate": 4.118930724399174e-06,
      "loss": 0.7647,
      "step": 11551
    },
    {
      "epoch": 0.7091684827649714,
      "grad_norm": 0.9829241629505341,
      "learning_rate": 4.117322696794519e-06,
      "loss": 0.7919,
      "step": 11552
    },
    {
      "epoch": 0.7092298720034378,
      "grad_norm": 0.8674086797459107,
      "learning_rate": 4.115714901763557e-06,
      "loss": 0.7531,
      "step": 11553
    },
    {
      "epoch": 0.7092912612419043,
      "grad_norm": 0.8888938102218492,
      "learning_rate": 4.114107339369863e-06,
      "loss": 0.7254,
      "step": 11554
    },
    {
      "epoch": 0.7093526504803708,
      "grad_norm": 0.9904425185943967,
      "learning_rate": 4.112500009676982e-06,
      "loss": 0.8437,
      "step": 11555
    },
    {
      "epoch": 0.7094140397188373,
      "grad_norm": 0.9649547790259051,
      "learning_rate": 4.110892912748461e-06,
      "loss": 0.7859,
      "step": 11556
    },
    {
      "epoch": 0.7094754289573038,
      "grad_norm": 0.9169873931524647,
      "learning_rate": 4.109286048647844e-06,
      "loss": 0.7278,
      "step": 11557
    },
    {
      "epoch": 0.7095368181957703,
      "grad_norm": 0.8372834748889689,
      "learning_rate": 4.1076794174386545e-06,
      "loss": 0.7399,
      "step": 11558
    },
    {
      "epoch": 0.7095982074342367,
      "grad_norm": 0.8718195370677679,
      "learning_rate": 4.106073019184415e-06,
      "loss": 0.7235,
      "step": 11559
    },
    {
      "epoch": 0.7096595966727033,
      "grad_norm": 0.9578316237243077,
      "learning_rate": 4.104466853948626e-06,
      "loss": 0.7731,
      "step": 11560
    },
    {
      "epoch": 0.7097209859111697,
      "grad_norm": 0.9803586591971898,
      "learning_rate": 4.102860921794798e-06,
      "loss": 0.8041,
      "step": 11561
    },
    {
      "epoch": 0.7097823751496363,
      "grad_norm": 1.022968103310319,
      "learning_rate": 4.101255222786418e-06,
      "loss": 0.82,
      "step": 11562
    },
    {
      "epoch": 0.7098437643881028,
      "grad_norm": 0.9013000684020859,
      "learning_rate": 4.099649756986966e-06,
      "loss": 0.7101,
      "step": 11563
    },
    {
      "epoch": 0.7099051536265693,
      "grad_norm": 0.9841147469639786,
      "learning_rate": 4.0980445244599174e-06,
      "loss": 0.7993,
      "step": 11564
    },
    {
      "epoch": 0.7099665428650358,
      "grad_norm": 0.9634434397879289,
      "learning_rate": 4.096439525268735e-06,
      "loss": 0.792,
      "step": 11565
    },
    {
      "epoch": 0.7100279321035022,
      "grad_norm": 0.9323827164497621,
      "learning_rate": 4.0948347594768725e-06,
      "loss": 0.7977,
      "step": 11566
    },
    {
      "epoch": 0.7100893213419688,
      "grad_norm": 0.85249279449012,
      "learning_rate": 4.0932302271477705e-06,
      "loss": 0.7683,
      "step": 11567
    },
    {
      "epoch": 0.7101507105804352,
      "grad_norm": 0.8911549880395292,
      "learning_rate": 4.091625928344874e-06,
      "loss": 0.742,
      "step": 11568
    },
    {
      "epoch": 0.7102120998189018,
      "grad_norm": 0.9571263786827542,
      "learning_rate": 4.090021863131608e-06,
      "loss": 0.7372,
      "step": 11569
    },
    {
      "epoch": 0.7102734890573682,
      "grad_norm": 0.9244636708502803,
      "learning_rate": 4.088418031571378e-06,
      "loss": 0.7154,
      "step": 11570
    },
    {
      "epoch": 0.7103348782958347,
      "grad_norm": 1.0127306651053325,
      "learning_rate": 4.086814433727606e-06,
      "loss": 0.7948,
      "step": 11571
    },
    {
      "epoch": 0.7103962675343012,
      "grad_norm": 0.8906908989807537,
      "learning_rate": 4.085211069663685e-06,
      "loss": 0.795,
      "step": 11572
    },
    {
      "epoch": 0.7104576567727677,
      "grad_norm": 0.8601577208474949,
      "learning_rate": 4.083607939443004e-06,
      "loss": 0.7657,
      "step": 11573
    },
    {
      "epoch": 0.7105190460112343,
      "grad_norm": 0.9231584155884464,
      "learning_rate": 4.0820050431289445e-06,
      "loss": 0.7377,
      "step": 11574
    },
    {
      "epoch": 0.7105804352497007,
      "grad_norm": 0.9725640221995244,
      "learning_rate": 4.080402380784878e-06,
      "loss": 0.8179,
      "step": 11575
    },
    {
      "epoch": 0.7106418244881673,
      "grad_norm": 0.9337341895771009,
      "learning_rate": 4.078799952474165e-06,
      "loss": 0.7708,
      "step": 11576
    },
    {
      "epoch": 0.7107032137266337,
      "grad_norm": 0.9414664533041877,
      "learning_rate": 4.07719775826016e-06,
      "loss": 0.7636,
      "step": 11577
    },
    {
      "epoch": 0.7107646029651002,
      "grad_norm": 0.8436319985196572,
      "learning_rate": 4.0755957982062e-06,
      "loss": 0.7227,
      "step": 11578
    },
    {
      "epoch": 0.7108259922035667,
      "grad_norm": 0.9579007528300981,
      "learning_rate": 4.073994072375631e-06,
      "loss": 0.7281,
      "step": 11579
    },
    {
      "epoch": 0.7108873814420332,
      "grad_norm": 0.9958526662532383,
      "learning_rate": 4.0723925808317685e-06,
      "loss": 0.7459,
      "step": 11580
    },
    {
      "epoch": 0.7109487706804997,
      "grad_norm": 0.9835982768334209,
      "learning_rate": 4.070791323637926e-06,
      "loss": 0.7467,
      "step": 11581
    },
    {
      "epoch": 0.7110101599189662,
      "grad_norm": 0.769078120714667,
      "learning_rate": 4.0691903008574175e-06,
      "loss": 0.7336,
      "step": 11582
    },
    {
      "epoch": 0.7110715491574326,
      "grad_norm": 0.9084601002777213,
      "learning_rate": 4.06758951255354e-06,
      "loss": 0.7868,
      "step": 11583
    },
    {
      "epoch": 0.7111329383958992,
      "grad_norm": 1.0495191386613065,
      "learning_rate": 4.065988958789572e-06,
      "loss": 0.7737,
      "step": 11584
    },
    {
      "epoch": 0.7111943276343657,
      "grad_norm": 0.8135995274350049,
      "learning_rate": 4.0643886396288e-06,
      "loss": 0.8099,
      "step": 11585
    },
    {
      "epoch": 0.7112557168728322,
      "grad_norm": 0.9299280569582025,
      "learning_rate": 4.0627885551344914e-06,
      "loss": 0.7439,
      "step": 11586
    },
    {
      "epoch": 0.7113171061112987,
      "grad_norm": 0.9508639533539767,
      "learning_rate": 4.061188705369906e-06,
      "loss": 0.749,
      "step": 11587
    },
    {
      "epoch": 0.7113784953497652,
      "grad_norm": 1.0009469189706686,
      "learning_rate": 4.059589090398294e-06,
      "loss": 0.7886,
      "step": 11588
    },
    {
      "epoch": 0.7114398845882317,
      "grad_norm": 0.9679831940514964,
      "learning_rate": 4.057989710282897e-06,
      "loss": 0.7186,
      "step": 11589
    },
    {
      "epoch": 0.7115012738266981,
      "grad_norm": 0.9171042651293814,
      "learning_rate": 4.0563905650869465e-06,
      "loss": 0.729,
      "step": 11590
    },
    {
      "epoch": 0.7115626630651647,
      "grad_norm": 0.9001476087029545,
      "learning_rate": 4.0547916548736655e-06,
      "loss": 0.7395,
      "step": 11591
    },
    {
      "epoch": 0.7116240523036311,
      "grad_norm": 0.960393189631561,
      "learning_rate": 4.053192979706264e-06,
      "loss": 0.7481,
      "step": 11592
    },
    {
      "epoch": 0.7116854415420977,
      "grad_norm": 0.9900579503862532,
      "learning_rate": 4.051594539647956e-06,
      "loss": 0.7895,
      "step": 11593
    },
    {
      "epoch": 0.7117468307805642,
      "grad_norm": 0.9208348690158626,
      "learning_rate": 4.049996334761929e-06,
      "loss": 0.7712,
      "step": 11594
    },
    {
      "epoch": 0.7118082200190307,
      "grad_norm": 1.0353412521380978,
      "learning_rate": 4.048398365111364e-06,
      "loss": 0.7965,
      "step": 11595
    },
    {
      "epoch": 0.7118696092574972,
      "grad_norm": 1.0970547415391143,
      "learning_rate": 4.046800630759448e-06,
      "loss": 0.7561,
      "step": 11596
    },
    {
      "epoch": 0.7119309984959636,
      "grad_norm": 1.0149699163318877,
      "learning_rate": 4.045203131769342e-06,
      "loss": 0.7996,
      "step": 11597
    },
    {
      "epoch": 0.7119923877344302,
      "grad_norm": 0.9869360818322197,
      "learning_rate": 4.043605868204208e-06,
      "loss": 0.7344,
      "step": 11598
    },
    {
      "epoch": 0.7120537769728966,
      "grad_norm": 1.0135113001290947,
      "learning_rate": 4.042008840127185e-06,
      "loss": 0.7301,
      "step": 11599
    },
    {
      "epoch": 0.7121151662113632,
      "grad_norm": 0.9495732179020198,
      "learning_rate": 4.040412047601421e-06,
      "loss": 0.7738,
      "step": 11600
    },
    {
      "epoch": 0.7121765554498296,
      "grad_norm": 1.019053839432877,
      "learning_rate": 4.038815490690043e-06,
      "loss": 0.7317,
      "step": 11601
    },
    {
      "epoch": 0.7122379446882962,
      "grad_norm": 0.5744972554134612,
      "learning_rate": 4.037219169456171e-06,
      "loss": 0.6286,
      "step": 11602
    },
    {
      "epoch": 0.7122993339267626,
      "grad_norm": 1.0481481682501632,
      "learning_rate": 4.035623083962917e-06,
      "loss": 0.7745,
      "step": 11603
    },
    {
      "epoch": 0.7123607231652291,
      "grad_norm": 0.9762241716067794,
      "learning_rate": 4.0340272342733834e-06,
      "loss": 0.7832,
      "step": 11604
    },
    {
      "epoch": 0.7124221124036957,
      "grad_norm": 1.0038891678389632,
      "learning_rate": 4.03243162045066e-06,
      "loss": 0.7776,
      "step": 11605
    },
    {
      "epoch": 0.7124835016421621,
      "grad_norm": 0.9450511717573443,
      "learning_rate": 4.0308362425578275e-06,
      "loss": 0.7956,
      "step": 11606
    },
    {
      "epoch": 0.7125448908806287,
      "grad_norm": 0.9078554416272822,
      "learning_rate": 4.029241100657968e-06,
      "loss": 0.8052,
      "step": 11607
    },
    {
      "epoch": 0.7126062801190951,
      "grad_norm": 0.9492679291110135,
      "learning_rate": 4.027646194814145e-06,
      "loss": 0.7671,
      "step": 11608
    },
    {
      "epoch": 0.7126676693575617,
      "grad_norm": 0.9610893407292093,
      "learning_rate": 4.026051525089403e-06,
      "loss": 0.7949,
      "step": 11609
    },
    {
      "epoch": 0.7127290585960281,
      "grad_norm": 0.8907198111661664,
      "learning_rate": 4.024457091546799e-06,
      "loss": 0.7341,
      "step": 11610
    },
    {
      "epoch": 0.7127904478344946,
      "grad_norm": 0.8854340227662375,
      "learning_rate": 4.022862894249365e-06,
      "loss": 0.7534,
      "step": 11611
    },
    {
      "epoch": 0.7128518370729611,
      "grad_norm": 0.9021986275021863,
      "learning_rate": 4.0212689332601295e-06,
      "loss": 0.7942,
      "step": 11612
    },
    {
      "epoch": 0.7129132263114276,
      "grad_norm": 1.0689534297720578,
      "learning_rate": 4.01967520864211e-06,
      "loss": 0.8687,
      "step": 11613
    },
    {
      "epoch": 0.712974615549894,
      "grad_norm": 0.8769956989657548,
      "learning_rate": 4.018081720458314e-06,
      "loss": 0.7208,
      "step": 11614
    },
    {
      "epoch": 0.7130360047883606,
      "grad_norm": 0.9972215489899906,
      "learning_rate": 4.016488468771741e-06,
      "loss": 0.7818,
      "step": 11615
    },
    {
      "epoch": 0.7130973940268271,
      "grad_norm": 0.928672853185292,
      "learning_rate": 4.014895453645381e-06,
      "loss": 0.7599,
      "step": 11616
    },
    {
      "epoch": 0.7131587832652936,
      "grad_norm": 0.9298261096873587,
      "learning_rate": 4.01330267514221e-06,
      "loss": 0.75,
      "step": 11617
    },
    {
      "epoch": 0.7132201725037601,
      "grad_norm": 0.8757132090266699,
      "learning_rate": 4.011710133325212e-06,
      "loss": 0.7439,
      "step": 11618
    },
    {
      "epoch": 0.7132815617422266,
      "grad_norm": 1.0330501521514757,
      "learning_rate": 4.010117828257335e-06,
      "loss": 0.7802,
      "step": 11619
    },
    {
      "epoch": 0.7133429509806931,
      "grad_norm": 1.0595353662615277,
      "learning_rate": 4.008525760001534e-06,
      "loss": 0.7536,
      "step": 11620
    },
    {
      "epoch": 0.7134043402191595,
      "grad_norm": 0.8606145865049062,
      "learning_rate": 4.0069339286207565e-06,
      "loss": 0.7268,
      "step": 11621
    },
    {
      "epoch": 0.7134657294576261,
      "grad_norm": 0.9900668495538618,
      "learning_rate": 4.005342334177935e-06,
      "loss": 0.7698,
      "step": 11622
    },
    {
      "epoch": 0.7135271186960925,
      "grad_norm": 1.0237465145495737,
      "learning_rate": 4.003750976735993e-06,
      "loss": 0.7705,
      "step": 11623
    },
    {
      "epoch": 0.7135885079345591,
      "grad_norm": 1.0128163001944854,
      "learning_rate": 4.002159856357845e-06,
      "loss": 0.7809,
      "step": 11624
    },
    {
      "epoch": 0.7136498971730255,
      "grad_norm": 0.9654763760130298,
      "learning_rate": 4.000568973106396e-06,
      "loss": 0.7572,
      "step": 11625
    },
    {
      "epoch": 0.7137112864114921,
      "grad_norm": 1.0095309147971088,
      "learning_rate": 3.998978327044543e-06,
      "loss": 0.7571,
      "step": 11626
    },
    {
      "epoch": 0.7137726756499586,
      "grad_norm": 1.1374735684995434,
      "learning_rate": 3.9973879182351716e-06,
      "loss": 0.803,
      "step": 11627
    },
    {
      "epoch": 0.713834064888425,
      "grad_norm": 0.9563600443757964,
      "learning_rate": 3.9957977467411615e-06,
      "loss": 0.7239,
      "step": 11628
    },
    {
      "epoch": 0.7138954541268916,
      "grad_norm": 1.0095513065698298,
      "learning_rate": 3.994207812625378e-06,
      "loss": 0.764,
      "step": 11629
    },
    {
      "epoch": 0.713956843365358,
      "grad_norm": 0.9342431849910103,
      "learning_rate": 3.992618115950681e-06,
      "loss": 0.7736,
      "step": 11630
    },
    {
      "epoch": 0.7140182326038246,
      "grad_norm": 1.0152784531484096,
      "learning_rate": 3.991028656779918e-06,
      "loss": 0.7729,
      "step": 11631
    },
    {
      "epoch": 0.714079621842291,
      "grad_norm": 1.0796149572098976,
      "learning_rate": 3.989439435175932e-06,
      "loss": 0.7447,
      "step": 11632
    },
    {
      "epoch": 0.7141410110807576,
      "grad_norm": 0.9682963551806907,
      "learning_rate": 3.987850451201556e-06,
      "loss": 0.7364,
      "step": 11633
    },
    {
      "epoch": 0.714202400319224,
      "grad_norm": 0.9861878369155722,
      "learning_rate": 3.986261704919599e-06,
      "loss": 0.7393,
      "step": 11634
    },
    {
      "epoch": 0.7142637895576905,
      "grad_norm": 1.0233484023876203,
      "learning_rate": 3.984673196392885e-06,
      "loss": 0.7819,
      "step": 11635
    },
    {
      "epoch": 0.714325178796157,
      "grad_norm": 0.9123436897270735,
      "learning_rate": 3.9830849256842115e-06,
      "loss": 0.7852,
      "step": 11636
    },
    {
      "epoch": 0.7143865680346235,
      "grad_norm": 0.8488750919290947,
      "learning_rate": 3.9814968928563716e-06,
      "loss": 0.7504,
      "step": 11637
    },
    {
      "epoch": 0.7144479572730901,
      "grad_norm": 0.870935669137104,
      "learning_rate": 3.979909097972149e-06,
      "loss": 0.7387,
      "step": 11638
    },
    {
      "epoch": 0.7145093465115565,
      "grad_norm": 0.8871248144620372,
      "learning_rate": 3.978321541094318e-06,
      "loss": 0.7441,
      "step": 11639
    },
    {
      "epoch": 0.7145707357500231,
      "grad_norm": 0.9624605059319528,
      "learning_rate": 3.976734222285641e-06,
      "loss": 0.7661,
      "step": 11640
    },
    {
      "epoch": 0.7146321249884895,
      "grad_norm": 1.0165960451971217,
      "learning_rate": 3.975147141608876e-06,
      "loss": 0.8308,
      "step": 11641
    },
    {
      "epoch": 0.714693514226956,
      "grad_norm": 0.9442386817192425,
      "learning_rate": 3.973560299126764e-06,
      "loss": 0.7056,
      "step": 11642
    },
    {
      "epoch": 0.7147549034654225,
      "grad_norm": 0.8965923000540844,
      "learning_rate": 3.971973694902052e-06,
      "loss": 0.7515,
      "step": 11643
    },
    {
      "epoch": 0.714816292703889,
      "grad_norm": 1.0002628633699684,
      "learning_rate": 3.9703873289974574e-06,
      "loss": 0.8007,
      "step": 11644
    },
    {
      "epoch": 0.7148776819423555,
      "grad_norm": 0.900157054001001,
      "learning_rate": 3.968801201475695e-06,
      "loss": 0.7619,
      "step": 11645
    },
    {
      "epoch": 0.714939071180822,
      "grad_norm": 0.5519876090637148,
      "learning_rate": 3.967215312399483e-06,
      "loss": 0.7042,
      "step": 11646
    },
    {
      "epoch": 0.7150004604192886,
      "grad_norm": 1.1088436570655518,
      "learning_rate": 3.965629661831515e-06,
      "loss": 0.771,
      "step": 11647
    },
    {
      "epoch": 0.715061849657755,
      "grad_norm": 0.9790760016237451,
      "learning_rate": 3.96404424983448e-06,
      "loss": 0.7688,
      "step": 11648
    },
    {
      "epoch": 0.7151232388962215,
      "grad_norm": 0.9823121043133233,
      "learning_rate": 3.962459076471059e-06,
      "loss": 0.7458,
      "step": 11649
    },
    {
      "epoch": 0.715184628134688,
      "grad_norm": 1.003757906688625,
      "learning_rate": 3.960874141803922e-06,
      "loss": 0.7994,
      "step": 11650
    },
    {
      "epoch": 0.7152460173731545,
      "grad_norm": 0.9854548853310359,
      "learning_rate": 3.959289445895729e-06,
      "loss": 0.7206,
      "step": 11651
    },
    {
      "epoch": 0.715307406611621,
      "grad_norm": 1.0036863799439013,
      "learning_rate": 3.957704988809133e-06,
      "loss": 0.8027,
      "step": 11652
    },
    {
      "epoch": 0.7153687958500875,
      "grad_norm": 0.9660098713338195,
      "learning_rate": 3.956120770606775e-06,
      "loss": 0.7805,
      "step": 11653
    },
    {
      "epoch": 0.7154301850885539,
      "grad_norm": 0.9939006696970665,
      "learning_rate": 3.954536791351287e-06,
      "loss": 0.7531,
      "step": 11654
    },
    {
      "epoch": 0.7154915743270205,
      "grad_norm": 1.050518972361024,
      "learning_rate": 3.952953051105294e-06,
      "loss": 0.812,
      "step": 11655
    },
    {
      "epoch": 0.7155529635654869,
      "grad_norm": 0.9467034744413444,
      "learning_rate": 3.9513695499314054e-06,
      "loss": 0.7509,
      "step": 11656
    },
    {
      "epoch": 0.7156143528039535,
      "grad_norm": 0.9208191389838425,
      "learning_rate": 3.949786287892235e-06,
      "loss": 0.7625,
      "step": 11657
    },
    {
      "epoch": 0.71567574204242,
      "grad_norm": 0.9720085959952028,
      "learning_rate": 3.948203265050369e-06,
      "loss": 0.8045,
      "step": 11658
    },
    {
      "epoch": 0.7157371312808865,
      "grad_norm": 1.1058661184879754,
      "learning_rate": 3.94662048146839e-06,
      "loss": 0.7136,
      "step": 11659
    },
    {
      "epoch": 0.715798520519353,
      "grad_norm": 0.9985375101648094,
      "learning_rate": 3.9450379372088845e-06,
      "loss": 0.7818,
      "step": 11660
    },
    {
      "epoch": 0.7158599097578194,
      "grad_norm": 0.9044615218323112,
      "learning_rate": 3.943455632334412e-06,
      "loss": 0.75,
      "step": 11661
    },
    {
      "epoch": 0.715921298996286,
      "grad_norm": 0.9120358712309056,
      "learning_rate": 3.941873566907533e-06,
      "loss": 0.731,
      "step": 11662
    },
    {
      "epoch": 0.7159826882347524,
      "grad_norm": 0.840623751035033,
      "learning_rate": 3.94029174099079e-06,
      "loss": 0.7091,
      "step": 11663
    },
    {
      "epoch": 0.716044077473219,
      "grad_norm": 0.944565638061223,
      "learning_rate": 3.938710154646727e-06,
      "loss": 0.7324,
      "step": 11664
    },
    {
      "epoch": 0.7161054667116854,
      "grad_norm": 0.9487946789102425,
      "learning_rate": 3.937128807937869e-06,
      "loss": 0.7864,
      "step": 11665
    },
    {
      "epoch": 0.716166855950152,
      "grad_norm": 1.0312457332315859,
      "learning_rate": 3.935547700926735e-06,
      "loss": 0.821,
      "step": 11666
    },
    {
      "epoch": 0.7162282451886184,
      "grad_norm": 0.9929717680543076,
      "learning_rate": 3.933966833675835e-06,
      "loss": 0.7062,
      "step": 11667
    },
    {
      "epoch": 0.7162896344270849,
      "grad_norm": 1.0884294247374893,
      "learning_rate": 3.932386206247671e-06,
      "loss": 0.7704,
      "step": 11668
    },
    {
      "epoch": 0.7163510236655515,
      "grad_norm": 0.9447200853249277,
      "learning_rate": 3.930805818704731e-06,
      "loss": 0.7117,
      "step": 11669
    },
    {
      "epoch": 0.7164124129040179,
      "grad_norm": 1.026405960997817,
      "learning_rate": 3.9292256711094935e-06,
      "loss": 0.8063,
      "step": 11670
    },
    {
      "epoch": 0.7164738021424845,
      "grad_norm": 1.1045625001200041,
      "learning_rate": 3.927645763524438e-06,
      "loss": 0.7752,
      "step": 11671
    },
    {
      "epoch": 0.7165351913809509,
      "grad_norm": 0.9211747195869965,
      "learning_rate": 3.926066096012026e-06,
      "loss": 0.7982,
      "step": 11672
    },
    {
      "epoch": 0.7165965806194174,
      "grad_norm": 1.0422600692074706,
      "learning_rate": 3.9244866686347e-06,
      "loss": 0.7902,
      "step": 11673
    },
    {
      "epoch": 0.7166579698578839,
      "grad_norm": 1.0291568132144575,
      "learning_rate": 3.922907481454915e-06,
      "loss": 0.7793,
      "step": 11674
    },
    {
      "epoch": 0.7167193590963504,
      "grad_norm": 1.0413131184456308,
      "learning_rate": 3.921328534535098e-06,
      "loss": 0.7973,
      "step": 11675
    },
    {
      "epoch": 0.7167807483348169,
      "grad_norm": 1.2111172008181876,
      "learning_rate": 3.919749827937677e-06,
      "loss": 0.7976,
      "step": 11676
    },
    {
      "epoch": 0.7168421375732834,
      "grad_norm": 0.9625867848321042,
      "learning_rate": 3.9181713617250625e-06,
      "loss": 0.7964,
      "step": 11677
    },
    {
      "epoch": 0.7169035268117498,
      "grad_norm": 0.8666829390232863,
      "learning_rate": 3.916593135959663e-06,
      "loss": 0.7172,
      "step": 11678
    },
    {
      "epoch": 0.7169649160502164,
      "grad_norm": 1.1541429212831829,
      "learning_rate": 3.915015150703873e-06,
      "loss": 0.7136,
      "step": 11679
    },
    {
      "epoch": 0.7170263052886829,
      "grad_norm": 1.053911233904662,
      "learning_rate": 3.91343740602008e-06,
      "loss": 0.7804,
      "step": 11680
    },
    {
      "epoch": 0.7170876945271494,
      "grad_norm": 1.0246934792199367,
      "learning_rate": 3.911859901970654e-06,
      "loss": 0.7439,
      "step": 11681
    },
    {
      "epoch": 0.7171490837656159,
      "grad_norm": 1.0279495532938892,
      "learning_rate": 3.910282638617976e-06,
      "loss": 0.7886,
      "step": 11682
    },
    {
      "epoch": 0.7172104730040824,
      "grad_norm": 1.0119374011207534,
      "learning_rate": 3.9087056160243916e-06,
      "loss": 0.77,
      "step": 11683
    },
    {
      "epoch": 0.7172718622425489,
      "grad_norm": 1.0202331702186285,
      "learning_rate": 3.907128834252249e-06,
      "loss": 0.8325,
      "step": 11684
    },
    {
      "epoch": 0.7173332514810153,
      "grad_norm": 0.9055141466173404,
      "learning_rate": 3.905552293363895e-06,
      "loss": 0.7524,
      "step": 11685
    },
    {
      "epoch": 0.7173946407194819,
      "grad_norm": 0.9536391201854049,
      "learning_rate": 3.903975993421654e-06,
      "loss": 0.7612,
      "step": 11686
    },
    {
      "epoch": 0.7174560299579483,
      "grad_norm": 0.9608341631350458,
      "learning_rate": 3.902399934487845e-06,
      "loss": 0.7516,
      "step": 11687
    },
    {
      "epoch": 0.7175174191964149,
      "grad_norm": 1.0502535583353483,
      "learning_rate": 3.90082411662478e-06,
      "loss": 0.8299,
      "step": 11688
    },
    {
      "epoch": 0.7175788084348813,
      "grad_norm": 0.9491110875289335,
      "learning_rate": 3.899248539894756e-06,
      "loss": 0.7372,
      "step": 11689
    },
    {
      "epoch": 0.7176401976733479,
      "grad_norm": 0.9828827074167255,
      "learning_rate": 3.897673204360068e-06,
      "loss": 0.746,
      "step": 11690
    },
    {
      "epoch": 0.7177015869118144,
      "grad_norm": 0.884732085266588,
      "learning_rate": 3.8960981100829965e-06,
      "loss": 0.7067,
      "step": 11691
    },
    {
      "epoch": 0.7177629761502808,
      "grad_norm": 0.80242634398982,
      "learning_rate": 3.894523257125812e-06,
      "loss": 0.7027,
      "step": 11692
    },
    {
      "epoch": 0.7178243653887474,
      "grad_norm": 0.881303867675408,
      "learning_rate": 3.892948645550778e-06,
      "loss": 0.7459,
      "step": 11693
    },
    {
      "epoch": 0.7178857546272138,
      "grad_norm": 0.8578968470489,
      "learning_rate": 3.891374275420146e-06,
      "loss": 0.7912,
      "step": 11694
    },
    {
      "epoch": 0.7179471438656804,
      "grad_norm": 0.9167332426946531,
      "learning_rate": 3.889800146796157e-06,
      "loss": 0.7777,
      "step": 11695
    },
    {
      "epoch": 0.7180085331041468,
      "grad_norm": 1.0633626582138946,
      "learning_rate": 3.888226259741051e-06,
      "loss": 0.7768,
      "step": 11696
    },
    {
      "epoch": 0.7180699223426134,
      "grad_norm": 0.9547070182608439,
      "learning_rate": 3.886652614317053e-06,
      "loss": 0.7755,
      "step": 11697
    },
    {
      "epoch": 0.7181313115810798,
      "grad_norm": 1.0442779687962016,
      "learning_rate": 3.885079210586366e-06,
      "loss": 0.803,
      "step": 11698
    },
    {
      "epoch": 0.7181927008195463,
      "grad_norm": 0.8529898351448368,
      "learning_rate": 3.883506048611206e-06,
      "loss": 0.7453,
      "step": 11699
    },
    {
      "epoch": 0.7182540900580129,
      "grad_norm": 0.9767299723792856,
      "learning_rate": 3.8819331284537665e-06,
      "loss": 0.7641,
      "step": 11700
    },
    {
      "epoch": 0.7183154792964793,
      "grad_norm": 0.972268581426549,
      "learning_rate": 3.880360450176232e-06,
      "loss": 0.7905,
      "step": 11701
    },
    {
      "epoch": 0.7183768685349459,
      "grad_norm": 0.8861666872147048,
      "learning_rate": 3.878788013840779e-06,
      "loss": 0.7755,
      "step": 11702
    },
    {
      "epoch": 0.7184382577734123,
      "grad_norm": 0.9807342797138892,
      "learning_rate": 3.877215819509573e-06,
      "loss": 0.758,
      "step": 11703
    },
    {
      "epoch": 0.7184996470118789,
      "grad_norm": 0.8951593526036157,
      "learning_rate": 3.875643867244774e-06,
      "loss": 0.7492,
      "step": 11704
    },
    {
      "epoch": 0.7185610362503453,
      "grad_norm": 1.0383451141112319,
      "learning_rate": 3.874072157108527e-06,
      "loss": 0.7619,
      "step": 11705
    },
    {
      "epoch": 0.7186224254888118,
      "grad_norm": 1.038015761832125,
      "learning_rate": 3.872500689162969e-06,
      "loss": 0.8468,
      "step": 11706
    },
    {
      "epoch": 0.7186838147272783,
      "grad_norm": 0.9009682811381654,
      "learning_rate": 3.8709294634702374e-06,
      "loss": 0.7334,
      "step": 11707
    },
    {
      "epoch": 0.7187452039657448,
      "grad_norm": 0.9062784441730705,
      "learning_rate": 3.869358480092441e-06,
      "loss": 0.7949,
      "step": 11708
    },
    {
      "epoch": 0.7188065932042113,
      "grad_norm": 1.0364828492437734,
      "learning_rate": 3.867787739091691e-06,
      "loss": 0.7836,
      "step": 11709
    },
    {
      "epoch": 0.7188679824426778,
      "grad_norm": 0.9763201971578503,
      "learning_rate": 3.86621724053009e-06,
      "loss": 0.6913,
      "step": 11710
    },
    {
      "epoch": 0.7189293716811443,
      "grad_norm": 0.9464559804837679,
      "learning_rate": 3.8646469844697285e-06,
      "loss": 0.7939,
      "step": 11711
    },
    {
      "epoch": 0.7189907609196108,
      "grad_norm": 0.9675810238366245,
      "learning_rate": 3.8630769709726865e-06,
      "loss": 0.7588,
      "step": 11712
    },
    {
      "epoch": 0.7190521501580773,
      "grad_norm": 1.0522193359619303,
      "learning_rate": 3.861507200101033e-06,
      "loss": 0.7899,
      "step": 11713
    },
    {
      "epoch": 0.7191135393965438,
      "grad_norm": 0.5523563557055376,
      "learning_rate": 3.859937671916833e-06,
      "loss": 0.6342,
      "step": 11714
    },
    {
      "epoch": 0.7191749286350103,
      "grad_norm": 0.9926398973121644,
      "learning_rate": 3.858368386482134e-06,
      "loss": 0.7621,
      "step": 11715
    },
    {
      "epoch": 0.7192363178734767,
      "grad_norm": 0.9676814560718433,
      "learning_rate": 3.856799343858981e-06,
      "loss": 0.731,
      "step": 11716
    },
    {
      "epoch": 0.7192977071119433,
      "grad_norm": 0.9761655608606157,
      "learning_rate": 3.855230544109408e-06,
      "loss": 0.7554,
      "step": 11717
    },
    {
      "epoch": 0.7193590963504097,
      "grad_norm": 1.0055030165314014,
      "learning_rate": 3.853661987295433e-06,
      "loss": 0.7882,
      "step": 11718
    },
    {
      "epoch": 0.7194204855888763,
      "grad_norm": 1.0283299936378472,
      "learning_rate": 3.852093673479075e-06,
      "loss": 0.7684,
      "step": 11719
    },
    {
      "epoch": 0.7194818748273427,
      "grad_norm": 1.0082819197218666,
      "learning_rate": 3.85052560272233e-06,
      "loss": 0.7374,
      "step": 11720
    },
    {
      "epoch": 0.7195432640658093,
      "grad_norm": 0.8794160231241368,
      "learning_rate": 3.848957775087207e-06,
      "loss": 0.7617,
      "step": 11721
    },
    {
      "epoch": 0.7196046533042758,
      "grad_norm": 0.9952533505796044,
      "learning_rate": 3.847390190635676e-06,
      "loss": 0.7435,
      "step": 11722
    },
    {
      "epoch": 0.7196660425427422,
      "grad_norm": 0.8823709977907577,
      "learning_rate": 3.845822849429713e-06,
      "loss": 0.7728,
      "step": 11723
    },
    {
      "epoch": 0.7197274317812088,
      "grad_norm": 1.026480392310782,
      "learning_rate": 3.844255751531293e-06,
      "loss": 0.7302,
      "step": 11724
    },
    {
      "epoch": 0.7197888210196752,
      "grad_norm": 0.6290697124799054,
      "learning_rate": 3.842688897002366e-06,
      "loss": 0.7121,
      "step": 11725
    },
    {
      "epoch": 0.7198502102581418,
      "grad_norm": 0.9610186817426757,
      "learning_rate": 3.841122285904877e-06,
      "loss": 0.7483,
      "step": 11726
    },
    {
      "epoch": 0.7199115994966082,
      "grad_norm": 0.9835074410515112,
      "learning_rate": 3.839555918300766e-06,
      "loss": 0.7534,
      "step": 11727
    },
    {
      "epoch": 0.7199729887350748,
      "grad_norm": 0.9368789255786706,
      "learning_rate": 3.837989794251956e-06,
      "loss": 0.7894,
      "step": 11728
    },
    {
      "epoch": 0.7200343779735412,
      "grad_norm": 0.9669979956032112,
      "learning_rate": 3.8364239138203676e-06,
      "loss": 0.7352,
      "step": 11729
    },
    {
      "epoch": 0.7200957672120077,
      "grad_norm": 1.0199464258769448,
      "learning_rate": 3.834858277067906e-06,
      "loss": 0.7524,
      "step": 11730
    },
    {
      "epoch": 0.7201571564504742,
      "grad_norm": 0.9609645381354666,
      "learning_rate": 3.833292884056471e-06,
      "loss": 0.7728,
      "step": 11731
    },
    {
      "epoch": 0.7202185456889407,
      "grad_norm": 0.9790968586440016,
      "learning_rate": 3.831727734847951e-06,
      "loss": 0.754,
      "step": 11732
    },
    {
      "epoch": 0.7202799349274073,
      "grad_norm": 0.989325211809125,
      "learning_rate": 3.8301628295042225e-06,
      "loss": 0.7946,
      "step": 11733
    },
    {
      "epoch": 0.7203413241658737,
      "grad_norm": 1.0317958716371096,
      "learning_rate": 3.828598168087153e-06,
      "loss": 0.7467,
      "step": 11734
    },
    {
      "epoch": 0.7204027134043403,
      "grad_norm": 1.0366734537526885,
      "learning_rate": 3.827033750658608e-06,
      "loss": 0.8416,
      "step": 11735
    },
    {
      "epoch": 0.7204641026428067,
      "grad_norm": 0.8789941327506456,
      "learning_rate": 3.8254695772804375e-06,
      "loss": 0.7334,
      "step": 11736
    },
    {
      "epoch": 0.7205254918812732,
      "grad_norm": 0.9567190554884236,
      "learning_rate": 3.823905648014472e-06,
      "loss": 0.7568,
      "step": 11737
    },
    {
      "epoch": 0.7205868811197397,
      "grad_norm": 0.9955007495789704,
      "learning_rate": 3.822341962922551e-06,
      "loss": 0.7504,
      "step": 11738
    },
    {
      "epoch": 0.7206482703582062,
      "grad_norm": 1.0417756462133523,
      "learning_rate": 3.8207785220664935e-06,
      "loss": 0.807,
      "step": 11739
    },
    {
      "epoch": 0.7207096595966727,
      "grad_norm": 1.0762556641052534,
      "learning_rate": 3.81921532550811e-06,
      "loss": 0.7158,
      "step": 11740
    },
    {
      "epoch": 0.7207710488351392,
      "grad_norm": 0.9474341842243469,
      "learning_rate": 3.817652373309201e-06,
      "loss": 0.7257,
      "step": 11741
    },
    {
      "epoch": 0.7208324380736058,
      "grad_norm": 0.9852579012480354,
      "learning_rate": 3.81608966553156e-06,
      "loss": 0.7519,
      "step": 11742
    },
    {
      "epoch": 0.7208938273120722,
      "grad_norm": 0.9342358279907903,
      "learning_rate": 3.814527202236967e-06,
      "loss": 0.7873,
      "step": 11743
    },
    {
      "epoch": 0.7209552165505387,
      "grad_norm": 0.9744092259080387,
      "learning_rate": 3.812964983487197e-06,
      "loss": 0.7608,
      "step": 11744
    },
    {
      "epoch": 0.7210166057890052,
      "grad_norm": 1.0229971823004942,
      "learning_rate": 3.811403009344008e-06,
      "loss": 0.7426,
      "step": 11745
    },
    {
      "epoch": 0.7210779950274717,
      "grad_norm": 0.926844785251802,
      "learning_rate": 3.809841279869164e-06,
      "loss": 0.7326,
      "step": 11746
    },
    {
      "epoch": 0.7211393842659382,
      "grad_norm": 0.8314129654253561,
      "learning_rate": 3.8082797951243988e-06,
      "loss": 0.7497,
      "step": 11747
    },
    {
      "epoch": 0.7212007735044047,
      "grad_norm": 1.0536375230023807,
      "learning_rate": 3.8067185551714445e-06,
      "loss": 0.7784,
      "step": 11748
    },
    {
      "epoch": 0.7212621627428711,
      "grad_norm": 0.9321133464626725,
      "learning_rate": 3.8051575600720336e-06,
      "loss": 0.7662,
      "step": 11749
    },
    {
      "epoch": 0.7213235519813377,
      "grad_norm": 0.9690921826138779,
      "learning_rate": 3.8035968098878774e-06,
      "loss": 0.81,
      "step": 11750
    },
    {
      "epoch": 0.7213849412198041,
      "grad_norm": 1.0813548289962138,
      "learning_rate": 3.8020363046806784e-06,
      "loss": 0.8406,
      "step": 11751
    },
    {
      "epoch": 0.7214463304582707,
      "grad_norm": 0.9381387560372634,
      "learning_rate": 3.8004760445121345e-06,
      "loss": 0.7546,
      "step": 11752
    },
    {
      "epoch": 0.7215077196967372,
      "grad_norm": 0.8420104347110404,
      "learning_rate": 3.7989160294439297e-06,
      "loss": 0.7704,
      "step": 11753
    },
    {
      "epoch": 0.7215691089352037,
      "grad_norm": 0.9864137455405415,
      "learning_rate": 3.797356259537739e-06,
      "loss": 0.7737,
      "step": 11754
    },
    {
      "epoch": 0.7216304981736702,
      "grad_norm": 0.9268868717871814,
      "learning_rate": 3.795796734855227e-06,
      "loss": 0.7425,
      "step": 11755
    },
    {
      "epoch": 0.7216918874121366,
      "grad_norm": 1.0110921452777253,
      "learning_rate": 3.79423745545806e-06,
      "loss": 0.7464,
      "step": 11756
    },
    {
      "epoch": 0.7217532766506032,
      "grad_norm": 1.0327427304372259,
      "learning_rate": 3.7926784214078727e-06,
      "loss": 0.8034,
      "step": 11757
    },
    {
      "epoch": 0.7218146658890696,
      "grad_norm": 0.891031519369849,
      "learning_rate": 3.7911196327663057e-06,
      "loss": 0.7381,
      "step": 11758
    },
    {
      "epoch": 0.7218760551275362,
      "grad_norm": 0.8936866604142943,
      "learning_rate": 3.789561089594985e-06,
      "loss": 0.7715,
      "step": 11759
    },
    {
      "epoch": 0.7219374443660026,
      "grad_norm": 0.8418473747247606,
      "learning_rate": 3.788002791955533e-06,
      "loss": 0.7737,
      "step": 11760
    },
    {
      "epoch": 0.7219988336044691,
      "grad_norm": 0.8865848970310151,
      "learning_rate": 3.7864447399095584e-06,
      "loss": 0.7941,
      "step": 11761
    },
    {
      "epoch": 0.7220602228429356,
      "grad_norm": 0.9298519325424213,
      "learning_rate": 3.7848869335186488e-06,
      "loss": 0.7594,
      "step": 11762
    },
    {
      "epoch": 0.7221216120814021,
      "grad_norm": 0.8997957247078348,
      "learning_rate": 3.783329372844403e-06,
      "loss": 0.7982,
      "step": 11763
    },
    {
      "epoch": 0.7221830013198687,
      "grad_norm": 0.9221865374396819,
      "learning_rate": 3.7817720579483962e-06,
      "loss": 0.7667,
      "step": 11764
    },
    {
      "epoch": 0.7222443905583351,
      "grad_norm": 0.8623719416898975,
      "learning_rate": 3.7802149888921967e-06,
      "loss": 0.7739,
      "step": 11765
    },
    {
      "epoch": 0.7223057797968017,
      "grad_norm": 0.975531917575592,
      "learning_rate": 3.7786581657373656e-06,
      "loss": 0.7572,
      "step": 11766
    },
    {
      "epoch": 0.7223671690352681,
      "grad_norm": 1.0157098264816014,
      "learning_rate": 3.777101588545451e-06,
      "loss": 0.7784,
      "step": 11767
    },
    {
      "epoch": 0.7224285582737346,
      "grad_norm": 0.9760750696697281,
      "learning_rate": 3.7755452573779925e-06,
      "loss": 0.7789,
      "step": 11768
    },
    {
      "epoch": 0.7224899475122011,
      "grad_norm": 1.019536923339429,
      "learning_rate": 3.7739891722965207e-06,
      "loss": 0.745,
      "step": 11769
    },
    {
      "epoch": 0.7225513367506676,
      "grad_norm": 0.962596333960017,
      "learning_rate": 3.7724333333625527e-06,
      "loss": 0.7578,
      "step": 11770
    },
    {
      "epoch": 0.7226127259891341,
      "grad_norm": 0.8770995513580356,
      "learning_rate": 3.7708777406376095e-06,
      "loss": 0.7727,
      "step": 11771
    },
    {
      "epoch": 0.7226741152276006,
      "grad_norm": 0.5890193663517462,
      "learning_rate": 3.7693223941831812e-06,
      "loss": 0.6462,
      "step": 11772
    },
    {
      "epoch": 0.722735504466067,
      "grad_norm": 1.0049313561807516,
      "learning_rate": 3.767767294060759e-06,
      "loss": 0.8101,
      "step": 11773
    },
    {
      "epoch": 0.7227968937045336,
      "grad_norm": 1.018964986678417,
      "learning_rate": 3.7662124403318314e-06,
      "loss": 0.7591,
      "step": 11774
    },
    {
      "epoch": 0.7228582829430001,
      "grad_norm": 0.9253567239894106,
      "learning_rate": 3.7646578330578676e-06,
      "loss": 0.7433,
      "step": 11775
    },
    {
      "epoch": 0.7229196721814666,
      "grad_norm": 0.9462720890008163,
      "learning_rate": 3.7631034723003277e-06,
      "loss": 0.7684,
      "step": 11776
    },
    {
      "epoch": 0.7229810614199331,
      "grad_norm": 1.0458376620962806,
      "learning_rate": 3.7615493581206654e-06,
      "loss": 0.7722,
      "step": 11777
    },
    {
      "epoch": 0.7230424506583996,
      "grad_norm": 0.8419987672009303,
      "learning_rate": 3.7599954905803217e-06,
      "loss": 0.7253,
      "step": 11778
    },
    {
      "epoch": 0.7231038398968661,
      "grad_norm": 0.9711193191814022,
      "learning_rate": 3.758441869740731e-06,
      "loss": 0.7912,
      "step": 11779
    },
    {
      "epoch": 0.7231652291353325,
      "grad_norm": 1.023075542190629,
      "learning_rate": 3.7568884956633143e-06,
      "loss": 0.7654,
      "step": 11780
    },
    {
      "epoch": 0.7232266183737991,
      "grad_norm": 1.0267545373178066,
      "learning_rate": 3.7553353684094873e-06,
      "loss": 0.7732,
      "step": 11781
    },
    {
      "epoch": 0.7232880076122655,
      "grad_norm": 0.9934262309468855,
      "learning_rate": 3.7537824880406516e-06,
      "loss": 0.743,
      "step": 11782
    },
    {
      "epoch": 0.7233493968507321,
      "grad_norm": 0.9703919700368718,
      "learning_rate": 3.7522298546182014e-06,
      "loss": 0.7623,
      "step": 11783
    },
    {
      "epoch": 0.7234107860891985,
      "grad_norm": 0.9906244894440881,
      "learning_rate": 3.750677468203516e-06,
      "loss": 0.7449,
      "step": 11784
    },
    {
      "epoch": 0.7234721753276651,
      "grad_norm": 0.8762052043385256,
      "learning_rate": 3.749125328857981e-06,
      "loss": 0.7617,
      "step": 11785
    },
    {
      "epoch": 0.7235335645661316,
      "grad_norm": 0.9470443101971477,
      "learning_rate": 3.747573436642952e-06,
      "loss": 0.7739,
      "step": 11786
    },
    {
      "epoch": 0.723594953804598,
      "grad_norm": 0.9241060452081913,
      "learning_rate": 3.7460217916197805e-06,
      "loss": 0.782,
      "step": 11787
    },
    {
      "epoch": 0.7236563430430646,
      "grad_norm": 1.0165421744510321,
      "learning_rate": 3.7444703938498196e-06,
      "loss": 0.7711,
      "step": 11788
    },
    {
      "epoch": 0.723717732281531,
      "grad_norm": 0.9395431050397589,
      "learning_rate": 3.7429192433944016e-06,
      "loss": 0.7471,
      "step": 11789
    },
    {
      "epoch": 0.7237791215199976,
      "grad_norm": 0.9183080501910212,
      "learning_rate": 3.7413683403148504e-06,
      "loss": 0.7033,
      "step": 11790
    },
    {
      "epoch": 0.723840510758464,
      "grad_norm": 0.9444926941723124,
      "learning_rate": 3.739817684672483e-06,
      "loss": 0.79,
      "step": 11791
    },
    {
      "epoch": 0.7239018999969306,
      "grad_norm": 0.9625250777536074,
      "learning_rate": 3.7382672765286033e-06,
      "loss": 0.7648,
      "step": 11792
    },
    {
      "epoch": 0.723963289235397,
      "grad_norm": 0.9012879592465112,
      "learning_rate": 3.736717115944509e-06,
      "loss": 0.751,
      "step": 11793
    },
    {
      "epoch": 0.7240246784738635,
      "grad_norm": 1.0311180531462356,
      "learning_rate": 3.7351672029814855e-06,
      "loss": 0.7304,
      "step": 11794
    },
    {
      "epoch": 0.7240860677123301,
      "grad_norm": 0.9864198081626453,
      "learning_rate": 3.7336175377008098e-06,
      "loss": 0.7477,
      "step": 11795
    },
    {
      "epoch": 0.7241474569507965,
      "grad_norm": 1.0298167723550513,
      "learning_rate": 3.7320681201637465e-06,
      "loss": 0.78,
      "step": 11796
    },
    {
      "epoch": 0.7242088461892631,
      "grad_norm": 1.0435641842269308,
      "learning_rate": 3.730518950431554e-06,
      "loss": 0.7988,
      "step": 11797
    },
    {
      "epoch": 0.7242702354277295,
      "grad_norm": 0.9713320024454377,
      "learning_rate": 3.728970028565476e-06,
      "loss": 0.7378,
      "step": 11798
    },
    {
      "epoch": 0.724331624666196,
      "grad_norm": 0.8842069495035495,
      "learning_rate": 3.7274213546267555e-06,
      "loss": 0.7743,
      "step": 11799
    },
    {
      "epoch": 0.7243930139046625,
      "grad_norm": 0.9473800344601243,
      "learning_rate": 3.7258729286766216e-06,
      "loss": 0.7535,
      "step": 11800
    },
    {
      "epoch": 0.724454403143129,
      "grad_norm": 1.0026216942587924,
      "learning_rate": 3.7243247507762793e-06,
      "loss": 0.7832,
      "step": 11801
    },
    {
      "epoch": 0.7245157923815955,
      "grad_norm": 0.9922508046896931,
      "learning_rate": 3.7227768209869475e-06,
      "loss": 0.7685,
      "step": 11802
    },
    {
      "epoch": 0.724577181620062,
      "grad_norm": 0.9427952191114111,
      "learning_rate": 3.7212291393698218e-06,
      "loss": 0.7427,
      "step": 11803
    },
    {
      "epoch": 0.7246385708585285,
      "grad_norm": 0.928249185986593,
      "learning_rate": 3.719681705986088e-06,
      "loss": 0.8046,
      "step": 11804
    },
    {
      "epoch": 0.724699960096995,
      "grad_norm": 1.005273323207804,
      "learning_rate": 3.7181345208969277e-06,
      "loss": 0.7522,
      "step": 11805
    },
    {
      "epoch": 0.7247613493354615,
      "grad_norm": 0.9032089283531138,
      "learning_rate": 3.7165875841635057e-06,
      "loss": 0.7649,
      "step": 11806
    },
    {
      "epoch": 0.724822738573928,
      "grad_norm": 0.9961716451942376,
      "learning_rate": 3.715040895846984e-06,
      "loss": 0.7248,
      "step": 11807
    },
    {
      "epoch": 0.7248841278123945,
      "grad_norm": 0.963312825366534,
      "learning_rate": 3.7134944560085096e-06,
      "loss": 0.8017,
      "step": 11808
    },
    {
      "epoch": 0.724945517050861,
      "grad_norm": 0.9714525268200241,
      "learning_rate": 3.7119482647092187e-06,
      "loss": 0.7831,
      "step": 11809
    },
    {
      "epoch": 0.7250069062893275,
      "grad_norm": 0.9464000402286296,
      "learning_rate": 3.71040232201025e-06,
      "loss": 0.7774,
      "step": 11810
    },
    {
      "epoch": 0.725068295527794,
      "grad_norm": 1.0437185852898427,
      "learning_rate": 3.7088566279727132e-06,
      "loss": 0.7448,
      "step": 11811
    },
    {
      "epoch": 0.7251296847662605,
      "grad_norm": 0.5822179032097822,
      "learning_rate": 3.707311182657718e-06,
      "loss": 0.6819,
      "step": 11812
    },
    {
      "epoch": 0.7251910740047269,
      "grad_norm": 1.023347770384098,
      "learning_rate": 3.7057659861263716e-06,
      "loss": 0.7728,
      "step": 11813
    },
    {
      "epoch": 0.7252524632431935,
      "grad_norm": 1.0773681520650902,
      "learning_rate": 3.704221038439759e-06,
      "loss": 0.7514,
      "step": 11814
    },
    {
      "epoch": 0.7253138524816599,
      "grad_norm": 0.927507695329655,
      "learning_rate": 3.7026763396589615e-06,
      "loss": 0.7822,
      "step": 11815
    },
    {
      "epoch": 0.7253752417201265,
      "grad_norm": 0.860285502730694,
      "learning_rate": 3.7011318898450475e-06,
      "loss": 0.7401,
      "step": 11816
    },
    {
      "epoch": 0.725436630958593,
      "grad_norm": 1.0195125165853294,
      "learning_rate": 3.69958768905908e-06,
      "loss": 0.7375,
      "step": 11817
    },
    {
      "epoch": 0.7254980201970594,
      "grad_norm": 0.809862560263072,
      "learning_rate": 3.698043737362108e-06,
      "loss": 0.7447,
      "step": 11818
    },
    {
      "epoch": 0.725559409435526,
      "grad_norm": 0.9022095005059753,
      "learning_rate": 3.696500034815168e-06,
      "loss": 0.72,
      "step": 11819
    },
    {
      "epoch": 0.7256207986739924,
      "grad_norm": 1.015461312371125,
      "learning_rate": 3.694956581479302e-06,
      "loss": 0.7931,
      "step": 11820
    },
    {
      "epoch": 0.725682187912459,
      "grad_norm": 0.9470134658037885,
      "learning_rate": 3.693413377415521e-06,
      "loss": 0.7524,
      "step": 11821
    },
    {
      "epoch": 0.7257435771509254,
      "grad_norm": 0.8654978355243375,
      "learning_rate": 3.69187042268484e-06,
      "loss": 0.8186,
      "step": 11822
    },
    {
      "epoch": 0.725804966389392,
      "grad_norm": 0.913320324600433,
      "learning_rate": 3.6903277173482556e-06,
      "loss": 0.7642,
      "step": 11823
    },
    {
      "epoch": 0.7258663556278584,
      "grad_norm": 0.9055692574908933,
      "learning_rate": 3.688785261466765e-06,
      "loss": 0.7209,
      "step": 11824
    },
    {
      "epoch": 0.7259277448663249,
      "grad_norm": 0.9067545939727365,
      "learning_rate": 3.6872430551013526e-06,
      "loss": 0.716,
      "step": 11825
    },
    {
      "epoch": 0.7259891341047914,
      "grad_norm": 0.950816505168275,
      "learning_rate": 3.6857010983129783e-06,
      "loss": 0.7375,
      "step": 11826
    },
    {
      "epoch": 0.7260505233432579,
      "grad_norm": 1.0037424367292713,
      "learning_rate": 3.684159391162614e-06,
      "loss": 0.7041,
      "step": 11827
    },
    {
      "epoch": 0.7261119125817245,
      "grad_norm": 0.9618432678888122,
      "learning_rate": 3.682617933711209e-06,
      "loss": 0.7558,
      "step": 11828
    },
    {
      "epoch": 0.7261733018201909,
      "grad_norm": 0.9703867271786677,
      "learning_rate": 3.6810767260197044e-06,
      "loss": 0.7699,
      "step": 11829
    },
    {
      "epoch": 0.7262346910586575,
      "grad_norm": 0.962623935299895,
      "learning_rate": 3.679535768149032e-06,
      "loss": 0.7922,
      "step": 11830
    },
    {
      "epoch": 0.7262960802971239,
      "grad_norm": 1.0259057738591786,
      "learning_rate": 3.6779950601601155e-06,
      "loss": 0.7771,
      "step": 11831
    },
    {
      "epoch": 0.7263574695355904,
      "grad_norm": 0.9097356389851831,
      "learning_rate": 3.6764546021138668e-06,
      "loss": 0.7354,
      "step": 11832
    },
    {
      "epoch": 0.7264188587740569,
      "grad_norm": 0.8792466355235754,
      "learning_rate": 3.6749143940711885e-06,
      "loss": 0.7754,
      "step": 11833
    },
    {
      "epoch": 0.7264802480125234,
      "grad_norm": 1.0077271245991082,
      "learning_rate": 3.67337443609297e-06,
      "loss": 0.7431,
      "step": 11834
    },
    {
      "epoch": 0.7265416372509899,
      "grad_norm": 1.0706294315601548,
      "learning_rate": 3.6718347282401033e-06,
      "loss": 0.7301,
      "step": 11835
    },
    {
      "epoch": 0.7266030264894564,
      "grad_norm": 0.9555278672492433,
      "learning_rate": 3.670295270573453e-06,
      "loss": 0.8,
      "step": 11836
    },
    {
      "epoch": 0.7266644157279228,
      "grad_norm": 1.0625279615547465,
      "learning_rate": 3.66875606315388e-06,
      "loss": 0.723,
      "step": 11837
    },
    {
      "epoch": 0.7267258049663894,
      "grad_norm": 1.028903060723931,
      "learning_rate": 3.6672171060422447e-06,
      "loss": 0.7713,
      "step": 11838
    },
    {
      "epoch": 0.7267871942048559,
      "grad_norm": 1.0209671253057835,
      "learning_rate": 3.6656783992993885e-06,
      "loss": 0.7731,
      "step": 11839
    },
    {
      "epoch": 0.7268485834433224,
      "grad_norm": 1.023226735926958,
      "learning_rate": 3.6641399429861425e-06,
      "loss": 0.7578,
      "step": 11840
    },
    {
      "epoch": 0.7269099726817889,
      "grad_norm": 0.8429893284169158,
      "learning_rate": 3.6626017371633314e-06,
      "loss": 0.7272,
      "step": 11841
    },
    {
      "epoch": 0.7269713619202554,
      "grad_norm": 0.888788200661621,
      "learning_rate": 3.6610637818917683e-06,
      "loss": 0.7579,
      "step": 11842
    },
    {
      "epoch": 0.7270327511587219,
      "grad_norm": 0.9582588699633469,
      "learning_rate": 3.659526077232257e-06,
      "loss": 0.7773,
      "step": 11843
    },
    {
      "epoch": 0.7270941403971883,
      "grad_norm": 0.9408918202403704,
      "learning_rate": 3.6579886232455873e-06,
      "loss": 0.7433,
      "step": 11844
    },
    {
      "epoch": 0.7271555296356549,
      "grad_norm": 0.9985268096746651,
      "learning_rate": 3.6564514199925538e-06,
      "loss": 0.7492,
      "step": 11845
    },
    {
      "epoch": 0.7272169188741213,
      "grad_norm": 0.9899349263694932,
      "learning_rate": 3.654914467533921e-06,
      "loss": 0.7727,
      "step": 11846
    },
    {
      "epoch": 0.7272783081125879,
      "grad_norm": 1.007435976910735,
      "learning_rate": 3.6533777659304536e-06,
      "loss": 0.7697,
      "step": 11847
    },
    {
      "epoch": 0.7273396973510544,
      "grad_norm": 0.9621885853378603,
      "learning_rate": 3.6518413152429057e-06,
      "loss": 0.7711,
      "step": 11848
    },
    {
      "epoch": 0.7274010865895209,
      "grad_norm": 0.5694062454667892,
      "learning_rate": 3.650305115532028e-06,
      "loss": 0.663,
      "step": 11849
    },
    {
      "epoch": 0.7274624758279874,
      "grad_norm": 0.9546823239271902,
      "learning_rate": 3.648769166858547e-06,
      "loss": 0.6702,
      "step": 11850
    },
    {
      "epoch": 0.7275238650664538,
      "grad_norm": 0.8328361159985154,
      "learning_rate": 3.6472334692831857e-06,
      "loss": 0.7651,
      "step": 11851
    },
    {
      "epoch": 0.7275852543049204,
      "grad_norm": 1.050772612658999,
      "learning_rate": 3.6456980228666662e-06,
      "loss": 0.7837,
      "step": 11852
    },
    {
      "epoch": 0.7276466435433868,
      "grad_norm": 0.9834187622534826,
      "learning_rate": 3.6441628276696894e-06,
      "loss": 0.776,
      "step": 11853
    },
    {
      "epoch": 0.7277080327818534,
      "grad_norm": 1.0336360027255396,
      "learning_rate": 3.6426278837529484e-06,
      "loss": 0.8143,
      "step": 11854
    },
    {
      "epoch": 0.7277694220203198,
      "grad_norm": 0.8400647263767228,
      "learning_rate": 3.6410931911771296e-06,
      "loss": 0.7464,
      "step": 11855
    },
    {
      "epoch": 0.7278308112587863,
      "grad_norm": 0.9826010394105,
      "learning_rate": 3.6395587500029074e-06,
      "loss": 0.7764,
      "step": 11856
    },
    {
      "epoch": 0.7278922004972528,
      "grad_norm": 1.000335608933336,
      "learning_rate": 3.6380245602909447e-06,
      "loss": 0.734,
      "step": 11857
    },
    {
      "epoch": 0.7279535897357193,
      "grad_norm": 0.9653087596135446,
      "learning_rate": 3.6364906221018937e-06,
      "loss": 0.7831,
      "step": 11858
    },
    {
      "epoch": 0.7280149789741859,
      "grad_norm": 0.952738452400321,
      "learning_rate": 3.634956935496411e-06,
      "loss": 0.7812,
      "step": 11859
    },
    {
      "epoch": 0.7280763682126523,
      "grad_norm": 0.9687902056374819,
      "learning_rate": 3.633423500535118e-06,
      "loss": 0.8209,
      "step": 11860
    },
    {
      "epoch": 0.7281377574511189,
      "grad_norm": 1.0277557471338574,
      "learning_rate": 3.631890317278647e-06,
      "loss": 0.7572,
      "step": 11861
    },
    {
      "epoch": 0.7281991466895853,
      "grad_norm": 0.95803760655351,
      "learning_rate": 3.6303573857876063e-06,
      "loss": 0.7521,
      "step": 11862
    },
    {
      "epoch": 0.7282605359280518,
      "grad_norm": 0.9053482001749875,
      "learning_rate": 3.628824706122609e-06,
      "loss": 0.7518,
      "step": 11863
    },
    {
      "epoch": 0.7283219251665183,
      "grad_norm": 0.9340802617287397,
      "learning_rate": 3.62729227834425e-06,
      "loss": 0.7515,
      "step": 11864
    },
    {
      "epoch": 0.7283833144049848,
      "grad_norm": 0.9471310492945488,
      "learning_rate": 3.625760102513103e-06,
      "loss": 0.7695,
      "step": 11865
    },
    {
      "epoch": 0.7284447036434513,
      "grad_norm": 1.0121319396127448,
      "learning_rate": 3.6242281786897558e-06,
      "loss": 0.7688,
      "step": 11866
    },
    {
      "epoch": 0.7285060928819178,
      "grad_norm": 0.8984511782338858,
      "learning_rate": 3.6226965069347677e-06,
      "loss": 0.7286,
      "step": 11867
    },
    {
      "epoch": 0.7285674821203842,
      "grad_norm": 0.9848364702186877,
      "learning_rate": 3.6211650873086955e-06,
      "loss": 0.7412,
      "step": 11868
    },
    {
      "epoch": 0.7286288713588508,
      "grad_norm": 0.9741944327028033,
      "learning_rate": 3.619633919872083e-06,
      "loss": 0.7068,
      "step": 11869
    },
    {
      "epoch": 0.7286902605973173,
      "grad_norm": 1.0131023522108875,
      "learning_rate": 3.618103004685467e-06,
      "loss": 0.8464,
      "step": 11870
    },
    {
      "epoch": 0.7287516498357838,
      "grad_norm": 0.9150743752873557,
      "learning_rate": 3.6165723418093723e-06,
      "loss": 0.7836,
      "step": 11871
    },
    {
      "epoch": 0.7288130390742503,
      "grad_norm": 0.9432918930509961,
      "learning_rate": 3.615041931304314e-06,
      "loss": 0.7758,
      "step": 11872
    },
    {
      "epoch": 0.7288744283127168,
      "grad_norm": 0.8945747039746063,
      "learning_rate": 3.6135117732307932e-06,
      "loss": 0.7618,
      "step": 11873
    },
    {
      "epoch": 0.7289358175511833,
      "grad_norm": 0.9126641598889678,
      "learning_rate": 3.611981867649316e-06,
      "loss": 0.7293,
      "step": 11874
    },
    {
      "epoch": 0.7289972067896497,
      "grad_norm": 0.9947681241347637,
      "learning_rate": 3.610452214620358e-06,
      "loss": 0.7599,
      "step": 11875
    },
    {
      "epoch": 0.7290585960281163,
      "grad_norm": 0.9252827909164858,
      "learning_rate": 3.608922814204394e-06,
      "loss": 0.7306,
      "step": 11876
    },
    {
      "epoch": 0.7291199852665827,
      "grad_norm": 1.0475474617598421,
      "learning_rate": 3.607393666461897e-06,
      "loss": 0.7988,
      "step": 11877
    },
    {
      "epoch": 0.7291813745050493,
      "grad_norm": 0.8795084530218978,
      "learning_rate": 3.605864771453318e-06,
      "loss": 0.7563,
      "step": 11878
    },
    {
      "epoch": 0.7292427637435157,
      "grad_norm": 1.1099759307541734,
      "learning_rate": 3.6043361292391035e-06,
      "loss": 0.7945,
      "step": 11879
    },
    {
      "epoch": 0.7293041529819823,
      "grad_norm": 0.9473541730711534,
      "learning_rate": 3.602807739879688e-06,
      "loss": 0.7353,
      "step": 11880
    },
    {
      "epoch": 0.7293655422204488,
      "grad_norm": 0.9349642243218667,
      "learning_rate": 3.601279603435497e-06,
      "loss": 0.7346,
      "step": 11881
    },
    {
      "epoch": 0.7294269314589152,
      "grad_norm": 0.9367401325018166,
      "learning_rate": 3.599751719966945e-06,
      "loss": 0.7125,
      "step": 11882
    },
    {
      "epoch": 0.7294883206973818,
      "grad_norm": 0.9507158898172289,
      "learning_rate": 3.598224089534437e-06,
      "loss": 0.7377,
      "step": 11883
    },
    {
      "epoch": 0.7295497099358482,
      "grad_norm": 1.046864070178892,
      "learning_rate": 3.5966967121983753e-06,
      "loss": 0.7766,
      "step": 11884
    },
    {
      "epoch": 0.7296110991743148,
      "grad_norm": 0.9350909894395985,
      "learning_rate": 3.5951695880191363e-06,
      "loss": 0.7907,
      "step": 11885
    },
    {
      "epoch": 0.7296724884127812,
      "grad_norm": 0.9552826812826363,
      "learning_rate": 3.5936427170571e-06,
      "loss": 0.7536,
      "step": 11886
    },
    {
      "epoch": 0.7297338776512478,
      "grad_norm": 0.927133851314415,
      "learning_rate": 3.592116099372626e-06,
      "loss": 0.7304,
      "step": 11887
    },
    {
      "epoch": 0.7297952668897142,
      "grad_norm": 0.9502907341117188,
      "learning_rate": 3.5905897350260786e-06,
      "loss": 0.7651,
      "step": 11888
    },
    {
      "epoch": 0.7298566561281807,
      "grad_norm": 0.8897776925349847,
      "learning_rate": 3.589063624077802e-06,
      "loss": 0.7333,
      "step": 11889
    },
    {
      "epoch": 0.7299180453666472,
      "grad_norm": 0.9891487822631286,
      "learning_rate": 3.5875377665881216e-06,
      "loss": 0.7593,
      "step": 11890
    },
    {
      "epoch": 0.7299794346051137,
      "grad_norm": 0.9193299797890994,
      "learning_rate": 3.586012162617374e-06,
      "loss": 0.7655,
      "step": 11891
    },
    {
      "epoch": 0.7300408238435803,
      "grad_norm": 0.9600033293403221,
      "learning_rate": 3.584486812225868e-06,
      "loss": 0.7611,
      "step": 11892
    },
    {
      "epoch": 0.7301022130820467,
      "grad_norm": 0.8863374651240541,
      "learning_rate": 3.5829617154739128e-06,
      "loss": 0.7335,
      "step": 11893
    },
    {
      "epoch": 0.7301636023205132,
      "grad_norm": 0.918069915647388,
      "learning_rate": 3.581436872421801e-06,
      "loss": 0.733,
      "step": 11894
    },
    {
      "epoch": 0.7302249915589797,
      "grad_norm": 1.005048332539611,
      "learning_rate": 3.5799122831298184e-06,
      "loss": 0.7591,
      "step": 11895
    },
    {
      "epoch": 0.7302863807974462,
      "grad_norm": 0.9681635850730601,
      "learning_rate": 3.5783879476582407e-06,
      "loss": 0.7602,
      "step": 11896
    },
    {
      "epoch": 0.7303477700359127,
      "grad_norm": 0.9918041328678547,
      "learning_rate": 3.576863866067328e-06,
      "loss": 0.7189,
      "step": 11897
    },
    {
      "epoch": 0.7304091592743792,
      "grad_norm": 1.0215247555960816,
      "learning_rate": 3.5753400384173442e-06,
      "loss": 0.7944,
      "step": 11898
    },
    {
      "epoch": 0.7304705485128457,
      "grad_norm": 0.8787730115474712,
      "learning_rate": 3.5738164647685337e-06,
      "loss": 0.764,
      "step": 11899
    },
    {
      "epoch": 0.7305319377513122,
      "grad_norm": 1.0049436407532284,
      "learning_rate": 3.572293145181125e-06,
      "loss": 0.7022,
      "step": 11900
    },
    {
      "epoch": 0.7305933269897787,
      "grad_norm": 1.0337220354131365,
      "learning_rate": 3.5707700797153424e-06,
      "loss": 0.7189,
      "step": 11901
    },
    {
      "epoch": 0.7306547162282452,
      "grad_norm": 1.0294310166199705,
      "learning_rate": 3.5692472684314074e-06,
      "loss": 0.7544,
      "step": 11902
    },
    {
      "epoch": 0.7307161054667117,
      "grad_norm": 0.8666261971326248,
      "learning_rate": 3.5677247113895218e-06,
      "loss": 0.754,
      "step": 11903
    },
    {
      "epoch": 0.7307774947051782,
      "grad_norm": 0.9312616335247678,
      "learning_rate": 3.5662024086498815e-06,
      "loss": 0.7043,
      "step": 11904
    },
    {
      "epoch": 0.7308388839436447,
      "grad_norm": 0.84401781632044,
      "learning_rate": 3.56468036027267e-06,
      "loss": 0.7047,
      "step": 11905
    },
    {
      "epoch": 0.7309002731821111,
      "grad_norm": 0.9286865612838416,
      "learning_rate": 3.5631585663180624e-06,
      "loss": 0.7437,
      "step": 11906
    },
    {
      "epoch": 0.7309616624205777,
      "grad_norm": 0.9685530694022397,
      "learning_rate": 3.561637026846223e-06,
      "loss": 0.772,
      "step": 11907
    },
    {
      "epoch": 0.7310230516590441,
      "grad_norm": 0.9552832764430793,
      "learning_rate": 3.560115741917304e-06,
      "loss": 0.7417,
      "step": 11908
    },
    {
      "epoch": 0.7310844408975107,
      "grad_norm": 0.9897143763443459,
      "learning_rate": 3.5585947115914586e-06,
      "loss": 0.7478,
      "step": 11909
    },
    {
      "epoch": 0.7311458301359771,
      "grad_norm": 0.9313955610799767,
      "learning_rate": 3.557073935928812e-06,
      "loss": 0.7282,
      "step": 11910
    },
    {
      "epoch": 0.7312072193744437,
      "grad_norm": 1.0463388154142514,
      "learning_rate": 3.5555534149894934e-06,
      "loss": 0.7315,
      "step": 11911
    },
    {
      "epoch": 0.7312686086129102,
      "grad_norm": 0.987578327279362,
      "learning_rate": 3.5540331488336098e-06,
      "loss": 0.7632,
      "step": 11912
    },
    {
      "epoch": 0.7313299978513766,
      "grad_norm": 0.9242458656049752,
      "learning_rate": 3.5525131375212797e-06,
      "loss": 0.7306,
      "step": 11913
    },
    {
      "epoch": 0.7313913870898432,
      "grad_norm": 0.9500709154301329,
      "learning_rate": 3.550993381112585e-06,
      "loss": 0.7694,
      "step": 11914
    },
    {
      "epoch": 0.7314527763283096,
      "grad_norm": 0.8909271059141072,
      "learning_rate": 3.549473879667611e-06,
      "loss": 0.7336,
      "step": 11915
    },
    {
      "epoch": 0.7315141655667762,
      "grad_norm": 1.003669765758619,
      "learning_rate": 3.5479546332464364e-06,
      "loss": 0.7752,
      "step": 11916
    },
    {
      "epoch": 0.7315755548052426,
      "grad_norm": 1.039961571534383,
      "learning_rate": 3.546435641909124e-06,
      "loss": 0.7421,
      "step": 11917
    },
    {
      "epoch": 0.7316369440437092,
      "grad_norm": 1.0691668493523214,
      "learning_rate": 3.5449169057157263e-06,
      "loss": 0.8231,
      "step": 11918
    },
    {
      "epoch": 0.7316983332821756,
      "grad_norm": 0.9411343810778271,
      "learning_rate": 3.5433984247262876e-06,
      "loss": 0.736,
      "step": 11919
    },
    {
      "epoch": 0.7317597225206421,
      "grad_norm": 1.0522469483892376,
      "learning_rate": 3.541880199000842e-06,
      "loss": 0.7299,
      "step": 11920
    },
    {
      "epoch": 0.7318211117591086,
      "grad_norm": 0.943560220053683,
      "learning_rate": 3.540362228599412e-06,
      "loss": 0.7776,
      "step": 11921
    },
    {
      "epoch": 0.7318825009975751,
      "grad_norm": 1.1616505056234931,
      "learning_rate": 3.5388445135820094e-06,
      "loss": 0.7956,
      "step": 11922
    },
    {
      "epoch": 0.7319438902360417,
      "grad_norm": 0.9702737291869247,
      "learning_rate": 3.5373270540086458e-06,
      "loss": 0.748,
      "step": 11923
    },
    {
      "epoch": 0.7320052794745081,
      "grad_norm": 1.0199190221022645,
      "learning_rate": 3.5358098499393046e-06,
      "loss": 0.7535,
      "step": 11924
    },
    {
      "epoch": 0.7320666687129747,
      "grad_norm": 0.9493732000523916,
      "learning_rate": 3.5342929014339733e-06,
      "loss": 0.7055,
      "step": 11925
    },
    {
      "epoch": 0.7321280579514411,
      "grad_norm": 0.9201517451792195,
      "learning_rate": 3.5327762085526216e-06,
      "loss": 0.7523,
      "step": 11926
    },
    {
      "epoch": 0.7321894471899076,
      "grad_norm": 0.9570058449273945,
      "learning_rate": 3.5312597713552188e-06,
      "loss": 0.7683,
      "step": 11927
    },
    {
      "epoch": 0.7322508364283741,
      "grad_norm": 1.0217577266276208,
      "learning_rate": 3.5297435899017186e-06,
      "loss": 0.795,
      "step": 11928
    },
    {
      "epoch": 0.7323122256668406,
      "grad_norm": 0.8665860583574679,
      "learning_rate": 3.528227664252052e-06,
      "loss": 0.7582,
      "step": 11929
    },
    {
      "epoch": 0.7323736149053071,
      "grad_norm": 0.9700053268760929,
      "learning_rate": 3.526711994466163e-06,
      "loss": 0.7688,
      "step": 11930
    },
    {
      "epoch": 0.7324350041437736,
      "grad_norm": 0.9351675058364731,
      "learning_rate": 3.52519658060397e-06,
      "loss": 0.8027,
      "step": 11931
    },
    {
      "epoch": 0.73249639338224,
      "grad_norm": 0.8576518919286595,
      "learning_rate": 3.523681422725386e-06,
      "loss": 0.7332,
      "step": 11932
    },
    {
      "epoch": 0.7325577826207066,
      "grad_norm": 0.5942066848231066,
      "learning_rate": 3.5221665208903134e-06,
      "loss": 0.6453,
      "step": 11933
    },
    {
      "epoch": 0.7326191718591731,
      "grad_norm": 0.9041231001460749,
      "learning_rate": 3.520651875158644e-06,
      "loss": 0.7862,
      "step": 11934
    },
    {
      "epoch": 0.7326805610976396,
      "grad_norm": 0.9088397098706307,
      "learning_rate": 3.5191374855902607e-06,
      "loss": 0.7293,
      "step": 11935
    },
    {
      "epoch": 0.7327419503361061,
      "grad_norm": 0.9367057962136813,
      "learning_rate": 3.5176233522450297e-06,
      "loss": 0.7773,
      "step": 11936
    },
    {
      "epoch": 0.7328033395745726,
      "grad_norm": 0.9397692075339643,
      "learning_rate": 3.5161094751828217e-06,
      "loss": 0.6503,
      "step": 11937
    },
    {
      "epoch": 0.7328647288130391,
      "grad_norm": 0.9825553384646889,
      "learning_rate": 3.5145958544634886e-06,
      "loss": 0.7857,
      "step": 11938
    },
    {
      "epoch": 0.7329261180515055,
      "grad_norm": 0.8272756397754708,
      "learning_rate": 3.513082490146864e-06,
      "loss": 0.7322,
      "step": 11939
    },
    {
      "epoch": 0.7329875072899721,
      "grad_norm": 0.9986516366205639,
      "learning_rate": 3.51156938229278e-06,
      "loss": 0.7709,
      "step": 11940
    },
    {
      "epoch": 0.7330488965284385,
      "grad_norm": 0.8885555332406553,
      "learning_rate": 3.5100565309610636e-06,
      "loss": 0.7719,
      "step": 11941
    },
    {
      "epoch": 0.7331102857669051,
      "grad_norm": 1.0361105789764076,
      "learning_rate": 3.5085439362115224e-06,
      "loss": 0.765,
      "step": 11942
    },
    {
      "epoch": 0.7331716750053715,
      "grad_norm": 1.015437628703964,
      "learning_rate": 3.5070315981039594e-06,
      "loss": 0.8313,
      "step": 11943
    },
    {
      "epoch": 0.733233064243838,
      "grad_norm": 0.9362065634390299,
      "learning_rate": 3.505519516698165e-06,
      "loss": 0.7444,
      "step": 11944
    },
    {
      "epoch": 0.7332944534823046,
      "grad_norm": 0.8618939945145438,
      "learning_rate": 3.504007692053918e-06,
      "loss": 0.6907,
      "step": 11945
    },
    {
      "epoch": 0.733355842720771,
      "grad_norm": 1.0003608479907355,
      "learning_rate": 3.5024961242309895e-06,
      "loss": 0.7304,
      "step": 11946
    },
    {
      "epoch": 0.7334172319592376,
      "grad_norm": 0.8827265367205047,
      "learning_rate": 3.5009848132891367e-06,
      "loss": 0.7506,
      "step": 11947
    },
    {
      "epoch": 0.733478621197704,
      "grad_norm": 0.9665836127505636,
      "learning_rate": 3.499473759288121e-06,
      "loss": 0.7773,
      "step": 11948
    },
    {
      "epoch": 0.7335400104361706,
      "grad_norm": 0.9395602671359159,
      "learning_rate": 3.497962962287671e-06,
      "loss": 0.7864,
      "step": 11949
    },
    {
      "epoch": 0.733601399674637,
      "grad_norm": 0.9313457324183577,
      "learning_rate": 3.4964524223475214e-06,
      "loss": 0.7682,
      "step": 11950
    },
    {
      "epoch": 0.7336627889131035,
      "grad_norm": 1.0631518299684946,
      "learning_rate": 3.4949421395273863e-06,
      "loss": 0.7394,
      "step": 11951
    },
    {
      "epoch": 0.73372417815157,
      "grad_norm": 0.918089983643541,
      "learning_rate": 3.4934321138869843e-06,
      "loss": 0.8005,
      "step": 11952
    },
    {
      "epoch": 0.7337855673900365,
      "grad_norm": 0.9958667327150758,
      "learning_rate": 3.491922345486013e-06,
      "loss": 0.7376,
      "step": 11953
    },
    {
      "epoch": 0.7338469566285031,
      "grad_norm": 0.8586006434047445,
      "learning_rate": 3.4904128343841526e-06,
      "loss": 0.7174,
      "step": 11954
    },
    {
      "epoch": 0.7339083458669695,
      "grad_norm": 0.9007517436400224,
      "learning_rate": 3.488903580641092e-06,
      "loss": 0.7371,
      "step": 11955
    },
    {
      "epoch": 0.7339697351054361,
      "grad_norm": 0.9166191179584499,
      "learning_rate": 3.487394584316497e-06,
      "loss": 0.7693,
      "step": 11956
    },
    {
      "epoch": 0.7340311243439025,
      "grad_norm": 0.9387002030043436,
      "learning_rate": 3.485885845470025e-06,
      "loss": 0.7764,
      "step": 11957
    },
    {
      "epoch": 0.734092513582369,
      "grad_norm": 1.0277306256470333,
      "learning_rate": 3.4843773641613264e-06,
      "loss": 0.736,
      "step": 11958
    },
    {
      "epoch": 0.7341539028208355,
      "grad_norm": 0.9101952000844376,
      "learning_rate": 3.482869140450038e-06,
      "loss": 0.7259,
      "step": 11959
    },
    {
      "epoch": 0.734215292059302,
      "grad_norm": 1.0900703443349617,
      "learning_rate": 3.4813611743957886e-06,
      "loss": 0.7787,
      "step": 11960
    },
    {
      "epoch": 0.7342766812977685,
      "grad_norm": 0.9714550957892768,
      "learning_rate": 3.479853466058194e-06,
      "loss": 0.7797,
      "step": 11961
    },
    {
      "epoch": 0.734338070536235,
      "grad_norm": 0.9518283664982051,
      "learning_rate": 3.478346015496866e-06,
      "loss": 0.7688,
      "step": 11962
    },
    {
      "epoch": 0.7343994597747014,
      "grad_norm": 1.0618315302412342,
      "learning_rate": 3.4768388227714047e-06,
      "loss": 0.7519,
      "step": 11963
    },
    {
      "epoch": 0.734460849013168,
      "grad_norm": 0.918837542922033,
      "learning_rate": 3.475331887941388e-06,
      "loss": 0.7321,
      "step": 11964
    },
    {
      "epoch": 0.7345222382516345,
      "grad_norm": 0.8549733459506529,
      "learning_rate": 3.473825211066396e-06,
      "loss": 0.7213,
      "step": 11965
    },
    {
      "epoch": 0.734583627490101,
      "grad_norm": 0.9125688625946502,
      "learning_rate": 3.4723187922060007e-06,
      "loss": 0.7076,
      "step": 11966
    },
    {
      "epoch": 0.7346450167285675,
      "grad_norm": 0.9976060130340089,
      "learning_rate": 3.4708126314197566e-06,
      "loss": 0.7545,
      "step": 11967
    },
    {
      "epoch": 0.734706405967034,
      "grad_norm": 1.0002955301357719,
      "learning_rate": 3.46930672876721e-06,
      "loss": 0.7608,
      "step": 11968
    },
    {
      "epoch": 0.7347677952055005,
      "grad_norm": 0.8424132959501638,
      "learning_rate": 3.467801084307896e-06,
      "loss": 0.7419,
      "step": 11969
    },
    {
      "epoch": 0.7348291844439669,
      "grad_norm": 0.9799330339244623,
      "learning_rate": 3.466295698101342e-06,
      "loss": 0.7394,
      "step": 11970
    },
    {
      "epoch": 0.7348905736824335,
      "grad_norm": 1.009980279762203,
      "learning_rate": 3.4647905702070637e-06,
      "loss": 0.8082,
      "step": 11971
    },
    {
      "epoch": 0.7349519629208999,
      "grad_norm": 0.9301539345801447,
      "learning_rate": 3.4632857006845646e-06,
      "loss": 0.7722,
      "step": 11972
    },
    {
      "epoch": 0.7350133521593665,
      "grad_norm": 0.5862210346075181,
      "learning_rate": 3.461781089593348e-06,
      "loss": 0.6824,
      "step": 11973
    },
    {
      "epoch": 0.7350747413978329,
      "grad_norm": 0.9192441141943065,
      "learning_rate": 3.460276736992891e-06,
      "loss": 0.7613,
      "step": 11974
    },
    {
      "epoch": 0.7351361306362995,
      "grad_norm": 0.91254467407807,
      "learning_rate": 3.4587726429426684e-06,
      "loss": 0.7298,
      "step": 11975
    },
    {
      "epoch": 0.735197519874766,
      "grad_norm": 0.9935125249525885,
      "learning_rate": 3.457268807502151e-06,
      "loss": 0.7798,
      "step": 11976
    },
    {
      "epoch": 0.7352589091132324,
      "grad_norm": 0.9137832579425469,
      "learning_rate": 3.455765230730794e-06,
      "loss": 0.7536,
      "step": 11977
    },
    {
      "epoch": 0.735320298351699,
      "grad_norm": 1.0767313553233013,
      "learning_rate": 3.454261912688036e-06,
      "loss": 0.7267,
      "step": 11978
    },
    {
      "epoch": 0.7353816875901654,
      "grad_norm": 0.9153636576739307,
      "learning_rate": 3.452758853433309e-06,
      "loss": 0.7661,
      "step": 11979
    },
    {
      "epoch": 0.735443076828632,
      "grad_norm": 0.9313751436687535,
      "learning_rate": 3.4512560530260463e-06,
      "loss": 0.7983,
      "step": 11980
    },
    {
      "epoch": 0.7355044660670984,
      "grad_norm": 1.107348978993159,
      "learning_rate": 3.4497535115256564e-06,
      "loss": 0.7743,
      "step": 11981
    },
    {
      "epoch": 0.735565855305565,
      "grad_norm": 0.9362145941042818,
      "learning_rate": 3.4482512289915425e-06,
      "loss": 0.7972,
      "step": 11982
    },
    {
      "epoch": 0.7356272445440314,
      "grad_norm": 0.89482981482654,
      "learning_rate": 3.4467492054830998e-06,
      "loss": 0.77,
      "step": 11983
    },
    {
      "epoch": 0.7356886337824979,
      "grad_norm": 0.9550216663715735,
      "learning_rate": 3.4452474410597104e-06,
      "loss": 0.8027,
      "step": 11984
    },
    {
      "epoch": 0.7357500230209644,
      "grad_norm": 1.0758675744999395,
      "learning_rate": 3.443745935780746e-06,
      "loss": 0.7754,
      "step": 11985
    },
    {
      "epoch": 0.7358114122594309,
      "grad_norm": 0.9062162912665706,
      "learning_rate": 3.442244689705567e-06,
      "loss": 0.7916,
      "step": 11986
    },
    {
      "epoch": 0.7358728014978975,
      "grad_norm": 0.9507362776245956,
      "learning_rate": 3.4407437028935353e-06,
      "loss": 0.7641,
      "step": 11987
    },
    {
      "epoch": 0.7359341907363639,
      "grad_norm": 0.9901663743843928,
      "learning_rate": 3.4392429754039837e-06,
      "loss": 0.7402,
      "step": 11988
    },
    {
      "epoch": 0.7359955799748304,
      "grad_norm": 0.8621017190485624,
      "learning_rate": 3.4377425072962467e-06,
      "loss": 0.7273,
      "step": 11989
    },
    {
      "epoch": 0.7360569692132969,
      "grad_norm": 0.8614624891048034,
      "learning_rate": 3.4362422986296417e-06,
      "loss": 0.7974,
      "step": 11990
    },
    {
      "epoch": 0.7361183584517634,
      "grad_norm": 1.0631002224178485,
      "learning_rate": 3.434742349463488e-06,
      "loss": 0.7725,
      "step": 11991
    },
    {
      "epoch": 0.7361797476902299,
      "grad_norm": 0.8995372596616159,
      "learning_rate": 3.433242659857086e-06,
      "loss": 0.8129,
      "step": 11992
    },
    {
      "epoch": 0.7362411369286964,
      "grad_norm": 0.9946528405283688,
      "learning_rate": 3.431743229869716e-06,
      "loss": 0.774,
      "step": 11993
    },
    {
      "epoch": 0.7363025261671629,
      "grad_norm": 0.9585050065130264,
      "learning_rate": 3.4302440595606702e-06,
      "loss": 0.7457,
      "step": 11994
    },
    {
      "epoch": 0.7363639154056294,
      "grad_norm": 0.8965675046697966,
      "learning_rate": 3.428745148989213e-06,
      "loss": 0.7851,
      "step": 11995
    },
    {
      "epoch": 0.7364253046440958,
      "grad_norm": 0.8691975104098,
      "learning_rate": 3.427246498214606e-06,
      "loss": 0.7377,
      "step": 11996
    },
    {
      "epoch": 0.7364866938825624,
      "grad_norm": 1.0041757077475806,
      "learning_rate": 3.4257481072960984e-06,
      "loss": 0.7752,
      "step": 11997
    },
    {
      "epoch": 0.7365480831210289,
      "grad_norm": 0.9040735679939753,
      "learning_rate": 3.424249976292929e-06,
      "loss": 0.7949,
      "step": 11998
    },
    {
      "epoch": 0.7366094723594954,
      "grad_norm": 0.9904217439711049,
      "learning_rate": 3.4227521052643288e-06,
      "loss": 0.7459,
      "step": 11999
    },
    {
      "epoch": 0.7366708615979619,
      "grad_norm": 1.00822385903031,
      "learning_rate": 3.4212544942695115e-06,
      "loss": 0.7327,
      "step": 12000
    },
    {
      "epoch": 0.7367322508364283,
      "grad_norm": 0.91141241713595,
      "learning_rate": 3.4197571433676935e-06,
      "loss": 0.7313,
      "step": 12001
    },
    {
      "epoch": 0.7367936400748949,
      "grad_norm": 1.219478831476151,
      "learning_rate": 3.418260052618072e-06,
      "loss": 0.754,
      "step": 12002
    },
    {
      "epoch": 0.7368550293133613,
      "grad_norm": 1.0107088001013045,
      "learning_rate": 3.4167632220798297e-06,
      "loss": 0.7771,
      "step": 12003
    },
    {
      "epoch": 0.7369164185518279,
      "grad_norm": 1.1297953929963422,
      "learning_rate": 3.4152666518121424e-06,
      "loss": 0.8055,
      "step": 12004
    },
    {
      "epoch": 0.7369778077902943,
      "grad_norm": 0.5646879645756747,
      "learning_rate": 3.4137703418741864e-06,
      "loss": 0.6697,
      "step": 12005
    },
    {
      "epoch": 0.7370391970287609,
      "grad_norm": 1.7586941275752694,
      "learning_rate": 3.412274292325114e-06,
      "loss": 0.787,
      "step": 12006
    },
    {
      "epoch": 0.7371005862672274,
      "grad_norm": 0.978847623804697,
      "learning_rate": 3.4107785032240725e-06,
      "loss": 0.7848,
      "step": 12007
    },
    {
      "epoch": 0.7371619755056938,
      "grad_norm": 1.0010408482249533,
      "learning_rate": 3.409282974630198e-06,
      "loss": 0.7421,
      "step": 12008
    },
    {
      "epoch": 0.7372233647441604,
      "grad_norm": 1.008941530007666,
      "learning_rate": 3.4077877066026177e-06,
      "loss": 0.756,
      "step": 12009
    },
    {
      "epoch": 0.7372847539826268,
      "grad_norm": 0.9792448139550648,
      "learning_rate": 3.4062926992004463e-06,
      "loss": 0.7744,
      "step": 12010
    },
    {
      "epoch": 0.7373461432210934,
      "grad_norm": 0.9967272407645106,
      "learning_rate": 3.404797952482787e-06,
      "loss": 0.7736,
      "step": 12011
    },
    {
      "epoch": 0.7374075324595598,
      "grad_norm": 1.0097645201799008,
      "learning_rate": 3.403303466508745e-06,
      "loss": 0.7509,
      "step": 12012
    },
    {
      "epoch": 0.7374689216980264,
      "grad_norm": 0.9467352554862319,
      "learning_rate": 3.401809241337396e-06,
      "loss": 0.7444,
      "step": 12013
    },
    {
      "epoch": 0.7375303109364928,
      "grad_norm": 0.9876468302013286,
      "learning_rate": 3.4003152770278124e-06,
      "loss": 0.7534,
      "step": 12014
    },
    {
      "epoch": 0.7375917001749593,
      "grad_norm": 0.962318050304717,
      "learning_rate": 3.3988215736390683e-06,
      "loss": 0.7093,
      "step": 12015
    },
    {
      "epoch": 0.7376530894134258,
      "grad_norm": 0.9588173765055036,
      "learning_rate": 3.397328131230212e-06,
      "loss": 0.7131,
      "step": 12016
    },
    {
      "epoch": 0.7377144786518923,
      "grad_norm": 0.9326820375623128,
      "learning_rate": 3.3958349498602926e-06,
      "loss": 0.797,
      "step": 12017
    },
    {
      "epoch": 0.7377758678903589,
      "grad_norm": 0.8728149546789992,
      "learning_rate": 3.3943420295883323e-06,
      "loss": 0.7547,
      "step": 12018
    },
    {
      "epoch": 0.7378372571288253,
      "grad_norm": 1.0629700329851008,
      "learning_rate": 3.392849370473363e-06,
      "loss": 0.7384,
      "step": 12019
    },
    {
      "epoch": 0.7378986463672919,
      "grad_norm": 1.043793816358556,
      "learning_rate": 3.3913569725743976e-06,
      "loss": 0.7685,
      "step": 12020
    },
    {
      "epoch": 0.7379600356057583,
      "grad_norm": 0.9334477000280711,
      "learning_rate": 3.389864835950435e-06,
      "loss": 0.7851,
      "step": 12021
    },
    {
      "epoch": 0.7380214248442248,
      "grad_norm": 1.0109219171337307,
      "learning_rate": 3.38837296066047e-06,
      "loss": 0.7437,
      "step": 12022
    },
    {
      "epoch": 0.7380828140826913,
      "grad_norm": 0.9828517162045739,
      "learning_rate": 3.3868813467634833e-06,
      "loss": 0.7982,
      "step": 12023
    },
    {
      "epoch": 0.7381442033211578,
      "grad_norm": 0.9375032787677786,
      "learning_rate": 3.3853899943184456e-06,
      "loss": 0.8261,
      "step": 12024
    },
    {
      "epoch": 0.7382055925596243,
      "grad_norm": 0.8991863010185606,
      "learning_rate": 3.383898903384316e-06,
      "loss": 0.6992,
      "step": 12025
    },
    {
      "epoch": 0.7382669817980908,
      "grad_norm": 0.9329031577519609,
      "learning_rate": 3.3824080740200517e-06,
      "loss": 0.7721,
      "step": 12026
    },
    {
      "epoch": 0.7383283710365572,
      "grad_norm": 0.9145253129489863,
      "learning_rate": 3.3809175062845924e-06,
      "loss": 0.7183,
      "step": 12027
    },
    {
      "epoch": 0.7383897602750238,
      "grad_norm": 0.9798181797001349,
      "learning_rate": 3.3794272002368624e-06,
      "loss": 0.7393,
      "step": 12028
    },
    {
      "epoch": 0.7384511495134903,
      "grad_norm": 0.9275663981983787,
      "learning_rate": 3.377937155935781e-06,
      "loss": 0.7428,
      "step": 12029
    },
    {
      "epoch": 0.7385125387519568,
      "grad_norm": 0.9873196190679007,
      "learning_rate": 3.3764473734402646e-06,
      "loss": 0.7513,
      "step": 12030
    },
    {
      "epoch": 0.7385739279904233,
      "grad_norm": 0.9188659539546018,
      "learning_rate": 3.3749578528092086e-06,
      "loss": 0.7558,
      "step": 12031
    },
    {
      "epoch": 0.7386353172288898,
      "grad_norm": 0.8771998092316876,
      "learning_rate": 3.3734685941015023e-06,
      "loss": 0.7335,
      "step": 12032
    },
    {
      "epoch": 0.7386967064673563,
      "grad_norm": 0.9437646758729165,
      "learning_rate": 3.3719795973760226e-06,
      "loss": 0.7743,
      "step": 12033
    },
    {
      "epoch": 0.7387580957058227,
      "grad_norm": 0.9975868911049681,
      "learning_rate": 3.37049086269164e-06,
      "loss": 0.766,
      "step": 12034
    },
    {
      "epoch": 0.7388194849442893,
      "grad_norm": 1.0893882797453929,
      "learning_rate": 3.36900239010721e-06,
      "loss": 0.7594,
      "step": 12035
    },
    {
      "epoch": 0.7388808741827557,
      "grad_norm": 0.987108450657167,
      "learning_rate": 3.3675141796815767e-06,
      "loss": 0.7661,
      "step": 12036
    },
    {
      "epoch": 0.7389422634212223,
      "grad_norm": 0.9148614997934377,
      "learning_rate": 3.366026231473588e-06,
      "loss": 0.707,
      "step": 12037
    },
    {
      "epoch": 0.7390036526596887,
      "grad_norm": 0.9646170686435932,
      "learning_rate": 3.364538545542061e-06,
      "loss": 0.7211,
      "step": 12038
    },
    {
      "epoch": 0.7390650418981553,
      "grad_norm": 1.0196327328815766,
      "learning_rate": 3.3630511219458093e-06,
      "loss": 0.7549,
      "step": 12039
    },
    {
      "epoch": 0.7391264311366218,
      "grad_norm": 0.8218327681280103,
      "learning_rate": 3.3615639607436478e-06,
      "loss": 0.7038,
      "step": 12040
    },
    {
      "epoch": 0.7391878203750882,
      "grad_norm": 1.0677754905231704,
      "learning_rate": 3.360077061994368e-06,
      "loss": 0.7894,
      "step": 12041
    },
    {
      "epoch": 0.7392492096135548,
      "grad_norm": 0.5798854009193747,
      "learning_rate": 3.358590425756758e-06,
      "loss": 0.6429,
      "step": 12042
    },
    {
      "epoch": 0.7393105988520212,
      "grad_norm": 1.0170627089881403,
      "learning_rate": 3.3571040520895825e-06,
      "loss": 0.7659,
      "step": 12043
    },
    {
      "epoch": 0.7393719880904878,
      "grad_norm": 1.000731015374547,
      "learning_rate": 3.3556179410516155e-06,
      "loss": 0.7629,
      "step": 12044
    },
    {
      "epoch": 0.7394333773289542,
      "grad_norm": 1.030033679557863,
      "learning_rate": 3.3541320927016086e-06,
      "loss": 0.7432,
      "step": 12045
    },
    {
      "epoch": 0.7394947665674207,
      "grad_norm": 1.0560258277908967,
      "learning_rate": 3.352646507098304e-06,
      "loss": 0.7277,
      "step": 12046
    },
    {
      "epoch": 0.7395561558058872,
      "grad_norm": 1.0263440006877966,
      "learning_rate": 3.3511611843004354e-06,
      "loss": 0.7513,
      "step": 12047
    },
    {
      "epoch": 0.7396175450443537,
      "grad_norm": 1.0094943286913933,
      "learning_rate": 3.3496761243667264e-06,
      "loss": 0.7643,
      "step": 12048
    },
    {
      "epoch": 0.7396789342828202,
      "grad_norm": 1.0347283816367363,
      "learning_rate": 3.3481913273558885e-06,
      "loss": 0.7482,
      "step": 12049
    },
    {
      "epoch": 0.7397403235212867,
      "grad_norm": 0.9307598027928695,
      "learning_rate": 3.3467067933266206e-06,
      "loss": 0.7347,
      "step": 12050
    },
    {
      "epoch": 0.7398017127597533,
      "grad_norm": 0.9138315872477756,
      "learning_rate": 3.3452225223376234e-06,
      "loss": 0.784,
      "step": 12051
    },
    {
      "epoch": 0.7398631019982197,
      "grad_norm": 1.004330843131772,
      "learning_rate": 3.3437385144475697e-06,
      "loss": 0.7788,
      "step": 12052
    },
    {
      "epoch": 0.7399244912366862,
      "grad_norm": 0.9006886660926791,
      "learning_rate": 3.3422547697151286e-06,
      "loss": 0.7465,
      "step": 12053
    },
    {
      "epoch": 0.7399858804751527,
      "grad_norm": 1.0139062757468733,
      "learning_rate": 3.3407712881989683e-06,
      "loss": 0.7784,
      "step": 12054
    },
    {
      "epoch": 0.7400472697136192,
      "grad_norm": 0.9713313328645362,
      "learning_rate": 3.3392880699577344e-06,
      "loss": 0.7052,
      "step": 12055
    },
    {
      "epoch": 0.7401086589520857,
      "grad_norm": 0.9688118933594558,
      "learning_rate": 3.337805115050071e-06,
      "loss": 0.7678,
      "step": 12056
    },
    {
      "epoch": 0.7401700481905522,
      "grad_norm": 0.9145320639131415,
      "learning_rate": 3.336322423534597e-06,
      "loss": 0.7756,
      "step": 12057
    },
    {
      "epoch": 0.7402314374290186,
      "grad_norm": 0.9820969324965484,
      "learning_rate": 3.334839995469941e-06,
      "loss": 0.6934,
      "step": 12058
    },
    {
      "epoch": 0.7402928266674852,
      "grad_norm": 1.0094999726394267,
      "learning_rate": 3.3333578309147065e-06,
      "loss": 0.7783,
      "step": 12059
    },
    {
      "epoch": 0.7403542159059517,
      "grad_norm": 0.8791936689359378,
      "learning_rate": 3.3318759299274927e-06,
      "loss": 0.725,
      "step": 12060
    },
    {
      "epoch": 0.7404156051444182,
      "grad_norm": 0.9987004234479805,
      "learning_rate": 3.3303942925668886e-06,
      "loss": 0.7652,
      "step": 12061
    },
    {
      "epoch": 0.7404769943828847,
      "grad_norm": 0.592629794729052,
      "learning_rate": 3.3289129188914684e-06,
      "loss": 0.6279,
      "step": 12062
    },
    {
      "epoch": 0.7405383836213512,
      "grad_norm": 0.9315533921494873,
      "learning_rate": 3.3274318089598e-06,
      "loss": 0.8141,
      "step": 12063
    },
    {
      "epoch": 0.7405997728598177,
      "grad_norm": 0.9303972810944806,
      "learning_rate": 3.3259509628304364e-06,
      "loss": 0.8244,
      "step": 12064
    },
    {
      "epoch": 0.7406611620982841,
      "grad_norm": 0.6166095995349422,
      "learning_rate": 3.3244703805619304e-06,
      "loss": 0.7152,
      "step": 12065
    },
    {
      "epoch": 0.7407225513367507,
      "grad_norm": 1.0062100395476978,
      "learning_rate": 3.3229900622128165e-06,
      "loss": 0.7706,
      "step": 12066
    },
    {
      "epoch": 0.7407839405752171,
      "grad_norm": 1.0263633451673209,
      "learning_rate": 3.321510007841613e-06,
      "loss": 0.8113,
      "step": 12067
    },
    {
      "epoch": 0.7408453298136837,
      "grad_norm": 0.8874321919637301,
      "learning_rate": 3.3200302175068355e-06,
      "loss": 0.7328,
      "step": 12068
    },
    {
      "epoch": 0.7409067190521501,
      "grad_norm": 0.9684156038518302,
      "learning_rate": 3.318550691266993e-06,
      "loss": 0.7382,
      "step": 12069
    },
    {
      "epoch": 0.7409681082906167,
      "grad_norm": 0.9970883939852966,
      "learning_rate": 3.3170714291805772e-06,
      "loss": 0.77,
      "step": 12070
    },
    {
      "epoch": 0.7410294975290832,
      "grad_norm": 0.9942171582400298,
      "learning_rate": 3.3155924313060693e-06,
      "loss": 0.8065,
      "step": 12071
    },
    {
      "epoch": 0.7410908867675496,
      "grad_norm": 1.143678566389438,
      "learning_rate": 3.314113697701945e-06,
      "loss": 0.7554,
      "step": 12072
    },
    {
      "epoch": 0.7411522760060162,
      "grad_norm": 1.0004187716022637,
      "learning_rate": 3.3126352284266638e-06,
      "loss": 0.7692,
      "step": 12073
    },
    {
      "epoch": 0.7412136652444826,
      "grad_norm": 0.8642636348592849,
      "learning_rate": 3.3111570235386793e-06,
      "loss": 0.8009,
      "step": 12074
    },
    {
      "epoch": 0.7412750544829492,
      "grad_norm": 0.9379220610643362,
      "learning_rate": 3.309679083096428e-06,
      "loss": 0.7391,
      "step": 12075
    },
    {
      "epoch": 0.7413364437214156,
      "grad_norm": 1.0175992131131926,
      "learning_rate": 3.3082014071583525e-06,
      "loss": 0.7436,
      "step": 12076
    },
    {
      "epoch": 0.7413978329598822,
      "grad_norm": 0.9554687659630807,
      "learning_rate": 3.3067239957828612e-06,
      "loss": 0.7905,
      "step": 12077
    },
    {
      "epoch": 0.7414592221983486,
      "grad_norm": 0.9635893240390633,
      "learning_rate": 3.305246849028365e-06,
      "loss": 0.7589,
      "step": 12078
    },
    {
      "epoch": 0.7415206114368151,
      "grad_norm": 1.0423789026705865,
      "learning_rate": 3.3037699669532718e-06,
      "loss": 0.7785,
      "step": 12079
    },
    {
      "epoch": 0.7415820006752816,
      "grad_norm": 0.8868573389746502,
      "learning_rate": 3.302293349615965e-06,
      "loss": 0.7499,
      "step": 12080
    },
    {
      "epoch": 0.7416433899137481,
      "grad_norm": 0.8985993345897121,
      "learning_rate": 3.3008169970748273e-06,
      "loss": 0.7723,
      "step": 12081
    },
    {
      "epoch": 0.7417047791522147,
      "grad_norm": 1.0478514685337255,
      "learning_rate": 3.2993409093882155e-06,
      "loss": 0.8046,
      "step": 12082
    },
    {
      "epoch": 0.7417661683906811,
      "grad_norm": 1.0217801025292716,
      "learning_rate": 3.2978650866145e-06,
      "loss": 0.7869,
      "step": 12083
    },
    {
      "epoch": 0.7418275576291476,
      "grad_norm": 0.9353211535738029,
      "learning_rate": 3.296389528812023e-06,
      "loss": 0.7704,
      "step": 12084
    },
    {
      "epoch": 0.7418889468676141,
      "grad_norm": 0.9234003364744557,
      "learning_rate": 3.294914236039122e-06,
      "loss": 0.7562,
      "step": 12085
    },
    {
      "epoch": 0.7419503361060806,
      "grad_norm": 0.9244073244896477,
      "learning_rate": 3.293439208354121e-06,
      "loss": 0.7156,
      "step": 12086
    },
    {
      "epoch": 0.7420117253445471,
      "grad_norm": 0.9401036309491186,
      "learning_rate": 3.291964445815338e-06,
      "loss": 0.7708,
      "step": 12087
    },
    {
      "epoch": 0.7420731145830136,
      "grad_norm": 0.9958999197136645,
      "learning_rate": 3.290489948481077e-06,
      "loss": 0.7175,
      "step": 12088
    },
    {
      "epoch": 0.74213450382148,
      "grad_norm": 0.9274527442037342,
      "learning_rate": 3.2890157164096315e-06,
      "loss": 0.7131,
      "step": 12089
    },
    {
      "epoch": 0.7421958930599466,
      "grad_norm": 0.981001489184522,
      "learning_rate": 3.28754174965929e-06,
      "loss": 0.7995,
      "step": 12090
    },
    {
      "epoch": 0.742257282298413,
      "grad_norm": 1.0888526820611981,
      "learning_rate": 3.2860680482883265e-06,
      "loss": 0.7483,
      "step": 12091
    },
    {
      "epoch": 0.7423186715368796,
      "grad_norm": 0.9660551582205325,
      "learning_rate": 3.2845946123549998e-06,
      "loss": 0.7536,
      "step": 12092
    },
    {
      "epoch": 0.7423800607753461,
      "grad_norm": 1.0450782728199342,
      "learning_rate": 3.2831214419175604e-06,
      "loss": 0.7566,
      "step": 12093
    },
    {
      "epoch": 0.7424414500138126,
      "grad_norm": 1.0025222904715043,
      "learning_rate": 3.2816485370342577e-06,
      "loss": 0.7492,
      "step": 12094
    },
    {
      "epoch": 0.7425028392522791,
      "grad_norm": 0.8254666507150162,
      "learning_rate": 3.280175897763321e-06,
      "loss": 0.7382,
      "step": 12095
    },
    {
      "epoch": 0.7425642284907455,
      "grad_norm": 0.9649200665199239,
      "learning_rate": 3.278703524162972e-06,
      "loss": 0.7591,
      "step": 12096
    },
    {
      "epoch": 0.7426256177292121,
      "grad_norm": 0.9640220337248964,
      "learning_rate": 3.2772314162914198e-06,
      "loss": 0.7589,
      "step": 12097
    },
    {
      "epoch": 0.7426870069676785,
      "grad_norm": 0.9307564438610786,
      "learning_rate": 3.275759574206866e-06,
      "loss": 0.7249,
      "step": 12098
    },
    {
      "epoch": 0.7427483962061451,
      "grad_norm": 0.9049996229945472,
      "learning_rate": 3.2742879979675e-06,
      "loss": 0.733,
      "step": 12099
    },
    {
      "epoch": 0.7428097854446115,
      "grad_norm": 1.0087079168563262,
      "learning_rate": 3.272816687631498e-06,
      "loss": 0.7343,
      "step": 12100
    },
    {
      "epoch": 0.7428711746830781,
      "grad_norm": 1.0282081920360595,
      "learning_rate": 3.2713456432570377e-06,
      "loss": 0.7666,
      "step": 12101
    },
    {
      "epoch": 0.7429325639215446,
      "grad_norm": 0.9000486853387403,
      "learning_rate": 3.2698748649022693e-06,
      "loss": 0.788,
      "step": 12102
    },
    {
      "epoch": 0.742993953160011,
      "grad_norm": 0.9380599645704722,
      "learning_rate": 3.268404352625338e-06,
      "loss": 0.787,
      "step": 12103
    },
    {
      "epoch": 0.7430553423984776,
      "grad_norm": 1.0624703855849515,
      "learning_rate": 3.2669341064843896e-06,
      "loss": 0.7626,
      "step": 12104
    },
    {
      "epoch": 0.743116731636944,
      "grad_norm": 0.9589677024243032,
      "learning_rate": 3.2654641265375474e-06,
      "loss": 0.7387,
      "step": 12105
    },
    {
      "epoch": 0.7431781208754106,
      "grad_norm": 0.9420917691685575,
      "learning_rate": 3.26399441284293e-06,
      "loss": 0.7437,
      "step": 12106
    },
    {
      "epoch": 0.743239510113877,
      "grad_norm": 0.9718621497588139,
      "learning_rate": 3.2625249654586344e-06,
      "loss": 0.7077,
      "step": 12107
    },
    {
      "epoch": 0.7433008993523436,
      "grad_norm": 0.8632309582799239,
      "learning_rate": 3.2610557844427637e-06,
      "loss": 0.7018,
      "step": 12108
    },
    {
      "epoch": 0.74336228859081,
      "grad_norm": 1.0540442950332616,
      "learning_rate": 3.2595868698534007e-06,
      "loss": 0.7547,
      "step": 12109
    },
    {
      "epoch": 0.7434236778292765,
      "grad_norm": 1.0372408178337353,
      "learning_rate": 3.2581182217486184e-06,
      "loss": 0.7895,
      "step": 12110
    },
    {
      "epoch": 0.743485067067743,
      "grad_norm": 1.061761442769753,
      "learning_rate": 3.256649840186482e-06,
      "loss": 0.7612,
      "step": 12111
    },
    {
      "epoch": 0.7435464563062095,
      "grad_norm": 0.947812471336214,
      "learning_rate": 3.255181725225043e-06,
      "loss": 0.7449,
      "step": 12112
    },
    {
      "epoch": 0.7436078455446761,
      "grad_norm": 0.9766055940229896,
      "learning_rate": 3.253713876922343e-06,
      "loss": 0.7548,
      "step": 12113
    },
    {
      "epoch": 0.7436692347831425,
      "grad_norm": 1.0821704111602712,
      "learning_rate": 3.252246295336413e-06,
      "loss": 0.7727,
      "step": 12114
    },
    {
      "epoch": 0.743730624021609,
      "grad_norm": 0.9453496457814118,
      "learning_rate": 3.250778980525283e-06,
      "loss": 0.7922,
      "step": 12115
    },
    {
      "epoch": 0.7437920132600755,
      "grad_norm": 1.1412972280628688,
      "learning_rate": 3.2493119325469546e-06,
      "loss": 0.8216,
      "step": 12116
    },
    {
      "epoch": 0.743853402498542,
      "grad_norm": 1.07253272956372,
      "learning_rate": 3.2478451514594265e-06,
      "loss": 0.7361,
      "step": 12117
    },
    {
      "epoch": 0.7439147917370085,
      "grad_norm": 0.975305368746174,
      "learning_rate": 3.2463786373206963e-06,
      "loss": 0.7148,
      "step": 12118
    },
    {
      "epoch": 0.743976180975475,
      "grad_norm": 0.9390866998900252,
      "learning_rate": 3.244912390188739e-06,
      "loss": 0.7813,
      "step": 12119
    },
    {
      "epoch": 0.7440375702139415,
      "grad_norm": 1.017498361159347,
      "learning_rate": 3.243446410121527e-06,
      "loss": 0.7222,
      "step": 12120
    },
    {
      "epoch": 0.744098959452408,
      "grad_norm": 0.962923784840048,
      "learning_rate": 3.2419806971770085e-06,
      "loss": 0.7611,
      "step": 12121
    },
    {
      "epoch": 0.7441603486908744,
      "grad_norm": 0.9419809349959686,
      "learning_rate": 3.2405152514131413e-06,
      "loss": 0.7777,
      "step": 12122
    },
    {
      "epoch": 0.744221737929341,
      "grad_norm": 1.0525876212340919,
      "learning_rate": 3.2390500728878584e-06,
      "loss": 0.7307,
      "step": 12123
    },
    {
      "epoch": 0.7442831271678075,
      "grad_norm": 0.9323223676546732,
      "learning_rate": 3.237585161659086e-06,
      "loss": 0.7692,
      "step": 12124
    },
    {
      "epoch": 0.744344516406274,
      "grad_norm": 0.9437825673308169,
      "learning_rate": 3.23612051778474e-06,
      "loss": 0.7343,
      "step": 12125
    },
    {
      "epoch": 0.7444059056447405,
      "grad_norm": 1.0346078164425787,
      "learning_rate": 3.2346561413227252e-06,
      "loss": 0.7413,
      "step": 12126
    },
    {
      "epoch": 0.744467294883207,
      "grad_norm": 1.0948312709312205,
      "learning_rate": 3.233192032330937e-06,
      "loss": 0.7452,
      "step": 12127
    },
    {
      "epoch": 0.7445286841216735,
      "grad_norm": 0.9972375496557188,
      "learning_rate": 3.231728190867257e-06,
      "loss": 0.7527,
      "step": 12128
    },
    {
      "epoch": 0.7445900733601399,
      "grad_norm": 0.9864842613208674,
      "learning_rate": 3.2302646169895634e-06,
      "loss": 0.7248,
      "step": 12129
    },
    {
      "epoch": 0.7446514625986065,
      "grad_norm": 0.9260098054515516,
      "learning_rate": 3.228801310755719e-06,
      "loss": 0.7364,
      "step": 12130
    },
    {
      "epoch": 0.7447128518370729,
      "grad_norm": 0.9780455278338257,
      "learning_rate": 3.2273382722235713e-06,
      "loss": 0.7889,
      "step": 12131
    },
    {
      "epoch": 0.7447742410755395,
      "grad_norm": 0.9091020014803587,
      "learning_rate": 3.2258755014509615e-06,
      "loss": 0.7416,
      "step": 12132
    },
    {
      "epoch": 0.7448356303140059,
      "grad_norm": 0.8897042019768766,
      "learning_rate": 3.2244129984957264e-06,
      "loss": 0.7206,
      "step": 12133
    },
    {
      "epoch": 0.7448970195524725,
      "grad_norm": 0.9343774783879515,
      "learning_rate": 3.222950763415684e-06,
      "loss": 0.7486,
      "step": 12134
    },
    {
      "epoch": 0.744958408790939,
      "grad_norm": 0.9635031927115287,
      "learning_rate": 3.2214887962686445e-06,
      "loss": 0.7278,
      "step": 12135
    },
    {
      "epoch": 0.7450197980294054,
      "grad_norm": 1.0386633297586263,
      "learning_rate": 3.220027097112406e-06,
      "loss": 0.7777,
      "step": 12136
    },
    {
      "epoch": 0.745081187267872,
      "grad_norm": 0.9499049636782004,
      "learning_rate": 3.2185656660047592e-06,
      "loss": 0.7575,
      "step": 12137
    },
    {
      "epoch": 0.7451425765063384,
      "grad_norm": 0.9640431656794684,
      "learning_rate": 3.217104503003481e-06,
      "loss": 0.7218,
      "step": 12138
    },
    {
      "epoch": 0.745203965744805,
      "grad_norm": 0.9826988745485228,
      "learning_rate": 3.2156436081663356e-06,
      "loss": 0.7096,
      "step": 12139
    },
    {
      "epoch": 0.7452653549832714,
      "grad_norm": 0.8372514186233039,
      "learning_rate": 3.2141829815510907e-06,
      "loss": 0.7153,
      "step": 12140
    },
    {
      "epoch": 0.745326744221738,
      "grad_norm": 0.9144014189557729,
      "learning_rate": 3.212722623215482e-06,
      "loss": 0.7484,
      "step": 12141
    },
    {
      "epoch": 0.7453881334602044,
      "grad_norm": 0.913865499883123,
      "learning_rate": 3.2112625332172453e-06,
      "loss": 0.7179,
      "step": 12142
    },
    {
      "epoch": 0.7454495226986709,
      "grad_norm": 0.9703994288740185,
      "learning_rate": 3.209802711614113e-06,
      "loss": 0.7883,
      "step": 12143
    },
    {
      "epoch": 0.7455109119371374,
      "grad_norm": 1.000212285812023,
      "learning_rate": 3.2083431584637958e-06,
      "loss": 0.7393,
      "step": 12144
    },
    {
      "epoch": 0.7455723011756039,
      "grad_norm": 0.9367616412032367,
      "learning_rate": 3.2068838738240017e-06,
      "loss": 0.7528,
      "step": 12145
    },
    {
      "epoch": 0.7456336904140705,
      "grad_norm": 0.9517705304306857,
      "learning_rate": 3.205424857752414e-06,
      "loss": 0.7449,
      "step": 12146
    },
    {
      "epoch": 0.7456950796525369,
      "grad_norm": 0.9987270764783717,
      "learning_rate": 3.2039661103067244e-06,
      "loss": 0.7268,
      "step": 12147
    },
    {
      "epoch": 0.7457564688910034,
      "grad_norm": 0.8837646281607725,
      "learning_rate": 3.202507631544601e-06,
      "loss": 0.7388,
      "step": 12148
    },
    {
      "epoch": 0.7458178581294699,
      "grad_norm": 0.8770424532814711,
      "learning_rate": 3.2010494215237086e-06,
      "loss": 0.7383,
      "step": 12149
    },
    {
      "epoch": 0.7458792473679364,
      "grad_norm": 0.6485237030672658,
      "learning_rate": 3.1995914803016948e-06,
      "loss": 0.7116,
      "step": 12150
    },
    {
      "epoch": 0.7459406366064029,
      "grad_norm": 0.9041024057304172,
      "learning_rate": 3.1981338079362012e-06,
      "loss": 0.752,
      "step": 12151
    },
    {
      "epoch": 0.7460020258448694,
      "grad_norm": 1.038591488965616,
      "learning_rate": 3.1966764044848563e-06,
      "loss": 0.7439,
      "step": 12152
    },
    {
      "epoch": 0.7460634150833358,
      "grad_norm": 0.9330760222067378,
      "learning_rate": 3.1952192700052776e-06,
      "loss": 0.7628,
      "step": 12153
    },
    {
      "epoch": 0.7461248043218024,
      "grad_norm": 0.9647313523024891,
      "learning_rate": 3.1937624045550787e-06,
      "loss": 0.7374,
      "step": 12154
    },
    {
      "epoch": 0.7461861935602689,
      "grad_norm": 1.025810368673837,
      "learning_rate": 3.192305808191858e-06,
      "loss": 0.7792,
      "step": 12155
    },
    {
      "epoch": 0.7462475827987354,
      "grad_norm": 0.8934553216331313,
      "learning_rate": 3.1908494809731917e-06,
      "loss": 0.7288,
      "step": 12156
    },
    {
      "epoch": 0.7463089720372019,
      "grad_norm": 0.9509230234529001,
      "learning_rate": 3.1893934229566657e-06,
      "loss": 0.7101,
      "step": 12157
    },
    {
      "epoch": 0.7463703612756684,
      "grad_norm": 0.9512573538518492,
      "learning_rate": 3.1879376341998447e-06,
      "loss": 0.7547,
      "step": 12158
    },
    {
      "epoch": 0.7464317505141349,
      "grad_norm": 1.0004662194088036,
      "learning_rate": 3.186482114760282e-06,
      "loss": 0.7493,
      "step": 12159
    },
    {
      "epoch": 0.7464931397526013,
      "grad_norm": 0.9515121538171096,
      "learning_rate": 3.185026864695523e-06,
      "loss": 0.7489,
      "step": 12160
    },
    {
      "epoch": 0.7465545289910679,
      "grad_norm": 1.0009105742311204,
      "learning_rate": 3.1835718840631e-06,
      "loss": 0.7891,
      "step": 12161
    },
    {
      "epoch": 0.7466159182295343,
      "grad_norm": 0.8818202988861442,
      "learning_rate": 3.182117172920538e-06,
      "loss": 0.7657,
      "step": 12162
    },
    {
      "epoch": 0.7466773074680009,
      "grad_norm": 0.9137173932418913,
      "learning_rate": 3.180662731325349e-06,
      "loss": 0.7969,
      "step": 12163
    },
    {
      "epoch": 0.7467386967064673,
      "grad_norm": 1.0760060454723173,
      "learning_rate": 3.179208559335031e-06,
      "loss": 0.7599,
      "step": 12164
    },
    {
      "epoch": 0.7468000859449339,
      "grad_norm": 0.9339418377613239,
      "learning_rate": 3.177754657007085e-06,
      "loss": 0.7471,
      "step": 12165
    },
    {
      "epoch": 0.7468614751834004,
      "grad_norm": 1.0725839916443711,
      "learning_rate": 3.176301024398982e-06,
      "loss": 0.7265,
      "step": 12166
    },
    {
      "epoch": 0.7469228644218668,
      "grad_norm": 1.0587141991713742,
      "learning_rate": 3.174847661568193e-06,
      "loss": 0.7772,
      "step": 12167
    },
    {
      "epoch": 0.7469842536603334,
      "grad_norm": 1.003108408048157,
      "learning_rate": 3.1733945685721824e-06,
      "loss": 0.7414,
      "step": 12168
    },
    {
      "epoch": 0.7470456428987998,
      "grad_norm": 1.0409307015420064,
      "learning_rate": 3.1719417454683954e-06,
      "loss": 0.7492,
      "step": 12169
    },
    {
      "epoch": 0.7471070321372664,
      "grad_norm": 0.9687317761051646,
      "learning_rate": 3.1704891923142735e-06,
      "loss": 0.7478,
      "step": 12170
    },
    {
      "epoch": 0.7471684213757328,
      "grad_norm": 0.9570701136295015,
      "learning_rate": 3.1690369091672335e-06,
      "loss": 0.767,
      "step": 12171
    },
    {
      "epoch": 0.7472298106141994,
      "grad_norm": 1.0047675193727559,
      "learning_rate": 3.1675848960847035e-06,
      "loss": 0.6913,
      "step": 12172
    },
    {
      "epoch": 0.7472911998526658,
      "grad_norm": 1.0129715996230952,
      "learning_rate": 3.1661331531240835e-06,
      "loss": 0.7513,
      "step": 12173
    },
    {
      "epoch": 0.7473525890911323,
      "grad_norm": 0.972330600079578,
      "learning_rate": 3.1646816803427714e-06,
      "loss": 0.7461,
      "step": 12174
    },
    {
      "epoch": 0.7474139783295988,
      "grad_norm": 0.9424357599096173,
      "learning_rate": 3.1632304777981494e-06,
      "loss": 0.7046,
      "step": 12175
    },
    {
      "epoch": 0.7474753675680653,
      "grad_norm": 1.0941643599616688,
      "learning_rate": 3.161779545547593e-06,
      "loss": 0.7616,
      "step": 12176
    },
    {
      "epoch": 0.7475367568065319,
      "grad_norm": 0.9068858300840072,
      "learning_rate": 3.1603288836484638e-06,
      "loss": 0.7312,
      "step": 12177
    },
    {
      "epoch": 0.7475981460449983,
      "grad_norm": 0.9011417670205771,
      "learning_rate": 3.158878492158113e-06,
      "loss": 0.7361,
      "step": 12178
    },
    {
      "epoch": 0.7476595352834648,
      "grad_norm": 0.9202722066265139,
      "learning_rate": 3.1574283711338894e-06,
      "loss": 0.6824,
      "step": 12179
    },
    {
      "epoch": 0.7477209245219313,
      "grad_norm": 1.0707413310835052,
      "learning_rate": 3.155978520633116e-06,
      "loss": 0.726,
      "step": 12180
    },
    {
      "epoch": 0.7477823137603978,
      "grad_norm": 1.0773563729373596,
      "learning_rate": 3.1545289407131128e-06,
      "loss": 0.7637,
      "step": 12181
    },
    {
      "epoch": 0.7478437029988643,
      "grad_norm": 0.9259763686772912,
      "learning_rate": 3.1530796314311964e-06,
      "loss": 0.7782,
      "step": 12182
    },
    {
      "epoch": 0.7479050922373308,
      "grad_norm": 0.9542606280705265,
      "learning_rate": 3.1516305928446613e-06,
      "loss": 0.7553,
      "step": 12183
    },
    {
      "epoch": 0.7479664814757973,
      "grad_norm": 0.9489787029591986,
      "learning_rate": 3.150181825010801e-06,
      "loss": 0.7273,
      "step": 12184
    },
    {
      "epoch": 0.7480278707142638,
      "grad_norm": 1.0216913881688927,
      "learning_rate": 3.1487333279868814e-06,
      "loss": 0.7559,
      "step": 12185
    },
    {
      "epoch": 0.7480892599527302,
      "grad_norm": 0.7744675362984221,
      "learning_rate": 3.1472851018301787e-06,
      "loss": 0.7517,
      "step": 12186
    },
    {
      "epoch": 0.7481506491911968,
      "grad_norm": 1.1561203731262113,
      "learning_rate": 3.145837146597949e-06,
      "loss": 0.7383,
      "step": 12187
    },
    {
      "epoch": 0.7482120384296633,
      "grad_norm": 1.0004136520477842,
      "learning_rate": 3.1443894623474334e-06,
      "loss": 0.723,
      "step": 12188
    },
    {
      "epoch": 0.7482734276681298,
      "grad_norm": 1.0177186771963875,
      "learning_rate": 3.1429420491358696e-06,
      "loss": 0.7608,
      "step": 12189
    },
    {
      "epoch": 0.7483348169065963,
      "grad_norm": 0.9520448150077948,
      "learning_rate": 3.1414949070204814e-06,
      "loss": 0.74,
      "step": 12190
    },
    {
      "epoch": 0.7483962061450627,
      "grad_norm": 0.8981341501979231,
      "learning_rate": 3.1400480360584806e-06,
      "loss": 0.7343,
      "step": 12191
    },
    {
      "epoch": 0.7484575953835293,
      "grad_norm": 0.9978062833153286,
      "learning_rate": 3.1386014363070673e-06,
      "loss": 0.7631,
      "step": 12192
    },
    {
      "epoch": 0.7485189846219957,
      "grad_norm": 0.9473759214133091,
      "learning_rate": 3.13715510782344e-06,
      "loss": 0.7454,
      "step": 12193
    },
    {
      "epoch": 0.7485803738604623,
      "grad_norm": 0.9768703319107509,
      "learning_rate": 3.1357090506647793e-06,
      "loss": 0.7282,
      "step": 12194
    },
    {
      "epoch": 0.7486417630989287,
      "grad_norm": 0.9352832346074013,
      "learning_rate": 3.1342632648882465e-06,
      "loss": 0.7602,
      "step": 12195
    },
    {
      "epoch": 0.7487031523373953,
      "grad_norm": 1.0676515669154412,
      "learning_rate": 3.1328177505510103e-06,
      "loss": 0.7168,
      "step": 12196
    },
    {
      "epoch": 0.7487645415758617,
      "grad_norm": 0.9406672415129078,
      "learning_rate": 3.1313725077102173e-06,
      "loss": 0.7281,
      "step": 12197
    },
    {
      "epoch": 0.7488259308143282,
      "grad_norm": 0.9964633351798791,
      "learning_rate": 3.129927536423005e-06,
      "loss": 0.7692,
      "step": 12198
    },
    {
      "epoch": 0.7488873200527948,
      "grad_norm": 1.112344949073914,
      "learning_rate": 3.1284828367465005e-06,
      "loss": 0.7567,
      "step": 12199
    },
    {
      "epoch": 0.7489487092912612,
      "grad_norm": 0.9605668316918615,
      "learning_rate": 3.1270384087378215e-06,
      "loss": 0.7629,
      "step": 12200
    },
    {
      "epoch": 0.7490100985297278,
      "grad_norm": 0.9525913419481785,
      "learning_rate": 3.125594252454073e-06,
      "loss": 0.7205,
      "step": 12201
    },
    {
      "epoch": 0.7490714877681942,
      "grad_norm": 0.9317386976789288,
      "learning_rate": 3.1241503679523498e-06,
      "loss": 0.7068,
      "step": 12202
    },
    {
      "epoch": 0.7491328770066608,
      "grad_norm": 1.0141011499184052,
      "learning_rate": 3.122706755289735e-06,
      "loss": 0.7148,
      "step": 12203
    },
    {
      "epoch": 0.7491942662451272,
      "grad_norm": 1.0094092451906087,
      "learning_rate": 3.121263414523311e-06,
      "loss": 0.753,
      "step": 12204
    },
    {
      "epoch": 0.7492556554835937,
      "grad_norm": 0.8406112878979829,
      "learning_rate": 3.1198203457101306e-06,
      "loss": 0.756,
      "step": 12205
    },
    {
      "epoch": 0.7493170447220602,
      "grad_norm": 0.9946702331562073,
      "learning_rate": 3.1183775489072463e-06,
      "loss": 0.7683,
      "step": 12206
    },
    {
      "epoch": 0.7493784339605267,
      "grad_norm": 1.0528363106300174,
      "learning_rate": 3.116935024171707e-06,
      "loss": 0.791,
      "step": 12207
    },
    {
      "epoch": 0.7494398231989933,
      "grad_norm": 0.9717603606575267,
      "learning_rate": 3.1154927715605387e-06,
      "loss": 0.7554,
      "step": 12208
    },
    {
      "epoch": 0.7495012124374597,
      "grad_norm": 0.9754802798827706,
      "learning_rate": 3.114050791130766e-06,
      "loss": 0.7597,
      "step": 12209
    },
    {
      "epoch": 0.7495626016759263,
      "grad_norm": 1.0612300160979877,
      "learning_rate": 3.1126090829393864e-06,
      "loss": 0.7797,
      "step": 12210
    },
    {
      "epoch": 0.7496239909143927,
      "grad_norm": 1.090639956437585,
      "learning_rate": 3.1111676470434105e-06,
      "loss": 0.7711,
      "step": 12211
    },
    {
      "epoch": 0.7496853801528592,
      "grad_norm": 0.9840196115454058,
      "learning_rate": 3.1097264834998207e-06,
      "loss": 0.7781,
      "step": 12212
    },
    {
      "epoch": 0.7497467693913257,
      "grad_norm": 0.9303239755987052,
      "learning_rate": 3.108285592365596e-06,
      "loss": 0.7209,
      "step": 12213
    },
    {
      "epoch": 0.7498081586297922,
      "grad_norm": 0.780140778459716,
      "learning_rate": 3.1068449736977015e-06,
      "loss": 0.7015,
      "step": 12214
    },
    {
      "epoch": 0.7498695478682587,
      "grad_norm": 0.9099599027628128,
      "learning_rate": 3.1054046275530912e-06,
      "loss": 0.7463,
      "step": 12215
    },
    {
      "epoch": 0.7499309371067252,
      "grad_norm": 1.03285685643228,
      "learning_rate": 3.103964553988711e-06,
      "loss": 0.7228,
      "step": 12216
    },
    {
      "epoch": 0.7499923263451916,
      "grad_norm": 0.9860832550626933,
      "learning_rate": 3.102524753061491e-06,
      "loss": 0.8008,
      "step": 12217
    },
    {
      "epoch": 0.7500537155836582,
      "grad_norm": 0.9246387909782522,
      "learning_rate": 3.101085224828362e-06,
      "loss": 0.7163,
      "step": 12218
    },
    {
      "epoch": 0.7501151048221247,
      "grad_norm": 0.95530142102506,
      "learning_rate": 3.0996459693462346e-06,
      "loss": 0.7656,
      "step": 12219
    },
    {
      "epoch": 0.7501764940605912,
      "grad_norm": 1.0527974515753038,
      "learning_rate": 3.098206986672002e-06,
      "loss": 0.7366,
      "step": 12220
    },
    {
      "epoch": 0.7502378832990577,
      "grad_norm": 1.0929634277024112,
      "learning_rate": 3.0967682768625627e-06,
      "loss": 0.7407,
      "step": 12221
    },
    {
      "epoch": 0.7502992725375242,
      "grad_norm": 0.9033238370677013,
      "learning_rate": 3.0953298399747953e-06,
      "loss": 0.7271,
      "step": 12222
    },
    {
      "epoch": 0.7503606617759907,
      "grad_norm": 0.9063200821935532,
      "learning_rate": 3.093891676065568e-06,
      "loss": 0.7363,
      "step": 12223
    },
    {
      "epoch": 0.7504220510144571,
      "grad_norm": 0.974837755394462,
      "learning_rate": 3.092453785191739e-06,
      "loss": 0.7265,
      "step": 12224
    },
    {
      "epoch": 0.7504834402529237,
      "grad_norm": 0.9819387216406451,
      "learning_rate": 3.0910161674101567e-06,
      "loss": 0.7544,
      "step": 12225
    },
    {
      "epoch": 0.7505448294913901,
      "grad_norm": 0.9487143072437225,
      "learning_rate": 3.089578822777657e-06,
      "loss": 0.7768,
      "step": 12226
    },
    {
      "epoch": 0.7506062187298567,
      "grad_norm": 1.0951857097879976,
      "learning_rate": 3.088141751351066e-06,
      "loss": 0.7618,
      "step": 12227
    },
    {
      "epoch": 0.7506676079683231,
      "grad_norm": 0.9560254852736935,
      "learning_rate": 3.086704953187194e-06,
      "loss": 0.7419,
      "step": 12228
    },
    {
      "epoch": 0.7507289972067896,
      "grad_norm": 0.9745360848916584,
      "learning_rate": 3.085268428342858e-06,
      "loss": 0.7353,
      "step": 12229
    },
    {
      "epoch": 0.7507903864452562,
      "grad_norm": 1.0256730468271473,
      "learning_rate": 3.0838321768748405e-06,
      "loss": 0.7645,
      "step": 12230
    },
    {
      "epoch": 0.7508517756837226,
      "grad_norm": 0.9757765359123672,
      "learning_rate": 3.0823961988399233e-06,
      "loss": 0.7561,
      "step": 12231
    },
    {
      "epoch": 0.7509131649221892,
      "grad_norm": 1.0162858265275305,
      "learning_rate": 3.0809604942948855e-06,
      "loss": 0.7661,
      "step": 12232
    },
    {
      "epoch": 0.7509745541606556,
      "grad_norm": 1.195021264099247,
      "learning_rate": 3.0795250632964855e-06,
      "loss": 0.8109,
      "step": 12233
    },
    {
      "epoch": 0.7510359433991222,
      "grad_norm": 1.028079659457556,
      "learning_rate": 3.0780899059014734e-06,
      "loss": 0.7761,
      "step": 12234
    },
    {
      "epoch": 0.7510973326375886,
      "grad_norm": 1.031828198841843,
      "learning_rate": 3.076655022166588e-06,
      "loss": 0.7495,
      "step": 12235
    },
    {
      "epoch": 0.7511587218760551,
      "grad_norm": 1.0985492966869856,
      "learning_rate": 3.0752204121485583e-06,
      "loss": 0.736,
      "step": 12236
    },
    {
      "epoch": 0.7512201111145216,
      "grad_norm": 0.9333533472362349,
      "learning_rate": 3.0737860759041015e-06,
      "loss": 0.7564,
      "step": 12237
    },
    {
      "epoch": 0.7512815003529881,
      "grad_norm": 0.9889994649792847,
      "learning_rate": 3.0723520134899254e-06,
      "loss": 0.7888,
      "step": 12238
    },
    {
      "epoch": 0.7513428895914546,
      "grad_norm": 0.9854718391768811,
      "learning_rate": 3.0709182249627255e-06,
      "loss": 0.715,
      "step": 12239
    },
    {
      "epoch": 0.7514042788299211,
      "grad_norm": 0.901518463154075,
      "learning_rate": 3.069484710379188e-06,
      "loss": 0.759,
      "step": 12240
    },
    {
      "epoch": 0.7514656680683877,
      "grad_norm": 1.0295369287744771,
      "learning_rate": 3.0680514697959873e-06,
      "loss": 0.7323,
      "step": 12241
    },
    {
      "epoch": 0.7515270573068541,
      "grad_norm": 1.0482940800522136,
      "learning_rate": 3.0666185032697824e-06,
      "loss": 0.743,
      "step": 12242
    },
    {
      "epoch": 0.7515884465453206,
      "grad_norm": 0.8532967986371455,
      "learning_rate": 3.0651858108572375e-06,
      "loss": 0.7039,
      "step": 12243
    },
    {
      "epoch": 0.7516498357837871,
      "grad_norm": 0.9768241077608579,
      "learning_rate": 3.063753392614984e-06,
      "loss": 0.7265,
      "step": 12244
    },
    {
      "epoch": 0.7517112250222536,
      "grad_norm": 0.9822325350086548,
      "learning_rate": 3.0623212485996543e-06,
      "loss": 0.7207,
      "step": 12245
    },
    {
      "epoch": 0.7517726142607201,
      "grad_norm": 1.0035995569345877,
      "learning_rate": 3.060889378867873e-06,
      "loss": 0.767,
      "step": 12246
    },
    {
      "epoch": 0.7518340034991866,
      "grad_norm": 0.9401004780142846,
      "learning_rate": 3.0594577834762485e-06,
      "loss": 0.7303,
      "step": 12247
    },
    {
      "epoch": 0.751895392737653,
      "grad_norm": 0.9336935348001246,
      "learning_rate": 3.0580264624813805e-06,
      "loss": 0.7752,
      "step": 12248
    },
    {
      "epoch": 0.7519567819761196,
      "grad_norm": 0.9766391417340676,
      "learning_rate": 3.056595415939849e-06,
      "loss": 0.7017,
      "step": 12249
    },
    {
      "epoch": 0.752018171214586,
      "grad_norm": 1.120079095747793,
      "learning_rate": 3.0551646439082393e-06,
      "loss": 0.7808,
      "step": 12250
    },
    {
      "epoch": 0.7520795604530526,
      "grad_norm": 0.9268646364874104,
      "learning_rate": 3.053734146443116e-06,
      "loss": 0.6644,
      "step": 12251
    },
    {
      "epoch": 0.7521409496915191,
      "grad_norm": 0.8388965436090154,
      "learning_rate": 3.052303923601032e-06,
      "loss": 0.7258,
      "step": 12252
    },
    {
      "epoch": 0.7522023389299856,
      "grad_norm": 0.9611653714720417,
      "learning_rate": 3.050873975438533e-06,
      "loss": 0.7603,
      "step": 12253
    },
    {
      "epoch": 0.7522637281684521,
      "grad_norm": 1.03453527053511,
      "learning_rate": 3.0494443020121523e-06,
      "loss": 0.7495,
      "step": 12254
    },
    {
      "epoch": 0.7523251174069185,
      "grad_norm": 0.964248208795431,
      "learning_rate": 3.0480149033784122e-06,
      "loss": 0.733,
      "step": 12255
    },
    {
      "epoch": 0.7523865066453851,
      "grad_norm": 0.8918162635241188,
      "learning_rate": 3.0465857795938226e-06,
      "loss": 0.7495,
      "step": 12256
    },
    {
      "epoch": 0.7524478958838515,
      "grad_norm": 0.901261327005425,
      "learning_rate": 3.04515693071489e-06,
      "loss": 0.7589,
      "step": 12257
    },
    {
      "epoch": 0.7525092851223181,
      "grad_norm": 0.9839738981710618,
      "learning_rate": 3.0437283567981025e-06,
      "loss": 0.7984,
      "step": 12258
    },
    {
      "epoch": 0.7525706743607845,
      "grad_norm": 0.982839212698085,
      "learning_rate": 3.042300057899933e-06,
      "loss": 0.791,
      "step": 12259
    },
    {
      "epoch": 0.752632063599251,
      "grad_norm": 0.949884840375122,
      "learning_rate": 3.040872034076857e-06,
      "loss": 0.7866,
      "step": 12260
    },
    {
      "epoch": 0.7526934528377176,
      "grad_norm": 0.9394072315947841,
      "learning_rate": 3.03944428538533e-06,
      "loss": 0.7368,
      "step": 12261
    },
    {
      "epoch": 0.752754842076184,
      "grad_norm": 1.036317580898317,
      "learning_rate": 3.0380168118817978e-06,
      "loss": 0.764,
      "step": 12262
    },
    {
      "epoch": 0.7528162313146506,
      "grad_norm": 1.1038351994028692,
      "learning_rate": 3.0365896136226956e-06,
      "loss": 0.7963,
      "step": 12263
    },
    {
      "epoch": 0.752877620553117,
      "grad_norm": 1.0041583980141477,
      "learning_rate": 3.0351626906644505e-06,
      "loss": 0.7278,
      "step": 12264
    },
    {
      "epoch": 0.7529390097915836,
      "grad_norm": 1.0423070404592647,
      "learning_rate": 3.033736043063473e-06,
      "loss": 0.7672,
      "step": 12265
    },
    {
      "epoch": 0.75300039903005,
      "grad_norm": 0.8995348685369069,
      "learning_rate": 3.032309670876169e-06,
      "loss": 0.7359,
      "step": 12266
    },
    {
      "epoch": 0.7530617882685166,
      "grad_norm": 0.9923900020674793,
      "learning_rate": 3.030883574158927e-06,
      "loss": 0.7374,
      "step": 12267
    },
    {
      "epoch": 0.753123177506983,
      "grad_norm": 0.9355275947193135,
      "learning_rate": 3.029457752968136e-06,
      "loss": 0.8166,
      "step": 12268
    },
    {
      "epoch": 0.7531845667454495,
      "grad_norm": 0.8937030820134827,
      "learning_rate": 3.0280322073601585e-06,
      "loss": 0.7638,
      "step": 12269
    },
    {
      "epoch": 0.753245955983916,
      "grad_norm": 1.035203029136919,
      "learning_rate": 3.026606937391353e-06,
      "loss": 0.7185,
      "step": 12270
    },
    {
      "epoch": 0.7533073452223825,
      "grad_norm": 1.0613369506023684,
      "learning_rate": 3.0251819431180752e-06,
      "loss": 0.7563,
      "step": 12271
    },
    {
      "epoch": 0.7533687344608491,
      "grad_norm": 0.8847236730881037,
      "learning_rate": 3.0237572245966585e-06,
      "loss": 0.761,
      "step": 12272
    },
    {
      "epoch": 0.7534301236993155,
      "grad_norm": 1.0172745329122137,
      "learning_rate": 3.0223327818834313e-06,
      "loss": 0.7468,
      "step": 12273
    },
    {
      "epoch": 0.753491512937782,
      "grad_norm": 0.9352941334560216,
      "learning_rate": 3.0209086150347078e-06,
      "loss": 0.7251,
      "step": 12274
    },
    {
      "epoch": 0.7535529021762485,
      "grad_norm": 1.096237500332658,
      "learning_rate": 3.0194847241067928e-06,
      "loss": 0.7448,
      "step": 12275
    },
    {
      "epoch": 0.753614291414715,
      "grad_norm": 0.9554813168414447,
      "learning_rate": 3.0180611091559818e-06,
      "loss": 0.763,
      "step": 12276
    },
    {
      "epoch": 0.7536756806531815,
      "grad_norm": 0.9572085213850782,
      "learning_rate": 3.0166377702385576e-06,
      "loss": 0.7461,
      "step": 12277
    },
    {
      "epoch": 0.753737069891648,
      "grad_norm": 0.8430840331620771,
      "learning_rate": 3.015214707410792e-06,
      "loss": 0.7513,
      "step": 12278
    },
    {
      "epoch": 0.7537984591301145,
      "grad_norm": 0.9982462360539114,
      "learning_rate": 3.0137919207289457e-06,
      "loss": 0.7229,
      "step": 12279
    },
    {
      "epoch": 0.753859848368581,
      "grad_norm": 0.8948343167385809,
      "learning_rate": 3.0123694102492695e-06,
      "loss": 0.7772,
      "step": 12280
    },
    {
      "epoch": 0.7539212376070474,
      "grad_norm": 1.0339164730137298,
      "learning_rate": 3.0109471760279994e-06,
      "loss": 0.7981,
      "step": 12281
    },
    {
      "epoch": 0.753982626845514,
      "grad_norm": 1.0197135510962234,
      "learning_rate": 3.0095252181213717e-06,
      "loss": 0.7023,
      "step": 12282
    },
    {
      "epoch": 0.7540440160839805,
      "grad_norm": 0.9574826566958694,
      "learning_rate": 3.0081035365856028e-06,
      "loss": 0.7776,
      "step": 12283
    },
    {
      "epoch": 0.754105405322447,
      "grad_norm": 0.9833789774256166,
      "learning_rate": 3.00668213147689e-06,
      "loss": 0.7512,
      "step": 12284
    },
    {
      "epoch": 0.7541667945609135,
      "grad_norm": 1.001724566600979,
      "learning_rate": 3.0052610028514384e-06,
      "loss": 0.7909,
      "step": 12285
    },
    {
      "epoch": 0.75422818379938,
      "grad_norm": 0.9493307518811279,
      "learning_rate": 3.0038401507654303e-06,
      "loss": 0.7098,
      "step": 12286
    },
    {
      "epoch": 0.7542895730378465,
      "grad_norm": 1.1354682113912118,
      "learning_rate": 3.0024195752750386e-06,
      "loss": 0.8054,
      "step": 12287
    },
    {
      "epoch": 0.7543509622763129,
      "grad_norm": 0.8781122103561023,
      "learning_rate": 3.000999276436427e-06,
      "loss": 0.6951,
      "step": 12288
    },
    {
      "epoch": 0.7544123515147795,
      "grad_norm": 1.0973284021019243,
      "learning_rate": 2.999579254305748e-06,
      "loss": 0.7475,
      "step": 12289
    },
    {
      "epoch": 0.7544737407532459,
      "grad_norm": 1.0413866641622764,
      "learning_rate": 2.99815950893914e-06,
      "loss": 0.7477,
      "step": 12290
    },
    {
      "epoch": 0.7545351299917125,
      "grad_norm": 1.0312391504473846,
      "learning_rate": 2.996740040392737e-06,
      "loss": 0.7456,
      "step": 12291
    },
    {
      "epoch": 0.7545965192301789,
      "grad_norm": 1.1267589309693895,
      "learning_rate": 2.9953208487226527e-06,
      "loss": 0.7764,
      "step": 12292
    },
    {
      "epoch": 0.7546579084686454,
      "grad_norm": 0.8266942493740315,
      "learning_rate": 2.9939019339850053e-06,
      "loss": 0.7361,
      "step": 12293
    },
    {
      "epoch": 0.754719297707112,
      "grad_norm": 0.9783342464541885,
      "learning_rate": 2.992483296235882e-06,
      "loss": 0.7471,
      "step": 12294
    },
    {
      "epoch": 0.7547806869455784,
      "grad_norm": 1.01205747858736,
      "learning_rate": 2.991064935531369e-06,
      "loss": 0.7418,
      "step": 12295
    },
    {
      "epoch": 0.754842076184045,
      "grad_norm": 0.9802306910988013,
      "learning_rate": 2.98964685192755e-06,
      "loss": 0.7595,
      "step": 12296
    },
    {
      "epoch": 0.7549034654225114,
      "grad_norm": 0.906326553022236,
      "learning_rate": 2.988229045480484e-06,
      "loss": 0.7755,
      "step": 12297
    },
    {
      "epoch": 0.754964854660978,
      "grad_norm": 0.9880730439095167,
      "learning_rate": 2.9868115162462263e-06,
      "loss": 0.744,
      "step": 12298
    },
    {
      "epoch": 0.7550262438994444,
      "grad_norm": 0.9161583029514796,
      "learning_rate": 2.9853942642808187e-06,
      "loss": 0.7292,
      "step": 12299
    },
    {
      "epoch": 0.7550876331379109,
      "grad_norm": 0.9484990612820422,
      "learning_rate": 2.983977289640292e-06,
      "loss": 0.7799,
      "step": 12300
    },
    {
      "epoch": 0.7551490223763774,
      "grad_norm": 0.971644869398021,
      "learning_rate": 2.9825605923806666e-06,
      "loss": 0.7575,
      "step": 12301
    },
    {
      "epoch": 0.7552104116148439,
      "grad_norm": 0.9696798454836578,
      "learning_rate": 2.9811441725579536e-06,
      "loss": 0.7631,
      "step": 12302
    },
    {
      "epoch": 0.7552718008533104,
      "grad_norm": 0.9585636185082311,
      "learning_rate": 2.9797280302281516e-06,
      "loss": 0.7048,
      "step": 12303
    },
    {
      "epoch": 0.7553331900917769,
      "grad_norm": 0.9852956691242674,
      "learning_rate": 2.978312165447247e-06,
      "loss": 0.7899,
      "step": 12304
    },
    {
      "epoch": 0.7553945793302435,
      "grad_norm": 0.926495496777551,
      "learning_rate": 2.9768965782712177e-06,
      "loss": 0.7336,
      "step": 12305
    },
    {
      "epoch": 0.7554559685687099,
      "grad_norm": 0.9773921831468392,
      "learning_rate": 2.975481268756025e-06,
      "loss": 0.7607,
      "step": 12306
    },
    {
      "epoch": 0.7555173578071764,
      "grad_norm": 0.9190334159909673,
      "learning_rate": 2.9740662369576334e-06,
      "loss": 0.7351,
      "step": 12307
    },
    {
      "epoch": 0.7555787470456429,
      "grad_norm": 0.9763084529757506,
      "learning_rate": 2.9726514829319784e-06,
      "loss": 0.739,
      "step": 12308
    },
    {
      "epoch": 0.7556401362841094,
      "grad_norm": 0.9190400394185287,
      "learning_rate": 2.9712370067349915e-06,
      "loss": 0.7415,
      "step": 12309
    },
    {
      "epoch": 0.7557015255225759,
      "grad_norm": 1.0061933592718018,
      "learning_rate": 2.969822808422602e-06,
      "loss": 0.7508,
      "step": 12310
    },
    {
      "epoch": 0.7557629147610424,
      "grad_norm": 0.9007071591972885,
      "learning_rate": 2.968408888050717e-06,
      "loss": 0.7782,
      "step": 12311
    },
    {
      "epoch": 0.7558243039995088,
      "grad_norm": 0.9870133778862075,
      "learning_rate": 2.966995245675236e-06,
      "loss": 0.7941,
      "step": 12312
    },
    {
      "epoch": 0.7558856932379754,
      "grad_norm": 0.8950080898444366,
      "learning_rate": 2.9655818813520475e-06,
      "loss": 0.7755,
      "step": 12313
    },
    {
      "epoch": 0.7559470824764419,
      "grad_norm": 1.0691223326648431,
      "learning_rate": 2.96416879513703e-06,
      "loss": 0.7684,
      "step": 12314
    },
    {
      "epoch": 0.7560084717149084,
      "grad_norm": 0.9449326714575109,
      "learning_rate": 2.9627559870860513e-06,
      "loss": 0.7264,
      "step": 12315
    },
    {
      "epoch": 0.7560698609533749,
      "grad_norm": 1.0081938422728074,
      "learning_rate": 2.961343457254966e-06,
      "loss": 0.7042,
      "step": 12316
    },
    {
      "epoch": 0.7561312501918414,
      "grad_norm": 1.001513933359413,
      "learning_rate": 2.959931205699619e-06,
      "loss": 0.7442,
      "step": 12317
    },
    {
      "epoch": 0.7561926394303079,
      "grad_norm": 1.0412701706872154,
      "learning_rate": 2.9585192324758436e-06,
      "loss": 0.7598,
      "step": 12318
    },
    {
      "epoch": 0.7562540286687743,
      "grad_norm": 0.588547069120699,
      "learning_rate": 2.9571075376394643e-06,
      "loss": 0.6679,
      "step": 12319
    },
    {
      "epoch": 0.7563154179072409,
      "grad_norm": 0.9655953474442707,
      "learning_rate": 2.9556961212462885e-06,
      "loss": 0.7496,
      "step": 12320
    },
    {
      "epoch": 0.7563768071457073,
      "grad_norm": 0.9945536138423768,
      "learning_rate": 2.9542849833521235e-06,
      "loss": 0.7421,
      "step": 12321
    },
    {
      "epoch": 0.7564381963841739,
      "grad_norm": 1.0510326499280858,
      "learning_rate": 2.95287412401276e-06,
      "loss": 0.785,
      "step": 12322
    },
    {
      "epoch": 0.7564995856226403,
      "grad_norm": 0.9763073834075316,
      "learning_rate": 2.9514635432839666e-06,
      "loss": 0.7464,
      "step": 12323
    },
    {
      "epoch": 0.7565609748611068,
      "grad_norm": 0.933342511878571,
      "learning_rate": 2.950053241221521e-06,
      "loss": 0.7215,
      "step": 12324
    },
    {
      "epoch": 0.7566223640995734,
      "grad_norm": 0.92974644464314,
      "learning_rate": 2.9486432178811764e-06,
      "loss": 0.7968,
      "step": 12325
    },
    {
      "epoch": 0.7566837533380398,
      "grad_norm": 0.963079264158469,
      "learning_rate": 2.9472334733186793e-06,
      "loss": 0.7135,
      "step": 12326
    },
    {
      "epoch": 0.7567451425765064,
      "grad_norm": 0.9545324326888727,
      "learning_rate": 2.9458240075897625e-06,
      "loss": 0.7739,
      "step": 12327
    },
    {
      "epoch": 0.7568065318149728,
      "grad_norm": 0.8802569996109264,
      "learning_rate": 2.944414820750152e-06,
      "loss": 0.7927,
      "step": 12328
    },
    {
      "epoch": 0.7568679210534394,
      "grad_norm": 1.0100300138340188,
      "learning_rate": 2.9430059128555586e-06,
      "loss": 0.761,
      "step": 12329
    },
    {
      "epoch": 0.7569293102919058,
      "grad_norm": 0.987691789022341,
      "learning_rate": 2.9415972839616855e-06,
      "loss": 0.7868,
      "step": 12330
    },
    {
      "epoch": 0.7569906995303723,
      "grad_norm": 1.0015776465685713,
      "learning_rate": 2.9401889341242196e-06,
      "loss": 0.7702,
      "step": 12331
    },
    {
      "epoch": 0.7570520887688388,
      "grad_norm": 0.9540458167809706,
      "learning_rate": 2.9387808633988503e-06,
      "loss": 0.7175,
      "step": 12332
    },
    {
      "epoch": 0.7571134780073053,
      "grad_norm": 1.0861420326696054,
      "learning_rate": 2.937373071841236e-06,
      "loss": 0.7357,
      "step": 12333
    },
    {
      "epoch": 0.7571748672457718,
      "grad_norm": 0.9529565879577651,
      "learning_rate": 2.935965559507035e-06,
      "loss": 0.7679,
      "step": 12334
    },
    {
      "epoch": 0.7572362564842383,
      "grad_norm": 0.9705267112261216,
      "learning_rate": 2.9345583264518993e-06,
      "loss": 0.7526,
      "step": 12335
    },
    {
      "epoch": 0.7572976457227049,
      "grad_norm": 1.036661188681863,
      "learning_rate": 2.933151372731462e-06,
      "loss": 0.7655,
      "step": 12336
    },
    {
      "epoch": 0.7573590349611713,
      "grad_norm": 0.8537951010598619,
      "learning_rate": 2.9317446984013466e-06,
      "loss": 0.7813,
      "step": 12337
    },
    {
      "epoch": 0.7574204241996378,
      "grad_norm": 1.0004709622721897,
      "learning_rate": 2.9303383035171672e-06,
      "loss": 0.7316,
      "step": 12338
    },
    {
      "epoch": 0.7574818134381043,
      "grad_norm": 0.9662626727708539,
      "learning_rate": 2.9289321881345257e-06,
      "loss": 0.7965,
      "step": 12339
    },
    {
      "epoch": 0.7575432026765708,
      "grad_norm": 0.9317191132343503,
      "learning_rate": 2.9275263523090135e-06,
      "loss": 0.7366,
      "step": 12340
    },
    {
      "epoch": 0.7576045919150373,
      "grad_norm": 0.9073376604678329,
      "learning_rate": 2.9261207960962114e-06,
      "loss": 0.7551,
      "step": 12341
    },
    {
      "epoch": 0.7576659811535038,
      "grad_norm": 0.9649880620747844,
      "learning_rate": 2.9247155195516876e-06,
      "loss": 0.7217,
      "step": 12342
    },
    {
      "epoch": 0.7577273703919702,
      "grad_norm": 0.9972795919718958,
      "learning_rate": 2.923310522731e-06,
      "loss": 0.7308,
      "step": 12343
    },
    {
      "epoch": 0.7577887596304368,
      "grad_norm": 0.9693778557997449,
      "learning_rate": 2.9219058056896967e-06,
      "loss": 0.7549,
      "step": 12344
    },
    {
      "epoch": 0.7578501488689032,
      "grad_norm": 1.0458772844517978,
      "learning_rate": 2.9205013684833108e-06,
      "loss": 0.7741,
      "step": 12345
    },
    {
      "epoch": 0.7579115381073698,
      "grad_norm": 0.9158246779511489,
      "learning_rate": 2.9190972111673723e-06,
      "loss": 0.7348,
      "step": 12346
    },
    {
      "epoch": 0.7579729273458363,
      "grad_norm": 1.1184754968206712,
      "learning_rate": 2.9176933337973946e-06,
      "loss": 0.761,
      "step": 12347
    },
    {
      "epoch": 0.7580343165843028,
      "grad_norm": 0.6372164977190187,
      "learning_rate": 2.9162897364288735e-06,
      "loss": 0.668,
      "step": 12348
    },
    {
      "epoch": 0.7580957058227693,
      "grad_norm": 0.9340542869619388,
      "learning_rate": 2.9148864191173075e-06,
      "loss": 0.7034,
      "step": 12349
    },
    {
      "epoch": 0.7581570950612357,
      "grad_norm": 1.0084194337829537,
      "learning_rate": 2.913483381918175e-06,
      "loss": 0.7482,
      "step": 12350
    },
    {
      "epoch": 0.7582184842997023,
      "grad_norm": 0.9817903893584298,
      "learning_rate": 2.912080624886947e-06,
      "loss": 0.6973,
      "step": 12351
    },
    {
      "epoch": 0.7582798735381687,
      "grad_norm": 1.0116230657073118,
      "learning_rate": 2.91067814807908e-06,
      "loss": 0.7544,
      "step": 12352
    },
    {
      "epoch": 0.7583412627766353,
      "grad_norm": 0.925800538761176,
      "learning_rate": 2.9092759515500225e-06,
      "loss": 0.7554,
      "step": 12353
    },
    {
      "epoch": 0.7584026520151017,
      "grad_norm": 0.9494638998091989,
      "learning_rate": 2.9078740353552093e-06,
      "loss": 0.7452,
      "step": 12354
    },
    {
      "epoch": 0.7584640412535683,
      "grad_norm": 0.9928255299194861,
      "learning_rate": 2.906472399550068e-06,
      "loss": 0.7815,
      "step": 12355
    },
    {
      "epoch": 0.7585254304920347,
      "grad_norm": 0.8823484763155747,
      "learning_rate": 2.905071044190009e-06,
      "loss": 0.6937,
      "step": 12356
    },
    {
      "epoch": 0.7585868197305012,
      "grad_norm": 1.0498697211862038,
      "learning_rate": 2.903669969330443e-06,
      "loss": 0.7395,
      "step": 12357
    },
    {
      "epoch": 0.7586482089689678,
      "grad_norm": 0.9646693974259856,
      "learning_rate": 2.9022691750267538e-06,
      "loss": 0.772,
      "step": 12358
    },
    {
      "epoch": 0.7587095982074342,
      "grad_norm": 1.01366520530044,
      "learning_rate": 2.900868661334323e-06,
      "loss": 0.7116,
      "step": 12359
    },
    {
      "epoch": 0.7587709874459008,
      "grad_norm": 0.987884059900162,
      "learning_rate": 2.899468428308526e-06,
      "loss": 0.7911,
      "step": 12360
    },
    {
      "epoch": 0.7588323766843672,
      "grad_norm": 0.9552799462673043,
      "learning_rate": 2.8980684760047182e-06,
      "loss": 0.7655,
      "step": 12361
    },
    {
      "epoch": 0.7588937659228338,
      "grad_norm": 1.0322964468099998,
      "learning_rate": 2.8966688044782476e-06,
      "loss": 0.7631,
      "step": 12362
    },
    {
      "epoch": 0.7589551551613002,
      "grad_norm": 1.0655989666710803,
      "learning_rate": 2.8952694137844494e-06,
      "loss": 0.7534,
      "step": 12363
    },
    {
      "epoch": 0.7590165443997667,
      "grad_norm": 0.9462130646022289,
      "learning_rate": 2.8938703039786507e-06,
      "loss": 0.7468,
      "step": 12364
    },
    {
      "epoch": 0.7590779336382332,
      "grad_norm": 0.9141297680328399,
      "learning_rate": 2.8924714751161653e-06,
      "loss": 0.7392,
      "step": 12365
    },
    {
      "epoch": 0.7591393228766997,
      "grad_norm": 0.9369582852357042,
      "learning_rate": 2.8910729272522963e-06,
      "loss": 0.7568,
      "step": 12366
    },
    {
      "epoch": 0.7592007121151663,
      "grad_norm": 1.0076180221123914,
      "learning_rate": 2.8896746604423355e-06,
      "loss": 0.761,
      "step": 12367
    },
    {
      "epoch": 0.7592621013536327,
      "grad_norm": 1.0743244189642331,
      "learning_rate": 2.8882766747415636e-06,
      "loss": 0.6925,
      "step": 12368
    },
    {
      "epoch": 0.7593234905920992,
      "grad_norm": 1.110449530347945,
      "learning_rate": 2.8868789702052513e-06,
      "loss": 0.7312,
      "step": 12369
    },
    {
      "epoch": 0.7593848798305657,
      "grad_norm": 1.004122255184409,
      "learning_rate": 2.8854815468886544e-06,
      "loss": 0.7906,
      "step": 12370
    },
    {
      "epoch": 0.7594462690690322,
      "grad_norm": 0.9774422147357631,
      "learning_rate": 2.884084404847025e-06,
      "loss": 0.7181,
      "step": 12371
    },
    {
      "epoch": 0.7595076583074987,
      "grad_norm": 0.9929104849526189,
      "learning_rate": 2.8826875441356016e-06,
      "loss": 0.7623,
      "step": 12372
    },
    {
      "epoch": 0.7595690475459652,
      "grad_norm": 1.1156555900486196,
      "learning_rate": 2.8812909648096e-06,
      "loss": 0.7872,
      "step": 12373
    },
    {
      "epoch": 0.7596304367844317,
      "grad_norm": 0.792603671503129,
      "learning_rate": 2.879894666924242e-06,
      "loss": 0.7488,
      "step": 12374
    },
    {
      "epoch": 0.7596918260228982,
      "grad_norm": 0.9612988615098775,
      "learning_rate": 2.8784986505347302e-06,
      "loss": 0.737,
      "step": 12375
    },
    {
      "epoch": 0.7597532152613646,
      "grad_norm": 0.9783130148294925,
      "learning_rate": 2.877102915696254e-06,
      "loss": 0.7452,
      "step": 12376
    },
    {
      "epoch": 0.7598146044998312,
      "grad_norm": 0.9861797761567641,
      "learning_rate": 2.8757074624639958e-06,
      "loss": 0.6958,
      "step": 12377
    },
    {
      "epoch": 0.7598759937382977,
      "grad_norm": 0.941514574515971,
      "learning_rate": 2.8743122908931243e-06,
      "loss": 0.7086,
      "step": 12378
    },
    {
      "epoch": 0.7599373829767642,
      "grad_norm": 0.9594342822490121,
      "learning_rate": 2.8729174010387996e-06,
      "loss": 0.7704,
      "step": 12379
    },
    {
      "epoch": 0.7599987722152307,
      "grad_norm": 0.9645413173994156,
      "learning_rate": 2.8715227929561685e-06,
      "loss": 0.7345,
      "step": 12380
    },
    {
      "epoch": 0.7600601614536971,
      "grad_norm": 1.0016044393690313,
      "learning_rate": 2.870128466700367e-06,
      "loss": 0.7648,
      "step": 12381
    },
    {
      "epoch": 0.7601215506921637,
      "grad_norm": 0.93380978522813,
      "learning_rate": 2.86873442232652e-06,
      "loss": 0.8333,
      "step": 12382
    },
    {
      "epoch": 0.7601829399306301,
      "grad_norm": 1.0001643402772018,
      "learning_rate": 2.8673406598897423e-06,
      "loss": 0.7481,
      "step": 12383
    },
    {
      "epoch": 0.7602443291690967,
      "grad_norm": 0.9492044102248799,
      "learning_rate": 2.8659471794451345e-06,
      "loss": 0.7325,
      "step": 12384
    },
    {
      "epoch": 0.7603057184075631,
      "grad_norm": 0.8012829113141293,
      "learning_rate": 2.8645539810477916e-06,
      "loss": 0.7116,
      "step": 12385
    },
    {
      "epoch": 0.7603671076460297,
      "grad_norm": 1.1040783612199103,
      "learning_rate": 2.8631610647527965e-06,
      "loss": 0.7399,
      "step": 12386
    },
    {
      "epoch": 0.7604284968844961,
      "grad_norm": 0.9935492024949374,
      "learning_rate": 2.8617684306152092e-06,
      "loss": 0.7496,
      "step": 12387
    },
    {
      "epoch": 0.7604898861229626,
      "grad_norm": 0.9928559368767448,
      "learning_rate": 2.860376078690097e-06,
      "loss": 0.7288,
      "step": 12388
    },
    {
      "epoch": 0.7605512753614292,
      "grad_norm": 1.0238073862320012,
      "learning_rate": 2.8589840090325028e-06,
      "loss": 0.7843,
      "step": 12389
    },
    {
      "epoch": 0.7606126645998956,
      "grad_norm": 0.9436557187465585,
      "learning_rate": 2.857592221697465e-06,
      "loss": 0.7191,
      "step": 12390
    },
    {
      "epoch": 0.7606740538383622,
      "grad_norm": 1.0765537393422253,
      "learning_rate": 2.8562007167400064e-06,
      "loss": 0.8099,
      "step": 12391
    },
    {
      "epoch": 0.7607354430768286,
      "grad_norm": 0.9594872382212712,
      "learning_rate": 2.8548094942151405e-06,
      "loss": 0.7388,
      "step": 12392
    },
    {
      "epoch": 0.7607968323152952,
      "grad_norm": 0.9017572140701408,
      "learning_rate": 2.8534185541778712e-06,
      "loss": 0.7181,
      "step": 12393
    },
    {
      "epoch": 0.7608582215537616,
      "grad_norm": 1.0254177028031985,
      "learning_rate": 2.8520278966831883e-06,
      "loss": 0.7781,
      "step": 12394
    },
    {
      "epoch": 0.7609196107922281,
      "grad_norm": 1.0790629806533556,
      "learning_rate": 2.8506375217860706e-06,
      "loss": 0.7727,
      "step": 12395
    },
    {
      "epoch": 0.7609810000306946,
      "grad_norm": 1.0662767998641671,
      "learning_rate": 2.849247429541494e-06,
      "loss": 0.8092,
      "step": 12396
    },
    {
      "epoch": 0.7610423892691611,
      "grad_norm": 1.0735382066081114,
      "learning_rate": 2.8478576200044095e-06,
      "loss": 0.7313,
      "step": 12397
    },
    {
      "epoch": 0.7611037785076276,
      "grad_norm": 1.0667691431684294,
      "learning_rate": 2.8464680932297627e-06,
      "loss": 0.722,
      "step": 12398
    },
    {
      "epoch": 0.7611651677460941,
      "grad_norm": 0.9115709052625787,
      "learning_rate": 2.8450788492724946e-06,
      "loss": 0.7977,
      "step": 12399
    },
    {
      "epoch": 0.7612265569845607,
      "grad_norm": 0.9666767791121355,
      "learning_rate": 2.8436898881875265e-06,
      "loss": 0.6809,
      "step": 12400
    },
    {
      "epoch": 0.7612879462230271,
      "grad_norm": 0.8991059611598484,
      "learning_rate": 2.842301210029772e-06,
      "loss": 0.799,
      "step": 12401
    },
    {
      "epoch": 0.7613493354614936,
      "grad_norm": 1.172285100263101,
      "learning_rate": 2.8409128148541322e-06,
      "loss": 0.7951,
      "step": 12402
    },
    {
      "epoch": 0.7614107246999601,
      "grad_norm": 1.02815669268329,
      "learning_rate": 2.8395247027154994e-06,
      "loss": 0.7556,
      "step": 12403
    },
    {
      "epoch": 0.7614721139384266,
      "grad_norm": 0.9701034974768261,
      "learning_rate": 2.838136873668751e-06,
      "loss": 0.7008,
      "step": 12404
    },
    {
      "epoch": 0.7615335031768931,
      "grad_norm": 0.8802485298597438,
      "learning_rate": 2.8367493277687576e-06,
      "loss": 0.728,
      "step": 12405
    },
    {
      "epoch": 0.7615948924153596,
      "grad_norm": 0.9841296733069653,
      "learning_rate": 2.835362065070374e-06,
      "loss": 0.7519,
      "step": 12406
    },
    {
      "epoch": 0.761656281653826,
      "grad_norm": 1.0315844365125437,
      "learning_rate": 2.8339750856284464e-06,
      "loss": 0.8004,
      "step": 12407
    },
    {
      "epoch": 0.7617176708922926,
      "grad_norm": 1.061740782468289,
      "learning_rate": 2.832588389497812e-06,
      "loss": 0.8086,
      "step": 12408
    },
    {
      "epoch": 0.761779060130759,
      "grad_norm": 1.014130801432635,
      "learning_rate": 2.8312019767332888e-06,
      "loss": 0.7629,
      "step": 12409
    },
    {
      "epoch": 0.7618404493692256,
      "grad_norm": 0.5640980809404907,
      "learning_rate": 2.8298158473896953e-06,
      "loss": 0.6047,
      "step": 12410
    },
    {
      "epoch": 0.7619018386076921,
      "grad_norm": 0.9858018491841142,
      "learning_rate": 2.8284300015218347e-06,
      "loss": 0.7327,
      "step": 12411
    },
    {
      "epoch": 0.7619632278461586,
      "grad_norm": 1.0299697702366097,
      "learning_rate": 2.827044439184485e-06,
      "loss": 0.7985,
      "step": 12412
    },
    {
      "epoch": 0.7620246170846251,
      "grad_norm": 1.062297974960552,
      "learning_rate": 2.8256591604324357e-06,
      "loss": 0.7398,
      "step": 12413
    },
    {
      "epoch": 0.7620860063230915,
      "grad_norm": 0.970093853003359,
      "learning_rate": 2.8242741653204508e-06,
      "loss": 0.7053,
      "step": 12414
    },
    {
      "epoch": 0.7621473955615581,
      "grad_norm": 1.0016233070909366,
      "learning_rate": 2.822889453903287e-06,
      "loss": 0.742,
      "step": 12415
    },
    {
      "epoch": 0.7622087848000245,
      "grad_norm": 1.0483258133687827,
      "learning_rate": 2.821505026235688e-06,
      "loss": 0.7248,
      "step": 12416
    },
    {
      "epoch": 0.7622701740384911,
      "grad_norm": 1.0029123681927576,
      "learning_rate": 2.820120882372389e-06,
      "loss": 0.7424,
      "step": 12417
    },
    {
      "epoch": 0.7623315632769575,
      "grad_norm": 0.9162472459846625,
      "learning_rate": 2.8187370223681134e-06,
      "loss": 0.7898,
      "step": 12418
    },
    {
      "epoch": 0.762392952515424,
      "grad_norm": 1.1128032887012034,
      "learning_rate": 2.81735344627757e-06,
      "loss": 0.7895,
      "step": 12419
    },
    {
      "epoch": 0.7624543417538906,
      "grad_norm": 0.8557775128092072,
      "learning_rate": 2.8159701541554587e-06,
      "loss": 0.7665,
      "step": 12420
    },
    {
      "epoch": 0.762515730992357,
      "grad_norm": 0.9029913780785519,
      "learning_rate": 2.8145871460564745e-06,
      "loss": 0.7241,
      "step": 12421
    },
    {
      "epoch": 0.7625771202308236,
      "grad_norm": 0.8955854903454842,
      "learning_rate": 2.8132044220352884e-06,
      "loss": 0.7648,
      "step": 12422
    },
    {
      "epoch": 0.76263850946929,
      "grad_norm": 1.0165332281145176,
      "learning_rate": 2.8118219821465666e-06,
      "loss": 0.7407,
      "step": 12423
    },
    {
      "epoch": 0.7626998987077566,
      "grad_norm": 0.9449555607194516,
      "learning_rate": 2.8104398264449693e-06,
      "loss": 0.7181,
      "step": 12424
    },
    {
      "epoch": 0.762761287946223,
      "grad_norm": 0.9314816439946427,
      "learning_rate": 2.8090579549851384e-06,
      "loss": 0.7685,
      "step": 12425
    },
    {
      "epoch": 0.7628226771846895,
      "grad_norm": 0.9558667429734744,
      "learning_rate": 2.807676367821707e-06,
      "loss": 0.737,
      "step": 12426
    },
    {
      "epoch": 0.762884066423156,
      "grad_norm": 0.9426699486664045,
      "learning_rate": 2.8062950650092944e-06,
      "loss": 0.7596,
      "step": 12427
    },
    {
      "epoch": 0.7629454556616225,
      "grad_norm": 1.0132513025560272,
      "learning_rate": 2.804914046602514e-06,
      "loss": 0.7758,
      "step": 12428
    },
    {
      "epoch": 0.763006844900089,
      "grad_norm": 1.0254209696641705,
      "learning_rate": 2.8035333126559627e-06,
      "loss": 0.7998,
      "step": 12429
    },
    {
      "epoch": 0.7630682341385555,
      "grad_norm": 1.035461996809843,
      "learning_rate": 2.802152863224227e-06,
      "loss": 0.7465,
      "step": 12430
    },
    {
      "epoch": 0.7631296233770221,
      "grad_norm": 0.952248616059993,
      "learning_rate": 2.80077269836189e-06,
      "loss": 0.7818,
      "step": 12431
    },
    {
      "epoch": 0.7631910126154885,
      "grad_norm": 0.9487109004060976,
      "learning_rate": 2.7993928181235095e-06,
      "loss": 0.7863,
      "step": 12432
    },
    {
      "epoch": 0.763252401853955,
      "grad_norm": 0.9716602479289043,
      "learning_rate": 2.7980132225636437e-06,
      "loss": 0.8049,
      "step": 12433
    },
    {
      "epoch": 0.7633137910924215,
      "grad_norm": 1.0033515702662001,
      "learning_rate": 2.79663391173683e-06,
      "loss": 0.7546,
      "step": 12434
    },
    {
      "epoch": 0.763375180330888,
      "grad_norm": 0.9428778001025775,
      "learning_rate": 2.795254885697608e-06,
      "loss": 0.7471,
      "step": 12435
    },
    {
      "epoch": 0.7634365695693545,
      "grad_norm": 1.0333364113695347,
      "learning_rate": 2.793876144500497e-06,
      "loss": 0.7285,
      "step": 12436
    },
    {
      "epoch": 0.763497958807821,
      "grad_norm": 1.0282807580035682,
      "learning_rate": 2.7924976881999955e-06,
      "loss": 0.7278,
      "step": 12437
    },
    {
      "epoch": 0.7635593480462874,
      "grad_norm": 0.9122772723159738,
      "learning_rate": 2.7911195168506133e-06,
      "loss": 0.7573,
      "step": 12438
    },
    {
      "epoch": 0.763620737284754,
      "grad_norm": 0.9499342008740775,
      "learning_rate": 2.7897416305068325e-06,
      "loss": 0.7117,
      "step": 12439
    },
    {
      "epoch": 0.7636821265232204,
      "grad_norm": 0.9794788213378216,
      "learning_rate": 2.7883640292231272e-06,
      "loss": 0.7494,
      "step": 12440
    },
    {
      "epoch": 0.763743515761687,
      "grad_norm": 0.971547429578804,
      "learning_rate": 2.786986713053963e-06,
      "loss": 0.7728,
      "step": 12441
    },
    {
      "epoch": 0.7638049050001535,
      "grad_norm": 1.0502892914335094,
      "learning_rate": 2.7856096820537915e-06,
      "loss": 0.7548,
      "step": 12442
    },
    {
      "epoch": 0.76386629423862,
      "grad_norm": 1.0406737422114833,
      "learning_rate": 2.7842329362770547e-06,
      "loss": 0.7597,
      "step": 12443
    },
    {
      "epoch": 0.7639276834770865,
      "grad_norm": 0.936032239002887,
      "learning_rate": 2.782856475778183e-06,
      "loss": 0.7609,
      "step": 12444
    },
    {
      "epoch": 0.7639890727155529,
      "grad_norm": 0.9425611284452392,
      "learning_rate": 2.7814803006115956e-06,
      "loss": 0.7345,
      "step": 12445
    },
    {
      "epoch": 0.7640504619540195,
      "grad_norm": 0.8409289646811798,
      "learning_rate": 2.780104410831698e-06,
      "loss": 0.7503,
      "step": 12446
    },
    {
      "epoch": 0.7641118511924859,
      "grad_norm": 1.0547827025994247,
      "learning_rate": 2.7787288064928875e-06,
      "loss": 0.8275,
      "step": 12447
    },
    {
      "epoch": 0.7641732404309525,
      "grad_norm": 0.9495296753599293,
      "learning_rate": 2.7773534876495466e-06,
      "loss": 0.7667,
      "step": 12448
    },
    {
      "epoch": 0.7642346296694189,
      "grad_norm": 0.9993498221765588,
      "learning_rate": 2.775978454356055e-06,
      "loss": 0.7466,
      "step": 12449
    },
    {
      "epoch": 0.7642960189078855,
      "grad_norm": 0.9563349862456156,
      "learning_rate": 2.774603706666775e-06,
      "loss": 0.7681,
      "step": 12450
    },
    {
      "epoch": 0.7643574081463519,
      "grad_norm": 1.032857165945474,
      "learning_rate": 2.7732292446360487e-06,
      "loss": 0.7396,
      "step": 12451
    },
    {
      "epoch": 0.7644187973848184,
      "grad_norm": 1.064465182868989,
      "learning_rate": 2.7718550683182245e-06,
      "loss": 0.738,
      "step": 12452
    },
    {
      "epoch": 0.764480186623285,
      "grad_norm": 1.0023106112454183,
      "learning_rate": 2.770481177767629e-06,
      "loss": 0.7282,
      "step": 12453
    },
    {
      "epoch": 0.7645415758617514,
      "grad_norm": 0.9645275138347694,
      "learning_rate": 2.7691075730385774e-06,
      "loss": 0.7889,
      "step": 12454
    },
    {
      "epoch": 0.764602965100218,
      "grad_norm": 0.9986150961596947,
      "learning_rate": 2.767734254185378e-06,
      "loss": 0.7133,
      "step": 12455
    },
    {
      "epoch": 0.7646643543386844,
      "grad_norm": 0.9609627193652349,
      "learning_rate": 2.7663612212623237e-06,
      "loss": 0.7565,
      "step": 12456
    },
    {
      "epoch": 0.764725743577151,
      "grad_norm": 1.0960028563513158,
      "learning_rate": 2.7649884743236997e-06,
      "loss": 0.7557,
      "step": 12457
    },
    {
      "epoch": 0.7647871328156174,
      "grad_norm": 0.9183157586813192,
      "learning_rate": 2.7636160134237753e-06,
      "loss": 0.7417,
      "step": 12458
    },
    {
      "epoch": 0.7648485220540839,
      "grad_norm": 1.0503300008392482,
      "learning_rate": 2.7622438386168115e-06,
      "loss": 0.7998,
      "step": 12459
    },
    {
      "epoch": 0.7649099112925504,
      "grad_norm": 1.060625797808571,
      "learning_rate": 2.7608719499570637e-06,
      "loss": 0.7145,
      "step": 12460
    },
    {
      "epoch": 0.7649713005310169,
      "grad_norm": 0.981074040850596,
      "learning_rate": 2.7595003474987623e-06,
      "loss": 0.7522,
      "step": 12461
    },
    {
      "epoch": 0.7650326897694835,
      "grad_norm": 0.8964831839822531,
      "learning_rate": 2.758129031296135e-06,
      "loss": 0.7614,
      "step": 12462
    },
    {
      "epoch": 0.7650940790079499,
      "grad_norm": 0.9915435444135138,
      "learning_rate": 2.7567580014034024e-06,
      "loss": 0.7827,
      "step": 12463
    },
    {
      "epoch": 0.7651554682464164,
      "grad_norm": 0.9582891741061126,
      "learning_rate": 2.755387257874764e-06,
      "loss": 0.7241,
      "step": 12464
    },
    {
      "epoch": 0.7652168574848829,
      "grad_norm": 0.8811718633797337,
      "learning_rate": 2.7540168007644152e-06,
      "loss": 0.7032,
      "step": 12465
    },
    {
      "epoch": 0.7652782467233494,
      "grad_norm": 1.010402370035662,
      "learning_rate": 2.7526466301265375e-06,
      "loss": 0.7237,
      "step": 12466
    },
    {
      "epoch": 0.7653396359618159,
      "grad_norm": 0.5554672338990756,
      "learning_rate": 2.751276746015299e-06,
      "loss": 0.6162,
      "step": 12467
    },
    {
      "epoch": 0.7654010252002824,
      "grad_norm": 0.9606959381586654,
      "learning_rate": 2.7499071484848593e-06,
      "loss": 0.7973,
      "step": 12468
    },
    {
      "epoch": 0.7654624144387489,
      "grad_norm": 0.9716753187442397,
      "learning_rate": 2.7485378375893634e-06,
      "loss": 0.7513,
      "step": 12469
    },
    {
      "epoch": 0.7655238036772154,
      "grad_norm": 1.0134634819399249,
      "learning_rate": 2.7471688133829576e-06,
      "loss": 0.7217,
      "step": 12470
    },
    {
      "epoch": 0.7655851929156818,
      "grad_norm": 0.9590422455024185,
      "learning_rate": 2.745800075919756e-06,
      "loss": 0.7019,
      "step": 12471
    },
    {
      "epoch": 0.7656465821541484,
      "grad_norm": 0.9836863838101059,
      "learning_rate": 2.7444316252538738e-06,
      "loss": 0.7709,
      "step": 12472
    },
    {
      "epoch": 0.7657079713926149,
      "grad_norm": 1.0773455431155472,
      "learning_rate": 2.7430634614394135e-06,
      "loss": 0.6821,
      "step": 12473
    },
    {
      "epoch": 0.7657693606310814,
      "grad_norm": 0.970742126183311,
      "learning_rate": 2.7416955845304705e-06,
      "loss": 0.741,
      "step": 12474
    },
    {
      "epoch": 0.7658307498695479,
      "grad_norm": 1.0016180768677982,
      "learning_rate": 2.7403279945811234e-06,
      "loss": 0.7451,
      "step": 12475
    },
    {
      "epoch": 0.7658921391080143,
      "grad_norm": 1.0115522000661294,
      "learning_rate": 2.7389606916454325e-06,
      "loss": 0.76,
      "step": 12476
    },
    {
      "epoch": 0.7659535283464809,
      "grad_norm": 1.0431055276512555,
      "learning_rate": 2.7375936757774635e-06,
      "loss": 0.7581,
      "step": 12477
    },
    {
      "epoch": 0.7660149175849473,
      "grad_norm": 0.8584009407000573,
      "learning_rate": 2.7362269470312587e-06,
      "loss": 0.7297,
      "step": 12478
    },
    {
      "epoch": 0.7660763068234139,
      "grad_norm": 0.9711611998308907,
      "learning_rate": 2.734860505460851e-06,
      "loss": 0.7345,
      "step": 12479
    },
    {
      "epoch": 0.7661376960618803,
      "grad_norm": 0.9779557003217648,
      "learning_rate": 2.733494351120265e-06,
      "loss": 0.7826,
      "step": 12480
    },
    {
      "epoch": 0.7661990853003469,
      "grad_norm": 0.5883109784998166,
      "learning_rate": 2.732128484063512e-06,
      "loss": 0.6292,
      "step": 12481
    },
    {
      "epoch": 0.7662604745388133,
      "grad_norm": 0.9134014982100019,
      "learning_rate": 2.7307629043445907e-06,
      "loss": 0.7315,
      "step": 12482
    },
    {
      "epoch": 0.7663218637772798,
      "grad_norm": 0.9568575505589394,
      "learning_rate": 2.7293976120174903e-06,
      "loss": 0.7153,
      "step": 12483
    },
    {
      "epoch": 0.7663832530157464,
      "grad_norm": 1.0815272300544263,
      "learning_rate": 2.7280326071361853e-06,
      "loss": 0.7084,
      "step": 12484
    },
    {
      "epoch": 0.7664446422542128,
      "grad_norm": 1.016421461536005,
      "learning_rate": 2.7266678897546504e-06,
      "loss": 0.7577,
      "step": 12485
    },
    {
      "epoch": 0.7665060314926794,
      "grad_norm": 0.9935545386815309,
      "learning_rate": 2.7253034599268314e-06,
      "loss": 0.7382,
      "step": 12486
    },
    {
      "epoch": 0.7665674207311458,
      "grad_norm": 1.0449028349621923,
      "learning_rate": 2.7239393177066708e-06,
      "loss": 0.7818,
      "step": 12487
    },
    {
      "epoch": 0.7666288099696124,
      "grad_norm": 1.1052927889589086,
      "learning_rate": 2.7225754631481084e-06,
      "loss": 0.7527,
      "step": 12488
    },
    {
      "epoch": 0.7666901992080788,
      "grad_norm": 1.0747968349863928,
      "learning_rate": 2.721211896305059e-06,
      "loss": 0.7251,
      "step": 12489
    },
    {
      "epoch": 0.7667515884465453,
      "grad_norm": 1.0395049407009913,
      "learning_rate": 2.7198486172314342e-06,
      "loss": 0.7812,
      "step": 12490
    },
    {
      "epoch": 0.7668129776850118,
      "grad_norm": 0.9119437810666433,
      "learning_rate": 2.71848562598113e-06,
      "loss": 0.751,
      "step": 12491
    },
    {
      "epoch": 0.7668743669234783,
      "grad_norm": 1.0115980942830514,
      "learning_rate": 2.717122922608033e-06,
      "loss": 0.7789,
      "step": 12492
    },
    {
      "epoch": 0.7669357561619448,
      "grad_norm": 0.5805917685194878,
      "learning_rate": 2.7157605071660188e-06,
      "loss": 0.6529,
      "step": 12493
    },
    {
      "epoch": 0.7669971454004113,
      "grad_norm": 0.8204267416637807,
      "learning_rate": 2.714398379708948e-06,
      "loss": 0.7259,
      "step": 12494
    },
    {
      "epoch": 0.7670585346388779,
      "grad_norm": 1.0036280926008758,
      "learning_rate": 2.713036540290681e-06,
      "loss": 0.7677,
      "step": 12495
    },
    {
      "epoch": 0.7671199238773443,
      "grad_norm": 0.9344963589772225,
      "learning_rate": 2.7116749889650498e-06,
      "loss": 0.7058,
      "step": 12496
    },
    {
      "epoch": 0.7671813131158108,
      "grad_norm": 0.8696178205671645,
      "learning_rate": 2.7103137257858867e-06,
      "loss": 0.7403,
      "step": 12497
    },
    {
      "epoch": 0.7672427023542773,
      "grad_norm": 0.9822538851983337,
      "learning_rate": 2.708952750807008e-06,
      "loss": 0.7525,
      "step": 12498
    },
    {
      "epoch": 0.7673040915927438,
      "grad_norm": 0.8847786540630774,
      "learning_rate": 2.707592064082224e-06,
      "loss": 0.7342,
      "step": 12499
    },
    {
      "epoch": 0.7673654808312103,
      "grad_norm": 1.1162390138831861,
      "learning_rate": 2.706231665665332e-06,
      "loss": 0.7904,
      "step": 12500
    },
    {
      "epoch": 0.7674268700696768,
      "grad_norm": 1.0836607326130467,
      "learning_rate": 2.704871555610107e-06,
      "loss": 0.7653,
      "step": 12501
    },
    {
      "epoch": 0.7674882593081432,
      "grad_norm": 1.064003144864705,
      "learning_rate": 2.7035117339703276e-06,
      "loss": 0.8202,
      "step": 12502
    },
    {
      "epoch": 0.7675496485466098,
      "grad_norm": 0.9572570969611915,
      "learning_rate": 2.7021522007997545e-06,
      "loss": 0.6693,
      "step": 12503
    },
    {
      "epoch": 0.7676110377850762,
      "grad_norm": 0.9411948059986358,
      "learning_rate": 2.700792956152137e-06,
      "loss": 0.7079,
      "step": 12504
    },
    {
      "epoch": 0.7676724270235428,
      "grad_norm": 1.1151115097194033,
      "learning_rate": 2.6994340000812123e-06,
      "loss": 0.7534,
      "step": 12505
    },
    {
      "epoch": 0.7677338162620093,
      "grad_norm": 1.0473976536907077,
      "learning_rate": 2.6980753326407084e-06,
      "loss": 0.7592,
      "step": 12506
    },
    {
      "epoch": 0.7677952055004758,
      "grad_norm": 0.8368543474449823,
      "learning_rate": 2.6967169538843396e-06,
      "loss": 0.751,
      "step": 12507
    },
    {
      "epoch": 0.7678565947389423,
      "grad_norm": 0.9685400498800225,
      "learning_rate": 2.695358863865808e-06,
      "loss": 0.7607,
      "step": 12508
    },
    {
      "epoch": 0.7679179839774087,
      "grad_norm": 0.8866281627909051,
      "learning_rate": 2.6940010626388134e-06,
      "loss": 0.7771,
      "step": 12509
    },
    {
      "epoch": 0.7679793732158753,
      "grad_norm": 0.9560286742477653,
      "learning_rate": 2.6926435502570293e-06,
      "loss": 0.7378,
      "step": 12510
    },
    {
      "epoch": 0.7680407624543417,
      "grad_norm": 1.0201989151345774,
      "learning_rate": 2.6912863267741285e-06,
      "loss": 0.7461,
      "step": 12511
    },
    {
      "epoch": 0.7681021516928083,
      "grad_norm": 0.9099215797002751,
      "learning_rate": 2.6899293922437652e-06,
      "loss": 0.6963,
      "step": 12512
    },
    {
      "epoch": 0.7681635409312747,
      "grad_norm": 1.0140177679097182,
      "learning_rate": 2.6885727467195943e-06,
      "loss": 0.7319,
      "step": 12513
    },
    {
      "epoch": 0.7682249301697412,
      "grad_norm": 0.9435858824867432,
      "learning_rate": 2.6872163902552494e-06,
      "loss": 0.7877,
      "step": 12514
    },
    {
      "epoch": 0.7682863194082078,
      "grad_norm": 0.5642213910625865,
      "learning_rate": 2.6858603229043456e-06,
      "loss": 0.6713,
      "step": 12515
    },
    {
      "epoch": 0.7683477086466742,
      "grad_norm": 0.9996079604497384,
      "learning_rate": 2.6845045447205056e-06,
      "loss": 0.7459,
      "step": 12516
    },
    {
      "epoch": 0.7684090978851408,
      "grad_norm": 0.9054949336176018,
      "learning_rate": 2.683149055757327e-06,
      "loss": 0.7196,
      "step": 12517
    },
    {
      "epoch": 0.7684704871236072,
      "grad_norm": 1.0441672718303434,
      "learning_rate": 2.681793856068399e-06,
      "loss": 0.7811,
      "step": 12518
    },
    {
      "epoch": 0.7685318763620738,
      "grad_norm": 1.0622278563445744,
      "learning_rate": 2.680438945707301e-06,
      "loss": 0.7795,
      "step": 12519
    },
    {
      "epoch": 0.7685932656005402,
      "grad_norm": 0.9689563964995813,
      "learning_rate": 2.679084324727599e-06,
      "loss": 0.7179,
      "step": 12520
    },
    {
      "epoch": 0.7686546548390067,
      "grad_norm": 1.0155054780066386,
      "learning_rate": 2.6777299931828482e-06,
      "loss": 0.7451,
      "step": 12521
    },
    {
      "epoch": 0.7687160440774732,
      "grad_norm": 1.0387155071053527,
      "learning_rate": 2.676375951126593e-06,
      "loss": 0.7569,
      "step": 12522
    },
    {
      "epoch": 0.7687774333159397,
      "grad_norm": 0.9748788329085564,
      "learning_rate": 2.675022198612364e-06,
      "loss": 0.7614,
      "step": 12523
    },
    {
      "epoch": 0.7688388225544062,
      "grad_norm": 1.0155016314113439,
      "learning_rate": 2.6736687356936888e-06,
      "loss": 0.7385,
      "step": 12524
    },
    {
      "epoch": 0.7689002117928727,
      "grad_norm": 0.9233200248869935,
      "learning_rate": 2.6723155624240706e-06,
      "loss": 0.6964,
      "step": 12525
    },
    {
      "epoch": 0.7689616010313393,
      "grad_norm": 1.009732948855654,
      "learning_rate": 2.6709626788570053e-06,
      "loss": 0.7149,
      "step": 12526
    },
    {
      "epoch": 0.7690229902698057,
      "grad_norm": 0.9760321332254489,
      "learning_rate": 2.6696100850459883e-06,
      "loss": 0.7094,
      "step": 12527
    },
    {
      "epoch": 0.7690843795082722,
      "grad_norm": 1.0932851498823695,
      "learning_rate": 2.6682577810444887e-06,
      "loss": 0.7299,
      "step": 12528
    },
    {
      "epoch": 0.7691457687467387,
      "grad_norm": 1.0855805960755465,
      "learning_rate": 2.6669057669059727e-06,
      "loss": 0.7679,
      "step": 12529
    },
    {
      "epoch": 0.7692071579852052,
      "grad_norm": 1.0246658079152011,
      "learning_rate": 2.665554042683892e-06,
      "loss": 0.7324,
      "step": 12530
    },
    {
      "epoch": 0.7692685472236717,
      "grad_norm": 0.9466481788185632,
      "learning_rate": 2.6642026084316874e-06,
      "loss": 0.7225,
      "step": 12531
    },
    {
      "epoch": 0.7693299364621382,
      "grad_norm": 1.1074232751326514,
      "learning_rate": 2.6628514642027882e-06,
      "loss": 0.745,
      "step": 12532
    },
    {
      "epoch": 0.7693913257006046,
      "grad_norm": 0.9922436702665131,
      "learning_rate": 2.661500610050609e-06,
      "loss": 0.7831,
      "step": 12533
    },
    {
      "epoch": 0.7694527149390712,
      "grad_norm": 1.0300300878968442,
      "learning_rate": 2.660150046028567e-06,
      "loss": 0.7256,
      "step": 12534
    },
    {
      "epoch": 0.7695141041775376,
      "grad_norm": 0.8750526677639425,
      "learning_rate": 2.658799772190046e-06,
      "loss": 0.6997,
      "step": 12535
    },
    {
      "epoch": 0.7695754934160042,
      "grad_norm": 0.9656277425110735,
      "learning_rate": 2.6574497885884333e-06,
      "loss": 0.7259,
      "step": 12536
    },
    {
      "epoch": 0.7696368826544707,
      "grad_norm": 1.0153227609776727,
      "learning_rate": 2.6561000952770987e-06,
      "loss": 0.7191,
      "step": 12537
    },
    {
      "epoch": 0.7696982718929372,
      "grad_norm": 1.144454392434127,
      "learning_rate": 2.654750692309408e-06,
      "loss": 0.7645,
      "step": 12538
    },
    {
      "epoch": 0.7697596611314037,
      "grad_norm": 0.9902122461211466,
      "learning_rate": 2.6534015797387103e-06,
      "loss": 0.7203,
      "step": 12539
    },
    {
      "epoch": 0.7698210503698701,
      "grad_norm": 1.0308604763556686,
      "learning_rate": 2.6520527576183354e-06,
      "loss": 0.7407,
      "step": 12540
    },
    {
      "epoch": 0.7698824396083367,
      "grad_norm": 0.9969061538043358,
      "learning_rate": 2.6507042260016167e-06,
      "loss": 0.7323,
      "step": 12541
    },
    {
      "epoch": 0.7699438288468031,
      "grad_norm": 0.8987472918451664,
      "learning_rate": 2.649355984941867e-06,
      "loss": 0.7557,
      "step": 12542
    },
    {
      "epoch": 0.7700052180852697,
      "grad_norm": 0.9370167775464409,
      "learning_rate": 2.6480080344923896e-06,
      "loss": 0.7875,
      "step": 12543
    },
    {
      "epoch": 0.7700666073237361,
      "grad_norm": 1.070789001252731,
      "learning_rate": 2.6466603747064755e-06,
      "loss": 0.757,
      "step": 12544
    },
    {
      "epoch": 0.7701279965622027,
      "grad_norm": 1.0969771496051008,
      "learning_rate": 2.6453130056374054e-06,
      "loss": 0.7552,
      "step": 12545
    },
    {
      "epoch": 0.7701893858006691,
      "grad_norm": 0.9133450619380086,
      "learning_rate": 2.643965927338448e-06,
      "loss": 0.7614,
      "step": 12546
    },
    {
      "epoch": 0.7702507750391356,
      "grad_norm": 0.9818965889086574,
      "learning_rate": 2.6426191398628564e-06,
      "loss": 0.7063,
      "step": 12547
    },
    {
      "epoch": 0.7703121642776022,
      "grad_norm": 1.0458559369090936,
      "learning_rate": 2.6412726432638834e-06,
      "loss": 0.7543,
      "step": 12548
    },
    {
      "epoch": 0.7703735535160686,
      "grad_norm": 1.0416887348834039,
      "learning_rate": 2.6399264375947632e-06,
      "loss": 0.7753,
      "step": 12549
    },
    {
      "epoch": 0.7704349427545352,
      "grad_norm": 0.9338537326214363,
      "learning_rate": 2.6385805229087138e-06,
      "loss": 0.7758,
      "step": 12550
    },
    {
      "epoch": 0.7704963319930016,
      "grad_norm": 1.0792432155295502,
      "learning_rate": 2.6372348992589426e-06,
      "loss": 0.7675,
      "step": 12551
    },
    {
      "epoch": 0.7705577212314682,
      "grad_norm": 1.043168472851846,
      "learning_rate": 2.6358895666986596e-06,
      "loss": 0.7056,
      "step": 12552
    },
    {
      "epoch": 0.7706191104699346,
      "grad_norm": 1.0162535021610677,
      "learning_rate": 2.6345445252810476e-06,
      "loss": 0.7103,
      "step": 12553
    },
    {
      "epoch": 0.7706804997084011,
      "grad_norm": 1.0095483827860723,
      "learning_rate": 2.633199775059283e-06,
      "loss": 0.7797,
      "step": 12554
    },
    {
      "epoch": 0.7707418889468676,
      "grad_norm": 0.9742641652879762,
      "learning_rate": 2.6318553160865323e-06,
      "loss": 0.7307,
      "step": 12555
    },
    {
      "epoch": 0.7708032781853341,
      "grad_norm": 1.0092835939543225,
      "learning_rate": 2.6305111484159485e-06,
      "loss": 0.7553,
      "step": 12556
    },
    {
      "epoch": 0.7708646674238006,
      "grad_norm": 0.9075749307338352,
      "learning_rate": 2.6291672721006733e-06,
      "loss": 0.769,
      "step": 12557
    },
    {
      "epoch": 0.7709260566622671,
      "grad_norm": 0.9831057529467916,
      "learning_rate": 2.6278236871938356e-06,
      "loss": 0.7753,
      "step": 12558
    },
    {
      "epoch": 0.7709874459007336,
      "grad_norm": 0.894807816067641,
      "learning_rate": 2.6264803937485617e-06,
      "loss": 0.7495,
      "step": 12559
    },
    {
      "epoch": 0.7710488351392001,
      "grad_norm": 1.1402343418998415,
      "learning_rate": 2.6251373918179525e-06,
      "loss": 0.793,
      "step": 12560
    },
    {
      "epoch": 0.7711102243776666,
      "grad_norm": 0.9912453844680034,
      "learning_rate": 2.623794681455105e-06,
      "loss": 0.7026,
      "step": 12561
    },
    {
      "epoch": 0.7711716136161331,
      "grad_norm": 0.9133876195443174,
      "learning_rate": 2.622452262713101e-06,
      "loss": 0.757,
      "step": 12562
    },
    {
      "epoch": 0.7712330028545996,
      "grad_norm": 0.8664530176944196,
      "learning_rate": 2.621110135645021e-06,
      "loss": 0.8056,
      "step": 12563
    },
    {
      "epoch": 0.771294392093066,
      "grad_norm": 0.9204110388719496,
      "learning_rate": 2.6197683003039253e-06,
      "loss": 0.7524,
      "step": 12564
    },
    {
      "epoch": 0.7713557813315326,
      "grad_norm": 0.993121897805211,
      "learning_rate": 2.6184267567428545e-06,
      "loss": 0.7236,
      "step": 12565
    },
    {
      "epoch": 0.771417170569999,
      "grad_norm": 1.0140537618568595,
      "learning_rate": 2.617085505014856e-06,
      "loss": 0.717,
      "step": 12566
    },
    {
      "epoch": 0.7714785598084656,
      "grad_norm": 0.9336814200428707,
      "learning_rate": 2.6157445451729547e-06,
      "loss": 0.6943,
      "step": 12567
    },
    {
      "epoch": 0.7715399490469321,
      "grad_norm": 0.9644472508090913,
      "learning_rate": 2.6144038772701653e-06,
      "loss": 0.745,
      "step": 12568
    },
    {
      "epoch": 0.7716013382853986,
      "grad_norm": 0.951446122458316,
      "learning_rate": 2.613063501359492e-06,
      "loss": 0.7591,
      "step": 12569
    },
    {
      "epoch": 0.7716627275238651,
      "grad_norm": 0.6064112805596004,
      "learning_rate": 2.6117234174939253e-06,
      "loss": 0.6651,
      "step": 12570
    },
    {
      "epoch": 0.7717241167623315,
      "grad_norm": 0.984642867446391,
      "learning_rate": 2.6103836257264483e-06,
      "loss": 0.718,
      "step": 12571
    },
    {
      "epoch": 0.7717855060007981,
      "grad_norm": 0.9865153594529679,
      "learning_rate": 2.609044126110025e-06,
      "loss": 0.728,
      "step": 12572
    },
    {
      "epoch": 0.7718468952392645,
      "grad_norm": 0.9849639851884262,
      "learning_rate": 2.6077049186976243e-06,
      "loss": 0.7771,
      "step": 12573
    },
    {
      "epoch": 0.7719082844777311,
      "grad_norm": 0.9500302666550496,
      "learning_rate": 2.6063660035421813e-06,
      "loss": 0.7592,
      "step": 12574
    },
    {
      "epoch": 0.7719696737161975,
      "grad_norm": 1.118773628685888,
      "learning_rate": 2.605027380696634e-06,
      "loss": 0.8178,
      "step": 12575
    },
    {
      "epoch": 0.7720310629546641,
      "grad_norm": 0.9786460652918585,
      "learning_rate": 2.603689050213902e-06,
      "loss": 0.7425,
      "step": 12576
    },
    {
      "epoch": 0.7720924521931305,
      "grad_norm": 0.9528498333631747,
      "learning_rate": 2.6023510121469043e-06,
      "loss": 0.7828,
      "step": 12577
    },
    {
      "epoch": 0.772153841431597,
      "grad_norm": 1.0210165282602475,
      "learning_rate": 2.6010132665485388e-06,
      "loss": 0.8035,
      "step": 12578
    },
    {
      "epoch": 0.7722152306700636,
      "grad_norm": 0.956023089071713,
      "learning_rate": 2.599675813471686e-06,
      "loss": 0.7229,
      "step": 12579
    },
    {
      "epoch": 0.77227661990853,
      "grad_norm": 0.9805043033975156,
      "learning_rate": 2.59833865296923e-06,
      "loss": 0.7097,
      "step": 12580
    },
    {
      "epoch": 0.7723380091469966,
      "grad_norm": 1.0186015687096888,
      "learning_rate": 2.5970017850940345e-06,
      "loss": 0.8074,
      "step": 12581
    },
    {
      "epoch": 0.772399398385463,
      "grad_norm": 1.0640840009268218,
      "learning_rate": 2.595665209898952e-06,
      "loss": 0.7264,
      "step": 12582
    },
    {
      "epoch": 0.7724607876239296,
      "grad_norm": 1.0522571411196735,
      "learning_rate": 2.5943289274368254e-06,
      "loss": 0.7901,
      "step": 12583
    },
    {
      "epoch": 0.772522176862396,
      "grad_norm": 0.9908224742332935,
      "learning_rate": 2.5929929377604845e-06,
      "loss": 0.6884,
      "step": 12584
    },
    {
      "epoch": 0.7725835661008625,
      "grad_norm": 1.052713308410128,
      "learning_rate": 2.5916572409227492e-06,
      "loss": 0.7846,
      "step": 12585
    },
    {
      "epoch": 0.772644955339329,
      "grad_norm": 1.0210791039988067,
      "learning_rate": 2.5903218369764215e-06,
      "loss": 0.7523,
      "step": 12586
    },
    {
      "epoch": 0.7727063445777955,
      "grad_norm": 1.0095710721889275,
      "learning_rate": 2.588986725974304e-06,
      "loss": 0.7271,
      "step": 12587
    },
    {
      "epoch": 0.772767733816262,
      "grad_norm": 0.9646686043079915,
      "learning_rate": 2.587651907969182e-06,
      "loss": 0.7623,
      "step": 12588
    },
    {
      "epoch": 0.7728291230547285,
      "grad_norm": 1.0561759370930666,
      "learning_rate": 2.5863173830138212e-06,
      "loss": 0.7499,
      "step": 12589
    },
    {
      "epoch": 0.772890512293195,
      "grad_norm": 1.0349475339398206,
      "learning_rate": 2.5849831511609814e-06,
      "loss": 0.7599,
      "step": 12590
    },
    {
      "epoch": 0.7729519015316615,
      "grad_norm": 0.986580139857335,
      "learning_rate": 2.5836492124634205e-06,
      "loss": 0.7069,
      "step": 12591
    },
    {
      "epoch": 0.773013290770128,
      "grad_norm": 0.9685650999644093,
      "learning_rate": 2.58231556697387e-06,
      "loss": 0.7387,
      "step": 12592
    },
    {
      "epoch": 0.7730746800085945,
      "grad_norm": 0.9005733673910677,
      "learning_rate": 2.580982214745059e-06,
      "loss": 0.7243,
      "step": 12593
    },
    {
      "epoch": 0.773136069247061,
      "grad_norm": 1.0605210680894475,
      "learning_rate": 2.5796491558297e-06,
      "loss": 0.7581,
      "step": 12594
    },
    {
      "epoch": 0.7731974584855275,
      "grad_norm": 0.9162876896277697,
      "learning_rate": 2.5783163902804966e-06,
      "loss": 0.7563,
      "step": 12595
    },
    {
      "epoch": 0.773258847723994,
      "grad_norm": 0.9492567557804726,
      "learning_rate": 2.576983918150141e-06,
      "loss": 0.7524,
      "step": 12596
    },
    {
      "epoch": 0.7733202369624604,
      "grad_norm": 0.9674460845434084,
      "learning_rate": 2.5756517394913085e-06,
      "loss": 0.7352,
      "step": 12597
    },
    {
      "epoch": 0.773381626200927,
      "grad_norm": 0.9804101328317659,
      "learning_rate": 2.574319854356677e-06,
      "loss": 0.7853,
      "step": 12598
    },
    {
      "epoch": 0.7734430154393934,
      "grad_norm": 1.0366759687379765,
      "learning_rate": 2.5729882627988945e-06,
      "loss": 0.78,
      "step": 12599
    },
    {
      "epoch": 0.77350440467786,
      "grad_norm": 0.9174263855015335,
      "learning_rate": 2.571656964870608e-06,
      "loss": 0.7406,
      "step": 12600
    },
    {
      "epoch": 0.7735657939163265,
      "grad_norm": 0.9112952489254533,
      "learning_rate": 2.570325960624448e-06,
      "loss": 0.7762,
      "step": 12601
    },
    {
      "epoch": 0.773627183154793,
      "grad_norm": 0.8951163135419676,
      "learning_rate": 2.568995250113043e-06,
      "loss": 0.7151,
      "step": 12602
    },
    {
      "epoch": 0.7736885723932595,
      "grad_norm": 1.0384197464112934,
      "learning_rate": 2.567664833389003e-06,
      "loss": 0.7279,
      "step": 12603
    },
    {
      "epoch": 0.7737499616317259,
      "grad_norm": 0.9678391576144331,
      "learning_rate": 2.566334710504916e-06,
      "loss": 0.6701,
      "step": 12604
    },
    {
      "epoch": 0.7738113508701925,
      "grad_norm": 1.0556423208303771,
      "learning_rate": 2.5650048815133797e-06,
      "loss": 0.7197,
      "step": 12605
    },
    {
      "epoch": 0.7738727401086589,
      "grad_norm": 0.8791471417848854,
      "learning_rate": 2.563675346466965e-06,
      "loss": 0.7696,
      "step": 12606
    },
    {
      "epoch": 0.7739341293471255,
      "grad_norm": 0.9016711484600775,
      "learning_rate": 2.5623461054182364e-06,
      "loss": 0.7143,
      "step": 12607
    },
    {
      "epoch": 0.7739955185855919,
      "grad_norm": 0.9378113493001812,
      "learning_rate": 2.5610171584197454e-06,
      "loss": 0.719,
      "step": 12608
    },
    {
      "epoch": 0.7740569078240584,
      "grad_norm": 0.944403086287971,
      "learning_rate": 2.559688505524033e-06,
      "loss": 0.7355,
      "step": 12609
    },
    {
      "epoch": 0.7741182970625249,
      "grad_norm": 1.0241158413349878,
      "learning_rate": 2.558360146783627e-06,
      "loss": 0.7307,
      "step": 12610
    },
    {
      "epoch": 0.7741796863009914,
      "grad_norm": 1.026600452565516,
      "learning_rate": 2.557032082251043e-06,
      "loss": 0.7844,
      "step": 12611
    },
    {
      "epoch": 0.774241075539458,
      "grad_norm": 0.9282588616999481,
      "learning_rate": 2.5557043119787906e-06,
      "loss": 0.7546,
      "step": 12612
    },
    {
      "epoch": 0.7743024647779244,
      "grad_norm": 1.0255191375950126,
      "learning_rate": 2.5543768360193656e-06,
      "loss": 0.7097,
      "step": 12613
    },
    {
      "epoch": 0.774363854016391,
      "grad_norm": 1.093720249933161,
      "learning_rate": 2.5530496544252426e-06,
      "loss": 0.7392,
      "step": 12614
    },
    {
      "epoch": 0.7744252432548574,
      "grad_norm": 1.0402878920367042,
      "learning_rate": 2.551722767248893e-06,
      "loss": 0.7335,
      "step": 12615
    },
    {
      "epoch": 0.774486632493324,
      "grad_norm": 0.951136181412417,
      "learning_rate": 2.5503961745427817e-06,
      "loss": 0.7421,
      "step": 12616
    },
    {
      "epoch": 0.7745480217317904,
      "grad_norm": 0.8852801580761958,
      "learning_rate": 2.5490698763593523e-06,
      "loss": 0.755,
      "step": 12617
    },
    {
      "epoch": 0.7746094109702569,
      "grad_norm": 0.9928020620291339,
      "learning_rate": 2.5477438727510418e-06,
      "loss": 0.7872,
      "step": 12618
    },
    {
      "epoch": 0.7746708002087234,
      "grad_norm": 0.9450391432469633,
      "learning_rate": 2.5464181637702734e-06,
      "loss": 0.7442,
      "step": 12619
    },
    {
      "epoch": 0.7747321894471899,
      "grad_norm": 0.9960932932539284,
      "learning_rate": 2.545092749469459e-06,
      "loss": 0.7388,
      "step": 12620
    },
    {
      "epoch": 0.7747935786856565,
      "grad_norm": 0.9908557507675025,
      "learning_rate": 2.5437676299010007e-06,
      "loss": 0.778,
      "step": 12621
    },
    {
      "epoch": 0.7748549679241229,
      "grad_norm": 1.0234773819255083,
      "learning_rate": 2.5424428051172833e-06,
      "loss": 0.7946,
      "step": 12622
    },
    {
      "epoch": 0.7749163571625894,
      "grad_norm": 0.9522353704304876,
      "learning_rate": 2.5411182751706933e-06,
      "loss": 0.6913,
      "step": 12623
    },
    {
      "epoch": 0.7749777464010559,
      "grad_norm": 0.9621832774934068,
      "learning_rate": 2.5397940401135878e-06,
      "loss": 0.7462,
      "step": 12624
    },
    {
      "epoch": 0.7750391356395224,
      "grad_norm": 1.0241570271103333,
      "learning_rate": 2.538470099998325e-06,
      "loss": 0.7564,
      "step": 12625
    },
    {
      "epoch": 0.7751005248779889,
      "grad_norm": 0.8536915963279945,
      "learning_rate": 2.537146454877242e-06,
      "loss": 0.702,
      "step": 12626
    },
    {
      "epoch": 0.7751619141164554,
      "grad_norm": 0.8956638426416624,
      "learning_rate": 2.535823104802677e-06,
      "loss": 0.7385,
      "step": 12627
    },
    {
      "epoch": 0.7752233033549218,
      "grad_norm": 1.088757355997269,
      "learning_rate": 2.534500049826949e-06,
      "loss": 0.8011,
      "step": 12628
    },
    {
      "epoch": 0.7752846925933884,
      "grad_norm": 0.9781802492004819,
      "learning_rate": 2.5331772900023566e-06,
      "loss": 0.7513,
      "step": 12629
    },
    {
      "epoch": 0.7753460818318548,
      "grad_norm": 1.0321405539159219,
      "learning_rate": 2.5318548253812036e-06,
      "loss": 0.7306,
      "step": 12630
    },
    {
      "epoch": 0.7754074710703214,
      "grad_norm": 1.0227942981914417,
      "learning_rate": 2.5305326560157726e-06,
      "loss": 0.7336,
      "step": 12631
    },
    {
      "epoch": 0.7754688603087879,
      "grad_norm": 0.9096771369170082,
      "learning_rate": 2.5292107819583347e-06,
      "loss": 0.7469,
      "step": 12632
    },
    {
      "epoch": 0.7755302495472544,
      "grad_norm": 1.1145429402072264,
      "learning_rate": 2.527889203261151e-06,
      "loss": 0.7834,
      "step": 12633
    },
    {
      "epoch": 0.7755916387857209,
      "grad_norm": 0.9419556341469036,
      "learning_rate": 2.5265679199764713e-06,
      "loss": 0.7412,
      "step": 12634
    },
    {
      "epoch": 0.7756530280241873,
      "grad_norm": 1.0478293337538926,
      "learning_rate": 2.525246932156532e-06,
      "loss": 0.7512,
      "step": 12635
    },
    {
      "epoch": 0.7757144172626539,
      "grad_norm": 0.9404681624148407,
      "learning_rate": 2.523926239853557e-06,
      "loss": 0.7545,
      "step": 12636
    },
    {
      "epoch": 0.7757758065011203,
      "grad_norm": 1.0866069343438756,
      "learning_rate": 2.5226058431197674e-06,
      "loss": 0.8437,
      "step": 12637
    },
    {
      "epoch": 0.7758371957395869,
      "grad_norm": 0.9486655671088002,
      "learning_rate": 2.521285742007359e-06,
      "loss": 0.7464,
      "step": 12638
    },
    {
      "epoch": 0.7758985849780533,
      "grad_norm": 0.9805664787293716,
      "learning_rate": 2.5199659365685235e-06,
      "loss": 0.7118,
      "step": 12639
    },
    {
      "epoch": 0.7759599742165199,
      "grad_norm": 0.9957186765700108,
      "learning_rate": 2.5186464268554376e-06,
      "loss": 0.7489,
      "step": 12640
    },
    {
      "epoch": 0.7760213634549863,
      "grad_norm": 1.0349929134770646,
      "learning_rate": 2.517327212920275e-06,
      "loss": 0.7306,
      "step": 12641
    },
    {
      "epoch": 0.7760827526934528,
      "grad_norm": 0.993834914471383,
      "learning_rate": 2.516008294815191e-06,
      "loss": 0.76,
      "step": 12642
    },
    {
      "epoch": 0.7761441419319194,
      "grad_norm": 0.9652079613283001,
      "learning_rate": 2.5146896725923196e-06,
      "loss": 0.7695,
      "step": 12643
    },
    {
      "epoch": 0.7762055311703858,
      "grad_norm": 0.9034096741086659,
      "learning_rate": 2.5133713463038023e-06,
      "loss": 0.7265,
      "step": 12644
    },
    {
      "epoch": 0.7762669204088524,
      "grad_norm": 0.9354645786834925,
      "learning_rate": 2.512053316001758e-06,
      "loss": 0.7872,
      "step": 12645
    },
    {
      "epoch": 0.7763283096473188,
      "grad_norm": 0.9080916091246163,
      "learning_rate": 2.510735581738294e-06,
      "loss": 0.7725,
      "step": 12646
    },
    {
      "epoch": 0.7763896988857854,
      "grad_norm": 0.9146568133019712,
      "learning_rate": 2.5094181435655075e-06,
      "loss": 0.7628,
      "step": 12647
    },
    {
      "epoch": 0.7764510881242518,
      "grad_norm": 0.9016880610382999,
      "learning_rate": 2.5081010015354844e-06,
      "loss": 0.7189,
      "step": 12648
    },
    {
      "epoch": 0.7765124773627183,
      "grad_norm": 0.8904982546223278,
      "learning_rate": 2.5067841557002994e-06,
      "loss": 0.7547,
      "step": 12649
    },
    {
      "epoch": 0.7765738666011848,
      "grad_norm": 0.9862714609591997,
      "learning_rate": 2.5054676061120087e-06,
      "loss": 0.7492,
      "step": 12650
    },
    {
      "epoch": 0.7766352558396513,
      "grad_norm": 0.9453565276298395,
      "learning_rate": 2.5041513528226712e-06,
      "loss": 0.7806,
      "step": 12651
    },
    {
      "epoch": 0.7766966450781178,
      "grad_norm": 0.8961512738991121,
      "learning_rate": 2.5028353958843233e-06,
      "loss": 0.6896,
      "step": 12652
    },
    {
      "epoch": 0.7767580343165843,
      "grad_norm": 1.0538859881680651,
      "learning_rate": 2.501519735348987e-06,
      "loss": 0.7583,
      "step": 12653
    },
    {
      "epoch": 0.7768194235550508,
      "grad_norm": 1.011745712464008,
      "learning_rate": 2.5002043712686785e-06,
      "loss": 0.7802,
      "step": 12654
    },
    {
      "epoch": 0.7768808127935173,
      "grad_norm": 0.947035155824303,
      "learning_rate": 2.4988893036954045e-06,
      "loss": 0.7555,
      "step": 12655
    },
    {
      "epoch": 0.7769422020319838,
      "grad_norm": 0.941975141381861,
      "learning_rate": 2.4975745326811563e-06,
      "loss": 0.7106,
      "step": 12656
    },
    {
      "epoch": 0.7770035912704503,
      "grad_norm": 1.0362437570684424,
      "learning_rate": 2.496260058277912e-06,
      "loss": 0.7515,
      "step": 12657
    },
    {
      "epoch": 0.7770649805089168,
      "grad_norm": 0.8747882742111559,
      "learning_rate": 2.49494588053764e-06,
      "loss": 0.6814,
      "step": 12658
    },
    {
      "epoch": 0.7771263697473832,
      "grad_norm": 0.9186165179593951,
      "learning_rate": 2.493631999512298e-06,
      "loss": 0.7516,
      "step": 12659
    },
    {
      "epoch": 0.7771877589858498,
      "grad_norm": 1.0365337144481241,
      "learning_rate": 2.4923184152538293e-06,
      "loss": 0.7813,
      "step": 12660
    },
    {
      "epoch": 0.7772491482243162,
      "grad_norm": 0.9715100037358276,
      "learning_rate": 2.4910051278141643e-06,
      "loss": 0.7369,
      "step": 12661
    },
    {
      "epoch": 0.7773105374627828,
      "grad_norm": 1.0663297958846132,
      "learning_rate": 2.4896921372452345e-06,
      "loss": 0.7228,
      "step": 12662
    },
    {
      "epoch": 0.7773719267012492,
      "grad_norm": 0.9967769283509845,
      "learning_rate": 2.4883794435989385e-06,
      "loss": 0.7877,
      "step": 12663
    },
    {
      "epoch": 0.7774333159397158,
      "grad_norm": 0.9574232336657028,
      "learning_rate": 2.4870670469271783e-06,
      "loss": 0.7431,
      "step": 12664
    },
    {
      "epoch": 0.7774947051781823,
      "grad_norm": 0.9355655344998886,
      "learning_rate": 2.4857549472818376e-06,
      "loss": 0.7298,
      "step": 12665
    },
    {
      "epoch": 0.7775560944166487,
      "grad_norm": 1.0376872299328217,
      "learning_rate": 2.4844431447147955e-06,
      "loss": 0.7778,
      "step": 12666
    },
    {
      "epoch": 0.7776174836551153,
      "grad_norm": 0.9858316171082424,
      "learning_rate": 2.4831316392779137e-06,
      "loss": 0.7902,
      "step": 12667
    },
    {
      "epoch": 0.7776788728935817,
      "grad_norm": 1.0158992767556494,
      "learning_rate": 2.4818204310230365e-06,
      "loss": 0.747,
      "step": 12668
    },
    {
      "epoch": 0.7777402621320483,
      "grad_norm": 0.9091650869907488,
      "learning_rate": 2.48050952000201e-06,
      "loss": 0.6779,
      "step": 12669
    },
    {
      "epoch": 0.7778016513705147,
      "grad_norm": 1.119497794083036,
      "learning_rate": 2.47919890626666e-06,
      "loss": 0.706,
      "step": 12670
    },
    {
      "epoch": 0.7778630406089813,
      "grad_norm": 1.0273217877272733,
      "learning_rate": 2.477888589868801e-06,
      "loss": 0.7582,
      "step": 12671
    },
    {
      "epoch": 0.7779244298474477,
      "grad_norm": 1.1037248523148555,
      "learning_rate": 2.4765785708602375e-06,
      "loss": 0.7339,
      "step": 12672
    },
    {
      "epoch": 0.7779858190859142,
      "grad_norm": 1.0064877024870915,
      "learning_rate": 2.4752688492927602e-06,
      "loss": 0.748,
      "step": 12673
    },
    {
      "epoch": 0.7780472083243808,
      "grad_norm": 0.8670598987283414,
      "learning_rate": 2.473959425218151e-06,
      "loss": 0.7392,
      "step": 12674
    },
    {
      "epoch": 0.7781085975628472,
      "grad_norm": 1.0171316957265815,
      "learning_rate": 2.4726502986881753e-06,
      "loss": 0.7509,
      "step": 12675
    },
    {
      "epoch": 0.7781699868013138,
      "grad_norm": 1.076483947994574,
      "learning_rate": 2.4713414697545945e-06,
      "loss": 0.7158,
      "step": 12676
    },
    {
      "epoch": 0.7782313760397802,
      "grad_norm": 0.9448838724907447,
      "learning_rate": 2.4700329384691545e-06,
      "loss": 0.7282,
      "step": 12677
    },
    {
      "epoch": 0.7782927652782468,
      "grad_norm": 1.1261196083314957,
      "learning_rate": 2.468724704883583e-06,
      "loss": 0.7768,
      "step": 12678
    },
    {
      "epoch": 0.7783541545167132,
      "grad_norm": 1.0874713591730536,
      "learning_rate": 2.467416769049601e-06,
      "loss": 0.7866,
      "step": 12679
    },
    {
      "epoch": 0.7784155437551797,
      "grad_norm": 1.0998231065092106,
      "learning_rate": 2.4661091310189233e-06,
      "loss": 0.7709,
      "step": 12680
    },
    {
      "epoch": 0.7784769329936462,
      "grad_norm": 1.0756427267149669,
      "learning_rate": 2.4648017908432463e-06,
      "loss": 0.7839,
      "step": 12681
    },
    {
      "epoch": 0.7785383222321127,
      "grad_norm": 0.9812543407302355,
      "learning_rate": 2.463494748574257e-06,
      "loss": 0.7564,
      "step": 12682
    },
    {
      "epoch": 0.7785997114705792,
      "grad_norm": 0.9981346184002765,
      "learning_rate": 2.462188004263626e-06,
      "loss": 0.7487,
      "step": 12683
    },
    {
      "epoch": 0.7786611007090457,
      "grad_norm": 0.9117309353966608,
      "learning_rate": 2.4608815579630196e-06,
      "loss": 0.7179,
      "step": 12684
    },
    {
      "epoch": 0.7787224899475123,
      "grad_norm": 0.9667616566461574,
      "learning_rate": 2.4595754097240876e-06,
      "loss": 0.6934,
      "step": 12685
    },
    {
      "epoch": 0.7787838791859787,
      "grad_norm": 0.9342953666992142,
      "learning_rate": 2.4582695595984652e-06,
      "loss": 0.7571,
      "step": 12686
    },
    {
      "epoch": 0.7788452684244452,
      "grad_norm": 0.9439515311941087,
      "learning_rate": 2.4569640076377886e-06,
      "loss": 0.7756,
      "step": 12687
    },
    {
      "epoch": 0.7789066576629117,
      "grad_norm": 0.9476380388226313,
      "learning_rate": 2.455658753893665e-06,
      "loss": 0.7687,
      "step": 12688
    },
    {
      "epoch": 0.7789680469013782,
      "grad_norm": 0.9425782661730735,
      "learning_rate": 2.454353798417698e-06,
      "loss": 0.7125,
      "step": 12689
    },
    {
      "epoch": 0.7790294361398447,
      "grad_norm": 1.0697450848835588,
      "learning_rate": 2.4530491412614853e-06,
      "loss": 0.757,
      "step": 12690
    },
    {
      "epoch": 0.7790908253783112,
      "grad_norm": 0.9972418671846435,
      "learning_rate": 2.451744782476604e-06,
      "loss": 0.7562,
      "step": 12691
    },
    {
      "epoch": 0.7791522146167776,
      "grad_norm": 0.5881530836119836,
      "learning_rate": 2.4504407221146256e-06,
      "loss": 0.635,
      "step": 12692
    },
    {
      "epoch": 0.7792136038552442,
      "grad_norm": 1.1004816630111591,
      "learning_rate": 2.4491369602270965e-06,
      "loss": 0.7378,
      "step": 12693
    },
    {
      "epoch": 0.7792749930937106,
      "grad_norm": 1.0999114378907162,
      "learning_rate": 2.4478334968655716e-06,
      "loss": 0.7483,
      "step": 12694
    },
    {
      "epoch": 0.7793363823321772,
      "grad_norm": 1.0796762794797792,
      "learning_rate": 2.4465303320815813e-06,
      "loss": 0.7051,
      "step": 12695
    },
    {
      "epoch": 0.7793977715706437,
      "grad_norm": 1.0231293699934574,
      "learning_rate": 2.445227465926645e-06,
      "loss": 0.7502,
      "step": 12696
    },
    {
      "epoch": 0.7794591608091102,
      "grad_norm": 0.8961079806118892,
      "learning_rate": 2.4439248984522723e-06,
      "loss": 0.6818,
      "step": 12697
    },
    {
      "epoch": 0.7795205500475767,
      "grad_norm": 1.0311780923281952,
      "learning_rate": 2.442622629709962e-06,
      "loss": 0.7607,
      "step": 12698
    },
    {
      "epoch": 0.7795819392860431,
      "grad_norm": 1.017280553104686,
      "learning_rate": 2.4413206597511983e-06,
      "loss": 0.7575,
      "step": 12699
    },
    {
      "epoch": 0.7796433285245097,
      "grad_norm": 0.9092149959100116,
      "learning_rate": 2.440018988627453e-06,
      "loss": 0.6762,
      "step": 12700
    },
    {
      "epoch": 0.7797047177629761,
      "grad_norm": 0.9175875980098877,
      "learning_rate": 2.4387176163901925e-06,
      "loss": 0.8189,
      "step": 12701
    },
    {
      "epoch": 0.7797661070014427,
      "grad_norm": 0.9534993725736871,
      "learning_rate": 2.437416543090869e-06,
      "loss": 0.7857,
      "step": 12702
    },
    {
      "epoch": 0.7798274962399091,
      "grad_norm": 0.9769061936912731,
      "learning_rate": 2.4361157687809147e-06,
      "loss": 0.695,
      "step": 12703
    },
    {
      "epoch": 0.7798888854783756,
      "grad_norm": 0.9328370421153143,
      "learning_rate": 2.434815293511755e-06,
      "loss": 0.7614,
      "step": 12704
    },
    {
      "epoch": 0.7799502747168421,
      "grad_norm": 1.019279182656602,
      "learning_rate": 2.4335151173348115e-06,
      "loss": 0.727,
      "step": 12705
    },
    {
      "epoch": 0.7800116639553086,
      "grad_norm": 0.9286283995089711,
      "learning_rate": 2.4322152403014865e-06,
      "loss": 0.7163,
      "step": 12706
    },
    {
      "epoch": 0.7800730531937752,
      "grad_norm": 0.9713572064095298,
      "learning_rate": 2.4309156624631624e-06,
      "loss": 0.7473,
      "step": 12707
    },
    {
      "epoch": 0.7801344424322416,
      "grad_norm": 1.1042946494770471,
      "learning_rate": 2.4296163838712274e-06,
      "loss": 0.7961,
      "step": 12708
    },
    {
      "epoch": 0.7801958316707082,
      "grad_norm": 1.0342302329264104,
      "learning_rate": 2.4283174045770464e-06,
      "loss": 0.7493,
      "step": 12709
    },
    {
      "epoch": 0.7802572209091746,
      "grad_norm": 0.9975165215736274,
      "learning_rate": 2.427018724631974e-06,
      "loss": 0.7651,
      "step": 12710
    },
    {
      "epoch": 0.7803186101476411,
      "grad_norm": 1.131836027460846,
      "learning_rate": 2.4257203440873554e-06,
      "loss": 0.8236,
      "step": 12711
    },
    {
      "epoch": 0.7803799993861076,
      "grad_norm": 1.0213415523034943,
      "learning_rate": 2.4244222629945214e-06,
      "loss": 0.7065,
      "step": 12712
    },
    {
      "epoch": 0.7804413886245741,
      "grad_norm": 0.9370521664260815,
      "learning_rate": 2.4231244814047914e-06,
      "loss": 0.7329,
      "step": 12713
    },
    {
      "epoch": 0.7805027778630406,
      "grad_norm": 1.0782994909481158,
      "learning_rate": 2.4218269993694733e-06,
      "loss": 0.6761,
      "step": 12714
    },
    {
      "epoch": 0.7805641671015071,
      "grad_norm": 1.1600787865506916,
      "learning_rate": 2.420529816939866e-06,
      "loss": 0.7994,
      "step": 12715
    },
    {
      "epoch": 0.7806255563399735,
      "grad_norm": 0.9449257108704415,
      "learning_rate": 2.419232934167257e-06,
      "loss": 0.697,
      "step": 12716
    },
    {
      "epoch": 0.7806869455784401,
      "grad_norm": 0.5875823514886067,
      "learning_rate": 2.417936351102912e-06,
      "loss": 0.6597,
      "step": 12717
    },
    {
      "epoch": 0.7807483348169066,
      "grad_norm": 1.0705235642055844,
      "learning_rate": 2.416640067798092e-06,
      "loss": 0.7288,
      "step": 12718
    },
    {
      "epoch": 0.7808097240553731,
      "grad_norm": 0.9592413665344914,
      "learning_rate": 2.415344084304051e-06,
      "loss": 0.7139,
      "step": 12719
    },
    {
      "epoch": 0.7808711132938396,
      "grad_norm": 0.9819846111034852,
      "learning_rate": 2.4140484006720244e-06,
      "loss": 0.7218,
      "step": 12720
    },
    {
      "epoch": 0.7809325025323061,
      "grad_norm": 0.9693367636808023,
      "learning_rate": 2.4127530169532363e-06,
      "loss": 0.6917,
      "step": 12721
    },
    {
      "epoch": 0.7809938917707726,
      "grad_norm": 1.0243196317368757,
      "learning_rate": 2.411457933198902e-06,
      "loss": 0.7813,
      "step": 12722
    },
    {
      "epoch": 0.781055281009239,
      "grad_norm": 1.0484661880134976,
      "learning_rate": 2.4101631494602217e-06,
      "loss": 0.7504,
      "step": 12723
    },
    {
      "epoch": 0.7811166702477056,
      "grad_norm": 0.9155785684100035,
      "learning_rate": 2.4088686657883853e-06,
      "loss": 0.728,
      "step": 12724
    },
    {
      "epoch": 0.781178059486172,
      "grad_norm": 0.9277277285899409,
      "learning_rate": 2.407574482234567e-06,
      "loss": 0.6949,
      "step": 12725
    },
    {
      "epoch": 0.7812394487246386,
      "grad_norm": 1.0017088412900248,
      "learning_rate": 2.4062805988499436e-06,
      "loss": 0.7582,
      "step": 12726
    },
    {
      "epoch": 0.7813008379631051,
      "grad_norm": 1.0268755035448225,
      "learning_rate": 2.404987015685658e-06,
      "loss": 0.7692,
      "step": 12727
    },
    {
      "epoch": 0.7813622272015716,
      "grad_norm": 1.0336729803785998,
      "learning_rate": 2.4036937327928543e-06,
      "loss": 0.7707,
      "step": 12728
    },
    {
      "epoch": 0.7814236164400381,
      "grad_norm": 0.9549183064778106,
      "learning_rate": 2.402400750222669e-06,
      "loss": 0.7741,
      "step": 12729
    },
    {
      "epoch": 0.7814850056785045,
      "grad_norm": 1.0215523063133094,
      "learning_rate": 2.4011080680262167e-06,
      "loss": 0.745,
      "step": 12730
    },
    {
      "epoch": 0.7815463949169711,
      "grad_norm": 0.9958164052193165,
      "learning_rate": 2.399815686254606e-06,
      "loss": 0.7619,
      "step": 12731
    },
    {
      "epoch": 0.7816077841554375,
      "grad_norm": 1.0692962446752086,
      "learning_rate": 2.3985236049589244e-06,
      "loss": 0.7281,
      "step": 12732
    },
    {
      "epoch": 0.7816691733939041,
      "grad_norm": 0.9669944216030332,
      "learning_rate": 2.397231824190264e-06,
      "loss": 0.7194,
      "step": 12733
    },
    {
      "epoch": 0.7817305626323705,
      "grad_norm": 1.0453096726837667,
      "learning_rate": 2.395940343999691e-06,
      "loss": 0.7601,
      "step": 12734
    },
    {
      "epoch": 0.781791951870837,
      "grad_norm": 1.0229218146079542,
      "learning_rate": 2.3946491644382662e-06,
      "loss": 0.701,
      "step": 12735
    },
    {
      "epoch": 0.7818533411093035,
      "grad_norm": 0.9841148815937927,
      "learning_rate": 2.393358285557036e-06,
      "loss": 0.7533,
      "step": 12736
    },
    {
      "epoch": 0.78191473034777,
      "grad_norm": 1.0849875046539141,
      "learning_rate": 2.3920677074070364e-06,
      "loss": 0.753,
      "step": 12737
    },
    {
      "epoch": 0.7819761195862366,
      "grad_norm": 0.9703599789135879,
      "learning_rate": 2.3907774300392906e-06,
      "loss": 0.7188,
      "step": 12738
    },
    {
      "epoch": 0.782037508824703,
      "grad_norm": 1.0341619490421603,
      "learning_rate": 2.389487453504806e-06,
      "loss": 0.7451,
      "step": 12739
    },
    {
      "epoch": 0.7820988980631696,
      "grad_norm": 0.9367111557078326,
      "learning_rate": 2.3881977778545895e-06,
      "loss": 0.7423,
      "step": 12740
    },
    {
      "epoch": 0.782160287301636,
      "grad_norm": 0.982287499187125,
      "learning_rate": 2.3869084031396284e-06,
      "loss": 0.7657,
      "step": 12741
    },
    {
      "epoch": 0.7822216765401026,
      "grad_norm": 0.8996168106535065,
      "learning_rate": 2.385619329410893e-06,
      "loss": 0.7665,
      "step": 12742
    },
    {
      "epoch": 0.782283065778569,
      "grad_norm": 1.013500752342613,
      "learning_rate": 2.3843305567193475e-06,
      "loss": 0.7662,
      "step": 12743
    },
    {
      "epoch": 0.7823444550170355,
      "grad_norm": 1.0358464817503026,
      "learning_rate": 2.38304208511595e-06,
      "loss": 0.7627,
      "step": 12744
    },
    {
      "epoch": 0.782405844255502,
      "grad_norm": 0.8864269660317374,
      "learning_rate": 2.3817539146516365e-06,
      "loss": 0.7021,
      "step": 12745
    },
    {
      "epoch": 0.7824672334939685,
      "grad_norm": 0.9450577115905441,
      "learning_rate": 2.3804660453773353e-06,
      "loss": 0.7641,
      "step": 12746
    },
    {
      "epoch": 0.782528622732435,
      "grad_norm": 0.9772570454420146,
      "learning_rate": 2.379178477343965e-06,
      "loss": 0.7495,
      "step": 12747
    },
    {
      "epoch": 0.7825900119709015,
      "grad_norm": 0.9938216048433977,
      "learning_rate": 2.377891210602428e-06,
      "loss": 0.748,
      "step": 12748
    },
    {
      "epoch": 0.782651401209368,
      "grad_norm": 1.060088174406336,
      "learning_rate": 2.3766042452036164e-06,
      "loss": 0.7057,
      "step": 12749
    },
    {
      "epoch": 0.7827127904478345,
      "grad_norm": 1.0522746586792093,
      "learning_rate": 2.37531758119841e-06,
      "loss": 0.7092,
      "step": 12750
    },
    {
      "epoch": 0.782774179686301,
      "grad_norm": 0.9202483251431358,
      "learning_rate": 2.3740312186376845e-06,
      "loss": 0.7337,
      "step": 12751
    },
    {
      "epoch": 0.7828355689247675,
      "grad_norm": 1.0421518992397212,
      "learning_rate": 2.372745157572288e-06,
      "loss": 0.7458,
      "step": 12752
    },
    {
      "epoch": 0.782896958163234,
      "grad_norm": 0.9993523050203176,
      "learning_rate": 2.3714593980530666e-06,
      "loss": 0.7207,
      "step": 12753
    },
    {
      "epoch": 0.7829583474017004,
      "grad_norm": 1.062062730264497,
      "learning_rate": 2.3701739401308586e-06,
      "loss": 0.7288,
      "step": 12754
    },
    {
      "epoch": 0.783019736640167,
      "grad_norm": 0.9631741225200499,
      "learning_rate": 2.3688887838564824e-06,
      "loss": 0.7126,
      "step": 12755
    },
    {
      "epoch": 0.7830811258786334,
      "grad_norm": 0.8984317587218316,
      "learning_rate": 2.3676039292807484e-06,
      "loss": 0.757,
      "step": 12756
    },
    {
      "epoch": 0.7831425151171,
      "grad_norm": 1.1009488357580326,
      "learning_rate": 2.366319376454447e-06,
      "loss": 0.7742,
      "step": 12757
    },
    {
      "epoch": 0.7832039043555664,
      "grad_norm": 1.0771271712016635,
      "learning_rate": 2.365035125428371e-06,
      "loss": 0.7528,
      "step": 12758
    },
    {
      "epoch": 0.783265293594033,
      "grad_norm": 1.0610265234004186,
      "learning_rate": 2.3637511762532904e-06,
      "loss": 0.8116,
      "step": 12759
    },
    {
      "epoch": 0.7833266828324995,
      "grad_norm": 0.9647189914034177,
      "learning_rate": 2.362467528979968e-06,
      "loss": 0.7498,
      "step": 12760
    },
    {
      "epoch": 0.783388072070966,
      "grad_norm": 0.9844852507821323,
      "learning_rate": 2.3611841836591533e-06,
      "loss": 0.7924,
      "step": 12761
    },
    {
      "epoch": 0.7834494613094325,
      "grad_norm": 0.9267364877380022,
      "learning_rate": 2.359901140341583e-06,
      "loss": 0.8126,
      "step": 12762
    },
    {
      "epoch": 0.7835108505478989,
      "grad_norm": 1.0303323079327698,
      "learning_rate": 2.358618399077982e-06,
      "loss": 0.7878,
      "step": 12763
    },
    {
      "epoch": 0.7835722397863655,
      "grad_norm": 0.9243154586793942,
      "learning_rate": 2.3573359599190616e-06,
      "loss": 0.7425,
      "step": 12764
    },
    {
      "epoch": 0.7836336290248319,
      "grad_norm": 0.9216640407568779,
      "learning_rate": 2.3560538229155293e-06,
      "loss": 0.7485,
      "step": 12765
    },
    {
      "epoch": 0.7836950182632985,
      "grad_norm": 0.9907343607099599,
      "learning_rate": 2.3547719881180763e-06,
      "loss": 0.7552,
      "step": 12766
    },
    {
      "epoch": 0.7837564075017649,
      "grad_norm": 0.9821747973443848,
      "learning_rate": 2.3534904555773696e-06,
      "loss": 0.748,
      "step": 12767
    },
    {
      "epoch": 0.7838177967402314,
      "grad_norm": 0.9989988390133123,
      "learning_rate": 2.3522092253440843e-06,
      "loss": 0.7593,
      "step": 12768
    },
    {
      "epoch": 0.7838791859786979,
      "grad_norm": 1.0071521631006057,
      "learning_rate": 2.350928297468872e-06,
      "loss": 0.7388,
      "step": 12769
    },
    {
      "epoch": 0.7839405752171644,
      "grad_norm": 1.04653533920507,
      "learning_rate": 2.3496476720023764e-06,
      "loss": 0.77,
      "step": 12770
    },
    {
      "epoch": 0.784001964455631,
      "grad_norm": 0.9271626917882799,
      "learning_rate": 2.3483673489952196e-06,
      "loss": 0.7052,
      "step": 12771
    },
    {
      "epoch": 0.7840633536940974,
      "grad_norm": 1.051615241865444,
      "learning_rate": 2.347087328498029e-06,
      "loss": 0.6935,
      "step": 12772
    },
    {
      "epoch": 0.784124742932564,
      "grad_norm": 1.0238831333556124,
      "learning_rate": 2.345807610561407e-06,
      "loss": 0.7504,
      "step": 12773
    },
    {
      "epoch": 0.7841861321710304,
      "grad_norm": 0.9919619194626935,
      "learning_rate": 2.3445281952359466e-06,
      "loss": 0.7983,
      "step": 12774
    },
    {
      "epoch": 0.7842475214094969,
      "grad_norm": 0.9828977775892644,
      "learning_rate": 2.343249082572232e-06,
      "loss": 0.7591,
      "step": 12775
    },
    {
      "epoch": 0.7843089106479634,
      "grad_norm": 1.094097685384466,
      "learning_rate": 2.3419702726208315e-06,
      "loss": 0.733,
      "step": 12776
    },
    {
      "epoch": 0.7843702998864299,
      "grad_norm": 0.6108173879815499,
      "learning_rate": 2.340691765432305e-06,
      "loss": 0.6855,
      "step": 12777
    },
    {
      "epoch": 0.7844316891248964,
      "grad_norm": 1.0733786864001325,
      "learning_rate": 2.3394135610571946e-06,
      "loss": 0.7761,
      "step": 12778
    },
    {
      "epoch": 0.7844930783633629,
      "grad_norm": 1.0071077272888662,
      "learning_rate": 2.33813565954604e-06,
      "loss": 0.7394,
      "step": 12779
    },
    {
      "epoch": 0.7845544676018295,
      "grad_norm": 0.9436337810930095,
      "learning_rate": 2.336858060949365e-06,
      "loss": 0.7272,
      "step": 12780
    },
    {
      "epoch": 0.7846158568402959,
      "grad_norm": 0.9092672286445055,
      "learning_rate": 2.335580765317673e-06,
      "loss": 0.7273,
      "step": 12781
    },
    {
      "epoch": 0.7846772460787624,
      "grad_norm": 1.0244901177804095,
      "learning_rate": 2.3343037727014627e-06,
      "loss": 0.7591,
      "step": 12782
    },
    {
      "epoch": 0.7847386353172289,
      "grad_norm": 1.084982157733408,
      "learning_rate": 2.3330270831512268e-06,
      "loss": 0.702,
      "step": 12783
    },
    {
      "epoch": 0.7848000245556954,
      "grad_norm": 0.9699672625568572,
      "learning_rate": 2.3317506967174354e-06,
      "loss": 0.7413,
      "step": 12784
    },
    {
      "epoch": 0.7848614137941619,
      "grad_norm": 0.6427319526727995,
      "learning_rate": 2.3304746134505517e-06,
      "loss": 0.6416,
      "step": 12785
    },
    {
      "epoch": 0.7849228030326284,
      "grad_norm": 0.9666813800699279,
      "learning_rate": 2.3291988334010265e-06,
      "loss": 0.7664,
      "step": 12786
    },
    {
      "epoch": 0.7849841922710948,
      "grad_norm": 0.9818656967527605,
      "learning_rate": 2.3279233566192973e-06,
      "loss": 0.7441,
      "step": 12787
    },
    {
      "epoch": 0.7850455815095614,
      "grad_norm": 1.1227731177186406,
      "learning_rate": 2.326648183155791e-06,
      "loss": 0.7863,
      "step": 12788
    },
    {
      "epoch": 0.7851069707480278,
      "grad_norm": 0.9667434591438161,
      "learning_rate": 2.325373313060919e-06,
      "loss": 0.7279,
      "step": 12789
    },
    {
      "epoch": 0.7851683599864944,
      "grad_norm": 1.1666306013081502,
      "learning_rate": 2.3240987463850927e-06,
      "loss": 0.7676,
      "step": 12790
    },
    {
      "epoch": 0.7852297492249609,
      "grad_norm": 0.9317224995019939,
      "learning_rate": 2.322824483178694e-06,
      "loss": 0.7113,
      "step": 12791
    },
    {
      "epoch": 0.7852911384634274,
      "grad_norm": 1.016748453968543,
      "learning_rate": 2.321550523492101e-06,
      "loss": 0.7422,
      "step": 12792
    },
    {
      "epoch": 0.7853525277018939,
      "grad_norm": 0.9330484462397104,
      "learning_rate": 2.320276867375686e-06,
      "loss": 0.716,
      "step": 12793
    },
    {
      "epoch": 0.7854139169403603,
      "grad_norm": 0.9575792690849781,
      "learning_rate": 2.3190035148797996e-06,
      "loss": 0.7637,
      "step": 12794
    },
    {
      "epoch": 0.7854753061788269,
      "grad_norm": 0.9925845298643674,
      "learning_rate": 2.3177304660547882e-06,
      "loss": 0.7491,
      "step": 12795
    },
    {
      "epoch": 0.7855366954172933,
      "grad_norm": 0.9834233116001332,
      "learning_rate": 2.316457720950974e-06,
      "loss": 0.767,
      "step": 12796
    },
    {
      "epoch": 0.7855980846557599,
      "grad_norm": 1.0008743808451381,
      "learning_rate": 2.3151852796186834e-06,
      "loss": 0.7505,
      "step": 12797
    },
    {
      "epoch": 0.7856594738942263,
      "grad_norm": 1.1197840739291125,
      "learning_rate": 2.3139131421082195e-06,
      "loss": 0.7401,
      "step": 12798
    },
    {
      "epoch": 0.7857208631326928,
      "grad_norm": 1.0015651695260563,
      "learning_rate": 2.312641308469877e-06,
      "loss": 0.7259,
      "step": 12799
    },
    {
      "epoch": 0.7857822523711593,
      "grad_norm": 1.0493904979307274,
      "learning_rate": 2.3113697787539392e-06,
      "loss": 0.7209,
      "step": 12800
    },
    {
      "epoch": 0.7858436416096258,
      "grad_norm": 1.0098820364299008,
      "learning_rate": 2.310098553010676e-06,
      "loss": 0.7705,
      "step": 12801
    },
    {
      "epoch": 0.7859050308480924,
      "grad_norm": 1.0400370454763583,
      "learning_rate": 2.3088276312903445e-06,
      "loss": 0.7707,
      "step": 12802
    },
    {
      "epoch": 0.7859664200865588,
      "grad_norm": 1.0539102412005068,
      "learning_rate": 2.307557013643189e-06,
      "loss": 0.7328,
      "step": 12803
    },
    {
      "epoch": 0.7860278093250254,
      "grad_norm": 1.0301318607680592,
      "learning_rate": 2.30628670011945e-06,
      "loss": 0.7174,
      "step": 12804
    },
    {
      "epoch": 0.7860891985634918,
      "grad_norm": 1.0241528723428495,
      "learning_rate": 2.3050166907693504e-06,
      "loss": 0.737,
      "step": 12805
    },
    {
      "epoch": 0.7861505878019583,
      "grad_norm": 0.9259412304940536,
      "learning_rate": 2.3037469856430896e-06,
      "loss": 0.7374,
      "step": 12806
    },
    {
      "epoch": 0.7862119770404248,
      "grad_norm": 0.961365037485703,
      "learning_rate": 2.3024775847908763e-06,
      "loss": 0.6903,
      "step": 12807
    },
    {
      "epoch": 0.7862733662788913,
      "grad_norm": 1.0640575964234196,
      "learning_rate": 2.3012084882628936e-06,
      "loss": 0.7535,
      "step": 12808
    },
    {
      "epoch": 0.7863347555173578,
      "grad_norm": 0.8589978250817698,
      "learning_rate": 2.2999396961093157e-06,
      "loss": 0.7428,
      "step": 12809
    },
    {
      "epoch": 0.7863961447558243,
      "grad_norm": 0.8532356547270966,
      "learning_rate": 2.298671208380304e-06,
      "loss": 0.7385,
      "step": 12810
    },
    {
      "epoch": 0.7864575339942907,
      "grad_norm": 0.9464612668046547,
      "learning_rate": 2.297403025126008e-06,
      "loss": 0.7502,
      "step": 12811
    },
    {
      "epoch": 0.7865189232327573,
      "grad_norm": 0.9408076772482015,
      "learning_rate": 2.2961351463965687e-06,
      "loss": 0.7153,
      "step": 12812
    },
    {
      "epoch": 0.7865803124712238,
      "grad_norm": 1.0936049278539146,
      "learning_rate": 2.2948675722421086e-06,
      "loss": 0.7382,
      "step": 12813
    },
    {
      "epoch": 0.7866417017096903,
      "grad_norm": 0.9686213776320018,
      "learning_rate": 2.2936003027127418e-06,
      "loss": 0.7505,
      "step": 12814
    },
    {
      "epoch": 0.7867030909481568,
      "grad_norm": 1.0976330479018872,
      "learning_rate": 2.2923333378585765e-06,
      "loss": 0.7931,
      "step": 12815
    },
    {
      "epoch": 0.7867644801866233,
      "grad_norm": 0.8458902699977179,
      "learning_rate": 2.2910666777296953e-06,
      "loss": 0.7801,
      "step": 12816
    },
    {
      "epoch": 0.7868258694250898,
      "grad_norm": 1.0534438118818554,
      "learning_rate": 2.2898003223761756e-06,
      "loss": 0.7491,
      "step": 12817
    },
    {
      "epoch": 0.7868872586635562,
      "grad_norm": 1.0665000218992828,
      "learning_rate": 2.2885342718480897e-06,
      "loss": 0.7476,
      "step": 12818
    },
    {
      "epoch": 0.7869486479020228,
      "grad_norm": 1.0281223759921034,
      "learning_rate": 2.2872685261954877e-06,
      "loss": 0.7492,
      "step": 12819
    },
    {
      "epoch": 0.7870100371404892,
      "grad_norm": 1.0634813610981702,
      "learning_rate": 2.2860030854684133e-06,
      "loss": 0.7647,
      "step": 12820
    },
    {
      "epoch": 0.7870714263789558,
      "grad_norm": 1.0541915086077192,
      "learning_rate": 2.28473794971689e-06,
      "loss": 0.6942,
      "step": 12821
    },
    {
      "epoch": 0.7871328156174223,
      "grad_norm": 1.0789020607188469,
      "learning_rate": 2.283473118990941e-06,
      "loss": 0.7091,
      "step": 12822
    },
    {
      "epoch": 0.7871942048558888,
      "grad_norm": 1.0075687112135567,
      "learning_rate": 2.2822085933405713e-06,
      "loss": 0.7485,
      "step": 12823
    },
    {
      "epoch": 0.7872555940943553,
      "grad_norm": 0.9366253079180007,
      "learning_rate": 2.280944372815774e-06,
      "loss": 0.7069,
      "step": 12824
    },
    {
      "epoch": 0.7873169833328217,
      "grad_norm": 0.9877395066765023,
      "learning_rate": 2.2796804574665298e-06,
      "loss": 0.7166,
      "step": 12825
    },
    {
      "epoch": 0.7873783725712883,
      "grad_norm": 0.9632514310858766,
      "learning_rate": 2.278416847342808e-06,
      "loss": 0.7311,
      "step": 12826
    },
    {
      "epoch": 0.7874397618097547,
      "grad_norm": 1.029051044057031,
      "learning_rate": 2.277153542494566e-06,
      "loss": 0.7514,
      "step": 12827
    },
    {
      "epoch": 0.7875011510482213,
      "grad_norm": 1.0083302944211456,
      "learning_rate": 2.275890542971747e-06,
      "loss": 0.7334,
      "step": 12828
    },
    {
      "epoch": 0.7875625402866877,
      "grad_norm": 0.9875214260375857,
      "learning_rate": 2.274627848824288e-06,
      "loss": 0.7257,
      "step": 12829
    },
    {
      "epoch": 0.7876239295251543,
      "grad_norm": 1.0453050684873477,
      "learning_rate": 2.2733654601021126e-06,
      "loss": 0.721,
      "step": 12830
    },
    {
      "epoch": 0.7876853187636207,
      "grad_norm": 1.1069396056483858,
      "learning_rate": 2.272103376855118e-06,
      "loss": 0.6802,
      "step": 12831
    },
    {
      "epoch": 0.7877467080020872,
      "grad_norm": 1.0898549864539495,
      "learning_rate": 2.2708415991332135e-06,
      "loss": 0.7618,
      "step": 12832
    },
    {
      "epoch": 0.7878080972405538,
      "grad_norm": 0.9387323363032922,
      "learning_rate": 2.269580126986277e-06,
      "loss": 0.7486,
      "step": 12833
    },
    {
      "epoch": 0.7878694864790202,
      "grad_norm": 1.0339004294429126,
      "learning_rate": 2.2683189604641877e-06,
      "loss": 0.7703,
      "step": 12834
    },
    {
      "epoch": 0.7879308757174868,
      "grad_norm": 1.0422902484796959,
      "learning_rate": 2.267058099616796e-06,
      "loss": 0.7837,
      "step": 12835
    },
    {
      "epoch": 0.7879922649559532,
      "grad_norm": 1.015081821919328,
      "learning_rate": 2.2657975444939582e-06,
      "loss": 0.7656,
      "step": 12836
    },
    {
      "epoch": 0.7880536541944198,
      "grad_norm": 0.9717648142293948,
      "learning_rate": 2.26453729514551e-06,
      "loss": 0.7253,
      "step": 12837
    },
    {
      "epoch": 0.7881150434328862,
      "grad_norm": 1.029413971293043,
      "learning_rate": 2.2632773516212738e-06,
      "loss": 0.7527,
      "step": 12838
    },
    {
      "epoch": 0.7881764326713527,
      "grad_norm": 0.9767846471036822,
      "learning_rate": 2.262017713971063e-06,
      "loss": 0.7643,
      "step": 12839
    },
    {
      "epoch": 0.7882378219098192,
      "grad_norm": 0.9487326640296669,
      "learning_rate": 2.2607583822446778e-06,
      "loss": 0.7303,
      "step": 12840
    },
    {
      "epoch": 0.7882992111482857,
      "grad_norm": 0.924329802080268,
      "learning_rate": 2.2594993564919067e-06,
      "loss": 0.7616,
      "step": 12841
    },
    {
      "epoch": 0.7883606003867522,
      "grad_norm": 0.9908491215111704,
      "learning_rate": 2.258240636762521e-06,
      "loss": 0.7284,
      "step": 12842
    },
    {
      "epoch": 0.7884219896252187,
      "grad_norm": 0.9504637027615855,
      "learning_rate": 2.256982223106292e-06,
      "loss": 0.6663,
      "step": 12843
    },
    {
      "epoch": 0.7884833788636852,
      "grad_norm": 0.8285776121733708,
      "learning_rate": 2.2557241155729714e-06,
      "loss": 0.7232,
      "step": 12844
    },
    {
      "epoch": 0.7885447681021517,
      "grad_norm": 1.0289179519934324,
      "learning_rate": 2.2544663142122903e-06,
      "loss": 0.7292,
      "step": 12845
    },
    {
      "epoch": 0.7886061573406182,
      "grad_norm": 1.059127750172857,
      "learning_rate": 2.2532088190739843e-06,
      "loss": 0.7015,
      "step": 12846
    },
    {
      "epoch": 0.7886675465790847,
      "grad_norm": 0.5857042074837742,
      "learning_rate": 2.251951630207767e-06,
      "loss": 0.6882,
      "step": 12847
    },
    {
      "epoch": 0.7887289358175512,
      "grad_norm": 0.9812647130718986,
      "learning_rate": 2.250694747663341e-06,
      "loss": 0.7685,
      "step": 12848
    },
    {
      "epoch": 0.7887903250560176,
      "grad_norm": 1.0180847377793791,
      "learning_rate": 2.249438171490398e-06,
      "loss": 0.7109,
      "step": 12849
    },
    {
      "epoch": 0.7888517142944842,
      "grad_norm": 0.976601677399797,
      "learning_rate": 2.2481819017386163e-06,
      "loss": 0.6948,
      "step": 12850
    },
    {
      "epoch": 0.7889131035329506,
      "grad_norm": 0.9242932543760818,
      "learning_rate": 2.2469259384576637e-06,
      "loss": 0.7165,
      "step": 12851
    },
    {
      "epoch": 0.7889744927714172,
      "grad_norm": 0.8587753844592043,
      "learning_rate": 2.2456702816971954e-06,
      "loss": 0.7483,
      "step": 12852
    },
    {
      "epoch": 0.7890358820098836,
      "grad_norm": 1.0111526992602926,
      "learning_rate": 2.244414931506852e-06,
      "loss": 0.7334,
      "step": 12853
    },
    {
      "epoch": 0.7890972712483502,
      "grad_norm": 1.06468206441124,
      "learning_rate": 2.2431598879362702e-06,
      "loss": 0.7366,
      "step": 12854
    },
    {
      "epoch": 0.7891586604868167,
      "grad_norm": 0.579873191539084,
      "learning_rate": 2.241905151035063e-06,
      "loss": 0.6544,
      "step": 12855
    },
    {
      "epoch": 0.7892200497252831,
      "grad_norm": 0.9424833315598424,
      "learning_rate": 2.240650720852835e-06,
      "loss": 0.7469,
      "step": 12856
    },
    {
      "epoch": 0.7892814389637497,
      "grad_norm": 0.935244983698256,
      "learning_rate": 2.239396597439186e-06,
      "loss": 0.7218,
      "step": 12857
    },
    {
      "epoch": 0.7893428282022161,
      "grad_norm": 1.1532760630618366,
      "learning_rate": 2.2381427808436973e-06,
      "loss": 0.7382,
      "step": 12858
    },
    {
      "epoch": 0.7894042174406827,
      "grad_norm": 1.0149913075155923,
      "learning_rate": 2.236889271115941e-06,
      "loss": 0.7228,
      "step": 12859
    },
    {
      "epoch": 0.7894656066791491,
      "grad_norm": 1.0974290712121804,
      "learning_rate": 2.2356360683054644e-06,
      "loss": 0.6888,
      "step": 12860
    },
    {
      "epoch": 0.7895269959176157,
      "grad_norm": 1.0281911188908346,
      "learning_rate": 2.234383172461825e-06,
      "loss": 0.7467,
      "step": 12861
    },
    {
      "epoch": 0.7895883851560821,
      "grad_norm": 0.9445585700677025,
      "learning_rate": 2.2331305836345517e-06,
      "loss": 0.7569,
      "step": 12862
    },
    {
      "epoch": 0.7896497743945486,
      "grad_norm": 1.0188464551171712,
      "learning_rate": 2.231878301873167e-06,
      "loss": 0.7448,
      "step": 12863
    },
    {
      "epoch": 0.7897111636330151,
      "grad_norm": 0.9893967929996765,
      "learning_rate": 2.2306263272271787e-06,
      "loss": 0.7669,
      "step": 12864
    },
    {
      "epoch": 0.7897725528714816,
      "grad_norm": 0.9198211933757985,
      "learning_rate": 2.2293746597460864e-06,
      "loss": 0.7122,
      "step": 12865
    },
    {
      "epoch": 0.7898339421099482,
      "grad_norm": 1.073821334193936,
      "learning_rate": 2.2281232994793743e-06,
      "loss": 0.6997,
      "step": 12866
    },
    {
      "epoch": 0.7898953313484146,
      "grad_norm": 1.006357740081314,
      "learning_rate": 2.2268722464765112e-06,
      "loss": 0.799,
      "step": 12867
    },
    {
      "epoch": 0.7899567205868812,
      "grad_norm": 0.5729338774494254,
      "learning_rate": 2.225621500786965e-06,
      "loss": 0.6315,
      "step": 12868
    },
    {
      "epoch": 0.7900181098253476,
      "grad_norm": 0.6064120413567793,
      "learning_rate": 2.224371062460184e-06,
      "loss": 0.6714,
      "step": 12869
    },
    {
      "epoch": 0.7900794990638141,
      "grad_norm": 0.9941986147386845,
      "learning_rate": 2.223120931545597e-06,
      "loss": 0.7745,
      "step": 12870
    },
    {
      "epoch": 0.7901408883022806,
      "grad_norm": 0.9313012563788543,
      "learning_rate": 2.2218711080926346e-06,
      "loss": 0.674,
      "step": 12871
    },
    {
      "epoch": 0.7902022775407471,
      "grad_norm": 0.958058182851468,
      "learning_rate": 2.220621592150709e-06,
      "loss": 0.7064,
      "step": 12872
    },
    {
      "epoch": 0.7902636667792136,
      "grad_norm": 0.5835958007682628,
      "learning_rate": 2.2193723837692183e-06,
      "loss": 0.6684,
      "step": 12873
    },
    {
      "epoch": 0.7903250560176801,
      "grad_norm": 0.997534725804702,
      "learning_rate": 2.2181234829975505e-06,
      "loss": 0.7446,
      "step": 12874
    },
    {
      "epoch": 0.7903864452561467,
      "grad_norm": 1.0772377543827658,
      "learning_rate": 2.2168748898850835e-06,
      "loss": 0.7266,
      "step": 12875
    },
    {
      "epoch": 0.7904478344946131,
      "grad_norm": 0.599238000676888,
      "learning_rate": 2.215626604481177e-06,
      "loss": 0.7049,
      "step": 12876
    },
    {
      "epoch": 0.7905092237330796,
      "grad_norm": 0.9454615858037595,
      "learning_rate": 2.2143786268351864e-06,
      "loss": 0.725,
      "step": 12877
    },
    {
      "epoch": 0.7905706129715461,
      "grad_norm": 1.1019629396409334,
      "learning_rate": 2.2131309569964454e-06,
      "loss": 0.719,
      "step": 12878
    },
    {
      "epoch": 0.7906320022100126,
      "grad_norm": 0.9298600973256768,
      "learning_rate": 2.21188359501429e-06,
      "loss": 0.7392,
      "step": 12879
    },
    {
      "epoch": 0.790693391448479,
      "grad_norm": 1.0553728106951255,
      "learning_rate": 2.210636540938028e-06,
      "loss": 0.7917,
      "step": 12880
    },
    {
      "epoch": 0.7907547806869456,
      "grad_norm": 0.9964256939626647,
      "learning_rate": 2.2093897948169607e-06,
      "loss": 0.7717,
      "step": 12881
    },
    {
      "epoch": 0.790816169925412,
      "grad_norm": 1.021138156244776,
      "learning_rate": 2.208143356700385e-06,
      "loss": 0.7847,
      "step": 12882
    },
    {
      "epoch": 0.7908775591638786,
      "grad_norm": 1.0078755763417533,
      "learning_rate": 2.2068972266375756e-06,
      "loss": 0.7537,
      "step": 12883
    },
    {
      "epoch": 0.790938948402345,
      "grad_norm": 1.0722845195353636,
      "learning_rate": 2.2056514046778e-06,
      "loss": 0.7326,
      "step": 12884
    },
    {
      "epoch": 0.7910003376408116,
      "grad_norm": 1.0153980796465596,
      "learning_rate": 2.2044058908703115e-06,
      "loss": 0.7349,
      "step": 12885
    },
    {
      "epoch": 0.7910617268792781,
      "grad_norm": 0.9632816179589011,
      "learning_rate": 2.2031606852643504e-06,
      "loss": 0.7059,
      "step": 12886
    },
    {
      "epoch": 0.7911231161177446,
      "grad_norm": 0.6026487501109664,
      "learning_rate": 2.201915787909149e-06,
      "loss": 0.65,
      "step": 12887
    },
    {
      "epoch": 0.7911845053562111,
      "grad_norm": 0.9946297511846462,
      "learning_rate": 2.2006711988539243e-06,
      "loss": 0.7351,
      "step": 12888
    },
    {
      "epoch": 0.7912458945946775,
      "grad_norm": 0.9660600849155405,
      "learning_rate": 2.19942691814788e-06,
      "loss": 0.7638,
      "step": 12889
    },
    {
      "epoch": 0.7913072838331441,
      "grad_norm": 1.045263438282889,
      "learning_rate": 2.1981829458402104e-06,
      "loss": 0.7653,
      "step": 12890
    },
    {
      "epoch": 0.7913686730716105,
      "grad_norm": 1.020545256691432,
      "learning_rate": 2.196939281980095e-06,
      "loss": 0.7638,
      "step": 12891
    },
    {
      "epoch": 0.7914300623100771,
      "grad_norm": 0.9786023588581864,
      "learning_rate": 2.195695926616702e-06,
      "loss": 0.6949,
      "step": 12892
    },
    {
      "epoch": 0.7914914515485435,
      "grad_norm": 0.985744982321208,
      "learning_rate": 2.1944528797991914e-06,
      "loss": 0.7524,
      "step": 12893
    },
    {
      "epoch": 0.79155284078701,
      "grad_norm": 1.031034539319823,
      "learning_rate": 2.193210141576708e-06,
      "loss": 0.7465,
      "step": 12894
    },
    {
      "epoch": 0.7916142300254765,
      "grad_norm": 0.8806112187422338,
      "learning_rate": 2.1919677119983764e-06,
      "loss": 0.7282,
      "step": 12895
    },
    {
      "epoch": 0.791675619263943,
      "grad_norm": 1.0710552833575655,
      "learning_rate": 2.190725591113324e-06,
      "loss": 0.7655,
      "step": 12896
    },
    {
      "epoch": 0.7917370085024096,
      "grad_norm": 0.9652465701738688,
      "learning_rate": 2.189483778970656e-06,
      "loss": 0.7512,
      "step": 12897
    },
    {
      "epoch": 0.791798397740876,
      "grad_norm": 0.9554035071000035,
      "learning_rate": 2.1882422756194676e-06,
      "loss": 0.7278,
      "step": 12898
    },
    {
      "epoch": 0.7918597869793426,
      "grad_norm": 0.9175472504327044,
      "learning_rate": 2.187001081108843e-06,
      "loss": 0.7368,
      "step": 12899
    },
    {
      "epoch": 0.791921176217809,
      "grad_norm": 1.0711676553805396,
      "learning_rate": 2.1857601954878516e-06,
      "loss": 0.764,
      "step": 12900
    },
    {
      "epoch": 0.7919825654562755,
      "grad_norm": 1.0381081670320467,
      "learning_rate": 2.184519618805554e-06,
      "loss": 0.7153,
      "step": 12901
    },
    {
      "epoch": 0.792043954694742,
      "grad_norm": 1.0276493461156802,
      "learning_rate": 2.1832793511109953e-06,
      "loss": 0.745,
      "step": 12902
    },
    {
      "epoch": 0.7921053439332085,
      "grad_norm": 1.0322959871678963,
      "learning_rate": 2.1820393924532103e-06,
      "loss": 0.7767,
      "step": 12903
    },
    {
      "epoch": 0.792166733171675,
      "grad_norm": 1.0150219884812968,
      "learning_rate": 2.1807997428812222e-06,
      "loss": 0.7397,
      "step": 12904
    },
    {
      "epoch": 0.7922281224101415,
      "grad_norm": 1.0479788065698497,
      "learning_rate": 2.1795604024440397e-06,
      "loss": 0.7511,
      "step": 12905
    },
    {
      "epoch": 0.792289511648608,
      "grad_norm": 0.9943664042616501,
      "learning_rate": 2.178321371190659e-06,
      "loss": 0.75,
      "step": 12906
    },
    {
      "epoch": 0.7923509008870745,
      "grad_norm": 0.9880862200235513,
      "learning_rate": 2.17708264917007e-06,
      "loss": 0.7859,
      "step": 12907
    },
    {
      "epoch": 0.792412290125541,
      "grad_norm": 0.9297151062896252,
      "learning_rate": 2.1758442364312473e-06,
      "loss": 0.6952,
      "step": 12908
    },
    {
      "epoch": 0.7924736793640075,
      "grad_norm": 0.9791277231374353,
      "learning_rate": 2.1746061330231427e-06,
      "loss": 0.7472,
      "step": 12909
    },
    {
      "epoch": 0.792535068602474,
      "grad_norm": 0.9981446736063505,
      "learning_rate": 2.1733683389947135e-06,
      "loss": 0.7572,
      "step": 12910
    },
    {
      "epoch": 0.7925964578409405,
      "grad_norm": 1.0276059149863574,
      "learning_rate": 2.1721308543948938e-06,
      "loss": 0.7396,
      "step": 12911
    },
    {
      "epoch": 0.792657847079407,
      "grad_norm": 0.9974221008126295,
      "learning_rate": 2.1708936792726064e-06,
      "loss": 0.7282,
      "step": 12912
    },
    {
      "epoch": 0.7927192363178734,
      "grad_norm": 1.021656073568544,
      "learning_rate": 2.169656813676767e-06,
      "loss": 0.7339,
      "step": 12913
    },
    {
      "epoch": 0.79278062555634,
      "grad_norm": 1.0377048607272128,
      "learning_rate": 2.1684202576562718e-06,
      "loss": 0.7287,
      "step": 12914
    },
    {
      "epoch": 0.7928420147948064,
      "grad_norm": 0.8833482128889761,
      "learning_rate": 2.1671840112600106e-06,
      "loss": 0.6913,
      "step": 12915
    },
    {
      "epoch": 0.792903404033273,
      "grad_norm": 0.9861699940539626,
      "learning_rate": 2.165948074536859e-06,
      "loss": 0.7198,
      "step": 12916
    },
    {
      "epoch": 0.7929647932717394,
      "grad_norm": 0.9491704932736338,
      "learning_rate": 2.1647124475356752e-06,
      "loss": 0.7007,
      "step": 12917
    },
    {
      "epoch": 0.793026182510206,
      "grad_norm": 0.9277175659704003,
      "learning_rate": 2.1634771303053215e-06,
      "loss": 0.7572,
      "step": 12918
    },
    {
      "epoch": 0.7930875717486725,
      "grad_norm": 0.9480133271658946,
      "learning_rate": 2.1622421228946255e-06,
      "loss": 0.7412,
      "step": 12919
    },
    {
      "epoch": 0.7931489609871389,
      "grad_norm": 0.9368456440563964,
      "learning_rate": 2.161007425352415e-06,
      "loss": 0.7096,
      "step": 12920
    },
    {
      "epoch": 0.7932103502256055,
      "grad_norm": 1.1219036580683452,
      "learning_rate": 2.1597730377275106e-06,
      "loss": 0.7629,
      "step": 12921
    },
    {
      "epoch": 0.7932717394640719,
      "grad_norm": 1.0517141751763506,
      "learning_rate": 2.15853896006871e-06,
      "loss": 0.7074,
      "step": 12922
    },
    {
      "epoch": 0.7933331287025385,
      "grad_norm": 1.0262873197636544,
      "learning_rate": 2.1573051924248055e-06,
      "loss": 0.7718,
      "step": 12923
    },
    {
      "epoch": 0.7933945179410049,
      "grad_norm": 1.0791019970741942,
      "learning_rate": 2.156071734844567e-06,
      "loss": 0.7578,
      "step": 12924
    },
    {
      "epoch": 0.7934559071794715,
      "grad_norm": 1.0270765205339225,
      "learning_rate": 2.1548385873767687e-06,
      "loss": 0.7946,
      "step": 12925
    },
    {
      "epoch": 0.7935172964179379,
      "grad_norm": 1.1224849521371414,
      "learning_rate": 2.15360575007016e-06,
      "loss": 0.8247,
      "step": 12926
    },
    {
      "epoch": 0.7935786856564044,
      "grad_norm": 0.9984305593853311,
      "learning_rate": 2.1523732229734806e-06,
      "loss": 0.7729,
      "step": 12927
    },
    {
      "epoch": 0.793640074894871,
      "grad_norm": 1.086294001540674,
      "learning_rate": 2.15114100613546e-06,
      "loss": 0.7677,
      "step": 12928
    },
    {
      "epoch": 0.7937014641333374,
      "grad_norm": 1.009565451531365,
      "learning_rate": 2.1499090996048146e-06,
      "loss": 0.7638,
      "step": 12929
    },
    {
      "epoch": 0.793762853371804,
      "grad_norm": 1.0524457013087143,
      "learning_rate": 2.1486775034302467e-06,
      "loss": 0.7183,
      "step": 12930
    },
    {
      "epoch": 0.7938242426102704,
      "grad_norm": 1.037199582284609,
      "learning_rate": 2.147446217660447e-06,
      "loss": 0.7336,
      "step": 12931
    },
    {
      "epoch": 0.793885631848737,
      "grad_norm": 1.028924753203816,
      "learning_rate": 2.1462152423440994e-06,
      "loss": 0.787,
      "step": 12932
    },
    {
      "epoch": 0.7939470210872034,
      "grad_norm": 1.0408317875373028,
      "learning_rate": 2.1449845775298704e-06,
      "loss": 0.735,
      "step": 12933
    },
    {
      "epoch": 0.7940084103256699,
      "grad_norm": 1.058433424479194,
      "learning_rate": 2.1437542232664077e-06,
      "loss": 0.7695,
      "step": 12934
    },
    {
      "epoch": 0.7940697995641364,
      "grad_norm": 1.0201971505269876,
      "learning_rate": 2.142524179602362e-06,
      "loss": 0.7683,
      "step": 12935
    },
    {
      "epoch": 0.7941311888026029,
      "grad_norm": 0.9519629732068124,
      "learning_rate": 2.1412944465863595e-06,
      "loss": 0.7902,
      "step": 12936
    },
    {
      "epoch": 0.7941925780410694,
      "grad_norm": 0.9846311743593665,
      "learning_rate": 2.1400650242670185e-06,
      "loss": 0.7123,
      "step": 12937
    },
    {
      "epoch": 0.7942539672795359,
      "grad_norm": 0.9955579752450189,
      "learning_rate": 2.138835912692946e-06,
      "loss": 0.7603,
      "step": 12938
    },
    {
      "epoch": 0.7943153565180024,
      "grad_norm": 0.8950836592462887,
      "learning_rate": 2.137607111912734e-06,
      "loss": 0.698,
      "step": 12939
    },
    {
      "epoch": 0.7943767457564689,
      "grad_norm": 1.058664712825954,
      "learning_rate": 2.1363786219749627e-06,
      "loss": 0.7259,
      "step": 12940
    },
    {
      "epoch": 0.7944381349949354,
      "grad_norm": 0.9849652858583423,
      "learning_rate": 2.135150442928203e-06,
      "loss": 0.7423,
      "step": 12941
    },
    {
      "epoch": 0.7944995242334019,
      "grad_norm": 0.9935954708116546,
      "learning_rate": 2.133922574821008e-06,
      "loss": 0.7332,
      "step": 12942
    },
    {
      "epoch": 0.7945609134718684,
      "grad_norm": 1.130457564373579,
      "learning_rate": 2.1326950177019302e-06,
      "loss": 0.763,
      "step": 12943
    },
    {
      "epoch": 0.7946223027103348,
      "grad_norm": 0.9583042646019246,
      "learning_rate": 2.131467771619492e-06,
      "loss": 0.7556,
      "step": 12944
    },
    {
      "epoch": 0.7946836919488014,
      "grad_norm": 1.0787970353831728,
      "learning_rate": 2.1302408366222137e-06,
      "loss": 0.8088,
      "step": 12945
    },
    {
      "epoch": 0.7947450811872678,
      "grad_norm": 1.0849191587714768,
      "learning_rate": 2.129014212758609e-06,
      "loss": 0.7105,
      "step": 12946
    },
    {
      "epoch": 0.7948064704257344,
      "grad_norm": 0.9767406552845944,
      "learning_rate": 2.1277879000771697e-06,
      "loss": 0.7768,
      "step": 12947
    },
    {
      "epoch": 0.7948678596642008,
      "grad_norm": 1.1813956031733104,
      "learning_rate": 2.126561898626377e-06,
      "loss": 0.7451,
      "step": 12948
    },
    {
      "epoch": 0.7949292489026674,
      "grad_norm": 0.8745226672619968,
      "learning_rate": 2.1253362084547037e-06,
      "loss": 0.7429,
      "step": 12949
    },
    {
      "epoch": 0.7949906381411339,
      "grad_norm": 0.8500323929281688,
      "learning_rate": 2.124110829610606e-06,
      "loss": 0.7143,
      "step": 12950
    },
    {
      "epoch": 0.7950520273796003,
      "grad_norm": 0.8939464487744386,
      "learning_rate": 2.1228857621425314e-06,
      "loss": 0.7191,
      "step": 12951
    },
    {
      "epoch": 0.7951134166180669,
      "grad_norm": 0.9312443265552668,
      "learning_rate": 2.1216610060989116e-06,
      "loss": 0.763,
      "step": 12952
    },
    {
      "epoch": 0.7951748058565333,
      "grad_norm": 0.9950357319706387,
      "learning_rate": 2.1204365615281687e-06,
      "loss": 0.7577,
      "step": 12953
    },
    {
      "epoch": 0.7952361950949999,
      "grad_norm": 1.069348345187072,
      "learning_rate": 2.119212428478712e-06,
      "loss": 0.7382,
      "step": 12954
    },
    {
      "epoch": 0.7952975843334663,
      "grad_norm": 0.9309905538349996,
      "learning_rate": 2.1179886069989363e-06,
      "loss": 0.7541,
      "step": 12955
    },
    {
      "epoch": 0.7953589735719329,
      "grad_norm": 1.0058090421739678,
      "learning_rate": 2.1167650971372254e-06,
      "loss": 0.7075,
      "step": 12956
    },
    {
      "epoch": 0.7954203628103993,
      "grad_norm": 0.9700525118240289,
      "learning_rate": 2.115541898941954e-06,
      "loss": 0.7594,
      "step": 12957
    },
    {
      "epoch": 0.7954817520488658,
      "grad_norm": 1.012941606489692,
      "learning_rate": 2.1143190124614845e-06,
      "loss": 0.8073,
      "step": 12958
    },
    {
      "epoch": 0.7955431412873323,
      "grad_norm": 1.116010109446644,
      "learning_rate": 2.1130964377441543e-06,
      "loss": 0.6979,
      "step": 12959
    },
    {
      "epoch": 0.7956045305257988,
      "grad_norm": 1.0188252790425374,
      "learning_rate": 2.1118741748383066e-06,
      "loss": 0.7406,
      "step": 12960
    },
    {
      "epoch": 0.7956659197642654,
      "grad_norm": 1.0115279942734485,
      "learning_rate": 2.1106522237922612e-06,
      "loss": 0.755,
      "step": 12961
    },
    {
      "epoch": 0.7957273090027318,
      "grad_norm": 1.0251364043960138,
      "learning_rate": 2.1094305846543284e-06,
      "loss": 0.7346,
      "step": 12962
    },
    {
      "epoch": 0.7957886982411984,
      "grad_norm": 1.0724877645474749,
      "learning_rate": 2.108209257472806e-06,
      "loss": 0.7018,
      "step": 12963
    },
    {
      "epoch": 0.7958500874796648,
      "grad_norm": 1.1029874820430838,
      "learning_rate": 2.106988242295981e-06,
      "loss": 0.756,
      "step": 12964
    },
    {
      "epoch": 0.7959114767181313,
      "grad_norm": 0.9895961147288371,
      "learning_rate": 2.1057675391721255e-06,
      "loss": 0.7864,
      "step": 12965
    },
    {
      "epoch": 0.7959728659565978,
      "grad_norm": 1.071544082979369,
      "learning_rate": 2.1045471481494995e-06,
      "loss": 0.778,
      "step": 12966
    },
    {
      "epoch": 0.7960342551950643,
      "grad_norm": 1.0557835634948316,
      "learning_rate": 2.103327069276353e-06,
      "loss": 0.7594,
      "step": 12967
    },
    {
      "epoch": 0.7960956444335308,
      "grad_norm": 0.9800151350514825,
      "learning_rate": 2.102107302600922e-06,
      "loss": 0.7434,
      "step": 12968
    },
    {
      "epoch": 0.7961570336719973,
      "grad_norm": 1.0327046509259967,
      "learning_rate": 2.100887848171431e-06,
      "loss": 0.7215,
      "step": 12969
    },
    {
      "epoch": 0.7962184229104637,
      "grad_norm": 0.9365298388762935,
      "learning_rate": 2.0996687060360863e-06,
      "loss": 0.7588,
      "step": 12970
    },
    {
      "epoch": 0.7962798121489303,
      "grad_norm": 1.050865031298617,
      "learning_rate": 2.098449876243096e-06,
      "loss": 0.7349,
      "step": 12971
    },
    {
      "epoch": 0.7963412013873968,
      "grad_norm": 1.0953273600340272,
      "learning_rate": 2.0972313588406447e-06,
      "loss": 0.7875,
      "step": 12972
    },
    {
      "epoch": 0.7964025906258633,
      "grad_norm": 0.9803916394468489,
      "learning_rate": 2.096013153876899e-06,
      "loss": 0.7235,
      "step": 12973
    },
    {
      "epoch": 0.7964639798643298,
      "grad_norm": 1.0212383705117904,
      "learning_rate": 2.09479526140003e-06,
      "loss": 0.719,
      "step": 12974
    },
    {
      "epoch": 0.7965253691027963,
      "grad_norm": 1.111432408352299,
      "learning_rate": 2.0935776814581843e-06,
      "loss": 0.772,
      "step": 12975
    },
    {
      "epoch": 0.7965867583412628,
      "grad_norm": 1.0578045992372134,
      "learning_rate": 2.092360414099499e-06,
      "loss": 0.7149,
      "step": 12976
    },
    {
      "epoch": 0.7966481475797292,
      "grad_norm": 0.9888710043125267,
      "learning_rate": 2.091143459372099e-06,
      "loss": 0.7255,
      "step": 12977
    },
    {
      "epoch": 0.7967095368181958,
      "grad_norm": 0.9005931293457199,
      "learning_rate": 2.0899268173240984e-06,
      "loss": 0.7575,
      "step": 12978
    },
    {
      "epoch": 0.7967709260566622,
      "grad_norm": 0.932301389357202,
      "learning_rate": 2.088710488003597e-06,
      "loss": 0.7432,
      "step": 12979
    },
    {
      "epoch": 0.7968323152951288,
      "grad_norm": 1.04771464265876,
      "learning_rate": 2.087494471458682e-06,
      "loss": 0.748,
      "step": 12980
    },
    {
      "epoch": 0.7968937045335953,
      "grad_norm": 0.9004132430167989,
      "learning_rate": 2.0862787677374273e-06,
      "loss": 0.7261,
      "step": 12981
    },
    {
      "epoch": 0.7969550937720618,
      "grad_norm": 1.0068435815821823,
      "learning_rate": 2.0850633768879034e-06,
      "loss": 0.7185,
      "step": 12982
    },
    {
      "epoch": 0.7970164830105283,
      "grad_norm": 1.040138764032876,
      "learning_rate": 2.0838482989581543e-06,
      "loss": 0.7221,
      "step": 12983
    },
    {
      "epoch": 0.7970778722489947,
      "grad_norm": 0.5912418565859804,
      "learning_rate": 2.082633533996217e-06,
      "loss": 0.6632,
      "step": 12984
    },
    {
      "epoch": 0.7971392614874613,
      "grad_norm": 1.198974045597515,
      "learning_rate": 2.0814190820501245e-06,
      "loss": 0.7854,
      "step": 12985
    },
    {
      "epoch": 0.7972006507259277,
      "grad_norm": 0.9441306055793126,
      "learning_rate": 2.0802049431678873e-06,
      "loss": 0.806,
      "step": 12986
    },
    {
      "epoch": 0.7972620399643943,
      "grad_norm": 1.123206226492296,
      "learning_rate": 2.0789911173975064e-06,
      "loss": 0.7511,
      "step": 12987
    },
    {
      "epoch": 0.7973234292028607,
      "grad_norm": 1.0088522233535868,
      "learning_rate": 2.07777760478697e-06,
      "loss": 0.7127,
      "step": 12988
    },
    {
      "epoch": 0.7973848184413272,
      "grad_norm": 1.1020267829508588,
      "learning_rate": 2.0765644053842583e-06,
      "loss": 0.7034,
      "step": 12989
    },
    {
      "epoch": 0.7974462076797937,
      "grad_norm": 0.9746773551323211,
      "learning_rate": 2.0753515192373307e-06,
      "loss": 0.7829,
      "step": 12990
    },
    {
      "epoch": 0.7975075969182602,
      "grad_norm": 1.0211554046032323,
      "learning_rate": 2.074138946394143e-06,
      "loss": 0.7626,
      "step": 12991
    },
    {
      "epoch": 0.7975689861567268,
      "grad_norm": 1.0095655123727907,
      "learning_rate": 2.072926686902633e-06,
      "loss": 0.724,
      "step": 12992
    },
    {
      "epoch": 0.7976303753951932,
      "grad_norm": 1.0483639988027393,
      "learning_rate": 2.0717147408107284e-06,
      "loss": 0.767,
      "step": 12993
    },
    {
      "epoch": 0.7976917646336598,
      "grad_norm": 1.0136222246473277,
      "learning_rate": 2.070503108166343e-06,
      "loss": 0.7158,
      "step": 12994
    },
    {
      "epoch": 0.7977531538721262,
      "grad_norm": 1.0260521332244894,
      "learning_rate": 2.069291789017377e-06,
      "loss": 0.7603,
      "step": 12995
    },
    {
      "epoch": 0.7978145431105927,
      "grad_norm": 1.009138221270783,
      "learning_rate": 2.0680807834117258e-06,
      "loss": 0.7744,
      "step": 12996
    },
    {
      "epoch": 0.7978759323490592,
      "grad_norm": 0.9137614440957462,
      "learning_rate": 2.0668700913972674e-06,
      "loss": 0.7222,
      "step": 12997
    },
    {
      "epoch": 0.7979373215875257,
      "grad_norm": 0.967374610584622,
      "learning_rate": 2.065659713021857e-06,
      "loss": 0.7681,
      "step": 12998
    },
    {
      "epoch": 0.7979987108259922,
      "grad_norm": 1.1245877782159386,
      "learning_rate": 2.0644496483333576e-06,
      "loss": 0.7049,
      "step": 12999
    },
    {
      "epoch": 0.7980601000644587,
      "grad_norm": 1.0201542592192967,
      "learning_rate": 2.0632398973796052e-06,
      "loss": 0.6774,
      "step": 13000
    },
    {
      "epoch": 0.7981214893029251,
      "grad_norm": 1.1100925956177636,
      "learning_rate": 2.0620304602084297e-06,
      "loss": 0.7193,
      "step": 13001
    },
    {
      "epoch": 0.7981828785413917,
      "grad_norm": 0.9487404674029689,
      "learning_rate": 2.0608213368676444e-06,
      "loss": 0.7327,
      "step": 13002
    },
    {
      "epoch": 0.7982442677798582,
      "grad_norm": 1.0950061561627618,
      "learning_rate": 2.0596125274050537e-06,
      "loss": 0.764,
      "step": 13003
    },
    {
      "epoch": 0.7983056570183247,
      "grad_norm": 0.9721212372348683,
      "learning_rate": 2.058404031868447e-06,
      "loss": 0.7605,
      "step": 13004
    },
    {
      "epoch": 0.7983670462567912,
      "grad_norm": 1.0055423037644844,
      "learning_rate": 2.0571958503056044e-06,
      "loss": 0.7407,
      "step": 13005
    },
    {
      "epoch": 0.7984284354952577,
      "grad_norm": 0.9774302541877329,
      "learning_rate": 2.0559879827642894e-06,
      "loss": 0.7879,
      "step": 13006
    },
    {
      "epoch": 0.7984898247337242,
      "grad_norm": 1.0154916734088084,
      "learning_rate": 2.05478042929226e-06,
      "loss": 0.7374,
      "step": 13007
    },
    {
      "epoch": 0.7985512139721906,
      "grad_norm": 0.979226343772416,
      "learning_rate": 2.0535731899372536e-06,
      "loss": 0.8009,
      "step": 13008
    },
    {
      "epoch": 0.7986126032106572,
      "grad_norm": 0.5746905186706963,
      "learning_rate": 2.0523662647469954e-06,
      "loss": 0.6674,
      "step": 13009
    },
    {
      "epoch": 0.7986739924491236,
      "grad_norm": 0.7636019542111444,
      "learning_rate": 2.0511596537692093e-06,
      "loss": 0.7458,
      "step": 13010
    },
    {
      "epoch": 0.7987353816875902,
      "grad_norm": 0.9441090224570444,
      "learning_rate": 2.049953357051595e-06,
      "loss": 0.7625,
      "step": 13011
    },
    {
      "epoch": 0.7987967709260566,
      "grad_norm": 1.030208842907448,
      "learning_rate": 2.048747374641844e-06,
      "loss": 0.7624,
      "step": 13012
    },
    {
      "epoch": 0.7988581601645232,
      "grad_norm": 1.0072636652896927,
      "learning_rate": 2.047541706587637e-06,
      "loss": 0.7344,
      "step": 13013
    },
    {
      "epoch": 0.7989195494029897,
      "grad_norm": 1.0973577153433471,
      "learning_rate": 2.0463363529366375e-06,
      "loss": 0.7362,
      "step": 13014
    },
    {
      "epoch": 0.7989809386414561,
      "grad_norm": 1.027080672643261,
      "learning_rate": 2.0451313137365016e-06,
      "loss": 0.7593,
      "step": 13015
    },
    {
      "epoch": 0.7990423278799227,
      "grad_norm": 1.11588296453516,
      "learning_rate": 2.0439265890348705e-06,
      "loss": 0.7737,
      "step": 13016
    },
    {
      "epoch": 0.7991037171183891,
      "grad_norm": 1.1626172250916182,
      "learning_rate": 2.0427221788793736e-06,
      "loss": 0.8028,
      "step": 13017
    },
    {
      "epoch": 0.7991651063568557,
      "grad_norm": 0.9986527622323703,
      "learning_rate": 2.0415180833176275e-06,
      "loss": 0.7483,
      "step": 13018
    },
    {
      "epoch": 0.7992264955953221,
      "grad_norm": 0.9998525339772598,
      "learning_rate": 2.040314302397236e-06,
      "loss": 0.7153,
      "step": 13019
    },
    {
      "epoch": 0.7992878848337887,
      "grad_norm": 0.9702310734490961,
      "learning_rate": 2.0391108361657898e-06,
      "loss": 0.7056,
      "step": 13020
    },
    {
      "epoch": 0.7993492740722551,
      "grad_norm": 1.1471065531733569,
      "learning_rate": 2.0379076846708725e-06,
      "loss": 0.7639,
      "step": 13021
    },
    {
      "epoch": 0.7994106633107216,
      "grad_norm": 0.9017143168579558,
      "learning_rate": 2.0367048479600503e-06,
      "loss": 0.6871,
      "step": 13022
    },
    {
      "epoch": 0.7994720525491881,
      "grad_norm": 0.9368538629374081,
      "learning_rate": 2.0355023260808713e-06,
      "loss": 0.7194,
      "step": 13023
    },
    {
      "epoch": 0.7995334417876546,
      "grad_norm": 0.9065245414106619,
      "learning_rate": 2.0343001190808864e-06,
      "loss": 0.685,
      "step": 13024
    },
    {
      "epoch": 0.7995948310261212,
      "grad_norm": 1.1019584037821022,
      "learning_rate": 2.0330982270076204e-06,
      "loss": 0.7403,
      "step": 13025
    },
    {
      "epoch": 0.7996562202645876,
      "grad_norm": 0.9356185205071789,
      "learning_rate": 2.031896649908591e-06,
      "loss": 0.7424,
      "step": 13026
    },
    {
      "epoch": 0.7997176095030541,
      "grad_norm": 0.9780021347954473,
      "learning_rate": 2.030695387831304e-06,
      "loss": 0.7025,
      "step": 13027
    },
    {
      "epoch": 0.7997789987415206,
      "grad_norm": 1.006981330532955,
      "learning_rate": 2.0294944408232508e-06,
      "loss": 0.7802,
      "step": 13028
    },
    {
      "epoch": 0.7998403879799871,
      "grad_norm": 0.892447894537189,
      "learning_rate": 2.0282938089319125e-06,
      "loss": 0.708,
      "step": 13029
    },
    {
      "epoch": 0.7999017772184536,
      "grad_norm": 0.9060530970570748,
      "learning_rate": 2.0270934922047547e-06,
      "loss": 0.7196,
      "step": 13030
    },
    {
      "epoch": 0.7999631664569201,
      "grad_norm": 1.003183643423875,
      "learning_rate": 2.0258934906892335e-06,
      "loss": 0.7167,
      "step": 13031
    },
    {
      "epoch": 0.8000245556953866,
      "grad_norm": 1.0351777114206293,
      "learning_rate": 2.0246938044327913e-06,
      "loss": 0.7012,
      "step": 13032
    },
    {
      "epoch": 0.8000859449338531,
      "grad_norm": 0.6232908991288253,
      "learning_rate": 2.0234944334828577e-06,
      "loss": 0.7028,
      "step": 13033
    },
    {
      "epoch": 0.8001473341723196,
      "grad_norm": 1.0666111652926349,
      "learning_rate": 2.0222953778868483e-06,
      "loss": 0.7615,
      "step": 13034
    },
    {
      "epoch": 0.8002087234107861,
      "grad_norm": 0.9448639799349575,
      "learning_rate": 2.0210966376921724e-06,
      "loss": 0.7542,
      "step": 13035
    },
    {
      "epoch": 0.8002701126492526,
      "grad_norm": 1.0429337051246996,
      "learning_rate": 2.019898212946223e-06,
      "loss": 0.7332,
      "step": 13036
    },
    {
      "epoch": 0.8003315018877191,
      "grad_norm": 0.948563686948442,
      "learning_rate": 2.0187001036963736e-06,
      "loss": 0.6756,
      "step": 13037
    },
    {
      "epoch": 0.8003928911261856,
      "grad_norm": 0.9979153517344892,
      "learning_rate": 2.017502309989998e-06,
      "loss": 0.712,
      "step": 13038
    },
    {
      "epoch": 0.800454280364652,
      "grad_norm": 1.0807961931390184,
      "learning_rate": 2.016304831874449e-06,
      "loss": 0.7935,
      "step": 13039
    },
    {
      "epoch": 0.8005156696031186,
      "grad_norm": 1.0199585185026125,
      "learning_rate": 2.015107669397072e-06,
      "loss": 0.8067,
      "step": 13040
    },
    {
      "epoch": 0.800577058841585,
      "grad_norm": 1.0096425651570478,
      "learning_rate": 2.0139108226051927e-06,
      "loss": 0.7203,
      "step": 13041
    },
    {
      "epoch": 0.8006384480800516,
      "grad_norm": 1.1058453841838634,
      "learning_rate": 2.0127142915461318e-06,
      "loss": 0.765,
      "step": 13042
    },
    {
      "epoch": 0.800699837318518,
      "grad_norm": 1.0356444039437183,
      "learning_rate": 2.011518076267195e-06,
      "loss": 0.757,
      "step": 13043
    },
    {
      "epoch": 0.8007612265569846,
      "grad_norm": 1.0373259032167959,
      "learning_rate": 2.010322176815672e-06,
      "loss": 0.7902,
      "step": 13044
    },
    {
      "epoch": 0.8008226157954511,
      "grad_norm": 0.9579644071719168,
      "learning_rate": 2.009126593238845e-06,
      "loss": 0.7345,
      "step": 13045
    },
    {
      "epoch": 0.8008840050339175,
      "grad_norm": 0.946849256984049,
      "learning_rate": 2.007931325583985e-06,
      "loss": 0.7236,
      "step": 13046
    },
    {
      "epoch": 0.8009453942723841,
      "grad_norm": 1.0213109523000363,
      "learning_rate": 2.0067363738983427e-06,
      "loss": 0.7562,
      "step": 13047
    },
    {
      "epoch": 0.8010067835108505,
      "grad_norm": 1.0130165999330931,
      "learning_rate": 2.00554173822916e-06,
      "loss": 0.731,
      "step": 13048
    },
    {
      "epoch": 0.8010681727493171,
      "grad_norm": 1.012794497562153,
      "learning_rate": 2.0043474186236723e-06,
      "loss": 0.7511,
      "step": 13049
    },
    {
      "epoch": 0.8011295619877835,
      "grad_norm": 1.0050036969014073,
      "learning_rate": 2.0031534151290944e-06,
      "loss": 0.6813,
      "step": 13050
    },
    {
      "epoch": 0.8011909512262501,
      "grad_norm": 0.9764850480101952,
      "learning_rate": 2.001959727792633e-06,
      "loss": 0.7117,
      "step": 13051
    },
    {
      "epoch": 0.8012523404647165,
      "grad_norm": 0.9244590426195568,
      "learning_rate": 2.0007663566614797e-06,
      "loss": 0.731,
      "step": 13052
    },
    {
      "epoch": 0.801313729703183,
      "grad_norm": 1.0093931088418255,
      "learning_rate": 1.9995733017828146e-06,
      "loss": 0.745,
      "step": 13053
    },
    {
      "epoch": 0.8013751189416495,
      "grad_norm": 1.071266385646159,
      "learning_rate": 1.998380563203807e-06,
      "loss": 0.6962,
      "step": 13054
    },
    {
      "epoch": 0.801436508180116,
      "grad_norm": 0.993052925950188,
      "learning_rate": 1.997188140971611e-06,
      "loss": 0.7393,
      "step": 13055
    },
    {
      "epoch": 0.8014978974185826,
      "grad_norm": 1.0283225171665034,
      "learning_rate": 1.9959960351333706e-06,
      "loss": 0.8008,
      "step": 13056
    },
    {
      "epoch": 0.801559286657049,
      "grad_norm": 1.1250933583682354,
      "learning_rate": 1.9948042457362148e-06,
      "loss": 0.7375,
      "step": 13057
    },
    {
      "epoch": 0.8016206758955156,
      "grad_norm": 1.071909883362814,
      "learning_rate": 1.9936127728272615e-06,
      "loss": 0.7565,
      "step": 13058
    },
    {
      "epoch": 0.801682065133982,
      "grad_norm": 1.050478316318269,
      "learning_rate": 1.9924216164536135e-06,
      "loss": 0.7583,
      "step": 13059
    },
    {
      "epoch": 0.8017434543724485,
      "grad_norm": 1.0549997552473303,
      "learning_rate": 1.991230776662371e-06,
      "loss": 0.7524,
      "step": 13060
    },
    {
      "epoch": 0.801804843610915,
      "grad_norm": 1.1303149383997888,
      "learning_rate": 1.9900402535006115e-06,
      "loss": 0.7571,
      "step": 13061
    },
    {
      "epoch": 0.8018662328493815,
      "grad_norm": 0.8891773536169607,
      "learning_rate": 1.9888500470153947e-06,
      "loss": 0.7137,
      "step": 13062
    },
    {
      "epoch": 0.801927622087848,
      "grad_norm": 0.9077718917679112,
      "learning_rate": 1.9876601572537857e-06,
      "loss": 0.7471,
      "step": 13063
    },
    {
      "epoch": 0.8019890113263145,
      "grad_norm": 0.9696190981974125,
      "learning_rate": 1.986470584262824e-06,
      "loss": 0.8257,
      "step": 13064
    },
    {
      "epoch": 0.8020504005647809,
      "grad_norm": 0.9366444068396657,
      "learning_rate": 1.985281328089539e-06,
      "loss": 0.7238,
      "step": 13065
    },
    {
      "epoch": 0.8021117898032475,
      "grad_norm": 1.0531131972243326,
      "learning_rate": 1.9840923887809492e-06,
      "loss": 0.7348,
      "step": 13066
    },
    {
      "epoch": 0.802173179041714,
      "grad_norm": 1.0253967082375735,
      "learning_rate": 1.9829037663840587e-06,
      "loss": 0.6798,
      "step": 13067
    },
    {
      "epoch": 0.8022345682801805,
      "grad_norm": 1.0258783560826468,
      "learning_rate": 1.9817154609458624e-06,
      "loss": 0.7817,
      "step": 13068
    },
    {
      "epoch": 0.802295957518647,
      "grad_norm": 1.0559939521228692,
      "learning_rate": 1.980527472513337e-06,
      "loss": 0.7907,
      "step": 13069
    },
    {
      "epoch": 0.8023573467571135,
      "grad_norm": 0.9833412067672038,
      "learning_rate": 1.9793398011334497e-06,
      "loss": 0.7152,
      "step": 13070
    },
    {
      "epoch": 0.80241873599558,
      "grad_norm": 0.9416720319888027,
      "learning_rate": 1.9781524468531634e-06,
      "loss": 0.7542,
      "step": 13071
    },
    {
      "epoch": 0.8024801252340464,
      "grad_norm": 1.1513440732364486,
      "learning_rate": 1.9769654097194114e-06,
      "loss": 0.7278,
      "step": 13072
    },
    {
      "epoch": 0.802541514472513,
      "grad_norm": 1.128462124310145,
      "learning_rate": 1.975778689779124e-06,
      "loss": 0.7518,
      "step": 13073
    },
    {
      "epoch": 0.8026029037109794,
      "grad_norm": 1.0041507609555165,
      "learning_rate": 1.9745922870792245e-06,
      "loss": 0.7701,
      "step": 13074
    },
    {
      "epoch": 0.802664292949446,
      "grad_norm": 1.0432120937939195,
      "learning_rate": 1.9734062016666145e-06,
      "loss": 0.7075,
      "step": 13075
    },
    {
      "epoch": 0.8027256821879124,
      "grad_norm": 0.9795916941265845,
      "learning_rate": 1.972220433588188e-06,
      "loss": 0.761,
      "step": 13076
    },
    {
      "epoch": 0.802787071426379,
      "grad_norm": 1.0052599396265622,
      "learning_rate": 1.9710349828908215e-06,
      "loss": 0.7275,
      "step": 13077
    },
    {
      "epoch": 0.8028484606648455,
      "grad_norm": 1.0046972604167925,
      "learning_rate": 1.9698498496213847e-06,
      "loss": 0.7586,
      "step": 13078
    },
    {
      "epoch": 0.8029098499033119,
      "grad_norm": 1.0960688130869005,
      "learning_rate": 1.968665033826732e-06,
      "loss": 0.804,
      "step": 13079
    },
    {
      "epoch": 0.8029712391417785,
      "grad_norm": 0.9472074100474817,
      "learning_rate": 1.967480535553703e-06,
      "loss": 0.7254,
      "step": 13080
    },
    {
      "epoch": 0.8030326283802449,
      "grad_norm": 1.0509097608583093,
      "learning_rate": 1.966296354849133e-06,
      "loss": 0.7664,
      "step": 13081
    },
    {
      "epoch": 0.8030940176187115,
      "grad_norm": 0.9328128766478485,
      "learning_rate": 1.965112491759834e-06,
      "loss": 0.7234,
      "step": 13082
    },
    {
      "epoch": 0.8031554068571779,
      "grad_norm": 0.8948687036038256,
      "learning_rate": 1.9639289463326118e-06,
      "loss": 0.7589,
      "step": 13083
    },
    {
      "epoch": 0.8032167960956444,
      "grad_norm": 1.058069564264892,
      "learning_rate": 1.962745718614255e-06,
      "loss": 0.7335,
      "step": 13084
    },
    {
      "epoch": 0.8032781853341109,
      "grad_norm": 1.1354533582198636,
      "learning_rate": 1.9615628086515494e-06,
      "loss": 0.7348,
      "step": 13085
    },
    {
      "epoch": 0.8033395745725774,
      "grad_norm": 1.1263865252102472,
      "learning_rate": 1.960380216491261e-06,
      "loss": 0.7195,
      "step": 13086
    },
    {
      "epoch": 0.803400963811044,
      "grad_norm": 0.9555468904358928,
      "learning_rate": 1.9591979421801353e-06,
      "loss": 0.7482,
      "step": 13087
    },
    {
      "epoch": 0.8034623530495104,
      "grad_norm": 0.9952742699223766,
      "learning_rate": 1.958015985764924e-06,
      "loss": 0.7658,
      "step": 13088
    },
    {
      "epoch": 0.803523742287977,
      "grad_norm": 0.9551255388633179,
      "learning_rate": 1.9568343472923524e-06,
      "loss": 0.6841,
      "step": 13089
    },
    {
      "epoch": 0.8035851315264434,
      "grad_norm": 0.9480248495600404,
      "learning_rate": 1.9556530268091365e-06,
      "loss": 0.6879,
      "step": 13090
    },
    {
      "epoch": 0.8036465207649099,
      "grad_norm": 0.9765524371226247,
      "learning_rate": 1.9544720243619806e-06,
      "loss": 0.7096,
      "step": 13091
    },
    {
      "epoch": 0.8037079100033764,
      "grad_norm": 1.0500630535569948,
      "learning_rate": 1.953291339997576e-06,
      "loss": 0.7234,
      "step": 13092
    },
    {
      "epoch": 0.8037692992418429,
      "grad_norm": 0.568923393002938,
      "learning_rate": 1.952110973762602e-06,
      "loss": 0.6349,
      "step": 13093
    },
    {
      "epoch": 0.8038306884803094,
      "grad_norm": 1.0450343371619486,
      "learning_rate": 1.9509309257037244e-06,
      "loss": 0.774,
      "step": 13094
    },
    {
      "epoch": 0.8038920777187759,
      "grad_norm": 0.9796358956707599,
      "learning_rate": 1.9497511958675943e-06,
      "loss": 0.7247,
      "step": 13095
    },
    {
      "epoch": 0.8039534669572423,
      "grad_norm": 1.0455217899521196,
      "learning_rate": 1.948571784300859e-06,
      "loss": 0.7319,
      "step": 13096
    },
    {
      "epoch": 0.8040148561957089,
      "grad_norm": 1.10879775282886,
      "learning_rate": 1.947392691050142e-06,
      "loss": 0.753,
      "step": 13097
    },
    {
      "epoch": 0.8040762454341754,
      "grad_norm": 0.9397618439966474,
      "learning_rate": 1.9462139161620575e-06,
      "loss": 0.7154,
      "step": 13098
    },
    {
      "epoch": 0.8041376346726419,
      "grad_norm": 1.0576004863682296,
      "learning_rate": 1.9450354596832134e-06,
      "loss": 0.7435,
      "step": 13099
    },
    {
      "epoch": 0.8041990239111084,
      "grad_norm": 1.0876474359953539,
      "learning_rate": 1.943857321660202e-06,
      "loss": 0.7454,
      "step": 13100
    },
    {
      "epoch": 0.8042604131495749,
      "grad_norm": 1.0429890066864154,
      "learning_rate": 1.9426795021395915e-06,
      "loss": 0.7768,
      "step": 13101
    },
    {
      "epoch": 0.8043218023880414,
      "grad_norm": 1.0796872701267612,
      "learning_rate": 1.9415020011679577e-06,
      "loss": 0.7289,
      "step": 13102
    },
    {
      "epoch": 0.8043831916265078,
      "grad_norm": 1.092543410575548,
      "learning_rate": 1.9403248187918487e-06,
      "loss": 0.7886,
      "step": 13103
    },
    {
      "epoch": 0.8044445808649744,
      "grad_norm": 1.0181468610866444,
      "learning_rate": 1.9391479550578064e-06,
      "loss": 0.7222,
      "step": 13104
    },
    {
      "epoch": 0.8045059701034408,
      "grad_norm": 1.015755308337341,
      "learning_rate": 1.937971410012358e-06,
      "loss": 0.7558,
      "step": 13105
    },
    {
      "epoch": 0.8045673593419074,
      "grad_norm": 0.9559282351552778,
      "learning_rate": 1.936795183702018e-06,
      "loss": 0.7556,
      "step": 13106
    },
    {
      "epoch": 0.8046287485803738,
      "grad_norm": 0.9685435934888776,
      "learning_rate": 1.9356192761732904e-06,
      "loss": 0.7687,
      "step": 13107
    },
    {
      "epoch": 0.8046901378188404,
      "grad_norm": 1.0700012398835717,
      "learning_rate": 1.9344436874726637e-06,
      "loss": 0.7219,
      "step": 13108
    },
    {
      "epoch": 0.8047515270573069,
      "grad_norm": 1.0233880862660576,
      "learning_rate": 1.9332684176466134e-06,
      "loss": 0.7771,
      "step": 13109
    },
    {
      "epoch": 0.8048129162957733,
      "grad_norm": 1.0473888226615085,
      "learning_rate": 1.9320934667416103e-06,
      "loss": 0.7249,
      "step": 13110
    },
    {
      "epoch": 0.8048743055342399,
      "grad_norm": 1.0087979747447995,
      "learning_rate": 1.930918834804102e-06,
      "loss": 0.7483,
      "step": 13111
    },
    {
      "epoch": 0.8049356947727063,
      "grad_norm": 0.975552558559491,
      "learning_rate": 1.9297445218805246e-06,
      "loss": 0.6934,
      "step": 13112
    },
    {
      "epoch": 0.8049970840111729,
      "grad_norm": 0.9078875757747821,
      "learning_rate": 1.9285705280173115e-06,
      "loss": 0.7621,
      "step": 13113
    },
    {
      "epoch": 0.8050584732496393,
      "grad_norm": 0.9989834784157726,
      "learning_rate": 1.9273968532608754e-06,
      "loss": 0.7939,
      "step": 13114
    },
    {
      "epoch": 0.8051198624881059,
      "grad_norm": 0.9112280201583104,
      "learning_rate": 1.9262234976576168e-06,
      "loss": 0.7444,
      "step": 13115
    },
    {
      "epoch": 0.8051812517265723,
      "grad_norm": 1.0571658962155783,
      "learning_rate": 1.9250504612539246e-06,
      "loss": 0.7955,
      "step": 13116
    },
    {
      "epoch": 0.8052426409650388,
      "grad_norm": 0.9300163686430685,
      "learning_rate": 1.923877744096175e-06,
      "loss": 0.7297,
      "step": 13117
    },
    {
      "epoch": 0.8053040302035053,
      "grad_norm": 0.9495959778652583,
      "learning_rate": 1.9227053462307334e-06,
      "loss": 0.7377,
      "step": 13118
    },
    {
      "epoch": 0.8053654194419718,
      "grad_norm": 1.1323663499565362,
      "learning_rate": 1.921533267703947e-06,
      "loss": 0.7438,
      "step": 13119
    },
    {
      "epoch": 0.8054268086804384,
      "grad_norm": 1.043449228162514,
      "learning_rate": 1.9203615085621618e-06,
      "loss": 0.7261,
      "step": 13120
    },
    {
      "epoch": 0.8054881979189048,
      "grad_norm": 1.0500608403547445,
      "learning_rate": 1.9191900688516973e-06,
      "loss": 0.7553,
      "step": 13121
    },
    {
      "epoch": 0.8055495871573713,
      "grad_norm": 0.8630125750169073,
      "learning_rate": 1.9180189486188683e-06,
      "loss": 0.7119,
      "step": 13122
    },
    {
      "epoch": 0.8056109763958378,
      "grad_norm": 1.080786888650746,
      "learning_rate": 1.9168481479099733e-06,
      "loss": 0.7538,
      "step": 13123
    },
    {
      "epoch": 0.8056723656343043,
      "grad_norm": 1.0099317991240915,
      "learning_rate": 1.915677666771305e-06,
      "loss": 0.7603,
      "step": 13124
    },
    {
      "epoch": 0.8057337548727708,
      "grad_norm": 0.9543799480348886,
      "learning_rate": 1.914507505249139e-06,
      "loss": 0.6832,
      "step": 13125
    },
    {
      "epoch": 0.8057951441112373,
      "grad_norm": 1.1448914351024189,
      "learning_rate": 1.9133376633897303e-06,
      "loss": 0.7783,
      "step": 13126
    },
    {
      "epoch": 0.8058565333497038,
      "grad_norm": 1.0506977272441294,
      "learning_rate": 1.9121681412393377e-06,
      "loss": 0.7095,
      "step": 13127
    },
    {
      "epoch": 0.8059179225881703,
      "grad_norm": 0.8980775953209793,
      "learning_rate": 1.910998938844194e-06,
      "loss": 0.7003,
      "step": 13128
    },
    {
      "epoch": 0.8059793118266367,
      "grad_norm": 1.0687842475431337,
      "learning_rate": 1.9098300562505266e-06,
      "loss": 0.7259,
      "step": 13129
    },
    {
      "epoch": 0.8060407010651033,
      "grad_norm": 0.6083592453071798,
      "learning_rate": 1.9086614935045453e-06,
      "loss": 0.664,
      "step": 13130
    },
    {
      "epoch": 0.8061020903035698,
      "grad_norm": 1.0819904052103702,
      "learning_rate": 1.907493250652451e-06,
      "loss": 0.7605,
      "step": 13131
    },
    {
      "epoch": 0.8061634795420363,
      "grad_norm": 0.901067125810709,
      "learning_rate": 1.9063253277404304e-06,
      "loss": 0.7326,
      "step": 13132
    },
    {
      "epoch": 0.8062248687805028,
      "grad_norm": 0.8580503537232251,
      "learning_rate": 1.905157724814658e-06,
      "loss": 0.7333,
      "step": 13133
    },
    {
      "epoch": 0.8062862580189692,
      "grad_norm": 1.068606024462578,
      "learning_rate": 1.9039904419212917e-06,
      "loss": 0.7658,
      "step": 13134
    },
    {
      "epoch": 0.8063476472574358,
      "grad_norm": 1.0115106734984531,
      "learning_rate": 1.9028234791064891e-06,
      "loss": 0.7617,
      "step": 13135
    },
    {
      "epoch": 0.8064090364959022,
      "grad_norm": 0.9404131350189544,
      "learning_rate": 1.901656836416379e-06,
      "loss": 0.7324,
      "step": 13136
    },
    {
      "epoch": 0.8064704257343688,
      "grad_norm": 0.9699621241050986,
      "learning_rate": 1.9004905138970842e-06,
      "loss": 0.7668,
      "step": 13137
    },
    {
      "epoch": 0.8065318149728352,
      "grad_norm": 0.9280491398656192,
      "learning_rate": 1.8993245115947212e-06,
      "loss": 0.7336,
      "step": 13138
    },
    {
      "epoch": 0.8065932042113018,
      "grad_norm": 1.1355985492732452,
      "learning_rate": 1.8981588295553855e-06,
      "loss": 0.7515,
      "step": 13139
    },
    {
      "epoch": 0.8066545934497683,
      "grad_norm": 0.9497395981947611,
      "learning_rate": 1.8969934678251633e-06,
      "loss": 0.6679,
      "step": 13140
    },
    {
      "epoch": 0.8067159826882347,
      "grad_norm": 0.8942117779006938,
      "learning_rate": 1.895828426450127e-06,
      "loss": 0.7426,
      "step": 13141
    },
    {
      "epoch": 0.8067773719267013,
      "grad_norm": 1.0643657122790822,
      "learning_rate": 1.8946637054763372e-06,
      "loss": 0.715,
      "step": 13142
    },
    {
      "epoch": 0.8068387611651677,
      "grad_norm": 0.9994780594728088,
      "learning_rate": 1.8934993049498418e-06,
      "loss": 0.7465,
      "step": 13143
    },
    {
      "epoch": 0.8069001504036343,
      "grad_norm": 1.1687214727072204,
      "learning_rate": 1.8923352249166726e-06,
      "loss": 0.7685,
      "step": 13144
    },
    {
      "epoch": 0.8069615396421007,
      "grad_norm": 1.001521674718369,
      "learning_rate": 1.8911714654228608e-06,
      "loss": 0.7378,
      "step": 13145
    },
    {
      "epoch": 0.8070229288805673,
      "grad_norm": 1.054448896702973,
      "learning_rate": 1.890008026514406e-06,
      "loss": 0.7358,
      "step": 13146
    },
    {
      "epoch": 0.8070843181190337,
      "grad_norm": 0.9986448452744302,
      "learning_rate": 1.8888449082373106e-06,
      "loss": 0.8056,
      "step": 13147
    },
    {
      "epoch": 0.8071457073575002,
      "grad_norm": 1.0778708507294819,
      "learning_rate": 1.8876821106375543e-06,
      "loss": 0.7157,
      "step": 13148
    },
    {
      "epoch": 0.8072070965959667,
      "grad_norm": 1.0375357065391746,
      "learning_rate": 1.8865196337611136e-06,
      "loss": 0.6859,
      "step": 13149
    },
    {
      "epoch": 0.8072684858344332,
      "grad_norm": 0.9623401529327144,
      "learning_rate": 1.8853574776539497e-06,
      "loss": 0.7004,
      "step": 13150
    },
    {
      "epoch": 0.8073298750728998,
      "grad_norm": 1.1014444065640452,
      "learning_rate": 1.884195642361999e-06,
      "loss": 0.7525,
      "step": 13151
    },
    {
      "epoch": 0.8073912643113662,
      "grad_norm": 1.0662111639742897,
      "learning_rate": 1.8830341279312037e-06,
      "loss": 0.7528,
      "step": 13152
    },
    {
      "epoch": 0.8074526535498328,
      "grad_norm": 0.5546544280925123,
      "learning_rate": 1.8818729344074815e-06,
      "loss": 0.5901,
      "step": 13153
    },
    {
      "epoch": 0.8075140427882992,
      "grad_norm": 1.0985493312957801,
      "learning_rate": 1.8807120618367414e-06,
      "loss": 0.7573,
      "step": 13154
    },
    {
      "epoch": 0.8075754320267657,
      "grad_norm": 1.0357192030733946,
      "learning_rate": 1.8795515102648787e-06,
      "loss": 0.7459,
      "step": 13155
    },
    {
      "epoch": 0.8076368212652322,
      "grad_norm": 1.0010998739057686,
      "learning_rate": 1.8783912797377758e-06,
      "loss": 0.7591,
      "step": 13156
    },
    {
      "epoch": 0.8076982105036987,
      "grad_norm": 1.1674841312306499,
      "learning_rate": 1.8772313703013024e-06,
      "loss": 0.7832,
      "step": 13157
    },
    {
      "epoch": 0.8077595997421652,
      "grad_norm": 1.008700133656309,
      "learning_rate": 1.8760717820013142e-06,
      "loss": 0.7516,
      "step": 13158
    },
    {
      "epoch": 0.8078209889806317,
      "grad_norm": 1.0271281518338455,
      "learning_rate": 1.874912514883661e-06,
      "loss": 0.7388,
      "step": 13159
    },
    {
      "epoch": 0.8078823782190981,
      "grad_norm": 0.9576965187441088,
      "learning_rate": 1.8737535689941756e-06,
      "loss": 0.7363,
      "step": 13160
    },
    {
      "epoch": 0.8079437674575647,
      "grad_norm": 0.9777236447096324,
      "learning_rate": 1.8725949443786707e-06,
      "loss": 0.7138,
      "step": 13161
    },
    {
      "epoch": 0.8080051566960312,
      "grad_norm": 0.9540006443342338,
      "learning_rate": 1.8714366410829531e-06,
      "loss": 0.7585,
      "step": 13162
    },
    {
      "epoch": 0.8080665459344977,
      "grad_norm": 0.9919805943889429,
      "learning_rate": 1.8702786591528222e-06,
      "loss": 0.6886,
      "step": 13163
    },
    {
      "epoch": 0.8081279351729642,
      "grad_norm": 0.9624145458045819,
      "learning_rate": 1.8691209986340598e-06,
      "loss": 0.7411,
      "step": 13164
    },
    {
      "epoch": 0.8081893244114307,
      "grad_norm": 0.9862222532622522,
      "learning_rate": 1.867963659572426e-06,
      "loss": 0.7014,
      "step": 13165
    },
    {
      "epoch": 0.8082507136498972,
      "grad_norm": 0.9717015275068092,
      "learning_rate": 1.8668066420136843e-06,
      "loss": 0.7237,
      "step": 13166
    },
    {
      "epoch": 0.8083121028883636,
      "grad_norm": 0.9716245359751935,
      "learning_rate": 1.865649946003576e-06,
      "loss": 0.6997,
      "step": 13167
    },
    {
      "epoch": 0.8083734921268302,
      "grad_norm": 0.9486907955115595,
      "learning_rate": 1.8644935715878298e-06,
      "loss": 0.7486,
      "step": 13168
    },
    {
      "epoch": 0.8084348813652966,
      "grad_norm": 1.0362948878858629,
      "learning_rate": 1.863337518812165e-06,
      "loss": 0.7704,
      "step": 13169
    },
    {
      "epoch": 0.8084962706037632,
      "grad_norm": 0.9408199225392252,
      "learning_rate": 1.862181787722287e-06,
      "loss": 0.7364,
      "step": 13170
    },
    {
      "epoch": 0.8085576598422296,
      "grad_norm": 0.9798525430551893,
      "learning_rate": 1.861026378363886e-06,
      "loss": 0.7923,
      "step": 13171
    },
    {
      "epoch": 0.8086190490806962,
      "grad_norm": 0.9248853082741031,
      "learning_rate": 1.8598712907826421e-06,
      "loss": 0.7478,
      "step": 13172
    },
    {
      "epoch": 0.8086804383191627,
      "grad_norm": 1.0445497586743397,
      "learning_rate": 1.8587165250242211e-06,
      "loss": 0.7681,
      "step": 13173
    },
    {
      "epoch": 0.8087418275576291,
      "grad_norm": 1.0158414254336656,
      "learning_rate": 1.857562081134283e-06,
      "loss": 0.7299,
      "step": 13174
    },
    {
      "epoch": 0.8088032167960957,
      "grad_norm": 1.0232774158834104,
      "learning_rate": 1.8564079591584628e-06,
      "loss": 0.7152,
      "step": 13175
    },
    {
      "epoch": 0.8088646060345621,
      "grad_norm": 0.9493882470301027,
      "learning_rate": 1.8552541591423868e-06,
      "loss": 0.7219,
      "step": 13176
    },
    {
      "epoch": 0.8089259952730287,
      "grad_norm": 1.0034279158122963,
      "learning_rate": 1.8541006811316787e-06,
      "loss": 0.7295,
      "step": 13177
    },
    {
      "epoch": 0.8089873845114951,
      "grad_norm": 0.9785687608652395,
      "learning_rate": 1.8529475251719386e-06,
      "loss": 0.7398,
      "step": 13178
    },
    {
      "epoch": 0.8090487737499616,
      "grad_norm": 1.0734297792800553,
      "learning_rate": 1.851794691308756e-06,
      "loss": 0.7005,
      "step": 13179
    },
    {
      "epoch": 0.8091101629884281,
      "grad_norm": 1.0620074939645672,
      "learning_rate": 1.8506421795877082e-06,
      "loss": 0.7462,
      "step": 13180
    },
    {
      "epoch": 0.8091715522268946,
      "grad_norm": 0.9898146121253777,
      "learning_rate": 1.8494899900543606e-06,
      "loss": 0.7647,
      "step": 13181
    },
    {
      "epoch": 0.8092329414653612,
      "grad_norm": 1.0821941628144847,
      "learning_rate": 1.8483381227542663e-06,
      "loss": 0.7411,
      "step": 13182
    },
    {
      "epoch": 0.8092943307038276,
      "grad_norm": 1.0141089087080428,
      "learning_rate": 1.8471865777329624e-06,
      "loss": 0.7568,
      "step": 13183
    },
    {
      "epoch": 0.8093557199422942,
      "grad_norm": 1.0123333257616924,
      "learning_rate": 1.8460353550359811e-06,
      "loss": 0.696,
      "step": 13184
    },
    {
      "epoch": 0.8094171091807606,
      "grad_norm": 1.0221418151960528,
      "learning_rate": 1.8448844547088307e-06,
      "loss": 0.7402,
      "step": 13185
    },
    {
      "epoch": 0.8094784984192271,
      "grad_norm": 1.0080614726153467,
      "learning_rate": 1.8437338767970147e-06,
      "loss": 0.6936,
      "step": 13186
    },
    {
      "epoch": 0.8095398876576936,
      "grad_norm": 1.002977589406344,
      "learning_rate": 1.842583621346019e-06,
      "loss": 0.7739,
      "step": 13187
    },
    {
      "epoch": 0.8096012768961601,
      "grad_norm": 1.1038410997360106,
      "learning_rate": 1.8414336884013239e-06,
      "loss": 0.772,
      "step": 13188
    },
    {
      "epoch": 0.8096626661346266,
      "grad_norm": 0.8539537567419873,
      "learning_rate": 1.840284078008393e-06,
      "loss": 0.8044,
      "step": 13189
    },
    {
      "epoch": 0.8097240553730931,
      "grad_norm": 1.0151626712512225,
      "learning_rate": 1.8391347902126676e-06,
      "loss": 0.7007,
      "step": 13190
    },
    {
      "epoch": 0.8097854446115595,
      "grad_norm": 0.9883481222545244,
      "learning_rate": 1.837985825059595e-06,
      "loss": 0.7095,
      "step": 13191
    },
    {
      "epoch": 0.8098468338500261,
      "grad_norm": 1.1202876245740787,
      "learning_rate": 1.8368371825945952e-06,
      "loss": 0.7626,
      "step": 13192
    },
    {
      "epoch": 0.8099082230884926,
      "grad_norm": 1.054834498127289,
      "learning_rate": 1.835688862863082e-06,
      "loss": 0.7918,
      "step": 13193
    },
    {
      "epoch": 0.8099696123269591,
      "grad_norm": 0.9487483024540143,
      "learning_rate": 1.8345408659104536e-06,
      "loss": 0.7797,
      "step": 13194
    },
    {
      "epoch": 0.8100310015654256,
      "grad_norm": 0.8358685330418761,
      "learning_rate": 1.833393191782097e-06,
      "loss": 0.7336,
      "step": 13195
    },
    {
      "epoch": 0.8100923908038921,
      "grad_norm": 1.0676289807754111,
      "learning_rate": 1.8322458405233855e-06,
      "loss": 0.7391,
      "step": 13196
    },
    {
      "epoch": 0.8101537800423586,
      "grad_norm": 0.906324351001898,
      "learning_rate": 1.8310988121796803e-06,
      "loss": 0.7322,
      "step": 13197
    },
    {
      "epoch": 0.810215169280825,
      "grad_norm": 0.5384723099250082,
      "learning_rate": 1.8299521067963266e-06,
      "loss": 0.5978,
      "step": 13198
    },
    {
      "epoch": 0.8102765585192916,
      "grad_norm": 1.1256335586288808,
      "learning_rate": 1.8288057244186674e-06,
      "loss": 0.8039,
      "step": 13199
    },
    {
      "epoch": 0.810337947757758,
      "grad_norm": 1.0828767309598923,
      "learning_rate": 1.8276596650920187e-06,
      "loss": 0.7832,
      "step": 13200
    },
    {
      "epoch": 0.8103993369962246,
      "grad_norm": 1.0333171630897793,
      "learning_rate": 1.8265139288616895e-06,
      "loss": 0.7669,
      "step": 13201
    },
    {
      "epoch": 0.810460726234691,
      "grad_norm": 1.0024757187039057,
      "learning_rate": 1.8253685157729817e-06,
      "loss": 0.7401,
      "step": 13202
    },
    {
      "epoch": 0.8105221154731576,
      "grad_norm": 0.9498327207297709,
      "learning_rate": 1.8242234258711778e-06,
      "loss": 0.6947,
      "step": 13203
    },
    {
      "epoch": 0.8105835047116241,
      "grad_norm": 0.9395167141632446,
      "learning_rate": 1.823078659201548e-06,
      "loss": 0.7657,
      "step": 13204
    },
    {
      "epoch": 0.8106448939500905,
      "grad_norm": 1.0711038064706746,
      "learning_rate": 1.8219342158093533e-06,
      "loss": 0.7283,
      "step": 13205
    },
    {
      "epoch": 0.8107062831885571,
      "grad_norm": 1.123463917779253,
      "learning_rate": 1.8207900957398383e-06,
      "loss": 0.7292,
      "step": 13206
    },
    {
      "epoch": 0.8107676724270235,
      "grad_norm": 0.9836485293259106,
      "learning_rate": 1.8196462990382357e-06,
      "loss": 0.7263,
      "step": 13207
    },
    {
      "epoch": 0.8108290616654901,
      "grad_norm": 1.0206949582783895,
      "learning_rate": 1.818502825749764e-06,
      "loss": 0.759,
      "step": 13208
    },
    {
      "epoch": 0.8108904509039565,
      "grad_norm": 0.947984745858359,
      "learning_rate": 1.8173596759196388e-06,
      "loss": 0.7262,
      "step": 13209
    },
    {
      "epoch": 0.810951840142423,
      "grad_norm": 0.8350243174239486,
      "learning_rate": 1.8162168495930466e-06,
      "loss": 0.719,
      "step": 13210
    },
    {
      "epoch": 0.8110132293808895,
      "grad_norm": 1.0379855406971201,
      "learning_rate": 1.8150743468151732e-06,
      "loss": 0.7335,
      "step": 13211
    },
    {
      "epoch": 0.811074618619356,
      "grad_norm": 0.9993316042767234,
      "learning_rate": 1.8139321676311838e-06,
      "loss": 0.7419,
      "step": 13212
    },
    {
      "epoch": 0.8111360078578225,
      "grad_norm": 1.0551280762894495,
      "learning_rate": 1.81279031208624e-06,
      "loss": 0.7404,
      "step": 13213
    },
    {
      "epoch": 0.811197397096289,
      "grad_norm": 1.0139433798816997,
      "learning_rate": 1.8116487802254868e-06,
      "loss": 0.7651,
      "step": 13214
    },
    {
      "epoch": 0.8112587863347556,
      "grad_norm": 1.0115971303104694,
      "learning_rate": 1.8105075720940457e-06,
      "loss": 0.7523,
      "step": 13215
    },
    {
      "epoch": 0.811320175573222,
      "grad_norm": 1.018496123116643,
      "learning_rate": 1.8093666877370442e-06,
      "loss": 0.7267,
      "step": 13216
    },
    {
      "epoch": 0.8113815648116885,
      "grad_norm": 1.0873383596132058,
      "learning_rate": 1.8082261271995837e-06,
      "loss": 0.7699,
      "step": 13217
    },
    {
      "epoch": 0.811442954050155,
      "grad_norm": 1.1983808928966961,
      "learning_rate": 1.8070858905267563e-06,
      "loss": 0.7336,
      "step": 13218
    },
    {
      "epoch": 0.8115043432886215,
      "grad_norm": 1.0329981130920973,
      "learning_rate": 1.8059459777636434e-06,
      "loss": 0.7959,
      "step": 13219
    },
    {
      "epoch": 0.811565732527088,
      "grad_norm": 1.0150089235741167,
      "learning_rate": 1.8048063889553114e-06,
      "loss": 0.7361,
      "step": 13220
    },
    {
      "epoch": 0.8116271217655545,
      "grad_norm": 1.093023680981423,
      "learning_rate": 1.803667124146813e-06,
      "loss": 0.7302,
      "step": 13221
    },
    {
      "epoch": 0.811688511004021,
      "grad_norm": 0.9904104236853917,
      "learning_rate": 1.8025281833831875e-06,
      "loss": 0.7801,
      "step": 13222
    },
    {
      "epoch": 0.8117499002424875,
      "grad_norm": 1.0109033190009118,
      "learning_rate": 1.8013895667094694e-06,
      "loss": 0.7868,
      "step": 13223
    },
    {
      "epoch": 0.8118112894809539,
      "grad_norm": 0.9578726086002121,
      "learning_rate": 1.8002512741706723e-06,
      "loss": 0.7159,
      "step": 13224
    },
    {
      "epoch": 0.8118726787194205,
      "grad_norm": 1.0571331702497717,
      "learning_rate": 1.7991133058117959e-06,
      "loss": 0.7256,
      "step": 13225
    },
    {
      "epoch": 0.811934067957887,
      "grad_norm": 1.0003150924502597,
      "learning_rate": 1.79797566167783e-06,
      "loss": 0.7215,
      "step": 13226
    },
    {
      "epoch": 0.8119954571963535,
      "grad_norm": 0.987099988917419,
      "learning_rate": 1.7968383418137557e-06,
      "loss": 0.7002,
      "step": 13227
    },
    {
      "epoch": 0.81205684643482,
      "grad_norm": 0.997264428952435,
      "learning_rate": 1.795701346264538e-06,
      "loss": 0.7589,
      "step": 13228
    },
    {
      "epoch": 0.8121182356732864,
      "grad_norm": 1.079849992855289,
      "learning_rate": 1.79456467507512e-06,
      "loss": 0.7667,
      "step": 13229
    },
    {
      "epoch": 0.812179624911753,
      "grad_norm": 0.9044302462580098,
      "learning_rate": 1.7934283282904496e-06,
      "loss": 0.7502,
      "step": 13230
    },
    {
      "epoch": 0.8122410141502194,
      "grad_norm": 1.1152372912235096,
      "learning_rate": 1.7922923059554486e-06,
      "loss": 0.7489,
      "step": 13231
    },
    {
      "epoch": 0.812302403388686,
      "grad_norm": 1.0405620628351224,
      "learning_rate": 1.7911566081150311e-06,
      "loss": 0.7193,
      "step": 13232
    },
    {
      "epoch": 0.8123637926271524,
      "grad_norm": 0.5919611407910191,
      "learning_rate": 1.7900212348140967e-06,
      "loss": 0.6669,
      "step": 13233
    },
    {
      "epoch": 0.812425181865619,
      "grad_norm": 1.0141971199678506,
      "learning_rate": 1.7888861860975327e-06,
      "loss": 0.7447,
      "step": 13234
    },
    {
      "epoch": 0.8124865711040855,
      "grad_norm": 1.082960514337657,
      "learning_rate": 1.7877514620102133e-06,
      "loss": 0.7239,
      "step": 13235
    },
    {
      "epoch": 0.812547960342552,
      "grad_norm": 1.0782460589451173,
      "learning_rate": 1.7866170625970013e-06,
      "loss": 0.8121,
      "step": 13236
    },
    {
      "epoch": 0.8126093495810185,
      "grad_norm": 1.0395633844717416,
      "learning_rate": 1.7854829879027435e-06,
      "loss": 0.7309,
      "step": 13237
    },
    {
      "epoch": 0.8126707388194849,
      "grad_norm": 0.9299484535612702,
      "learning_rate": 1.7843492379722816e-06,
      "loss": 0.7236,
      "step": 13238
    },
    {
      "epoch": 0.8127321280579515,
      "grad_norm": 0.9576110595588434,
      "learning_rate": 1.7832158128504328e-06,
      "loss": 0.7284,
      "step": 13239
    },
    {
      "epoch": 0.8127935172964179,
      "grad_norm": 1.0697142960113049,
      "learning_rate": 1.782082712582006e-06,
      "loss": 0.7788,
      "step": 13240
    },
    {
      "epoch": 0.8128549065348845,
      "grad_norm": 0.9756837196845236,
      "learning_rate": 1.7809499372118056e-06,
      "loss": 0.7595,
      "step": 13241
    },
    {
      "epoch": 0.8129162957733509,
      "grad_norm": 0.9453751121107151,
      "learning_rate": 1.779817486784612e-06,
      "loss": 0.7266,
      "step": 13242
    },
    {
      "epoch": 0.8129776850118174,
      "grad_norm": 0.9892181945329221,
      "learning_rate": 1.7786853613451983e-06,
      "loss": 0.7579,
      "step": 13243
    },
    {
      "epoch": 0.8130390742502839,
      "grad_norm": 1.0193782721753746,
      "learning_rate": 1.7775535609383222e-06,
      "loss": 0.7652,
      "step": 13244
    },
    {
      "epoch": 0.8131004634887504,
      "grad_norm": 0.9275168163936834,
      "learning_rate": 1.776422085608731e-06,
      "loss": 0.7638,
      "step": 13245
    },
    {
      "epoch": 0.813161852727217,
      "grad_norm": 1.0474646190431105,
      "learning_rate": 1.7752909354011582e-06,
      "loss": 0.7839,
      "step": 13246
    },
    {
      "epoch": 0.8132232419656834,
      "grad_norm": 1.0825924731410856,
      "learning_rate": 1.77416011036032e-06,
      "loss": 0.733,
      "step": 13247
    },
    {
      "epoch": 0.81328463120415,
      "grad_norm": 0.991161835771381,
      "learning_rate": 1.773029610530933e-06,
      "loss": 0.6843,
      "step": 13248
    },
    {
      "epoch": 0.8133460204426164,
      "grad_norm": 0.953307733876448,
      "learning_rate": 1.7718994359576835e-06,
      "loss": 0.7165,
      "step": 13249
    },
    {
      "epoch": 0.8134074096810829,
      "grad_norm": 1.0187461515371157,
      "learning_rate": 1.770769586685257e-06,
      "loss": 0.7232,
      "step": 13250
    },
    {
      "epoch": 0.8134687989195494,
      "grad_norm": 1.1455813064614737,
      "learning_rate": 1.7696400627583188e-06,
      "loss": 0.7373,
      "step": 13251
    },
    {
      "epoch": 0.8135301881580159,
      "grad_norm": 1.0234981933530247,
      "learning_rate": 1.768510864221531e-06,
      "loss": 0.8057,
      "step": 13252
    },
    {
      "epoch": 0.8135915773964824,
      "grad_norm": 0.9330894267968142,
      "learning_rate": 1.7673819911195356e-06,
      "loss": 0.7409,
      "step": 13253
    },
    {
      "epoch": 0.8136529666349489,
      "grad_norm": 1.0064197610172971,
      "learning_rate": 1.766253443496957e-06,
      "loss": 0.7245,
      "step": 13254
    },
    {
      "epoch": 0.8137143558734153,
      "grad_norm": 0.9468920602707315,
      "learning_rate": 1.7651252213984182e-06,
      "loss": 0.7283,
      "step": 13255
    },
    {
      "epoch": 0.8137757451118819,
      "grad_norm": 0.9851481616576285,
      "learning_rate": 1.7639973248685239e-06,
      "loss": 0.7422,
      "step": 13256
    },
    {
      "epoch": 0.8138371343503484,
      "grad_norm": 1.033202728870353,
      "learning_rate": 1.7628697539518647e-06,
      "loss": 0.7695,
      "step": 13257
    },
    {
      "epoch": 0.8138985235888149,
      "grad_norm": 1.0288410966074801,
      "learning_rate": 1.7617425086930185e-06,
      "loss": 0.753,
      "step": 13258
    },
    {
      "epoch": 0.8139599128272814,
      "grad_norm": 1.0093719508283392,
      "learning_rate": 1.7606155891365528e-06,
      "loss": 0.7857,
      "step": 13259
    },
    {
      "epoch": 0.8140213020657479,
      "grad_norm": 1.0427615196657853,
      "learning_rate": 1.759488995327019e-06,
      "loss": 0.7814,
      "step": 13260
    },
    {
      "epoch": 0.8140826913042144,
      "grad_norm": 0.9957677281841402,
      "learning_rate": 1.7583627273089576e-06,
      "loss": 0.7308,
      "step": 13261
    },
    {
      "epoch": 0.8141440805426808,
      "grad_norm": 0.9161087455567539,
      "learning_rate": 1.7572367851268989e-06,
      "loss": 0.73,
      "step": 13262
    },
    {
      "epoch": 0.8142054697811474,
      "grad_norm": 1.041467437835011,
      "learning_rate": 1.7561111688253574e-06,
      "loss": 0.7802,
      "step": 13263
    },
    {
      "epoch": 0.8142668590196138,
      "grad_norm": 0.9923978765679142,
      "learning_rate": 1.7549858784488317e-06,
      "loss": 0.7236,
      "step": 13264
    },
    {
      "epoch": 0.8143282482580804,
      "grad_norm": 1.0524644900339115,
      "learning_rate": 1.7538609140418072e-06,
      "loss": 0.7376,
      "step": 13265
    },
    {
      "epoch": 0.8143896374965468,
      "grad_norm": 1.1212032188193013,
      "learning_rate": 1.7527362756487687e-06,
      "loss": 0.7899,
      "step": 13266
    },
    {
      "epoch": 0.8144510267350134,
      "grad_norm": 1.0065050321035423,
      "learning_rate": 1.7516119633141738e-06,
      "loss": 0.7797,
      "step": 13267
    },
    {
      "epoch": 0.8145124159734799,
      "grad_norm": 0.9164165983529,
      "learning_rate": 1.7504879770824734e-06,
      "loss": 0.7333,
      "step": 13268
    },
    {
      "epoch": 0.8145738052119463,
      "grad_norm": 1.1343501250348822,
      "learning_rate": 1.7493643169981045e-06,
      "loss": 0.8067,
      "step": 13269
    },
    {
      "epoch": 0.8146351944504129,
      "grad_norm": 1.0343434892481431,
      "learning_rate": 1.7482409831054924e-06,
      "loss": 0.7169,
      "step": 13270
    },
    {
      "epoch": 0.8146965836888793,
      "grad_norm": 0.9262580832856318,
      "learning_rate": 1.7471179754490463e-06,
      "loss": 0.7132,
      "step": 13271
    },
    {
      "epoch": 0.8147579729273459,
      "grad_norm": 0.992226040560464,
      "learning_rate": 1.745995294073165e-06,
      "loss": 0.7487,
      "step": 13272
    },
    {
      "epoch": 0.8148193621658123,
      "grad_norm": 0.9336204197813687,
      "learning_rate": 1.7448729390222408e-06,
      "loss": 0.7734,
      "step": 13273
    },
    {
      "epoch": 0.8148807514042788,
      "grad_norm": 1.051250008297322,
      "learning_rate": 1.743750910340637e-06,
      "loss": 0.6911,
      "step": 13274
    },
    {
      "epoch": 0.8149421406427453,
      "grad_norm": 1.0032828828879083,
      "learning_rate": 1.7426292080727181e-06,
      "loss": 0.7116,
      "step": 13275
    },
    {
      "epoch": 0.8150035298812118,
      "grad_norm": 0.9182664644752674,
      "learning_rate": 1.7415078322628265e-06,
      "loss": 0.7377,
      "step": 13276
    },
    {
      "epoch": 0.8150649191196783,
      "grad_norm": 0.864498753751645,
      "learning_rate": 1.7403867829553035e-06,
      "loss": 0.7452,
      "step": 13277
    },
    {
      "epoch": 0.8151263083581448,
      "grad_norm": 0.9516246597211415,
      "learning_rate": 1.739266060194469e-06,
      "loss": 0.7579,
      "step": 13278
    },
    {
      "epoch": 0.8151876975966114,
      "grad_norm": 1.102111202355404,
      "learning_rate": 1.738145664024623e-06,
      "loss": 0.7013,
      "step": 13279
    },
    {
      "epoch": 0.8152490868350778,
      "grad_norm": 1.052938441838056,
      "learning_rate": 1.7370255944900682e-06,
      "loss": 0.7461,
      "step": 13280
    },
    {
      "epoch": 0.8153104760735443,
      "grad_norm": 1.0651508958140126,
      "learning_rate": 1.7359058516350868e-06,
      "loss": 0.7523,
      "step": 13281
    },
    {
      "epoch": 0.8153718653120108,
      "grad_norm": 1.103135910356648,
      "learning_rate": 1.7347864355039456e-06,
      "loss": 0.7876,
      "step": 13282
    },
    {
      "epoch": 0.8154332545504773,
      "grad_norm": 0.9856516115879048,
      "learning_rate": 1.7336673461409026e-06,
      "loss": 0.7363,
      "step": 13283
    },
    {
      "epoch": 0.8154946437889438,
      "grad_norm": 0.5767781452940596,
      "learning_rate": 1.7325485835902002e-06,
      "loss": 0.6665,
      "step": 13284
    },
    {
      "epoch": 0.8155560330274103,
      "grad_norm": 1.0512561258305384,
      "learning_rate": 1.7314301478960694e-06,
      "loss": 0.708,
      "step": 13285
    },
    {
      "epoch": 0.8156174222658767,
      "grad_norm": 1.0244297850946054,
      "learning_rate": 1.7303120391027272e-06,
      "loss": 0.686,
      "step": 13286
    },
    {
      "epoch": 0.8156788115043433,
      "grad_norm": 1.0595395708358237,
      "learning_rate": 1.7291942572543806e-06,
      "loss": 0.7537,
      "step": 13287
    },
    {
      "epoch": 0.8157402007428098,
      "grad_norm": 0.8932344720939692,
      "learning_rate": 1.7280768023952245e-06,
      "loss": 0.7126,
      "step": 13288
    },
    {
      "epoch": 0.8158015899812763,
      "grad_norm": 1.1078200940436975,
      "learning_rate": 1.7269596745694295e-06,
      "loss": 0.7745,
      "step": 13289
    },
    {
      "epoch": 0.8158629792197428,
      "grad_norm": 0.9844085067920422,
      "learning_rate": 1.7258428738211642e-06,
      "loss": 0.7073,
      "step": 13290
    },
    {
      "epoch": 0.8159243684582093,
      "grad_norm": 1.0366391103059176,
      "learning_rate": 1.7247264001945862e-06,
      "loss": 0.7727,
      "step": 13291
    },
    {
      "epoch": 0.8159857576966758,
      "grad_norm": 0.9334556229442569,
      "learning_rate": 1.7236102537338328e-06,
      "loss": 0.765,
      "step": 13292
    },
    {
      "epoch": 0.8160471469351422,
      "grad_norm": 0.9976377402968308,
      "learning_rate": 1.7224944344830309e-06,
      "loss": 0.772,
      "step": 13293
    },
    {
      "epoch": 0.8161085361736088,
      "grad_norm": 0.9940764305852432,
      "learning_rate": 1.7213789424862947e-06,
      "loss": 0.7687,
      "step": 13294
    },
    {
      "epoch": 0.8161699254120752,
      "grad_norm": 0.9842655231474607,
      "learning_rate": 1.7202637777877274e-06,
      "loss": 0.7352,
      "step": 13295
    },
    {
      "epoch": 0.8162313146505418,
      "grad_norm": 0.9961661151681601,
      "learning_rate": 1.7191489404314155e-06,
      "loss": 0.7095,
      "step": 13296
    },
    {
      "epoch": 0.8162927038890082,
      "grad_norm": 1.0684711119601213,
      "learning_rate": 1.7180344304614348e-06,
      "loss": 0.7509,
      "step": 13297
    },
    {
      "epoch": 0.8163540931274748,
      "grad_norm": 1.0627437841380085,
      "learning_rate": 1.7169202479218483e-06,
      "loss": 0.7363,
      "step": 13298
    },
    {
      "epoch": 0.8164154823659413,
      "grad_norm": 1.0647276974070625,
      "learning_rate": 1.715806392856706e-06,
      "loss": 0.8047,
      "step": 13299
    },
    {
      "epoch": 0.8164768716044077,
      "grad_norm": 1.0370722084922084,
      "learning_rate": 1.7146928653100402e-06,
      "loss": 0.6885,
      "step": 13300
    },
    {
      "epoch": 0.8165382608428743,
      "grad_norm": 0.9933355586901809,
      "learning_rate": 1.7135796653258818e-06,
      "loss": 0.7295,
      "step": 13301
    },
    {
      "epoch": 0.8165996500813407,
      "grad_norm": 0.9117866101828414,
      "learning_rate": 1.7124667929482408e-06,
      "loss": 0.6997,
      "step": 13302
    },
    {
      "epoch": 0.8166610393198073,
      "grad_norm": 1.0201787449720103,
      "learning_rate": 1.7113542482211098e-06,
      "loss": 0.7621,
      "step": 13303
    },
    {
      "epoch": 0.8167224285582737,
      "grad_norm": 0.9142402846679437,
      "learning_rate": 1.7102420311884727e-06,
      "loss": 0.7392,
      "step": 13304
    },
    {
      "epoch": 0.8167838177967403,
      "grad_norm": 1.1095926205014917,
      "learning_rate": 1.7091301418943084e-06,
      "loss": 0.7434,
      "step": 13305
    },
    {
      "epoch": 0.8168452070352067,
      "grad_norm": 1.0379569586753046,
      "learning_rate": 1.7080185803825722e-06,
      "loss": 0.7181,
      "step": 13306
    },
    {
      "epoch": 0.8169065962736732,
      "grad_norm": 0.9773542758774297,
      "learning_rate": 1.7069073466972096e-06,
      "loss": 0.7238,
      "step": 13307
    },
    {
      "epoch": 0.8169679855121397,
      "grad_norm": 1.0223801163686286,
      "learning_rate": 1.7057964408821537e-06,
      "loss": 0.7462,
      "step": 13308
    },
    {
      "epoch": 0.8170293747506062,
      "grad_norm": 1.051076662252209,
      "learning_rate": 1.7046858629813257e-06,
      "loss": 0.7202,
      "step": 13309
    },
    {
      "epoch": 0.8170907639890728,
      "grad_norm": 0.9170834173870476,
      "learning_rate": 1.7035756130386328e-06,
      "loss": 0.7379,
      "step": 13310
    },
    {
      "epoch": 0.8171521532275392,
      "grad_norm": 1.0631386431827026,
      "learning_rate": 1.7024656910979642e-06,
      "loss": 0.7563,
      "step": 13311
    },
    {
      "epoch": 0.8172135424660057,
      "grad_norm": 0.9880831801668952,
      "learning_rate": 1.7013560972032117e-06,
      "loss": 0.7438,
      "step": 13312
    },
    {
      "epoch": 0.8172749317044722,
      "grad_norm": 1.0895709450848932,
      "learning_rate": 1.7002468313982334e-06,
      "loss": 0.6719,
      "step": 13313
    },
    {
      "epoch": 0.8173363209429387,
      "grad_norm": 1.0168855199211932,
      "learning_rate": 1.6991378937268888e-06,
      "loss": 0.7508,
      "step": 13314
    },
    {
      "epoch": 0.8173977101814052,
      "grad_norm": 1.060808231658346,
      "learning_rate": 1.698029284233016e-06,
      "loss": 0.751,
      "step": 13315
    },
    {
      "epoch": 0.8174590994198717,
      "grad_norm": 0.9354734135878816,
      "learning_rate": 1.696921002960451e-06,
      "loss": 0.7471,
      "step": 13316
    },
    {
      "epoch": 0.8175204886583382,
      "grad_norm": 1.016049295600617,
      "learning_rate": 1.695813049953009e-06,
      "loss": 0.7277,
      "step": 13317
    },
    {
      "epoch": 0.8175818778968047,
      "grad_norm": 0.9388861478640596,
      "learning_rate": 1.694705425254486e-06,
      "loss": 0.7899,
      "step": 13318
    },
    {
      "epoch": 0.8176432671352711,
      "grad_norm": 0.9876259170048253,
      "learning_rate": 1.693598128908679e-06,
      "loss": 0.7365,
      "step": 13319
    },
    {
      "epoch": 0.8177046563737377,
      "grad_norm": 1.0505410284386438,
      "learning_rate": 1.6924911609593652e-06,
      "loss": 0.7461,
      "step": 13320
    },
    {
      "epoch": 0.8177660456122042,
      "grad_norm": 0.9956094103351394,
      "learning_rate": 1.6913845214503065e-06,
      "loss": 0.7243,
      "step": 13321
    },
    {
      "epoch": 0.8178274348506707,
      "grad_norm": 1.1656845325263752,
      "learning_rate": 1.6902782104252557e-06,
      "loss": 0.7608,
      "step": 13322
    },
    {
      "epoch": 0.8178888240891372,
      "grad_norm": 0.9934426811571327,
      "learning_rate": 1.6891722279279498e-06,
      "loss": 0.7357,
      "step": 13323
    },
    {
      "epoch": 0.8179502133276036,
      "grad_norm": 1.046679143528713,
      "learning_rate": 1.6880665740021162e-06,
      "loss": 0.7367,
      "step": 13324
    },
    {
      "epoch": 0.8180116025660702,
      "grad_norm": 0.9280322447618321,
      "learning_rate": 1.6869612486914645e-06,
      "loss": 0.6885,
      "step": 13325
    },
    {
      "epoch": 0.8180729918045366,
      "grad_norm": 1.0059040115128652,
      "learning_rate": 1.685856252039697e-06,
      "loss": 0.7703,
      "step": 13326
    },
    {
      "epoch": 0.8181343810430032,
      "grad_norm": 0.9994760724732775,
      "learning_rate": 1.6847515840905015e-06,
      "loss": 0.7943,
      "step": 13327
    },
    {
      "epoch": 0.8181957702814696,
      "grad_norm": 1.1796516461713344,
      "learning_rate": 1.6836472448875473e-06,
      "loss": 0.7297,
      "step": 13328
    },
    {
      "epoch": 0.8182571595199362,
      "grad_norm": 0.9244305780601285,
      "learning_rate": 1.682543234474494e-06,
      "loss": 0.7189,
      "step": 13329
    },
    {
      "epoch": 0.8183185487584026,
      "grad_norm": 1.1008902237233487,
      "learning_rate": 1.6814395528949935e-06,
      "loss": 0.7333,
      "step": 13330
    },
    {
      "epoch": 0.8183799379968691,
      "grad_norm": 0.950968645438772,
      "learning_rate": 1.6803362001926782e-06,
      "loss": 0.7641,
      "step": 13331
    },
    {
      "epoch": 0.8184413272353357,
      "grad_norm": 1.1396654176392869,
      "learning_rate": 1.6792331764111701e-06,
      "loss": 0.7746,
      "step": 13332
    },
    {
      "epoch": 0.8185027164738021,
      "grad_norm": 1.0359794491014163,
      "learning_rate": 1.678130481594077e-06,
      "loss": 0.7285,
      "step": 13333
    },
    {
      "epoch": 0.8185641057122687,
      "grad_norm": 0.9903317291292886,
      "learning_rate": 1.6770281157849944e-06,
      "loss": 0.7284,
      "step": 13334
    },
    {
      "epoch": 0.8186254949507351,
      "grad_norm": 1.1413380311359966,
      "learning_rate": 1.6759260790275044e-06,
      "loss": 0.7669,
      "step": 13335
    },
    {
      "epoch": 0.8186868841892017,
      "grad_norm": 1.072217831781072,
      "learning_rate": 1.6748243713651746e-06,
      "loss": 0.7392,
      "step": 13336
    },
    {
      "epoch": 0.8187482734276681,
      "grad_norm": 1.0524447415318308,
      "learning_rate": 1.6737229928415676e-06,
      "loss": 0.753,
      "step": 13337
    },
    {
      "epoch": 0.8188096626661346,
      "grad_norm": 1.1961317142741499,
      "learning_rate": 1.6726219435002223e-06,
      "loss": 0.732,
      "step": 13338
    },
    {
      "epoch": 0.8188710519046011,
      "grad_norm": 0.9823168693064702,
      "learning_rate": 1.6715212233846656e-06,
      "loss": 0.7802,
      "step": 13339
    },
    {
      "epoch": 0.8189324411430676,
      "grad_norm": 1.0871032662558957,
      "learning_rate": 1.6704208325384208e-06,
      "loss": 0.7326,
      "step": 13340
    },
    {
      "epoch": 0.8189938303815342,
      "grad_norm": 0.997398962493452,
      "learning_rate": 1.669320771004992e-06,
      "loss": 0.8108,
      "step": 13341
    },
    {
      "epoch": 0.8190552196200006,
      "grad_norm": 1.0804492678686153,
      "learning_rate": 1.6682210388278697e-06,
      "loss": 0.7679,
      "step": 13342
    },
    {
      "epoch": 0.8191166088584672,
      "grad_norm": 1.1433711995530542,
      "learning_rate": 1.6671216360505272e-06,
      "loss": 0.7277,
      "step": 13343
    },
    {
      "epoch": 0.8191779980969336,
      "grad_norm": 0.8799989937046783,
      "learning_rate": 1.666022562716435e-06,
      "loss": 0.7467,
      "step": 13344
    },
    {
      "epoch": 0.8192393873354001,
      "grad_norm": 1.0285372420257233,
      "learning_rate": 1.6649238188690454e-06,
      "loss": 0.7251,
      "step": 13345
    },
    {
      "epoch": 0.8193007765738666,
      "grad_norm": 0.9825793220779018,
      "learning_rate": 1.6638254045517955e-06,
      "loss": 0.748,
      "step": 13346
    },
    {
      "epoch": 0.8193621658123331,
      "grad_norm": 0.9522522713915428,
      "learning_rate": 1.662727319808113e-06,
      "loss": 0.7275,
      "step": 13347
    },
    {
      "epoch": 0.8194235550507996,
      "grad_norm": 0.918503097002765,
      "learning_rate": 1.6616295646814096e-06,
      "loss": 0.7498,
      "step": 13348
    },
    {
      "epoch": 0.8194849442892661,
      "grad_norm": 0.892289538603166,
      "learning_rate": 1.6605321392150875e-06,
      "loss": 0.7405,
      "step": 13349
    },
    {
      "epoch": 0.8195463335277325,
      "grad_norm": 1.0100778908750354,
      "learning_rate": 1.6594350434525298e-06,
      "loss": 0.7544,
      "step": 13350
    },
    {
      "epoch": 0.8196077227661991,
      "grad_norm": 1.043066329403579,
      "learning_rate": 1.6583382774371149e-06,
      "loss": 0.7339,
      "step": 13351
    },
    {
      "epoch": 0.8196691120046656,
      "grad_norm": 1.0863086226819587,
      "learning_rate": 1.6572418412122049e-06,
      "loss": 0.7381,
      "step": 13352
    },
    {
      "epoch": 0.8197305012431321,
      "grad_norm": 1.1128667318869736,
      "learning_rate": 1.656145734821143e-06,
      "loss": 0.7779,
      "step": 13353
    },
    {
      "epoch": 0.8197918904815986,
      "grad_norm": 1.0564397676383896,
      "learning_rate": 1.6550499583072644e-06,
      "loss": 0.7227,
      "step": 13354
    },
    {
      "epoch": 0.819853279720065,
      "grad_norm": 1.068318819541589,
      "learning_rate": 1.6539545117138944e-06,
      "loss": 0.7021,
      "step": 13355
    },
    {
      "epoch": 0.8199146689585316,
      "grad_norm": 1.1765839250143149,
      "learning_rate": 1.6528593950843408e-06,
      "loss": 0.7262,
      "step": 13356
    },
    {
      "epoch": 0.819976058196998,
      "grad_norm": 1.0192568862013676,
      "learning_rate": 1.6517646084618989e-06,
      "loss": 0.7016,
      "step": 13357
    },
    {
      "epoch": 0.8200374474354646,
      "grad_norm": 1.1797465434483985,
      "learning_rate": 1.6506701518898504e-06,
      "loss": 0.7655,
      "step": 13358
    },
    {
      "epoch": 0.820098836673931,
      "grad_norm": 1.0673472742775063,
      "learning_rate": 1.6495760254114679e-06,
      "loss": 0.8075,
      "step": 13359
    },
    {
      "epoch": 0.8201602259123976,
      "grad_norm": 1.0232592261214648,
      "learning_rate": 1.6484822290700054e-06,
      "loss": 0.7774,
      "step": 13360
    },
    {
      "epoch": 0.820221615150864,
      "grad_norm": 1.0260200001724935,
      "learning_rate": 1.647388762908707e-06,
      "loss": 0.8114,
      "step": 13361
    },
    {
      "epoch": 0.8202830043893306,
      "grad_norm": 1.1232992421976922,
      "learning_rate": 1.6462956269708052e-06,
      "loss": 0.7037,
      "step": 13362
    },
    {
      "epoch": 0.8203443936277971,
      "grad_norm": 1.1142133515234642,
      "learning_rate": 1.6452028212995152e-06,
      "loss": 0.7931,
      "step": 13363
    },
    {
      "epoch": 0.8204057828662635,
      "grad_norm": 1.013874376769988,
      "learning_rate": 1.6441103459380392e-06,
      "loss": 0.7753,
      "step": 13364
    },
    {
      "epoch": 0.8204671721047301,
      "grad_norm": 1.1802734820211,
      "learning_rate": 1.6430182009295748e-06,
      "loss": 0.7457,
      "step": 13365
    },
    {
      "epoch": 0.8205285613431965,
      "grad_norm": 0.8975035464274057,
      "learning_rate": 1.6419263863172997e-06,
      "loss": 0.7413,
      "step": 13366
    },
    {
      "epoch": 0.8205899505816631,
      "grad_norm": 1.0947024871013928,
      "learning_rate": 1.6408349021443736e-06,
      "loss": 0.7406,
      "step": 13367
    },
    {
      "epoch": 0.8206513398201295,
      "grad_norm": 1.0272794557050355,
      "learning_rate": 1.6397437484539502e-06,
      "loss": 0.7424,
      "step": 13368
    },
    {
      "epoch": 0.820712729058596,
      "grad_norm": 1.0175077008640259,
      "learning_rate": 1.6386529252891725e-06,
      "loss": 0.7152,
      "step": 13369
    },
    {
      "epoch": 0.8207741182970625,
      "grad_norm": 0.9759798112065089,
      "learning_rate": 1.6375624326931638e-06,
      "loss": 0.7274,
      "step": 13370
    },
    {
      "epoch": 0.820835507535529,
      "grad_norm": 1.020893739667823,
      "learning_rate": 1.6364722707090374e-06,
      "loss": 0.7024,
      "step": 13371
    },
    {
      "epoch": 0.8208968967739955,
      "grad_norm": 1.023425692754284,
      "learning_rate": 1.6353824393798945e-06,
      "loss": 0.78,
      "step": 13372
    },
    {
      "epoch": 0.820958286012462,
      "grad_norm": 1.1401265405880172,
      "learning_rate": 1.6342929387488205e-06,
      "loss": 0.7618,
      "step": 13373
    },
    {
      "epoch": 0.8210196752509286,
      "grad_norm": 0.9670297196026247,
      "learning_rate": 1.6332037688588887e-06,
      "loss": 0.7279,
      "step": 13374
    },
    {
      "epoch": 0.821081064489395,
      "grad_norm": 1.0492490384144155,
      "learning_rate": 1.632114929753159e-06,
      "loss": 0.7079,
      "step": 13375
    },
    {
      "epoch": 0.8211424537278615,
      "grad_norm": 0.9968291165392804,
      "learning_rate": 1.631026421474685e-06,
      "loss": 0.7414,
      "step": 13376
    },
    {
      "epoch": 0.821203842966328,
      "grad_norm": 1.145734060909856,
      "learning_rate": 1.6299382440664958e-06,
      "loss": 0.7301,
      "step": 13377
    },
    {
      "epoch": 0.8212652322047945,
      "grad_norm": 1.114856263991154,
      "learning_rate": 1.6288503975716108e-06,
      "loss": 0.7348,
      "step": 13378
    },
    {
      "epoch": 0.821326621443261,
      "grad_norm": 1.0812383893529893,
      "learning_rate": 1.6277628820330437e-06,
      "loss": 0.7542,
      "step": 13379
    },
    {
      "epoch": 0.8213880106817275,
      "grad_norm": 0.9817676668384796,
      "learning_rate": 1.626675697493788e-06,
      "loss": 0.692,
      "step": 13380
    },
    {
      "epoch": 0.821449399920194,
      "grad_norm": 1.0034784242405337,
      "learning_rate": 1.6255888439968282e-06,
      "loss": 0.7241,
      "step": 13381
    },
    {
      "epoch": 0.8215107891586605,
      "grad_norm": 0.9717147400524011,
      "learning_rate": 1.6245023215851263e-06,
      "loss": 0.7314,
      "step": 13382
    },
    {
      "epoch": 0.8215721783971269,
      "grad_norm": 0.9964212710031137,
      "learning_rate": 1.623416130301645e-06,
      "loss": 0.7239,
      "step": 13383
    },
    {
      "epoch": 0.8216335676355935,
      "grad_norm": 1.028892738285302,
      "learning_rate": 1.622330270189325e-06,
      "loss": 0.7181,
      "step": 13384
    },
    {
      "epoch": 0.82169495687406,
      "grad_norm": 1.1102337019323325,
      "learning_rate": 1.621244741291097e-06,
      "loss": 0.7842,
      "step": 13385
    },
    {
      "epoch": 0.8217563461125265,
      "grad_norm": 1.0567944213352563,
      "learning_rate": 1.6201595436498774e-06,
      "loss": 0.7567,
      "step": 13386
    },
    {
      "epoch": 0.821817735350993,
      "grad_norm": 1.0307503924145027,
      "learning_rate": 1.6190746773085686e-06,
      "loss": 0.7402,
      "step": 13387
    },
    {
      "epoch": 0.8218791245894594,
      "grad_norm": 0.9783103449214134,
      "learning_rate": 1.617990142310062e-06,
      "loss": 0.7606,
      "step": 13388
    },
    {
      "epoch": 0.821940513827926,
      "grad_norm": 1.110112491896161,
      "learning_rate": 1.6169059386972342e-06,
      "loss": 0.7847,
      "step": 13389
    },
    {
      "epoch": 0.8220019030663924,
      "grad_norm": 1.082630010106575,
      "learning_rate": 1.615822066512952e-06,
      "loss": 0.7527,
      "step": 13390
    },
    {
      "epoch": 0.822063292304859,
      "grad_norm": 0.6141396779610718,
      "learning_rate": 1.614738525800067e-06,
      "loss": 0.6704,
      "step": 13391
    },
    {
      "epoch": 0.8221246815433254,
      "grad_norm": 0.9367504111851714,
      "learning_rate": 1.6136553166014146e-06,
      "loss": 0.7189,
      "step": 13392
    },
    {
      "epoch": 0.822186070781792,
      "grad_norm": 0.9224354701346864,
      "learning_rate": 1.6125724389598175e-06,
      "loss": 0.7255,
      "step": 13393
    },
    {
      "epoch": 0.8222474600202585,
      "grad_norm": 0.9893926214009063,
      "learning_rate": 1.6114898929180934e-06,
      "loss": 0.7503,
      "step": 13394
    },
    {
      "epoch": 0.8223088492587249,
      "grad_norm": 0.9679660982570667,
      "learning_rate": 1.6104076785190393e-06,
      "loss": 0.7639,
      "step": 13395
    },
    {
      "epoch": 0.8223702384971915,
      "grad_norm": 0.9978924243570405,
      "learning_rate": 1.6093257958054399e-06,
      "loss": 0.7399,
      "step": 13396
    },
    {
      "epoch": 0.8224316277356579,
      "grad_norm": 1.0598299914035156,
      "learning_rate": 1.6082442448200686e-06,
      "loss": 0.7648,
      "step": 13397
    },
    {
      "epoch": 0.8224930169741245,
      "grad_norm": 0.9829375642398878,
      "learning_rate": 1.6071630256056847e-06,
      "loss": 0.727,
      "step": 13398
    },
    {
      "epoch": 0.8225544062125909,
      "grad_norm": 0.9777848634214474,
      "learning_rate": 1.606082138205034e-06,
      "loss": 0.6944,
      "step": 13399
    },
    {
      "epoch": 0.8226157954510575,
      "grad_norm": 1.0743026689042625,
      "learning_rate": 1.6050015826608478e-06,
      "loss": 0.7544,
      "step": 13400
    },
    {
      "epoch": 0.8226771846895239,
      "grad_norm": 1.0096204614483528,
      "learning_rate": 1.6039213590158542e-06,
      "loss": 0.7481,
      "step": 13401
    },
    {
      "epoch": 0.8227385739279904,
      "grad_norm": 1.037957930107394,
      "learning_rate": 1.6028414673127514e-06,
      "loss": 0.7735,
      "step": 13402
    },
    {
      "epoch": 0.8227999631664569,
      "grad_norm": 0.9802324292863733,
      "learning_rate": 1.6017619075942347e-06,
      "loss": 0.7516,
      "step": 13403
    },
    {
      "epoch": 0.8228613524049234,
      "grad_norm": 1.0972671785079446,
      "learning_rate": 1.6006826799029885e-06,
      "loss": 0.7779,
      "step": 13404
    },
    {
      "epoch": 0.82292274164339,
      "grad_norm": 0.9499500836702273,
      "learning_rate": 1.5996037842816792e-06,
      "loss": 0.7639,
      "step": 13405
    },
    {
      "epoch": 0.8229841308818564,
      "grad_norm": 0.9883706914896458,
      "learning_rate": 1.598525220772963e-06,
      "loss": 0.7389,
      "step": 13406
    },
    {
      "epoch": 0.823045520120323,
      "grad_norm": 1.0662495264135006,
      "learning_rate": 1.5974469894194745e-06,
      "loss": 0.7831,
      "step": 13407
    },
    {
      "epoch": 0.8231069093587894,
      "grad_norm": 1.0526714853655887,
      "learning_rate": 1.5963690902638484e-06,
      "loss": 0.7463,
      "step": 13408
    },
    {
      "epoch": 0.8231682985972559,
      "grad_norm": 1.1175385791589214,
      "learning_rate": 1.5952915233486987e-06,
      "loss": 0.747,
      "step": 13409
    },
    {
      "epoch": 0.8232296878357224,
      "grad_norm": 1.062117521372893,
      "learning_rate": 1.5942142887166268e-06,
      "loss": 0.753,
      "step": 13410
    },
    {
      "epoch": 0.8232910770741889,
      "grad_norm": 1.0600910249201814,
      "learning_rate": 1.5931373864102207e-06,
      "loss": 0.7134,
      "step": 13411
    },
    {
      "epoch": 0.8233524663126554,
      "grad_norm": 0.9786803652399498,
      "learning_rate": 1.5920608164720563e-06,
      "loss": 0.7583,
      "step": 13412
    },
    {
      "epoch": 0.8234138555511219,
      "grad_norm": 1.0075104182733954,
      "learning_rate": 1.5909845789446976e-06,
      "loss": 0.7392,
      "step": 13413
    },
    {
      "epoch": 0.8234752447895883,
      "grad_norm": 1.0235447591976088,
      "learning_rate": 1.5899086738706904e-06,
      "loss": 0.7244,
      "step": 13414
    },
    {
      "epoch": 0.8235366340280549,
      "grad_norm": 0.9268259102033841,
      "learning_rate": 1.5888331012925762e-06,
      "loss": 0.735,
      "step": 13415
    },
    {
      "epoch": 0.8235980232665214,
      "grad_norm": 0.9003112290764335,
      "learning_rate": 1.5877578612528777e-06,
      "loss": 0.7337,
      "step": 13416
    },
    {
      "epoch": 0.8236594125049879,
      "grad_norm": 1.0323367306102886,
      "learning_rate": 1.5866829537940975e-06,
      "loss": 0.7735,
      "step": 13417
    },
    {
      "epoch": 0.8237208017434544,
      "grad_norm": 1.0644139780449104,
      "learning_rate": 1.5856083789587407e-06,
      "loss": 0.7064,
      "step": 13418
    },
    {
      "epoch": 0.8237821909819208,
      "grad_norm": 1.0528861941987653,
      "learning_rate": 1.5845341367892875e-06,
      "loss": 0.753,
      "step": 13419
    },
    {
      "epoch": 0.8238435802203874,
      "grad_norm": 1.009491571871034,
      "learning_rate": 1.5834602273282096e-06,
      "loss": 0.7051,
      "step": 13420
    },
    {
      "epoch": 0.8239049694588538,
      "grad_norm": 0.9521029886806472,
      "learning_rate": 1.582386650617963e-06,
      "loss": 0.7685,
      "step": 13421
    },
    {
      "epoch": 0.8239663586973204,
      "grad_norm": 1.04179262923348,
      "learning_rate": 1.5813134067009938e-06,
      "loss": 0.7402,
      "step": 13422
    },
    {
      "epoch": 0.8240277479357868,
      "grad_norm": 0.9525994650275684,
      "learning_rate": 1.5802404956197314e-06,
      "loss": 0.7446,
      "step": 13423
    },
    {
      "epoch": 0.8240891371742534,
      "grad_norm": 1.0539722997053769,
      "learning_rate": 1.5791679174165941e-06,
      "loss": 0.7447,
      "step": 13424
    },
    {
      "epoch": 0.8241505264127198,
      "grad_norm": 1.0871111738332715,
      "learning_rate": 1.5780956721339847e-06,
      "loss": 0.7727,
      "step": 13425
    },
    {
      "epoch": 0.8242119156511863,
      "grad_norm": 1.0635732402959395,
      "learning_rate": 1.5770237598143013e-06,
      "loss": 0.7774,
      "step": 13426
    },
    {
      "epoch": 0.8242733048896529,
      "grad_norm": 0.9713248045746083,
      "learning_rate": 1.5759521804999157e-06,
      "loss": 0.7641,
      "step": 13427
    },
    {
      "epoch": 0.8243346941281193,
      "grad_norm": 0.981757904262295,
      "learning_rate": 1.5748809342331929e-06,
      "loss": 0.7451,
      "step": 13428
    },
    {
      "epoch": 0.8243960833665859,
      "grad_norm": 1.021682959395642,
      "learning_rate": 1.57381002105649e-06,
      "loss": 0.7782,
      "step": 13429
    },
    {
      "epoch": 0.8244574726050523,
      "grad_norm": 1.1432311413032847,
      "learning_rate": 1.5727394410121454e-06,
      "loss": 0.7326,
      "step": 13430
    },
    {
      "epoch": 0.8245188618435189,
      "grad_norm": 1.1232295386273858,
      "learning_rate": 1.571669194142481e-06,
      "loss": 0.7101,
      "step": 13431
    },
    {
      "epoch": 0.8245802510819853,
      "grad_norm": 1.1114902826881734,
      "learning_rate": 1.5705992804898084e-06,
      "loss": 0.7891,
      "step": 13432
    },
    {
      "epoch": 0.8246416403204518,
      "grad_norm": 1.033273596227923,
      "learning_rate": 1.5695297000964327e-06,
      "loss": 0.7375,
      "step": 13433
    },
    {
      "epoch": 0.8247030295589183,
      "grad_norm": 0.9971016133136821,
      "learning_rate": 1.5684604530046366e-06,
      "loss": 0.7662,
      "step": 13434
    },
    {
      "epoch": 0.8247644187973848,
      "grad_norm": 0.9360240794317204,
      "learning_rate": 1.5673915392566941e-06,
      "loss": 0.7131,
      "step": 13435
    },
    {
      "epoch": 0.8248258080358513,
      "grad_norm": 1.0595004918974589,
      "learning_rate": 1.5663229588948647e-06,
      "loss": 0.7205,
      "step": 13436
    },
    {
      "epoch": 0.8248871972743178,
      "grad_norm": 1.0664948498236502,
      "learning_rate": 1.565254711961396e-06,
      "loss": 0.7337,
      "step": 13437
    },
    {
      "epoch": 0.8249485865127844,
      "grad_norm": 1.0060197324328846,
      "learning_rate": 1.5641867984985204e-06,
      "loss": 0.7193,
      "step": 13438
    },
    {
      "epoch": 0.8250099757512508,
      "grad_norm": 0.9950284371542429,
      "learning_rate": 1.5631192185484557e-06,
      "loss": 0.755,
      "step": 13439
    },
    {
      "epoch": 0.8250713649897173,
      "grad_norm": 0.8963602709941768,
      "learning_rate": 1.5620519721534166e-06,
      "loss": 0.7341,
      "step": 13440
    },
    {
      "epoch": 0.8251327542281838,
      "grad_norm": 1.036457167607381,
      "learning_rate": 1.5609850593555909e-06,
      "loss": 0.7195,
      "step": 13441
    },
    {
      "epoch": 0.8251941434666503,
      "grad_norm": 1.0456244281358165,
      "learning_rate": 1.559918480197158e-06,
      "loss": 0.7839,
      "step": 13442
    },
    {
      "epoch": 0.8252555327051168,
      "grad_norm": 1.0909087108931126,
      "learning_rate": 1.5588522347202905e-06,
      "loss": 0.7532,
      "step": 13443
    },
    {
      "epoch": 0.8253169219435833,
      "grad_norm": 1.0704002431041217,
      "learning_rate": 1.5577863229671408e-06,
      "loss": 0.7359,
      "step": 13444
    },
    {
      "epoch": 0.8253783111820497,
      "grad_norm": 0.8684440022885245,
      "learning_rate": 1.5567207449798517e-06,
      "loss": 0.6992,
      "step": 13445
    },
    {
      "epoch": 0.8254397004205163,
      "grad_norm": 0.9023855710283828,
      "learning_rate": 1.5556555008005447e-06,
      "loss": 0.7513,
      "step": 13446
    },
    {
      "epoch": 0.8255010896589828,
      "grad_norm": 1.021693336303724,
      "learning_rate": 1.5545905904713421e-06,
      "loss": 0.696,
      "step": 13447
    },
    {
      "epoch": 0.8255624788974493,
      "grad_norm": 1.0194116571254088,
      "learning_rate": 1.5535260140343433e-06,
      "loss": 0.7029,
      "step": 13448
    },
    {
      "epoch": 0.8256238681359158,
      "grad_norm": 1.0192542007331322,
      "learning_rate": 1.5524617715316348e-06,
      "loss": 0.7817,
      "step": 13449
    },
    {
      "epoch": 0.8256852573743823,
      "grad_norm": 0.9796103649715413,
      "learning_rate": 1.551397863005294e-06,
      "loss": 0.7707,
      "step": 13450
    },
    {
      "epoch": 0.8257466466128488,
      "grad_norm": 0.9769827072234646,
      "learning_rate": 1.5503342884973816e-06,
      "loss": 0.7493,
      "step": 13451
    },
    {
      "epoch": 0.8258080358513152,
      "grad_norm": 0.9586161861030021,
      "learning_rate": 1.5492710480499463e-06,
      "loss": 0.7276,
      "step": 13452
    },
    {
      "epoch": 0.8258694250897818,
      "grad_norm": 0.9872820337278974,
      "learning_rate": 1.548208141705022e-06,
      "loss": 0.7601,
      "step": 13453
    },
    {
      "epoch": 0.8259308143282482,
      "grad_norm": 1.0618363492803526,
      "learning_rate": 1.5471455695046366e-06,
      "loss": 0.732,
      "step": 13454
    },
    {
      "epoch": 0.8259922035667148,
      "grad_norm": 1.0362895234581095,
      "learning_rate": 1.5460833314907975e-06,
      "loss": 0.7493,
      "step": 13455
    },
    {
      "epoch": 0.8260535928051812,
      "grad_norm": 0.9771118106464722,
      "learning_rate": 1.5450214277054943e-06,
      "loss": 0.7191,
      "step": 13456
    },
    {
      "epoch": 0.8261149820436477,
      "grad_norm": 1.10850789156796,
      "learning_rate": 1.5439598581907167e-06,
      "loss": 0.7656,
      "step": 13457
    },
    {
      "epoch": 0.8261763712821143,
      "grad_norm": 0.901712076711061,
      "learning_rate": 1.5428986229884323e-06,
      "loss": 0.7345,
      "step": 13458
    },
    {
      "epoch": 0.8262377605205807,
      "grad_norm": 0.9998552257699873,
      "learning_rate": 1.5418377221405967e-06,
      "loss": 0.7886,
      "step": 13459
    },
    {
      "epoch": 0.8262991497590473,
      "grad_norm": 1.0100419471806785,
      "learning_rate": 1.5407771556891538e-06,
      "loss": 0.7428,
      "step": 13460
    },
    {
      "epoch": 0.8263605389975137,
      "grad_norm": 0.9778422300363374,
      "learning_rate": 1.5397169236760324e-06,
      "loss": 0.7611,
      "step": 13461
    },
    {
      "epoch": 0.8264219282359803,
      "grad_norm": 1.138964836418063,
      "learning_rate": 1.538657026143151e-06,
      "loss": 0.7319,
      "step": 13462
    },
    {
      "epoch": 0.8264833174744467,
      "grad_norm": 0.9630352999073549,
      "learning_rate": 1.5375974631324108e-06,
      "loss": 0.7291,
      "step": 13463
    },
    {
      "epoch": 0.8265447067129132,
      "grad_norm": 0.9753535646845346,
      "learning_rate": 1.5365382346857005e-06,
      "loss": 0.6995,
      "step": 13464
    },
    {
      "epoch": 0.8266060959513797,
      "grad_norm": 1.0582043596424404,
      "learning_rate": 1.5354793408449043e-06,
      "loss": 0.7146,
      "step": 13465
    },
    {
      "epoch": 0.8266674851898462,
      "grad_norm": 1.0723141769909441,
      "learning_rate": 1.5344207816518797e-06,
      "loss": 0.7694,
      "step": 13466
    },
    {
      "epoch": 0.8267288744283127,
      "grad_norm": 1.0565985249896932,
      "learning_rate": 1.5333625571484756e-06,
      "loss": 0.7443,
      "step": 13467
    },
    {
      "epoch": 0.8267902636667792,
      "grad_norm": 0.9283380691720935,
      "learning_rate": 1.5323046673765352e-06,
      "loss": 0.7504,
      "step": 13468
    },
    {
      "epoch": 0.8268516529052458,
      "grad_norm": 1.0287430652885041,
      "learning_rate": 1.5312471123778795e-06,
      "loss": 0.7594,
      "step": 13469
    },
    {
      "epoch": 0.8269130421437122,
      "grad_norm": 1.0162923913099209,
      "learning_rate": 1.5301898921943214e-06,
      "loss": 0.7762,
      "step": 13470
    },
    {
      "epoch": 0.8269744313821787,
      "grad_norm": 1.0938368773904175,
      "learning_rate": 1.5291330068676525e-06,
      "loss": 0.7726,
      "step": 13471
    },
    {
      "epoch": 0.8270358206206452,
      "grad_norm": 1.171048695478072,
      "learning_rate": 1.5280764564396632e-06,
      "loss": 0.7515,
      "step": 13472
    },
    {
      "epoch": 0.8270972098591117,
      "grad_norm": 1.0554683517426662,
      "learning_rate": 1.527020240952123e-06,
      "loss": 0.7305,
      "step": 13473
    },
    {
      "epoch": 0.8271585990975782,
      "grad_norm": 1.1155133554986543,
      "learning_rate": 1.5259643604467889e-06,
      "loss": 0.7743,
      "step": 13474
    },
    {
      "epoch": 0.8272199883360447,
      "grad_norm": 0.9760580993408922,
      "learning_rate": 1.5249088149654069e-06,
      "loss": 0.7644,
      "step": 13475
    },
    {
      "epoch": 0.8272813775745111,
      "grad_norm": 1.154186575917734,
      "learning_rate": 1.5238536045497066e-06,
      "loss": 0.7155,
      "step": 13476
    },
    {
      "epoch": 0.8273427668129777,
      "grad_norm": 1.0918109915015088,
      "learning_rate": 1.5227987292414071e-06,
      "loss": 0.7262,
      "step": 13477
    },
    {
      "epoch": 0.8274041560514441,
      "grad_norm": 0.9461285463979259,
      "learning_rate": 1.5217441890822103e-06,
      "loss": 0.7417,
      "step": 13478
    },
    {
      "epoch": 0.8274655452899107,
      "grad_norm": 0.9621980786955323,
      "learning_rate": 1.5206899841138135e-06,
      "loss": 0.7252,
      "step": 13479
    },
    {
      "epoch": 0.8275269345283772,
      "grad_norm": 0.9677165882878003,
      "learning_rate": 1.5196361143778937e-06,
      "loss": 0.785,
      "step": 13480
    },
    {
      "epoch": 0.8275883237668437,
      "grad_norm": 0.9336014634882304,
      "learning_rate": 1.5185825799161114e-06,
      "loss": 0.7604,
      "step": 13481
    },
    {
      "epoch": 0.8276497130053102,
      "grad_norm": 0.9270533867602634,
      "learning_rate": 1.5175293807701219e-06,
      "loss": 0.7618,
      "step": 13482
    },
    {
      "epoch": 0.8277111022437766,
      "grad_norm": 0.9637306728006207,
      "learning_rate": 1.5164765169815654e-06,
      "loss": 0.7094,
      "step": 13483
    },
    {
      "epoch": 0.8277724914822432,
      "grad_norm": 1.1447854457936086,
      "learning_rate": 1.515423988592064e-06,
      "loss": 0.7189,
      "step": 13484
    },
    {
      "epoch": 0.8278338807207096,
      "grad_norm": 1.0787538460195556,
      "learning_rate": 1.5143717956432312e-06,
      "loss": 0.7276,
      "step": 13485
    },
    {
      "epoch": 0.8278952699591762,
      "grad_norm": 0.9440246039290079,
      "learning_rate": 1.5133199381766662e-06,
      "loss": 0.7284,
      "step": 13486
    },
    {
      "epoch": 0.8279566591976426,
      "grad_norm": 1.0603601171782193,
      "learning_rate": 1.512268416233953e-06,
      "loss": 0.7837,
      "step": 13487
    },
    {
      "epoch": 0.8280180484361092,
      "grad_norm": 1.0529195752719467,
      "learning_rate": 1.5112172298566652e-06,
      "loss": 0.7603,
      "step": 13488
    },
    {
      "epoch": 0.8280794376745757,
      "grad_norm": 1.020709809111792,
      "learning_rate": 1.5101663790863597e-06,
      "loss": 0.7036,
      "step": 13489
    },
    {
      "epoch": 0.8281408269130421,
      "grad_norm": 0.9218192264331754,
      "learning_rate": 1.5091158639645886e-06,
      "loss": 0.7444,
      "step": 13490
    },
    {
      "epoch": 0.8282022161515087,
      "grad_norm": 0.9547709677137057,
      "learning_rate": 1.5080656845328778e-06,
      "loss": 0.7295,
      "step": 13491
    },
    {
      "epoch": 0.8282636053899751,
      "grad_norm": 1.0992639224083833,
      "learning_rate": 1.5070158408327452e-06,
      "loss": 0.7525,
      "step": 13492
    },
    {
      "epoch": 0.8283249946284417,
      "grad_norm": 0.9784961891593231,
      "learning_rate": 1.5059663329057028e-06,
      "loss": 0.7576,
      "step": 13493
    },
    {
      "epoch": 0.8283863838669081,
      "grad_norm": 1.0034293173533122,
      "learning_rate": 1.5049171607932434e-06,
      "loss": 0.6805,
      "step": 13494
    },
    {
      "epoch": 0.8284477731053747,
      "grad_norm": 1.0729640866597991,
      "learning_rate": 1.5038683245368412e-06,
      "loss": 0.8028,
      "step": 13495
    },
    {
      "epoch": 0.8285091623438411,
      "grad_norm": 1.1808232229108497,
      "learning_rate": 1.5028198241779611e-06,
      "loss": 0.7362,
      "step": 13496
    },
    {
      "epoch": 0.8285705515823076,
      "grad_norm": 0.9456479640691805,
      "learning_rate": 1.5017716597580633e-06,
      "loss": 0.736,
      "step": 13497
    },
    {
      "epoch": 0.8286319408207741,
      "grad_norm": 1.124458160706348,
      "learning_rate": 1.5007238313185823e-06,
      "loss": 0.7826,
      "step": 13498
    },
    {
      "epoch": 0.8286933300592406,
      "grad_norm": 1.0690921490248382,
      "learning_rate": 1.4996763389009461e-06,
      "loss": 0.7418,
      "step": 13499
    },
    {
      "epoch": 0.8287547192977072,
      "grad_norm": 0.96440140693749,
      "learning_rate": 1.4986291825465682e-06,
      "loss": 0.7473,
      "step": 13500
    },
    {
      "epoch": 0.8288161085361736,
      "grad_norm": 1.071124115491158,
      "learning_rate": 1.4975823622968455e-06,
      "loss": 0.7019,
      "step": 13501
    },
    {
      "epoch": 0.8288774977746401,
      "grad_norm": 0.8942496131126234,
      "learning_rate": 1.4965358781931672e-06,
      "loss": 0.7328,
      "step": 13502
    },
    {
      "epoch": 0.8289388870131066,
      "grad_norm": 0.9827558363848449,
      "learning_rate": 1.4954897302769022e-06,
      "loss": 0.7161,
      "step": 13503
    },
    {
      "epoch": 0.8290002762515731,
      "grad_norm": 1.0517832240490876,
      "learning_rate": 1.4944439185894188e-06,
      "loss": 0.7093,
      "step": 13504
    },
    {
      "epoch": 0.8290616654900396,
      "grad_norm": 1.1333632747375921,
      "learning_rate": 1.493398443172056e-06,
      "loss": 0.7661,
      "step": 13505
    },
    {
      "epoch": 0.8291230547285061,
      "grad_norm": 0.9952841518823206,
      "learning_rate": 1.4923533040661464e-06,
      "loss": 0.7587,
      "step": 13506
    },
    {
      "epoch": 0.8291844439669726,
      "grad_norm": 1.0096443608172332,
      "learning_rate": 1.4913085013130158e-06,
      "loss": 0.747,
      "step": 13507
    },
    {
      "epoch": 0.8292458332054391,
      "grad_norm": 0.9544886644242782,
      "learning_rate": 1.4902640349539676e-06,
      "loss": 0.7381,
      "step": 13508
    },
    {
      "epoch": 0.8293072224439055,
      "grad_norm": 1.0658497571319234,
      "learning_rate": 1.4892199050302968e-06,
      "loss": 0.762,
      "step": 13509
    },
    {
      "epoch": 0.8293686116823721,
      "grad_norm": 1.0604464403519032,
      "learning_rate": 1.4881761115832782e-06,
      "loss": 0.7087,
      "step": 13510
    },
    {
      "epoch": 0.8294300009208386,
      "grad_norm": 1.0239558222171883,
      "learning_rate": 1.4871326546541843e-06,
      "loss": 0.7477,
      "step": 13511
    },
    {
      "epoch": 0.8294913901593051,
      "grad_norm": 0.9343642452300778,
      "learning_rate": 1.4860895342842674e-06,
      "loss": 0.7841,
      "step": 13512
    },
    {
      "epoch": 0.8295527793977716,
      "grad_norm": 1.011253258750002,
      "learning_rate": 1.4850467505147658e-06,
      "loss": 0.7288,
      "step": 13513
    },
    {
      "epoch": 0.829614168636238,
      "grad_norm": 0.9702032442841831,
      "learning_rate": 1.4840043033869079e-06,
      "loss": 0.7982,
      "step": 13514
    },
    {
      "epoch": 0.8296755578747046,
      "grad_norm": 0.967070168621538,
      "learning_rate": 1.4829621929419069e-06,
      "loss": 0.7665,
      "step": 13515
    },
    {
      "epoch": 0.829736947113171,
      "grad_norm": 1.0456239322145056,
      "learning_rate": 1.4819204192209613e-06,
      "loss": 0.7329,
      "step": 13516
    },
    {
      "epoch": 0.8297983363516376,
      "grad_norm": 0.9174193449116611,
      "learning_rate": 1.480878982265258e-06,
      "loss": 0.7408,
      "step": 13517
    },
    {
      "epoch": 0.829859725590104,
      "grad_norm": 1.0941034973417605,
      "learning_rate": 1.4798378821159753e-06,
      "loss": 0.7447,
      "step": 13518
    },
    {
      "epoch": 0.8299211148285706,
      "grad_norm": 1.0299508331787723,
      "learning_rate": 1.4787971188142713e-06,
      "loss": 0.7243,
      "step": 13519
    },
    {
      "epoch": 0.829982504067037,
      "grad_norm": 1.0650316168671758,
      "learning_rate": 1.4777566924012877e-06,
      "loss": 0.7461,
      "step": 13520
    },
    {
      "epoch": 0.8300438933055035,
      "grad_norm": 1.1067318161324453,
      "learning_rate": 1.4767166029181635e-06,
      "loss": 0.7488,
      "step": 13521
    },
    {
      "epoch": 0.8301052825439701,
      "grad_norm": 0.9364495343842689,
      "learning_rate": 1.4756768504060193e-06,
      "loss": 0.726,
      "step": 13522
    },
    {
      "epoch": 0.8301666717824365,
      "grad_norm": 1.1949082231219084,
      "learning_rate": 1.474637434905959e-06,
      "loss": 0.7999,
      "step": 13523
    },
    {
      "epoch": 0.8302280610209031,
      "grad_norm": 1.03791132306055,
      "learning_rate": 1.4735983564590784e-06,
      "loss": 0.7292,
      "step": 13524
    },
    {
      "epoch": 0.8302894502593695,
      "grad_norm": 1.0111018190534797,
      "learning_rate": 1.472559615106457e-06,
      "loss": 0.7243,
      "step": 13525
    },
    {
      "epoch": 0.8303508394978361,
      "grad_norm": 1.0603323081920786,
      "learning_rate": 1.471521210889162e-06,
      "loss": 0.7579,
      "step": 13526
    },
    {
      "epoch": 0.8304122287363025,
      "grad_norm": 1.1454013027617034,
      "learning_rate": 1.470483143848247e-06,
      "loss": 0.7074,
      "step": 13527
    },
    {
      "epoch": 0.830473617974769,
      "grad_norm": 1.0760050705452353,
      "learning_rate": 1.4694454140247506e-06,
      "loss": 0.7286,
      "step": 13528
    },
    {
      "epoch": 0.8305350072132355,
      "grad_norm": 0.9947668825484757,
      "learning_rate": 1.4684080214597064e-06,
      "loss": 0.8107,
      "step": 13529
    },
    {
      "epoch": 0.830596396451702,
      "grad_norm": 1.1718136073630758,
      "learning_rate": 1.4673709661941205e-06,
      "loss": 0.7677,
      "step": 13530
    },
    {
      "epoch": 0.8306577856901685,
      "grad_norm": 0.9009009218900255,
      "learning_rate": 1.4663342482689935e-06,
      "loss": 0.7287,
      "step": 13531
    },
    {
      "epoch": 0.830719174928635,
      "grad_norm": 1.043268988129527,
      "learning_rate": 1.465297867725317e-06,
      "loss": 0.7249,
      "step": 13532
    },
    {
      "epoch": 0.8307805641671016,
      "grad_norm": 1.0605103559136002,
      "learning_rate": 1.464261824604063e-06,
      "loss": 0.748,
      "step": 13533
    },
    {
      "epoch": 0.830841953405568,
      "grad_norm": 1.0130211561468698,
      "learning_rate": 1.4632261189461937e-06,
      "loss": 0.7644,
      "step": 13534
    },
    {
      "epoch": 0.8309033426440345,
      "grad_norm": 1.1080150467733707,
      "learning_rate": 1.4621907507926493e-06,
      "loss": 0.7359,
      "step": 13535
    },
    {
      "epoch": 0.830964731882501,
      "grad_norm": 0.9732263961705279,
      "learning_rate": 1.4611557201843696e-06,
      "loss": 0.7404,
      "step": 13536
    },
    {
      "epoch": 0.8310261211209675,
      "grad_norm": 1.1770531520657939,
      "learning_rate": 1.4601210271622735e-06,
      "loss": 0.7252,
      "step": 13537
    },
    {
      "epoch": 0.831087510359434,
      "grad_norm": 0.98545118840753,
      "learning_rate": 1.459086671767268e-06,
      "loss": 0.7646,
      "step": 13538
    },
    {
      "epoch": 0.8311488995979005,
      "grad_norm": 1.136507719669205,
      "learning_rate": 1.4580526540402462e-06,
      "loss": 0.7005,
      "step": 13539
    },
    {
      "epoch": 0.8312102888363669,
      "grad_norm": 1.0084420798058147,
      "learning_rate": 1.4570189740220885e-06,
      "loss": 0.793,
      "step": 13540
    },
    {
      "epoch": 0.8312716780748335,
      "grad_norm": 0.9056006963335627,
      "learning_rate": 1.4559856317536624e-06,
      "loss": 0.7376,
      "step": 13541
    },
    {
      "epoch": 0.8313330673133,
      "grad_norm": 0.9861148375930194,
      "learning_rate": 1.4549526272758185e-06,
      "loss": 0.7504,
      "step": 13542
    },
    {
      "epoch": 0.8313944565517665,
      "grad_norm": 0.9863304650733492,
      "learning_rate": 1.4539199606294007e-06,
      "loss": 0.7569,
      "step": 13543
    },
    {
      "epoch": 0.831455845790233,
      "grad_norm": 0.9949732113504697,
      "learning_rate": 1.4528876318552375e-06,
      "loss": 0.7521,
      "step": 13544
    },
    {
      "epoch": 0.8315172350286995,
      "grad_norm": 1.0017079057632319,
      "learning_rate": 1.4518556409941342e-06,
      "loss": 0.7616,
      "step": 13545
    },
    {
      "epoch": 0.831578624267166,
      "grad_norm": 1.052060496298701,
      "learning_rate": 1.4508239880868992e-06,
      "loss": 0.7998,
      "step": 13546
    },
    {
      "epoch": 0.8316400135056324,
      "grad_norm": 1.1132880037206785,
      "learning_rate": 1.449792673174316e-06,
      "loss": 0.739,
      "step": 13547
    },
    {
      "epoch": 0.831701402744099,
      "grad_norm": 0.9555046996367134,
      "learning_rate": 1.4487616962971573e-06,
      "loss": 0.6798,
      "step": 13548
    },
    {
      "epoch": 0.8317627919825654,
      "grad_norm": 1.0790626459590937,
      "learning_rate": 1.4477310574961856e-06,
      "loss": 0.699,
      "step": 13549
    },
    {
      "epoch": 0.831824181221032,
      "grad_norm": 0.5888891981833742,
      "learning_rate": 1.446700756812145e-06,
      "loss": 0.6519,
      "step": 13550
    },
    {
      "epoch": 0.8318855704594984,
      "grad_norm": 0.9330447022055721,
      "learning_rate": 1.4456707942857696e-06,
      "loss": 0.7458,
      "step": 13551
    },
    {
      "epoch": 0.831946959697965,
      "grad_norm": 1.1142040235853996,
      "learning_rate": 1.444641169957779e-06,
      "loss": 0.6994,
      "step": 13552
    },
    {
      "epoch": 0.8320083489364315,
      "grad_norm": 1.0030216615378893,
      "learning_rate": 1.4436118838688795e-06,
      "loss": 0.7425,
      "step": 13553
    },
    {
      "epoch": 0.8320697381748979,
      "grad_norm": 1.0458696098063274,
      "learning_rate": 1.4425829360597676e-06,
      "loss": 0.7127,
      "step": 13554
    },
    {
      "epoch": 0.8321311274133645,
      "grad_norm": 1.0835267797943557,
      "learning_rate": 1.4415543265711196e-06,
      "loss": 0.7603,
      "step": 13555
    },
    {
      "epoch": 0.8321925166518309,
      "grad_norm": 1.167626352634458,
      "learning_rate": 1.4405260554436007e-06,
      "loss": 0.8082,
      "step": 13556
    },
    {
      "epoch": 0.8322539058902975,
      "grad_norm": 1.0248457652407699,
      "learning_rate": 1.4394981227178673e-06,
      "loss": 0.7125,
      "step": 13557
    },
    {
      "epoch": 0.8323152951287639,
      "grad_norm": 1.0420923192239708,
      "learning_rate": 1.4384705284345613e-06,
      "loss": 0.7293,
      "step": 13558
    },
    {
      "epoch": 0.8323766843672304,
      "grad_norm": 1.1367176663151222,
      "learning_rate": 1.4374432726343002e-06,
      "loss": 0.7099,
      "step": 13559
    },
    {
      "epoch": 0.8324380736056969,
      "grad_norm": 0.9848590363325459,
      "learning_rate": 1.4364163553577048e-06,
      "loss": 0.6996,
      "step": 13560
    },
    {
      "epoch": 0.8324994628441634,
      "grad_norm": 1.047436118262556,
      "learning_rate": 1.4353897766453729e-06,
      "loss": 0.6753,
      "step": 13561
    },
    {
      "epoch": 0.8325608520826299,
      "grad_norm": 0.9487301995449526,
      "learning_rate": 1.4343635365378895e-06,
      "loss": 0.6943,
      "step": 13562
    },
    {
      "epoch": 0.8326222413210964,
      "grad_norm": 1.130376376406256,
      "learning_rate": 1.4333376350758265e-06,
      "loss": 0.7288,
      "step": 13563
    },
    {
      "epoch": 0.832683630559563,
      "grad_norm": 1.0854648144852774,
      "learning_rate": 1.4323120722997463e-06,
      "loss": 0.7151,
      "step": 13564
    },
    {
      "epoch": 0.8327450197980294,
      "grad_norm": 1.0309403741080037,
      "learning_rate": 1.4312868482501918e-06,
      "loss": 0.6618,
      "step": 13565
    },
    {
      "epoch": 0.8328064090364959,
      "grad_norm": 1.0671386326933008,
      "learning_rate": 1.4302619629676972e-06,
      "loss": 0.7432,
      "step": 13566
    },
    {
      "epoch": 0.8328677982749624,
      "grad_norm": 1.059735556844931,
      "learning_rate": 1.4292374164927803e-06,
      "loss": 0.7141,
      "step": 13567
    },
    {
      "epoch": 0.8329291875134289,
      "grad_norm": 1.1409076781553509,
      "learning_rate": 1.4282132088659506e-06,
      "loss": 0.732,
      "step": 13568
    },
    {
      "epoch": 0.8329905767518954,
      "grad_norm": 1.200099691987759,
      "learning_rate": 1.4271893401276972e-06,
      "loss": 0.7575,
      "step": 13569
    },
    {
      "epoch": 0.8330519659903619,
      "grad_norm": 1.1436429818635876,
      "learning_rate": 1.426165810318496e-06,
      "loss": 0.7474,
      "step": 13570
    },
    {
      "epoch": 0.8331133552288283,
      "grad_norm": 0.9719688537487121,
      "learning_rate": 1.4251426194788197e-06,
      "loss": 0.7145,
      "step": 13571
    },
    {
      "epoch": 0.8331747444672949,
      "grad_norm": 1.0294743865300613,
      "learning_rate": 1.424119767649118e-06,
      "loss": 0.7071,
      "step": 13572
    },
    {
      "epoch": 0.8332361337057613,
      "grad_norm": 0.6202191022055926,
      "learning_rate": 1.4230972548698295e-06,
      "loss": 0.6911,
      "step": 13573
    },
    {
      "epoch": 0.8332975229442279,
      "grad_norm": 1.0622842780288733,
      "learning_rate": 1.4220750811813754e-06,
      "loss": 0.6991,
      "step": 13574
    },
    {
      "epoch": 0.8333589121826944,
      "grad_norm": 1.0770612939949578,
      "learning_rate": 1.4210532466241733e-06,
      "loss": 0.7202,
      "step": 13575
    },
    {
      "epoch": 0.8334203014211609,
      "grad_norm": 1.0313967748644612,
      "learning_rate": 1.4200317512386196e-06,
      "loss": 0.7152,
      "step": 13576
    },
    {
      "epoch": 0.8334816906596274,
      "grad_norm": 1.0080226783126536,
      "learning_rate": 1.4190105950651e-06,
      "loss": 0.7271,
      "step": 13577
    },
    {
      "epoch": 0.8335430798980938,
      "grad_norm": 1.0272294278299345,
      "learning_rate": 1.4179897781439867e-06,
      "loss": 0.7149,
      "step": 13578
    },
    {
      "epoch": 0.8336044691365604,
      "grad_norm": 1.15368790474462,
      "learning_rate": 1.416969300515636e-06,
      "loss": 0.7398,
      "step": 13579
    },
    {
      "epoch": 0.8336658583750268,
      "grad_norm": 1.0317725141664567,
      "learning_rate": 1.4159491622203947e-06,
      "loss": 0.7643,
      "step": 13580
    },
    {
      "epoch": 0.8337272476134934,
      "grad_norm": 1.101909958065358,
      "learning_rate": 1.4149293632985917e-06,
      "loss": 0.7414,
      "step": 13581
    },
    {
      "epoch": 0.8337886368519598,
      "grad_norm": 1.1168725789022063,
      "learning_rate": 1.4139099037905491e-06,
      "loss": 0.7014,
      "step": 13582
    },
    {
      "epoch": 0.8338500260904264,
      "grad_norm": 1.0007811391084396,
      "learning_rate": 1.4128907837365724e-06,
      "loss": 0.7441,
      "step": 13583
    },
    {
      "epoch": 0.8339114153288928,
      "grad_norm": 1.0581338956111754,
      "learning_rate": 1.4118720031769451e-06,
      "loss": 0.7557,
      "step": 13584
    },
    {
      "epoch": 0.8339728045673593,
      "grad_norm": 1.080873180792526,
      "learning_rate": 1.4108535621519514e-06,
      "loss": 0.7419,
      "step": 13585
    },
    {
      "epoch": 0.8340341938058259,
      "grad_norm": 1.0087732676042631,
      "learning_rate": 1.409835460701856e-06,
      "loss": 0.7314,
      "step": 13586
    },
    {
      "epoch": 0.8340955830442923,
      "grad_norm": 0.9874116397393137,
      "learning_rate": 1.4088176988669077e-06,
      "loss": 0.7601,
      "step": 13587
    },
    {
      "epoch": 0.8341569722827589,
      "grad_norm": 1.1019286732168698,
      "learning_rate": 1.4078002766873444e-06,
      "loss": 0.6927,
      "step": 13588
    },
    {
      "epoch": 0.8342183615212253,
      "grad_norm": 0.9465878130443689,
      "learning_rate": 1.4067831942033904e-06,
      "loss": 0.7304,
      "step": 13589
    },
    {
      "epoch": 0.8342797507596919,
      "grad_norm": 1.025760975885889,
      "learning_rate": 1.4057664514552572e-06,
      "loss": 0.7165,
      "step": 13590
    },
    {
      "epoch": 0.8343411399981583,
      "grad_norm": 1.045841263184649,
      "learning_rate": 1.40475004848314e-06,
      "loss": 0.7225,
      "step": 13591
    },
    {
      "epoch": 0.8344025292366248,
      "grad_norm": 1.0414148079757997,
      "learning_rate": 1.4037339853272225e-06,
      "loss": 0.8054,
      "step": 13592
    },
    {
      "epoch": 0.8344639184750913,
      "grad_norm": 1.0500991930639396,
      "learning_rate": 1.4027182620276814e-06,
      "loss": 0.7167,
      "step": 13593
    },
    {
      "epoch": 0.8345253077135578,
      "grad_norm": 0.9417032724929869,
      "learning_rate": 1.4017028786246666e-06,
      "loss": 0.7234,
      "step": 13594
    },
    {
      "epoch": 0.8345866969520244,
      "grad_norm": 1.0275678357021607,
      "learning_rate": 1.400687835158322e-06,
      "loss": 0.6883,
      "step": 13595
    },
    {
      "epoch": 0.8346480861904908,
      "grad_norm": 1.1039288018845421,
      "learning_rate": 1.3996731316687805e-06,
      "loss": 0.7301,
      "step": 13596
    },
    {
      "epoch": 0.8347094754289573,
      "grad_norm": 0.9706139917075967,
      "learning_rate": 1.3986587681961595e-06,
      "loss": 0.7224,
      "step": 13597
    },
    {
      "epoch": 0.8347708646674238,
      "grad_norm": 1.0844013963986454,
      "learning_rate": 1.3976447447805596e-06,
      "loss": 0.7248,
      "step": 13598
    },
    {
      "epoch": 0.8348322539058903,
      "grad_norm": 1.0648528543125955,
      "learning_rate": 1.3966310614620726e-06,
      "loss": 0.7343,
      "step": 13599
    },
    {
      "epoch": 0.8348936431443568,
      "grad_norm": 1.0153116620739833,
      "learning_rate": 1.395617718280773e-06,
      "loss": 0.6904,
      "step": 13600
    },
    {
      "epoch": 0.8349550323828233,
      "grad_norm": 1.042985012403505,
      "learning_rate": 1.394604715276724e-06,
      "loss": 0.7164,
      "step": 13601
    },
    {
      "epoch": 0.8350164216212898,
      "grad_norm": 1.036495771697524,
      "learning_rate": 1.393592052489976e-06,
      "loss": 0.7165,
      "step": 13602
    },
    {
      "epoch": 0.8350778108597563,
      "grad_norm": 0.9564334829416932,
      "learning_rate": 1.3925797299605649e-06,
      "loss": 0.7301,
      "step": 13603
    },
    {
      "epoch": 0.8351392000982227,
      "grad_norm": 0.950295672179549,
      "learning_rate": 1.3915677477285129e-06,
      "loss": 0.7537,
      "step": 13604
    },
    {
      "epoch": 0.8352005893366893,
      "grad_norm": 1.0444377275636139,
      "learning_rate": 1.390556105833828e-06,
      "loss": 0.7262,
      "step": 13605
    },
    {
      "epoch": 0.8352619785751558,
      "grad_norm": 0.9625036269111743,
      "learning_rate": 1.389544804316505e-06,
      "loss": 0.784,
      "step": 13606
    },
    {
      "epoch": 0.8353233678136223,
      "grad_norm": 0.9550499054386512,
      "learning_rate": 1.3885338432165295e-06,
      "loss": 0.7406,
      "step": 13607
    },
    {
      "epoch": 0.8353847570520888,
      "grad_norm": 0.9801737594281533,
      "learning_rate": 1.3875232225738722e-06,
      "loss": 0.7248,
      "step": 13608
    },
    {
      "epoch": 0.8354461462905552,
      "grad_norm": 1.1045730558845004,
      "learning_rate": 1.3865129424284785e-06,
      "loss": 0.7183,
      "step": 13609
    },
    {
      "epoch": 0.8355075355290218,
      "grad_norm": 0.9755912361247557,
      "learning_rate": 1.3855030028202997e-06,
      "loss": 0.7492,
      "step": 13610
    },
    {
      "epoch": 0.8355689247674882,
      "grad_norm": 1.006367485313034,
      "learning_rate": 1.384493403789261e-06,
      "loss": 0.7433,
      "step": 13611
    },
    {
      "epoch": 0.8356303140059548,
      "grad_norm": 0.9506043554627466,
      "learning_rate": 1.3834841453752768e-06,
      "loss": 0.7516,
      "step": 13612
    },
    {
      "epoch": 0.8356917032444212,
      "grad_norm": 1.0382779908559105,
      "learning_rate": 1.3824752276182474e-06,
      "loss": 0.7201,
      "step": 13613
    },
    {
      "epoch": 0.8357530924828878,
      "grad_norm": 1.0662293426944063,
      "learning_rate": 1.3814666505580632e-06,
      "loss": 0.7207,
      "step": 13614
    },
    {
      "epoch": 0.8358144817213542,
      "grad_norm": 1.0581333971501443,
      "learning_rate": 1.3804584142345977e-06,
      "loss": 0.7218,
      "step": 13615
    },
    {
      "epoch": 0.8358758709598207,
      "grad_norm": 1.0061904798229353,
      "learning_rate": 1.3794505186877117e-06,
      "loss": 0.7789,
      "step": 13616
    },
    {
      "epoch": 0.8359372601982873,
      "grad_norm": 0.9592394014854063,
      "learning_rate": 1.3784429639572494e-06,
      "loss": 0.6707,
      "step": 13617
    },
    {
      "epoch": 0.8359986494367537,
      "grad_norm": 1.0231397680602592,
      "learning_rate": 1.3774357500830527e-06,
      "loss": 0.6985,
      "step": 13618
    },
    {
      "epoch": 0.8360600386752203,
      "grad_norm": 0.61711703852891,
      "learning_rate": 1.376428877104936e-06,
      "loss": 0.6805,
      "step": 13619
    },
    {
      "epoch": 0.8361214279136867,
      "grad_norm": 0.9378649078866743,
      "learning_rate": 1.3754223450627057e-06,
      "loss": 0.7049,
      "step": 13620
    },
    {
      "epoch": 0.8361828171521533,
      "grad_norm": 0.9793553766628277,
      "learning_rate": 1.3744161539961588e-06,
      "loss": 0.759,
      "step": 13621
    },
    {
      "epoch": 0.8362442063906197,
      "grad_norm": 0.9462662115864576,
      "learning_rate": 1.3734103039450752e-06,
      "loss": 0.7438,
      "step": 13622
    },
    {
      "epoch": 0.8363055956290862,
      "grad_norm": 1.0795238568611984,
      "learning_rate": 1.3724047949492203e-06,
      "loss": 0.7462,
      "step": 13623
    },
    {
      "epoch": 0.8363669848675527,
      "grad_norm": 1.1195674144158865,
      "learning_rate": 1.3713996270483475e-06,
      "loss": 0.7209,
      "step": 13624
    },
    {
      "epoch": 0.8364283741060192,
      "grad_norm": 0.9898425069025069,
      "learning_rate": 1.3703948002821954e-06,
      "loss": 0.7005,
      "step": 13625
    },
    {
      "epoch": 0.8364897633444857,
      "grad_norm": 0.9649565792233655,
      "learning_rate": 1.369390314690493e-06,
      "loss": 0.6929,
      "step": 13626
    },
    {
      "epoch": 0.8365511525829522,
      "grad_norm": 0.9661153512702257,
      "learning_rate": 1.3683861703129498e-06,
      "loss": 0.716,
      "step": 13627
    },
    {
      "epoch": 0.8366125418214188,
      "grad_norm": 1.0166549687856694,
      "learning_rate": 1.3673823671892673e-06,
      "loss": 0.7198,
      "step": 13628
    },
    {
      "epoch": 0.8366739310598852,
      "grad_norm": 1.1075727052679238,
      "learning_rate": 1.3663789053591292e-06,
      "loss": 0.7602,
      "step": 13629
    },
    {
      "epoch": 0.8367353202983517,
      "grad_norm": 1.0683084530695481,
      "learning_rate": 1.3653757848622096e-06,
      "loss": 0.6948,
      "step": 13630
    },
    {
      "epoch": 0.8367967095368182,
      "grad_norm": 1.1385906050568895,
      "learning_rate": 1.3643730057381643e-06,
      "loss": 0.7726,
      "step": 13631
    },
    {
      "epoch": 0.8368580987752847,
      "grad_norm": 1.0480031024370695,
      "learning_rate": 1.3633705680266452e-06,
      "loss": 0.737,
      "step": 13632
    },
    {
      "epoch": 0.8369194880137512,
      "grad_norm": 1.0491147950371462,
      "learning_rate": 1.362368471767277e-06,
      "loss": 0.7433,
      "step": 13633
    },
    {
      "epoch": 0.8369808772522177,
      "grad_norm": 0.9136415937813773,
      "learning_rate": 1.361366716999678e-06,
      "loss": 0.7645,
      "step": 13634
    },
    {
      "epoch": 0.8370422664906841,
      "grad_norm": 1.127702852628579,
      "learning_rate": 1.3603653037634579e-06,
      "loss": 0.7267,
      "step": 13635
    },
    {
      "epoch": 0.8371036557291507,
      "grad_norm": 0.9839765024727751,
      "learning_rate": 1.3593642320982047e-06,
      "loss": 0.7275,
      "step": 13636
    },
    {
      "epoch": 0.8371650449676171,
      "grad_norm": 1.119367610194913,
      "learning_rate": 1.3583635020434983e-06,
      "loss": 0.724,
      "step": 13637
    },
    {
      "epoch": 0.8372264342060837,
      "grad_norm": 1.084019774150591,
      "learning_rate": 1.3573631136388998e-06,
      "loss": 0.7127,
      "step": 13638
    },
    {
      "epoch": 0.8372878234445502,
      "grad_norm": 1.0420066533341479,
      "learning_rate": 1.3563630669239625e-06,
      "loss": 0.6718,
      "step": 13639
    },
    {
      "epoch": 0.8373492126830167,
      "grad_norm": 1.037664345403291,
      "learning_rate": 1.3553633619382223e-06,
      "loss": 0.7069,
      "step": 13640
    },
    {
      "epoch": 0.8374106019214832,
      "grad_norm": 1.0913700651204756,
      "learning_rate": 1.3543639987212032e-06,
      "loss": 0.6869,
      "step": 13641
    },
    {
      "epoch": 0.8374719911599496,
      "grad_norm": 1.0738030037147432,
      "learning_rate": 1.3533649773124147e-06,
      "loss": 0.7356,
      "step": 13642
    },
    {
      "epoch": 0.8375333803984162,
      "grad_norm": 1.009077552503112,
      "learning_rate": 1.352366297751354e-06,
      "loss": 0.7582,
      "step": 13643
    },
    {
      "epoch": 0.8375947696368826,
      "grad_norm": 1.0760236961735876,
      "learning_rate": 1.3513679600775053e-06,
      "loss": 0.7541,
      "step": 13644
    },
    {
      "epoch": 0.8376561588753492,
      "grad_norm": 0.9600414540082063,
      "learning_rate": 1.3503699643303347e-06,
      "loss": 0.7162,
      "step": 13645
    },
    {
      "epoch": 0.8377175481138156,
      "grad_norm": 1.0381138364635065,
      "learning_rate": 1.3493723105493029e-06,
      "loss": 0.7071,
      "step": 13646
    },
    {
      "epoch": 0.8377789373522821,
      "grad_norm": 0.9757679934974346,
      "learning_rate": 1.3483749987738525e-06,
      "loss": 0.7038,
      "step": 13647
    },
    {
      "epoch": 0.8378403265907487,
      "grad_norm": 0.9986968377408271,
      "learning_rate": 1.3473780290434069e-06,
      "loss": 0.7498,
      "step": 13648
    },
    {
      "epoch": 0.8379017158292151,
      "grad_norm": 1.1193783381338351,
      "learning_rate": 1.3463814013973875e-06,
      "loss": 0.7505,
      "step": 13649
    },
    {
      "epoch": 0.8379631050676817,
      "grad_norm": 1.0633783766422233,
      "learning_rate": 1.345385115875193e-06,
      "loss": 0.7189,
      "step": 13650
    },
    {
      "epoch": 0.8380244943061481,
      "grad_norm": 1.0878238453108473,
      "learning_rate": 1.344389172516214e-06,
      "loss": 0.762,
      "step": 13651
    },
    {
      "epoch": 0.8380858835446147,
      "grad_norm": 1.0342230368140262,
      "learning_rate": 1.3433935713598245e-06,
      "loss": 0.733,
      "step": 13652
    },
    {
      "epoch": 0.8381472727830811,
      "grad_norm": 1.1120269759842223,
      "learning_rate": 1.3423983124453855e-06,
      "loss": 0.7629,
      "step": 13653
    },
    {
      "epoch": 0.8382086620215476,
      "grad_norm": 1.0821612048838423,
      "learning_rate": 1.3414033958122452e-06,
      "loss": 0.7647,
      "step": 13654
    },
    {
      "epoch": 0.8382700512600141,
      "grad_norm": 1.050099782585406,
      "learning_rate": 1.340408821499738e-06,
      "loss": 0.7452,
      "step": 13655
    },
    {
      "epoch": 0.8383314404984806,
      "grad_norm": 0.947952276620062,
      "learning_rate": 1.3394145895471832e-06,
      "loss": 0.7586,
      "step": 13656
    },
    {
      "epoch": 0.8383928297369471,
      "grad_norm": 1.0040038001157034,
      "learning_rate": 1.3384206999938943e-06,
      "loss": 0.7209,
      "step": 13657
    },
    {
      "epoch": 0.8384542189754136,
      "grad_norm": 1.0058819116631887,
      "learning_rate": 1.3374271528791572e-06,
      "loss": 0.7293,
      "step": 13658
    },
    {
      "epoch": 0.8385156082138802,
      "grad_norm": 1.0107557529646067,
      "learning_rate": 1.336433948242254e-06,
      "loss": 0.7294,
      "step": 13659
    },
    {
      "epoch": 0.8385769974523466,
      "grad_norm": 0.9617347498745468,
      "learning_rate": 1.3354410861224555e-06,
      "loss": 0.7423,
      "step": 13660
    },
    {
      "epoch": 0.8386383866908131,
      "grad_norm": 1.1090185661346503,
      "learning_rate": 1.3344485665590113e-06,
      "loss": 0.7913,
      "step": 13661
    },
    {
      "epoch": 0.8386997759292796,
      "grad_norm": 1.037619663230858,
      "learning_rate": 1.3334563895911624e-06,
      "loss": 0.6808,
      "step": 13662
    },
    {
      "epoch": 0.8387611651677461,
      "grad_norm": 0.9889937489659959,
      "learning_rate": 1.332464555258134e-06,
      "loss": 0.7112,
      "step": 13663
    },
    {
      "epoch": 0.8388225544062126,
      "grad_norm": 1.0421280681998677,
      "learning_rate": 1.3314730635991391e-06,
      "loss": 0.7342,
      "step": 13664
    },
    {
      "epoch": 0.8388839436446791,
      "grad_norm": 1.007246457807137,
      "learning_rate": 1.3304819146533765e-06,
      "loss": 0.7571,
      "step": 13665
    },
    {
      "epoch": 0.8389453328831455,
      "grad_norm": 1.0356386568208655,
      "learning_rate": 1.3294911084600315e-06,
      "loss": 0.7492,
      "step": 13666
    },
    {
      "epoch": 0.8390067221216121,
      "grad_norm": 1.0254241396475703,
      "learning_rate": 1.3285006450582771e-06,
      "loss": 0.7393,
      "step": 13667
    },
    {
      "epoch": 0.8390681113600785,
      "grad_norm": 0.9320616579851811,
      "learning_rate": 1.32751052448727e-06,
      "loss": 0.7267,
      "step": 13668
    },
    {
      "epoch": 0.8391295005985451,
      "grad_norm": 0.5976379087379583,
      "learning_rate": 1.3265207467861552e-06,
      "loss": 0.6757,
      "step": 13669
    },
    {
      "epoch": 0.8391908898370116,
      "grad_norm": 1.0414775387165902,
      "learning_rate": 1.3255313119940626e-06,
      "loss": 0.711,
      "step": 13670
    },
    {
      "epoch": 0.8392522790754781,
      "grad_norm": 0.989290818044115,
      "learning_rate": 1.3245422201501135e-06,
      "loss": 0.7542,
      "step": 13671
    },
    {
      "epoch": 0.8393136683139446,
      "grad_norm": 0.9996688162577263,
      "learning_rate": 1.3235534712934118e-06,
      "loss": 0.7086,
      "step": 13672
    },
    {
      "epoch": 0.839375057552411,
      "grad_norm": 1.0520072259186748,
      "learning_rate": 1.322565065463043e-06,
      "loss": 0.7307,
      "step": 13673
    },
    {
      "epoch": 0.8394364467908776,
      "grad_norm": 1.1401059915723057,
      "learning_rate": 1.321577002698089e-06,
      "loss": 0.7895,
      "step": 13674
    },
    {
      "epoch": 0.839497836029344,
      "grad_norm": 0.973818435006207,
      "learning_rate": 1.3205892830376111e-06,
      "loss": 0.7123,
      "step": 13675
    },
    {
      "epoch": 0.8395592252678106,
      "grad_norm": 1.0222432115945965,
      "learning_rate": 1.31960190652066e-06,
      "loss": 0.7208,
      "step": 13676
    },
    {
      "epoch": 0.839620614506277,
      "grad_norm": 1.104677320928059,
      "learning_rate": 1.3186148731862712e-06,
      "loss": 0.7531,
      "step": 13677
    },
    {
      "epoch": 0.8396820037447436,
      "grad_norm": 0.9918606749497585,
      "learning_rate": 1.3176281830734682e-06,
      "loss": 0.7497,
      "step": 13678
    },
    {
      "epoch": 0.83974339298321,
      "grad_norm": 1.1205452548997112,
      "learning_rate": 1.3166418362212596e-06,
      "loss": 0.7654,
      "step": 13679
    },
    {
      "epoch": 0.8398047822216765,
      "grad_norm": 0.965380576087947,
      "learning_rate": 1.3156558326686409e-06,
      "loss": 0.7508,
      "step": 13680
    },
    {
      "epoch": 0.8398661714601431,
      "grad_norm": 1.0082870727216513,
      "learning_rate": 1.314670172454593e-06,
      "loss": 0.7553,
      "step": 13681
    },
    {
      "epoch": 0.8399275606986095,
      "grad_norm": 0.8792638083445787,
      "learning_rate": 1.3136848556180893e-06,
      "loss": 0.7725,
      "step": 13682
    },
    {
      "epoch": 0.8399889499370761,
      "grad_norm": 0.9738413364401862,
      "learning_rate": 1.3126998821980786e-06,
      "loss": 0.7298,
      "step": 13683
    },
    {
      "epoch": 0.8400503391755425,
      "grad_norm": 1.092558163112394,
      "learning_rate": 1.311715252233502e-06,
      "loss": 0.7199,
      "step": 13684
    },
    {
      "epoch": 0.840111728414009,
      "grad_norm": 1.0270985262115613,
      "learning_rate": 1.3107309657632927e-06,
      "loss": 0.7591,
      "step": 13685
    },
    {
      "epoch": 0.8401731176524755,
      "grad_norm": 0.8866112476977327,
      "learning_rate": 1.309747022826361e-06,
      "loss": 0.7026,
      "step": 13686
    },
    {
      "epoch": 0.840234506890942,
      "grad_norm": 1.0937886947884772,
      "learning_rate": 1.3087634234616087e-06,
      "loss": 0.7143,
      "step": 13687
    },
    {
      "epoch": 0.8402958961294085,
      "grad_norm": 1.0823997639439062,
      "learning_rate": 1.3077801677079228e-06,
      "loss": 0.7608,
      "step": 13688
    },
    {
      "epoch": 0.840357285367875,
      "grad_norm": 1.1542494536665053,
      "learning_rate": 1.3067972556041753e-06,
      "loss": 0.756,
      "step": 13689
    },
    {
      "epoch": 0.8404186746063415,
      "grad_norm": 1.0838394359665209,
      "learning_rate": 1.3058146871892275e-06,
      "loss": 0.7405,
      "step": 13690
    },
    {
      "epoch": 0.840480063844808,
      "grad_norm": 1.0362217324870315,
      "learning_rate": 1.3048324625019238e-06,
      "loss": 0.726,
      "step": 13691
    },
    {
      "epoch": 0.8405414530832745,
      "grad_norm": 1.0635416133298958,
      "learning_rate": 1.3038505815810986e-06,
      "loss": 0.7872,
      "step": 13692
    },
    {
      "epoch": 0.840602842321741,
      "grad_norm": 1.056168308888812,
      "learning_rate": 1.30286904446557e-06,
      "loss": 0.7552,
      "step": 13693
    },
    {
      "epoch": 0.8406642315602075,
      "grad_norm": 1.0998503037542091,
      "learning_rate": 1.3018878511941436e-06,
      "loss": 0.7109,
      "step": 13694
    },
    {
      "epoch": 0.840725620798674,
      "grad_norm": 1.0485259041574997,
      "learning_rate": 1.3009070018056092e-06,
      "loss": 0.7043,
      "step": 13695
    },
    {
      "epoch": 0.8407870100371405,
      "grad_norm": 1.0213751851912567,
      "learning_rate": 1.2999264963387514e-06,
      "loss": 0.7287,
      "step": 13696
    },
    {
      "epoch": 0.840848399275607,
      "grad_norm": 1.0820930221962166,
      "learning_rate": 1.2989463348323284e-06,
      "loss": 0.7699,
      "step": 13697
    },
    {
      "epoch": 0.8409097885140735,
      "grad_norm": 0.9699400834231722,
      "learning_rate": 1.2979665173250911e-06,
      "loss": 0.6984,
      "step": 13698
    },
    {
      "epoch": 0.8409711777525399,
      "grad_norm": 1.010903187015985,
      "learning_rate": 1.2969870438557808e-06,
      "loss": 0.7174,
      "step": 13699
    },
    {
      "epoch": 0.8410325669910065,
      "grad_norm": 1.1152008161533726,
      "learning_rate": 1.29600791446312e-06,
      "loss": 0.748,
      "step": 13700
    },
    {
      "epoch": 0.841093956229473,
      "grad_norm": 1.0466725730617057,
      "learning_rate": 1.2950291291858185e-06,
      "loss": 0.7555,
      "step": 13701
    },
    {
      "epoch": 0.8411553454679395,
      "grad_norm": 0.606741748623621,
      "learning_rate": 1.2940506880625725e-06,
      "loss": 0.7011,
      "step": 13702
    },
    {
      "epoch": 0.841216734706406,
      "grad_norm": 0.9715006749795737,
      "learning_rate": 1.2930725911320664e-06,
      "loss": 0.7256,
      "step": 13703
    },
    {
      "epoch": 0.8412781239448724,
      "grad_norm": 1.133980315332391,
      "learning_rate": 1.2920948384329679e-06,
      "loss": 0.7491,
      "step": 13704
    },
    {
      "epoch": 0.841339513183339,
      "grad_norm": 1.0271940750551702,
      "learning_rate": 1.2911174300039342e-06,
      "loss": 0.7117,
      "step": 13705
    },
    {
      "epoch": 0.8414009024218054,
      "grad_norm": 1.117211064238621,
      "learning_rate": 1.2901403658836065e-06,
      "loss": 0.7311,
      "step": 13706
    },
    {
      "epoch": 0.841462291660272,
      "grad_norm": 1.119879674037831,
      "learning_rate": 1.2891636461106137e-06,
      "loss": 0.7442,
      "step": 13707
    },
    {
      "epoch": 0.8415236808987384,
      "grad_norm": 1.0342950455834448,
      "learning_rate": 1.2881872707235722e-06,
      "loss": 0.7705,
      "step": 13708
    },
    {
      "epoch": 0.841585070137205,
      "grad_norm": 1.1852388278838448,
      "learning_rate": 1.287211239761078e-06,
      "loss": 0.7248,
      "step": 13709
    },
    {
      "epoch": 0.8416464593756714,
      "grad_norm": 0.685843726931394,
      "learning_rate": 1.2862355532617255e-06,
      "loss": 0.7365,
      "step": 13710
    },
    {
      "epoch": 0.8417078486141379,
      "grad_norm": 1.0880855933139137,
      "learning_rate": 1.2852602112640877e-06,
      "loss": 0.7668,
      "step": 13711
    },
    {
      "epoch": 0.8417692378526045,
      "grad_norm": 0.9869067055802423,
      "learning_rate": 1.2842852138067197e-06,
      "loss": 0.7407,
      "step": 13712
    },
    {
      "epoch": 0.8418306270910709,
      "grad_norm": 0.9868089596975991,
      "learning_rate": 1.283310560928175e-06,
      "loss": 0.6604,
      "step": 13713
    },
    {
      "epoch": 0.8418920163295375,
      "grad_norm": 1.0380579475438785,
      "learning_rate": 1.2823362526669825e-06,
      "loss": 0.7338,
      "step": 13714
    },
    {
      "epoch": 0.8419534055680039,
      "grad_norm": 1.0864982008686235,
      "learning_rate": 1.281362289061664e-06,
      "loss": 0.7571,
      "step": 13715
    },
    {
      "epoch": 0.8420147948064705,
      "grad_norm": 0.9895455651059386,
      "learning_rate": 1.280388670150725e-06,
      "loss": 0.7569,
      "step": 13716
    },
    {
      "epoch": 0.8420761840449369,
      "grad_norm": 0.6294243782756024,
      "learning_rate": 1.2794153959726575e-06,
      "loss": 0.6839,
      "step": 13717
    },
    {
      "epoch": 0.8421375732834034,
      "grad_norm": 0.9767146687125478,
      "learning_rate": 1.27844246656594e-06,
      "loss": 0.7184,
      "step": 13718
    },
    {
      "epoch": 0.8421989625218699,
      "grad_norm": 0.9565533818672617,
      "learning_rate": 1.2774698819690378e-06,
      "loss": 0.7547,
      "step": 13719
    },
    {
      "epoch": 0.8422603517603364,
      "grad_norm": 0.9783671149489745,
      "learning_rate": 1.2764976422204013e-06,
      "loss": 0.7442,
      "step": 13720
    },
    {
      "epoch": 0.8423217409988029,
      "grad_norm": 1.0400760622996483,
      "learning_rate": 1.2755257473584737e-06,
      "loss": 0.7685,
      "step": 13721
    },
    {
      "epoch": 0.8423831302372694,
      "grad_norm": 1.017201293191641,
      "learning_rate": 1.2745541974216725e-06,
      "loss": 0.8158,
      "step": 13722
    },
    {
      "epoch": 0.842444519475736,
      "grad_norm": 1.0799244455031132,
      "learning_rate": 1.2735829924484077e-06,
      "loss": 0.7336,
      "step": 13723
    },
    {
      "epoch": 0.8425059087142024,
      "grad_norm": 0.9217769062638687,
      "learning_rate": 1.2726121324770835e-06,
      "loss": 0.7707,
      "step": 13724
    },
    {
      "epoch": 0.8425672979526689,
      "grad_norm": 0.9380228731189865,
      "learning_rate": 1.2716416175460778e-06,
      "loss": 0.7228,
      "step": 13725
    },
    {
      "epoch": 0.8426286871911354,
      "grad_norm": 0.9273486344284886,
      "learning_rate": 1.270671447693762e-06,
      "loss": 0.7887,
      "step": 13726
    },
    {
      "epoch": 0.8426900764296019,
      "grad_norm": 1.0448349284497063,
      "learning_rate": 1.2697016229584913e-06,
      "loss": 0.7029,
      "step": 13727
    },
    {
      "epoch": 0.8427514656680684,
      "grad_norm": 1.144257278041735,
      "learning_rate": 1.2687321433786081e-06,
      "loss": 0.723,
      "step": 13728
    },
    {
      "epoch": 0.8428128549065349,
      "grad_norm": 1.079835659125282,
      "learning_rate": 1.267763008992442e-06,
      "loss": 0.7079,
      "step": 13729
    },
    {
      "epoch": 0.8428742441450013,
      "grad_norm": 1.038981307552512,
      "learning_rate": 1.2667942198383053e-06,
      "loss": 0.7271,
      "step": 13730
    },
    {
      "epoch": 0.8429356333834679,
      "grad_norm": 1.1051982915786371,
      "learning_rate": 1.2658257759545056e-06,
      "loss": 0.7788,
      "step": 13731
    },
    {
      "epoch": 0.8429970226219343,
      "grad_norm": 1.053360338320554,
      "learning_rate": 1.2648576773793243e-06,
      "loss": 0.7032,
      "step": 13732
    },
    {
      "epoch": 0.8430584118604009,
      "grad_norm": 1.010086446601731,
      "learning_rate": 1.2638899241510382e-06,
      "loss": 0.736,
      "step": 13733
    },
    {
      "epoch": 0.8431198010988674,
      "grad_norm": 1.0228738224247684,
      "learning_rate": 1.2629225163079051e-06,
      "loss": 0.7283,
      "step": 13734
    },
    {
      "epoch": 0.8431811903373339,
      "grad_norm": 1.0976539719803802,
      "learning_rate": 1.2619554538881761e-06,
      "loss": 0.7236,
      "step": 13735
    },
    {
      "epoch": 0.8432425795758004,
      "grad_norm": 1.0063012564948886,
      "learning_rate": 1.2609887369300844e-06,
      "loss": 0.7266,
      "step": 13736
    },
    {
      "epoch": 0.8433039688142668,
      "grad_norm": 1.0025433067892435,
      "learning_rate": 1.2600223654718434e-06,
      "loss": 0.7109,
      "step": 13737
    },
    {
      "epoch": 0.8433653580527334,
      "grad_norm": 0.5855890099199551,
      "learning_rate": 1.2590563395516652e-06,
      "loss": 0.6421,
      "step": 13738
    },
    {
      "epoch": 0.8434267472911998,
      "grad_norm": 1.0382505563632498,
      "learning_rate": 1.2580906592077403e-06,
      "loss": 0.7602,
      "step": 13739
    },
    {
      "epoch": 0.8434881365296664,
      "grad_norm": 1.1143407094724456,
      "learning_rate": 1.2571253244782456e-06,
      "loss": 0.7187,
      "step": 13740
    },
    {
      "epoch": 0.8435495257681328,
      "grad_norm": 1.1737684111001916,
      "learning_rate": 1.2561603354013474e-06,
      "loss": 0.7251,
      "step": 13741
    },
    {
      "epoch": 0.8436109150065993,
      "grad_norm": 0.9188475315337353,
      "learning_rate": 1.2551956920151965e-06,
      "loss": 0.744,
      "step": 13742
    },
    {
      "epoch": 0.8436723042450658,
      "grad_norm": 0.9869567685436575,
      "learning_rate": 1.2542313943579309e-06,
      "loss": 0.7393,
      "step": 13743
    },
    {
      "epoch": 0.8437336934835323,
      "grad_norm": 0.9276552426437348,
      "learning_rate": 1.2532674424676727e-06,
      "loss": 0.7033,
      "step": 13744
    },
    {
      "epoch": 0.8437950827219989,
      "grad_norm": 1.068655933980098,
      "learning_rate": 1.2523038363825324e-06,
      "loss": 0.7065,
      "step": 13745
    },
    {
      "epoch": 0.8438564719604653,
      "grad_norm": 1.1311239010317578,
      "learning_rate": 1.2513405761406107e-06,
      "loss": 0.7267,
      "step": 13746
    },
    {
      "epoch": 0.8439178611989319,
      "grad_norm": 1.0908347018219862,
      "learning_rate": 1.2503776617799857e-06,
      "loss": 0.7035,
      "step": 13747
    },
    {
      "epoch": 0.8439792504373983,
      "grad_norm": 1.0928905105571556,
      "learning_rate": 1.2494150933387262e-06,
      "loss": 0.7432,
      "step": 13748
    },
    {
      "epoch": 0.8440406396758648,
      "grad_norm": 1.0268610058922338,
      "learning_rate": 1.2484528708548904e-06,
      "loss": 0.6813,
      "step": 13749
    },
    {
      "epoch": 0.8441020289143313,
      "grad_norm": 0.9158595441151671,
      "learning_rate": 1.2474909943665203e-06,
      "loss": 0.6943,
      "step": 13750
    },
    {
      "epoch": 0.8441634181527978,
      "grad_norm": 0.9922793751039733,
      "learning_rate": 1.2465294639116422e-06,
      "loss": 0.711,
      "step": 13751
    },
    {
      "epoch": 0.8442248073912643,
      "grad_norm": 1.1103724144341842,
      "learning_rate": 1.245568279528272e-06,
      "loss": 0.7417,
      "step": 13752
    },
    {
      "epoch": 0.8442861966297308,
      "grad_norm": 1.0063719461494613,
      "learning_rate": 1.2446074412544084e-06,
      "loss": 0.722,
      "step": 13753
    },
    {
      "epoch": 0.8443475858681974,
      "grad_norm": 1.070719984370803,
      "learning_rate": 1.243646949128041e-06,
      "loss": 0.8001,
      "step": 13754
    },
    {
      "epoch": 0.8444089751066638,
      "grad_norm": 0.9020868543414254,
      "learning_rate": 1.242686803187142e-06,
      "loss": 0.6907,
      "step": 13755
    },
    {
      "epoch": 0.8444703643451303,
      "grad_norm": 1.1085273392942843,
      "learning_rate": 1.2417270034696704e-06,
      "loss": 0.7486,
      "step": 13756
    },
    {
      "epoch": 0.8445317535835968,
      "grad_norm": 1.0987361322264944,
      "learning_rate": 1.240767550013573e-06,
      "loss": 0.7147,
      "step": 13757
    },
    {
      "epoch": 0.8445931428220633,
      "grad_norm": 1.0721750301384778,
      "learning_rate": 1.2398084428567824e-06,
      "loss": 0.7286,
      "step": 13758
    },
    {
      "epoch": 0.8446545320605298,
      "grad_norm": 0.8711018576601716,
      "learning_rate": 1.2388496820372143e-06,
      "loss": 0.7009,
      "step": 13759
    },
    {
      "epoch": 0.8447159212989963,
      "grad_norm": 0.981173355900124,
      "learning_rate": 1.2378912675927801e-06,
      "loss": 0.7263,
      "step": 13760
    },
    {
      "epoch": 0.8447773105374627,
      "grad_norm": 1.0400155016840997,
      "learning_rate": 1.2369331995613664e-06,
      "loss": 0.7346,
      "step": 13761
    },
    {
      "epoch": 0.8448386997759293,
      "grad_norm": 0.9956554355402774,
      "learning_rate": 1.2359754779808487e-06,
      "loss": 0.6766,
      "step": 13762
    },
    {
      "epoch": 0.8449000890143957,
      "grad_norm": 0.9508468614047185,
      "learning_rate": 1.2350181028890952e-06,
      "loss": 0.7374,
      "step": 13763
    },
    {
      "epoch": 0.8449614782528623,
      "grad_norm": 0.9980036648718272,
      "learning_rate": 1.2340610743239545e-06,
      "loss": 0.7568,
      "step": 13764
    },
    {
      "epoch": 0.8450228674913288,
      "grad_norm": 0.9153939917085151,
      "learning_rate": 1.2331043923232633e-06,
      "loss": 0.7281,
      "step": 13765
    },
    {
      "epoch": 0.8450842567297953,
      "grad_norm": 1.0909291817398756,
      "learning_rate": 1.2321480569248444e-06,
      "loss": 0.745,
      "step": 13766
    },
    {
      "epoch": 0.8451456459682618,
      "grad_norm": 0.9628413133175544,
      "learning_rate": 1.2311920681665068e-06,
      "loss": 0.7196,
      "step": 13767
    },
    {
      "epoch": 0.8452070352067282,
      "grad_norm": 1.0907127135187666,
      "learning_rate": 1.2302364260860455e-06,
      "loss": 0.7192,
      "step": 13768
    },
    {
      "epoch": 0.8452684244451948,
      "grad_norm": 1.0073056691533706,
      "learning_rate": 1.2292811307212415e-06,
      "loss": 0.7509,
      "step": 13769
    },
    {
      "epoch": 0.8453298136836612,
      "grad_norm": 1.0325329105694638,
      "learning_rate": 1.2283261821098647e-06,
      "loss": 0.7088,
      "step": 13770
    },
    {
      "epoch": 0.8453912029221278,
      "grad_norm": 1.1601944999402731,
      "learning_rate": 1.2273715802896668e-06,
      "loss": 0.7732,
      "step": 13771
    },
    {
      "epoch": 0.8454525921605942,
      "grad_norm": 1.162235229456926,
      "learning_rate": 1.22641732529839e-06,
      "loss": 0.8017,
      "step": 13772
    },
    {
      "epoch": 0.8455139813990608,
      "grad_norm": 1.0069277597272,
      "learning_rate": 1.22546341717376e-06,
      "loss": 0.7452,
      "step": 13773
    },
    {
      "epoch": 0.8455753706375272,
      "grad_norm": 1.2296516781154885,
      "learning_rate": 1.2245098559534918e-06,
      "loss": 0.7117,
      "step": 13774
    },
    {
      "epoch": 0.8456367598759937,
      "grad_norm": 1.0911596233493075,
      "learning_rate": 1.2235566416752853e-06,
      "loss": 0.7466,
      "step": 13775
    },
    {
      "epoch": 0.8456981491144603,
      "grad_norm": 1.0485557264113612,
      "learning_rate": 1.2226037743768205e-06,
      "loss": 0.7708,
      "step": 13776
    },
    {
      "epoch": 0.8457595383529267,
      "grad_norm": 0.9868084350885216,
      "learning_rate": 1.2216512540957758e-06,
      "loss": 0.7437,
      "step": 13777
    },
    {
      "epoch": 0.8458209275913933,
      "grad_norm": 0.8683962827152332,
      "learning_rate": 1.2206990808698061e-06,
      "loss": 0.7218,
      "step": 13778
    },
    {
      "epoch": 0.8458823168298597,
      "grad_norm": 0.978923243619547,
      "learning_rate": 1.2197472547365574e-06,
      "loss": 0.6925,
      "step": 13779
    },
    {
      "epoch": 0.8459437060683263,
      "grad_norm": 0.8973938719306613,
      "learning_rate": 1.21879577573366e-06,
      "loss": 0.6919,
      "step": 13780
    },
    {
      "epoch": 0.8460050953067927,
      "grad_norm": 1.020984875031296,
      "learning_rate": 1.2178446438987302e-06,
      "loss": 0.7109,
      "step": 13781
    },
    {
      "epoch": 0.8460664845452592,
      "grad_norm": 1.1052007699694493,
      "learning_rate": 1.2168938592693724e-06,
      "loss": 0.7255,
      "step": 13782
    },
    {
      "epoch": 0.8461278737837257,
      "grad_norm": 0.8991792552115451,
      "learning_rate": 1.2159434218831756e-06,
      "loss": 0.7015,
      "step": 13783
    },
    {
      "epoch": 0.8461892630221922,
      "grad_norm": 1.0407923258857834,
      "learning_rate": 1.214993331777714e-06,
      "loss": 0.6858,
      "step": 13784
    },
    {
      "epoch": 0.8462506522606587,
      "grad_norm": 1.0007345822652727,
      "learning_rate": 1.2140435889905545e-06,
      "loss": 0.7146,
      "step": 13785
    },
    {
      "epoch": 0.8463120414991252,
      "grad_norm": 1.1819377958712118,
      "learning_rate": 1.213094193559241e-06,
      "loss": 0.6971,
      "step": 13786
    },
    {
      "epoch": 0.8463734307375917,
      "grad_norm": 1.1085897456681157,
      "learning_rate": 1.2121451455213085e-06,
      "loss": 0.7277,
      "step": 13787
    },
    {
      "epoch": 0.8464348199760582,
      "grad_norm": 1.1103239759441714,
      "learning_rate": 1.21119644491428e-06,
      "loss": 0.7349,
      "step": 13788
    },
    {
      "epoch": 0.8464962092145247,
      "grad_norm": 1.0980292410052244,
      "learning_rate": 1.2102480917756632e-06,
      "loss": 0.7458,
      "step": 13789
    },
    {
      "epoch": 0.8465575984529912,
      "grad_norm": 1.0970751498919666,
      "learning_rate": 1.2093000861429494e-06,
      "loss": 0.7189,
      "step": 13790
    },
    {
      "epoch": 0.8466189876914577,
      "grad_norm": 1.0318684209990951,
      "learning_rate": 1.2083524280536186e-06,
      "loss": 0.6889,
      "step": 13791
    },
    {
      "epoch": 0.8466803769299241,
      "grad_norm": 0.9678535425132458,
      "learning_rate": 1.2074051175451384e-06,
      "loss": 0.707,
      "step": 13792
    },
    {
      "epoch": 0.8467417661683907,
      "grad_norm": 0.9514980256385267,
      "learning_rate": 1.2064581546549592e-06,
      "loss": 0.7442,
      "step": 13793
    },
    {
      "epoch": 0.8468031554068571,
      "grad_norm": 0.9766606209850291,
      "learning_rate": 1.2055115394205186e-06,
      "loss": 0.685,
      "step": 13794
    },
    {
      "epoch": 0.8468645446453237,
      "grad_norm": 1.0044270784553235,
      "learning_rate": 1.2045652718792477e-06,
      "loss": 0.7371,
      "step": 13795
    },
    {
      "epoch": 0.8469259338837901,
      "grad_norm": 1.2013043878736525,
      "learning_rate": 1.2036193520685503e-06,
      "loss": 0.7687,
      "step": 13796
    },
    {
      "epoch": 0.8469873231222567,
      "grad_norm": 0.9735223921556151,
      "learning_rate": 1.202673780025826e-06,
      "loss": 0.7029,
      "step": 13797
    },
    {
      "epoch": 0.8470487123607232,
      "grad_norm": 1.0239044727284492,
      "learning_rate": 1.2017285557884572e-06,
      "loss": 0.7577,
      "step": 13798
    },
    {
      "epoch": 0.8471101015991896,
      "grad_norm": 1.0342440023874246,
      "learning_rate": 1.2007836793938165e-06,
      "loss": 0.7362,
      "step": 13799
    },
    {
      "epoch": 0.8471714908376562,
      "grad_norm": 1.1642660086405976,
      "learning_rate": 1.1998391508792607e-06,
      "loss": 0.7606,
      "step": 13800
    },
    {
      "epoch": 0.8472328800761226,
      "grad_norm": 1.091788058138577,
      "learning_rate": 1.1988949702821251e-06,
      "loss": 0.7821,
      "step": 13801
    },
    {
      "epoch": 0.8472942693145892,
      "grad_norm": 0.9852112463750731,
      "learning_rate": 1.1979511376397457e-06,
      "loss": 0.7716,
      "step": 13802
    },
    {
      "epoch": 0.8473556585530556,
      "grad_norm": 1.0694159758872792,
      "learning_rate": 1.1970076529894348e-06,
      "loss": 0.7615,
      "step": 13803
    },
    {
      "epoch": 0.8474170477915222,
      "grad_norm": 0.974493649159562,
      "learning_rate": 1.1960645163684925e-06,
      "loss": 0.7296,
      "step": 13804
    },
    {
      "epoch": 0.8474784370299886,
      "grad_norm": 1.1221058262638335,
      "learning_rate": 1.195121727814207e-06,
      "loss": 0.7265,
      "step": 13805
    },
    {
      "epoch": 0.8475398262684551,
      "grad_norm": 1.0091183557082468,
      "learning_rate": 1.1941792873638513e-06,
      "loss": 0.7269,
      "step": 13806
    },
    {
      "epoch": 0.8476012155069217,
      "grad_norm": 0.966469761968287,
      "learning_rate": 1.193237195054685e-06,
      "loss": 0.7005,
      "step": 13807
    },
    {
      "epoch": 0.8476626047453881,
      "grad_norm": 0.9830936986072619,
      "learning_rate": 1.1922954509239548e-06,
      "loss": 0.7657,
      "step": 13808
    },
    {
      "epoch": 0.8477239939838547,
      "grad_norm": 0.9037225922736735,
      "learning_rate": 1.1913540550088899e-06,
      "loss": 0.6999,
      "step": 13809
    },
    {
      "epoch": 0.8477853832223211,
      "grad_norm": 1.0977246549277535,
      "learning_rate": 1.1904130073467157e-06,
      "loss": 0.7762,
      "step": 13810
    },
    {
      "epoch": 0.8478467724607877,
      "grad_norm": 1.0865463799587063,
      "learning_rate": 1.1894723079746296e-06,
      "loss": 0.7186,
      "step": 13811
    },
    {
      "epoch": 0.8479081616992541,
      "grad_norm": 1.0354762923683551,
      "learning_rate": 1.1885319569298237e-06,
      "loss": 0.7445,
      "step": 13812
    },
    {
      "epoch": 0.8479695509377206,
      "grad_norm": 0.9283694097753865,
      "learning_rate": 1.1875919542494784e-06,
      "loss": 0.7466,
      "step": 13813
    },
    {
      "epoch": 0.8480309401761871,
      "grad_norm": 0.903839353147365,
      "learning_rate": 1.1866522999707553e-06,
      "loss": 0.7351,
      "step": 13814
    },
    {
      "epoch": 0.8480923294146536,
      "grad_norm": 0.9686829707692681,
      "learning_rate": 1.1857129941308031e-06,
      "loss": 0.6991,
      "step": 13815
    },
    {
      "epoch": 0.8481537186531201,
      "grad_norm": 0.8465439298746811,
      "learning_rate": 1.1847740367667593e-06,
      "loss": 0.7029,
      "step": 13816
    },
    {
      "epoch": 0.8482151078915866,
      "grad_norm": 1.0472002856726492,
      "learning_rate": 1.183835427915745e-06,
      "loss": 0.749,
      "step": 13817
    },
    {
      "epoch": 0.8482764971300532,
      "grad_norm": 0.968816521278679,
      "learning_rate": 1.1828971676148681e-06,
      "loss": 0.6667,
      "step": 13818
    },
    {
      "epoch": 0.8483378863685196,
      "grad_norm": 1.0510781428705585,
      "learning_rate": 1.1819592559012206e-06,
      "loss": 0.7494,
      "step": 13819
    },
    {
      "epoch": 0.8483992756069861,
      "grad_norm": 1.1052012351060154,
      "learning_rate": 1.1810216928118912e-06,
      "loss": 0.7572,
      "step": 13820
    },
    {
      "epoch": 0.8484606648454526,
      "grad_norm": 1.026031179566851,
      "learning_rate": 1.1800844783839382e-06,
      "loss": 0.6894,
      "step": 13821
    },
    {
      "epoch": 0.8485220540839191,
      "grad_norm": 0.9883446776013461,
      "learning_rate": 1.1791476126544187e-06,
      "loss": 0.7581,
      "step": 13822
    },
    {
      "epoch": 0.8485834433223856,
      "grad_norm": 1.0175906912662922,
      "learning_rate": 1.1782110956603699e-06,
      "loss": 0.7186,
      "step": 13823
    },
    {
      "epoch": 0.8486448325608521,
      "grad_norm": 1.0759178855724127,
      "learning_rate": 1.1772749274388219e-06,
      "loss": 0.7026,
      "step": 13824
    },
    {
      "epoch": 0.8487062217993185,
      "grad_norm": 1.088077790143703,
      "learning_rate": 1.1763391080267815e-06,
      "loss": 0.7527,
      "step": 13825
    },
    {
      "epoch": 0.8487676110377851,
      "grad_norm": 0.9616924843462853,
      "learning_rate": 1.1754036374612465e-06,
      "loss": 0.7395,
      "step": 13826
    },
    {
      "epoch": 0.8488290002762515,
      "grad_norm": 1.0404744804621484,
      "learning_rate": 1.1744685157792046e-06,
      "loss": 0.7473,
      "step": 13827
    },
    {
      "epoch": 0.8488903895147181,
      "grad_norm": 0.8974392524719386,
      "learning_rate": 1.1735337430176252e-06,
      "loss": 0.7492,
      "step": 13828
    },
    {
      "epoch": 0.8489517787531846,
      "grad_norm": 1.0342053459972573,
      "learning_rate": 1.1725993192134633e-06,
      "loss": 0.7692,
      "step": 13829
    },
    {
      "epoch": 0.849013167991651,
      "grad_norm": 1.1083274150907538,
      "learning_rate": 1.1716652444036636e-06,
      "loss": 0.755,
      "step": 13830
    },
    {
      "epoch": 0.8490745572301176,
      "grad_norm": 1.160983844625953,
      "learning_rate": 1.1707315186251534e-06,
      "loss": 0.7583,
      "step": 13831
    },
    {
      "epoch": 0.849135946468584,
      "grad_norm": 0.921154492217504,
      "learning_rate": 1.1697981419148485e-06,
      "loss": 0.722,
      "step": 13832
    },
    {
      "epoch": 0.8491973357070506,
      "grad_norm": 1.079731419373012,
      "learning_rate": 1.1688651143096486e-06,
      "loss": 0.7435,
      "step": 13833
    },
    {
      "epoch": 0.849258724945517,
      "grad_norm": 1.0474985669404542,
      "learning_rate": 1.1679324358464473e-06,
      "loss": 0.7303,
      "step": 13834
    },
    {
      "epoch": 0.8493201141839836,
      "grad_norm": 0.946024821303254,
      "learning_rate": 1.1670001065621105e-06,
      "loss": 0.7642,
      "step": 13835
    },
    {
      "epoch": 0.84938150342245,
      "grad_norm": 0.9588855495638925,
      "learning_rate": 1.1660681264935036e-06,
      "loss": 0.7326,
      "step": 13836
    },
    {
      "epoch": 0.8494428926609165,
      "grad_norm": 1.1548518904941125,
      "learning_rate": 1.165136495677468e-06,
      "loss": 0.7549,
      "step": 13837
    },
    {
      "epoch": 0.849504281899383,
      "grad_norm": 1.0452451781758703,
      "learning_rate": 1.1642052141508408e-06,
      "loss": 0.7154,
      "step": 13838
    },
    {
      "epoch": 0.8495656711378495,
      "grad_norm": 0.9811477995186928,
      "learning_rate": 1.1632742819504406e-06,
      "loss": 0.7178,
      "step": 13839
    },
    {
      "epoch": 0.8496270603763161,
      "grad_norm": 0.9338336524863855,
      "learning_rate": 1.1623436991130654e-06,
      "loss": 0.7115,
      "step": 13840
    },
    {
      "epoch": 0.8496884496147825,
      "grad_norm": 1.0615910170021603,
      "learning_rate": 1.161413465675514e-06,
      "loss": 0.7421,
      "step": 13841
    },
    {
      "epoch": 0.8497498388532491,
      "grad_norm": 0.9314144099971728,
      "learning_rate": 1.1604835816745607e-06,
      "loss": 0.7613,
      "step": 13842
    },
    {
      "epoch": 0.8498112280917155,
      "grad_norm": 1.1083571905546212,
      "learning_rate": 1.159554047146968e-06,
      "loss": 0.753,
      "step": 13843
    },
    {
      "epoch": 0.849872617330182,
      "grad_norm": 1.0485794521720415,
      "learning_rate": 1.1586248621294849e-06,
      "loss": 0.7301,
      "step": 13844
    },
    {
      "epoch": 0.8499340065686485,
      "grad_norm": 1.0392114319370216,
      "learning_rate": 1.1576960266588488e-06,
      "loss": 0.742,
      "step": 13845
    },
    {
      "epoch": 0.849995395807115,
      "grad_norm": 0.9758266476509538,
      "learning_rate": 1.1567675407717816e-06,
      "loss": 0.7414,
      "step": 13846
    },
    {
      "epoch": 0.8500567850455815,
      "grad_norm": 0.9137220912246052,
      "learning_rate": 1.1558394045049892e-06,
      "loss": 0.7195,
      "step": 13847
    },
    {
      "epoch": 0.850118174284048,
      "grad_norm": 1.0587044923286861,
      "learning_rate": 1.1549116178951659e-06,
      "loss": 0.7911,
      "step": 13848
    },
    {
      "epoch": 0.8501795635225146,
      "grad_norm": 0.9916797633477672,
      "learning_rate": 1.1539841809789965e-06,
      "loss": 0.7378,
      "step": 13849
    },
    {
      "epoch": 0.850240952760981,
      "grad_norm": 1.022316586255117,
      "learning_rate": 1.153057093793143e-06,
      "loss": 0.7239,
      "step": 13850
    },
    {
      "epoch": 0.8503023419994475,
      "grad_norm": 0.9628658292848975,
      "learning_rate": 1.152130356374256e-06,
      "loss": 0.7367,
      "step": 13851
    },
    {
      "epoch": 0.850363731237914,
      "grad_norm": 1.0273980248551278,
      "learning_rate": 1.1512039687589804e-06,
      "loss": 0.7005,
      "step": 13852
    },
    {
      "epoch": 0.8504251204763805,
      "grad_norm": 0.97189044161548,
      "learning_rate": 1.1502779309839395e-06,
      "loss": 0.7015,
      "step": 13853
    },
    {
      "epoch": 0.850486509714847,
      "grad_norm": 1.0525502772711919,
      "learning_rate": 1.1493522430857429e-06,
      "loss": 0.6785,
      "step": 13854
    },
    {
      "epoch": 0.8505478989533135,
      "grad_norm": 1.072475697532318,
      "learning_rate": 1.148426905100989e-06,
      "loss": 0.737,
      "step": 13855
    },
    {
      "epoch": 0.8506092881917799,
      "grad_norm": 0.9918320278146813,
      "learning_rate": 1.1475019170662605e-06,
      "loss": 0.7288,
      "step": 13856
    },
    {
      "epoch": 0.8506706774302465,
      "grad_norm": 0.9625239859033999,
      "learning_rate": 1.1465772790181284e-06,
      "loss": 0.7499,
      "step": 13857
    },
    {
      "epoch": 0.8507320666687129,
      "grad_norm": 1.0165139057663737,
      "learning_rate": 1.1456529909931447e-06,
      "loss": 0.782,
      "step": 13858
    },
    {
      "epoch": 0.8507934559071795,
      "grad_norm": 1.0481966974317778,
      "learning_rate": 1.1447290530278598e-06,
      "loss": 0.7256,
      "step": 13859
    },
    {
      "epoch": 0.850854845145646,
      "grad_norm": 1.0403244436281216,
      "learning_rate": 1.143805465158795e-06,
      "loss": 0.7127,
      "step": 13860
    },
    {
      "epoch": 0.8509162343841125,
      "grad_norm": 0.9645334329931258,
      "learning_rate": 1.142882227422466e-06,
      "loss": 0.7397,
      "step": 13861
    },
    {
      "epoch": 0.850977623622579,
      "grad_norm": 1.0712792129773003,
      "learning_rate": 1.1419593398553707e-06,
      "loss": 0.7365,
      "step": 13862
    },
    {
      "epoch": 0.8510390128610454,
      "grad_norm": 1.1054316361908954,
      "learning_rate": 1.1410368024940022e-06,
      "loss": 0.7443,
      "step": 13863
    },
    {
      "epoch": 0.851100402099512,
      "grad_norm": 0.9146188274429885,
      "learning_rate": 1.140114615374831e-06,
      "loss": 0.78,
      "step": 13864
    },
    {
      "epoch": 0.8511617913379784,
      "grad_norm": 1.0298251966143586,
      "learning_rate": 1.1391927785343114e-06,
      "loss": 0.6845,
      "step": 13865
    },
    {
      "epoch": 0.851223180576445,
      "grad_norm": 0.9689614249765913,
      "learning_rate": 1.1382712920088945e-06,
      "loss": 0.7205,
      "step": 13866
    },
    {
      "epoch": 0.8512845698149114,
      "grad_norm": 1.041352678704761,
      "learning_rate": 1.1373501558350098e-06,
      "loss": 0.7248,
      "step": 13867
    },
    {
      "epoch": 0.851345959053378,
      "grad_norm": 1.0189242596881165,
      "learning_rate": 1.1364293700490736e-06,
      "loss": 0.7582,
      "step": 13868
    },
    {
      "epoch": 0.8514073482918444,
      "grad_norm": 1.048201605253515,
      "learning_rate": 1.1355089346874902e-06,
      "loss": 0.6807,
      "step": 13869
    },
    {
      "epoch": 0.8514687375303109,
      "grad_norm": 1.0476263990942885,
      "learning_rate": 1.1345888497866486e-06,
      "loss": 0.7525,
      "step": 13870
    },
    {
      "epoch": 0.8515301267687775,
      "grad_norm": 1.131084316426722,
      "learning_rate": 1.133669115382926e-06,
      "loss": 0.7167,
      "step": 13871
    },
    {
      "epoch": 0.8515915160072439,
      "grad_norm": 1.0574807134408821,
      "learning_rate": 1.1327497315126811e-06,
      "loss": 0.7453,
      "step": 13872
    },
    {
      "epoch": 0.8516529052457105,
      "grad_norm": 1.052642856250664,
      "learning_rate": 1.1318306982122674e-06,
      "loss": 0.7801,
      "step": 13873
    },
    {
      "epoch": 0.8517142944841769,
      "grad_norm": 0.5728651173109762,
      "learning_rate": 1.1309120155180186e-06,
      "loss": 0.5878,
      "step": 13874
    },
    {
      "epoch": 0.8517756837226435,
      "grad_norm": 0.9905106921391806,
      "learning_rate": 1.1299936834662506e-06,
      "loss": 0.7129,
      "step": 13875
    },
    {
      "epoch": 0.8518370729611099,
      "grad_norm": 0.9581882436400844,
      "learning_rate": 1.1290757020932707e-06,
      "loss": 0.72,
      "step": 13876
    },
    {
      "epoch": 0.8518984621995764,
      "grad_norm": 1.1875497799853254,
      "learning_rate": 1.1281580714353746e-06,
      "loss": 0.7469,
      "step": 13877
    },
    {
      "epoch": 0.8519598514380429,
      "grad_norm": 1.103182038535754,
      "learning_rate": 1.1272407915288408e-06,
      "loss": 0.7067,
      "step": 13878
    },
    {
      "epoch": 0.8520212406765094,
      "grad_norm": 1.0429382354210515,
      "learning_rate": 1.1263238624099327e-06,
      "loss": 0.7534,
      "step": 13879
    },
    {
      "epoch": 0.8520826299149759,
      "grad_norm": 0.6118134582793183,
      "learning_rate": 1.1254072841149021e-06,
      "loss": 0.6864,
      "step": 13880
    },
    {
      "epoch": 0.8521440191534424,
      "grad_norm": 1.1608237766642713,
      "learning_rate": 1.1244910566799872e-06,
      "loss": 0.7235,
      "step": 13881
    },
    {
      "epoch": 0.852205408391909,
      "grad_norm": 0.6000643433214014,
      "learning_rate": 1.1235751801414097e-06,
      "loss": 0.6594,
      "step": 13882
    },
    {
      "epoch": 0.8522667976303754,
      "grad_norm": 0.9721199251152615,
      "learning_rate": 1.1226596545353774e-06,
      "loss": 0.7443,
      "step": 13883
    },
    {
      "epoch": 0.8523281868688419,
      "grad_norm": 1.0371724563994835,
      "learning_rate": 1.1217444798980926e-06,
      "loss": 0.7649,
      "step": 13884
    },
    {
      "epoch": 0.8523895761073084,
      "grad_norm": 1.1094185772347873,
      "learning_rate": 1.1208296562657317e-06,
      "loss": 0.7043,
      "step": 13885
    },
    {
      "epoch": 0.8524509653457749,
      "grad_norm": 1.0848964748962677,
      "learning_rate": 1.1199151836744627e-06,
      "loss": 0.7011,
      "step": 13886
    },
    {
      "epoch": 0.8525123545842413,
      "grad_norm": 1.0355720599617078,
      "learning_rate": 1.1190010621604387e-06,
      "loss": 0.7311,
      "step": 13887
    },
    {
      "epoch": 0.8525737438227079,
      "grad_norm": 0.8393445414911517,
      "learning_rate": 1.1180872917598052e-06,
      "loss": 0.704,
      "step": 13888
    },
    {
      "epoch": 0.8526351330611743,
      "grad_norm": 1.0017075322322055,
      "learning_rate": 1.1171738725086833e-06,
      "loss": 0.7656,
      "step": 13889
    },
    {
      "epoch": 0.8526965222996409,
      "grad_norm": 1.0517990246258702,
      "learning_rate": 1.1162608044431845e-06,
      "loss": 0.694,
      "step": 13890
    },
    {
      "epoch": 0.8527579115381073,
      "grad_norm": 1.1232366769986148,
      "learning_rate": 1.1153480875994115e-06,
      "loss": 0.7659,
      "step": 13891
    },
    {
      "epoch": 0.8528193007765739,
      "grad_norm": 1.0663629256807152,
      "learning_rate": 1.1144357220134482e-06,
      "loss": 0.7366,
      "step": 13892
    },
    {
      "epoch": 0.8528806900150404,
      "grad_norm": 1.0049363130475097,
      "learning_rate": 1.1135237077213635e-06,
      "loss": 0.7257,
      "step": 13893
    },
    {
      "epoch": 0.8529420792535068,
      "grad_norm": 1.0746285376410687,
      "learning_rate": 1.1126120447592147e-06,
      "loss": 0.7143,
      "step": 13894
    },
    {
      "epoch": 0.8530034684919734,
      "grad_norm": 1.0647201052637354,
      "learning_rate": 1.1117007331630446e-06,
      "loss": 0.7547,
      "step": 13895
    },
    {
      "epoch": 0.8530648577304398,
      "grad_norm": 0.996911633360219,
      "learning_rate": 1.1107897729688833e-06,
      "loss": 0.7143,
      "step": 13896
    },
    {
      "epoch": 0.8531262469689064,
      "grad_norm": 1.002925190222727,
      "learning_rate": 1.1098791642127427e-06,
      "loss": 0.7363,
      "step": 13897
    },
    {
      "epoch": 0.8531876362073728,
      "grad_norm": 1.0533468337462113,
      "learning_rate": 1.1089689069306308e-06,
      "loss": 0.7425,
      "step": 13898
    },
    {
      "epoch": 0.8532490254458394,
      "grad_norm": 1.0124491853370063,
      "learning_rate": 1.108059001158528e-06,
      "loss": 0.6845,
      "step": 13899
    },
    {
      "epoch": 0.8533104146843058,
      "grad_norm": 1.0380307768675552,
      "learning_rate": 1.1071494469324107e-06,
      "loss": 0.7395,
      "step": 13900
    },
    {
      "epoch": 0.8533718039227723,
      "grad_norm": 1.0492654093211866,
      "learning_rate": 1.1062402442882358e-06,
      "loss": 0.7463,
      "step": 13901
    },
    {
      "epoch": 0.8534331931612389,
      "grad_norm": 1.028688150356557,
      "learning_rate": 1.1053313932619535e-06,
      "loss": 0.7351,
      "step": 13902
    },
    {
      "epoch": 0.8534945823997053,
      "grad_norm": 0.9413780259448414,
      "learning_rate": 1.1044228938894952e-06,
      "loss": 0.7224,
      "step": 13903
    },
    {
      "epoch": 0.8535559716381719,
      "grad_norm": 0.999052368755178,
      "learning_rate": 1.103514746206772e-06,
      "loss": 0.7043,
      "step": 13904
    },
    {
      "epoch": 0.8536173608766383,
      "grad_norm": 0.9762573215547633,
      "learning_rate": 1.102606950249696e-06,
      "loss": 0.7322,
      "step": 13905
    },
    {
      "epoch": 0.8536787501151049,
      "grad_norm": 0.9154138206935795,
      "learning_rate": 1.1016995060541524e-06,
      "loss": 0.6979,
      "step": 13906
    },
    {
      "epoch": 0.8537401393535713,
      "grad_norm": 1.0833312882366164,
      "learning_rate": 1.10079241365602e-06,
      "loss": 0.7141,
      "step": 13907
    },
    {
      "epoch": 0.8538015285920378,
      "grad_norm": 0.9832557718993307,
      "learning_rate": 1.0998856730911588e-06,
      "loss": 0.7127,
      "step": 13908
    },
    {
      "epoch": 0.8538629178305043,
      "grad_norm": 1.067021903302017,
      "learning_rate": 1.0989792843954196e-06,
      "loss": 0.7156,
      "step": 13909
    },
    {
      "epoch": 0.8539243070689708,
      "grad_norm": 1.0634703775029895,
      "learning_rate": 1.098073247604634e-06,
      "loss": 0.7598,
      "step": 13910
    },
    {
      "epoch": 0.8539856963074373,
      "grad_norm": 0.935236608217437,
      "learning_rate": 1.0971675627546218e-06,
      "loss": 0.7185,
      "step": 13911
    },
    {
      "epoch": 0.8540470855459038,
      "grad_norm": 1.087843872133209,
      "learning_rate": 1.0962622298811943e-06,
      "loss": 0.7365,
      "step": 13912
    },
    {
      "epoch": 0.8541084747843704,
      "grad_norm": 1.0646565237026528,
      "learning_rate": 1.0953572490201426e-06,
      "loss": 0.7398,
      "step": 13913
    },
    {
      "epoch": 0.8541698640228368,
      "grad_norm": 1.0706963583778757,
      "learning_rate": 1.0944526202072424e-06,
      "loss": 0.6784,
      "step": 13914
    },
    {
      "epoch": 0.8542312532613033,
      "grad_norm": 0.9701542157308899,
      "learning_rate": 1.093548343478259e-06,
      "loss": 0.7062,
      "step": 13915
    },
    {
      "epoch": 0.8542926424997698,
      "grad_norm": 1.1526299914799412,
      "learning_rate": 1.0926444188689467e-06,
      "loss": 0.7102,
      "step": 13916
    },
    {
      "epoch": 0.8543540317382363,
      "grad_norm": 1.0313943750636152,
      "learning_rate": 1.0917408464150392e-06,
      "loss": 0.7768,
      "step": 13917
    },
    {
      "epoch": 0.8544154209767028,
      "grad_norm": 1.0872620713574257,
      "learning_rate": 1.0908376261522613e-06,
      "loss": 0.7762,
      "step": 13918
    },
    {
      "epoch": 0.8544768102151693,
      "grad_norm": 1.0083931324669613,
      "learning_rate": 1.0899347581163222e-06,
      "loss": 0.694,
      "step": 13919
    },
    {
      "epoch": 0.8545381994536357,
      "grad_norm": 1.152099910676843,
      "learning_rate": 1.0890322423429155e-06,
      "loss": 0.7396,
      "step": 13920
    },
    {
      "epoch": 0.8545995886921023,
      "grad_norm": 1.1112455635016596,
      "learning_rate": 1.0881300788677241e-06,
      "loss": 0.7147,
      "step": 13921
    },
    {
      "epoch": 0.8546609779305687,
      "grad_norm": 1.076381906146552,
      "learning_rate": 1.0872282677264124e-06,
      "loss": 0.7585,
      "step": 13922
    },
    {
      "epoch": 0.8547223671690353,
      "grad_norm": 0.9060877492985975,
      "learning_rate": 1.0863268089546408e-06,
      "loss": 0.6575,
      "step": 13923
    },
    {
      "epoch": 0.8547837564075018,
      "grad_norm": 1.0791410422755894,
      "learning_rate": 1.085425702588041e-06,
      "loss": 0.7251,
      "step": 13924
    },
    {
      "epoch": 0.8548451456459683,
      "grad_norm": 1.1779887993545193,
      "learning_rate": 1.0845249486622422e-06,
      "loss": 0.8207,
      "step": 13925
    },
    {
      "epoch": 0.8549065348844348,
      "grad_norm": 0.9835598233142558,
      "learning_rate": 1.0836245472128538e-06,
      "loss": 0.7953,
      "step": 13926
    },
    {
      "epoch": 0.8549679241229012,
      "grad_norm": 1.0409334296935278,
      "learning_rate": 1.082724498275477e-06,
      "loss": 0.72,
      "step": 13927
    },
    {
      "epoch": 0.8550293133613678,
      "grad_norm": 1.118614082878782,
      "learning_rate": 1.0818248018856958e-06,
      "loss": 0.7926,
      "step": 13928
    },
    {
      "epoch": 0.8550907025998342,
      "grad_norm": 1.1624678655263374,
      "learning_rate": 1.080925458079074e-06,
      "loss": 0.7725,
      "step": 13929
    },
    {
      "epoch": 0.8551520918383008,
      "grad_norm": 0.994337240751814,
      "learning_rate": 1.080026466891173e-06,
      "loss": 0.7227,
      "step": 13930
    },
    {
      "epoch": 0.8552134810767672,
      "grad_norm": 1.0683115300363755,
      "learning_rate": 1.0791278283575336e-06,
      "loss": 0.7688,
      "step": 13931
    },
    {
      "epoch": 0.8552748703152337,
      "grad_norm": 1.131315245801429,
      "learning_rate": 1.0782295425136835e-06,
      "loss": 0.7449,
      "step": 13932
    },
    {
      "epoch": 0.8553362595537002,
      "grad_norm": 0.9500301964633976,
      "learning_rate": 1.0773316093951358e-06,
      "loss": 0.7436,
      "step": 13933
    },
    {
      "epoch": 0.8553976487921667,
      "grad_norm": 0.9651824841766915,
      "learning_rate": 1.0764340290373921e-06,
      "loss": 0.77,
      "step": 13934
    },
    {
      "epoch": 0.8554590380306333,
      "grad_norm": 0.6038050678759996,
      "learning_rate": 1.0755368014759371e-06,
      "loss": 0.6875,
      "step": 13935
    },
    {
      "epoch": 0.8555204272690997,
      "grad_norm": 1.072586394813946,
      "learning_rate": 1.0746399267462416e-06,
      "loss": 0.8052,
      "step": 13936
    },
    {
      "epoch": 0.8555818165075663,
      "grad_norm": 1.12232463387015,
      "learning_rate": 1.073743404883769e-06,
      "loss": 0.7547,
      "step": 13937
    },
    {
      "epoch": 0.8556432057460327,
      "grad_norm": 0.9602734710031305,
      "learning_rate": 1.0728472359239616e-06,
      "loss": 0.7066,
      "step": 13938
    },
    {
      "epoch": 0.8557045949844992,
      "grad_norm": 1.0036562203192771,
      "learning_rate": 1.0719514199022473e-06,
      "loss": 0.7725,
      "step": 13939
    },
    {
      "epoch": 0.8557659842229657,
      "grad_norm": 1.0700251717291462,
      "learning_rate": 1.0710559568540425e-06,
      "loss": 0.6846,
      "step": 13940
    },
    {
      "epoch": 0.8558273734614322,
      "grad_norm": 0.6245490894711454,
      "learning_rate": 1.0701608468147517e-06,
      "loss": 0.6369,
      "step": 13941
    },
    {
      "epoch": 0.8558887626998987,
      "grad_norm": 1.010119795695953,
      "learning_rate": 1.0692660898197638e-06,
      "loss": 0.7541,
      "step": 13942
    },
    {
      "epoch": 0.8559501519383652,
      "grad_norm": 1.0412728430994602,
      "learning_rate": 1.0683716859044513e-06,
      "loss": 0.729,
      "step": 13943
    },
    {
      "epoch": 0.8560115411768316,
      "grad_norm": 1.0959463895090629,
      "learning_rate": 1.067477635104177e-06,
      "loss": 0.7589,
      "step": 13944
    },
    {
      "epoch": 0.8560729304152982,
      "grad_norm": 1.1043540255363133,
      "learning_rate": 1.0665839374542853e-06,
      "loss": 0.7225,
      "step": 13945
    },
    {
      "epoch": 0.8561343196537647,
      "grad_norm": 1.0138607361261738,
      "learning_rate": 1.0656905929901108e-06,
      "loss": 0.7453,
      "step": 13946
    },
    {
      "epoch": 0.8561957088922312,
      "grad_norm": 1.0133736998489187,
      "learning_rate": 1.0647976017469685e-06,
      "loss": 0.7725,
      "step": 13947
    },
    {
      "epoch": 0.8562570981306977,
      "grad_norm": 1.0057601659272022,
      "learning_rate": 1.0639049637601695e-06,
      "loss": 0.677,
      "step": 13948
    },
    {
      "epoch": 0.8563184873691642,
      "grad_norm": 1.0092354470338287,
      "learning_rate": 1.0630126790649998e-06,
      "loss": 0.8185,
      "step": 13949
    },
    {
      "epoch": 0.8563798766076307,
      "grad_norm": 1.0338445582641846,
      "learning_rate": 1.0621207476967343e-06,
      "loss": 0.7162,
      "step": 13950
    },
    {
      "epoch": 0.8564412658460971,
      "grad_norm": 0.9397971992294987,
      "learning_rate": 1.0612291696906407e-06,
      "loss": 0.7644,
      "step": 13951
    },
    {
      "epoch": 0.8565026550845637,
      "grad_norm": 1.0566300915329199,
      "learning_rate": 1.0603379450819684e-06,
      "loss": 0.7612,
      "step": 13952
    },
    {
      "epoch": 0.8565640443230301,
      "grad_norm": 0.9519195671102216,
      "learning_rate": 1.059447073905948e-06,
      "loss": 0.7987,
      "step": 13953
    },
    {
      "epoch": 0.8566254335614967,
      "grad_norm": 1.035069640592164,
      "learning_rate": 1.0585565561978007e-06,
      "loss": 0.7478,
      "step": 13954
    },
    {
      "epoch": 0.8566868227999632,
      "grad_norm": 1.1794379922046196,
      "learning_rate": 1.0576663919927366e-06,
      "loss": 0.7424,
      "step": 13955
    },
    {
      "epoch": 0.8567482120384297,
      "grad_norm": 0.9854376143024125,
      "learning_rate": 1.0567765813259455e-06,
      "loss": 0.7316,
      "step": 13956
    },
    {
      "epoch": 0.8568096012768962,
      "grad_norm": 1.1291497440690195,
      "learning_rate": 1.0558871242326097e-06,
      "loss": 0.7112,
      "step": 13957
    },
    {
      "epoch": 0.8568709905153626,
      "grad_norm": 0.9988892828385099,
      "learning_rate": 1.0549980207478916e-06,
      "loss": 0.7391,
      "step": 13958
    },
    {
      "epoch": 0.8569323797538292,
      "grad_norm": 1.0377341544013103,
      "learning_rate": 1.0541092709069433e-06,
      "loss": 0.6931,
      "step": 13959
    },
    {
      "epoch": 0.8569937689922956,
      "grad_norm": 1.1195494101549823,
      "learning_rate": 1.0532208747449014e-06,
      "loss": 0.714,
      "step": 13960
    },
    {
      "epoch": 0.8570551582307622,
      "grad_norm": 0.961015884541432,
      "learning_rate": 1.0523328322968863e-06,
      "loss": 0.6971,
      "step": 13961
    },
    {
      "epoch": 0.8571165474692286,
      "grad_norm": 1.0490028788017594,
      "learning_rate": 1.0514451435980143e-06,
      "loss": 0.7203,
      "step": 13962
    },
    {
      "epoch": 0.8571779367076952,
      "grad_norm": 1.0287134325696061,
      "learning_rate": 1.0505578086833745e-06,
      "loss": 0.7583,
      "step": 13963
    },
    {
      "epoch": 0.8572393259461616,
      "grad_norm": 0.905018333667196,
      "learning_rate": 1.0496708275880497e-06,
      "loss": 0.7413,
      "step": 13964
    },
    {
      "epoch": 0.8573007151846281,
      "grad_norm": 0.9957728055182715,
      "learning_rate": 1.0487842003471038e-06,
      "loss": 0.7402,
      "step": 13965
    },
    {
      "epoch": 0.8573621044230947,
      "grad_norm": 1.0327031089384062,
      "learning_rate": 1.0478979269955958e-06,
      "loss": 0.699,
      "step": 13966
    },
    {
      "epoch": 0.8574234936615611,
      "grad_norm": 1.1734377154566205,
      "learning_rate": 1.047012007568563e-06,
      "loss": 0.7474,
      "step": 13967
    },
    {
      "epoch": 0.8574848829000277,
      "grad_norm": 1.0541343370778267,
      "learning_rate": 1.0461264421010265e-06,
      "loss": 0.7415,
      "step": 13968
    },
    {
      "epoch": 0.8575462721384941,
      "grad_norm": 1.0737533353941042,
      "learning_rate": 1.0452412306280023e-06,
      "loss": 0.7762,
      "step": 13969
    },
    {
      "epoch": 0.8576076613769607,
      "grad_norm": 1.031535336688933,
      "learning_rate": 1.0443563731844852e-06,
      "loss": 0.7362,
      "step": 13970
    },
    {
      "epoch": 0.8576690506154271,
      "grad_norm": 1.0049615608184022,
      "learning_rate": 1.043471869805459e-06,
      "loss": 0.7152,
      "step": 13971
    },
    {
      "epoch": 0.8577304398538936,
      "grad_norm": 0.8694058126045593,
      "learning_rate": 1.0425877205258928e-06,
      "loss": 0.7513,
      "step": 13972
    },
    {
      "epoch": 0.8577918290923601,
      "grad_norm": 1.0848599023993053,
      "learning_rate": 1.0417039253807416e-06,
      "loss": 0.7067,
      "step": 13973
    },
    {
      "epoch": 0.8578532183308266,
      "grad_norm": 1.0322052549561662,
      "learning_rate": 1.0408204844049464e-06,
      "loss": 0.6992,
      "step": 13974
    },
    {
      "epoch": 0.857914607569293,
      "grad_norm": 0.665347517277208,
      "learning_rate": 1.0399373976334326e-06,
      "loss": 0.6554,
      "step": 13975
    },
    {
      "epoch": 0.8579759968077596,
      "grad_norm": 1.0797943317693275,
      "learning_rate": 1.0390546651011168e-06,
      "loss": 0.7218,
      "step": 13976
    },
    {
      "epoch": 0.8580373860462261,
      "grad_norm": 1.1169664882732273,
      "learning_rate": 1.038172286842899e-06,
      "loss": 0.7375,
      "step": 13977
    },
    {
      "epoch": 0.8580987752846926,
      "grad_norm": 1.0449554313576614,
      "learning_rate": 1.0372902628936598e-06,
      "loss": 0.7041,
      "step": 13978
    },
    {
      "epoch": 0.8581601645231591,
      "grad_norm": 1.0047470922203168,
      "learning_rate": 1.0364085932882706e-06,
      "loss": 0.8097,
      "step": 13979
    },
    {
      "epoch": 0.8582215537616256,
      "grad_norm": 1.1361308643963823,
      "learning_rate": 1.0355272780615921e-06,
      "loss": 0.7608,
      "step": 13980
    },
    {
      "epoch": 0.8582829430000921,
      "grad_norm": 1.0550519851761773,
      "learning_rate": 1.0346463172484667e-06,
      "loss": 0.7355,
      "step": 13981
    },
    {
      "epoch": 0.8583443322385585,
      "grad_norm": 1.0803459677422218,
      "learning_rate": 1.0337657108837208e-06,
      "loss": 0.7399,
      "step": 13982
    },
    {
      "epoch": 0.8584057214770251,
      "grad_norm": 1.125609285406093,
      "learning_rate": 1.032885459002172e-06,
      "loss": 0.7484,
      "step": 13983
    },
    {
      "epoch": 0.8584671107154915,
      "grad_norm": 1.099789778034862,
      "learning_rate": 1.0320055616386205e-06,
      "loss": 0.7295,
      "step": 13984
    },
    {
      "epoch": 0.8585284999539581,
      "grad_norm": 1.0151229075475654,
      "learning_rate": 1.0311260188278537e-06,
      "loss": 0.7178,
      "step": 13985
    },
    {
      "epoch": 0.8585898891924245,
      "grad_norm": 1.215633999397172,
      "learning_rate": 1.0302468306046421e-06,
      "loss": 0.7551,
      "step": 13986
    },
    {
      "epoch": 0.8586512784308911,
      "grad_norm": 1.161798733823467,
      "learning_rate": 1.0293679970037508e-06,
      "loss": 0.7564,
      "step": 13987
    },
    {
      "epoch": 0.8587126676693576,
      "grad_norm": 1.2512633811979266,
      "learning_rate": 1.0284895180599185e-06,
      "loss": 0.6991,
      "step": 13988
    },
    {
      "epoch": 0.858774056907824,
      "grad_norm": 0.9387554318845404,
      "learning_rate": 1.0276113938078768e-06,
      "loss": 0.7105,
      "step": 13989
    },
    {
      "epoch": 0.8588354461462906,
      "grad_norm": 1.1145974413968593,
      "learning_rate": 1.0267336242823466e-06,
      "loss": 0.734,
      "step": 13990
    },
    {
      "epoch": 0.858896835384757,
      "grad_norm": 1.0432867317404955,
      "learning_rate": 1.0258562095180291e-06,
      "loss": 0.7329,
      "step": 13991
    },
    {
      "epoch": 0.8589582246232236,
      "grad_norm": 1.0049683677393477,
      "learning_rate": 1.0249791495496143e-06,
      "loss": 0.7295,
      "step": 13992
    },
    {
      "epoch": 0.85901961386169,
      "grad_norm": 1.1234953613690202,
      "learning_rate": 1.024102444411771e-06,
      "loss": 0.7428,
      "step": 13993
    },
    {
      "epoch": 0.8590810031001566,
      "grad_norm": 0.9300746295091119,
      "learning_rate": 1.0232260941391669e-06,
      "loss": 0.7591,
      "step": 13994
    },
    {
      "epoch": 0.859142392338623,
      "grad_norm": 1.0037732499200285,
      "learning_rate": 1.0223500987664458e-06,
      "loss": 0.766,
      "step": 13995
    },
    {
      "epoch": 0.8592037815770895,
      "grad_norm": 0.965647786712698,
      "learning_rate": 1.0214744583282422e-06,
      "loss": 0.7022,
      "step": 13996
    },
    {
      "epoch": 0.859265170815556,
      "grad_norm": 0.9627296899127077,
      "learning_rate": 1.0205991728591735e-06,
      "loss": 0.7303,
      "step": 13997
    },
    {
      "epoch": 0.8593265600540225,
      "grad_norm": 1.1088166564713127,
      "learning_rate": 1.0197242423938447e-06,
      "loss": 0.7669,
      "step": 13998
    },
    {
      "epoch": 0.8593879492924891,
      "grad_norm": 0.9513595974730954,
      "learning_rate": 1.0188496669668469e-06,
      "loss": 0.735,
      "step": 13999
    },
    {
      "epoch": 0.8594493385309555,
      "grad_norm": 1.2321037715123526,
      "learning_rate": 1.0179754466127533e-06,
      "loss": 0.7253,
      "step": 14000
    },
    {
      "epoch": 0.8595107277694221,
      "grad_norm": 1.1023635573157373,
      "learning_rate": 1.0171015813661322e-06,
      "loss": 0.7081,
      "step": 14001
    },
    {
      "epoch": 0.8595721170078885,
      "grad_norm": 1.0357327212169718,
      "learning_rate": 1.0162280712615314e-06,
      "loss": 0.7375,
      "step": 14002
    },
    {
      "epoch": 0.859633506246355,
      "grad_norm": 1.041158879699981,
      "learning_rate": 1.0153549163334809e-06,
      "loss": 0.7557,
      "step": 14003
    },
    {
      "epoch": 0.8596948954848215,
      "grad_norm": 1.0795118472246108,
      "learning_rate": 1.014482116616503e-06,
      "loss": 0.686,
      "step": 14004
    },
    {
      "epoch": 0.859756284723288,
      "grad_norm": 1.1799614231020132,
      "learning_rate": 1.0136096721451061e-06,
      "loss": 0.7502,
      "step": 14005
    },
    {
      "epoch": 0.8598176739617545,
      "grad_norm": 1.0900493029138871,
      "learning_rate": 1.0127375829537822e-06,
      "loss": 0.7458,
      "step": 14006
    },
    {
      "epoch": 0.859879063200221,
      "grad_norm": 1.0331857743640664,
      "learning_rate": 1.0118658490770083e-06,
      "loss": 0.7275,
      "step": 14007
    },
    {
      "epoch": 0.8599404524386876,
      "grad_norm": 1.051162779562178,
      "learning_rate": 1.0109944705492492e-06,
      "loss": 0.7461,
      "step": 14008
    },
    {
      "epoch": 0.860001841677154,
      "grad_norm": 1.0998801846268014,
      "learning_rate": 1.010123447404956e-06,
      "loss": 0.7436,
      "step": 14009
    },
    {
      "epoch": 0.8600632309156205,
      "grad_norm": 1.0043633147832474,
      "learning_rate": 1.0092527796785633e-06,
      "loss": 0.6989,
      "step": 14010
    },
    {
      "epoch": 0.860124620154087,
      "grad_norm": 1.2236719945933028,
      "learning_rate": 1.008382467404493e-06,
      "loss": 0.7277,
      "step": 14011
    },
    {
      "epoch": 0.8601860093925535,
      "grad_norm": 1.0647924393377448,
      "learning_rate": 1.0075125106171579e-06,
      "loss": 0.7299,
      "step": 14012
    },
    {
      "epoch": 0.86024739863102,
      "grad_norm": 1.1010805351555173,
      "learning_rate": 1.0066429093509456e-06,
      "loss": 0.7271,
      "step": 14013
    },
    {
      "epoch": 0.8603087878694865,
      "grad_norm": 0.9605522932099922,
      "learning_rate": 1.0057736636402382e-06,
      "loss": 0.6976,
      "step": 14014
    },
    {
      "epoch": 0.8603701771079529,
      "grad_norm": 1.2042077819170418,
      "learning_rate": 1.004904773519404e-06,
      "loss": 0.7046,
      "step": 14015
    },
    {
      "epoch": 0.8604315663464195,
      "grad_norm": 1.0314742989316341,
      "learning_rate": 1.0040362390227931e-06,
      "loss": 0.7268,
      "step": 14016
    },
    {
      "epoch": 0.8604929555848859,
      "grad_norm": 1.0241268604677272,
      "learning_rate": 1.0031680601847448e-06,
      "loss": 0.6969,
      "step": 14017
    },
    {
      "epoch": 0.8605543448233525,
      "grad_norm": 1.0087553054557854,
      "learning_rate": 1.0023002370395785e-06,
      "loss": 0.7555,
      "step": 14018
    },
    {
      "epoch": 0.860615734061819,
      "grad_norm": 1.1373002515611121,
      "learning_rate": 1.0014327696216087e-06,
      "loss": 0.7442,
      "step": 14019
    },
    {
      "epoch": 0.8606771233002855,
      "grad_norm": 1.0353315992517536,
      "learning_rate": 1.000565657965129e-06,
      "loss": 0.6935,
      "step": 14020
    },
    {
      "epoch": 0.860738512538752,
      "grad_norm": 1.0358373325950276,
      "learning_rate": 9.996989021044224e-07,
      "loss": 0.733,
      "step": 14021
    },
    {
      "epoch": 0.8607999017772184,
      "grad_norm": 1.0007786730061998,
      "learning_rate": 9.988325020737533e-07,
      "loss": 0.7239,
      "step": 14022
    },
    {
      "epoch": 0.860861291015685,
      "grad_norm": 0.9896695758348261,
      "learning_rate": 9.979664579073777e-07,
      "loss": 0.6913,
      "step": 14023
    },
    {
      "epoch": 0.8609226802541514,
      "grad_norm": 1.0131393720572346,
      "learning_rate": 9.971007696395352e-07,
      "loss": 0.7403,
      "step": 14024
    },
    {
      "epoch": 0.860984069492618,
      "grad_norm": 1.0846562433293376,
      "learning_rate": 9.96235437304447e-07,
      "loss": 0.7414,
      "step": 14025
    },
    {
      "epoch": 0.8610454587310844,
      "grad_norm": 1.1347632646657635,
      "learning_rate": 9.953704609363325e-07,
      "loss": 0.7882,
      "step": 14026
    },
    {
      "epoch": 0.861106847969551,
      "grad_norm": 1.0398491566896266,
      "learning_rate": 9.945058405693808e-07,
      "loss": 0.7429,
      "step": 14027
    },
    {
      "epoch": 0.8611682372080174,
      "grad_norm": 1.0858042697490327,
      "learning_rate": 9.936415762377771e-07,
      "loss": 0.718,
      "step": 14028
    },
    {
      "epoch": 0.8612296264464839,
      "grad_norm": 1.1089465648202064,
      "learning_rate": 9.927776679756918e-07,
      "loss": 0.7117,
      "step": 14029
    },
    {
      "epoch": 0.8612910156849505,
      "grad_norm": 1.1197613475735864,
      "learning_rate": 9.919141158172807e-07,
      "loss": 0.7276,
      "step": 14030
    },
    {
      "epoch": 0.8613524049234169,
      "grad_norm": 1.1176288876472993,
      "learning_rate": 9.910509197966845e-07,
      "loss": 0.6944,
      "step": 14031
    },
    {
      "epoch": 0.8614137941618835,
      "grad_norm": 1.0734469407699339,
      "learning_rate": 9.901880799480246e-07,
      "loss": 0.7827,
      "step": 14032
    },
    {
      "epoch": 0.8614751834003499,
      "grad_norm": 0.9736227279037999,
      "learning_rate": 9.893255963054205e-07,
      "loss": 0.7236,
      "step": 14033
    },
    {
      "epoch": 0.8615365726388164,
      "grad_norm": 0.9038041230080848,
      "learning_rate": 9.884634689029672e-07,
      "loss": 0.7077,
      "step": 14034
    },
    {
      "epoch": 0.8615979618772829,
      "grad_norm": 0.9661609194074707,
      "learning_rate": 9.876016977747505e-07,
      "loss": 0.7446,
      "step": 14035
    },
    {
      "epoch": 0.8616593511157494,
      "grad_norm": 1.1364809636477675,
      "learning_rate": 9.8674028295484e-07,
      "loss": 0.7465,
      "step": 14036
    },
    {
      "epoch": 0.8617207403542159,
      "grad_norm": 0.9048475755727943,
      "learning_rate": 9.85879224477293e-07,
      "loss": 0.76,
      "step": 14037
    },
    {
      "epoch": 0.8617821295926824,
      "grad_norm": 1.0773918500098323,
      "learning_rate": 9.85018522376151e-07,
      "loss": 0.7409,
      "step": 14038
    },
    {
      "epoch": 0.8618435188311488,
      "grad_norm": 0.9695267477569627,
      "learning_rate": 9.841581766854402e-07,
      "loss": 0.7628,
      "step": 14039
    },
    {
      "epoch": 0.8619049080696154,
      "grad_norm": 1.1452108396191214,
      "learning_rate": 9.83298187439179e-07,
      "loss": 0.6985,
      "step": 14040
    },
    {
      "epoch": 0.8619662973080819,
      "grad_norm": 1.155048146832382,
      "learning_rate": 9.824385546713666e-07,
      "loss": 0.7415,
      "step": 14041
    },
    {
      "epoch": 0.8620276865465484,
      "grad_norm": 1.0011701951399685,
      "learning_rate": 9.815792784159862e-07,
      "loss": 0.7375,
      "step": 14042
    },
    {
      "epoch": 0.8620890757850149,
      "grad_norm": 1.1043650467265467,
      "learning_rate": 9.80720358707008e-07,
      "loss": 0.7413,
      "step": 14043
    },
    {
      "epoch": 0.8621504650234814,
      "grad_norm": 1.118095947234642,
      "learning_rate": 9.798617955783951e-07,
      "loss": 0.7591,
      "step": 14044
    },
    {
      "epoch": 0.8622118542619479,
      "grad_norm": 1.0627278887151617,
      "learning_rate": 9.79003589064088e-07,
      "loss": 0.7913,
      "step": 14045
    },
    {
      "epoch": 0.8622732435004143,
      "grad_norm": 1.0641361887333551,
      "learning_rate": 9.781457391980177e-07,
      "loss": 0.7647,
      "step": 14046
    },
    {
      "epoch": 0.8623346327388809,
      "grad_norm": 0.9830749218383591,
      "learning_rate": 9.772882460140975e-07,
      "loss": 0.7068,
      "step": 14047
    },
    {
      "epoch": 0.8623960219773473,
      "grad_norm": 0.9477088864678708,
      "learning_rate": 9.76431109546231e-07,
      "loss": 0.7261,
      "step": 14048
    },
    {
      "epoch": 0.8624574112158139,
      "grad_norm": 0.9875574102098337,
      "learning_rate": 9.755743298283027e-07,
      "loss": 0.7329,
      "step": 14049
    },
    {
      "epoch": 0.8625188004542803,
      "grad_norm": 0.9721719796867984,
      "learning_rate": 9.74717906894186e-07,
      "loss": 0.6596,
      "step": 14050
    },
    {
      "epoch": 0.8625801896927469,
      "grad_norm": 1.0832677256747865,
      "learning_rate": 9.738618407777446e-07,
      "loss": 0.6674,
      "step": 14051
    },
    {
      "epoch": 0.8626415789312134,
      "grad_norm": 0.9844274139854682,
      "learning_rate": 9.73006131512818e-07,
      "loss": 0.7086,
      "step": 14052
    },
    {
      "epoch": 0.8627029681696798,
      "grad_norm": 0.8918690466507337,
      "learning_rate": 9.721507791332375e-07,
      "loss": 0.7364,
      "step": 14053
    },
    {
      "epoch": 0.8627643574081464,
      "grad_norm": 1.2076289729737293,
      "learning_rate": 9.712957836728222e-07,
      "loss": 0.7435,
      "step": 14054
    },
    {
      "epoch": 0.8628257466466128,
      "grad_norm": 0.938583357142923,
      "learning_rate": 9.70441145165374e-07,
      "loss": 0.7429,
      "step": 14055
    },
    {
      "epoch": 0.8628871358850794,
      "grad_norm": 1.252029935701302,
      "learning_rate": 9.695868636446826e-07,
      "loss": 0.7472,
      "step": 14056
    },
    {
      "epoch": 0.8629485251235458,
      "grad_norm": 0.9902132271061325,
      "learning_rate": 9.687329391445166e-07,
      "loss": 0.6961,
      "step": 14057
    },
    {
      "epoch": 0.8630099143620124,
      "grad_norm": 1.0974386614374867,
      "learning_rate": 9.678793716986411e-07,
      "loss": 0.7329,
      "step": 14058
    },
    {
      "epoch": 0.8630713036004788,
      "grad_norm": 1.1176647576379162,
      "learning_rate": 9.670261613408028e-07,
      "loss": 0.7425,
      "step": 14059
    },
    {
      "epoch": 0.8631326928389453,
      "grad_norm": 1.0437960664972692,
      "learning_rate": 9.661733081047309e-07,
      "loss": 0.7244,
      "step": 14060
    },
    {
      "epoch": 0.8631940820774119,
      "grad_norm": 0.9311904875044622,
      "learning_rate": 9.653208120241453e-07,
      "loss": 0.7776,
      "step": 14061
    },
    {
      "epoch": 0.8632554713158783,
      "grad_norm": 1.1013492160593792,
      "learning_rate": 9.644686731327479e-07,
      "loss": 0.7364,
      "step": 14062
    },
    {
      "epoch": 0.8633168605543449,
      "grad_norm": 1.0333613914071784,
      "learning_rate": 9.636168914642307e-07,
      "loss": 0.7449,
      "step": 14063
    },
    {
      "epoch": 0.8633782497928113,
      "grad_norm": 1.1074862832904906,
      "learning_rate": 9.627654670522646e-07,
      "loss": 0.6929,
      "step": 14064
    },
    {
      "epoch": 0.8634396390312779,
      "grad_norm": 1.0857537722033541,
      "learning_rate": 9.61914399930517e-07,
      "loss": 0.7214,
      "step": 14065
    },
    {
      "epoch": 0.8635010282697443,
      "grad_norm": 1.0740865656570426,
      "learning_rate": 9.61063690132633e-07,
      "loss": 0.7128,
      "step": 14066
    },
    {
      "epoch": 0.8635624175082108,
      "grad_norm": 0.9748166008441691,
      "learning_rate": 9.60213337692244e-07,
      "loss": 0.712,
      "step": 14067
    },
    {
      "epoch": 0.8636238067466773,
      "grad_norm": 1.0170706137544325,
      "learning_rate": 9.593633426429671e-07,
      "loss": 0.7409,
      "step": 14068
    },
    {
      "epoch": 0.8636851959851438,
      "grad_norm": 1.009049889862627,
      "learning_rate": 9.585137050184124e-07,
      "loss": 0.7449,
      "step": 14069
    },
    {
      "epoch": 0.8637465852236103,
      "grad_norm": 1.178751655594636,
      "learning_rate": 9.576644248521682e-07,
      "loss": 0.6601,
      "step": 14070
    },
    {
      "epoch": 0.8638079744620768,
      "grad_norm": 0.9902639954107747,
      "learning_rate": 9.568155021778115e-07,
      "loss": 0.7288,
      "step": 14071
    },
    {
      "epoch": 0.8638693637005433,
      "grad_norm": 0.9915194430957651,
      "learning_rate": 9.559669370289038e-07,
      "loss": 0.7093,
      "step": 14072
    },
    {
      "epoch": 0.8639307529390098,
      "grad_norm": 0.9362916189523979,
      "learning_rate": 9.551187294389941e-07,
      "loss": 0.6931,
      "step": 14073
    },
    {
      "epoch": 0.8639921421774763,
      "grad_norm": 1.0919832006434251,
      "learning_rate": 9.542708794416168e-07,
      "loss": 0.7118,
      "step": 14074
    },
    {
      "epoch": 0.8640535314159428,
      "grad_norm": 0.9814075597960175,
      "learning_rate": 9.534233870702891e-07,
      "loss": 0.7378,
      "step": 14075
    },
    {
      "epoch": 0.8641149206544093,
      "grad_norm": 1.0428681364589707,
      "learning_rate": 9.525762523585236e-07,
      "loss": 0.7246,
      "step": 14076
    },
    {
      "epoch": 0.8641763098928757,
      "grad_norm": 0.9892427934439538,
      "learning_rate": 9.517294753398066e-07,
      "loss": 0.7347,
      "step": 14077
    },
    {
      "epoch": 0.8642376991313423,
      "grad_norm": 1.0762851443051809,
      "learning_rate": 9.508830560476134e-07,
      "loss": 0.7694,
      "step": 14078
    },
    {
      "epoch": 0.8642990883698087,
      "grad_norm": 1.0356559287320024,
      "learning_rate": 9.500369945154142e-07,
      "loss": 0.6762,
      "step": 14079
    },
    {
      "epoch": 0.8643604776082753,
      "grad_norm": 1.0415464163088473,
      "learning_rate": 9.491912907766554e-07,
      "loss": 0.7185,
      "step": 14080
    },
    {
      "epoch": 0.8644218668467417,
      "grad_norm": 1.0676677025829358,
      "learning_rate": 9.483459448647736e-07,
      "loss": 0.735,
      "step": 14081
    },
    {
      "epoch": 0.8644832560852083,
      "grad_norm": 1.087599478794646,
      "learning_rate": 9.475009568131844e-07,
      "loss": 0.7444,
      "step": 14082
    },
    {
      "epoch": 0.8645446453236748,
      "grad_norm": 1.0083836942016269,
      "learning_rate": 9.466563266552997e-07,
      "loss": 0.7501,
      "step": 14083
    },
    {
      "epoch": 0.8646060345621412,
      "grad_norm": 1.0733560041254893,
      "learning_rate": 9.45812054424512e-07,
      "loss": 0.7706,
      "step": 14084
    },
    {
      "epoch": 0.8646674238006078,
      "grad_norm": 1.1513085603721929,
      "learning_rate": 9.449681401541987e-07,
      "loss": 0.7592,
      "step": 14085
    },
    {
      "epoch": 0.8647288130390742,
      "grad_norm": 1.029512097437498,
      "learning_rate": 9.441245838777247e-07,
      "loss": 0.7583,
      "step": 14086
    },
    {
      "epoch": 0.8647902022775408,
      "grad_norm": 0.9689750311721494,
      "learning_rate": 9.432813856284395e-07,
      "loss": 0.7125,
      "step": 14087
    },
    {
      "epoch": 0.8648515915160072,
      "grad_norm": 1.0895284008769313,
      "learning_rate": 9.424385454396812e-07,
      "loss": 0.7145,
      "step": 14088
    },
    {
      "epoch": 0.8649129807544738,
      "grad_norm": 1.1167370286041063,
      "learning_rate": 9.415960633447674e-07,
      "loss": 0.6997,
      "step": 14089
    },
    {
      "epoch": 0.8649743699929402,
      "grad_norm": 0.9295400584166107,
      "learning_rate": 9.407539393770126e-07,
      "loss": 0.6945,
      "step": 14090
    },
    {
      "epoch": 0.8650357592314067,
      "grad_norm": 1.1511440749862751,
      "learning_rate": 9.399121735697059e-07,
      "loss": 0.7401,
      "step": 14091
    },
    {
      "epoch": 0.8650971484698732,
      "grad_norm": 0.9954940289910654,
      "learning_rate": 9.390707659561249e-07,
      "loss": 0.7476,
      "step": 14092
    },
    {
      "epoch": 0.8651585377083397,
      "grad_norm": 1.098823939156554,
      "learning_rate": 9.382297165695397e-07,
      "loss": 0.7352,
      "step": 14093
    },
    {
      "epoch": 0.8652199269468063,
      "grad_norm": 1.0421595995590371,
      "learning_rate": 9.373890254432006e-07,
      "loss": 0.7476,
      "step": 14094
    },
    {
      "epoch": 0.8652813161852727,
      "grad_norm": 1.0138760872869412,
      "learning_rate": 9.365486926103451e-07,
      "loss": 0.6764,
      "step": 14095
    },
    {
      "epoch": 0.8653427054237393,
      "grad_norm": 0.9166821090711661,
      "learning_rate": 9.357087181041902e-07,
      "loss": 0.678,
      "step": 14096
    },
    {
      "epoch": 0.8654040946622057,
      "grad_norm": 1.0532853649897973,
      "learning_rate": 9.348691019579515e-07,
      "loss": 0.7144,
      "step": 14097
    },
    {
      "epoch": 0.8654654839006722,
      "grad_norm": 0.987568371857159,
      "learning_rate": 9.340298442048201e-07,
      "loss": 0.7076,
      "step": 14098
    },
    {
      "epoch": 0.8655268731391387,
      "grad_norm": 1.0783974127224967,
      "learning_rate": 9.331909448779775e-07,
      "loss": 0.688,
      "step": 14099
    },
    {
      "epoch": 0.8655882623776052,
      "grad_norm": 1.054504889593063,
      "learning_rate": 9.323524040105902e-07,
      "loss": 0.7544,
      "step": 14100
    },
    {
      "epoch": 0.8656496516160717,
      "grad_norm": 1.0550197102169372,
      "learning_rate": 9.315142216358086e-07,
      "loss": 0.6944,
      "step": 14101
    },
    {
      "epoch": 0.8657110408545382,
      "grad_norm": 0.9270249523343022,
      "learning_rate": 9.306763977867716e-07,
      "loss": 0.6773,
      "step": 14102
    },
    {
      "epoch": 0.8657724300930046,
      "grad_norm": 1.129909705037915,
      "learning_rate": 9.298389324966017e-07,
      "loss": 0.7638,
      "step": 14103
    },
    {
      "epoch": 0.8658338193314712,
      "grad_norm": 0.5909881066936983,
      "learning_rate": 9.290018257984102e-07,
      "loss": 0.6144,
      "step": 14104
    },
    {
      "epoch": 0.8658952085699377,
      "grad_norm": 1.0378585549500694,
      "learning_rate": 9.281650777252938e-07,
      "loss": 0.7576,
      "step": 14105
    },
    {
      "epoch": 0.8659565978084042,
      "grad_norm": 1.0354541911169834,
      "learning_rate": 9.273286883103305e-07,
      "loss": 0.7777,
      "step": 14106
    },
    {
      "epoch": 0.8660179870468707,
      "grad_norm": 1.027138107947397,
      "learning_rate": 9.264926575865851e-07,
      "loss": 0.7652,
      "step": 14107
    },
    {
      "epoch": 0.8660793762853372,
      "grad_norm": 1.0165332339035813,
      "learning_rate": 9.256569855871167e-07,
      "loss": 0.7252,
      "step": 14108
    },
    {
      "epoch": 0.8661407655238037,
      "grad_norm": 1.0526213708152525,
      "learning_rate": 9.248216723449599e-07,
      "loss": 0.6977,
      "step": 14109
    },
    {
      "epoch": 0.8662021547622701,
      "grad_norm": 0.6211731829146627,
      "learning_rate": 9.239867178931394e-07,
      "loss": 0.7005,
      "step": 14110
    },
    {
      "epoch": 0.8662635440007367,
      "grad_norm": 0.9216988246458162,
      "learning_rate": 9.231521222646666e-07,
      "loss": 0.7475,
      "step": 14111
    },
    {
      "epoch": 0.8663249332392031,
      "grad_norm": 1.0799829129502205,
      "learning_rate": 9.223178854925363e-07,
      "loss": 0.7178,
      "step": 14112
    },
    {
      "epoch": 0.8663863224776697,
      "grad_norm": 1.1041613069371214,
      "learning_rate": 9.214840076097309e-07,
      "loss": 0.7282,
      "step": 14113
    },
    {
      "epoch": 0.8664477117161362,
      "grad_norm": 0.9969448112319192,
      "learning_rate": 9.206504886492162e-07,
      "loss": 0.7332,
      "step": 14114
    },
    {
      "epoch": 0.8665091009546027,
      "grad_norm": 1.0157650066749324,
      "learning_rate": 9.198173286439515e-07,
      "loss": 0.6824,
      "step": 14115
    },
    {
      "epoch": 0.8665704901930692,
      "grad_norm": 1.1189452240767959,
      "learning_rate": 9.189845276268706e-07,
      "loss": 0.751,
      "step": 14116
    },
    {
      "epoch": 0.8666318794315356,
      "grad_norm": 1.012570657193578,
      "learning_rate": 9.181520856308967e-07,
      "loss": 0.6797,
      "step": 14117
    },
    {
      "epoch": 0.8666932686700022,
      "grad_norm": 1.0983500527557915,
      "learning_rate": 9.173200026889473e-07,
      "loss": 0.7337,
      "step": 14118
    },
    {
      "epoch": 0.8667546579084686,
      "grad_norm": 0.9483137586406345,
      "learning_rate": 9.164882788339147e-07,
      "loss": 0.7607,
      "step": 14119
    },
    {
      "epoch": 0.8668160471469352,
      "grad_norm": 0.9797090592515862,
      "learning_rate": 9.156569140986848e-07,
      "loss": 0.7452,
      "step": 14120
    },
    {
      "epoch": 0.8668774363854016,
      "grad_norm": 1.1159099249542692,
      "learning_rate": 9.148259085161204e-07,
      "loss": 0.743,
      "step": 14121
    },
    {
      "epoch": 0.8669388256238681,
      "grad_norm": 1.022647290735339,
      "learning_rate": 9.139952621190795e-07,
      "loss": 0.7372,
      "step": 14122
    },
    {
      "epoch": 0.8670002148623346,
      "grad_norm": 1.1323722637213576,
      "learning_rate": 9.131649749404015e-07,
      "loss": 0.7269,
      "step": 14123
    },
    {
      "epoch": 0.8670616041008011,
      "grad_norm": 1.001432083346432,
      "learning_rate": 9.123350470129122e-07,
      "loss": 0.6785,
      "step": 14124
    },
    {
      "epoch": 0.8671229933392677,
      "grad_norm": 1.106882562076477,
      "learning_rate": 9.115054783694233e-07,
      "loss": 0.685,
      "step": 14125
    },
    {
      "epoch": 0.8671843825777341,
      "grad_norm": 1.0728960675821184,
      "learning_rate": 9.106762690427306e-07,
      "loss": 0.6717,
      "step": 14126
    },
    {
      "epoch": 0.8672457718162007,
      "grad_norm": 1.0200475163357858,
      "learning_rate": 9.098474190656182e-07,
      "loss": 0.7575,
      "step": 14127
    },
    {
      "epoch": 0.8673071610546671,
      "grad_norm": 1.117893756169789,
      "learning_rate": 9.090189284708539e-07,
      "loss": 0.7922,
      "step": 14128
    },
    {
      "epoch": 0.8673685502931336,
      "grad_norm": 0.5885103117665295,
      "learning_rate": 9.081907972911941e-07,
      "loss": 0.6444,
      "step": 14129
    },
    {
      "epoch": 0.8674299395316001,
      "grad_norm": 1.002982372233151,
      "learning_rate": 9.073630255593813e-07,
      "loss": 0.7242,
      "step": 14130
    },
    {
      "epoch": 0.8674913287700666,
      "grad_norm": 1.131286781144851,
      "learning_rate": 9.065356133081338e-07,
      "loss": 0.6843,
      "step": 14131
    },
    {
      "epoch": 0.8675527180085331,
      "grad_norm": 1.007594191404355,
      "learning_rate": 9.057085605701721e-07,
      "loss": 0.6976,
      "step": 14132
    },
    {
      "epoch": 0.8676141072469996,
      "grad_norm": 1.0354750825231593,
      "learning_rate": 9.0488186737819e-07,
      "loss": 0.7386,
      "step": 14133
    },
    {
      "epoch": 0.867675496485466,
      "grad_norm": 1.090175563532409,
      "learning_rate": 9.040555337648715e-07,
      "loss": 0.7034,
      "step": 14134
    },
    {
      "epoch": 0.8677368857239326,
      "grad_norm": 1.0541246450930468,
      "learning_rate": 9.032295597628871e-07,
      "loss": 0.7452,
      "step": 14135
    },
    {
      "epoch": 0.8677982749623991,
      "grad_norm": 0.9492691934792021,
      "learning_rate": 9.024039454048905e-07,
      "loss": 0.7485,
      "step": 14136
    },
    {
      "epoch": 0.8678596642008656,
      "grad_norm": 1.1562543883661287,
      "learning_rate": 9.015786907235235e-07,
      "loss": 0.7471,
      "step": 14137
    },
    {
      "epoch": 0.8679210534393321,
      "grad_norm": 0.9834662805424651,
      "learning_rate": 9.007537957514134e-07,
      "loss": 0.7148,
      "step": 14138
    },
    {
      "epoch": 0.8679824426777986,
      "grad_norm": 1.0702724931617336,
      "learning_rate": 8.999292605211695e-07,
      "loss": 0.7562,
      "step": 14139
    },
    {
      "epoch": 0.8680438319162651,
      "grad_norm": 1.0144426954175898,
      "learning_rate": 8.991050850653959e-07,
      "loss": 0.6753,
      "step": 14140
    },
    {
      "epoch": 0.8681052211547315,
      "grad_norm": 1.068212903940945,
      "learning_rate": 8.98281269416672e-07,
      "loss": 0.7421,
      "step": 14141
    },
    {
      "epoch": 0.8681666103931981,
      "grad_norm": 0.9827655181800692,
      "learning_rate": 8.974578136075662e-07,
      "loss": 0.733,
      "step": 14142
    },
    {
      "epoch": 0.8682279996316645,
      "grad_norm": 1.1269427449645806,
      "learning_rate": 8.966347176706391e-07,
      "loss": 0.7415,
      "step": 14143
    },
    {
      "epoch": 0.8682893888701311,
      "grad_norm": 1.1140300160131413,
      "learning_rate": 8.958119816384303e-07,
      "loss": 0.7389,
      "step": 14144
    },
    {
      "epoch": 0.8683507781085975,
      "grad_norm": 1.0637377857861674,
      "learning_rate": 8.949896055434682e-07,
      "loss": 0.716,
      "step": 14145
    },
    {
      "epoch": 0.8684121673470641,
      "grad_norm": 0.9735452900159601,
      "learning_rate": 8.9416758941826e-07,
      "loss": 0.7427,
      "step": 14146
    },
    {
      "epoch": 0.8684735565855306,
      "grad_norm": 1.066988695698447,
      "learning_rate": 8.933459332953098e-07,
      "loss": 0.7773,
      "step": 14147
    },
    {
      "epoch": 0.868534945823997,
      "grad_norm": 1.0002622604361546,
      "learning_rate": 8.925246372071017e-07,
      "loss": 0.7359,
      "step": 14148
    },
    {
      "epoch": 0.8685963350624636,
      "grad_norm": 1.0492547126365348,
      "learning_rate": 8.917037011861041e-07,
      "loss": 0.7535,
      "step": 14149
    },
    {
      "epoch": 0.86865772430093,
      "grad_norm": 1.1002912932185873,
      "learning_rate": 8.908831252647742e-07,
      "loss": 0.7134,
      "step": 14150
    },
    {
      "epoch": 0.8687191135393966,
      "grad_norm": 1.1072529319808253,
      "learning_rate": 8.900629094755531e-07,
      "loss": 0.7081,
      "step": 14151
    },
    {
      "epoch": 0.868780502777863,
      "grad_norm": 0.9699090927639414,
      "learning_rate": 8.892430538508689e-07,
      "loss": 0.6765,
      "step": 14152
    },
    {
      "epoch": 0.8688418920163296,
      "grad_norm": 0.9222605837124696,
      "learning_rate": 8.884235584231326e-07,
      "loss": 0.7647,
      "step": 14153
    },
    {
      "epoch": 0.868903281254796,
      "grad_norm": 1.0590474293487568,
      "learning_rate": 8.876044232247494e-07,
      "loss": 0.7765,
      "step": 14154
    },
    {
      "epoch": 0.8689646704932625,
      "grad_norm": 1.1555552526467585,
      "learning_rate": 8.867856482880965e-07,
      "loss": 0.7557,
      "step": 14155
    },
    {
      "epoch": 0.869026059731729,
      "grad_norm": 0.9715524549380316,
      "learning_rate": 8.859672336455471e-07,
      "loss": 0.7321,
      "step": 14156
    },
    {
      "epoch": 0.8690874489701955,
      "grad_norm": 1.103040475455256,
      "learning_rate": 8.851491793294598e-07,
      "loss": 0.7377,
      "step": 14157
    },
    {
      "epoch": 0.8691488382086621,
      "grad_norm": 1.0204394680417168,
      "learning_rate": 8.843314853721752e-07,
      "loss": 0.7153,
      "step": 14158
    },
    {
      "epoch": 0.8692102274471285,
      "grad_norm": 1.0239024362288207,
      "learning_rate": 8.835141518060231e-07,
      "loss": 0.7623,
      "step": 14159
    },
    {
      "epoch": 0.869271616685595,
      "grad_norm": 1.1127703384698706,
      "learning_rate": 8.826971786633109e-07,
      "loss": 0.7532,
      "step": 14160
    },
    {
      "epoch": 0.8693330059240615,
      "grad_norm": 0.9913865962587474,
      "learning_rate": 8.818805659763441e-07,
      "loss": 0.6615,
      "step": 14161
    },
    {
      "epoch": 0.869394395162528,
      "grad_norm": 1.0155623216123069,
      "learning_rate": 8.810643137774055e-07,
      "loss": 0.7152,
      "step": 14162
    },
    {
      "epoch": 0.8694557844009945,
      "grad_norm": 1.1091575931755906,
      "learning_rate": 8.802484220987661e-07,
      "loss": 0.7263,
      "step": 14163
    },
    {
      "epoch": 0.869517173639461,
      "grad_norm": 0.9923051520315292,
      "learning_rate": 8.794328909726823e-07,
      "loss": 0.7406,
      "step": 14164
    },
    {
      "epoch": 0.8695785628779275,
      "grad_norm": 1.0286003545812266,
      "learning_rate": 8.786177204313962e-07,
      "loss": 0.7337,
      "step": 14165
    },
    {
      "epoch": 0.869639952116394,
      "grad_norm": 0.9942642075033932,
      "learning_rate": 8.778029105071362e-07,
      "loss": 0.697,
      "step": 14166
    },
    {
      "epoch": 0.8697013413548605,
      "grad_norm": 1.1469879349484617,
      "learning_rate": 8.769884612321156e-07,
      "loss": 0.7779,
      "step": 14167
    },
    {
      "epoch": 0.869762730593327,
      "grad_norm": 0.5865440179179336,
      "learning_rate": 8.761743726385352e-07,
      "loss": 0.6197,
      "step": 14168
    },
    {
      "epoch": 0.8698241198317935,
      "grad_norm": 1.0496637038871417,
      "learning_rate": 8.753606447585816e-07,
      "loss": 0.7361,
      "step": 14169
    },
    {
      "epoch": 0.86988550907026,
      "grad_norm": 1.0585611321100201,
      "learning_rate": 8.745472776244191e-07,
      "loss": 0.7965,
      "step": 14170
    },
    {
      "epoch": 0.8699468983087265,
      "grad_norm": 0.9687668161118531,
      "learning_rate": 8.737342712682117e-07,
      "loss": 0.7557,
      "step": 14171
    },
    {
      "epoch": 0.870008287547193,
      "grad_norm": 0.9523636521904337,
      "learning_rate": 8.729216257220996e-07,
      "loss": 0.7055,
      "step": 14172
    },
    {
      "epoch": 0.8700696767856595,
      "grad_norm": 0.5540430391802039,
      "learning_rate": 8.721093410182102e-07,
      "loss": 0.6483,
      "step": 14173
    },
    {
      "epoch": 0.8701310660241259,
      "grad_norm": 1.0530902335527246,
      "learning_rate": 8.712974171886579e-07,
      "loss": 0.728,
      "step": 14174
    },
    {
      "epoch": 0.8701924552625925,
      "grad_norm": 1.0931565975581043,
      "learning_rate": 8.704858542655425e-07,
      "loss": 0.7725,
      "step": 14175
    },
    {
      "epoch": 0.8702538445010589,
      "grad_norm": 1.1052840843345297,
      "learning_rate": 8.696746522809496e-07,
      "loss": 0.7421,
      "step": 14176
    },
    {
      "epoch": 0.8703152337395255,
      "grad_norm": 1.0147052053043213,
      "learning_rate": 8.6886381126695e-07,
      "loss": 0.6816,
      "step": 14177
    },
    {
      "epoch": 0.870376622977992,
      "grad_norm": 1.023757401377171,
      "learning_rate": 8.680533312555994e-07,
      "loss": 0.7313,
      "step": 14178
    },
    {
      "epoch": 0.8704380122164584,
      "grad_norm": 1.1277235252390454,
      "learning_rate": 8.672432122789442e-07,
      "loss": 0.6552,
      "step": 14179
    },
    {
      "epoch": 0.870499401454925,
      "grad_norm": 0.970613983074239,
      "learning_rate": 8.664334543690089e-07,
      "loss": 0.7234,
      "step": 14180
    },
    {
      "epoch": 0.8705607906933914,
      "grad_norm": 0.9300966138148358,
      "learning_rate": 8.656240575578079e-07,
      "loss": 0.7275,
      "step": 14181
    },
    {
      "epoch": 0.870622179931858,
      "grad_norm": 0.9882228783792691,
      "learning_rate": 8.648150218773421e-07,
      "loss": 0.698,
      "step": 14182
    },
    {
      "epoch": 0.8706835691703244,
      "grad_norm": 1.1673842806793187,
      "learning_rate": 8.640063473595984e-07,
      "loss": 0.7329,
      "step": 14183
    },
    {
      "epoch": 0.870744958408791,
      "grad_norm": 1.0412418927990363,
      "learning_rate": 8.631980340365476e-07,
      "loss": 0.7398,
      "step": 14184
    },
    {
      "epoch": 0.8708063476472574,
      "grad_norm": 0.9395488795870693,
      "learning_rate": 8.623900819401421e-07,
      "loss": 0.6715,
      "step": 14185
    },
    {
      "epoch": 0.8708677368857239,
      "grad_norm": 1.2376255420432447,
      "learning_rate": 8.615824911023296e-07,
      "loss": 0.7155,
      "step": 14186
    },
    {
      "epoch": 0.8709291261241904,
      "grad_norm": 1.0845241124231981,
      "learning_rate": 8.60775261555038e-07,
      "loss": 0.7093,
      "step": 14187
    },
    {
      "epoch": 0.8709905153626569,
      "grad_norm": 1.120937008310193,
      "learning_rate": 8.599683933301794e-07,
      "loss": 0.744,
      "step": 14188
    },
    {
      "epoch": 0.8710519046011235,
      "grad_norm": 1.0294726540723405,
      "learning_rate": 8.591618864596541e-07,
      "loss": 0.7516,
      "step": 14189
    },
    {
      "epoch": 0.8711132938395899,
      "grad_norm": 1.059139901334522,
      "learning_rate": 8.583557409753485e-07,
      "loss": 0.7609,
      "step": 14190
    },
    {
      "epoch": 0.8711746830780565,
      "grad_norm": 1.0566903332826245,
      "learning_rate": 8.575499569091339e-07,
      "loss": 0.7566,
      "step": 14191
    },
    {
      "epoch": 0.8712360723165229,
      "grad_norm": 1.2372749243222685,
      "learning_rate": 8.567445342928649e-07,
      "loss": 0.7418,
      "step": 14192
    },
    {
      "epoch": 0.8712974615549894,
      "grad_norm": 0.9596081487334672,
      "learning_rate": 8.55939473158387e-07,
      "loss": 0.7767,
      "step": 14193
    },
    {
      "epoch": 0.8713588507934559,
      "grad_norm": 0.9731462908586528,
      "learning_rate": 8.551347735375304e-07,
      "loss": 0.691,
      "step": 14194
    },
    {
      "epoch": 0.8714202400319224,
      "grad_norm": 0.9611771601856423,
      "learning_rate": 8.543304354621018e-07,
      "loss": 0.7124,
      "step": 14195
    },
    {
      "epoch": 0.8714816292703889,
      "grad_norm": 1.052783785708899,
      "learning_rate": 8.53526458963908e-07,
      "loss": 0.7966,
      "step": 14196
    },
    {
      "epoch": 0.8715430185088554,
      "grad_norm": 0.9957882031152941,
      "learning_rate": 8.527228440747326e-07,
      "loss": 0.727,
      "step": 14197
    },
    {
      "epoch": 0.8716044077473218,
      "grad_norm": 1.1268567177568363,
      "learning_rate": 8.519195908263456e-07,
      "loss": 0.7024,
      "step": 14198
    },
    {
      "epoch": 0.8716657969857884,
      "grad_norm": 1.076835311940601,
      "learning_rate": 8.511166992505038e-07,
      "loss": 0.7379,
      "step": 14199
    },
    {
      "epoch": 0.8717271862242549,
      "grad_norm": 1.101777402174345,
      "learning_rate": 8.503141693789518e-07,
      "loss": 0.7544,
      "step": 14200
    },
    {
      "epoch": 0.8717885754627214,
      "grad_norm": 1.0292477626103491,
      "learning_rate": 8.495120012434155e-07,
      "loss": 0.7008,
      "step": 14201
    },
    {
      "epoch": 0.8718499647011879,
      "grad_norm": 0.9652980985192544,
      "learning_rate": 8.487101948756105e-07,
      "loss": 0.7501,
      "step": 14202
    },
    {
      "epoch": 0.8719113539396544,
      "grad_norm": 1.077216642115135,
      "learning_rate": 8.479087503072348e-07,
      "loss": 0.7508,
      "step": 14203
    },
    {
      "epoch": 0.8719727431781209,
      "grad_norm": 1.1475567717990116,
      "learning_rate": 8.471076675699785e-07,
      "loss": 0.6638,
      "step": 14204
    },
    {
      "epoch": 0.8720341324165873,
      "grad_norm": 1.0836433701572,
      "learning_rate": 8.463069466955065e-07,
      "loss": 0.7334,
      "step": 14205
    },
    {
      "epoch": 0.8720955216550539,
      "grad_norm": 0.971017971750488,
      "learning_rate": 8.455065877154778e-07,
      "loss": 0.7265,
      "step": 14206
    },
    {
      "epoch": 0.8721569108935203,
      "grad_norm": 1.1045845406196666,
      "learning_rate": 8.447065906615359e-07,
      "loss": 0.688,
      "step": 14207
    },
    {
      "epoch": 0.8722183001319869,
      "grad_norm": 1.0246174305695892,
      "learning_rate": 8.43906955565309e-07,
      "loss": 0.6609,
      "step": 14208
    },
    {
      "epoch": 0.8722796893704534,
      "grad_norm": 1.0712567437360305,
      "learning_rate": 8.431076824584106e-07,
      "loss": 0.708,
      "step": 14209
    },
    {
      "epoch": 0.8723410786089199,
      "grad_norm": 1.0530078258574969,
      "learning_rate": 8.423087713724399e-07,
      "loss": 0.7158,
      "step": 14210
    },
    {
      "epoch": 0.8724024678473864,
      "grad_norm": 1.0072794772033322,
      "learning_rate": 8.415102223389815e-07,
      "loss": 0.7786,
      "step": 14211
    },
    {
      "epoch": 0.8724638570858528,
      "grad_norm": 1.0461741117742687,
      "learning_rate": 8.407120353896081e-07,
      "loss": 0.7101,
      "step": 14212
    },
    {
      "epoch": 0.8725252463243194,
      "grad_norm": 1.0180378658102027,
      "learning_rate": 8.399142105558745e-07,
      "loss": 0.7066,
      "step": 14213
    },
    {
      "epoch": 0.8725866355627858,
      "grad_norm": 1.2398861571316697,
      "learning_rate": 8.391167478693241e-07,
      "loss": 0.7459,
      "step": 14214
    },
    {
      "epoch": 0.8726480248012524,
      "grad_norm": 0.9669742531422485,
      "learning_rate": 8.383196473614852e-07,
      "loss": 0.716,
      "step": 14215
    },
    {
      "epoch": 0.8727094140397188,
      "grad_norm": 1.0052326292925635,
      "learning_rate": 8.375229090638693e-07,
      "loss": 0.7197,
      "step": 14216
    },
    {
      "epoch": 0.8727708032781853,
      "grad_norm": 0.976354324750943,
      "learning_rate": 8.367265330079766e-07,
      "loss": 0.6755,
      "step": 14217
    },
    {
      "epoch": 0.8728321925166518,
      "grad_norm": 1.0900817987349831,
      "learning_rate": 8.359305192252954e-07,
      "loss": 0.7541,
      "step": 14218
    },
    {
      "epoch": 0.8728935817551183,
      "grad_norm": 1.0335690149548404,
      "learning_rate": 8.351348677472926e-07,
      "loss": 0.6883,
      "step": 14219
    },
    {
      "epoch": 0.8729549709935849,
      "grad_norm": 0.9524654025873415,
      "learning_rate": 8.343395786054231e-07,
      "loss": 0.7307,
      "step": 14220
    },
    {
      "epoch": 0.8730163602320513,
      "grad_norm": 1.0365771210452552,
      "learning_rate": 8.335446518311341e-07,
      "loss": 0.7168,
      "step": 14221
    },
    {
      "epoch": 0.8730777494705179,
      "grad_norm": 1.0485967780644807,
      "learning_rate": 8.327500874558502e-07,
      "loss": 0.7303,
      "step": 14222
    },
    {
      "epoch": 0.8731391387089843,
      "grad_norm": 1.1240336182994097,
      "learning_rate": 8.319558855109866e-07,
      "loss": 0.7238,
      "step": 14223
    },
    {
      "epoch": 0.8732005279474508,
      "grad_norm": 1.0138329681837992,
      "learning_rate": 8.31162046027938e-07,
      "loss": 0.7538,
      "step": 14224
    },
    {
      "epoch": 0.8732619171859173,
      "grad_norm": 1.0896123302426495,
      "learning_rate": 8.303685690380935e-07,
      "loss": 0.7285,
      "step": 14225
    },
    {
      "epoch": 0.8733233064243838,
      "grad_norm": 1.0895736122869495,
      "learning_rate": 8.295754545728229e-07,
      "loss": 0.702,
      "step": 14226
    },
    {
      "epoch": 0.8733846956628503,
      "grad_norm": 1.0393733172856137,
      "learning_rate": 8.28782702663481e-07,
      "loss": 0.7241,
      "step": 14227
    },
    {
      "epoch": 0.8734460849013168,
      "grad_norm": 0.9236982245371945,
      "learning_rate": 8.279903133414091e-07,
      "loss": 0.6961,
      "step": 14228
    },
    {
      "epoch": 0.8735074741397832,
      "grad_norm": 1.012958135491722,
      "learning_rate": 8.271982866379369e-07,
      "loss": 0.6932,
      "step": 14229
    },
    {
      "epoch": 0.8735688633782498,
      "grad_norm": 0.9706759058663413,
      "learning_rate": 8.264066225843747e-07,
      "loss": 0.7296,
      "step": 14230
    },
    {
      "epoch": 0.8736302526167163,
      "grad_norm": 1.0535074632457369,
      "learning_rate": 8.256153212120222e-07,
      "loss": 0.6664,
      "step": 14231
    },
    {
      "epoch": 0.8736916418551828,
      "grad_norm": 1.0863814196246075,
      "learning_rate": 8.248243825521652e-07,
      "loss": 0.6699,
      "step": 14232
    },
    {
      "epoch": 0.8737530310936493,
      "grad_norm": 1.046684646905032,
      "learning_rate": 8.240338066360742e-07,
      "loss": 0.6981,
      "step": 14233
    },
    {
      "epoch": 0.8738144203321158,
      "grad_norm": 1.1214895800023015,
      "learning_rate": 8.232435934950001e-07,
      "loss": 0.7601,
      "step": 14234
    },
    {
      "epoch": 0.8738758095705823,
      "grad_norm": 0.9779766095947654,
      "learning_rate": 8.224537431601886e-07,
      "loss": 0.7141,
      "step": 14235
    },
    {
      "epoch": 0.8739371988090487,
      "grad_norm": 1.0822322994676536,
      "learning_rate": 8.216642556628662e-07,
      "loss": 0.7317,
      "step": 14236
    },
    {
      "epoch": 0.8739985880475153,
      "grad_norm": 1.09757405668737,
      "learning_rate": 8.208751310342444e-07,
      "loss": 0.7437,
      "step": 14237
    },
    {
      "epoch": 0.8740599772859817,
      "grad_norm": 1.0934482537151422,
      "learning_rate": 8.200863693055228e-07,
      "loss": 0.7458,
      "step": 14238
    },
    {
      "epoch": 0.8741213665244483,
      "grad_norm": 1.0912613013972452,
      "learning_rate": 8.192979705078852e-07,
      "loss": 0.7465,
      "step": 14239
    },
    {
      "epoch": 0.8741827557629147,
      "grad_norm": 0.5927452445356433,
      "learning_rate": 8.18509934672499e-07,
      "loss": 0.6527,
      "step": 14240
    },
    {
      "epoch": 0.8742441450013813,
      "grad_norm": 1.0656038360479565,
      "learning_rate": 8.177222618305225e-07,
      "loss": 0.6781,
      "step": 14241
    },
    {
      "epoch": 0.8743055342398478,
      "grad_norm": 1.0951997505274156,
      "learning_rate": 8.169349520130931e-07,
      "loss": 0.7599,
      "step": 14242
    },
    {
      "epoch": 0.8743669234783142,
      "grad_norm": 1.0554124916238568,
      "learning_rate": 8.161480052513426e-07,
      "loss": 0.7362,
      "step": 14243
    },
    {
      "epoch": 0.8744283127167808,
      "grad_norm": 0.6338222567050021,
      "learning_rate": 8.153614215763783e-07,
      "loss": 0.6763,
      "step": 14244
    },
    {
      "epoch": 0.8744897019552472,
      "grad_norm": 1.1235603028123218,
      "learning_rate": 8.145752010192986e-07,
      "loss": 0.7267,
      "step": 14245
    },
    {
      "epoch": 0.8745510911937138,
      "grad_norm": 0.9503977215275282,
      "learning_rate": 8.13789343611191e-07,
      "loss": 0.7423,
      "step": 14246
    },
    {
      "epoch": 0.8746124804321802,
      "grad_norm": 1.0881504174210321,
      "learning_rate": 8.130038493831205e-07,
      "loss": 0.7338,
      "step": 14247
    },
    {
      "epoch": 0.8746738696706468,
      "grad_norm": 1.1333582544521938,
      "learning_rate": 8.122187183661434e-07,
      "loss": 0.7035,
      "step": 14248
    },
    {
      "epoch": 0.8747352589091132,
      "grad_norm": 1.044558558033991,
      "learning_rate": 8.114339505913016e-07,
      "loss": 0.7508,
      "step": 14249
    },
    {
      "epoch": 0.8747966481475797,
      "grad_norm": 1.0597995860781226,
      "learning_rate": 8.10649546089618e-07,
      "loss": 0.746,
      "step": 14250
    },
    {
      "epoch": 0.8748580373860462,
      "grad_norm": 1.0145175451700055,
      "learning_rate": 8.098655048921067e-07,
      "loss": 0.6867,
      "step": 14251
    },
    {
      "epoch": 0.8749194266245127,
      "grad_norm": 1.0215124225535142,
      "learning_rate": 8.09081827029764e-07,
      "loss": 0.7463,
      "step": 14252
    },
    {
      "epoch": 0.8749808158629793,
      "grad_norm": 1.1514087146869905,
      "learning_rate": 8.082985125335729e-07,
      "loss": 0.7349,
      "step": 14253
    },
    {
      "epoch": 0.8750422051014457,
      "grad_norm": 1.020354546800476,
      "learning_rate": 8.075155614345031e-07,
      "loss": 0.7188,
      "step": 14254
    },
    {
      "epoch": 0.8751035943399122,
      "grad_norm": 0.9636601492619256,
      "learning_rate": 8.067329737635077e-07,
      "loss": 0.721,
      "step": 14255
    },
    {
      "epoch": 0.8751649835783787,
      "grad_norm": 1.0511510237753703,
      "learning_rate": 8.059507495515251e-07,
      "loss": 0.7988,
      "step": 14256
    },
    {
      "epoch": 0.8752263728168452,
      "grad_norm": 1.0836314247309606,
      "learning_rate": 8.05168888829484e-07,
      "loss": 0.7238,
      "step": 14257
    },
    {
      "epoch": 0.8752877620553117,
      "grad_norm": 0.9372399162587072,
      "learning_rate": 8.043873916282963e-07,
      "loss": 0.6911,
      "step": 14258
    },
    {
      "epoch": 0.8753491512937782,
      "grad_norm": 1.067912757993286,
      "learning_rate": 8.036062579788528e-07,
      "loss": 0.7691,
      "step": 14259
    },
    {
      "epoch": 0.8754105405322447,
      "grad_norm": 1.0750351433167653,
      "learning_rate": 8.028254879120412e-07,
      "loss": 0.7429,
      "step": 14260
    },
    {
      "epoch": 0.8754719297707112,
      "grad_norm": 1.098750474412468,
      "learning_rate": 8.020450814587289e-07,
      "loss": 0.769,
      "step": 14261
    },
    {
      "epoch": 0.8755333190091777,
      "grad_norm": 1.0261770111322204,
      "learning_rate": 8.012650386497678e-07,
      "loss": 0.7354,
      "step": 14262
    },
    {
      "epoch": 0.8755947082476442,
      "grad_norm": 0.9000319297385576,
      "learning_rate": 8.00485359515999e-07,
      "loss": 0.6992,
      "step": 14263
    },
    {
      "epoch": 0.8756560974861107,
      "grad_norm": 1.0985570010572399,
      "learning_rate": 7.997060440882453e-07,
      "loss": 0.7337,
      "step": 14264
    },
    {
      "epoch": 0.8757174867245772,
      "grad_norm": 1.0141830743957534,
      "learning_rate": 7.989270923973191e-07,
      "loss": 0.7188,
      "step": 14265
    },
    {
      "epoch": 0.8757788759630437,
      "grad_norm": 0.9060530847853187,
      "learning_rate": 7.981485044740145e-07,
      "loss": 0.7357,
      "step": 14266
    },
    {
      "epoch": 0.8758402652015101,
      "grad_norm": 1.0187146858059157,
      "learning_rate": 7.973702803491145e-07,
      "loss": 0.6872,
      "step": 14267
    },
    {
      "epoch": 0.8759016544399767,
      "grad_norm": 0.9394383311602272,
      "learning_rate": 7.965924200533892e-07,
      "loss": 0.7506,
      "step": 14268
    },
    {
      "epoch": 0.8759630436784431,
      "grad_norm": 0.9296426511566923,
      "learning_rate": 7.95814923617586e-07,
      "loss": 0.8002,
      "step": 14269
    },
    {
      "epoch": 0.8760244329169097,
      "grad_norm": 1.0975353437874227,
      "learning_rate": 7.950377910724461e-07,
      "loss": 0.7764,
      "step": 14270
    },
    {
      "epoch": 0.8760858221553761,
      "grad_norm": 0.9787181479542547,
      "learning_rate": 7.942610224486947e-07,
      "loss": 0.7737,
      "step": 14271
    },
    {
      "epoch": 0.8761472113938427,
      "grad_norm": 0.9981888948330094,
      "learning_rate": 7.934846177770417e-07,
      "loss": 0.7334,
      "step": 14272
    },
    {
      "epoch": 0.8762086006323092,
      "grad_norm": 0.9911074727605086,
      "learning_rate": 7.927085770881815e-07,
      "loss": 0.726,
      "step": 14273
    },
    {
      "epoch": 0.8762699898707756,
      "grad_norm": 1.010026624576597,
      "learning_rate": 7.91932900412794e-07,
      "loss": 0.6898,
      "step": 14274
    },
    {
      "epoch": 0.8763313791092422,
      "grad_norm": 1.037283250489844,
      "learning_rate": 7.91157587781548e-07,
      "loss": 0.7325,
      "step": 14275
    },
    {
      "epoch": 0.8763927683477086,
      "grad_norm": 1.0025115450681843,
      "learning_rate": 7.903826392250957e-07,
      "loss": 0.7228,
      "step": 14276
    },
    {
      "epoch": 0.8764541575861752,
      "grad_norm": 0.9529895992530428,
      "learning_rate": 7.896080547740737e-07,
      "loss": 0.7388,
      "step": 14277
    },
    {
      "epoch": 0.8765155468246416,
      "grad_norm": 0.5891348116835377,
      "learning_rate": 7.888338344591051e-07,
      "loss": 0.6703,
      "step": 14278
    },
    {
      "epoch": 0.8765769360631082,
      "grad_norm": 1.089849889678772,
      "learning_rate": 7.880599783108012e-07,
      "loss": 0.7447,
      "step": 14279
    },
    {
      "epoch": 0.8766383253015746,
      "grad_norm": 0.9176152642186858,
      "learning_rate": 7.87286486359754e-07,
      "loss": 0.6958,
      "step": 14280
    },
    {
      "epoch": 0.8766997145400411,
      "grad_norm": 1.0219356587730386,
      "learning_rate": 7.865133586365436e-07,
      "loss": 0.6703,
      "step": 14281
    },
    {
      "epoch": 0.8767611037785076,
      "grad_norm": 1.1073120227167372,
      "learning_rate": 7.857405951717412e-07,
      "loss": 0.7237,
      "step": 14282
    },
    {
      "epoch": 0.8768224930169741,
      "grad_norm": 1.0971192701176216,
      "learning_rate": 7.849681959958921e-07,
      "loss": 0.7195,
      "step": 14283
    },
    {
      "epoch": 0.8768838822554407,
      "grad_norm": 1.1335449562544986,
      "learning_rate": 7.841961611395354e-07,
      "loss": 0.726,
      "step": 14284
    },
    {
      "epoch": 0.8769452714939071,
      "grad_norm": 1.161404732292044,
      "learning_rate": 7.834244906331945e-07,
      "loss": 0.6838,
      "step": 14285
    },
    {
      "epoch": 0.8770066607323737,
      "grad_norm": 0.8632658745615978,
      "learning_rate": 7.82653184507377e-07,
      "loss": 0.6894,
      "step": 14286
    },
    {
      "epoch": 0.8770680499708401,
      "grad_norm": 1.0509134744001964,
      "learning_rate": 7.818822427925777e-07,
      "loss": 0.6837,
      "step": 14287
    },
    {
      "epoch": 0.8771294392093066,
      "grad_norm": 1.1070529825136382,
      "learning_rate": 7.811116655192752e-07,
      "loss": 0.6926,
      "step": 14288
    },
    {
      "epoch": 0.8771908284477731,
      "grad_norm": 1.1793847813844198,
      "learning_rate": 7.803414527179343e-07,
      "loss": 0.7476,
      "step": 14289
    },
    {
      "epoch": 0.8772522176862396,
      "grad_norm": 1.2171969007665078,
      "learning_rate": 7.795716044190061e-07,
      "loss": 0.7493,
      "step": 14290
    },
    {
      "epoch": 0.8773136069247061,
      "grad_norm": 0.945541885302312,
      "learning_rate": 7.788021206529262e-07,
      "loss": 0.7288,
      "step": 14291
    },
    {
      "epoch": 0.8773749961631726,
      "grad_norm": 1.1625850503211987,
      "learning_rate": 7.78033001450117e-07,
      "loss": 0.7325,
      "step": 14292
    },
    {
      "epoch": 0.877436385401639,
      "grad_norm": 1.0151640447430845,
      "learning_rate": 7.772642468409864e-07,
      "loss": 0.7329,
      "step": 14293
    },
    {
      "epoch": 0.8774977746401056,
      "grad_norm": 0.9748210071100404,
      "learning_rate": 7.764958568559267e-07,
      "loss": 0.7412,
      "step": 14294
    },
    {
      "epoch": 0.8775591638785721,
      "grad_norm": 1.1434395814687492,
      "learning_rate": 7.757278315253147e-07,
      "loss": 0.6928,
      "step": 14295
    },
    {
      "epoch": 0.8776205531170386,
      "grad_norm": 1.1690287113279465,
      "learning_rate": 7.749601708795173e-07,
      "loss": 0.7381,
      "step": 14296
    },
    {
      "epoch": 0.8776819423555051,
      "grad_norm": 0.9711106880208047,
      "learning_rate": 7.74192874948887e-07,
      "loss": 0.7488,
      "step": 14297
    },
    {
      "epoch": 0.8777433315939716,
      "grad_norm": 1.047433435841147,
      "learning_rate": 7.734259437637504e-07,
      "loss": 0.7568,
      "step": 14298
    },
    {
      "epoch": 0.8778047208324381,
      "grad_norm": 1.2312573417232888,
      "learning_rate": 7.726593773544355e-07,
      "loss": 0.7147,
      "step": 14299
    },
    {
      "epoch": 0.8778661100709045,
      "grad_norm": 1.0287484871737835,
      "learning_rate": 7.718931757512471e-07,
      "loss": 0.7395,
      "step": 14300
    },
    {
      "epoch": 0.8779274993093711,
      "grad_norm": 1.0127443754476124,
      "learning_rate": 7.711273389844764e-07,
      "loss": 0.708,
      "step": 14301
    },
    {
      "epoch": 0.8779888885478375,
      "grad_norm": 1.1381038917839752,
      "learning_rate": 7.703618670844016e-07,
      "loss": 0.7443,
      "step": 14302
    },
    {
      "epoch": 0.8780502777863041,
      "grad_norm": 1.0411823543178949,
      "learning_rate": 7.69596760081286e-07,
      "loss": 0.7569,
      "step": 14303
    },
    {
      "epoch": 0.8781116670247705,
      "grad_norm": 1.0123592516616091,
      "learning_rate": 7.688320180053777e-07,
      "loss": 0.688,
      "step": 14304
    },
    {
      "epoch": 0.878173056263237,
      "grad_norm": 1.1434701634886006,
      "learning_rate": 7.680676408869114e-07,
      "loss": 0.7359,
      "step": 14305
    },
    {
      "epoch": 0.8782344455017036,
      "grad_norm": 1.0967437565104619,
      "learning_rate": 7.673036287561053e-07,
      "loss": 0.6917,
      "step": 14306
    },
    {
      "epoch": 0.87829583474017,
      "grad_norm": 0.9493718902241088,
      "learning_rate": 7.665399816431707e-07,
      "loss": 0.6875,
      "step": 14307
    },
    {
      "epoch": 0.8783572239786366,
      "grad_norm": 0.9886743241604414,
      "learning_rate": 7.657766995782923e-07,
      "loss": 0.6943,
      "step": 14308
    },
    {
      "epoch": 0.878418613217103,
      "grad_norm": 1.1330504480660153,
      "learning_rate": 7.650137825916482e-07,
      "loss": 0.7175,
      "step": 14309
    },
    {
      "epoch": 0.8784800024555696,
      "grad_norm": 1.0436044867585788,
      "learning_rate": 7.642512307134032e-07,
      "loss": 0.719,
      "step": 14310
    },
    {
      "epoch": 0.878541391694036,
      "grad_norm": 1.1411649271098445,
      "learning_rate": 7.634890439737019e-07,
      "loss": 0.7355,
      "step": 14311
    },
    {
      "epoch": 0.8786027809325025,
      "grad_norm": 1.0348770289137699,
      "learning_rate": 7.627272224026805e-07,
      "loss": 0.7073,
      "step": 14312
    },
    {
      "epoch": 0.878664170170969,
      "grad_norm": 1.0815851019820018,
      "learning_rate": 7.619657660304558e-07,
      "loss": 0.7393,
      "step": 14313
    },
    {
      "epoch": 0.8787255594094355,
      "grad_norm": 0.5891449299986927,
      "learning_rate": 7.612046748871327e-07,
      "loss": 0.6223,
      "step": 14314
    },
    {
      "epoch": 0.8787869486479021,
      "grad_norm": 0.9948914484526825,
      "learning_rate": 7.604439490028015e-07,
      "loss": 0.7551,
      "step": 14315
    },
    {
      "epoch": 0.8788483378863685,
      "grad_norm": 0.8565050536323474,
      "learning_rate": 7.596835884075382e-07,
      "loss": 0.7345,
      "step": 14316
    },
    {
      "epoch": 0.8789097271248351,
      "grad_norm": 1.0714551100855092,
      "learning_rate": 7.589235931314021e-07,
      "loss": 0.7063,
      "step": 14317
    },
    {
      "epoch": 0.8789711163633015,
      "grad_norm": 1.1409998571468596,
      "learning_rate": 7.581639632044424e-07,
      "loss": 0.7494,
      "step": 14318
    },
    {
      "epoch": 0.879032505601768,
      "grad_norm": 1.0601819954375131,
      "learning_rate": 7.574046986566897e-07,
      "loss": 0.7013,
      "step": 14319
    },
    {
      "epoch": 0.8790938948402345,
      "grad_norm": 1.2152454192886224,
      "learning_rate": 7.566457995181598e-07,
      "loss": 0.7804,
      "step": 14320
    },
    {
      "epoch": 0.879155284078701,
      "grad_norm": 1.082886955131632,
      "learning_rate": 7.55887265818861e-07,
      "loss": 0.7062,
      "step": 14321
    },
    {
      "epoch": 0.8792166733171675,
      "grad_norm": 1.020381057197206,
      "learning_rate": 7.551290975887804e-07,
      "loss": 0.7484,
      "step": 14322
    },
    {
      "epoch": 0.879278062555634,
      "grad_norm": 0.9630509925733477,
      "learning_rate": 7.543712948578885e-07,
      "loss": 0.7383,
      "step": 14323
    },
    {
      "epoch": 0.8793394517941004,
      "grad_norm": 0.9854330075553163,
      "learning_rate": 7.536138576561502e-07,
      "loss": 0.7166,
      "step": 14324
    },
    {
      "epoch": 0.879400841032567,
      "grad_norm": 1.0469889472190486,
      "learning_rate": 7.528567860135094e-07,
      "loss": 0.7742,
      "step": 14325
    },
    {
      "epoch": 0.8794622302710335,
      "grad_norm": 0.9657784028406675,
      "learning_rate": 7.521000799598965e-07,
      "loss": 0.7563,
      "step": 14326
    },
    {
      "epoch": 0.8795236195095,
      "grad_norm": 1.0610056507507217,
      "learning_rate": 7.513437395252298e-07,
      "loss": 0.6934,
      "step": 14327
    },
    {
      "epoch": 0.8795850087479665,
      "grad_norm": 1.1954357950023453,
      "learning_rate": 7.505877647394089e-07,
      "loss": 0.7572,
      "step": 14328
    },
    {
      "epoch": 0.879646397986433,
      "grad_norm": 0.9778119830578311,
      "learning_rate": 7.49832155632324e-07,
      "loss": 0.734,
      "step": 14329
    },
    {
      "epoch": 0.8797077872248995,
      "grad_norm": 1.076144771771537,
      "learning_rate": 7.49076912233847e-07,
      "loss": 0.7533,
      "step": 14330
    },
    {
      "epoch": 0.8797691764633659,
      "grad_norm": 1.072749684752331,
      "learning_rate": 7.483220345738352e-07,
      "loss": 0.7155,
      "step": 14331
    },
    {
      "epoch": 0.8798305657018325,
      "grad_norm": 1.0404077216519036,
      "learning_rate": 7.475675226821388e-07,
      "loss": 0.7227,
      "step": 14332
    },
    {
      "epoch": 0.8798919549402989,
      "grad_norm": 1.165512886602215,
      "learning_rate": 7.468133765885821e-07,
      "loss": 0.7185,
      "step": 14333
    },
    {
      "epoch": 0.8799533441787655,
      "grad_norm": 1.1032134661708837,
      "learning_rate": 7.460595963229799e-07,
      "loss": 0.752,
      "step": 14334
    },
    {
      "epoch": 0.8800147334172319,
      "grad_norm": 1.0482756755405334,
      "learning_rate": 7.453061819151375e-07,
      "loss": 0.7169,
      "step": 14335
    },
    {
      "epoch": 0.8800761226556985,
      "grad_norm": 1.0239614200654077,
      "learning_rate": 7.445531333948385e-07,
      "loss": 0.6951,
      "step": 14336
    },
    {
      "epoch": 0.880137511894165,
      "grad_norm": 1.1410197826966506,
      "learning_rate": 7.438004507918562e-07,
      "loss": 0.7313,
      "step": 14337
    },
    {
      "epoch": 0.8801989011326314,
      "grad_norm": 0.9895039329426258,
      "learning_rate": 7.430481341359486e-07,
      "loss": 0.7248,
      "step": 14338
    },
    {
      "epoch": 0.880260290371098,
      "grad_norm": 0.9896760597955246,
      "learning_rate": 7.422961834568565e-07,
      "loss": 0.7192,
      "step": 14339
    },
    {
      "epoch": 0.8803216796095644,
      "grad_norm": 1.0332298670284346,
      "learning_rate": 7.415445987843106e-07,
      "loss": 0.6861,
      "step": 14340
    },
    {
      "epoch": 0.880383068848031,
      "grad_norm": 1.107969485923165,
      "learning_rate": 7.407933801480249e-07,
      "loss": 0.7101,
      "step": 14341
    },
    {
      "epoch": 0.8804444580864974,
      "grad_norm": 1.1717627446774996,
      "learning_rate": 7.400425275776979e-07,
      "loss": 0.7746,
      "step": 14342
    },
    {
      "epoch": 0.880505847324964,
      "grad_norm": 1.0551418056145785,
      "learning_rate": 7.392920411030158e-07,
      "loss": 0.7041,
      "step": 14343
    },
    {
      "epoch": 0.8805672365634304,
      "grad_norm": 0.9867223531331752,
      "learning_rate": 7.385419207536493e-07,
      "loss": 0.7126,
      "step": 14344
    },
    {
      "epoch": 0.8806286258018969,
      "grad_norm": 0.9531692974479884,
      "learning_rate": 7.377921665592525e-07,
      "loss": 0.7011,
      "step": 14345
    },
    {
      "epoch": 0.8806900150403634,
      "grad_norm": 0.9830256996207866,
      "learning_rate": 7.370427785494704e-07,
      "loss": 0.7298,
      "step": 14346
    },
    {
      "epoch": 0.8807514042788299,
      "grad_norm": 0.9768402226870262,
      "learning_rate": 7.362937567539307e-07,
      "loss": 0.7185,
      "step": 14347
    },
    {
      "epoch": 0.8808127935172965,
      "grad_norm": 1.0348508980036635,
      "learning_rate": 7.355451012022418e-07,
      "loss": 0.7278,
      "step": 14348
    },
    {
      "epoch": 0.8808741827557629,
      "grad_norm": 1.0835324328453806,
      "learning_rate": 7.347968119240068e-07,
      "loss": 0.7554,
      "step": 14349
    },
    {
      "epoch": 0.8809355719942294,
      "grad_norm": 1.2025621133309552,
      "learning_rate": 7.340488889488073e-07,
      "loss": 0.7238,
      "step": 14350
    },
    {
      "epoch": 0.8809969612326959,
      "grad_norm": 1.0134360415014596,
      "learning_rate": 7.333013323062121e-07,
      "loss": 0.7476,
      "step": 14351
    },
    {
      "epoch": 0.8810583504711624,
      "grad_norm": 1.1321821028321226,
      "learning_rate": 7.325541420257776e-07,
      "loss": 0.6883,
      "step": 14352
    },
    {
      "epoch": 0.8811197397096289,
      "grad_norm": 1.05893236682044,
      "learning_rate": 7.318073181370444e-07,
      "loss": 0.7056,
      "step": 14353
    },
    {
      "epoch": 0.8811811289480954,
      "grad_norm": 1.0558241474496557,
      "learning_rate": 7.310608606695369e-07,
      "loss": 0.7175,
      "step": 14354
    },
    {
      "epoch": 0.8812425181865619,
      "grad_norm": 0.9745588391710938,
      "learning_rate": 7.30314769652768e-07,
      "loss": 0.7116,
      "step": 14355
    },
    {
      "epoch": 0.8813039074250284,
      "grad_norm": 1.1180126915483186,
      "learning_rate": 7.29569045116233e-07,
      "loss": 0.7179,
      "step": 14356
    },
    {
      "epoch": 0.8813652966634948,
      "grad_norm": 1.1672599653084028,
      "learning_rate": 7.28823687089416e-07,
      "loss": 0.761,
      "step": 14357
    },
    {
      "epoch": 0.8814266859019614,
      "grad_norm": 0.8671814093376091,
      "learning_rate": 7.280786956017849e-07,
      "loss": 0.6799,
      "step": 14358
    },
    {
      "epoch": 0.8814880751404279,
      "grad_norm": 0.5610948385901219,
      "learning_rate": 7.273340706827902e-07,
      "loss": 0.5824,
      "step": 14359
    },
    {
      "epoch": 0.8815494643788944,
      "grad_norm": 1.1271911551028222,
      "learning_rate": 7.265898123618753e-07,
      "loss": 0.7911,
      "step": 14360
    },
    {
      "epoch": 0.8816108536173609,
      "grad_norm": 1.100385122819543,
      "learning_rate": 7.258459206684642e-07,
      "loss": 0.7288,
      "step": 14361
    },
    {
      "epoch": 0.8816722428558273,
      "grad_norm": 1.058936189782451,
      "learning_rate": 7.251023956319624e-07,
      "loss": 0.7581,
      "step": 14362
    },
    {
      "epoch": 0.8817336320942939,
      "grad_norm": 1.0606205588112905,
      "learning_rate": 7.24359237281771e-07,
      "loss": 0.7188,
      "step": 14363
    },
    {
      "epoch": 0.8817950213327603,
      "grad_norm": 1.0008084788275395,
      "learning_rate": 7.236164456472672e-07,
      "loss": 0.7103,
      "step": 14364
    },
    {
      "epoch": 0.8818564105712269,
      "grad_norm": 1.0899586607541023,
      "learning_rate": 7.2287402075782e-07,
      "loss": 0.6951,
      "step": 14365
    },
    {
      "epoch": 0.8819177998096933,
      "grad_norm": 1.04996019503947,
      "learning_rate": 7.221319626427791e-07,
      "loss": 0.7557,
      "step": 14366
    },
    {
      "epoch": 0.8819791890481599,
      "grad_norm": 1.1208845317430518,
      "learning_rate": 7.213902713314846e-07,
      "loss": 0.7271,
      "step": 14367
    },
    {
      "epoch": 0.8820405782866264,
      "grad_norm": 1.0026676142369655,
      "learning_rate": 7.206489468532574e-07,
      "loss": 0.6803,
      "step": 14368
    },
    {
      "epoch": 0.8821019675250928,
      "grad_norm": 0.943522681878739,
      "learning_rate": 7.199079892374072e-07,
      "loss": 0.7176,
      "step": 14369
    },
    {
      "epoch": 0.8821633567635594,
      "grad_norm": 1.1663228383657749,
      "learning_rate": 7.191673985132252e-07,
      "loss": 0.749,
      "step": 14370
    },
    {
      "epoch": 0.8822247460020258,
      "grad_norm": 1.112976544655712,
      "learning_rate": 7.18427174709998e-07,
      "loss": 0.7401,
      "step": 14371
    },
    {
      "epoch": 0.8822861352404924,
      "grad_norm": 1.0695471908589267,
      "learning_rate": 7.176873178569832e-07,
      "loss": 0.7214,
      "step": 14372
    },
    {
      "epoch": 0.8823475244789588,
      "grad_norm": 1.169416469795754,
      "learning_rate": 7.169478279834319e-07,
      "loss": 0.7715,
      "step": 14373
    },
    {
      "epoch": 0.8824089137174254,
      "grad_norm": 1.1028800416710636,
      "learning_rate": 7.162087051185851e-07,
      "loss": 0.7575,
      "step": 14374
    },
    {
      "epoch": 0.8824703029558918,
      "grad_norm": 1.0891175690316208,
      "learning_rate": 7.154699492916606e-07,
      "loss": 0.7474,
      "step": 14375
    },
    {
      "epoch": 0.8825316921943583,
      "grad_norm": 1.0748100579451487,
      "learning_rate": 7.147315605318661e-07,
      "loss": 0.7451,
      "step": 14376
    },
    {
      "epoch": 0.8825930814328248,
      "grad_norm": 1.17829962627647,
      "learning_rate": 7.139935388683949e-07,
      "loss": 0.7474,
      "step": 14377
    },
    {
      "epoch": 0.8826544706712913,
      "grad_norm": 1.0223315998378084,
      "learning_rate": 7.132558843304238e-07,
      "loss": 0.7502,
      "step": 14378
    },
    {
      "epoch": 0.8827158599097579,
      "grad_norm": 1.0068425575966569,
      "learning_rate": 7.12518596947116e-07,
      "loss": 0.7714,
      "step": 14379
    },
    {
      "epoch": 0.8827772491482243,
      "grad_norm": 1.0762000152123732,
      "learning_rate": 7.117816767476216e-07,
      "loss": 0.7299,
      "step": 14380
    },
    {
      "epoch": 0.8828386383866909,
      "grad_norm": 1.1007292228075822,
      "learning_rate": 7.110451237610749e-07,
      "loss": 0.762,
      "step": 14381
    },
    {
      "epoch": 0.8829000276251573,
      "grad_norm": 1.09168141089109,
      "learning_rate": 7.103089380165939e-07,
      "loss": 0.7238,
      "step": 14382
    },
    {
      "epoch": 0.8829614168636238,
      "grad_norm": 1.0639973231868967,
      "learning_rate": 7.095731195432865e-07,
      "loss": 0.7304,
      "step": 14383
    },
    {
      "epoch": 0.8830228061020903,
      "grad_norm": 1.0330182361340174,
      "learning_rate": 7.088376683702403e-07,
      "loss": 0.7115,
      "step": 14384
    },
    {
      "epoch": 0.8830841953405568,
      "grad_norm": 1.0578779285945514,
      "learning_rate": 7.081025845265355e-07,
      "loss": 0.7196,
      "step": 14385
    },
    {
      "epoch": 0.8831455845790233,
      "grad_norm": 0.9302789722594589,
      "learning_rate": 7.073678680412333e-07,
      "loss": 0.7769,
      "step": 14386
    },
    {
      "epoch": 0.8832069738174898,
      "grad_norm": 0.9955172262669383,
      "learning_rate": 7.066335189433771e-07,
      "loss": 0.7313,
      "step": 14387
    },
    {
      "epoch": 0.8832683630559562,
      "grad_norm": 0.9831840323438714,
      "learning_rate": 7.058995372620037e-07,
      "loss": 0.6758,
      "step": 14388
    },
    {
      "epoch": 0.8833297522944228,
      "grad_norm": 1.0084486779260453,
      "learning_rate": 7.051659230261299e-07,
      "loss": 0.7756,
      "step": 14389
    },
    {
      "epoch": 0.8833911415328893,
      "grad_norm": 1.0741621202358336,
      "learning_rate": 7.044326762647591e-07,
      "loss": 0.7294,
      "step": 14390
    },
    {
      "epoch": 0.8834525307713558,
      "grad_norm": 1.0753836616577739,
      "learning_rate": 7.036997970068815e-07,
      "loss": 0.7436,
      "step": 14391
    },
    {
      "epoch": 0.8835139200098223,
      "grad_norm": 0.9997859996550849,
      "learning_rate": 7.029672852814706e-07,
      "loss": 0.729,
      "step": 14392
    },
    {
      "epoch": 0.8835753092482888,
      "grad_norm": 1.0126526635009614,
      "learning_rate": 7.022351411174866e-07,
      "loss": 0.7195,
      "step": 14393
    },
    {
      "epoch": 0.8836366984867553,
      "grad_norm": 1.0003160226186976,
      "learning_rate": 7.015033645438763e-07,
      "loss": 0.7639,
      "step": 14394
    },
    {
      "epoch": 0.8836980877252217,
      "grad_norm": 1.0857990344722654,
      "learning_rate": 7.007719555895676e-07,
      "loss": 0.7399,
      "step": 14395
    },
    {
      "epoch": 0.8837594769636883,
      "grad_norm": 0.9664803233052685,
      "learning_rate": 7.000409142834819e-07,
      "loss": 0.7228,
      "step": 14396
    },
    {
      "epoch": 0.8838208662021547,
      "grad_norm": 1.0802031641375496,
      "learning_rate": 6.993102406545182e-07,
      "loss": 0.7262,
      "step": 14397
    },
    {
      "epoch": 0.8838822554406213,
      "grad_norm": 0.9785996860161005,
      "learning_rate": 6.985799347315625e-07,
      "loss": 0.705,
      "step": 14398
    },
    {
      "epoch": 0.8839436446790877,
      "grad_norm": 1.0721254706189438,
      "learning_rate": 6.978499965434904e-07,
      "loss": 0.7019,
      "step": 14399
    },
    {
      "epoch": 0.8840050339175543,
      "grad_norm": 1.0643686719329626,
      "learning_rate": 6.9712042611916e-07,
      "loss": 0.7164,
      "step": 14400
    },
    {
      "epoch": 0.8840664231560208,
      "grad_norm": 1.0759015043637548,
      "learning_rate": 6.963912234874137e-07,
      "loss": 0.724,
      "step": 14401
    },
    {
      "epoch": 0.8841278123944872,
      "grad_norm": 0.9497219661358405,
      "learning_rate": 6.956623886770819e-07,
      "loss": 0.7148,
      "step": 14402
    },
    {
      "epoch": 0.8841892016329538,
      "grad_norm": 1.010711720868488,
      "learning_rate": 6.949339217169792e-07,
      "loss": 0.7257,
      "step": 14403
    },
    {
      "epoch": 0.8842505908714202,
      "grad_norm": 1.0384435959505418,
      "learning_rate": 6.94205822635905e-07,
      "loss": 0.7071,
      "step": 14404
    },
    {
      "epoch": 0.8843119801098868,
      "grad_norm": 0.9694592811157526,
      "learning_rate": 6.934780914626437e-07,
      "loss": 0.7427,
      "step": 14405
    },
    {
      "epoch": 0.8843733693483532,
      "grad_norm": 1.0616551259547484,
      "learning_rate": 6.927507282259727e-07,
      "loss": 0.7604,
      "step": 14406
    },
    {
      "epoch": 0.8844347585868197,
      "grad_norm": 1.0569397598428985,
      "learning_rate": 6.920237329546419e-07,
      "loss": 0.7508,
      "step": 14407
    },
    {
      "epoch": 0.8844961478252862,
      "grad_norm": 0.9941625991603673,
      "learning_rate": 6.912971056773954e-07,
      "loss": 0.7284,
      "step": 14408
    },
    {
      "epoch": 0.8845575370637527,
      "grad_norm": 1.1712082046857644,
      "learning_rate": 6.905708464229588e-07,
      "loss": 0.7364,
      "step": 14409
    },
    {
      "epoch": 0.8846189263022192,
      "grad_norm": 1.0534615539379606,
      "learning_rate": 6.898449552200493e-07,
      "loss": 0.7348,
      "step": 14410
    },
    {
      "epoch": 0.8846803155406857,
      "grad_norm": 1.0031590669030692,
      "learning_rate": 6.891194320973638e-07,
      "loss": 0.7416,
      "step": 14411
    },
    {
      "epoch": 0.8847417047791523,
      "grad_norm": 1.1033481933255016,
      "learning_rate": 6.883942770835827e-07,
      "loss": 0.716,
      "step": 14412
    },
    {
      "epoch": 0.8848030940176187,
      "grad_norm": 1.031719864007191,
      "learning_rate": 6.876694902073788e-07,
      "loss": 0.7122,
      "step": 14413
    },
    {
      "epoch": 0.8848644832560852,
      "grad_norm": 1.1469792607887044,
      "learning_rate": 6.869450714974058e-07,
      "loss": 0.6726,
      "step": 14414
    },
    {
      "epoch": 0.8849258724945517,
      "grad_norm": 1.0921929831071786,
      "learning_rate": 6.862210209823039e-07,
      "loss": 0.7731,
      "step": 14415
    },
    {
      "epoch": 0.8849872617330182,
      "grad_norm": 1.0187613630240704,
      "learning_rate": 6.854973386906994e-07,
      "loss": 0.7443,
      "step": 14416
    },
    {
      "epoch": 0.8850486509714847,
      "grad_norm": 1.1491353648225178,
      "learning_rate": 6.847740246512014e-07,
      "loss": 0.7319,
      "step": 14417
    },
    {
      "epoch": 0.8851100402099512,
      "grad_norm": 1.1178395426659102,
      "learning_rate": 6.840510788924082e-07,
      "loss": 0.7629,
      "step": 14418
    },
    {
      "epoch": 0.8851714294484176,
      "grad_norm": 1.038332001982971,
      "learning_rate": 6.833285014429014e-07,
      "loss": 0.74,
      "step": 14419
    },
    {
      "epoch": 0.8852328186868842,
      "grad_norm": 1.1005381645436407,
      "learning_rate": 6.82606292331247e-07,
      "loss": 0.747,
      "step": 14420
    },
    {
      "epoch": 0.8852942079253507,
      "grad_norm": 1.018923952641633,
      "learning_rate": 6.818844515860002e-07,
      "loss": 0.724,
      "step": 14421
    },
    {
      "epoch": 0.8853555971638172,
      "grad_norm": 0.9869719905172243,
      "learning_rate": 6.811629792356967e-07,
      "loss": 0.6989,
      "step": 14422
    },
    {
      "epoch": 0.8854169864022837,
      "grad_norm": 0.9658657733597172,
      "learning_rate": 6.804418753088593e-07,
      "loss": 0.7793,
      "step": 14423
    },
    {
      "epoch": 0.8854783756407502,
      "grad_norm": 1.1236775554058434,
      "learning_rate": 6.79721139834002e-07,
      "loss": 0.7115,
      "step": 14424
    },
    {
      "epoch": 0.8855397648792167,
      "grad_norm": 0.9738186155835691,
      "learning_rate": 6.790007728396175e-07,
      "loss": 0.7224,
      "step": 14425
    },
    {
      "epoch": 0.8856011541176831,
      "grad_norm": 1.0253868654810565,
      "learning_rate": 6.782807743541809e-07,
      "loss": 0.7342,
      "step": 14426
    },
    {
      "epoch": 0.8856625433561497,
      "grad_norm": 1.0265409781355577,
      "learning_rate": 6.775611444061636e-07,
      "loss": 0.6714,
      "step": 14427
    },
    {
      "epoch": 0.8857239325946161,
      "grad_norm": 0.9743834611666528,
      "learning_rate": 6.768418830240131e-07,
      "loss": 0.7666,
      "step": 14428
    },
    {
      "epoch": 0.8857853218330827,
      "grad_norm": 0.9597055929356042,
      "learning_rate": 6.761229902361677e-07,
      "loss": 0.7005,
      "step": 14429
    },
    {
      "epoch": 0.8858467110715491,
      "grad_norm": 1.102207033503173,
      "learning_rate": 6.754044660710479e-07,
      "loss": 0.7708,
      "step": 14430
    },
    {
      "epoch": 0.8859081003100157,
      "grad_norm": 1.0461210591806116,
      "learning_rate": 6.746863105570611e-07,
      "loss": 0.6923,
      "step": 14431
    },
    {
      "epoch": 0.8859694895484822,
      "grad_norm": 1.0912051188416445,
      "learning_rate": 6.739685237226001e-07,
      "loss": 0.7836,
      "step": 14432
    },
    {
      "epoch": 0.8860308787869486,
      "grad_norm": 1.0226765179975579,
      "learning_rate": 6.732511055960412e-07,
      "loss": 0.6773,
      "step": 14433
    },
    {
      "epoch": 0.8860922680254152,
      "grad_norm": 0.9928521504890098,
      "learning_rate": 6.725340562057492e-07,
      "loss": 0.7415,
      "step": 14434
    },
    {
      "epoch": 0.8861536572638816,
      "grad_norm": 0.8173666916942367,
      "learning_rate": 6.718173755800749e-07,
      "loss": 0.693,
      "step": 14435
    },
    {
      "epoch": 0.8862150465023482,
      "grad_norm": 0.9181786219266731,
      "learning_rate": 6.71101063747348e-07,
      "loss": 0.7282,
      "step": 14436
    },
    {
      "epoch": 0.8862764357408146,
      "grad_norm": 1.0281515971081074,
      "learning_rate": 6.703851207358902e-07,
      "loss": 0.7488,
      "step": 14437
    },
    {
      "epoch": 0.8863378249792812,
      "grad_norm": 1.0383145871776978,
      "learning_rate": 6.696695465740077e-07,
      "loss": 0.77,
      "step": 14438
    },
    {
      "epoch": 0.8863992142177476,
      "grad_norm": 1.1892191073419753,
      "learning_rate": 6.689543412899913e-07,
      "loss": 0.7403,
      "step": 14439
    },
    {
      "epoch": 0.8864606034562141,
      "grad_norm": 1.0406268848516083,
      "learning_rate": 6.682395049121149e-07,
      "loss": 0.7662,
      "step": 14440
    },
    {
      "epoch": 0.8865219926946806,
      "grad_norm": 1.0926023463103847,
      "learning_rate": 6.675250374686404e-07,
      "loss": 0.6849,
      "step": 14441
    },
    {
      "epoch": 0.8865833819331471,
      "grad_norm": 1.0491899268881033,
      "learning_rate": 6.668109389878152e-07,
      "loss": 0.7228,
      "step": 14442
    },
    {
      "epoch": 0.8866447711716137,
      "grad_norm": 0.9920595809687027,
      "learning_rate": 6.660972094978702e-07,
      "loss": 0.6888,
      "step": 14443
    },
    {
      "epoch": 0.8867061604100801,
      "grad_norm": 1.1351565943102015,
      "learning_rate": 6.653838490270237e-07,
      "loss": 0.7739,
      "step": 14444
    },
    {
      "epoch": 0.8867675496485466,
      "grad_norm": 1.0213706022422773,
      "learning_rate": 6.6467085760348e-07,
      "loss": 0.7218,
      "step": 14445
    },
    {
      "epoch": 0.8868289388870131,
      "grad_norm": 1.0810202705192893,
      "learning_rate": 6.639582352554263e-07,
      "loss": 0.7175,
      "step": 14446
    },
    {
      "epoch": 0.8868903281254796,
      "grad_norm": 1.1294797134608432,
      "learning_rate": 6.632459820110348e-07,
      "loss": 0.7328,
      "step": 14447
    },
    {
      "epoch": 0.8869517173639461,
      "grad_norm": 1.041468927626315,
      "learning_rate": 6.625340978984651e-07,
      "loss": 0.722,
      "step": 14448
    },
    {
      "epoch": 0.8870131066024126,
      "grad_norm": 0.9879536161862806,
      "learning_rate": 6.618225829458647e-07,
      "loss": 0.787,
      "step": 14449
    },
    {
      "epoch": 0.887074495840879,
      "grad_norm": 1.0474851629853381,
      "learning_rate": 6.611114371813632e-07,
      "loss": 0.6826,
      "step": 14450
    },
    {
      "epoch": 0.8871358850793456,
      "grad_norm": 1.1734771790839473,
      "learning_rate": 6.604006606330704e-07,
      "loss": 0.6817,
      "step": 14451
    },
    {
      "epoch": 0.887197274317812,
      "grad_norm": 1.0773774294284761,
      "learning_rate": 6.596902533290939e-07,
      "loss": 0.6836,
      "step": 14452
    },
    {
      "epoch": 0.8872586635562786,
      "grad_norm": 1.0570081237885514,
      "learning_rate": 6.589802152975167e-07,
      "loss": 0.7091,
      "step": 14453
    },
    {
      "epoch": 0.8873200527947451,
      "grad_norm": 1.0349113936768763,
      "learning_rate": 6.582705465664107e-07,
      "loss": 0.7549,
      "step": 14454
    },
    {
      "epoch": 0.8873814420332116,
      "grad_norm": 1.1831692911050222,
      "learning_rate": 6.575612471638327e-07,
      "loss": 0.7452,
      "step": 14455
    },
    {
      "epoch": 0.8874428312716781,
      "grad_norm": 1.0606756660103729,
      "learning_rate": 6.568523171178265e-07,
      "loss": 0.7246,
      "step": 14456
    },
    {
      "epoch": 0.8875042205101445,
      "grad_norm": 1.0611258339819267,
      "learning_rate": 6.561437564564177e-07,
      "loss": 0.6699,
      "step": 14457
    },
    {
      "epoch": 0.8875656097486111,
      "grad_norm": 1.1414965339465237,
      "learning_rate": 6.554355652076216e-07,
      "loss": 0.7595,
      "step": 14458
    },
    {
      "epoch": 0.8876269989870775,
      "grad_norm": 0.9270734575970551,
      "learning_rate": 6.547277433994348e-07,
      "loss": 0.7423,
      "step": 14459
    },
    {
      "epoch": 0.8876883882255441,
      "grad_norm": 1.0908807423236693,
      "learning_rate": 6.540202910598436e-07,
      "loss": 0.6715,
      "step": 14460
    },
    {
      "epoch": 0.8877497774640105,
      "grad_norm": 1.1048376532711992,
      "learning_rate": 6.533132082168159e-07,
      "loss": 0.6882,
      "step": 14461
    },
    {
      "epoch": 0.8878111667024771,
      "grad_norm": 0.9349978469194982,
      "learning_rate": 6.526064948983047e-07,
      "loss": 0.7468,
      "step": 14462
    },
    {
      "epoch": 0.8878725559409435,
      "grad_norm": 0.9188516385366832,
      "learning_rate": 6.519001511322542e-07,
      "loss": 0.7293,
      "step": 14463
    },
    {
      "epoch": 0.88793394517941,
      "grad_norm": 0.9875641140020619,
      "learning_rate": 6.51194176946588e-07,
      "loss": 0.6949,
      "step": 14464
    },
    {
      "epoch": 0.8879953344178766,
      "grad_norm": 1.1128443698683035,
      "learning_rate": 6.504885723692156e-07,
      "loss": 0.7065,
      "step": 14465
    },
    {
      "epoch": 0.888056723656343,
      "grad_norm": 1.024222182401252,
      "learning_rate": 6.49783337428036e-07,
      "loss": 0.7211,
      "step": 14466
    },
    {
      "epoch": 0.8881181128948096,
      "grad_norm": 1.0888744469069156,
      "learning_rate": 6.490784721509291e-07,
      "loss": 0.7405,
      "step": 14467
    },
    {
      "epoch": 0.888179502133276,
      "grad_norm": 1.0706654380151595,
      "learning_rate": 6.483739765657626e-07,
      "loss": 0.7182,
      "step": 14468
    },
    {
      "epoch": 0.8882408913717426,
      "grad_norm": 1.087765908780014,
      "learning_rate": 6.476698507003864e-07,
      "loss": 0.7074,
      "step": 14469
    },
    {
      "epoch": 0.888302280610209,
      "grad_norm": 1.2025544693044026,
      "learning_rate": 6.46966094582645e-07,
      "loss": 0.7307,
      "step": 14470
    },
    {
      "epoch": 0.8883636698486755,
      "grad_norm": 0.9925235770290917,
      "learning_rate": 6.46262708240355e-07,
      "loss": 0.7221,
      "step": 14471
    },
    {
      "epoch": 0.888425059087142,
      "grad_norm": 1.0471935184308847,
      "learning_rate": 6.455596917013274e-07,
      "loss": 0.7368,
      "step": 14472
    },
    {
      "epoch": 0.8884864483256085,
      "grad_norm": 1.0533876194888705,
      "learning_rate": 6.448570449933555e-07,
      "loss": 0.7198,
      "step": 14473
    },
    {
      "epoch": 0.8885478375640751,
      "grad_norm": 1.0128608956163996,
      "learning_rate": 6.441547681442206e-07,
      "loss": 0.7692,
      "step": 14474
    },
    {
      "epoch": 0.8886092268025415,
      "grad_norm": 1.0835658421415182,
      "learning_rate": 6.434528611816881e-07,
      "loss": 0.749,
      "step": 14475
    },
    {
      "epoch": 0.888670616041008,
      "grad_norm": 0.9971241494354643,
      "learning_rate": 6.427513241335026e-07,
      "loss": 0.7493,
      "step": 14476
    },
    {
      "epoch": 0.8887320052794745,
      "grad_norm": 1.0723475766506068,
      "learning_rate": 6.420501570274051e-07,
      "loss": 0.7364,
      "step": 14477
    },
    {
      "epoch": 0.888793394517941,
      "grad_norm": 1.090337846335206,
      "learning_rate": 6.413493598911147e-07,
      "loss": 0.7342,
      "step": 14478
    },
    {
      "epoch": 0.8888547837564075,
      "grad_norm": 0.9833866225216036,
      "learning_rate": 6.406489327523379e-07,
      "loss": 0.7534,
      "step": 14479
    },
    {
      "epoch": 0.888916172994874,
      "grad_norm": 0.9769312691941595,
      "learning_rate": 6.399488756387661e-07,
      "loss": 0.7171,
      "step": 14480
    },
    {
      "epoch": 0.8889775622333405,
      "grad_norm": 1.021196207215283,
      "learning_rate": 6.392491885780772e-07,
      "loss": 0.7539,
      "step": 14481
    },
    {
      "epoch": 0.889038951471807,
      "grad_norm": 0.9986594718402159,
      "learning_rate": 6.38549871597931e-07,
      "loss": 0.7514,
      "step": 14482
    },
    {
      "epoch": 0.8891003407102734,
      "grad_norm": 0.9864865877744531,
      "learning_rate": 6.378509247259767e-07,
      "loss": 0.7936,
      "step": 14483
    },
    {
      "epoch": 0.88916172994874,
      "grad_norm": 1.0491117488805264,
      "learning_rate": 6.371523479898501e-07,
      "loss": 0.7259,
      "step": 14484
    },
    {
      "epoch": 0.8892231191872065,
      "grad_norm": 0.6002341159938658,
      "learning_rate": 6.364541414171655e-07,
      "loss": 0.634,
      "step": 14485
    },
    {
      "epoch": 0.889284508425673,
      "grad_norm": 1.0512789620382683,
      "learning_rate": 6.357563050355287e-07,
      "loss": 0.7044,
      "step": 14486
    },
    {
      "epoch": 0.8893458976641395,
      "grad_norm": 1.142135725218729,
      "learning_rate": 6.350588388725276e-07,
      "loss": 0.7396,
      "step": 14487
    },
    {
      "epoch": 0.889407286902606,
      "grad_norm": 1.0359157653230522,
      "learning_rate": 6.343617429557392e-07,
      "loss": 0.7346,
      "step": 14488
    },
    {
      "epoch": 0.8894686761410725,
      "grad_norm": 1.107809940557569,
      "learning_rate": 6.336650173127224e-07,
      "loss": 0.7223,
      "step": 14489
    },
    {
      "epoch": 0.8895300653795389,
      "grad_norm": 1.083373428428231,
      "learning_rate": 6.329686619710207e-07,
      "loss": 0.7514,
      "step": 14490
    },
    {
      "epoch": 0.8895914546180055,
      "grad_norm": 1.0681509614969802,
      "learning_rate": 6.322726769581666e-07,
      "loss": 0.7573,
      "step": 14491
    },
    {
      "epoch": 0.8896528438564719,
      "grad_norm": 0.9964253511344334,
      "learning_rate": 6.315770623016759e-07,
      "loss": 0.743,
      "step": 14492
    },
    {
      "epoch": 0.8897142330949385,
      "grad_norm": 1.0385627101575683,
      "learning_rate": 6.308818180290499e-07,
      "loss": 0.7547,
      "step": 14493
    },
    {
      "epoch": 0.8897756223334049,
      "grad_norm": 1.0221794563713282,
      "learning_rate": 6.301869441677755e-07,
      "loss": 0.6812,
      "step": 14494
    },
    {
      "epoch": 0.8898370115718715,
      "grad_norm": 0.9328972024863216,
      "learning_rate": 6.294924407453241e-07,
      "loss": 0.7336,
      "step": 14495
    },
    {
      "epoch": 0.889898400810338,
      "grad_norm": 1.024769384317232,
      "learning_rate": 6.287983077891547e-07,
      "loss": 0.7516,
      "step": 14496
    },
    {
      "epoch": 0.8899597900488044,
      "grad_norm": 1.0472251652378513,
      "learning_rate": 6.281045453267076e-07,
      "loss": 0.7183,
      "step": 14497
    },
    {
      "epoch": 0.890021179287271,
      "grad_norm": 1.0940095582651337,
      "learning_rate": 6.27411153385411e-07,
      "loss": 0.6787,
      "step": 14498
    },
    {
      "epoch": 0.8900825685257374,
      "grad_norm": 1.0576514107452597,
      "learning_rate": 6.267181319926818e-07,
      "loss": 0.7309,
      "step": 14499
    },
    {
      "epoch": 0.890143957764204,
      "grad_norm": 0.9432802260155785,
      "learning_rate": 6.26025481175917e-07,
      "loss": 0.7035,
      "step": 14500
    },
    {
      "epoch": 0.8902053470026704,
      "grad_norm": 1.1214972007824104,
      "learning_rate": 6.25333200962498e-07,
      "loss": 0.7412,
      "step": 14501
    },
    {
      "epoch": 0.890266736241137,
      "grad_norm": 1.0772688369464298,
      "learning_rate": 6.246412913797983e-07,
      "loss": 0.7,
      "step": 14502
    },
    {
      "epoch": 0.8903281254796034,
      "grad_norm": 1.0747629812607922,
      "learning_rate": 6.239497524551708e-07,
      "loss": 0.7153,
      "step": 14503
    },
    {
      "epoch": 0.8903895147180699,
      "grad_norm": 1.07234230561666,
      "learning_rate": 6.232585842159566e-07,
      "loss": 0.7317,
      "step": 14504
    },
    {
      "epoch": 0.8904509039565364,
      "grad_norm": 1.015621674010325,
      "learning_rate": 6.225677866894808e-07,
      "loss": 0.7603,
      "step": 14505
    },
    {
      "epoch": 0.8905122931950029,
      "grad_norm": 0.9971529002079078,
      "learning_rate": 6.218773599030547e-07,
      "loss": 0.7153,
      "step": 14506
    },
    {
      "epoch": 0.8905736824334695,
      "grad_norm": 1.1408440136421885,
      "learning_rate": 6.211873038839745e-07,
      "loss": 0.7098,
      "step": 14507
    },
    {
      "epoch": 0.8906350716719359,
      "grad_norm": 1.0590367522818083,
      "learning_rate": 6.204976186595201e-07,
      "loss": 0.7568,
      "step": 14508
    },
    {
      "epoch": 0.8906964609104024,
      "grad_norm": 1.0004683499719993,
      "learning_rate": 6.198083042569625e-07,
      "loss": 0.7087,
      "step": 14509
    },
    {
      "epoch": 0.8907578501488689,
      "grad_norm": 1.0565277877092834,
      "learning_rate": 6.191193607035506e-07,
      "loss": 0.7843,
      "step": 14510
    },
    {
      "epoch": 0.8908192393873354,
      "grad_norm": 1.0817688616850685,
      "learning_rate": 6.184307880265217e-07,
      "loss": 0.6811,
      "step": 14511
    },
    {
      "epoch": 0.8908806286258019,
      "grad_norm": 0.9735749092182173,
      "learning_rate": 6.177425862530995e-07,
      "loss": 0.6983,
      "step": 14512
    },
    {
      "epoch": 0.8909420178642684,
      "grad_norm": 0.9464862564634449,
      "learning_rate": 6.170547554104933e-07,
      "loss": 0.7294,
      "step": 14513
    },
    {
      "epoch": 0.8910034071027348,
      "grad_norm": 1.0158096107164374,
      "learning_rate": 6.163672955258982e-07,
      "loss": 0.7495,
      "step": 14514
    },
    {
      "epoch": 0.8910647963412014,
      "grad_norm": 0.9040222358426145,
      "learning_rate": 6.156802066264888e-07,
      "loss": 0.7389,
      "step": 14515
    },
    {
      "epoch": 0.8911261855796678,
      "grad_norm": 1.2183658454003972,
      "learning_rate": 6.149934887394315e-07,
      "loss": 0.7616,
      "step": 14516
    },
    {
      "epoch": 0.8911875748181344,
      "grad_norm": 1.2566869263265683,
      "learning_rate": 6.143071418918778e-07,
      "loss": 0.725,
      "step": 14517
    },
    {
      "epoch": 0.8912489640566009,
      "grad_norm": 1.0550337326666792,
      "learning_rate": 6.136211661109603e-07,
      "loss": 0.7203,
      "step": 14518
    },
    {
      "epoch": 0.8913103532950674,
      "grad_norm": 0.9585602047863085,
      "learning_rate": 6.129355614237997e-07,
      "loss": 0.6778,
      "step": 14519
    },
    {
      "epoch": 0.8913717425335339,
      "grad_norm": 1.037977977964986,
      "learning_rate": 6.12250327857502e-07,
      "loss": 0.7415,
      "step": 14520
    },
    {
      "epoch": 0.8914331317720003,
      "grad_norm": 1.0934037406270327,
      "learning_rate": 6.115654654391579e-07,
      "loss": 0.711,
      "step": 14521
    },
    {
      "epoch": 0.8914945210104669,
      "grad_norm": 1.011251734156968,
      "learning_rate": 6.108809741958433e-07,
      "loss": 0.7141,
      "step": 14522
    },
    {
      "epoch": 0.8915559102489333,
      "grad_norm": 1.0115746028665613,
      "learning_rate": 6.10196854154621e-07,
      "loss": 0.7082,
      "step": 14523
    },
    {
      "epoch": 0.8916172994873999,
      "grad_norm": 1.1028503860386387,
      "learning_rate": 6.095131053425385e-07,
      "loss": 0.7484,
      "step": 14524
    },
    {
      "epoch": 0.8916786887258663,
      "grad_norm": 0.999967365160849,
      "learning_rate": 6.088297277866262e-07,
      "loss": 0.7469,
      "step": 14525
    },
    {
      "epoch": 0.8917400779643329,
      "grad_norm": 1.013503001425205,
      "learning_rate": 6.081467215139003e-07,
      "loss": 0.732,
      "step": 14526
    },
    {
      "epoch": 0.8918014672027994,
      "grad_norm": 1.0071713150960153,
      "learning_rate": 6.074640865513671e-07,
      "loss": 0.7569,
      "step": 14527
    },
    {
      "epoch": 0.8918628564412658,
      "grad_norm": 0.994241654692686,
      "learning_rate": 6.067818229260137e-07,
      "loss": 0.6793,
      "step": 14528
    },
    {
      "epoch": 0.8919242456797324,
      "grad_norm": 0.9895542582268343,
      "learning_rate": 6.060999306648129e-07,
      "loss": 0.6973,
      "step": 14529
    },
    {
      "epoch": 0.8919856349181988,
      "grad_norm": 1.0288595672966905,
      "learning_rate": 6.054184097947235e-07,
      "loss": 0.7152,
      "step": 14530
    },
    {
      "epoch": 0.8920470241566654,
      "grad_norm": 1.0716750132743427,
      "learning_rate": 6.047372603426915e-07,
      "loss": 0.7068,
      "step": 14531
    },
    {
      "epoch": 0.8921084133951318,
      "grad_norm": 1.1130181916871995,
      "learning_rate": 6.040564823356432e-07,
      "loss": 0.7817,
      "step": 14532
    },
    {
      "epoch": 0.8921698026335984,
      "grad_norm": 1.0898031341270418,
      "learning_rate": 6.033760758004948e-07,
      "loss": 0.7608,
      "step": 14533
    },
    {
      "epoch": 0.8922311918720648,
      "grad_norm": 1.035895908626553,
      "learning_rate": 6.026960407641502e-07,
      "loss": 0.7175,
      "step": 14534
    },
    {
      "epoch": 0.8922925811105313,
      "grad_norm": 1.1002361389106003,
      "learning_rate": 6.020163772534892e-07,
      "loss": 0.7297,
      "step": 14535
    },
    {
      "epoch": 0.8923539703489978,
      "grad_norm": 1.0417587398737556,
      "learning_rate": 6.013370852953848e-07,
      "loss": 0.6731,
      "step": 14536
    },
    {
      "epoch": 0.8924153595874643,
      "grad_norm": 0.9618228709866203,
      "learning_rate": 6.006581649166921e-07,
      "loss": 0.6765,
      "step": 14537
    },
    {
      "epoch": 0.8924767488259309,
      "grad_norm": 1.0079945217522566,
      "learning_rate": 5.999796161442539e-07,
      "loss": 0.7779,
      "step": 14538
    },
    {
      "epoch": 0.8925381380643973,
      "grad_norm": 1.0043828930664345,
      "learning_rate": 5.99301439004899e-07,
      "loss": 0.7402,
      "step": 14539
    },
    {
      "epoch": 0.8925995273028638,
      "grad_norm": 1.0594607865047143,
      "learning_rate": 5.986236335254325e-07,
      "loss": 0.697,
      "step": 14540
    },
    {
      "epoch": 0.8926609165413303,
      "grad_norm": 1.175663409445028,
      "learning_rate": 5.979461997326575e-07,
      "loss": 0.7254,
      "step": 14541
    },
    {
      "epoch": 0.8927223057797968,
      "grad_norm": 1.145547708567117,
      "learning_rate": 5.972691376533557e-07,
      "loss": 0.7116,
      "step": 14542
    },
    {
      "epoch": 0.8927836950182633,
      "grad_norm": 1.1545013387614287,
      "learning_rate": 5.965924473142936e-07,
      "loss": 0.7092,
      "step": 14543
    },
    {
      "epoch": 0.8928450842567298,
      "grad_norm": 1.0995503766481185,
      "learning_rate": 5.959161287422255e-07,
      "loss": 0.721,
      "step": 14544
    },
    {
      "epoch": 0.8929064734951963,
      "grad_norm": 1.0061442033339232,
      "learning_rate": 5.952401819638887e-07,
      "loss": 0.7129,
      "step": 14545
    },
    {
      "epoch": 0.8929678627336628,
      "grad_norm": 1.095398914710489,
      "learning_rate": 5.945646070060085e-07,
      "loss": 0.6988,
      "step": 14546
    },
    {
      "epoch": 0.8930292519721292,
      "grad_norm": 0.9967067112627901,
      "learning_rate": 5.938894038952914e-07,
      "loss": 0.739,
      "step": 14547
    },
    {
      "epoch": 0.8930906412105958,
      "grad_norm": 1.0920791419699456,
      "learning_rate": 5.932145726584371e-07,
      "loss": 0.7089,
      "step": 14548
    },
    {
      "epoch": 0.8931520304490623,
      "grad_norm": 1.1577266181964552,
      "learning_rate": 5.925401133221198e-07,
      "loss": 0.7719,
      "step": 14549
    },
    {
      "epoch": 0.8932134196875288,
      "grad_norm": 0.9986034108986359,
      "learning_rate": 5.91866025913006e-07,
      "loss": 0.7551,
      "step": 14550
    },
    {
      "epoch": 0.8932748089259953,
      "grad_norm": 1.1074998465666857,
      "learning_rate": 5.911923104577455e-07,
      "loss": 0.7464,
      "step": 14551
    },
    {
      "epoch": 0.8933361981644617,
      "grad_norm": 1.0119989632695214,
      "learning_rate": 5.905189669829759e-07,
      "loss": 0.7301,
      "step": 14552
    },
    {
      "epoch": 0.8933975874029283,
      "grad_norm": 1.1261952594648705,
      "learning_rate": 5.898459955153179e-07,
      "loss": 0.7406,
      "step": 14553
    },
    {
      "epoch": 0.8934589766413947,
      "grad_norm": 1.0443822436142172,
      "learning_rate": 5.89173396081375e-07,
      "loss": 0.6946,
      "step": 14554
    },
    {
      "epoch": 0.8935203658798613,
      "grad_norm": 1.1004250153971589,
      "learning_rate": 5.885011687077413e-07,
      "loss": 0.7692,
      "step": 14555
    },
    {
      "epoch": 0.8935817551183277,
      "grad_norm": 0.9389559952397288,
      "learning_rate": 5.878293134209934e-07,
      "loss": 0.7169,
      "step": 14556
    },
    {
      "epoch": 0.8936431443567943,
      "grad_norm": 1.0518746162375474,
      "learning_rate": 5.871578302476911e-07,
      "loss": 0.6935,
      "step": 14557
    },
    {
      "epoch": 0.8937045335952607,
      "grad_norm": 0.987053495579959,
      "learning_rate": 5.864867192143842e-07,
      "loss": 0.7121,
      "step": 14558
    },
    {
      "epoch": 0.8937659228337272,
      "grad_norm": 0.5921589584782895,
      "learning_rate": 5.858159803476038e-07,
      "loss": 0.6716,
      "step": 14559
    },
    {
      "epoch": 0.8938273120721938,
      "grad_norm": 1.120456807143552,
      "learning_rate": 5.851456136738687e-07,
      "loss": 0.719,
      "step": 14560
    },
    {
      "epoch": 0.8938887013106602,
      "grad_norm": 1.0851988225022462,
      "learning_rate": 5.844756192196798e-07,
      "loss": 0.7101,
      "step": 14561
    },
    {
      "epoch": 0.8939500905491268,
      "grad_norm": 0.956071244047562,
      "learning_rate": 5.838059970115295e-07,
      "loss": 0.7402,
      "step": 14562
    },
    {
      "epoch": 0.8940114797875932,
      "grad_norm": 1.043550635603458,
      "learning_rate": 5.831367470758908e-07,
      "loss": 0.702,
      "step": 14563
    },
    {
      "epoch": 0.8940728690260598,
      "grad_norm": 1.0477790595129193,
      "learning_rate": 5.824678694392194e-07,
      "loss": 0.6822,
      "step": 14564
    },
    {
      "epoch": 0.8941342582645262,
      "grad_norm": 1.1238202974858214,
      "learning_rate": 5.817993641279606e-07,
      "loss": 0.6879,
      "step": 14565
    },
    {
      "epoch": 0.8941956475029927,
      "grad_norm": 1.027480300724948,
      "learning_rate": 5.811312311685469e-07,
      "loss": 0.7342,
      "step": 14566
    },
    {
      "epoch": 0.8942570367414592,
      "grad_norm": 1.111236666084227,
      "learning_rate": 5.804634705873912e-07,
      "loss": 0.7099,
      "step": 14567
    },
    {
      "epoch": 0.8943184259799257,
      "grad_norm": 1.0776975534977875,
      "learning_rate": 5.797960824108928e-07,
      "loss": 0.7226,
      "step": 14568
    },
    {
      "epoch": 0.8943798152183923,
      "grad_norm": 1.0226665496536669,
      "learning_rate": 5.791290666654392e-07,
      "loss": 0.7141,
      "step": 14569
    },
    {
      "epoch": 0.8944412044568587,
      "grad_norm": 1.0136888563141597,
      "learning_rate": 5.784624233773983e-07,
      "loss": 0.705,
      "step": 14570
    },
    {
      "epoch": 0.8945025936953253,
      "grad_norm": 0.9980560885863156,
      "learning_rate": 5.777961525731291e-07,
      "loss": 0.7251,
      "step": 14571
    },
    {
      "epoch": 0.8945639829337917,
      "grad_norm": 1.0287077006965786,
      "learning_rate": 5.771302542789703e-07,
      "loss": 0.7292,
      "step": 14572
    },
    {
      "epoch": 0.8946253721722582,
      "grad_norm": 0.9197143755193719,
      "learning_rate": 5.76464728521251e-07,
      "loss": 0.6872,
      "step": 14573
    },
    {
      "epoch": 0.8946867614107247,
      "grad_norm": 1.0174441250476687,
      "learning_rate": 5.757995753262813e-07,
      "loss": 0.7081,
      "step": 14574
    },
    {
      "epoch": 0.8947481506491912,
      "grad_norm": 1.1168484016745488,
      "learning_rate": 5.75134794720359e-07,
      "loss": 0.7604,
      "step": 14575
    },
    {
      "epoch": 0.8948095398876577,
      "grad_norm": 1.1135603081521304,
      "learning_rate": 5.744703867297629e-07,
      "loss": 0.7379,
      "step": 14576
    },
    {
      "epoch": 0.8948709291261242,
      "grad_norm": 1.024483141283961,
      "learning_rate": 5.738063513807668e-07,
      "loss": 0.7069,
      "step": 14577
    },
    {
      "epoch": 0.8949323183645906,
      "grad_norm": 0.9846087290174073,
      "learning_rate": 5.731426886996205e-07,
      "loss": 0.6911,
      "step": 14578
    },
    {
      "epoch": 0.8949937076030572,
      "grad_norm": 1.0516846913839237,
      "learning_rate": 5.724793987125598e-07,
      "loss": 0.7722,
      "step": 14579
    },
    {
      "epoch": 0.8950550968415237,
      "grad_norm": 1.0225133748817319,
      "learning_rate": 5.718164814458128e-07,
      "loss": 0.7062,
      "step": 14580
    },
    {
      "epoch": 0.8951164860799902,
      "grad_norm": 1.0672340201735153,
      "learning_rate": 5.711539369255848e-07,
      "loss": 0.7296,
      "step": 14581
    },
    {
      "epoch": 0.8951778753184567,
      "grad_norm": 1.0664101407955153,
      "learning_rate": 5.704917651780705e-07,
      "loss": 0.7894,
      "step": 14582
    },
    {
      "epoch": 0.8952392645569232,
      "grad_norm": 1.1039273410596748,
      "learning_rate": 5.698299662294493e-07,
      "loss": 0.7342,
      "step": 14583
    },
    {
      "epoch": 0.8953006537953897,
      "grad_norm": 1.020187266577602,
      "learning_rate": 5.691685401058855e-07,
      "loss": 0.7619,
      "step": 14584
    },
    {
      "epoch": 0.8953620430338561,
      "grad_norm": 1.0380979246348716,
      "learning_rate": 5.685074868335294e-07,
      "loss": 0.7029,
      "step": 14585
    },
    {
      "epoch": 0.8954234322723227,
      "grad_norm": 1.0783832210092932,
      "learning_rate": 5.678468064385145e-07,
      "loss": 0.7143,
      "step": 14586
    },
    {
      "epoch": 0.8954848215107891,
      "grad_norm": 1.0316452141200432,
      "learning_rate": 5.671864989469633e-07,
      "loss": 0.7558,
      "step": 14587
    },
    {
      "epoch": 0.8955462107492557,
      "grad_norm": 1.000921256261718,
      "learning_rate": 5.665265643849804e-07,
      "loss": 0.733,
      "step": 14588
    },
    {
      "epoch": 0.8956075999877221,
      "grad_norm": 1.17578773243338,
      "learning_rate": 5.658670027786561e-07,
      "loss": 0.7412,
      "step": 14589
    },
    {
      "epoch": 0.8956689892261886,
      "grad_norm": 1.1718305649306384,
      "learning_rate": 5.65207814154064e-07,
      "loss": 0.7597,
      "step": 14590
    },
    {
      "epoch": 0.8957303784646552,
      "grad_norm": 1.1355326454521306,
      "learning_rate": 5.645489985372698e-07,
      "loss": 0.7434,
      "step": 14591
    },
    {
      "epoch": 0.8957917677031216,
      "grad_norm": 1.0138579492285023,
      "learning_rate": 5.638905559543174e-07,
      "loss": 0.7353,
      "step": 14592
    },
    {
      "epoch": 0.8958531569415882,
      "grad_norm": 1.0184815727611243,
      "learning_rate": 5.6323248643124e-07,
      "loss": 0.6979,
      "step": 14593
    },
    {
      "epoch": 0.8959145461800546,
      "grad_norm": 1.0912380129977843,
      "learning_rate": 5.625747899940537e-07,
      "loss": 0.749,
      "step": 14594
    },
    {
      "epoch": 0.8959759354185212,
      "grad_norm": 1.106307358703209,
      "learning_rate": 5.61917466668761e-07,
      "loss": 0.7241,
      "step": 14595
    },
    {
      "epoch": 0.8960373246569876,
      "grad_norm": 0.9830243734505285,
      "learning_rate": 5.612605164813478e-07,
      "loss": 0.6914,
      "step": 14596
    },
    {
      "epoch": 0.8960987138954541,
      "grad_norm": 1.0494285299501689,
      "learning_rate": 5.606039394577889e-07,
      "loss": 0.7188,
      "step": 14597
    },
    {
      "epoch": 0.8961601031339206,
      "grad_norm": 1.096471811475145,
      "learning_rate": 5.599477356240434e-07,
      "loss": 0.7727,
      "step": 14598
    },
    {
      "epoch": 0.8962214923723871,
      "grad_norm": 0.9602070617059935,
      "learning_rate": 5.592919050060519e-07,
      "loss": 0.7603,
      "step": 14599
    },
    {
      "epoch": 0.8962828816108536,
      "grad_norm": 1.1965130910975013,
      "learning_rate": 5.586364476297435e-07,
      "loss": 0.743,
      "step": 14600
    },
    {
      "epoch": 0.8963442708493201,
      "grad_norm": 1.1359631300252253,
      "learning_rate": 5.579813635210308e-07,
      "loss": 0.7107,
      "step": 14601
    },
    {
      "epoch": 0.8964056600877867,
      "grad_norm": 0.9243060172028728,
      "learning_rate": 5.573266527058153e-07,
      "loss": 0.6933,
      "step": 14602
    },
    {
      "epoch": 0.8964670493262531,
      "grad_norm": 0.9735240722552719,
      "learning_rate": 5.566723152099829e-07,
      "loss": 0.6726,
      "step": 14603
    },
    {
      "epoch": 0.8965284385647196,
      "grad_norm": 1.0486342881883206,
      "learning_rate": 5.560183510593964e-07,
      "loss": 0.7417,
      "step": 14604
    },
    {
      "epoch": 0.8965898278031861,
      "grad_norm": 1.2174474190577267,
      "learning_rate": 5.553647602799162e-07,
      "loss": 0.7714,
      "step": 14605
    },
    {
      "epoch": 0.8966512170416526,
      "grad_norm": 1.0460374768697285,
      "learning_rate": 5.547115428973804e-07,
      "loss": 0.6898,
      "step": 14606
    },
    {
      "epoch": 0.8967126062801191,
      "grad_norm": 1.0195951239266137,
      "learning_rate": 5.54058698937614e-07,
      "loss": 0.7747,
      "step": 14607
    },
    {
      "epoch": 0.8967739955185856,
      "grad_norm": 1.1173941241556753,
      "learning_rate": 5.534062284264286e-07,
      "loss": 0.7164,
      "step": 14608
    },
    {
      "epoch": 0.896835384757052,
      "grad_norm": 1.1373121864641693,
      "learning_rate": 5.527541313896179e-07,
      "loss": 0.7681,
      "step": 14609
    },
    {
      "epoch": 0.8968967739955186,
      "grad_norm": 1.063298068708494,
      "learning_rate": 5.521024078529646e-07,
      "loss": 0.6926,
      "step": 14610
    },
    {
      "epoch": 0.896958163233985,
      "grad_norm": 0.9408601646489317,
      "learning_rate": 5.514510578422328e-07,
      "loss": 0.7742,
      "step": 14611
    },
    {
      "epoch": 0.8970195524724516,
      "grad_norm": 0.9522094238387051,
      "learning_rate": 5.508000813831771e-07,
      "loss": 0.7638,
      "step": 14612
    },
    {
      "epoch": 0.8970809417109181,
      "grad_norm": 1.098487841365323,
      "learning_rate": 5.501494785015305e-07,
      "loss": 0.7421,
      "step": 14613
    },
    {
      "epoch": 0.8971423309493846,
      "grad_norm": 1.0659448413179244,
      "learning_rate": 5.494992492230167e-07,
      "loss": 0.7589,
      "step": 14614
    },
    {
      "epoch": 0.8972037201878511,
      "grad_norm": 1.0024063474618976,
      "learning_rate": 5.488493935733418e-07,
      "loss": 0.7164,
      "step": 14615
    },
    {
      "epoch": 0.8972651094263175,
      "grad_norm": 1.1062548065922373,
      "learning_rate": 5.481999115781989e-07,
      "loss": 0.7263,
      "step": 14616
    },
    {
      "epoch": 0.8973264986647841,
      "grad_norm": 1.073818755068626,
      "learning_rate": 5.475508032632671e-07,
      "loss": 0.7071,
      "step": 14617
    },
    {
      "epoch": 0.8973878879032505,
      "grad_norm": 1.1108089594410415,
      "learning_rate": 5.469020686542048e-07,
      "loss": 0.7745,
      "step": 14618
    },
    {
      "epoch": 0.8974492771417171,
      "grad_norm": 0.9973093715230462,
      "learning_rate": 5.462537077766638e-07,
      "loss": 0.7513,
      "step": 14619
    },
    {
      "epoch": 0.8975106663801835,
      "grad_norm": 1.012838977295746,
      "learning_rate": 5.45605720656276e-07,
      "loss": 0.7165,
      "step": 14620
    },
    {
      "epoch": 0.89757205561865,
      "grad_norm": 1.0097329324527817,
      "learning_rate": 5.449581073186593e-07,
      "loss": 0.6597,
      "step": 14621
    },
    {
      "epoch": 0.8976334448571166,
      "grad_norm": 0.9972426614883554,
      "learning_rate": 5.443108677894182e-07,
      "loss": 0.7313,
      "step": 14622
    },
    {
      "epoch": 0.897694834095583,
      "grad_norm": 1.0332830248057483,
      "learning_rate": 5.436640020941409e-07,
      "loss": 0.7204,
      "step": 14623
    },
    {
      "epoch": 0.8977562233340496,
      "grad_norm": 1.0747018200090352,
      "learning_rate": 5.430175102584012e-07,
      "loss": 0.7079,
      "step": 14624
    },
    {
      "epoch": 0.897817612572516,
      "grad_norm": 1.1160361051347611,
      "learning_rate": 5.423713923077579e-07,
      "loss": 0.6852,
      "step": 14625
    },
    {
      "epoch": 0.8978790018109826,
      "grad_norm": 1.0399936020779728,
      "learning_rate": 5.417256482677569e-07,
      "loss": 0.6997,
      "step": 14626
    },
    {
      "epoch": 0.897940391049449,
      "grad_norm": 0.9909194161070084,
      "learning_rate": 5.410802781639301e-07,
      "loss": 0.7232,
      "step": 14627
    },
    {
      "epoch": 0.8980017802879156,
      "grad_norm": 0.5840227023093137,
      "learning_rate": 5.404352820217873e-07,
      "loss": 0.6643,
      "step": 14628
    },
    {
      "epoch": 0.898063169526382,
      "grad_norm": 1.0650965865887496,
      "learning_rate": 5.397906598668301e-07,
      "loss": 0.7148,
      "step": 14629
    },
    {
      "epoch": 0.8981245587648485,
      "grad_norm": 0.976348583216926,
      "learning_rate": 5.391464117245471e-07,
      "loss": 0.6892,
      "step": 14630
    },
    {
      "epoch": 0.898185948003315,
      "grad_norm": 1.077169151775273,
      "learning_rate": 5.385025376204056e-07,
      "loss": 0.7004,
      "step": 14631
    },
    {
      "epoch": 0.8982473372417815,
      "grad_norm": 1.037512443507994,
      "learning_rate": 5.378590375798631e-07,
      "loss": 0.7238,
      "step": 14632
    },
    {
      "epoch": 0.8983087264802481,
      "grad_norm": 1.0139553002367945,
      "learning_rate": 5.372159116283592e-07,
      "loss": 0.701,
      "step": 14633
    },
    {
      "epoch": 0.8983701157187145,
      "grad_norm": 1.0789949343916472,
      "learning_rate": 5.365731597913215e-07,
      "loss": 0.7514,
      "step": 14634
    },
    {
      "epoch": 0.898431504957181,
      "grad_norm": 0.9289209390482878,
      "learning_rate": 5.359307820941606e-07,
      "loss": 0.7242,
      "step": 14635
    },
    {
      "epoch": 0.8984928941956475,
      "grad_norm": 1.138601114430521,
      "learning_rate": 5.352887785622718e-07,
      "loss": 0.7182,
      "step": 14636
    },
    {
      "epoch": 0.898554283434114,
      "grad_norm": 1.0340574739244397,
      "learning_rate": 5.346471492210415e-07,
      "loss": 0.7665,
      "step": 14637
    },
    {
      "epoch": 0.8986156726725805,
      "grad_norm": 1.0125953360742785,
      "learning_rate": 5.340058940958315e-07,
      "loss": 0.7281,
      "step": 14638
    },
    {
      "epoch": 0.898677061911047,
      "grad_norm": 1.0547475563825768,
      "learning_rate": 5.333650132119972e-07,
      "loss": 0.7075,
      "step": 14639
    },
    {
      "epoch": 0.8987384511495135,
      "grad_norm": 1.0097895483111463,
      "learning_rate": 5.327245065948728e-07,
      "loss": 0.7688,
      "step": 14640
    },
    {
      "epoch": 0.89879984038798,
      "grad_norm": 1.1481071049322895,
      "learning_rate": 5.320843742697846e-07,
      "loss": 0.7298,
      "step": 14641
    },
    {
      "epoch": 0.8988612296264464,
      "grad_norm": 1.1121935039591107,
      "learning_rate": 5.314446162620413e-07,
      "loss": 0.7315,
      "step": 14642
    },
    {
      "epoch": 0.898922618864913,
      "grad_norm": 1.0160867971840029,
      "learning_rate": 5.308052325969304e-07,
      "loss": 0.7008,
      "step": 14643
    },
    {
      "epoch": 0.8989840081033795,
      "grad_norm": 1.1253463401860744,
      "learning_rate": 5.301662232997351e-07,
      "loss": 0.7416,
      "step": 14644
    },
    {
      "epoch": 0.899045397341846,
      "grad_norm": 1.0488836268214266,
      "learning_rate": 5.295275883957163e-07,
      "loss": 0.7748,
      "step": 14645
    },
    {
      "epoch": 0.8991067865803125,
      "grad_norm": 1.026637941077403,
      "learning_rate": 5.288893279101248e-07,
      "loss": 0.7671,
      "step": 14646
    },
    {
      "epoch": 0.899168175818779,
      "grad_norm": 1.011172905058589,
      "learning_rate": 5.282514418681928e-07,
      "loss": 0.7383,
      "step": 14647
    },
    {
      "epoch": 0.8992295650572455,
      "grad_norm": 1.0718510116694209,
      "learning_rate": 5.2761393029514e-07,
      "loss": 0.7398,
      "step": 14648
    },
    {
      "epoch": 0.8992909542957119,
      "grad_norm": 1.0537192377922049,
      "learning_rate": 5.269767932161696e-07,
      "loss": 0.7317,
      "step": 14649
    },
    {
      "epoch": 0.8993523435341785,
      "grad_norm": 0.967473234038203,
      "learning_rate": 5.263400306564714e-07,
      "loss": 0.7165,
      "step": 14650
    },
    {
      "epoch": 0.8994137327726449,
      "grad_norm": 1.1048557932883738,
      "learning_rate": 5.25703642641221e-07,
      "loss": 0.7528,
      "step": 14651
    },
    {
      "epoch": 0.8994751220111115,
      "grad_norm": 1.0817765315377352,
      "learning_rate": 5.250676291955792e-07,
      "loss": 0.7402,
      "step": 14652
    },
    {
      "epoch": 0.8995365112495779,
      "grad_norm": 1.0780935535814111,
      "learning_rate": 5.244319903446893e-07,
      "loss": 0.7111,
      "step": 14653
    },
    {
      "epoch": 0.8995979004880444,
      "grad_norm": 1.0728663044844853,
      "learning_rate": 5.23796726113679e-07,
      "loss": 0.7209,
      "step": 14654
    },
    {
      "epoch": 0.899659289726511,
      "grad_norm": 1.0416535210293654,
      "learning_rate": 5.23161836527668e-07,
      "loss": 0.7333,
      "step": 14655
    },
    {
      "epoch": 0.8997206789649774,
      "grad_norm": 1.0349711548521348,
      "learning_rate": 5.225273216117554e-07,
      "loss": 0.7486,
      "step": 14656
    },
    {
      "epoch": 0.899782068203444,
      "grad_norm": 1.0582032979059803,
      "learning_rate": 5.218931813910278e-07,
      "loss": 0.7627,
      "step": 14657
    },
    {
      "epoch": 0.8998434574419104,
      "grad_norm": 0.9464078833261043,
      "learning_rate": 5.212594158905548e-07,
      "loss": 0.7144,
      "step": 14658
    },
    {
      "epoch": 0.899904846680377,
      "grad_norm": 1.1178542610312832,
      "learning_rate": 5.206260251353923e-07,
      "loss": 0.6894,
      "step": 14659
    },
    {
      "epoch": 0.8999662359188434,
      "grad_norm": 1.055841918568973,
      "learning_rate": 5.199930091505823e-07,
      "loss": 0.7889,
      "step": 14660
    },
    {
      "epoch": 0.9000276251573099,
      "grad_norm": 1.0663267408706345,
      "learning_rate": 5.193603679611503e-07,
      "loss": 0.7087,
      "step": 14661
    },
    {
      "epoch": 0.9000890143957764,
      "grad_norm": 1.2508536565294377,
      "learning_rate": 5.187281015921119e-07,
      "loss": 0.771,
      "step": 14662
    },
    {
      "epoch": 0.9001504036342429,
      "grad_norm": 0.8784159316272446,
      "learning_rate": 5.180962100684594e-07,
      "loss": 0.6955,
      "step": 14663
    },
    {
      "epoch": 0.9002117928727094,
      "grad_norm": 1.0452999279042174,
      "learning_rate": 5.174646934151751e-07,
      "loss": 0.6953,
      "step": 14664
    },
    {
      "epoch": 0.9002731821111759,
      "grad_norm": 0.9950351533815058,
      "learning_rate": 5.168335516572287e-07,
      "loss": 0.684,
      "step": 14665
    },
    {
      "epoch": 0.9003345713496425,
      "grad_norm": 1.0245777610086673,
      "learning_rate": 5.162027848195727e-07,
      "loss": 0.7506,
      "step": 14666
    },
    {
      "epoch": 0.9003959605881089,
      "grad_norm": 0.9664698432500112,
      "learning_rate": 5.155723929271439e-07,
      "loss": 0.7249,
      "step": 14667
    },
    {
      "epoch": 0.9004573498265754,
      "grad_norm": 0.9314887278359544,
      "learning_rate": 5.149423760048622e-07,
      "loss": 0.7418,
      "step": 14668
    },
    {
      "epoch": 0.9005187390650419,
      "grad_norm": 1.039672906741277,
      "learning_rate": 5.143127340776389e-07,
      "loss": 0.7729,
      "step": 14669
    },
    {
      "epoch": 0.9005801283035084,
      "grad_norm": 0.9916317277709562,
      "learning_rate": 5.136834671703672e-07,
      "loss": 0.7409,
      "step": 14670
    },
    {
      "epoch": 0.9006415175419749,
      "grad_norm": 1.0478828084225256,
      "learning_rate": 5.130545753079241e-07,
      "loss": 0.7531,
      "step": 14671
    },
    {
      "epoch": 0.9007029067804414,
      "grad_norm": 1.1953542927928693,
      "learning_rate": 5.12426058515173e-07,
      "loss": 0.7272,
      "step": 14672
    },
    {
      "epoch": 0.9007642960189078,
      "grad_norm": 1.0818093273437974,
      "learning_rate": 5.117979168169629e-07,
      "loss": 0.764,
      "step": 14673
    },
    {
      "epoch": 0.9008256852573744,
      "grad_norm": 1.0723271042437954,
      "learning_rate": 5.111701502381283e-07,
      "loss": 0.7349,
      "step": 14674
    },
    {
      "epoch": 0.9008870744958409,
      "grad_norm": 1.1395173299540138,
      "learning_rate": 5.10542758803485e-07,
      "loss": 0.7851,
      "step": 14675
    },
    {
      "epoch": 0.9009484637343074,
      "grad_norm": 1.0237141430900683,
      "learning_rate": 5.09915742537842e-07,
      "loss": 0.7126,
      "step": 14676
    },
    {
      "epoch": 0.9010098529727739,
      "grad_norm": 0.9399165479367421,
      "learning_rate": 5.092891014659873e-07,
      "loss": 0.7618,
      "step": 14677
    },
    {
      "epoch": 0.9010712422112404,
      "grad_norm": 1.1104622575058978,
      "learning_rate": 5.086628356126932e-07,
      "loss": 0.7796,
      "step": 14678
    },
    {
      "epoch": 0.9011326314497069,
      "grad_norm": 0.9860329646025242,
      "learning_rate": 5.080369450027189e-07,
      "loss": 0.7012,
      "step": 14679
    },
    {
      "epoch": 0.9011940206881733,
      "grad_norm": 1.0661982068974227,
      "learning_rate": 5.074114296608112e-07,
      "loss": 0.736,
      "step": 14680
    },
    {
      "epoch": 0.9012554099266399,
      "grad_norm": 1.0278335829461958,
      "learning_rate": 5.067862896117026e-07,
      "loss": 0.7412,
      "step": 14681
    },
    {
      "epoch": 0.9013167991651063,
      "grad_norm": 1.0912785294439322,
      "learning_rate": 5.061615248801011e-07,
      "loss": 0.735,
      "step": 14682
    },
    {
      "epoch": 0.9013781884035729,
      "grad_norm": 1.092762255444913,
      "learning_rate": 5.055371354907135e-07,
      "loss": 0.7391,
      "step": 14683
    },
    {
      "epoch": 0.9014395776420393,
      "grad_norm": 1.0028435601537569,
      "learning_rate": 5.049131214682223e-07,
      "loss": 0.7589,
      "step": 14684
    },
    {
      "epoch": 0.9015009668805058,
      "grad_norm": 1.076761448495749,
      "learning_rate": 5.042894828372991e-07,
      "loss": 0.7502,
      "step": 14685
    },
    {
      "epoch": 0.9015623561189724,
      "grad_norm": 1.1476711187478101,
      "learning_rate": 5.036662196225994e-07,
      "loss": 0.7278,
      "step": 14686
    },
    {
      "epoch": 0.9016237453574388,
      "grad_norm": 1.00926153599091,
      "learning_rate": 5.030433318487638e-07,
      "loss": 0.7517,
      "step": 14687
    },
    {
      "epoch": 0.9016851345959054,
      "grad_norm": 0.9599133233289746,
      "learning_rate": 5.024208195404179e-07,
      "loss": 0.6706,
      "step": 14688
    },
    {
      "epoch": 0.9017465238343718,
      "grad_norm": 1.2007274494277167,
      "learning_rate": 5.017986827221733e-07,
      "loss": 0.7614,
      "step": 14689
    },
    {
      "epoch": 0.9018079130728384,
      "grad_norm": 1.023892024063136,
      "learning_rate": 5.011769214186269e-07,
      "loss": 0.7096,
      "step": 14690
    },
    {
      "epoch": 0.9018693023113048,
      "grad_norm": 0.9370799399152956,
      "learning_rate": 5.005555356543624e-07,
      "loss": 0.7354,
      "step": 14691
    },
    {
      "epoch": 0.9019306915497713,
      "grad_norm": 1.177569085540025,
      "learning_rate": 4.999345254539434e-07,
      "loss": 0.7344,
      "step": 14692
    },
    {
      "epoch": 0.9019920807882378,
      "grad_norm": 0.8981120524206696,
      "learning_rate": 4.993138908419193e-07,
      "loss": 0.7289,
      "step": 14693
    },
    {
      "epoch": 0.9020534700267043,
      "grad_norm": 0.9712982675611527,
      "learning_rate": 4.986936318428337e-07,
      "loss": 0.7441,
      "step": 14694
    },
    {
      "epoch": 0.9021148592651708,
      "grad_norm": 1.1403891352236704,
      "learning_rate": 4.980737484812038e-07,
      "loss": 0.7146,
      "step": 14695
    },
    {
      "epoch": 0.9021762485036373,
      "grad_norm": 1.0472167955700606,
      "learning_rate": 4.974542407815398e-07,
      "loss": 0.7155,
      "step": 14696
    },
    {
      "epoch": 0.9022376377421039,
      "grad_norm": 0.9910904278087551,
      "learning_rate": 4.968351087683321e-07,
      "loss": 0.7021,
      "step": 14697
    },
    {
      "epoch": 0.9022990269805703,
      "grad_norm": 0.9151074401662952,
      "learning_rate": 4.962163524660591e-07,
      "loss": 0.7626,
      "step": 14698
    },
    {
      "epoch": 0.9023604162190368,
      "grad_norm": 1.0656061520890023,
      "learning_rate": 4.955979718991832e-07,
      "loss": 0.7068,
      "step": 14699
    },
    {
      "epoch": 0.9024218054575033,
      "grad_norm": 1.0486360242963029,
      "learning_rate": 4.949799670921518e-07,
      "loss": 0.7312,
      "step": 14700
    },
    {
      "epoch": 0.9024831946959698,
      "grad_norm": 1.1058696942404027,
      "learning_rate": 4.943623380694007e-07,
      "loss": 0.6942,
      "step": 14701
    },
    {
      "epoch": 0.9025445839344363,
      "grad_norm": 1.1597501053336696,
      "learning_rate": 4.93745084855346e-07,
      "loss": 0.7452,
      "step": 14702
    },
    {
      "epoch": 0.9026059731729028,
      "grad_norm": 1.1329462165929698,
      "learning_rate": 4.931282074743881e-07,
      "loss": 0.7576,
      "step": 14703
    },
    {
      "epoch": 0.9026673624113692,
      "grad_norm": 1.1217888742268276,
      "learning_rate": 4.925117059509211e-07,
      "loss": 0.6996,
      "step": 14704
    },
    {
      "epoch": 0.9027287516498358,
      "grad_norm": 1.127928129040518,
      "learning_rate": 4.918955803093162e-07,
      "loss": 0.7524,
      "step": 14705
    },
    {
      "epoch": 0.9027901408883022,
      "grad_norm": 0.6208725282221722,
      "learning_rate": 4.912798305739319e-07,
      "loss": 0.7047,
      "step": 14706
    },
    {
      "epoch": 0.9028515301267688,
      "grad_norm": 1.0895944502186563,
      "learning_rate": 4.90664456769111e-07,
      "loss": 0.7502,
      "step": 14707
    },
    {
      "epoch": 0.9029129193652353,
      "grad_norm": 1.0851694881909988,
      "learning_rate": 4.90049458919184e-07,
      "loss": 0.7983,
      "step": 14708
    },
    {
      "epoch": 0.9029743086037018,
      "grad_norm": 1.10069794270768,
      "learning_rate": 4.894348370484648e-07,
      "loss": 0.6883,
      "step": 14709
    },
    {
      "epoch": 0.9030356978421683,
      "grad_norm": 1.105389995892529,
      "learning_rate": 4.888205911812527e-07,
      "loss": 0.7239,
      "step": 14710
    },
    {
      "epoch": 0.9030970870806347,
      "grad_norm": 1.0393069419292218,
      "learning_rate": 4.882067213418318e-07,
      "loss": 0.7579,
      "step": 14711
    },
    {
      "epoch": 0.9031584763191013,
      "grad_norm": 1.2096929978187132,
      "learning_rate": 4.875932275544715e-07,
      "loss": 0.7212,
      "step": 14712
    },
    {
      "epoch": 0.9032198655575677,
      "grad_norm": 0.9729082029625098,
      "learning_rate": 4.869801098434279e-07,
      "loss": 0.7284,
      "step": 14713
    },
    {
      "epoch": 0.9032812547960343,
      "grad_norm": 1.0936695987899678,
      "learning_rate": 4.863673682329373e-07,
      "loss": 0.7519,
      "step": 14714
    },
    {
      "epoch": 0.9033426440345007,
      "grad_norm": 1.1288052347691382,
      "learning_rate": 4.857550027472291e-07,
      "loss": 0.7274,
      "step": 14715
    },
    {
      "epoch": 0.9034040332729673,
      "grad_norm": 1.0314491144787663,
      "learning_rate": 4.851430134105128e-07,
      "loss": 0.7211,
      "step": 14716
    },
    {
      "epoch": 0.9034654225114337,
      "grad_norm": 1.040899249158939,
      "learning_rate": 4.845314002469814e-07,
      "loss": 0.7283,
      "step": 14717
    },
    {
      "epoch": 0.9035268117499002,
      "grad_norm": 0.9612610358911645,
      "learning_rate": 4.839201632808133e-07,
      "loss": 0.7219,
      "step": 14718
    },
    {
      "epoch": 0.9035882009883668,
      "grad_norm": 1.0350339206656025,
      "learning_rate": 4.83309302536179e-07,
      "loss": 0.7318,
      "step": 14719
    },
    {
      "epoch": 0.9036495902268332,
      "grad_norm": 1.2025978530254626,
      "learning_rate": 4.826988180372272e-07,
      "loss": 0.7888,
      "step": 14720
    },
    {
      "epoch": 0.9037109794652998,
      "grad_norm": 1.1174301058605227,
      "learning_rate": 4.820887098080918e-07,
      "loss": 0.7648,
      "step": 14721
    },
    {
      "epoch": 0.9037723687037662,
      "grad_norm": 0.9509934729352731,
      "learning_rate": 4.814789778728957e-07,
      "loss": 0.7475,
      "step": 14722
    },
    {
      "epoch": 0.9038337579422328,
      "grad_norm": 1.1841157422506905,
      "learning_rate": 4.808696222557452e-07,
      "loss": 0.7935,
      "step": 14723
    },
    {
      "epoch": 0.9038951471806992,
      "grad_norm": 1.042078348364619,
      "learning_rate": 4.802606429807299e-07,
      "loss": 0.7324,
      "step": 14724
    },
    {
      "epoch": 0.9039565364191657,
      "grad_norm": 0.9854003907323275,
      "learning_rate": 4.79652040071924e-07,
      "loss": 0.7149,
      "step": 14725
    },
    {
      "epoch": 0.9040179256576322,
      "grad_norm": 1.0141553483722217,
      "learning_rate": 4.79043813553396e-07,
      "loss": 0.7146,
      "step": 14726
    },
    {
      "epoch": 0.9040793148960987,
      "grad_norm": 1.0191501973142139,
      "learning_rate": 4.784359634491853e-07,
      "loss": 0.7283,
      "step": 14727
    },
    {
      "epoch": 0.9041407041345653,
      "grad_norm": 1.1396207360960025,
      "learning_rate": 4.778284897833241e-07,
      "loss": 0.7446,
      "step": 14728
    },
    {
      "epoch": 0.9042020933730317,
      "grad_norm": 1.1405528476750455,
      "learning_rate": 4.772213925798331e-07,
      "loss": 0.7486,
      "step": 14729
    },
    {
      "epoch": 0.9042634826114982,
      "grad_norm": 0.8460659379903261,
      "learning_rate": 4.766146718627107e-07,
      "loss": 0.6776,
      "step": 14730
    },
    {
      "epoch": 0.9043248718499647,
      "grad_norm": 1.0204297750423743,
      "learning_rate": 4.760083276559468e-07,
      "loss": 0.6812,
      "step": 14731
    },
    {
      "epoch": 0.9043862610884312,
      "grad_norm": 1.0421613209198743,
      "learning_rate": 4.7540235998351004e-07,
      "loss": 0.7044,
      "step": 14732
    },
    {
      "epoch": 0.9044476503268977,
      "grad_norm": 1.1397539567604302,
      "learning_rate": 4.747967688693589e-07,
      "loss": 0.7628,
      "step": 14733
    },
    {
      "epoch": 0.9045090395653642,
      "grad_norm": 1.1302001441885514,
      "learning_rate": 4.7419155433743644e-07,
      "loss": 0.7008,
      "step": 14734
    },
    {
      "epoch": 0.9045704288038307,
      "grad_norm": 1.0908477686991929,
      "learning_rate": 4.735867164116703e-07,
      "loss": 0.747,
      "step": 14735
    },
    {
      "epoch": 0.9046318180422972,
      "grad_norm": 0.9436106062149446,
      "learning_rate": 4.7298225511597127e-07,
      "loss": 0.6646,
      "step": 14736
    },
    {
      "epoch": 0.9046932072807636,
      "grad_norm": 0.9136737176740182,
      "learning_rate": 4.7237817047423694e-07,
      "loss": 0.7501,
      "step": 14737
    },
    {
      "epoch": 0.9047545965192302,
      "grad_norm": 0.9852537868816443,
      "learning_rate": 4.7177446251035263e-07,
      "loss": 0.7055,
      "step": 14738
    },
    {
      "epoch": 0.9048159857576967,
      "grad_norm": 1.1332875417518253,
      "learning_rate": 4.711711312481815e-07,
      "loss": 0.7065,
      "step": 14739
    },
    {
      "epoch": 0.9048773749961632,
      "grad_norm": 1.1279768472990708,
      "learning_rate": 4.7056817671158106e-07,
      "loss": 0.7028,
      "step": 14740
    },
    {
      "epoch": 0.9049387642346297,
      "grad_norm": 1.1176418751005832,
      "learning_rate": 4.6996559892438896e-07,
      "loss": 0.7492,
      "step": 14741
    },
    {
      "epoch": 0.9050001534730961,
      "grad_norm": 1.0369712552147716,
      "learning_rate": 4.6936339791042505e-07,
      "loss": 0.7216,
      "step": 14742
    },
    {
      "epoch": 0.9050615427115627,
      "grad_norm": 1.0864883358754203,
      "learning_rate": 4.687615736935003e-07,
      "loss": 0.7095,
      "step": 14743
    },
    {
      "epoch": 0.9051229319500291,
      "grad_norm": 0.9728040742426804,
      "learning_rate": 4.681601262974067e-07,
      "loss": 0.7166,
      "step": 14744
    },
    {
      "epoch": 0.9051843211884957,
      "grad_norm": 1.0672858904708489,
      "learning_rate": 4.675590557459253e-07,
      "loss": 0.7373,
      "step": 14745
    },
    {
      "epoch": 0.9052457104269621,
      "grad_norm": 0.9654290615890408,
      "learning_rate": 4.669583620628138e-07,
      "loss": 0.7143,
      "step": 14746
    },
    {
      "epoch": 0.9053070996654287,
      "grad_norm": 1.0934551628863423,
      "learning_rate": 4.663580452718264e-07,
      "loss": 0.7462,
      "step": 14747
    },
    {
      "epoch": 0.9053684889038951,
      "grad_norm": 1.1196306690625397,
      "learning_rate": 4.657581053966953e-07,
      "loss": 0.7579,
      "step": 14748
    },
    {
      "epoch": 0.9054298781423616,
      "grad_norm": 1.079887524186457,
      "learning_rate": 4.651585424611382e-07,
      "loss": 0.7147,
      "step": 14749
    },
    {
      "epoch": 0.9054912673808282,
      "grad_norm": 0.962093902214052,
      "learning_rate": 4.6455935648886064e-07,
      "loss": 0.6842,
      "step": 14750
    },
    {
      "epoch": 0.9055526566192946,
      "grad_norm": 1.0100931744406239,
      "learning_rate": 4.6396054750355024e-07,
      "loss": 0.7483,
      "step": 14751
    },
    {
      "epoch": 0.9056140458577612,
      "grad_norm": 1.1150692378417506,
      "learning_rate": 4.6336211552888254e-07,
      "loss": 0.7449,
      "step": 14752
    },
    {
      "epoch": 0.9056754350962276,
      "grad_norm": 1.0640126611247727,
      "learning_rate": 4.627640605885142e-07,
      "loss": 0.6987,
      "step": 14753
    },
    {
      "epoch": 0.9057368243346942,
      "grad_norm": 0.9891512361854929,
      "learning_rate": 4.621663827060918e-07,
      "loss": 0.699,
      "step": 14754
    },
    {
      "epoch": 0.9057982135731606,
      "grad_norm": 1.1359692883053056,
      "learning_rate": 4.6156908190524653e-07,
      "loss": 0.6723,
      "step": 14755
    },
    {
      "epoch": 0.9058596028116271,
      "grad_norm": 1.0939155744918516,
      "learning_rate": 4.609721582095894e-07,
      "loss": 0.7315,
      "step": 14756
    },
    {
      "epoch": 0.9059209920500936,
      "grad_norm": 1.0619225563561427,
      "learning_rate": 4.603756116427194e-07,
      "loss": 0.7264,
      "step": 14757
    },
    {
      "epoch": 0.9059823812885601,
      "grad_norm": 1.0378423887265442,
      "learning_rate": 4.5977944222822423e-07,
      "loss": 0.7278,
      "step": 14758
    },
    {
      "epoch": 0.9060437705270266,
      "grad_norm": 1.0202491885698801,
      "learning_rate": 4.591836499896718e-07,
      "loss": 0.6952,
      "step": 14759
    },
    {
      "epoch": 0.9061051597654931,
      "grad_norm": 1.0637286575459692,
      "learning_rate": 4.5858823495061876e-07,
      "loss": 0.7213,
      "step": 14760
    },
    {
      "epoch": 0.9061665490039597,
      "grad_norm": 1.0172963384640095,
      "learning_rate": 4.57993197134603e-07,
      "loss": 0.7182,
      "step": 14761
    },
    {
      "epoch": 0.9062279382424261,
      "grad_norm": 1.070460492643269,
      "learning_rate": 4.573985365651512e-07,
      "loss": 0.7604,
      "step": 14762
    },
    {
      "epoch": 0.9062893274808926,
      "grad_norm": 1.0714934560487208,
      "learning_rate": 4.568042532657713e-07,
      "loss": 0.763,
      "step": 14763
    },
    {
      "epoch": 0.9063507167193591,
      "grad_norm": 1.0329674231207548,
      "learning_rate": 4.5621034725995994e-07,
      "loss": 0.7308,
      "step": 14764
    },
    {
      "epoch": 0.9064121059578256,
      "grad_norm": 0.9816977450599943,
      "learning_rate": 4.556168185711995e-07,
      "loss": 0.7009,
      "step": 14765
    },
    {
      "epoch": 0.9064734951962921,
      "grad_norm": 0.9607982449075395,
      "learning_rate": 4.550236672229513e-07,
      "loss": 0.7653,
      "step": 14766
    },
    {
      "epoch": 0.9065348844347586,
      "grad_norm": 1.0228683425494292,
      "learning_rate": 4.544308932386665e-07,
      "loss": 0.7548,
      "step": 14767
    },
    {
      "epoch": 0.906596273673225,
      "grad_norm": 1.1102431242439847,
      "learning_rate": 4.5383849664178415e-07,
      "loss": 0.6798,
      "step": 14768
    },
    {
      "epoch": 0.9066576629116916,
      "grad_norm": 1.0367654578258199,
      "learning_rate": 4.5324647745572103e-07,
      "loss": 0.7243,
      "step": 14769
    },
    {
      "epoch": 0.906719052150158,
      "grad_norm": 1.0022963246635515,
      "learning_rate": 4.5265483570388733e-07,
      "loss": 0.6891,
      "step": 14770
    },
    {
      "epoch": 0.9067804413886246,
      "grad_norm": 1.0917088202663388,
      "learning_rate": 4.520635714096666e-07,
      "loss": 0.7209,
      "step": 14771
    },
    {
      "epoch": 0.9068418306270911,
      "grad_norm": 1.1158792967219613,
      "learning_rate": 4.514726845964412e-07,
      "loss": 0.7058,
      "step": 14772
    },
    {
      "epoch": 0.9069032198655576,
      "grad_norm": 1.1548369697401162,
      "learning_rate": 4.508821752875692e-07,
      "loss": 0.6948,
      "step": 14773
    },
    {
      "epoch": 0.9069646091040241,
      "grad_norm": 1.1341546567816372,
      "learning_rate": 4.502920435063962e-07,
      "loss": 0.6899,
      "step": 14774
    },
    {
      "epoch": 0.9070259983424905,
      "grad_norm": 1.0544356114752553,
      "learning_rate": 4.4970228927625593e-07,
      "loss": 0.7034,
      "step": 14775
    },
    {
      "epoch": 0.9070873875809571,
      "grad_norm": 1.045522145125511,
      "learning_rate": 4.4911291262046074e-07,
      "loss": 0.6922,
      "step": 14776
    },
    {
      "epoch": 0.9071487768194235,
      "grad_norm": 1.257447753188984,
      "learning_rate": 4.4852391356231537e-07,
      "loss": 0.7224,
      "step": 14777
    },
    {
      "epoch": 0.9072101660578901,
      "grad_norm": 1.2723330236286192,
      "learning_rate": 4.479352921251034e-07,
      "loss": 0.7322,
      "step": 14778
    },
    {
      "epoch": 0.9072715552963565,
      "grad_norm": 1.0555375225694188,
      "learning_rate": 4.473470483320974e-07,
      "loss": 0.7354,
      "step": 14779
    },
    {
      "epoch": 0.907332944534823,
      "grad_norm": 1.05308297010916,
      "learning_rate": 4.4675918220655646e-07,
      "loss": 0.741,
      "step": 14780
    },
    {
      "epoch": 0.9073943337732896,
      "grad_norm": 1.0277698832413917,
      "learning_rate": 4.4617169377171534e-07,
      "loss": 0.7167,
      "step": 14781
    },
    {
      "epoch": 0.907455723011756,
      "grad_norm": 1.0071383111326981,
      "learning_rate": 4.455845830508065e-07,
      "loss": 0.7758,
      "step": 14782
    },
    {
      "epoch": 0.9075171122502226,
      "grad_norm": 1.1382206362966742,
      "learning_rate": 4.4499785006704044e-07,
      "loss": 0.7099,
      "step": 14783
    },
    {
      "epoch": 0.907578501488689,
      "grad_norm": 1.145681363240931,
      "learning_rate": 4.444114948436129e-07,
      "loss": 0.6857,
      "step": 14784
    },
    {
      "epoch": 0.9076398907271556,
      "grad_norm": 1.1155100792313453,
      "learning_rate": 4.438255174037054e-07,
      "loss": 0.7262,
      "step": 14785
    },
    {
      "epoch": 0.907701279965622,
      "grad_norm": 0.5807866386879013,
      "learning_rate": 4.432399177704849e-07,
      "loss": 0.625,
      "step": 14786
    },
    {
      "epoch": 0.9077626692040885,
      "grad_norm": 0.9680034905423306,
      "learning_rate": 4.426546959671041e-07,
      "loss": 0.7503,
      "step": 14787
    },
    {
      "epoch": 0.907824058442555,
      "grad_norm": 1.028015167068333,
      "learning_rate": 4.420698520166988e-07,
      "loss": 0.6631,
      "step": 14788
    },
    {
      "epoch": 0.9078854476810215,
      "grad_norm": 1.1428300599174002,
      "learning_rate": 4.4148538594239176e-07,
      "loss": 0.7169,
      "step": 14789
    },
    {
      "epoch": 0.907946836919488,
      "grad_norm": 0.9733118755724041,
      "learning_rate": 4.4090129776729107e-07,
      "loss": 0.7049,
      "step": 14790
    },
    {
      "epoch": 0.9080082261579545,
      "grad_norm": 1.1608662894555346,
      "learning_rate": 4.4031758751448717e-07,
      "loss": 0.698,
      "step": 14791
    },
    {
      "epoch": 0.9080696153964211,
      "grad_norm": 1.113492931709002,
      "learning_rate": 4.3973425520705605e-07,
      "loss": 0.7499,
      "step": 14792
    },
    {
      "epoch": 0.9081310046348875,
      "grad_norm": 0.9509662600526635,
      "learning_rate": 4.391513008680637e-07,
      "loss": 0.7106,
      "step": 14793
    },
    {
      "epoch": 0.908192393873354,
      "grad_norm": 1.0601173457545012,
      "learning_rate": 4.3856872452055497e-07,
      "loss": 0.6847,
      "step": 14794
    },
    {
      "epoch": 0.9082537831118205,
      "grad_norm": 0.9724774800493344,
      "learning_rate": 4.379865261875649e-07,
      "loss": 0.7152,
      "step": 14795
    },
    {
      "epoch": 0.908315172350287,
      "grad_norm": 1.0376468293929242,
      "learning_rate": 4.3740470589210495e-07,
      "loss": 0.7011,
      "step": 14796
    },
    {
      "epoch": 0.9083765615887535,
      "grad_norm": 1.1350150621837019,
      "learning_rate": 4.368232636571823e-07,
      "loss": 0.736,
      "step": 14797
    },
    {
      "epoch": 0.90843795082722,
      "grad_norm": 1.0358298578922103,
      "learning_rate": 4.3624219950578527e-07,
      "loss": 0.794,
      "step": 14798
    },
    {
      "epoch": 0.9084993400656864,
      "grad_norm": 1.1195816205689015,
      "learning_rate": 4.3566151346088323e-07,
      "loss": 0.7572,
      "step": 14799
    },
    {
      "epoch": 0.908560729304153,
      "grad_norm": 0.9761111212768598,
      "learning_rate": 4.350812055454356e-07,
      "loss": 0.7067,
      "step": 14800
    },
    {
      "epoch": 0.9086221185426194,
      "grad_norm": 0.9733693916191165,
      "learning_rate": 4.345012757823841e-07,
      "loss": 0.6888,
      "step": 14801
    },
    {
      "epoch": 0.908683507781086,
      "grad_norm": 1.1107611320833652,
      "learning_rate": 4.3392172419465804e-07,
      "loss": 0.7513,
      "step": 14802
    },
    {
      "epoch": 0.9087448970195525,
      "grad_norm": 1.0090210532090393,
      "learning_rate": 4.3334255080516805e-07,
      "loss": 0.7808,
      "step": 14803
    },
    {
      "epoch": 0.908806286258019,
      "grad_norm": 0.9185021682103472,
      "learning_rate": 4.327637556368136e-07,
      "loss": 0.6451,
      "step": 14804
    },
    {
      "epoch": 0.9088676754964855,
      "grad_norm": 1.1175514621664977,
      "learning_rate": 4.3218533871247857e-07,
      "loss": 0.7401,
      "step": 14805
    },
    {
      "epoch": 0.9089290647349519,
      "grad_norm": 1.1638235388194227,
      "learning_rate": 4.3160730005502695e-07,
      "loss": 0.7667,
      "step": 14806
    },
    {
      "epoch": 0.9089904539734185,
      "grad_norm": 1.0183900042032779,
      "learning_rate": 4.310296396873148e-07,
      "loss": 0.7155,
      "step": 14807
    },
    {
      "epoch": 0.9090518432118849,
      "grad_norm": 1.0521413311614558,
      "learning_rate": 4.304523576321806e-07,
      "loss": 0.6708,
      "step": 14808
    },
    {
      "epoch": 0.9091132324503515,
      "grad_norm": 0.9673667718638181,
      "learning_rate": 4.2987545391244613e-07,
      "loss": 0.7488,
      "step": 14809
    },
    {
      "epoch": 0.9091746216888179,
      "grad_norm": 1.1460044839158432,
      "learning_rate": 4.292989285509186e-07,
      "loss": 0.7338,
      "step": 14810
    },
    {
      "epoch": 0.9092360109272845,
      "grad_norm": 1.110705977243931,
      "learning_rate": 4.2872278157039206e-07,
      "loss": 0.777,
      "step": 14811
    },
    {
      "epoch": 0.9092974001657509,
      "grad_norm": 1.0887311675204574,
      "learning_rate": 4.281470129936449e-07,
      "loss": 0.7295,
      "step": 14812
    },
    {
      "epoch": 0.9093587894042174,
      "grad_norm": 1.091991438395408,
      "learning_rate": 4.2757162284344123e-07,
      "loss": 0.7376,
      "step": 14813
    },
    {
      "epoch": 0.909420178642684,
      "grad_norm": 1.0576022042432534,
      "learning_rate": 4.269966111425272e-07,
      "loss": 0.739,
      "step": 14814
    },
    {
      "epoch": 0.9094815678811504,
      "grad_norm": 0.9511730245224013,
      "learning_rate": 4.2642197791363806e-07,
      "loss": 0.7354,
      "step": 14815
    },
    {
      "epoch": 0.909542957119617,
      "grad_norm": 0.9385551921550657,
      "learning_rate": 4.2584772317948995e-07,
      "loss": 0.7258,
      "step": 14816
    },
    {
      "epoch": 0.9096043463580834,
      "grad_norm": 1.1681354537423128,
      "learning_rate": 4.2527384696278706e-07,
      "loss": 0.7821,
      "step": 14817
    },
    {
      "epoch": 0.90966573559655,
      "grad_norm": 1.083283452872324,
      "learning_rate": 4.2470034928622004e-07,
      "loss": 0.7252,
      "step": 14818
    },
    {
      "epoch": 0.9097271248350164,
      "grad_norm": 1.1291166327312576,
      "learning_rate": 4.241272301724608e-07,
      "loss": 0.7264,
      "step": 14819
    },
    {
      "epoch": 0.9097885140734829,
      "grad_norm": 1.0317542211674122,
      "learning_rate": 4.235544896441657e-07,
      "loss": 0.721,
      "step": 14820
    },
    {
      "epoch": 0.9098499033119494,
      "grad_norm": 1.0925118826938176,
      "learning_rate": 4.2298212772398096e-07,
      "loss": 0.7523,
      "step": 14821
    },
    {
      "epoch": 0.9099112925504159,
      "grad_norm": 0.9915464003717442,
      "learning_rate": 4.2241014443453407e-07,
      "loss": 0.6979,
      "step": 14822
    },
    {
      "epoch": 0.9099726817888824,
      "grad_norm": 1.002612506724415,
      "learning_rate": 4.2183853979843816e-07,
      "loss": 0.6996,
      "step": 14823
    },
    {
      "epoch": 0.9100340710273489,
      "grad_norm": 1.1141400173790394,
      "learning_rate": 4.212673138382939e-07,
      "loss": 0.7432,
      "step": 14824
    },
    {
      "epoch": 0.9100954602658154,
      "grad_norm": 0.9945674153934555,
      "learning_rate": 4.2069646657668215e-07,
      "loss": 0.7608,
      "step": 14825
    },
    {
      "epoch": 0.9101568495042819,
      "grad_norm": 0.961667953120991,
      "learning_rate": 4.2012599803617384e-07,
      "loss": 0.7481,
      "step": 14826
    },
    {
      "epoch": 0.9102182387427484,
      "grad_norm": 1.1320717134417213,
      "learning_rate": 4.195559082393208e-07,
      "loss": 0.7395,
      "step": 14827
    },
    {
      "epoch": 0.9102796279812149,
      "grad_norm": 0.9435768468276746,
      "learning_rate": 4.1898619720866063e-07,
      "loss": 0.7255,
      "step": 14828
    },
    {
      "epoch": 0.9103410172196814,
      "grad_norm": 1.029075609028183,
      "learning_rate": 4.1841686496672306e-07,
      "loss": 0.7191,
      "step": 14829
    },
    {
      "epoch": 0.9104024064581479,
      "grad_norm": 1.208456198916276,
      "learning_rate": 4.178479115360101e-07,
      "loss": 0.7573,
      "step": 14830
    },
    {
      "epoch": 0.9104637956966144,
      "grad_norm": 1.1869647407138986,
      "learning_rate": 4.1727933693901825e-07,
      "loss": 0.6996,
      "step": 14831
    },
    {
      "epoch": 0.9105251849350808,
      "grad_norm": 1.0440220356247467,
      "learning_rate": 4.167111411982261e-07,
      "loss": 0.7265,
      "step": 14832
    },
    {
      "epoch": 0.9105865741735474,
      "grad_norm": 1.0492321079616083,
      "learning_rate": 4.1614332433609797e-07,
      "loss": 0.7592,
      "step": 14833
    },
    {
      "epoch": 0.9106479634120139,
      "grad_norm": 1.153795246825898,
      "learning_rate": 4.1557588637508363e-07,
      "loss": 0.6978,
      "step": 14834
    },
    {
      "epoch": 0.9107093526504804,
      "grad_norm": 1.1797144834408193,
      "learning_rate": 4.1500882733761403e-07,
      "loss": 0.7749,
      "step": 14835
    },
    {
      "epoch": 0.9107707418889469,
      "grad_norm": 0.9466487813816205,
      "learning_rate": 4.144421472461102e-07,
      "loss": 0.6911,
      "step": 14836
    },
    {
      "epoch": 0.9108321311274133,
      "grad_norm": 1.1238476873927103,
      "learning_rate": 4.138758461229753e-07,
      "loss": 0.7551,
      "step": 14837
    },
    {
      "epoch": 0.9108935203658799,
      "grad_norm": 1.2142244164825904,
      "learning_rate": 4.13309923990598e-07,
      "loss": 0.7156,
      "step": 14838
    },
    {
      "epoch": 0.9109549096043463,
      "grad_norm": 0.9774391412235166,
      "learning_rate": 4.1274438087135273e-07,
      "loss": 0.7244,
      "step": 14839
    },
    {
      "epoch": 0.9110162988428129,
      "grad_norm": 1.0563742074664597,
      "learning_rate": 4.1217921678759934e-07,
      "loss": 0.7001,
      "step": 14840
    },
    {
      "epoch": 0.9110776880812793,
      "grad_norm": 1.1352087107296538,
      "learning_rate": 4.116144317616799e-07,
      "loss": 0.7133,
      "step": 14841
    },
    {
      "epoch": 0.9111390773197459,
      "grad_norm": 1.0610748537857346,
      "learning_rate": 4.1105002581592334e-07,
      "loss": 0.7579,
      "step": 14842
    },
    {
      "epoch": 0.9112004665582123,
      "grad_norm": 1.0070247580869385,
      "learning_rate": 4.104859989726451e-07,
      "loss": 0.7242,
      "step": 14843
    },
    {
      "epoch": 0.9112618557966788,
      "grad_norm": 1.1504672201351547,
      "learning_rate": 4.0992235125414616e-07,
      "loss": 0.7607,
      "step": 14844
    },
    {
      "epoch": 0.9113232450351454,
      "grad_norm": 0.9959421296882573,
      "learning_rate": 4.093590826827043e-07,
      "loss": 0.7241,
      "step": 14845
    },
    {
      "epoch": 0.9113846342736118,
      "grad_norm": 1.028413041177727,
      "learning_rate": 4.087961932805939e-07,
      "loss": 0.7258,
      "step": 14846
    },
    {
      "epoch": 0.9114460235120784,
      "grad_norm": 1.0317272345015478,
      "learning_rate": 4.0823368307006727e-07,
      "loss": 0.7771,
      "step": 14847
    },
    {
      "epoch": 0.9115074127505448,
      "grad_norm": 1.0744978905601437,
      "learning_rate": 4.076715520733643e-07,
      "loss": 0.6537,
      "step": 14848
    },
    {
      "epoch": 0.9115688019890114,
      "grad_norm": 1.124233339123176,
      "learning_rate": 4.071098003127072e-07,
      "loss": 0.7571,
      "step": 14849
    },
    {
      "epoch": 0.9116301912274778,
      "grad_norm": 0.9859804739499398,
      "learning_rate": 4.0654842781030714e-07,
      "loss": 0.6799,
      "step": 14850
    },
    {
      "epoch": 0.9116915804659443,
      "grad_norm": 1.0407572294315053,
      "learning_rate": 4.0598743458835634e-07,
      "loss": 0.7474,
      "step": 14851
    },
    {
      "epoch": 0.9117529697044108,
      "grad_norm": 0.963478810239919,
      "learning_rate": 4.054268206690348e-07,
      "loss": 0.7758,
      "step": 14852
    },
    {
      "epoch": 0.9118143589428773,
      "grad_norm": 1.0991952412691943,
      "learning_rate": 4.048665860745049e-07,
      "loss": 0.7543,
      "step": 14853
    },
    {
      "epoch": 0.9118757481813438,
      "grad_norm": 1.0916078175112722,
      "learning_rate": 4.0430673082691993e-07,
      "loss": 0.7262,
      "step": 14854
    },
    {
      "epoch": 0.9119371374198103,
      "grad_norm": 1.0182980300727265,
      "learning_rate": 4.037472549484101e-07,
      "loss": 0.7332,
      "step": 14855
    },
    {
      "epoch": 0.9119985266582769,
      "grad_norm": 0.9726049241993724,
      "learning_rate": 4.031881584610953e-07,
      "loss": 0.7005,
      "step": 14856
    },
    {
      "epoch": 0.9120599158967433,
      "grad_norm": 1.0196042310247921,
      "learning_rate": 4.0262944138708017e-07,
      "loss": 0.7566,
      "step": 14857
    },
    {
      "epoch": 0.9121213051352098,
      "grad_norm": 1.1348351261304166,
      "learning_rate": 4.020711037484537e-07,
      "loss": 0.7394,
      "step": 14858
    },
    {
      "epoch": 0.9121826943736763,
      "grad_norm": 0.9811749203647688,
      "learning_rate": 4.015131455672894e-07,
      "loss": 0.6973,
      "step": 14859
    },
    {
      "epoch": 0.9122440836121428,
      "grad_norm": 0.9959826967163332,
      "learning_rate": 4.009555668656473e-07,
      "loss": 0.7237,
      "step": 14860
    },
    {
      "epoch": 0.9123054728506093,
      "grad_norm": 1.10607725400457,
      "learning_rate": 4.003983676655709e-07,
      "loss": 0.7312,
      "step": 14861
    },
    {
      "epoch": 0.9123668620890758,
      "grad_norm": 1.0770733246169766,
      "learning_rate": 3.998415479890894e-07,
      "loss": 0.7328,
      "step": 14862
    },
    {
      "epoch": 0.9124282513275422,
      "grad_norm": 0.9918095714127128,
      "learning_rate": 3.9928510785821607e-07,
      "loss": 0.7168,
      "step": 14863
    },
    {
      "epoch": 0.9124896405660088,
      "grad_norm": 1.0605084633691364,
      "learning_rate": 3.9872904729495123e-07,
      "loss": 0.786,
      "step": 14864
    },
    {
      "epoch": 0.9125510298044752,
      "grad_norm": 1.1873484825651215,
      "learning_rate": 3.9817336632127833e-07,
      "loss": 0.735,
      "step": 14865
    },
    {
      "epoch": 0.9126124190429418,
      "grad_norm": 1.1501765690722852,
      "learning_rate": 3.9761806495916656e-07,
      "loss": 0.7147,
      "step": 14866
    },
    {
      "epoch": 0.9126738082814083,
      "grad_norm": 1.029282235709837,
      "learning_rate": 3.9706314323056936e-07,
      "loss": 0.7884,
      "step": 14867
    },
    {
      "epoch": 0.9127351975198748,
      "grad_norm": 1.06164929776317,
      "learning_rate": 3.9650860115742595e-07,
      "loss": 0.7032,
      "step": 14868
    },
    {
      "epoch": 0.9127965867583413,
      "grad_norm": 1.1288995261803305,
      "learning_rate": 3.959544387616632e-07,
      "loss": 0.7466,
      "step": 14869
    },
    {
      "epoch": 0.9128579759968077,
      "grad_norm": 1.11434862867947,
      "learning_rate": 3.9540065606518353e-07,
      "loss": 0.7328,
      "step": 14870
    },
    {
      "epoch": 0.9129193652352743,
      "grad_norm": 0.991099325753921,
      "learning_rate": 3.9484725308988725e-07,
      "loss": 0.7551,
      "step": 14871
    },
    {
      "epoch": 0.9129807544737407,
      "grad_norm": 1.033825457914686,
      "learning_rate": 3.942942298576513e-07,
      "loss": 0.7206,
      "step": 14872
    },
    {
      "epoch": 0.9130421437122073,
      "grad_norm": 1.1055197666146812,
      "learning_rate": 3.937415863903382e-07,
      "loss": 0.7204,
      "step": 14873
    },
    {
      "epoch": 0.9131035329506737,
      "grad_norm": 1.1428933275790767,
      "learning_rate": 3.931893227097994e-07,
      "loss": 0.7012,
      "step": 14874
    },
    {
      "epoch": 0.9131649221891402,
      "grad_norm": 1.045798831148204,
      "learning_rate": 3.926374388378662e-07,
      "loss": 0.7135,
      "step": 14875
    },
    {
      "epoch": 0.9132263114276067,
      "grad_norm": 1.008355936146096,
      "learning_rate": 3.92085934796359e-07,
      "loss": 0.6785,
      "step": 14876
    },
    {
      "epoch": 0.9132877006660732,
      "grad_norm": 1.1770405982223064,
      "learning_rate": 3.9153481060708264e-07,
      "loss": 0.7827,
      "step": 14877
    },
    {
      "epoch": 0.9133490899045398,
      "grad_norm": 1.1878933619178111,
      "learning_rate": 3.909840662918241e-07,
      "loss": 0.7423,
      "step": 14878
    },
    {
      "epoch": 0.9134104791430062,
      "grad_norm": 1.0407951819506598,
      "learning_rate": 3.904337018723581e-07,
      "loss": 0.7258,
      "step": 14879
    },
    {
      "epoch": 0.9134718683814728,
      "grad_norm": 1.083067244407415,
      "learning_rate": 3.8988371737044396e-07,
      "loss": 0.7248,
      "step": 14880
    },
    {
      "epoch": 0.9135332576199392,
      "grad_norm": 1.0296806184954592,
      "learning_rate": 3.893341128078232e-07,
      "loss": 0.7101,
      "step": 14881
    },
    {
      "epoch": 0.9135946468584057,
      "grad_norm": 0.9938683272003206,
      "learning_rate": 3.887848882062273e-07,
      "loss": 0.6782,
      "step": 14882
    },
    {
      "epoch": 0.9136560360968722,
      "grad_norm": 1.1585663110236846,
      "learning_rate": 3.882360435873711e-07,
      "loss": 0.7453,
      "step": 14883
    },
    {
      "epoch": 0.9137174253353387,
      "grad_norm": 1.0313429245779058,
      "learning_rate": 3.876875789729484e-07,
      "loss": 0.7708,
      "step": 14884
    },
    {
      "epoch": 0.9137788145738052,
      "grad_norm": 1.0857266325503157,
      "learning_rate": 3.871394943846485e-07,
      "loss": 0.752,
      "step": 14885
    },
    {
      "epoch": 0.9138402038122717,
      "grad_norm": 1.1225288376226572,
      "learning_rate": 3.8659178984413625e-07,
      "loss": 0.7046,
      "step": 14886
    },
    {
      "epoch": 0.9139015930507383,
      "grad_norm": 1.0862894754900605,
      "learning_rate": 3.860444653730666e-07,
      "loss": 0.71,
      "step": 14887
    },
    {
      "epoch": 0.9139629822892047,
      "grad_norm": 1.138451057709267,
      "learning_rate": 3.854975209930789e-07,
      "loss": 0.7237,
      "step": 14888
    },
    {
      "epoch": 0.9140243715276712,
      "grad_norm": 1.0363803278568824,
      "learning_rate": 3.8495095672579584e-07,
      "loss": 0.7439,
      "step": 14889
    },
    {
      "epoch": 0.9140857607661377,
      "grad_norm": 1.0288977058548567,
      "learning_rate": 3.8440477259282685e-07,
      "loss": 0.7146,
      "step": 14890
    },
    {
      "epoch": 0.9141471500046042,
      "grad_norm": 1.0303998228500488,
      "learning_rate": 3.8385896861576454e-07,
      "loss": 0.7331,
      "step": 14891
    },
    {
      "epoch": 0.9142085392430707,
      "grad_norm": 1.054285494253376,
      "learning_rate": 3.8331354481618623e-07,
      "loss": 0.6478,
      "step": 14892
    },
    {
      "epoch": 0.9142699284815372,
      "grad_norm": 0.8978300044166794,
      "learning_rate": 3.827685012156612e-07,
      "loss": 0.7704,
      "step": 14893
    },
    {
      "epoch": 0.9143313177200036,
      "grad_norm": 1.0803651348013414,
      "learning_rate": 3.8222383783573124e-07,
      "loss": 0.7244,
      "step": 14894
    },
    {
      "epoch": 0.9143927069584702,
      "grad_norm": 1.0114338008384856,
      "learning_rate": 3.8167955469793126e-07,
      "loss": 0.739,
      "step": 14895
    },
    {
      "epoch": 0.9144540961969366,
      "grad_norm": 1.0433757617100763,
      "learning_rate": 3.81135651823783e-07,
      "loss": 0.7068,
      "step": 14896
    },
    {
      "epoch": 0.9145154854354032,
      "grad_norm": 1.056463834188005,
      "learning_rate": 3.8059212923478693e-07,
      "loss": 0.761,
      "step": 14897
    },
    {
      "epoch": 0.9145768746738697,
      "grad_norm": 0.9117513713421502,
      "learning_rate": 3.8004898695243375e-07,
      "loss": 0.7045,
      "step": 14898
    },
    {
      "epoch": 0.9146382639123362,
      "grad_norm": 1.0846780886077294,
      "learning_rate": 3.795062249981929e-07,
      "loss": 0.7231,
      "step": 14899
    },
    {
      "epoch": 0.9146996531508027,
      "grad_norm": 1.1335235670875201,
      "learning_rate": 3.789638433935261e-07,
      "loss": 0.7906,
      "step": 14900
    },
    {
      "epoch": 0.9147610423892691,
      "grad_norm": 1.0604545074406144,
      "learning_rate": 3.784218421598751e-07,
      "loss": 0.7292,
      "step": 14901
    },
    {
      "epoch": 0.9148224316277357,
      "grad_norm": 0.9477892570593831,
      "learning_rate": 3.778802213186694e-07,
      "loss": 0.713,
      "step": 14902
    },
    {
      "epoch": 0.9148838208662021,
      "grad_norm": 0.9540797083943796,
      "learning_rate": 3.7733898089132083e-07,
      "loss": 0.737,
      "step": 14903
    },
    {
      "epoch": 0.9149452101046687,
      "grad_norm": 1.0746406784720908,
      "learning_rate": 3.7679812089922775e-07,
      "loss": 0.6906,
      "step": 14904
    },
    {
      "epoch": 0.9150065993431351,
      "grad_norm": 1.0997224270634722,
      "learning_rate": 3.762576413637731e-07,
      "loss": 0.7323,
      "step": 14905
    },
    {
      "epoch": 0.9150679885816017,
      "grad_norm": 1.0850850598411044,
      "learning_rate": 3.757175423063242e-07,
      "loss": 0.7013,
      "step": 14906
    },
    {
      "epoch": 0.9151293778200681,
      "grad_norm": 0.9652584748612104,
      "learning_rate": 3.751778237482373e-07,
      "loss": 0.7462,
      "step": 14907
    },
    {
      "epoch": 0.9151907670585346,
      "grad_norm": 1.0482698192647422,
      "learning_rate": 3.746384857108487e-07,
      "loss": 0.7158,
      "step": 14908
    },
    {
      "epoch": 0.9152521562970012,
      "grad_norm": 0.9958019249944906,
      "learning_rate": 3.74099528215478e-07,
      "loss": 0.7076,
      "step": 14909
    },
    {
      "epoch": 0.9153135455354676,
      "grad_norm": 1.1541270939937704,
      "learning_rate": 3.7356095128343816e-07,
      "loss": 0.7154,
      "step": 14910
    },
    {
      "epoch": 0.9153749347739342,
      "grad_norm": 1.0032036911760904,
      "learning_rate": 3.730227549360188e-07,
      "loss": 0.7551,
      "step": 14911
    },
    {
      "epoch": 0.9154363240124006,
      "grad_norm": 1.1627942424238695,
      "learning_rate": 3.7248493919449844e-07,
      "loss": 0.7921,
      "step": 14912
    },
    {
      "epoch": 0.9154977132508672,
      "grad_norm": 1.193631691949944,
      "learning_rate": 3.719475040801412e-07,
      "loss": 0.7051,
      "step": 14913
    },
    {
      "epoch": 0.9155591024893336,
      "grad_norm": 1.1360627180256087,
      "learning_rate": 3.714104496141924e-07,
      "loss": 0.7441,
      "step": 14914
    },
    {
      "epoch": 0.9156204917278001,
      "grad_norm": 1.026214833625885,
      "learning_rate": 3.708737758178871e-07,
      "loss": 0.6998,
      "step": 14915
    },
    {
      "epoch": 0.9156818809662666,
      "grad_norm": 1.0163633442097817,
      "learning_rate": 3.703374827124406e-07,
      "loss": 0.6633,
      "step": 14916
    },
    {
      "epoch": 0.9157432702047331,
      "grad_norm": 1.071561626382581,
      "learning_rate": 3.6980157031905494e-07,
      "loss": 0.7047,
      "step": 14917
    },
    {
      "epoch": 0.9158046594431996,
      "grad_norm": 1.0448857205775377,
      "learning_rate": 3.6926603865892196e-07,
      "loss": 0.7174,
      "step": 14918
    },
    {
      "epoch": 0.9158660486816661,
      "grad_norm": 1.0011432894153482,
      "learning_rate": 3.687308877532103e-07,
      "loss": 0.7203,
      "step": 14919
    },
    {
      "epoch": 0.9159274379201326,
      "grad_norm": 1.0930027567856029,
      "learning_rate": 3.681961176230775e-07,
      "loss": 0.7299,
      "step": 14920
    },
    {
      "epoch": 0.9159888271585991,
      "grad_norm": 1.1354901901713885,
      "learning_rate": 3.676617282896666e-07,
      "loss": 0.7094,
      "step": 14921
    },
    {
      "epoch": 0.9160502163970656,
      "grad_norm": 0.997473261615118,
      "learning_rate": 3.6712771977410634e-07,
      "loss": 0.7283,
      "step": 14922
    },
    {
      "epoch": 0.9161116056355321,
      "grad_norm": 1.1153013718647584,
      "learning_rate": 3.665940920975064e-07,
      "loss": 0.6856,
      "step": 14923
    },
    {
      "epoch": 0.9161729948739986,
      "grad_norm": 1.0220536562485385,
      "learning_rate": 3.660608452809655e-07,
      "loss": 0.7246,
      "step": 14924
    },
    {
      "epoch": 0.916234384112465,
      "grad_norm": 0.9725340944236288,
      "learning_rate": 3.655279793455657e-07,
      "loss": 0.7187,
      "step": 14925
    },
    {
      "epoch": 0.9162957733509316,
      "grad_norm": 0.9962621053004833,
      "learning_rate": 3.649954943123735e-07,
      "loss": 0.7946,
      "step": 14926
    },
    {
      "epoch": 0.916357162589398,
      "grad_norm": 1.0810789101427858,
      "learning_rate": 3.644633902024408e-07,
      "loss": 0.7512,
      "step": 14927
    },
    {
      "epoch": 0.9164185518278646,
      "grad_norm": 1.0433532701817432,
      "learning_rate": 3.639316670368054e-07,
      "loss": 0.7038,
      "step": 14928
    },
    {
      "epoch": 0.9164799410663311,
      "grad_norm": 1.170566147406989,
      "learning_rate": 3.634003248364881e-07,
      "loss": 0.71,
      "step": 14929
    },
    {
      "epoch": 0.9165413303047976,
      "grad_norm": 1.021050129226184,
      "learning_rate": 3.6286936362249556e-07,
      "loss": 0.715,
      "step": 14930
    },
    {
      "epoch": 0.9166027195432641,
      "grad_norm": 1.067515616439148,
      "learning_rate": 3.623387834158187e-07,
      "loss": 0.7267,
      "step": 14931
    },
    {
      "epoch": 0.9166641087817305,
      "grad_norm": 1.1191751297088635,
      "learning_rate": 3.6180858423743745e-07,
      "loss": 0.6738,
      "step": 14932
    },
    {
      "epoch": 0.9167254980201971,
      "grad_norm": 1.0646047710804019,
      "learning_rate": 3.612787661083128e-07,
      "loss": 0.7231,
      "step": 14933
    },
    {
      "epoch": 0.9167868872586635,
      "grad_norm": 0.9774883522946186,
      "learning_rate": 3.6074932904938795e-07,
      "loss": 0.6996,
      "step": 14934
    },
    {
      "epoch": 0.9168482764971301,
      "grad_norm": 1.1073647642848587,
      "learning_rate": 3.6022027308159735e-07,
      "loss": 0.7372,
      "step": 14935
    },
    {
      "epoch": 0.9169096657355965,
      "grad_norm": 1.0942836520211339,
      "learning_rate": 3.596915982258564e-07,
      "loss": 0.7458,
      "step": 14936
    },
    {
      "epoch": 0.9169710549740631,
      "grad_norm": 0.9983214618721049,
      "learning_rate": 3.591633045030662e-07,
      "loss": 0.7447,
      "step": 14937
    },
    {
      "epoch": 0.9170324442125295,
      "grad_norm": 0.9715727870179817,
      "learning_rate": 3.5863539193411344e-07,
      "loss": 0.7025,
      "step": 14938
    },
    {
      "epoch": 0.917093833450996,
      "grad_norm": 0.9808263587188631,
      "learning_rate": 3.5810786053987025e-07,
      "loss": 0.6992,
      "step": 14939
    },
    {
      "epoch": 0.9171552226894626,
      "grad_norm": 1.0567309004877805,
      "learning_rate": 3.57580710341191e-07,
      "loss": 0.7221,
      "step": 14940
    },
    {
      "epoch": 0.917216611927929,
      "grad_norm": 1.0542647256027058,
      "learning_rate": 3.570539413589169e-07,
      "loss": 0.7176,
      "step": 14941
    },
    {
      "epoch": 0.9172780011663956,
      "grad_norm": 1.0622996909896905,
      "learning_rate": 3.565275536138757e-07,
      "loss": 0.7398,
      "step": 14942
    },
    {
      "epoch": 0.917339390404862,
      "grad_norm": 1.146078563688209,
      "learning_rate": 3.560015471268774e-07,
      "loss": 0.7743,
      "step": 14943
    },
    {
      "epoch": 0.9174007796433286,
      "grad_norm": 1.0329617863144431,
      "learning_rate": 3.554759219187165e-07,
      "loss": 0.7804,
      "step": 14944
    },
    {
      "epoch": 0.917462168881795,
      "grad_norm": 0.9159889137019851,
      "learning_rate": 3.5495067801017526e-07,
      "loss": 0.7186,
      "step": 14945
    },
    {
      "epoch": 0.9175235581202615,
      "grad_norm": 1.0479549248774362,
      "learning_rate": 3.544258154220193e-07,
      "loss": 0.7737,
      "step": 14946
    },
    {
      "epoch": 0.917584947358728,
      "grad_norm": 1.137962162431415,
      "learning_rate": 3.5390133417499974e-07,
      "loss": 0.7456,
      "step": 14947
    },
    {
      "epoch": 0.9176463365971945,
      "grad_norm": 0.9834454748387853,
      "learning_rate": 3.5337723428985005e-07,
      "loss": 0.7247,
      "step": 14948
    },
    {
      "epoch": 0.917707725835661,
      "grad_norm": 1.0716682306899423,
      "learning_rate": 3.5285351578729254e-07,
      "loss": 0.7934,
      "step": 14949
    },
    {
      "epoch": 0.9177691150741275,
      "grad_norm": 1.1846282014786036,
      "learning_rate": 3.523301786880329e-07,
      "loss": 0.7031,
      "step": 14950
    },
    {
      "epoch": 0.917830504312594,
      "grad_norm": 0.9919199532776984,
      "learning_rate": 3.5180722301276003e-07,
      "loss": 0.7158,
      "step": 14951
    },
    {
      "epoch": 0.9178918935510605,
      "grad_norm": 0.9694680652351351,
      "learning_rate": 3.512846487821497e-07,
      "loss": 0.7246,
      "step": 14952
    },
    {
      "epoch": 0.917953282789527,
      "grad_norm": 1.103874956006416,
      "learning_rate": 3.507624560168621e-07,
      "loss": 0.7518,
      "step": 14953
    },
    {
      "epoch": 0.9180146720279935,
      "grad_norm": 1.1138371251989754,
      "learning_rate": 3.502406447375428e-07,
      "loss": 0.695,
      "step": 14954
    },
    {
      "epoch": 0.91807606126646,
      "grad_norm": 1.0299281113739638,
      "learning_rate": 3.4971921496482097e-07,
      "loss": 0.6865,
      "step": 14955
    },
    {
      "epoch": 0.9181374505049265,
      "grad_norm": 1.1183287032293163,
      "learning_rate": 3.4919816671931117e-07,
      "loss": 0.7247,
      "step": 14956
    },
    {
      "epoch": 0.918198839743393,
      "grad_norm": 1.060082106370807,
      "learning_rate": 3.486775000216158e-07,
      "loss": 0.7245,
      "step": 14957
    },
    {
      "epoch": 0.9182602289818594,
      "grad_norm": 0.5916579436694706,
      "learning_rate": 3.4815721489231736e-07,
      "loss": 0.6319,
      "step": 14958
    },
    {
      "epoch": 0.918321618220326,
      "grad_norm": 1.0067963090217273,
      "learning_rate": 3.4763731135198374e-07,
      "loss": 0.7328,
      "step": 14959
    },
    {
      "epoch": 0.9183830074587924,
      "grad_norm": 1.0244523723590901,
      "learning_rate": 3.47117789421173e-07,
      "loss": 0.7157,
      "step": 14960
    },
    {
      "epoch": 0.918444396697259,
      "grad_norm": 0.9794061227250145,
      "learning_rate": 3.465986491204243e-07,
      "loss": 0.6903,
      "step": 14961
    },
    {
      "epoch": 0.9185057859357255,
      "grad_norm": 0.906416117366447,
      "learning_rate": 3.4607989047026005e-07,
      "loss": 0.706,
      "step": 14962
    },
    {
      "epoch": 0.918567175174192,
      "grad_norm": 1.276849918526205,
      "learning_rate": 3.455615134911905e-07,
      "loss": 0.7162,
      "step": 14963
    },
    {
      "epoch": 0.9186285644126585,
      "grad_norm": 0.9553360916751525,
      "learning_rate": 3.450435182037104e-07,
      "loss": 0.7008,
      "step": 14964
    },
    {
      "epoch": 0.9186899536511249,
      "grad_norm": 1.0267302373942349,
      "learning_rate": 3.445259046282978e-07,
      "loss": 0.7645,
      "step": 14965
    },
    {
      "epoch": 0.9187513428895915,
      "grad_norm": 1.112281306982086,
      "learning_rate": 3.440086727854175e-07,
      "loss": 0.7124,
      "step": 14966
    },
    {
      "epoch": 0.9188127321280579,
      "grad_norm": 1.112538968396919,
      "learning_rate": 3.434918226955186e-07,
      "loss": 0.7094,
      "step": 14967
    },
    {
      "epoch": 0.9188741213665245,
      "grad_norm": 0.979618868203516,
      "learning_rate": 3.4297535437903486e-07,
      "loss": 0.6944,
      "step": 14968
    },
    {
      "epoch": 0.9189355106049909,
      "grad_norm": 1.025879563664869,
      "learning_rate": 3.424592678563843e-07,
      "loss": 0.7475,
      "step": 14969
    },
    {
      "epoch": 0.9189968998434574,
      "grad_norm": 1.0893143086303676,
      "learning_rate": 3.419435631479695e-07,
      "loss": 0.7368,
      "step": 14970
    },
    {
      "epoch": 0.9190582890819239,
      "grad_norm": 1.1164509201380401,
      "learning_rate": 3.41428240274182e-07,
      "loss": 0.688,
      "step": 14971
    },
    {
      "epoch": 0.9191196783203904,
      "grad_norm": 1.0204837888763163,
      "learning_rate": 3.409132992553954e-07,
      "loss": 0.7242,
      "step": 14972
    },
    {
      "epoch": 0.919181067558857,
      "grad_norm": 1.0255373968666317,
      "learning_rate": 3.403987401119635e-07,
      "loss": 0.7275,
      "step": 14973
    },
    {
      "epoch": 0.9192424567973234,
      "grad_norm": 1.0629131464758363,
      "learning_rate": 3.398845628642344e-07,
      "loss": 0.6778,
      "step": 14974
    },
    {
      "epoch": 0.91930384603579,
      "grad_norm": 0.9510700533424972,
      "learning_rate": 3.393707675325342e-07,
      "loss": 0.7352,
      "step": 14975
    },
    {
      "epoch": 0.9193652352742564,
      "grad_norm": 1.1014578397948958,
      "learning_rate": 3.3885735413717644e-07,
      "loss": 0.7605,
      "step": 14976
    },
    {
      "epoch": 0.919426624512723,
      "grad_norm": 0.9973115020017905,
      "learning_rate": 3.383443226984584e-07,
      "loss": 0.6822,
      "step": 14977
    },
    {
      "epoch": 0.9194880137511894,
      "grad_norm": 1.018728548857509,
      "learning_rate": 3.378316732366638e-07,
      "loss": 0.7152,
      "step": 14978
    },
    {
      "epoch": 0.9195494029896559,
      "grad_norm": 1.0494513685749256,
      "learning_rate": 3.373194057720597e-07,
      "loss": 0.7663,
      "step": 14979
    },
    {
      "epoch": 0.9196107922281224,
      "grad_norm": 1.1955803540550327,
      "learning_rate": 3.368075203248988e-07,
      "loss": 0.7193,
      "step": 14980
    },
    {
      "epoch": 0.9196721814665889,
      "grad_norm": 1.1181749537089436,
      "learning_rate": 3.362960169154195e-07,
      "loss": 0.7584,
      "step": 14981
    },
    {
      "epoch": 0.9197335707050555,
      "grad_norm": 1.1062017438481786,
      "learning_rate": 3.357848955638443e-07,
      "loss": 0.7464,
      "step": 14982
    },
    {
      "epoch": 0.9197949599435219,
      "grad_norm": 0.9339686010926928,
      "learning_rate": 3.352741562903794e-07,
      "loss": 0.7795,
      "step": 14983
    },
    {
      "epoch": 0.9198563491819884,
      "grad_norm": 1.1121821639394835,
      "learning_rate": 3.3476379911521753e-07,
      "loss": 0.7199,
      "step": 14984
    },
    {
      "epoch": 0.9199177384204549,
      "grad_norm": 1.0309435656380805,
      "learning_rate": 3.3425382405853577e-07,
      "loss": 0.7113,
      "step": 14985
    },
    {
      "epoch": 0.9199791276589214,
      "grad_norm": 0.9539320029860979,
      "learning_rate": 3.3374423114049706e-07,
      "loss": 0.6647,
      "step": 14986
    },
    {
      "epoch": 0.9200405168973879,
      "grad_norm": 0.9573946563695547,
      "learning_rate": 3.3323502038124733e-07,
      "loss": 0.7259,
      "step": 14987
    },
    {
      "epoch": 0.9201019061358544,
      "grad_norm": 1.0002372814767542,
      "learning_rate": 3.3272619180091946e-07,
      "loss": 0.7108,
      "step": 14988
    },
    {
      "epoch": 0.9201632953743208,
      "grad_norm": 1.0276721362473247,
      "learning_rate": 3.322177454196285e-07,
      "loss": 0.7018,
      "step": 14989
    },
    {
      "epoch": 0.9202246846127874,
      "grad_norm": 1.0716548431534882,
      "learning_rate": 3.317096812574783e-07,
      "loss": 0.7267,
      "step": 14990
    },
    {
      "epoch": 0.9202860738512538,
      "grad_norm": 1.126322408984818,
      "learning_rate": 3.3120199933455276e-07,
      "loss": 0.6704,
      "step": 14991
    },
    {
      "epoch": 0.9203474630897204,
      "grad_norm": 1.017384821356142,
      "learning_rate": 3.3069469967092485e-07,
      "loss": 0.737,
      "step": 14992
    },
    {
      "epoch": 0.9204088523281869,
      "grad_norm": 1.0060494334493733,
      "learning_rate": 3.301877822866506e-07,
      "loss": 0.7534,
      "step": 14993
    },
    {
      "epoch": 0.9204702415666534,
      "grad_norm": 1.0796164055757251,
      "learning_rate": 3.2968124720177187e-07,
      "loss": 0.8013,
      "step": 14994
    },
    {
      "epoch": 0.9205316308051199,
      "grad_norm": 1.1151647948864425,
      "learning_rate": 3.2917509443631147e-07,
      "loss": 0.7328,
      "step": 14995
    },
    {
      "epoch": 0.9205930200435863,
      "grad_norm": 1.0624522580570472,
      "learning_rate": 3.286693240102856e-07,
      "loss": 0.7166,
      "step": 14996
    },
    {
      "epoch": 0.9206544092820529,
      "grad_norm": 1.020306265537892,
      "learning_rate": 3.281639359436872e-07,
      "loss": 0.6668,
      "step": 14997
    },
    {
      "epoch": 0.9207157985205193,
      "grad_norm": 1.1264472119865458,
      "learning_rate": 3.2765893025649475e-07,
      "loss": 0.7601,
      "step": 14998
    },
    {
      "epoch": 0.9207771877589859,
      "grad_norm": 1.027934442734944,
      "learning_rate": 3.271543069686778e-07,
      "loss": 0.7318,
      "step": 14999
    },
    {
      "epoch": 0.9208385769974523,
      "grad_norm": 0.9863379152678851,
      "learning_rate": 3.266500661001848e-07,
      "loss": 0.7158,
      "step": 15000
    },
    {
      "epoch": 0.9208999662359189,
      "grad_norm": 1.1125270574048538,
      "learning_rate": 3.2614620767095094e-07,
      "loss": 0.6926,
      "step": 15001
    },
    {
      "epoch": 0.9209613554743853,
      "grad_norm": 0.9803206745467882,
      "learning_rate": 3.25642731700897e-07,
      "loss": 0.7067,
      "step": 15002
    },
    {
      "epoch": 0.9210227447128518,
      "grad_norm": 1.0430229176984807,
      "learning_rate": 3.251396382099281e-07,
      "loss": 0.7618,
      "step": 15003
    },
    {
      "epoch": 0.9210841339513184,
      "grad_norm": 1.1074838055322005,
      "learning_rate": 3.2463692721793506e-07,
      "loss": 0.762,
      "step": 15004
    },
    {
      "epoch": 0.9211455231897848,
      "grad_norm": 1.1876270717824728,
      "learning_rate": 3.241345987447908e-07,
      "loss": 0.7467,
      "step": 15005
    },
    {
      "epoch": 0.9212069124282514,
      "grad_norm": 1.1830453734620303,
      "learning_rate": 3.236326528103562e-07,
      "loss": 0.6948,
      "step": 15006
    },
    {
      "epoch": 0.9212683016667178,
      "grad_norm": 1.1260014470547421,
      "learning_rate": 3.2313108943447527e-07,
      "loss": 0.7849,
      "step": 15007
    },
    {
      "epoch": 0.9213296909051844,
      "grad_norm": 1.1460523958535005,
      "learning_rate": 3.2262990863697884e-07,
      "loss": 0.7571,
      "step": 15008
    },
    {
      "epoch": 0.9213910801436508,
      "grad_norm": 0.9240977879941282,
      "learning_rate": 3.221291104376789e-07,
      "loss": 0.7331,
      "step": 15009
    },
    {
      "epoch": 0.9214524693821173,
      "grad_norm": 0.931959202511246,
      "learning_rate": 3.216286948563763e-07,
      "loss": 0.7053,
      "step": 15010
    },
    {
      "epoch": 0.9215138586205838,
      "grad_norm": 1.124815026048801,
      "learning_rate": 3.211286619128573e-07,
      "loss": 0.7362,
      "step": 15011
    },
    {
      "epoch": 0.9215752478590503,
      "grad_norm": 0.9842494156122624,
      "learning_rate": 3.206290116268862e-07,
      "loss": 0.7258,
      "step": 15012
    },
    {
      "epoch": 0.9216366370975168,
      "grad_norm": 1.0481779279163106,
      "learning_rate": 3.201297440182194e-07,
      "loss": 0.6801,
      "step": 15013
    },
    {
      "epoch": 0.9216980263359833,
      "grad_norm": 1.114703672207004,
      "learning_rate": 3.196308591065966e-07,
      "loss": 0.7051,
      "step": 15014
    },
    {
      "epoch": 0.9217594155744498,
      "grad_norm": 1.1176689611599755,
      "learning_rate": 3.1913235691173885e-07,
      "loss": 0.7364,
      "step": 15015
    },
    {
      "epoch": 0.9218208048129163,
      "grad_norm": 1.001303777559471,
      "learning_rate": 3.1863423745335687e-07,
      "loss": 0.7707,
      "step": 15016
    },
    {
      "epoch": 0.9218821940513828,
      "grad_norm": 0.9006146950011475,
      "learning_rate": 3.1813650075114275e-07,
      "loss": 0.7003,
      "step": 15017
    },
    {
      "epoch": 0.9219435832898493,
      "grad_norm": 1.1173937700754943,
      "learning_rate": 3.1763914682477525e-07,
      "loss": 0.7167,
      "step": 15018
    },
    {
      "epoch": 0.9220049725283158,
      "grad_norm": 1.1131580224638,
      "learning_rate": 3.171421756939164e-07,
      "loss": 0.7176,
      "step": 15019
    },
    {
      "epoch": 0.9220663617667822,
      "grad_norm": 1.0128334304242397,
      "learning_rate": 3.166455873782148e-07,
      "loss": 0.7231,
      "step": 15020
    },
    {
      "epoch": 0.9221277510052488,
      "grad_norm": 1.1400219140696424,
      "learning_rate": 3.1614938189730495e-07,
      "loss": 0.7921,
      "step": 15021
    },
    {
      "epoch": 0.9221891402437152,
      "grad_norm": 1.0448636420908002,
      "learning_rate": 3.156535592708021e-07,
      "loss": 0.7359,
      "step": 15022
    },
    {
      "epoch": 0.9222505294821818,
      "grad_norm": 1.0641342661799116,
      "learning_rate": 3.1515811951830844e-07,
      "loss": 0.776,
      "step": 15023
    },
    {
      "epoch": 0.9223119187206482,
      "grad_norm": 1.0058201102951776,
      "learning_rate": 3.146630626594138e-07,
      "loss": 0.7106,
      "step": 15024
    },
    {
      "epoch": 0.9223733079591148,
      "grad_norm": 1.0032413167491927,
      "learning_rate": 3.1416838871368925e-07,
      "loss": 0.6606,
      "step": 15025
    },
    {
      "epoch": 0.9224346971975813,
      "grad_norm": 1.1689065503182698,
      "learning_rate": 3.1367409770069134e-07,
      "loss": 0.8018,
      "step": 15026
    },
    {
      "epoch": 0.9224960864360477,
      "grad_norm": 1.1791685213255196,
      "learning_rate": 3.1318018963996224e-07,
      "loss": 0.7077,
      "step": 15027
    },
    {
      "epoch": 0.9225574756745143,
      "grad_norm": 1.0201051324587773,
      "learning_rate": 3.126866645510296e-07,
      "loss": 0.706,
      "step": 15028
    },
    {
      "epoch": 0.9226188649129807,
      "grad_norm": 1.089099285612158,
      "learning_rate": 3.121935224534034e-07,
      "loss": 0.6895,
      "step": 15029
    },
    {
      "epoch": 0.9226802541514473,
      "grad_norm": 1.0036372831227263,
      "learning_rate": 3.117007633665825e-07,
      "loss": 0.7176,
      "step": 15030
    },
    {
      "epoch": 0.9227416433899137,
      "grad_norm": 1.177199956163755,
      "learning_rate": 3.112083873100469e-07,
      "loss": 0.741,
      "step": 15031
    },
    {
      "epoch": 0.9228030326283803,
      "grad_norm": 1.0635921401541,
      "learning_rate": 3.1071639430326206e-07,
      "loss": 0.7345,
      "step": 15032
    },
    {
      "epoch": 0.9228644218668467,
      "grad_norm": 0.9074800040186145,
      "learning_rate": 3.1022478436568135e-07,
      "loss": 0.696,
      "step": 15033
    },
    {
      "epoch": 0.9229258111053132,
      "grad_norm": 0.9466536396638022,
      "learning_rate": 3.0973355751673816e-07,
      "loss": 0.7027,
      "step": 15034
    },
    {
      "epoch": 0.9229872003437798,
      "grad_norm": 1.1337310467630537,
      "learning_rate": 3.092427137758547e-07,
      "loss": 0.7288,
      "step": 15035
    },
    {
      "epoch": 0.9230485895822462,
      "grad_norm": 1.0444430099374362,
      "learning_rate": 3.087522531624387e-07,
      "loss": 0.7197,
      "step": 15036
    },
    {
      "epoch": 0.9231099788207128,
      "grad_norm": 0.9519908071224256,
      "learning_rate": 3.0826217569587593e-07,
      "loss": 0.7092,
      "step": 15037
    },
    {
      "epoch": 0.9231713680591792,
      "grad_norm": 1.0541501162983835,
      "learning_rate": 3.077724813955463e-07,
      "loss": 0.7165,
      "step": 15038
    },
    {
      "epoch": 0.9232327572976458,
      "grad_norm": 1.0998068836121442,
      "learning_rate": 3.0728317028080656e-07,
      "loss": 0.7283,
      "step": 15039
    },
    {
      "epoch": 0.9232941465361122,
      "grad_norm": 1.0175438921753324,
      "learning_rate": 3.0679424237100466e-07,
      "loss": 0.7179,
      "step": 15040
    },
    {
      "epoch": 0.9233555357745787,
      "grad_norm": 1.0987631697671507,
      "learning_rate": 3.0630569768546946e-07,
      "loss": 0.7559,
      "step": 15041
    },
    {
      "epoch": 0.9234169250130452,
      "grad_norm": 1.0038658587122604,
      "learning_rate": 3.0581753624351454e-07,
      "loss": 0.716,
      "step": 15042
    },
    {
      "epoch": 0.9234783142515117,
      "grad_norm": 1.2208820319841207,
      "learning_rate": 3.0532975806444096e-07,
      "loss": 0.7266,
      "step": 15043
    },
    {
      "epoch": 0.9235397034899782,
      "grad_norm": 0.9713737276245078,
      "learning_rate": 3.0484236316753345e-07,
      "loss": 0.7193,
      "step": 15044
    },
    {
      "epoch": 0.9236010927284447,
      "grad_norm": 1.0511888856826657,
      "learning_rate": 3.0435535157205877e-07,
      "loss": 0.7603,
      "step": 15045
    },
    {
      "epoch": 0.9236624819669113,
      "grad_norm": 1.088658989885853,
      "learning_rate": 3.038687232972748e-07,
      "loss": 0.7023,
      "step": 15046
    },
    {
      "epoch": 0.9237238712053777,
      "grad_norm": 1.1124516264953959,
      "learning_rate": 3.033824783624184e-07,
      "loss": 0.7176,
      "step": 15047
    },
    {
      "epoch": 0.9237852604438442,
      "grad_norm": 1.1502833767489677,
      "learning_rate": 3.0289661678671314e-07,
      "loss": 0.779,
      "step": 15048
    },
    {
      "epoch": 0.9238466496823107,
      "grad_norm": 1.075569498560874,
      "learning_rate": 3.024111385893691e-07,
      "loss": 0.7352,
      "step": 15049
    },
    {
      "epoch": 0.9239080389207772,
      "grad_norm": 1.0341891163834822,
      "learning_rate": 3.019260437895788e-07,
      "loss": 0.734,
      "step": 15050
    },
    {
      "epoch": 0.9239694281592437,
      "grad_norm": 1.14232446750066,
      "learning_rate": 3.0144133240652017e-07,
      "loss": 0.7739,
      "step": 15051
    },
    {
      "epoch": 0.9240308173977102,
      "grad_norm": 1.0755161169629839,
      "learning_rate": 3.0095700445935793e-07,
      "loss": 0.6875,
      "step": 15052
    },
    {
      "epoch": 0.9240922066361766,
      "grad_norm": 1.0355325733579823,
      "learning_rate": 3.004730599672401e-07,
      "loss": 0.6933,
      "step": 15053
    },
    {
      "epoch": 0.9241535958746432,
      "grad_norm": 1.0668445554395058,
      "learning_rate": 2.9998949894929794e-07,
      "loss": 0.6986,
      "step": 15054
    },
    {
      "epoch": 0.9242149851131096,
      "grad_norm": 0.9802293901096881,
      "learning_rate": 2.9950632142464965e-07,
      "loss": 0.7147,
      "step": 15055
    },
    {
      "epoch": 0.9242763743515762,
      "grad_norm": 1.093705507941567,
      "learning_rate": 2.9902352741240094e-07,
      "loss": 0.6863,
      "step": 15056
    },
    {
      "epoch": 0.9243377635900427,
      "grad_norm": 1.1251363015323088,
      "learning_rate": 2.9854111693163544e-07,
      "loss": 0.696,
      "step": 15057
    },
    {
      "epoch": 0.9243991528285092,
      "grad_norm": 0.8890705853819764,
      "learning_rate": 2.9805909000142576e-07,
      "loss": 0.7478,
      "step": 15058
    },
    {
      "epoch": 0.9244605420669757,
      "grad_norm": 1.0366617110920708,
      "learning_rate": 2.9757744664082875e-07,
      "loss": 0.7157,
      "step": 15059
    },
    {
      "epoch": 0.9245219313054421,
      "grad_norm": 1.0533091359679916,
      "learning_rate": 2.970961868688893e-07,
      "loss": 0.7421,
      "step": 15060
    },
    {
      "epoch": 0.9245833205439087,
      "grad_norm": 1.0096268740607957,
      "learning_rate": 2.966153107046332e-07,
      "loss": 0.7664,
      "step": 15061
    },
    {
      "epoch": 0.9246447097823751,
      "grad_norm": 1.0194784932453784,
      "learning_rate": 2.961348181670698e-07,
      "loss": 0.703,
      "step": 15062
    },
    {
      "epoch": 0.9247060990208417,
      "grad_norm": 0.9284500154249973,
      "learning_rate": 2.9565470927519715e-07,
      "loss": 0.7292,
      "step": 15063
    },
    {
      "epoch": 0.9247674882593081,
      "grad_norm": 1.193278070159097,
      "learning_rate": 2.9517498404799674e-07,
      "loss": 0.6864,
      "step": 15064
    },
    {
      "epoch": 0.9248288774977746,
      "grad_norm": 0.9939818822064005,
      "learning_rate": 2.946956425044334e-07,
      "loss": 0.7198,
      "step": 15065
    },
    {
      "epoch": 0.9248902667362411,
      "grad_norm": 1.0674061120943041,
      "learning_rate": 2.9421668466345977e-07,
      "loss": 0.7215,
      "step": 15066
    },
    {
      "epoch": 0.9249516559747076,
      "grad_norm": 1.0318361475584634,
      "learning_rate": 2.937381105440107e-07,
      "loss": 0.7047,
      "step": 15067
    },
    {
      "epoch": 0.9250130452131742,
      "grad_norm": 1.0194628080599526,
      "learning_rate": 2.932599201650066e-07,
      "loss": 0.7254,
      "step": 15068
    },
    {
      "epoch": 0.9250744344516406,
      "grad_norm": 1.19395945303069,
      "learning_rate": 2.927821135453535e-07,
      "loss": 0.6951,
      "step": 15069
    },
    {
      "epoch": 0.9251358236901072,
      "grad_norm": 1.2048157384512868,
      "learning_rate": 2.923046907039395e-07,
      "loss": 0.73,
      "step": 15070
    },
    {
      "epoch": 0.9251972129285736,
      "grad_norm": 0.5957806557713798,
      "learning_rate": 2.918276516596441e-07,
      "loss": 0.6234,
      "step": 15071
    },
    {
      "epoch": 0.9252586021670401,
      "grad_norm": 1.064146333409255,
      "learning_rate": 2.9135099643132436e-07,
      "loss": 0.7356,
      "step": 15072
    },
    {
      "epoch": 0.9253199914055066,
      "grad_norm": 1.1415479337971528,
      "learning_rate": 2.90874725037823e-07,
      "loss": 0.7335,
      "step": 15073
    },
    {
      "epoch": 0.9253813806439731,
      "grad_norm": 1.0594713139979646,
      "learning_rate": 2.903988374979738e-07,
      "loss": 0.733,
      "step": 15074
    },
    {
      "epoch": 0.9254427698824396,
      "grad_norm": 1.0475888148801613,
      "learning_rate": 2.8992333383058956e-07,
      "loss": 0.7355,
      "step": 15075
    },
    {
      "epoch": 0.9255041591209061,
      "grad_norm": 1.003187502519398,
      "learning_rate": 2.894482140544663e-07,
      "loss": 0.6834,
      "step": 15076
    },
    {
      "epoch": 0.9255655483593725,
      "grad_norm": 1.0632613613632567,
      "learning_rate": 2.889734781883935e-07,
      "loss": 0.7149,
      "step": 15077
    },
    {
      "epoch": 0.9256269375978391,
      "grad_norm": 1.0066141658697858,
      "learning_rate": 2.884991262511361e-07,
      "loss": 0.7393,
      "step": 15078
    },
    {
      "epoch": 0.9256883268363056,
      "grad_norm": 1.0237060063084071,
      "learning_rate": 2.8802515826144903e-07,
      "loss": 0.6791,
      "step": 15079
    },
    {
      "epoch": 0.9257497160747721,
      "grad_norm": 1.087394912515432,
      "learning_rate": 2.875515742380708e-07,
      "loss": 0.7476,
      "step": 15080
    },
    {
      "epoch": 0.9258111053132386,
      "grad_norm": 1.14872999032015,
      "learning_rate": 2.8707837419972516e-07,
      "loss": 0.758,
      "step": 15081
    },
    {
      "epoch": 0.9258724945517051,
      "grad_norm": 1.0464644375632048,
      "learning_rate": 2.8660555816511947e-07,
      "loss": 0.7247,
      "step": 15082
    },
    {
      "epoch": 0.9259338837901716,
      "grad_norm": 1.0779813132975302,
      "learning_rate": 2.861331261529476e-07,
      "loss": 0.7625,
      "step": 15083
    },
    {
      "epoch": 0.925995273028638,
      "grad_norm": 1.0330002532158031,
      "learning_rate": 2.8566107818188473e-07,
      "loss": 0.7628,
      "step": 15084
    },
    {
      "epoch": 0.9260566622671046,
      "grad_norm": 1.0130789308901238,
      "learning_rate": 2.85189414270598e-07,
      "loss": 0.724,
      "step": 15085
    },
    {
      "epoch": 0.926118051505571,
      "grad_norm": 0.9970712435923825,
      "learning_rate": 2.8471813443773035e-07,
      "loss": 0.725,
      "step": 15086
    },
    {
      "epoch": 0.9261794407440376,
      "grad_norm": 0.9531277597259377,
      "learning_rate": 2.842472387019157e-07,
      "loss": 0.7382,
      "step": 15087
    },
    {
      "epoch": 0.9262408299825041,
      "grad_norm": 1.036765866779637,
      "learning_rate": 2.837767270817715e-07,
      "loss": 0.7293,
      "step": 15088
    },
    {
      "epoch": 0.9263022192209706,
      "grad_norm": 0.8879186375190757,
      "learning_rate": 2.8330659959589944e-07,
      "loss": 0.7621,
      "step": 15089
    },
    {
      "epoch": 0.9263636084594371,
      "grad_norm": 1.0153497882460831,
      "learning_rate": 2.8283685626288693e-07,
      "loss": 0.6951,
      "step": 15090
    },
    {
      "epoch": 0.9264249976979035,
      "grad_norm": 1.0592412773952202,
      "learning_rate": 2.8236749710130353e-07,
      "loss": 0.7274,
      "step": 15091
    },
    {
      "epoch": 0.9264863869363701,
      "grad_norm": 1.053909172714821,
      "learning_rate": 2.8189852212970657e-07,
      "loss": 0.7201,
      "step": 15092
    },
    {
      "epoch": 0.9265477761748365,
      "grad_norm": 0.9465563094781902,
      "learning_rate": 2.81429931366638e-07,
      "loss": 0.7618,
      "step": 15093
    },
    {
      "epoch": 0.9266091654133031,
      "grad_norm": 0.5778983330225346,
      "learning_rate": 2.809617248306207e-07,
      "loss": 0.6574,
      "step": 15094
    },
    {
      "epoch": 0.9266705546517695,
      "grad_norm": 0.9651374504856358,
      "learning_rate": 2.8049390254016986e-07,
      "loss": 0.7004,
      "step": 15095
    },
    {
      "epoch": 0.926731943890236,
      "grad_norm": 1.0668871848019148,
      "learning_rate": 2.8002646451377846e-07,
      "loss": 0.6864,
      "step": 15096
    },
    {
      "epoch": 0.9267933331287025,
      "grad_norm": 1.1164965910679499,
      "learning_rate": 2.795594107699262e-07,
      "loss": 0.7096,
      "step": 15097
    },
    {
      "epoch": 0.926854722367169,
      "grad_norm": 1.1059566963063385,
      "learning_rate": 2.790927413270783e-07,
      "loss": 0.6694,
      "step": 15098
    },
    {
      "epoch": 0.9269161116056356,
      "grad_norm": 1.0989473507240897,
      "learning_rate": 2.7862645620368555e-07,
      "loss": 0.776,
      "step": 15099
    },
    {
      "epoch": 0.926977500844102,
      "grad_norm": 1.0362259257345787,
      "learning_rate": 2.781605554181843e-07,
      "loss": 0.7112,
      "step": 15100
    },
    {
      "epoch": 0.9270388900825686,
      "grad_norm": 1.0093190160260714,
      "learning_rate": 2.7769503898898985e-07,
      "loss": 0.7317,
      "step": 15101
    },
    {
      "epoch": 0.927100279321035,
      "grad_norm": 0.5969873781687914,
      "learning_rate": 2.772299069345108e-07,
      "loss": 0.654,
      "step": 15102
    },
    {
      "epoch": 0.9271616685595016,
      "grad_norm": 1.1312444369005714,
      "learning_rate": 2.7676515927313464e-07,
      "loss": 0.7554,
      "step": 15103
    },
    {
      "epoch": 0.927223057797968,
      "grad_norm": 1.0210418664872696,
      "learning_rate": 2.7630079602323447e-07,
      "loss": 0.7463,
      "step": 15104
    },
    {
      "epoch": 0.9272844470364345,
      "grad_norm": 1.0533477015691879,
      "learning_rate": 2.7583681720317e-07,
      "loss": 0.7382,
      "step": 15105
    },
    {
      "epoch": 0.927345836274901,
      "grad_norm": 1.0337912553474766,
      "learning_rate": 2.7537322283128443e-07,
      "loss": 0.7511,
      "step": 15106
    },
    {
      "epoch": 0.9274072255133675,
      "grad_norm": 0.9957436246193009,
      "learning_rate": 2.7491001292590745e-07,
      "loss": 0.7169,
      "step": 15107
    },
    {
      "epoch": 0.927468614751834,
      "grad_norm": 1.0329384753801742,
      "learning_rate": 2.7444718750535006e-07,
      "loss": 0.7242,
      "step": 15108
    },
    {
      "epoch": 0.9275300039903005,
      "grad_norm": 1.0634256437329168,
      "learning_rate": 2.739847465879097e-07,
      "loss": 0.7399,
      "step": 15109
    },
    {
      "epoch": 0.927591393228767,
      "grad_norm": 1.1279367245043574,
      "learning_rate": 2.735226901918742e-07,
      "loss": 0.7698,
      "step": 15110
    },
    {
      "epoch": 0.9276527824672335,
      "grad_norm": 1.0532855315224317,
      "learning_rate": 2.730610183355054e-07,
      "loss": 0.7018,
      "step": 15111
    },
    {
      "epoch": 0.9277141717057,
      "grad_norm": 1.0541153163053079,
      "learning_rate": 2.725997310370576e-07,
      "loss": 0.7287,
      "step": 15112
    },
    {
      "epoch": 0.9277755609441665,
      "grad_norm": 1.1464197480741947,
      "learning_rate": 2.7213882831476966e-07,
      "loss": 0.7192,
      "step": 15113
    },
    {
      "epoch": 0.927836950182633,
      "grad_norm": 1.1693709297435013,
      "learning_rate": 2.716783101868614e-07,
      "loss": 0.6826,
      "step": 15114
    },
    {
      "epoch": 0.9278983394210994,
      "grad_norm": 1.0709589715367591,
      "learning_rate": 2.712181766715394e-07,
      "loss": 0.7663,
      "step": 15115
    },
    {
      "epoch": 0.927959728659566,
      "grad_norm": 1.0176764221674182,
      "learning_rate": 2.707584277869979e-07,
      "loss": 0.7,
      "step": 15116
    },
    {
      "epoch": 0.9280211178980324,
      "grad_norm": 1.0182975886056704,
      "learning_rate": 2.702990635514102e-07,
      "loss": 0.7143,
      "step": 15117
    },
    {
      "epoch": 0.928082507136499,
      "grad_norm": 1.0287281206144891,
      "learning_rate": 2.698400839829385e-07,
      "loss": 0.6869,
      "step": 15118
    },
    {
      "epoch": 0.9281438963749654,
      "grad_norm": 1.1698457694853894,
      "learning_rate": 2.6938148909972817e-07,
      "loss": 0.7383,
      "step": 15119
    },
    {
      "epoch": 0.928205285613432,
      "grad_norm": 0.9951393796186917,
      "learning_rate": 2.6892327891991254e-07,
      "loss": 0.7634,
      "step": 15120
    },
    {
      "epoch": 0.9282666748518985,
      "grad_norm": 1.0332448652416628,
      "learning_rate": 2.684654534616049e-07,
      "loss": 0.7645,
      "step": 15121
    },
    {
      "epoch": 0.928328064090365,
      "grad_norm": 1.0417878059339372,
      "learning_rate": 2.6800801274290525e-07,
      "loss": 0.6978,
      "step": 15122
    },
    {
      "epoch": 0.9283894533288315,
      "grad_norm": 1.0271598501372772,
      "learning_rate": 2.675509567818979e-07,
      "loss": 0.7211,
      "step": 15123
    },
    {
      "epoch": 0.9284508425672979,
      "grad_norm": 1.1154533906700168,
      "learning_rate": 2.6709428559665517e-07,
      "loss": 0.7523,
      "step": 15124
    },
    {
      "epoch": 0.9285122318057645,
      "grad_norm": 1.00088071781449,
      "learning_rate": 2.666379992052315e-07,
      "loss": 0.6803,
      "step": 15125
    },
    {
      "epoch": 0.9285736210442309,
      "grad_norm": 1.0150366026668745,
      "learning_rate": 2.661820976256635e-07,
      "loss": 0.7429,
      "step": 15126
    },
    {
      "epoch": 0.9286350102826975,
      "grad_norm": 1.1456225028918863,
      "learning_rate": 2.6572658087597794e-07,
      "loss": 0.7658,
      "step": 15127
    },
    {
      "epoch": 0.9286963995211639,
      "grad_norm": 0.9176164109225946,
      "learning_rate": 2.6527144897418366e-07,
      "loss": 0.694,
      "step": 15128
    },
    {
      "epoch": 0.9287577887596304,
      "grad_norm": 1.1491628594079675,
      "learning_rate": 2.6481670193827413e-07,
      "loss": 0.7411,
      "step": 15129
    },
    {
      "epoch": 0.9288191779980969,
      "grad_norm": 1.0394633828824338,
      "learning_rate": 2.643623397862272e-07,
      "loss": 0.7353,
      "step": 15130
    },
    {
      "epoch": 0.9288805672365634,
      "grad_norm": 0.9891562703893777,
      "learning_rate": 2.639083625360073e-07,
      "loss": 0.7272,
      "step": 15131
    },
    {
      "epoch": 0.92894195647503,
      "grad_norm": 1.015789800239814,
      "learning_rate": 2.6345477020556233e-07,
      "loss": 0.7145,
      "step": 15132
    },
    {
      "epoch": 0.9290033457134964,
      "grad_norm": 0.9768831086341668,
      "learning_rate": 2.630015628128235e-07,
      "loss": 0.7464,
      "step": 15133
    },
    {
      "epoch": 0.929064734951963,
      "grad_norm": 1.0014486723963092,
      "learning_rate": 2.62548740375711e-07,
      "loss": 0.7234,
      "step": 15134
    },
    {
      "epoch": 0.9291261241904294,
      "grad_norm": 0.985377243675784,
      "learning_rate": 2.620963029121271e-07,
      "loss": 0.7288,
      "step": 15135
    },
    {
      "epoch": 0.9291875134288959,
      "grad_norm": 1.1643756609571612,
      "learning_rate": 2.6164425043995856e-07,
      "loss": 0.7661,
      "step": 15136
    },
    {
      "epoch": 0.9292489026673624,
      "grad_norm": 1.057098436087726,
      "learning_rate": 2.611925829770745e-07,
      "loss": 0.7179,
      "step": 15137
    },
    {
      "epoch": 0.9293102919058289,
      "grad_norm": 1.0967059401691264,
      "learning_rate": 2.6074130054133616e-07,
      "loss": 0.7499,
      "step": 15138
    },
    {
      "epoch": 0.9293716811442954,
      "grad_norm": 0.9963405927024336,
      "learning_rate": 2.6029040315058487e-07,
      "loss": 0.6903,
      "step": 15139
    },
    {
      "epoch": 0.9294330703827619,
      "grad_norm": 1.0709786329744844,
      "learning_rate": 2.5983989082264295e-07,
      "loss": 0.6843,
      "step": 15140
    },
    {
      "epoch": 0.9294944596212285,
      "grad_norm": 1.1253179145362142,
      "learning_rate": 2.593897635753262e-07,
      "loss": 0.7329,
      "step": 15141
    },
    {
      "epoch": 0.9295558488596949,
      "grad_norm": 1.1073305099285842,
      "learning_rate": 2.5894002142642813e-07,
      "loss": 0.7549,
      "step": 15142
    },
    {
      "epoch": 0.9296172380981614,
      "grad_norm": 0.9546668490136921,
      "learning_rate": 2.5849066439372903e-07,
      "loss": 0.7105,
      "step": 15143
    },
    {
      "epoch": 0.9296786273366279,
      "grad_norm": 0.949642666569323,
      "learning_rate": 2.580416924949958e-07,
      "loss": 0.7182,
      "step": 15144
    },
    {
      "epoch": 0.9297400165750944,
      "grad_norm": 1.006775648975269,
      "learning_rate": 2.575931057479786e-07,
      "loss": 0.7179,
      "step": 15145
    },
    {
      "epoch": 0.9298014058135609,
      "grad_norm": 1.1489158746842691,
      "learning_rate": 2.5714490417041105e-07,
      "loss": 0.7399,
      "step": 15146
    },
    {
      "epoch": 0.9298627950520274,
      "grad_norm": 1.1025463936008417,
      "learning_rate": 2.5669708778001457e-07,
      "loss": 0.7516,
      "step": 15147
    },
    {
      "epoch": 0.9299241842904938,
      "grad_norm": 1.0672679852858549,
      "learning_rate": 2.562496565944916e-07,
      "loss": 0.7063,
      "step": 15148
    },
    {
      "epoch": 0.9299855735289604,
      "grad_norm": 0.9608578504637758,
      "learning_rate": 2.558026106315348e-07,
      "loss": 0.6889,
      "step": 15149
    },
    {
      "epoch": 0.9300469627674268,
      "grad_norm": 1.0992770862777494,
      "learning_rate": 2.5535594990881654e-07,
      "loss": 0.7237,
      "step": 15150
    },
    {
      "epoch": 0.9301083520058934,
      "grad_norm": 1.0279251528332012,
      "learning_rate": 2.5490967444399273e-07,
      "loss": 0.6758,
      "step": 15151
    },
    {
      "epoch": 0.9301697412443599,
      "grad_norm": 1.147915031971484,
      "learning_rate": 2.5446378425471263e-07,
      "loss": 0.7266,
      "step": 15152
    },
    {
      "epoch": 0.9302311304828264,
      "grad_norm": 1.0004751013254005,
      "learning_rate": 2.5401827935860103e-07,
      "loss": 0.7189,
      "step": 15153
    },
    {
      "epoch": 0.9302925197212929,
      "grad_norm": 1.059286765344427,
      "learning_rate": 2.5357315977327267e-07,
      "loss": 0.7081,
      "step": 15154
    },
    {
      "epoch": 0.9303539089597593,
      "grad_norm": 1.0030065941917359,
      "learning_rate": 2.5312842551632465e-07,
      "loss": 0.6854,
      "step": 15155
    },
    {
      "epoch": 0.9304152981982259,
      "grad_norm": 1.0715608441140327,
      "learning_rate": 2.5268407660533953e-07,
      "loss": 0.7218,
      "step": 15156
    },
    {
      "epoch": 0.9304766874366923,
      "grad_norm": 1.0375560500314278,
      "learning_rate": 2.522401130578855e-07,
      "loss": 0.6992,
      "step": 15157
    },
    {
      "epoch": 0.9305380766751589,
      "grad_norm": 1.203860162454124,
      "learning_rate": 2.51796534891513e-07,
      "loss": 0.7033,
      "step": 15158
    },
    {
      "epoch": 0.9305994659136253,
      "grad_norm": 1.0503467384953489,
      "learning_rate": 2.513533421237635e-07,
      "loss": 0.7966,
      "step": 15159
    },
    {
      "epoch": 0.9306608551520918,
      "grad_norm": 1.0882000957174431,
      "learning_rate": 2.509105347721541e-07,
      "loss": 0.7543,
      "step": 15160
    },
    {
      "epoch": 0.9307222443905583,
      "grad_norm": 1.1476155999112292,
      "learning_rate": 2.5046811285419305e-07,
      "loss": 0.7446,
      "step": 15161
    },
    {
      "epoch": 0.9307836336290248,
      "grad_norm": 1.111056697951285,
      "learning_rate": 2.5002607638737075e-07,
      "loss": 0.7222,
      "step": 15162
    },
    {
      "epoch": 0.9308450228674914,
      "grad_norm": 0.9572940600343692,
      "learning_rate": 2.4958442538916436e-07,
      "loss": 0.705,
      "step": 15163
    },
    {
      "epoch": 0.9309064121059578,
      "grad_norm": 1.0215787439192583,
      "learning_rate": 2.4914315987703664e-07,
      "loss": 0.6908,
      "step": 15164
    },
    {
      "epoch": 0.9309678013444244,
      "grad_norm": 1.0945066454769103,
      "learning_rate": 2.487022798684291e-07,
      "loss": 0.7372,
      "step": 15165
    },
    {
      "epoch": 0.9310291905828908,
      "grad_norm": 1.0207596344743495,
      "learning_rate": 2.482617853807745e-07,
      "loss": 0.7144,
      "step": 15166
    },
    {
      "epoch": 0.9310905798213573,
      "grad_norm": 1.0790293269006392,
      "learning_rate": 2.478216764314878e-07,
      "loss": 0.7652,
      "step": 15167
    },
    {
      "epoch": 0.9311519690598238,
      "grad_norm": 1.102676767616597,
      "learning_rate": 2.4738195303796844e-07,
      "loss": 0.6566,
      "step": 15168
    },
    {
      "epoch": 0.9312133582982903,
      "grad_norm": 1.1253612938746114,
      "learning_rate": 2.469426152176013e-07,
      "loss": 0.7443,
      "step": 15169
    },
    {
      "epoch": 0.9312747475367568,
      "grad_norm": 1.1208644459842347,
      "learning_rate": 2.4650366298775486e-07,
      "loss": 0.736,
      "step": 15170
    },
    {
      "epoch": 0.9313361367752233,
      "grad_norm": 1.1491234140958237,
      "learning_rate": 2.460650963657851e-07,
      "loss": 0.7197,
      "step": 15171
    },
    {
      "epoch": 0.9313975260136897,
      "grad_norm": 0.9970228024387876,
      "learning_rate": 2.456269153690294e-07,
      "loss": 0.7727,
      "step": 15172
    },
    {
      "epoch": 0.9314589152521563,
      "grad_norm": 0.9632121312627105,
      "learning_rate": 2.4518912001481045e-07,
      "loss": 0.6833,
      "step": 15173
    },
    {
      "epoch": 0.9315203044906228,
      "grad_norm": 1.064924370243293,
      "learning_rate": 2.4475171032044e-07,
      "loss": 0.7495,
      "step": 15174
    },
    {
      "epoch": 0.9315816937290893,
      "grad_norm": 1.0009061797957033,
      "learning_rate": 2.443146863032086e-07,
      "loss": 0.7768,
      "step": 15175
    },
    {
      "epoch": 0.9316430829675558,
      "grad_norm": 1.1780537813326537,
      "learning_rate": 2.438780479803937e-07,
      "loss": 0.7814,
      "step": 15176
    },
    {
      "epoch": 0.9317044722060223,
      "grad_norm": 1.0293749119873548,
      "learning_rate": 2.4344179536925916e-07,
      "loss": 0.7198,
      "step": 15177
    },
    {
      "epoch": 0.9317658614444888,
      "grad_norm": 1.0155278125972849,
      "learning_rate": 2.430059284870534e-07,
      "loss": 0.6719,
      "step": 15178
    },
    {
      "epoch": 0.9318272506829552,
      "grad_norm": 1.0556062630938268,
      "learning_rate": 2.425704473510071e-07,
      "loss": 0.7123,
      "step": 15179
    },
    {
      "epoch": 0.9318886399214218,
      "grad_norm": 1.145592247462845,
      "learning_rate": 2.421353519783365e-07,
      "loss": 0.7776,
      "step": 15180
    },
    {
      "epoch": 0.9319500291598882,
      "grad_norm": 1.1013058567099352,
      "learning_rate": 2.417006423862445e-07,
      "loss": 0.7498,
      "step": 15181
    },
    {
      "epoch": 0.9320114183983548,
      "grad_norm": 1.0670152526658352,
      "learning_rate": 2.412663185919173e-07,
      "loss": 0.741,
      "step": 15182
    },
    {
      "epoch": 0.9320728076368212,
      "grad_norm": 0.9929629227323713,
      "learning_rate": 2.4083238061252565e-07,
      "loss": 0.7627,
      "step": 15183
    },
    {
      "epoch": 0.9321341968752878,
      "grad_norm": 1.0704896380580697,
      "learning_rate": 2.40398828465227e-07,
      "loss": 0.7685,
      "step": 15184
    },
    {
      "epoch": 0.9321955861137543,
      "grad_norm": 1.0532276954873583,
      "learning_rate": 2.3996566216715977e-07,
      "loss": 0.7424,
      "step": 15185
    },
    {
      "epoch": 0.9322569753522207,
      "grad_norm": 1.0834733062582664,
      "learning_rate": 2.3953288173545033e-07,
      "loss": 0.7754,
      "step": 15186
    },
    {
      "epoch": 0.9323183645906873,
      "grad_norm": 0.9196064209099644,
      "learning_rate": 2.3910048718720713e-07,
      "loss": 0.7483,
      "step": 15187
    },
    {
      "epoch": 0.9323797538291537,
      "grad_norm": 0.9425218612775511,
      "learning_rate": 2.386684785395288e-07,
      "loss": 0.7197,
      "step": 15188
    },
    {
      "epoch": 0.9324411430676203,
      "grad_norm": 1.0055424355024507,
      "learning_rate": 2.3823685580949273e-07,
      "loss": 0.7517,
      "step": 15189
    },
    {
      "epoch": 0.9325025323060867,
      "grad_norm": 1.1146133468214625,
      "learning_rate": 2.37805619014162e-07,
      "loss": 0.6995,
      "step": 15190
    },
    {
      "epoch": 0.9325639215445533,
      "grad_norm": 1.0360166387684278,
      "learning_rate": 2.3737476817058735e-07,
      "loss": 0.7152,
      "step": 15191
    },
    {
      "epoch": 0.9326253107830197,
      "grad_norm": 1.0539589736064219,
      "learning_rate": 2.3694430329580298e-07,
      "loss": 0.728,
      "step": 15192
    },
    {
      "epoch": 0.9326867000214862,
      "grad_norm": 0.9937564678524629,
      "learning_rate": 2.3651422440682637e-07,
      "loss": 0.719,
      "step": 15193
    },
    {
      "epoch": 0.9327480892599528,
      "grad_norm": 1.1270192064284,
      "learning_rate": 2.3608453152066057e-07,
      "loss": 0.7122,
      "step": 15194
    },
    {
      "epoch": 0.9328094784984192,
      "grad_norm": 1.0750531437475488,
      "learning_rate": 2.3565522465429536e-07,
      "loss": 0.7497,
      "step": 15195
    },
    {
      "epoch": 0.9328708677368858,
      "grad_norm": 1.056720158632465,
      "learning_rate": 2.3522630382470268e-07,
      "loss": 0.7808,
      "step": 15196
    },
    {
      "epoch": 0.9329322569753522,
      "grad_norm": 1.051982049426024,
      "learning_rate": 2.347977690488379e-07,
      "loss": 0.7344,
      "step": 15197
    },
    {
      "epoch": 0.9329936462138188,
      "grad_norm": 0.9893597148969464,
      "learning_rate": 2.343696203436474e-07,
      "loss": 0.7059,
      "step": 15198
    },
    {
      "epoch": 0.9330550354522852,
      "grad_norm": 1.1063027604318239,
      "learning_rate": 2.339418577260566e-07,
      "loss": 0.7488,
      "step": 15199
    },
    {
      "epoch": 0.9331164246907517,
      "grad_norm": 1.1677910765243846,
      "learning_rate": 2.3351448121297527e-07,
      "loss": 0.6683,
      "step": 15200
    },
    {
      "epoch": 0.9331778139292182,
      "grad_norm": 1.2922915887236275,
      "learning_rate": 2.33087490821301e-07,
      "loss": 0.7359,
      "step": 15201
    },
    {
      "epoch": 0.9332392031676847,
      "grad_norm": 0.9945711731534015,
      "learning_rate": 2.3266088656791585e-07,
      "loss": 0.6753,
      "step": 15202
    },
    {
      "epoch": 0.9333005924061512,
      "grad_norm": 1.0613573929299163,
      "learning_rate": 2.3223466846968634e-07,
      "loss": 0.7089,
      "step": 15203
    },
    {
      "epoch": 0.9333619816446177,
      "grad_norm": 0.8627344916506245,
      "learning_rate": 2.318088365434601e-07,
      "loss": 0.7187,
      "step": 15204
    },
    {
      "epoch": 0.9334233708830842,
      "grad_norm": 0.5988497726523518,
      "learning_rate": 2.3138339080607585e-07,
      "loss": 0.6343,
      "step": 15205
    },
    {
      "epoch": 0.9334847601215507,
      "grad_norm": 0.9290091793111912,
      "learning_rate": 2.3095833127435242e-07,
      "loss": 0.7258,
      "step": 15206
    },
    {
      "epoch": 0.9335461493600172,
      "grad_norm": 1.0234557112737692,
      "learning_rate": 2.3053365796509408e-07,
      "loss": 0.7536,
      "step": 15207
    },
    {
      "epoch": 0.9336075385984837,
      "grad_norm": 1.1216067943087178,
      "learning_rate": 2.3010937089509188e-07,
      "loss": 0.7679,
      "step": 15208
    },
    {
      "epoch": 0.9336689278369502,
      "grad_norm": 0.8051599253159633,
      "learning_rate": 2.2968547008111796e-07,
      "loss": 0.6692,
      "step": 15209
    },
    {
      "epoch": 0.9337303170754166,
      "grad_norm": 1.0475687064137382,
      "learning_rate": 2.2926195553993334e-07,
      "loss": 0.6913,
      "step": 15210
    },
    {
      "epoch": 0.9337917063138832,
      "grad_norm": 1.0848595710188305,
      "learning_rate": 2.2883882728828243e-07,
      "loss": 0.7084,
      "step": 15211
    },
    {
      "epoch": 0.9338530955523496,
      "grad_norm": 1.0830474012748927,
      "learning_rate": 2.2841608534288962e-07,
      "loss": 0.7506,
      "step": 15212
    },
    {
      "epoch": 0.9339144847908162,
      "grad_norm": 1.0407591312456461,
      "learning_rate": 2.2799372972047372e-07,
      "loss": 0.683,
      "step": 15213
    },
    {
      "epoch": 0.9339758740292826,
      "grad_norm": 1.0207825595481703,
      "learning_rate": 2.275717604377292e-07,
      "loss": 0.7729,
      "step": 15214
    },
    {
      "epoch": 0.9340372632677492,
      "grad_norm": 1.0821228129153322,
      "learning_rate": 2.271501775113394e-07,
      "loss": 0.757,
      "step": 15215
    },
    {
      "epoch": 0.9340986525062157,
      "grad_norm": 1.0603699181254618,
      "learning_rate": 2.2672898095797203e-07,
      "loss": 0.7603,
      "step": 15216
    },
    {
      "epoch": 0.9341600417446821,
      "grad_norm": 1.0654275976503167,
      "learning_rate": 2.2630817079427936e-07,
      "loss": 0.7532,
      "step": 15217
    },
    {
      "epoch": 0.9342214309831487,
      "grad_norm": 1.141385316527281,
      "learning_rate": 2.2588774703689808e-07,
      "loss": 0.7681,
      "step": 15218
    },
    {
      "epoch": 0.9342828202216151,
      "grad_norm": 1.1014571280916952,
      "learning_rate": 2.2546770970244937e-07,
      "loss": 0.748,
      "step": 15219
    },
    {
      "epoch": 0.9343442094600817,
      "grad_norm": 0.9252228042929709,
      "learning_rate": 2.25048058807541e-07,
      "loss": 0.7217,
      "step": 15220
    },
    {
      "epoch": 0.9344055986985481,
      "grad_norm": 1.1411178437193428,
      "learning_rate": 2.2462879436876195e-07,
      "loss": 0.7358,
      "step": 15221
    },
    {
      "epoch": 0.9344669879370147,
      "grad_norm": 1.0156650759434402,
      "learning_rate": 2.2420991640268897e-07,
      "loss": 0.6909,
      "step": 15222
    },
    {
      "epoch": 0.9345283771754811,
      "grad_norm": 1.0017871703590753,
      "learning_rate": 2.2379142492588324e-07,
      "loss": 0.728,
      "step": 15223
    },
    {
      "epoch": 0.9345897664139476,
      "grad_norm": 1.02958106550671,
      "learning_rate": 2.2337331995488932e-07,
      "loss": 0.6966,
      "step": 15224
    },
    {
      "epoch": 0.9346511556524141,
      "grad_norm": 0.999726171834699,
      "learning_rate": 2.229556015062373e-07,
      "loss": 0.6514,
      "step": 15225
    },
    {
      "epoch": 0.9347125448908806,
      "grad_norm": 1.1528525722798066,
      "learning_rate": 2.2253826959643955e-07,
      "loss": 0.7892,
      "step": 15226
    },
    {
      "epoch": 0.9347739341293472,
      "grad_norm": 1.0766635400391613,
      "learning_rate": 2.221213242419995e-07,
      "loss": 0.7274,
      "step": 15227
    },
    {
      "epoch": 0.9348353233678136,
      "grad_norm": 1.1714661540021982,
      "learning_rate": 2.2170476545940066e-07,
      "loss": 0.7236,
      "step": 15228
    },
    {
      "epoch": 0.9348967126062802,
      "grad_norm": 1.1928988205951307,
      "learning_rate": 2.2128859326510765e-07,
      "loss": 0.6667,
      "step": 15229
    },
    {
      "epoch": 0.9349581018447466,
      "grad_norm": 1.0157061682087796,
      "learning_rate": 2.208728076755773e-07,
      "loss": 0.7277,
      "step": 15230
    },
    {
      "epoch": 0.9350194910832131,
      "grad_norm": 1.044050390216836,
      "learning_rate": 2.2045740870724863e-07,
      "loss": 0.7327,
      "step": 15231
    },
    {
      "epoch": 0.9350808803216796,
      "grad_norm": 1.0035637221415594,
      "learning_rate": 2.200423963765419e-07,
      "loss": 0.7101,
      "step": 15232
    },
    {
      "epoch": 0.9351422695601461,
      "grad_norm": 1.2086183149559664,
      "learning_rate": 2.196277706998673e-07,
      "loss": 0.7005,
      "step": 15233
    },
    {
      "epoch": 0.9352036587986126,
      "grad_norm": 0.998925628559404,
      "learning_rate": 2.1921353169361616e-07,
      "loss": 0.7549,
      "step": 15234
    },
    {
      "epoch": 0.9352650480370791,
      "grad_norm": 1.127610794220254,
      "learning_rate": 2.1879967937416423e-07,
      "loss": 0.7163,
      "step": 15235
    },
    {
      "epoch": 0.9353264372755455,
      "grad_norm": 1.0014534546547555,
      "learning_rate": 2.1838621375787406e-07,
      "loss": 0.7409,
      "step": 15236
    },
    {
      "epoch": 0.9353878265140121,
      "grad_norm": 1.1284575460883342,
      "learning_rate": 2.1797313486109361e-07,
      "loss": 0.7142,
      "step": 15237
    },
    {
      "epoch": 0.9354492157524786,
      "grad_norm": 1.1270590744612055,
      "learning_rate": 2.175604427001543e-07,
      "loss": 0.7309,
      "step": 15238
    },
    {
      "epoch": 0.9355106049909451,
      "grad_norm": 0.8952533657404576,
      "learning_rate": 2.1714813729136975e-07,
      "loss": 0.7386,
      "step": 15239
    },
    {
      "epoch": 0.9355719942294116,
      "grad_norm": 1.1225225003647423,
      "learning_rate": 2.1673621865104023e-07,
      "loss": 0.7769,
      "step": 15240
    },
    {
      "epoch": 0.935633383467878,
      "grad_norm": 1.0604314319708152,
      "learning_rate": 2.1632468679545494e-07,
      "loss": 0.6753,
      "step": 15241
    },
    {
      "epoch": 0.9356947727063446,
      "grad_norm": 1.2148398310058077,
      "learning_rate": 2.1591354174087975e-07,
      "loss": 0.7649,
      "step": 15242
    },
    {
      "epoch": 0.935756161944811,
      "grad_norm": 1.094445058683731,
      "learning_rate": 2.155027835035728e-07,
      "loss": 0.7193,
      "step": 15243
    },
    {
      "epoch": 0.9358175511832776,
      "grad_norm": 1.042744054160001,
      "learning_rate": 2.1509241209977105e-07,
      "loss": 0.7643,
      "step": 15244
    },
    {
      "epoch": 0.935878940421744,
      "grad_norm": 1.1535134411795893,
      "learning_rate": 2.1468242754569934e-07,
      "loss": 0.7599,
      "step": 15245
    },
    {
      "epoch": 0.9359403296602106,
      "grad_norm": 0.9269505360564754,
      "learning_rate": 2.1427282985756804e-07,
      "loss": 0.6968,
      "step": 15246
    },
    {
      "epoch": 0.9360017188986771,
      "grad_norm": 1.105325661518733,
      "learning_rate": 2.138636190515675e-07,
      "loss": 0.7724,
      "step": 15247
    },
    {
      "epoch": 0.9360631081371436,
      "grad_norm": 1.043113272552803,
      "learning_rate": 2.1345479514388035e-07,
      "loss": 0.7363,
      "step": 15248
    },
    {
      "epoch": 0.9361244973756101,
      "grad_norm": 1.1011758093739552,
      "learning_rate": 2.1304635815066587e-07,
      "loss": 0.7229,
      "step": 15249
    },
    {
      "epoch": 0.9361858866140765,
      "grad_norm": 1.1682260219316085,
      "learning_rate": 2.1263830808807452e-07,
      "loss": 0.6967,
      "step": 15250
    },
    {
      "epoch": 0.9362472758525431,
      "grad_norm": 1.0624567272769097,
      "learning_rate": 2.1223064497223444e-07,
      "loss": 0.7461,
      "step": 15251
    },
    {
      "epoch": 0.9363086650910095,
      "grad_norm": 1.0709210504623958,
      "learning_rate": 2.1182336881926836e-07,
      "loss": 0.7553,
      "step": 15252
    },
    {
      "epoch": 0.9363700543294761,
      "grad_norm": 0.9865168482403384,
      "learning_rate": 2.1141647964527556e-07,
      "loss": 0.7067,
      "step": 15253
    },
    {
      "epoch": 0.9364314435679425,
      "grad_norm": 1.0370629259398314,
      "learning_rate": 2.110099774663399e-07,
      "loss": 0.7099,
      "step": 15254
    },
    {
      "epoch": 0.936492832806409,
      "grad_norm": 1.082816623527986,
      "learning_rate": 2.1060386229853623e-07,
      "loss": 0.7572,
      "step": 15255
    },
    {
      "epoch": 0.9365542220448755,
      "grad_norm": 1.0700885192532477,
      "learning_rate": 2.1019813415791958e-07,
      "loss": 0.7163,
      "step": 15256
    },
    {
      "epoch": 0.936615611283342,
      "grad_norm": 1.0494952768437729,
      "learning_rate": 2.0979279306053035e-07,
      "loss": 0.7242,
      "step": 15257
    },
    {
      "epoch": 0.9366770005218086,
      "grad_norm": 1.1185348110609084,
      "learning_rate": 2.0938783902239356e-07,
      "loss": 0.746,
      "step": 15258
    },
    {
      "epoch": 0.936738389760275,
      "grad_norm": 1.026170765087999,
      "learning_rate": 2.0898327205951973e-07,
      "loss": 0.7215,
      "step": 15259
    },
    {
      "epoch": 0.9367997789987416,
      "grad_norm": 0.993130547200763,
      "learning_rate": 2.0857909218790274e-07,
      "loss": 0.6921,
      "step": 15260
    },
    {
      "epoch": 0.936861168237208,
      "grad_norm": 0.6459596304567418,
      "learning_rate": 2.081752994235209e-07,
      "loss": 0.6974,
      "step": 15261
    },
    {
      "epoch": 0.9369225574756745,
      "grad_norm": 1.132771803683124,
      "learning_rate": 2.077718937823414e-07,
      "loss": 0.8387,
      "step": 15262
    },
    {
      "epoch": 0.936983946714141,
      "grad_norm": 1.0967861043738942,
      "learning_rate": 2.073688752803127e-07,
      "loss": 0.7409,
      "step": 15263
    },
    {
      "epoch": 0.9370453359526075,
      "grad_norm": 1.163002395508877,
      "learning_rate": 2.069662439333664e-07,
      "loss": 0.7026,
      "step": 15264
    },
    {
      "epoch": 0.937106725191074,
      "grad_norm": 0.9939500660423528,
      "learning_rate": 2.0656399975741982e-07,
      "loss": 0.7583,
      "step": 15265
    },
    {
      "epoch": 0.9371681144295405,
      "grad_norm": 1.0109739370113267,
      "learning_rate": 2.0616214276837797e-07,
      "loss": 0.7426,
      "step": 15266
    },
    {
      "epoch": 0.937229503668007,
      "grad_norm": 1.1473071174899232,
      "learning_rate": 2.057606729821282e-07,
      "loss": 0.7662,
      "step": 15267
    },
    {
      "epoch": 0.9372908929064735,
      "grad_norm": 0.9223725278173969,
      "learning_rate": 2.0535959041454224e-07,
      "loss": 0.6944,
      "step": 15268
    },
    {
      "epoch": 0.93735228214494,
      "grad_norm": 1.0103723773008035,
      "learning_rate": 2.0495889508147625e-07,
      "loss": 0.7623,
      "step": 15269
    },
    {
      "epoch": 0.9374136713834065,
      "grad_norm": 1.1775551539729576,
      "learning_rate": 2.045585869987732e-07,
      "loss": 0.7337,
      "step": 15270
    },
    {
      "epoch": 0.937475060621873,
      "grad_norm": 0.9698741983060161,
      "learning_rate": 2.041586661822592e-07,
      "loss": 0.7381,
      "step": 15271
    },
    {
      "epoch": 0.9375364498603395,
      "grad_norm": 1.1017347962020585,
      "learning_rate": 2.0375913264774504e-07,
      "loss": 0.6893,
      "step": 15272
    },
    {
      "epoch": 0.937597839098806,
      "grad_norm": 1.1430117301999725,
      "learning_rate": 2.0335998641102583e-07,
      "loss": 0.722,
      "step": 15273
    },
    {
      "epoch": 0.9376592283372724,
      "grad_norm": 1.158757676489854,
      "learning_rate": 2.0296122748788337e-07,
      "loss": 0.7603,
      "step": 15274
    },
    {
      "epoch": 0.937720617575739,
      "grad_norm": 1.085535576044165,
      "learning_rate": 2.0256285589408064e-07,
      "loss": 0.7683,
      "step": 15275
    },
    {
      "epoch": 0.9377820068142054,
      "grad_norm": 1.0696110815924458,
      "learning_rate": 2.0216487164536834e-07,
      "loss": 0.7252,
      "step": 15276
    },
    {
      "epoch": 0.937843396052672,
      "grad_norm": 1.0983178037399615,
      "learning_rate": 2.0176727475748282e-07,
      "loss": 0.7339,
      "step": 15277
    },
    {
      "epoch": 0.9379047852911384,
      "grad_norm": 1.0097816828774775,
      "learning_rate": 2.0137006524614145e-07,
      "loss": 0.7214,
      "step": 15278
    },
    {
      "epoch": 0.937966174529605,
      "grad_norm": 1.1843340750663376,
      "learning_rate": 2.0097324312704614e-07,
      "loss": 0.7168,
      "step": 15279
    },
    {
      "epoch": 0.9380275637680715,
      "grad_norm": 1.0200160786208943,
      "learning_rate": 2.0057680841588878e-07,
      "loss": 0.7363,
      "step": 15280
    },
    {
      "epoch": 0.9380889530065379,
      "grad_norm": 1.036313753700982,
      "learning_rate": 2.0018076112834128e-07,
      "loss": 0.7038,
      "step": 15281
    },
    {
      "epoch": 0.9381503422450045,
      "grad_norm": 1.0733194775586772,
      "learning_rate": 1.9978510128006113e-07,
      "loss": 0.7202,
      "step": 15282
    },
    {
      "epoch": 0.9382117314834709,
      "grad_norm": 0.9900568751377218,
      "learning_rate": 1.9938982888669135e-07,
      "loss": 0.7563,
      "step": 15283
    },
    {
      "epoch": 0.9382731207219375,
      "grad_norm": 0.9959037478495446,
      "learning_rate": 1.9899494396385943e-07,
      "loss": 0.694,
      "step": 15284
    },
    {
      "epoch": 0.9383345099604039,
      "grad_norm": 1.0746978735847872,
      "learning_rate": 1.9860044652717625e-07,
      "loss": 0.7714,
      "step": 15285
    },
    {
      "epoch": 0.9383958991988705,
      "grad_norm": 1.0418897983122146,
      "learning_rate": 1.982063365922382e-07,
      "loss": 0.7084,
      "step": 15286
    },
    {
      "epoch": 0.9384572884373369,
      "grad_norm": 1.1222853452836612,
      "learning_rate": 1.978126141746295e-07,
      "loss": 0.7742,
      "step": 15287
    },
    {
      "epoch": 0.9385186776758034,
      "grad_norm": 1.048638595760647,
      "learning_rate": 1.9741927928991212e-07,
      "loss": 0.7378,
      "step": 15288
    },
    {
      "epoch": 0.93858006691427,
      "grad_norm": 0.9433161564789265,
      "learning_rate": 1.9702633195363918e-07,
      "loss": 0.7083,
      "step": 15289
    },
    {
      "epoch": 0.9386414561527364,
      "grad_norm": 0.9542743653585263,
      "learning_rate": 1.9663377218134494e-07,
      "loss": 0.6968,
      "step": 15290
    },
    {
      "epoch": 0.938702845391203,
      "grad_norm": 1.0588153016935697,
      "learning_rate": 1.962415999885492e-07,
      "loss": 0.7754,
      "step": 15291
    },
    {
      "epoch": 0.9387642346296694,
      "grad_norm": 0.9947354560022075,
      "learning_rate": 1.9584981539075953e-07,
      "loss": 0.7648,
      "step": 15292
    },
    {
      "epoch": 0.938825623868136,
      "grad_norm": 0.6033347493729073,
      "learning_rate": 1.9545841840346025e-07,
      "loss": 0.6071,
      "step": 15293
    },
    {
      "epoch": 0.9388870131066024,
      "grad_norm": 1.032439677205935,
      "learning_rate": 1.9506740904212894e-07,
      "loss": 0.7302,
      "step": 15294
    },
    {
      "epoch": 0.9389484023450689,
      "grad_norm": 0.9061881434006355,
      "learning_rate": 1.946767873222244e-07,
      "loss": 0.7078,
      "step": 15295
    },
    {
      "epoch": 0.9390097915835354,
      "grad_norm": 0.9587300051442823,
      "learning_rate": 1.9428655325918866e-07,
      "loss": 0.7125,
      "step": 15296
    },
    {
      "epoch": 0.9390711808220019,
      "grad_norm": 1.0744114139534877,
      "learning_rate": 1.938967068684494e-07,
      "loss": 0.7575,
      "step": 15297
    },
    {
      "epoch": 0.9391325700604684,
      "grad_norm": 1.0633734653730815,
      "learning_rate": 1.93507248165421e-07,
      "loss": 0.7309,
      "step": 15298
    },
    {
      "epoch": 0.9391939592989349,
      "grad_norm": 1.0628940208169448,
      "learning_rate": 1.9311817716549886e-07,
      "loss": 0.7513,
      "step": 15299
    },
    {
      "epoch": 0.9392553485374014,
      "grad_norm": 1.0396062636745504,
      "learning_rate": 1.9272949388406514e-07,
      "loss": 0.6911,
      "step": 15300
    },
    {
      "epoch": 0.9393167377758679,
      "grad_norm": 1.0621166152488595,
      "learning_rate": 1.9234119833648979e-07,
      "loss": 0.741,
      "step": 15301
    },
    {
      "epoch": 0.9393781270143344,
      "grad_norm": 0.9770908703600474,
      "learning_rate": 1.919532905381216e-07,
      "loss": 0.7166,
      "step": 15302
    },
    {
      "epoch": 0.9394395162528009,
      "grad_norm": 1.1385141619396009,
      "learning_rate": 1.9156577050429615e-07,
      "loss": 0.7655,
      "step": 15303
    },
    {
      "epoch": 0.9395009054912674,
      "grad_norm": 1.0559346822567481,
      "learning_rate": 1.9117863825033445e-07,
      "loss": 0.6965,
      "step": 15304
    },
    {
      "epoch": 0.9395622947297338,
      "grad_norm": 1.0033691244191352,
      "learning_rate": 1.9079189379154317e-07,
      "loss": 0.6673,
      "step": 15305
    },
    {
      "epoch": 0.9396236839682004,
      "grad_norm": 1.000335315819198,
      "learning_rate": 1.904055371432123e-07,
      "loss": 0.7399,
      "step": 15306
    },
    {
      "epoch": 0.9396850732066668,
      "grad_norm": 1.0710805537558816,
      "learning_rate": 1.9001956832061518e-07,
      "loss": 0.7236,
      "step": 15307
    },
    {
      "epoch": 0.9397464624451334,
      "grad_norm": 1.1305005167122764,
      "learning_rate": 1.8963398733901183e-07,
      "loss": 0.7403,
      "step": 15308
    },
    {
      "epoch": 0.9398078516835998,
      "grad_norm": 1.0820012367189509,
      "learning_rate": 1.8924879421364672e-07,
      "loss": 0.7373,
      "step": 15309
    },
    {
      "epoch": 0.9398692409220664,
      "grad_norm": 1.0936418755061486,
      "learning_rate": 1.8886398895974879e-07,
      "loss": 0.697,
      "step": 15310
    },
    {
      "epoch": 0.9399306301605329,
      "grad_norm": 1.2034928635224722,
      "learning_rate": 1.884795715925303e-07,
      "loss": 0.7125,
      "step": 15311
    },
    {
      "epoch": 0.9399920193989993,
      "grad_norm": 1.195529737460754,
      "learning_rate": 1.8809554212719129e-07,
      "loss": 0.7861,
      "step": 15312
    },
    {
      "epoch": 0.9400534086374659,
      "grad_norm": 1.0763144442831334,
      "learning_rate": 1.8771190057891186e-07,
      "loss": 0.7364,
      "step": 15313
    },
    {
      "epoch": 0.9401147978759323,
      "grad_norm": 1.1422726312688507,
      "learning_rate": 1.87328646962861e-07,
      "loss": 0.6355,
      "step": 15314
    },
    {
      "epoch": 0.9401761871143989,
      "grad_norm": 1.0486852586632398,
      "learning_rate": 1.8694578129419104e-07,
      "loss": 0.7203,
      "step": 15315
    },
    {
      "epoch": 0.9402375763528653,
      "grad_norm": 1.07910209207434,
      "learning_rate": 1.8656330358803766e-07,
      "loss": 0.758,
      "step": 15316
    },
    {
      "epoch": 0.9402989655913319,
      "grad_norm": 0.5683911627998521,
      "learning_rate": 1.8618121385952424e-07,
      "loss": 0.6214,
      "step": 15317
    },
    {
      "epoch": 0.9403603548297983,
      "grad_norm": 0.9433710295398886,
      "learning_rate": 1.8579951212375325e-07,
      "loss": 0.7163,
      "step": 15318
    },
    {
      "epoch": 0.9404217440682648,
      "grad_norm": 1.044685919377016,
      "learning_rate": 1.8541819839581921e-07,
      "loss": 0.7303,
      "step": 15319
    },
    {
      "epoch": 0.9404831333067313,
      "grad_norm": 1.0906916123462842,
      "learning_rate": 1.8503727269079563e-07,
      "loss": 0.7416,
      "step": 15320
    },
    {
      "epoch": 0.9405445225451978,
      "grad_norm": 1.1630438719443168,
      "learning_rate": 1.846567350237427e-07,
      "loss": 0.7564,
      "step": 15321
    },
    {
      "epoch": 0.9406059117836644,
      "grad_norm": 1.052075491182692,
      "learning_rate": 1.8427658540970505e-07,
      "loss": 0.7404,
      "step": 15322
    },
    {
      "epoch": 0.9406673010221308,
      "grad_norm": 1.1126372466447134,
      "learning_rate": 1.8389682386371178e-07,
      "loss": 0.7132,
      "step": 15323
    },
    {
      "epoch": 0.9407286902605974,
      "grad_norm": 0.9901186244641895,
      "learning_rate": 1.8351745040077862e-07,
      "loss": 0.7315,
      "step": 15324
    },
    {
      "epoch": 0.9407900794990638,
      "grad_norm": 1.047276501140827,
      "learning_rate": 1.8313846503590028e-07,
      "loss": 0.7025,
      "step": 15325
    },
    {
      "epoch": 0.9408514687375303,
      "grad_norm": 1.1030366438427346,
      "learning_rate": 1.8275986778406473e-07,
      "loss": 0.7169,
      "step": 15326
    },
    {
      "epoch": 0.9409128579759968,
      "grad_norm": 1.0000296598784102,
      "learning_rate": 1.8238165866023894e-07,
      "loss": 0.7765,
      "step": 15327
    },
    {
      "epoch": 0.9409742472144633,
      "grad_norm": 1.0386567292107962,
      "learning_rate": 1.8200383767937314e-07,
      "loss": 0.7439,
      "step": 15328
    },
    {
      "epoch": 0.9410356364529298,
      "grad_norm": 1.1878115036517787,
      "learning_rate": 1.8162640485640425e-07,
      "loss": 0.7358,
      "step": 15329
    },
    {
      "epoch": 0.9410970256913963,
      "grad_norm": 1.1419859517178288,
      "learning_rate": 1.8124936020625815e-07,
      "loss": 0.6939,
      "step": 15330
    },
    {
      "epoch": 0.9411584149298627,
      "grad_norm": 1.0744199146248523,
      "learning_rate": 1.8087270374383846e-07,
      "loss": 0.6874,
      "step": 15331
    },
    {
      "epoch": 0.9412198041683293,
      "grad_norm": 1.1045022826481796,
      "learning_rate": 1.804964354840377e-07,
      "loss": 0.7345,
      "step": 15332
    },
    {
      "epoch": 0.9412811934067958,
      "grad_norm": 1.0978459957903035,
      "learning_rate": 1.8012055544173068e-07,
      "loss": 0.7277,
      "step": 15333
    },
    {
      "epoch": 0.9413425826452623,
      "grad_norm": 1.0364614036990065,
      "learning_rate": 1.7974506363177878e-07,
      "loss": 0.7367,
      "step": 15334
    },
    {
      "epoch": 0.9414039718837288,
      "grad_norm": 1.1120102920382229,
      "learning_rate": 1.7936996006902684e-07,
      "loss": 0.7068,
      "step": 15335
    },
    {
      "epoch": 0.9414653611221953,
      "grad_norm": 0.9812989813135224,
      "learning_rate": 1.789952447683052e-07,
      "loss": 0.7368,
      "step": 15336
    },
    {
      "epoch": 0.9415267503606618,
      "grad_norm": 0.9739812587579989,
      "learning_rate": 1.7862091774442757e-07,
      "loss": 0.6985,
      "step": 15337
    },
    {
      "epoch": 0.9415881395991282,
      "grad_norm": 1.094330932600422,
      "learning_rate": 1.7824697901219322e-07,
      "loss": 0.7717,
      "step": 15338
    },
    {
      "epoch": 0.9416495288375948,
      "grad_norm": 0.959863392818698,
      "learning_rate": 1.7787342858638589e-07,
      "loss": 0.6935,
      "step": 15339
    },
    {
      "epoch": 0.9417109180760612,
      "grad_norm": 1.013214206724649,
      "learning_rate": 1.7750026648177488e-07,
      "loss": 0.6841,
      "step": 15340
    },
    {
      "epoch": 0.9417723073145278,
      "grad_norm": 0.9602552655665149,
      "learning_rate": 1.7712749271311392e-07,
      "loss": 0.6935,
      "step": 15341
    },
    {
      "epoch": 0.9418336965529943,
      "grad_norm": 1.128465466349811,
      "learning_rate": 1.76755107295139e-07,
      "loss": 0.7136,
      "step": 15342
    },
    {
      "epoch": 0.9418950857914608,
      "grad_norm": 0.9649621633242037,
      "learning_rate": 1.763831102425717e-07,
      "loss": 0.7107,
      "step": 15343
    },
    {
      "epoch": 0.9419564750299273,
      "grad_norm": 1.1197911727669443,
      "learning_rate": 1.7601150157012138e-07,
      "loss": 0.7507,
      "step": 15344
    },
    {
      "epoch": 0.9420178642683937,
      "grad_norm": 1.012219664337814,
      "learning_rate": 1.7564028129247846e-07,
      "loss": 0.7034,
      "step": 15345
    },
    {
      "epoch": 0.9420792535068603,
      "grad_norm": 1.075098810240466,
      "learning_rate": 1.7526944942432012e-07,
      "loss": 0.7725,
      "step": 15346
    },
    {
      "epoch": 0.9421406427453267,
      "grad_norm": 0.6022259331380215,
      "learning_rate": 1.7489900598030683e-07,
      "loss": 0.6911,
      "step": 15347
    },
    {
      "epoch": 0.9422020319837933,
      "grad_norm": 0.9453758311410789,
      "learning_rate": 1.745289509750836e-07,
      "loss": 0.7426,
      "step": 15348
    },
    {
      "epoch": 0.9422634212222597,
      "grad_norm": 0.9695911923000313,
      "learning_rate": 1.74159284423282e-07,
      "loss": 0.7501,
      "step": 15349
    },
    {
      "epoch": 0.9423248104607262,
      "grad_norm": 1.102962103430156,
      "learning_rate": 1.737900063395148e-07,
      "loss": 0.7035,
      "step": 15350
    },
    {
      "epoch": 0.9423861996991927,
      "grad_norm": 1.0492564534959103,
      "learning_rate": 1.734211167383848e-07,
      "loss": 0.7494,
      "step": 15351
    },
    {
      "epoch": 0.9424475889376592,
      "grad_norm": 1.104675029001202,
      "learning_rate": 1.7305261563447362e-07,
      "loss": 0.693,
      "step": 15352
    },
    {
      "epoch": 0.9425089781761258,
      "grad_norm": 1.023842016515357,
      "learning_rate": 1.7268450304234962e-07,
      "loss": 0.7482,
      "step": 15353
    },
    {
      "epoch": 0.9425703674145922,
      "grad_norm": 1.134067571929764,
      "learning_rate": 1.7231677897656785e-07,
      "loss": 0.7106,
      "step": 15354
    },
    {
      "epoch": 0.9426317566530588,
      "grad_norm": 1.1251614579196334,
      "learning_rate": 1.7194944345166665e-07,
      "loss": 0.7858,
      "step": 15355
    },
    {
      "epoch": 0.9426931458915252,
      "grad_norm": 1.1007945615970685,
      "learning_rate": 1.7158249648216885e-07,
      "loss": 0.7071,
      "step": 15356
    },
    {
      "epoch": 0.9427545351299917,
      "grad_norm": 1.1503913277059123,
      "learning_rate": 1.712159380825784e-07,
      "loss": 0.7207,
      "step": 15357
    },
    {
      "epoch": 0.9428159243684582,
      "grad_norm": 1.0828146484709684,
      "learning_rate": 1.7084976826739152e-07,
      "loss": 0.7293,
      "step": 15358
    },
    {
      "epoch": 0.9428773136069247,
      "grad_norm": 0.9744562537139098,
      "learning_rate": 1.7048398705108327e-07,
      "loss": 0.7416,
      "step": 15359
    },
    {
      "epoch": 0.9429387028453912,
      "grad_norm": 0.641747162208359,
      "learning_rate": 1.701185944481154e-07,
      "loss": 0.7014,
      "step": 15360
    },
    {
      "epoch": 0.9430000920838577,
      "grad_norm": 1.1001190128292246,
      "learning_rate": 1.6975359047293306e-07,
      "loss": 0.7464,
      "step": 15361
    },
    {
      "epoch": 0.9430614813223241,
      "grad_norm": 1.0588707538285784,
      "learning_rate": 1.6938897513996687e-07,
      "loss": 0.7154,
      "step": 15362
    },
    {
      "epoch": 0.9431228705607907,
      "grad_norm": 1.2639117778513231,
      "learning_rate": 1.6902474846363315e-07,
      "loss": 0.7236,
      "step": 15363
    },
    {
      "epoch": 0.9431842597992572,
      "grad_norm": 1.0859873591726037,
      "learning_rate": 1.6866091045832923e-07,
      "loss": 0.7643,
      "step": 15364
    },
    {
      "epoch": 0.9432456490377237,
      "grad_norm": 1.0805236269405898,
      "learning_rate": 1.6829746113844247e-07,
      "loss": 0.7199,
      "step": 15365
    },
    {
      "epoch": 0.9433070382761902,
      "grad_norm": 1.0368105304467146,
      "learning_rate": 1.679344005183414e-07,
      "loss": 0.7291,
      "step": 15366
    },
    {
      "epoch": 0.9433684275146567,
      "grad_norm": 1.1097063462746277,
      "learning_rate": 1.675717286123779e-07,
      "loss": 0.7204,
      "step": 15367
    },
    {
      "epoch": 0.9434298167531232,
      "grad_norm": 1.0692206204055763,
      "learning_rate": 1.6720944543489048e-07,
      "loss": 0.7852,
      "step": 15368
    },
    {
      "epoch": 0.9434912059915896,
      "grad_norm": 1.1410070893181807,
      "learning_rate": 1.6684755100020435e-07,
      "loss": 0.7501,
      "step": 15369
    },
    {
      "epoch": 0.9435525952300562,
      "grad_norm": 1.1434178517963298,
      "learning_rate": 1.664860453226258e-07,
      "loss": 0.7099,
      "step": 15370
    },
    {
      "epoch": 0.9436139844685226,
      "grad_norm": 1.0926942526822685,
      "learning_rate": 1.661249284164479e-07,
      "loss": 0.6918,
      "step": 15371
    },
    {
      "epoch": 0.9436753737069892,
      "grad_norm": 1.118267825751814,
      "learning_rate": 1.6576420029594586e-07,
      "loss": 0.7507,
      "step": 15372
    },
    {
      "epoch": 0.9437367629454556,
      "grad_norm": 1.0221528037249177,
      "learning_rate": 1.6540386097538275e-07,
      "loss": 0.7384,
      "step": 15373
    },
    {
      "epoch": 0.9437981521839222,
      "grad_norm": 1.0798745296687944,
      "learning_rate": 1.650439104690038e-07,
      "loss": 0.7915,
      "step": 15374
    },
    {
      "epoch": 0.9438595414223887,
      "grad_norm": 1.0480749285778375,
      "learning_rate": 1.646843487910399e-07,
      "loss": 0.7258,
      "step": 15375
    },
    {
      "epoch": 0.9439209306608551,
      "grad_norm": 1.0433743841928536,
      "learning_rate": 1.6432517595570742e-07,
      "loss": 0.7085,
      "step": 15376
    },
    {
      "epoch": 0.9439823198993217,
      "grad_norm": 1.1244446659641374,
      "learning_rate": 1.639663919772061e-07,
      "loss": 0.7598,
      "step": 15377
    },
    {
      "epoch": 0.9440437091377881,
      "grad_norm": 1.2255106125054482,
      "learning_rate": 1.6360799686971795e-07,
      "loss": 0.7162,
      "step": 15378
    },
    {
      "epoch": 0.9441050983762547,
      "grad_norm": 1.1616559188894282,
      "learning_rate": 1.6324999064741608e-07,
      "loss": 0.7619,
      "step": 15379
    },
    {
      "epoch": 0.9441664876147211,
      "grad_norm": 1.0521965185098434,
      "learning_rate": 1.628923733244525e-07,
      "loss": 0.7442,
      "step": 15380
    },
    {
      "epoch": 0.9442278768531877,
      "grad_norm": 1.0468992878577976,
      "learning_rate": 1.625351449149659e-07,
      "loss": 0.6861,
      "step": 15381
    },
    {
      "epoch": 0.9442892660916541,
      "grad_norm": 1.0439011502902522,
      "learning_rate": 1.6217830543307943e-07,
      "loss": 0.7536,
      "step": 15382
    },
    {
      "epoch": 0.9443506553301206,
      "grad_norm": 1.0372541085276563,
      "learning_rate": 1.6182185489290069e-07,
      "loss": 0.722,
      "step": 15383
    },
    {
      "epoch": 0.9444120445685871,
      "grad_norm": 1.1106013227757174,
      "learning_rate": 1.6146579330852173e-07,
      "loss": 0.7044,
      "step": 15384
    },
    {
      "epoch": 0.9444734338070536,
      "grad_norm": 1.068023412663459,
      "learning_rate": 1.6111012069402132e-07,
      "loss": 0.6845,
      "step": 15385
    },
    {
      "epoch": 0.9445348230455202,
      "grad_norm": 0.9638731771140865,
      "learning_rate": 1.607548370634593e-07,
      "loss": 0.7409,
      "step": 15386
    },
    {
      "epoch": 0.9445962122839866,
      "grad_norm": 0.9582286963884276,
      "learning_rate": 1.603999424308833e-07,
      "loss": 0.7436,
      "step": 15387
    },
    {
      "epoch": 0.9446576015224531,
      "grad_norm": 1.037485590945332,
      "learning_rate": 1.6004543681032214e-07,
      "loss": 0.7342,
      "step": 15388
    },
    {
      "epoch": 0.9447189907609196,
      "grad_norm": 1.0748983535189083,
      "learning_rate": 1.5969132021579347e-07,
      "loss": 0.7582,
      "step": 15389
    },
    {
      "epoch": 0.9447803799993861,
      "grad_norm": 1.1367918969597963,
      "learning_rate": 1.5933759266129611e-07,
      "loss": 0.6261,
      "step": 15390
    },
    {
      "epoch": 0.9448417692378526,
      "grad_norm": 0.9670291174527262,
      "learning_rate": 1.5898425416081665e-07,
      "loss": 0.6908,
      "step": 15391
    },
    {
      "epoch": 0.9449031584763191,
      "grad_norm": 0.9576422434647968,
      "learning_rate": 1.5863130472832165e-07,
      "loss": 0.7697,
      "step": 15392
    },
    {
      "epoch": 0.9449645477147856,
      "grad_norm": 1.1030782154194025,
      "learning_rate": 1.582787443777667e-07,
      "loss": 0.7101,
      "step": 15393
    },
    {
      "epoch": 0.9450259369532521,
      "grad_norm": 1.0467741944031226,
      "learning_rate": 1.5792657312309056e-07,
      "loss": 0.7343,
      "step": 15394
    },
    {
      "epoch": 0.9450873261917186,
      "grad_norm": 0.9458599057462933,
      "learning_rate": 1.575747909782155e-07,
      "loss": 0.7308,
      "step": 15395
    },
    {
      "epoch": 0.9451487154301851,
      "grad_norm": 1.0298069642359602,
      "learning_rate": 1.5722339795705142e-07,
      "loss": 0.7241,
      "step": 15396
    },
    {
      "epoch": 0.9452101046686516,
      "grad_norm": 1.1433629547455744,
      "learning_rate": 1.568723940734873e-07,
      "loss": 0.7494,
      "step": 15397
    },
    {
      "epoch": 0.9452714939071181,
      "grad_norm": 1.080851524565502,
      "learning_rate": 1.5652177934140422e-07,
      "loss": 0.7149,
      "step": 15398
    },
    {
      "epoch": 0.9453328831455846,
      "grad_norm": 1.0817460175804712,
      "learning_rate": 1.5617155377466e-07,
      "loss": 0.7315,
      "step": 15399
    },
    {
      "epoch": 0.945394272384051,
      "grad_norm": 1.0243448597382343,
      "learning_rate": 1.558217173871035e-07,
      "loss": 0.6974,
      "step": 15400
    },
    {
      "epoch": 0.9454556616225176,
      "grad_norm": 1.0882881873116323,
      "learning_rate": 1.5547227019256596e-07,
      "loss": 0.7385,
      "step": 15401
    },
    {
      "epoch": 0.945517050860984,
      "grad_norm": 1.0053787819056628,
      "learning_rate": 1.551232122048607e-07,
      "loss": 0.7535,
      "step": 15402
    },
    {
      "epoch": 0.9455784400994506,
      "grad_norm": 1.012563188389572,
      "learning_rate": 1.5477454343778786e-07,
      "loss": 0.6794,
      "step": 15403
    },
    {
      "epoch": 0.945639829337917,
      "grad_norm": 1.1459266650136757,
      "learning_rate": 1.5442626390513415e-07,
      "loss": 0.7436,
      "step": 15404
    },
    {
      "epoch": 0.9457012185763836,
      "grad_norm": 1.0583754162560155,
      "learning_rate": 1.5407837362066968e-07,
      "loss": 0.7033,
      "step": 15405
    },
    {
      "epoch": 0.9457626078148501,
      "grad_norm": 1.0869926249649653,
      "learning_rate": 1.5373087259814568e-07,
      "loss": 0.7225,
      "step": 15406
    },
    {
      "epoch": 0.9458239970533165,
      "grad_norm": 1.0689966096277324,
      "learning_rate": 1.5338376085130114e-07,
      "loss": 0.7388,
      "step": 15407
    },
    {
      "epoch": 0.9458853862917831,
      "grad_norm": 1.0609252710263366,
      "learning_rate": 1.5303703839385952e-07,
      "loss": 0.7052,
      "step": 15408
    },
    {
      "epoch": 0.9459467755302495,
      "grad_norm": 0.9114103448870254,
      "learning_rate": 1.52690705239531e-07,
      "loss": 0.7405,
      "step": 15409
    },
    {
      "epoch": 0.9460081647687161,
      "grad_norm": 1.0990454318913436,
      "learning_rate": 1.523447614020046e-07,
      "loss": 0.7594,
      "step": 15410
    },
    {
      "epoch": 0.9460695540071825,
      "grad_norm": 1.1906437361185647,
      "learning_rate": 1.5199920689495938e-07,
      "loss": 0.7573,
      "step": 15411
    },
    {
      "epoch": 0.9461309432456491,
      "grad_norm": 1.0706639742869355,
      "learning_rate": 1.5165404173205556e-07,
      "loss": 0.6869,
      "step": 15412
    },
    {
      "epoch": 0.9461923324841155,
      "grad_norm": 0.9362466261557659,
      "learning_rate": 1.5130926592694106e-07,
      "loss": 0.7563,
      "step": 15413
    },
    {
      "epoch": 0.946253721722582,
      "grad_norm": 1.1348332967475603,
      "learning_rate": 1.50964879493245e-07,
      "loss": 0.7496,
      "step": 15414
    },
    {
      "epoch": 0.9463151109610485,
      "grad_norm": 1.0372917164416484,
      "learning_rate": 1.5062088244458428e-07,
      "loss": 0.7185,
      "step": 15415
    },
    {
      "epoch": 0.946376500199515,
      "grad_norm": 1.0000905032946334,
      "learning_rate": 1.5027727479455802e-07,
      "loss": 0.7611,
      "step": 15416
    },
    {
      "epoch": 0.9464378894379816,
      "grad_norm": 1.1359807768216823,
      "learning_rate": 1.4993405655674974e-07,
      "loss": 0.729,
      "step": 15417
    },
    {
      "epoch": 0.946499278676448,
      "grad_norm": 1.132620800953218,
      "learning_rate": 1.49591227744732e-07,
      "loss": 0.7149,
      "step": 15418
    },
    {
      "epoch": 0.9465606679149146,
      "grad_norm": 1.2496375838236404,
      "learning_rate": 1.4924878837205614e-07,
      "loss": 0.7415,
      "step": 15419
    },
    {
      "epoch": 0.946622057153381,
      "grad_norm": 1.0559118988796772,
      "learning_rate": 1.4890673845226133e-07,
      "loss": 0.714,
      "step": 15420
    },
    {
      "epoch": 0.9466834463918475,
      "grad_norm": 1.0234577453577531,
      "learning_rate": 1.485650779988701e-07,
      "loss": 0.7278,
      "step": 15421
    },
    {
      "epoch": 0.946744835630314,
      "grad_norm": 1.0835617344406878,
      "learning_rate": 1.4822380702539053e-07,
      "loss": 0.7392,
      "step": 15422
    },
    {
      "epoch": 0.9468062248687805,
      "grad_norm": 0.9890275906066927,
      "learning_rate": 1.4788292554531515e-07,
      "loss": 0.7296,
      "step": 15423
    },
    {
      "epoch": 0.946867614107247,
      "grad_norm": 1.0785713385573528,
      "learning_rate": 1.4754243357211985e-07,
      "loss": 0.7364,
      "step": 15424
    },
    {
      "epoch": 0.9469290033457135,
      "grad_norm": 1.0981207710414271,
      "learning_rate": 1.4720233111926828e-07,
      "loss": 0.7356,
      "step": 15425
    },
    {
      "epoch": 0.9469903925841799,
      "grad_norm": 1.0441637679328892,
      "learning_rate": 1.468626182002042e-07,
      "loss": 0.7153,
      "step": 15426
    },
    {
      "epoch": 0.9470517818226465,
      "grad_norm": 1.0774916633757539,
      "learning_rate": 1.4652329482835902e-07,
      "loss": 0.6952,
      "step": 15427
    },
    {
      "epoch": 0.947113171061113,
      "grad_norm": 1.012555481272181,
      "learning_rate": 1.461843610171465e-07,
      "loss": 0.7025,
      "step": 15428
    },
    {
      "epoch": 0.9471745602995795,
      "grad_norm": 1.0410685776984718,
      "learning_rate": 1.4584581677997035e-07,
      "loss": 0.7568,
      "step": 15429
    },
    {
      "epoch": 0.947235949538046,
      "grad_norm": 1.0292529168266236,
      "learning_rate": 1.4550766213021316e-07,
      "loss": 0.7249,
      "step": 15430
    },
    {
      "epoch": 0.9472973387765125,
      "grad_norm": 1.0224866623363686,
      "learning_rate": 1.4516989708124207e-07,
      "loss": 0.718,
      "step": 15431
    },
    {
      "epoch": 0.947358728014979,
      "grad_norm": 1.2122345821776523,
      "learning_rate": 1.4483252164641192e-07,
      "loss": 0.7509,
      "step": 15432
    },
    {
      "epoch": 0.9474201172534454,
      "grad_norm": 1.2609103862863178,
      "learning_rate": 1.4449553583906317e-07,
      "loss": 0.7597,
      "step": 15433
    },
    {
      "epoch": 0.947481506491912,
      "grad_norm": 1.1160357459383154,
      "learning_rate": 1.4415893967251515e-07,
      "loss": 0.7753,
      "step": 15434
    },
    {
      "epoch": 0.9475428957303784,
      "grad_norm": 1.0694759653012562,
      "learning_rate": 1.4382273316007834e-07,
      "loss": 0.6862,
      "step": 15435
    },
    {
      "epoch": 0.947604284968845,
      "grad_norm": 1.038123467933756,
      "learning_rate": 1.4348691631504208e-07,
      "loss": 0.7132,
      "step": 15436
    },
    {
      "epoch": 0.9476656742073114,
      "grad_norm": 1.096712469132552,
      "learning_rate": 1.4315148915068577e-07,
      "loss": 0.7404,
      "step": 15437
    },
    {
      "epoch": 0.947727063445778,
      "grad_norm": 1.1047413817947997,
      "learning_rate": 1.428164516802688e-07,
      "loss": 0.7839,
      "step": 15438
    },
    {
      "epoch": 0.9477884526842445,
      "grad_norm": 1.0410821436505922,
      "learning_rate": 1.4248180391703614e-07,
      "loss": 0.7589,
      "step": 15439
    },
    {
      "epoch": 0.9478498419227109,
      "grad_norm": 1.1725882002856227,
      "learning_rate": 1.4214754587422165e-07,
      "loss": 0.7132,
      "step": 15440
    },
    {
      "epoch": 0.9479112311611775,
      "grad_norm": 0.9026558970324986,
      "learning_rate": 1.4181367756503693e-07,
      "loss": 0.7117,
      "step": 15441
    },
    {
      "epoch": 0.9479726203996439,
      "grad_norm": 1.0550555653450904,
      "learning_rate": 1.414801990026815e-07,
      "loss": 0.7841,
      "step": 15442
    },
    {
      "epoch": 0.9480340096381105,
      "grad_norm": 0.9980737617179175,
      "learning_rate": 1.4114711020034255e-07,
      "loss": 0.717,
      "step": 15443
    },
    {
      "epoch": 0.9480953988765769,
      "grad_norm": 0.9543607773929987,
      "learning_rate": 1.4081441117118733e-07,
      "loss": 0.6761,
      "step": 15444
    },
    {
      "epoch": 0.9481567881150434,
      "grad_norm": 1.0984476357998225,
      "learning_rate": 1.4048210192836865e-07,
      "loss": 0.6788,
      "step": 15445
    },
    {
      "epoch": 0.9482181773535099,
      "grad_norm": 0.9146149040001819,
      "learning_rate": 1.4015018248502488e-07,
      "loss": 0.7138,
      "step": 15446
    },
    {
      "epoch": 0.9482795665919764,
      "grad_norm": 1.0830074516880543,
      "learning_rate": 1.3981865285427886e-07,
      "loss": 0.7498,
      "step": 15447
    },
    {
      "epoch": 0.948340955830443,
      "grad_norm": 1.0008541123902228,
      "learning_rate": 1.394875130492368e-07,
      "loss": 0.7429,
      "step": 15448
    },
    {
      "epoch": 0.9484023450689094,
      "grad_norm": 0.570645357100726,
      "learning_rate": 1.3915676308299154e-07,
      "loss": 0.6408,
      "step": 15449
    },
    {
      "epoch": 0.948463734307376,
      "grad_norm": 1.1333498097344268,
      "learning_rate": 1.3882640296861926e-07,
      "loss": 0.7254,
      "step": 15450
    },
    {
      "epoch": 0.9485251235458424,
      "grad_norm": 1.0356561113037743,
      "learning_rate": 1.3849643271917957e-07,
      "loss": 0.682,
      "step": 15451
    },
    {
      "epoch": 0.9485865127843089,
      "grad_norm": 0.9848805983709574,
      "learning_rate": 1.3816685234771977e-07,
      "loss": 0.6989,
      "step": 15452
    },
    {
      "epoch": 0.9486479020227754,
      "grad_norm": 0.9936795728072223,
      "learning_rate": 1.3783766186726833e-07,
      "loss": 0.7102,
      "step": 15453
    },
    {
      "epoch": 0.9487092912612419,
      "grad_norm": 0.6081017000185638,
      "learning_rate": 1.375088612908404e-07,
      "loss": 0.664,
      "step": 15454
    },
    {
      "epoch": 0.9487706804997084,
      "grad_norm": 1.042741839836383,
      "learning_rate": 1.3718045063143782e-07,
      "loss": 0.7092,
      "step": 15455
    },
    {
      "epoch": 0.9488320697381749,
      "grad_norm": 0.9576655163659534,
      "learning_rate": 1.3685242990203906e-07,
      "loss": 0.727,
      "step": 15456
    },
    {
      "epoch": 0.9488934589766413,
      "grad_norm": 1.0849481043934743,
      "learning_rate": 1.365247991156171e-07,
      "loss": 0.7278,
      "step": 15457
    },
    {
      "epoch": 0.9489548482151079,
      "grad_norm": 1.285966132711669,
      "learning_rate": 1.361975582851238e-07,
      "loss": 0.7219,
      "step": 15458
    },
    {
      "epoch": 0.9490162374535744,
      "grad_norm": 1.036129841895939,
      "learning_rate": 1.3587070742349552e-07,
      "loss": 0.7406,
      "step": 15459
    },
    {
      "epoch": 0.9490776266920409,
      "grad_norm": 1.0271554364698414,
      "learning_rate": 1.3554424654365627e-07,
      "loss": 0.7363,
      "step": 15460
    },
    {
      "epoch": 0.9491390159305074,
      "grad_norm": 1.072366791243573,
      "learning_rate": 1.3521817565851027e-07,
      "loss": 0.7297,
      "step": 15461
    },
    {
      "epoch": 0.9492004051689739,
      "grad_norm": 1.0111591902233834,
      "learning_rate": 1.3489249478095157e-07,
      "loss": 0.7553,
      "step": 15462
    },
    {
      "epoch": 0.9492617944074404,
      "grad_norm": 0.5789612246525381,
      "learning_rate": 1.3456720392385437e-07,
      "loss": 0.6128,
      "step": 15463
    },
    {
      "epoch": 0.9493231836459068,
      "grad_norm": 0.8922859095812588,
      "learning_rate": 1.3424230310007946e-07,
      "loss": 0.6864,
      "step": 15464
    },
    {
      "epoch": 0.9493845728843734,
      "grad_norm": 0.9167557239745256,
      "learning_rate": 1.3391779232247326e-07,
      "loss": 0.7021,
      "step": 15465
    },
    {
      "epoch": 0.9494459621228398,
      "grad_norm": 0.9891951358901918,
      "learning_rate": 1.3359367160386328e-07,
      "loss": 0.741,
      "step": 15466
    },
    {
      "epoch": 0.9495073513613064,
      "grad_norm": 0.988980232081188,
      "learning_rate": 1.332699409570637e-07,
      "loss": 0.7628,
      "step": 15467
    },
    {
      "epoch": 0.9495687405997728,
      "grad_norm": 1.0986894143921717,
      "learning_rate": 1.329466003948754e-07,
      "loss": 0.6969,
      "step": 15468
    },
    {
      "epoch": 0.9496301298382394,
      "grad_norm": 1.059992339198879,
      "learning_rate": 1.3262364993008146e-07,
      "loss": 0.7148,
      "step": 15469
    },
    {
      "epoch": 0.9496915190767059,
      "grad_norm": 1.1742174468696858,
      "learning_rate": 1.323010895754484e-07,
      "loss": 0.7519,
      "step": 15470
    },
    {
      "epoch": 0.9497529083151723,
      "grad_norm": 0.9834583082236658,
      "learning_rate": 1.319789193437293e-07,
      "loss": 0.708,
      "step": 15471
    },
    {
      "epoch": 0.9498142975536389,
      "grad_norm": 1.0432676126622,
      "learning_rate": 1.3165713924766065e-07,
      "loss": 0.7467,
      "step": 15472
    },
    {
      "epoch": 0.9498756867921053,
      "grad_norm": 0.5894478289836038,
      "learning_rate": 1.3133574929996673e-07,
      "loss": 0.6335,
      "step": 15473
    },
    {
      "epoch": 0.9499370760305719,
      "grad_norm": 0.9964875245047803,
      "learning_rate": 1.310147495133507e-07,
      "loss": 0.74,
      "step": 15474
    },
    {
      "epoch": 0.9499984652690383,
      "grad_norm": 1.0235826388443943,
      "learning_rate": 1.3069413990050462e-07,
      "loss": 0.7083,
      "step": 15475
    },
    {
      "epoch": 0.9500598545075049,
      "grad_norm": 0.9809270652694325,
      "learning_rate": 1.303739204741039e-07,
      "loss": 0.7572,
      "step": 15476
    },
    {
      "epoch": 0.9501212437459713,
      "grad_norm": 1.0981123367086516,
      "learning_rate": 1.3005409124680957e-07,
      "loss": 0.7393,
      "step": 15477
    },
    {
      "epoch": 0.9501826329844378,
      "grad_norm": 1.1352089227661741,
      "learning_rate": 1.2973465223126368e-07,
      "loss": 0.7421,
      "step": 15478
    },
    {
      "epoch": 0.9502440222229043,
      "grad_norm": 1.051206794522219,
      "learning_rate": 1.294156034400984e-07,
      "loss": 0.689,
      "step": 15479
    },
    {
      "epoch": 0.9503054114613708,
      "grad_norm": 1.0714051330257233,
      "learning_rate": 1.2909694488592583e-07,
      "loss": 0.7372,
      "step": 15480
    },
    {
      "epoch": 0.9503668006998374,
      "grad_norm": 1.0306401675747474,
      "learning_rate": 1.2877867658134257e-07,
      "loss": 0.7032,
      "step": 15481
    },
    {
      "epoch": 0.9504281899383038,
      "grad_norm": 1.0931922590498186,
      "learning_rate": 1.2846079853893412e-07,
      "loss": 0.7123,
      "step": 15482
    },
    {
      "epoch": 0.9504895791767703,
      "grad_norm": 1.0122142623133843,
      "learning_rate": 1.2814331077126818e-07,
      "loss": 0.7374,
      "step": 15483
    },
    {
      "epoch": 0.9505509684152368,
      "grad_norm": 1.1499890285457912,
      "learning_rate": 1.2782621329089473e-07,
      "loss": 0.7597,
      "step": 15484
    },
    {
      "epoch": 0.9506123576537033,
      "grad_norm": 0.9754921241756629,
      "learning_rate": 1.275095061103504e-07,
      "loss": 0.7198,
      "step": 15485
    },
    {
      "epoch": 0.9506737468921698,
      "grad_norm": 1.151919510368032,
      "learning_rate": 1.271931892421585e-07,
      "loss": 0.734,
      "step": 15486
    },
    {
      "epoch": 0.9507351361306363,
      "grad_norm": 1.046872697802079,
      "learning_rate": 1.2687726269882238e-07,
      "loss": 0.6811,
      "step": 15487
    },
    {
      "epoch": 0.9507965253691028,
      "grad_norm": 1.0768122290488968,
      "learning_rate": 1.2656172649283315e-07,
      "loss": 0.7415,
      "step": 15488
    },
    {
      "epoch": 0.9508579146075693,
      "grad_norm": 1.1364290156701227,
      "learning_rate": 1.262465806366664e-07,
      "loss": 0.6912,
      "step": 15489
    },
    {
      "epoch": 0.9509193038460357,
      "grad_norm": 1.0206546340848013,
      "learning_rate": 1.2593182514277992e-07,
      "loss": 0.6908,
      "step": 15490
    },
    {
      "epoch": 0.9509806930845023,
      "grad_norm": 1.0695252917152254,
      "learning_rate": 1.256174600236193e-07,
      "loss": 0.6788,
      "step": 15491
    },
    {
      "epoch": 0.9510420823229688,
      "grad_norm": 0.9483879163461775,
      "learning_rate": 1.253034852916124e-07,
      "loss": 0.692,
      "step": 15492
    },
    {
      "epoch": 0.9511034715614353,
      "grad_norm": 1.0980715812523214,
      "learning_rate": 1.2498990095917152e-07,
      "loss": 0.6978,
      "step": 15493
    },
    {
      "epoch": 0.9511648607999018,
      "grad_norm": 0.9577533519713787,
      "learning_rate": 1.2467670703869672e-07,
      "loss": 0.7333,
      "step": 15494
    },
    {
      "epoch": 0.9512262500383682,
      "grad_norm": 1.0086469983449902,
      "learning_rate": 1.24363903542567e-07,
      "loss": 0.6992,
      "step": 15495
    },
    {
      "epoch": 0.9512876392768348,
      "grad_norm": 0.9343213702464626,
      "learning_rate": 1.2405149048315136e-07,
      "loss": 0.6902,
      "step": 15496
    },
    {
      "epoch": 0.9513490285153012,
      "grad_norm": 1.023092750004902,
      "learning_rate": 1.23739467872801e-07,
      "loss": 0.7386,
      "step": 15497
    },
    {
      "epoch": 0.9514104177537678,
      "grad_norm": 1.095561529912954,
      "learning_rate": 1.2342783572385164e-07,
      "loss": 0.7064,
      "step": 15498
    },
    {
      "epoch": 0.9514718069922342,
      "grad_norm": 0.9550060340192874,
      "learning_rate": 1.231165940486234e-07,
      "loss": 0.7041,
      "step": 15499
    },
    {
      "epoch": 0.9515331962307008,
      "grad_norm": 1.023673538782785,
      "learning_rate": 1.2280574285942092e-07,
      "loss": 0.7537,
      "step": 15500
    },
    {
      "epoch": 0.9515945854691673,
      "grad_norm": 1.0715348974723629,
      "learning_rate": 1.2249528216853433e-07,
      "loss": 0.7136,
      "step": 15501
    },
    {
      "epoch": 0.9516559747076337,
      "grad_norm": 0.9566011165470912,
      "learning_rate": 1.221852119882383e-07,
      "loss": 0.7421,
      "step": 15502
    },
    {
      "epoch": 0.9517173639461003,
      "grad_norm": 0.8667089541841457,
      "learning_rate": 1.2187553233079074e-07,
      "loss": 0.668,
      "step": 15503
    },
    {
      "epoch": 0.9517787531845667,
      "grad_norm": 1.0598545879782377,
      "learning_rate": 1.2156624320843636e-07,
      "loss": 0.7397,
      "step": 15504
    },
    {
      "epoch": 0.9518401424230333,
      "grad_norm": 1.1378053802153332,
      "learning_rate": 1.2125734463340088e-07,
      "loss": 0.7046,
      "step": 15505
    },
    {
      "epoch": 0.9519015316614997,
      "grad_norm": 1.0060356834615929,
      "learning_rate": 1.209488366178968e-07,
      "loss": 0.7455,
      "step": 15506
    },
    {
      "epoch": 0.9519629208999663,
      "grad_norm": 1.0188650749944332,
      "learning_rate": 1.2064071917412323e-07,
      "loss": 0.732,
      "step": 15507
    },
    {
      "epoch": 0.9520243101384327,
      "grad_norm": 1.1326662966394745,
      "learning_rate": 1.2033299231426155e-07,
      "loss": 0.7464,
      "step": 15508
    },
    {
      "epoch": 0.9520856993768992,
      "grad_norm": 1.076846785084191,
      "learning_rate": 1.2002565605047646e-07,
      "loss": 0.7775,
      "step": 15509
    },
    {
      "epoch": 0.9521470886153657,
      "grad_norm": 1.1532548501616018,
      "learning_rate": 1.1971871039491823e-07,
      "loss": 0.7219,
      "step": 15510
    },
    {
      "epoch": 0.9522084778538322,
      "grad_norm": 0.9331341129333315,
      "learning_rate": 1.1941215535972273e-07,
      "loss": 0.7281,
      "step": 15511
    },
    {
      "epoch": 0.9522698670922988,
      "grad_norm": 1.0135383762784902,
      "learning_rate": 1.1910599095701025e-07,
      "loss": 0.737,
      "step": 15512
    },
    {
      "epoch": 0.9523312563307652,
      "grad_norm": 0.9389710168493496,
      "learning_rate": 1.1880021719888446e-07,
      "loss": 0.6948,
      "step": 15513
    },
    {
      "epoch": 0.9523926455692318,
      "grad_norm": 1.0326696827962643,
      "learning_rate": 1.1849483409743457e-07,
      "loss": 0.7699,
      "step": 15514
    },
    {
      "epoch": 0.9524540348076982,
      "grad_norm": 1.1176792056539466,
      "learning_rate": 1.1818984166473425e-07,
      "loss": 0.7807,
      "step": 15515
    },
    {
      "epoch": 0.9525154240461647,
      "grad_norm": 0.9866128454572709,
      "learning_rate": 1.178852399128405e-07,
      "loss": 0.7082,
      "step": 15516
    },
    {
      "epoch": 0.9525768132846312,
      "grad_norm": 0.9680901614602517,
      "learning_rate": 1.1758102885379597e-07,
      "loss": 0.7541,
      "step": 15517
    },
    {
      "epoch": 0.9526382025230977,
      "grad_norm": 1.0543159466364245,
      "learning_rate": 1.1727720849962987e-07,
      "loss": 0.7285,
      "step": 15518
    },
    {
      "epoch": 0.9526995917615642,
      "grad_norm": 0.9710016835180738,
      "learning_rate": 1.169737788623515e-07,
      "loss": 0.7154,
      "step": 15519
    },
    {
      "epoch": 0.9527609810000307,
      "grad_norm": 1.0318204178952417,
      "learning_rate": 1.1667073995395795e-07,
      "loss": 0.7431,
      "step": 15520
    },
    {
      "epoch": 0.9528223702384971,
      "grad_norm": 1.0903444172725243,
      "learning_rate": 1.163680917864296e-07,
      "loss": 0.7333,
      "step": 15521
    },
    {
      "epoch": 0.9528837594769637,
      "grad_norm": 1.0643332730393555,
      "learning_rate": 1.1606583437173136e-07,
      "loss": 0.7015,
      "step": 15522
    },
    {
      "epoch": 0.9529451487154302,
      "grad_norm": 1.156470821463812,
      "learning_rate": 1.1576396772181475e-07,
      "loss": 0.6725,
      "step": 15523
    },
    {
      "epoch": 0.9530065379538967,
      "grad_norm": 1.004727472736763,
      "learning_rate": 1.1546249184861246e-07,
      "loss": 0.7413,
      "step": 15524
    },
    {
      "epoch": 0.9530679271923632,
      "grad_norm": 0.9873182389509415,
      "learning_rate": 1.1516140676404497e-07,
      "loss": 0.7018,
      "step": 15525
    },
    {
      "epoch": 0.9531293164308297,
      "grad_norm": 1.015629778204346,
      "learning_rate": 1.1486071248001385e-07,
      "loss": 0.6948,
      "step": 15526
    },
    {
      "epoch": 0.9531907056692962,
      "grad_norm": 1.11696202428528,
      "learning_rate": 1.1456040900840849e-07,
      "loss": 0.7672,
      "step": 15527
    },
    {
      "epoch": 0.9532520949077626,
      "grad_norm": 1.1199016073258001,
      "learning_rate": 1.1426049636110049e-07,
      "loss": 0.7227,
      "step": 15528
    },
    {
      "epoch": 0.9533134841462292,
      "grad_norm": 1.053767597450975,
      "learning_rate": 1.1396097454994925e-07,
      "loss": 0.7317,
      "step": 15529
    },
    {
      "epoch": 0.9533748733846956,
      "grad_norm": 1.2266356916800591,
      "learning_rate": 1.1366184358679421e-07,
      "loss": 0.6842,
      "step": 15530
    },
    {
      "epoch": 0.9534362626231622,
      "grad_norm": 1.1401931282128472,
      "learning_rate": 1.1336310348346258e-07,
      "loss": 0.7145,
      "step": 15531
    },
    {
      "epoch": 0.9534976518616286,
      "grad_norm": 0.6612516905412738,
      "learning_rate": 1.1306475425176377e-07,
      "loss": 0.6985,
      "step": 15532
    },
    {
      "epoch": 0.9535590411000952,
      "grad_norm": 0.995676610215867,
      "learning_rate": 1.1276679590349615e-07,
      "loss": 0.7178,
      "step": 15533
    },
    {
      "epoch": 0.9536204303385617,
      "grad_norm": 1.1126921511287051,
      "learning_rate": 1.1246922845043584e-07,
      "loss": 0.7442,
      "step": 15534
    },
    {
      "epoch": 0.9536818195770281,
      "grad_norm": 1.1684700064712923,
      "learning_rate": 1.121720519043501e-07,
      "loss": 0.7481,
      "step": 15535
    },
    {
      "epoch": 0.9537432088154947,
      "grad_norm": 1.1906718468881954,
      "learning_rate": 1.118752662769873e-07,
      "loss": 0.7008,
      "step": 15536
    },
    {
      "epoch": 0.9538045980539611,
      "grad_norm": 1.1658261566141292,
      "learning_rate": 1.115788715800803e-07,
      "loss": 0.73,
      "step": 15537
    },
    {
      "epoch": 0.9538659872924277,
      "grad_norm": 1.2440394832675359,
      "learning_rate": 1.1128286782534747e-07,
      "loss": 0.7315,
      "step": 15538
    },
    {
      "epoch": 0.9539273765308941,
      "grad_norm": 1.0624516692234174,
      "learning_rate": 1.109872550244917e-07,
      "loss": 0.7242,
      "step": 15539
    },
    {
      "epoch": 0.9539887657693606,
      "grad_norm": 1.1423577183847595,
      "learning_rate": 1.106920331892003e-07,
      "loss": 0.7364,
      "step": 15540
    },
    {
      "epoch": 0.9540501550078271,
      "grad_norm": 1.0220771916120872,
      "learning_rate": 1.1039720233114393e-07,
      "loss": 0.661,
      "step": 15541
    },
    {
      "epoch": 0.9541115442462936,
      "grad_norm": 1.0872866087945625,
      "learning_rate": 1.1010276246197882e-07,
      "loss": 0.7512,
      "step": 15542
    },
    {
      "epoch": 0.9541729334847601,
      "grad_norm": 1.0476906550186906,
      "learning_rate": 1.0980871359334788e-07,
      "loss": 0.7717,
      "step": 15543
    },
    {
      "epoch": 0.9542343227232266,
      "grad_norm": 0.9481931018324591,
      "learning_rate": 1.0951505573687405e-07,
      "loss": 0.6643,
      "step": 15544
    },
    {
      "epoch": 0.9542957119616932,
      "grad_norm": 1.050015322890819,
      "learning_rate": 1.092217889041669e-07,
      "loss": 0.7273,
      "step": 15545
    },
    {
      "epoch": 0.9543571012001596,
      "grad_norm": 1.1333293992280664,
      "learning_rate": 1.0892891310682385e-07,
      "loss": 0.7449,
      "step": 15546
    },
    {
      "epoch": 0.9544184904386261,
      "grad_norm": 1.0019888308560283,
      "learning_rate": 1.0863642835642119e-07,
      "loss": 0.6989,
      "step": 15547
    },
    {
      "epoch": 0.9544798796770926,
      "grad_norm": 1.0945358979267015,
      "learning_rate": 1.083443346645241e-07,
      "loss": 0.7166,
      "step": 15548
    },
    {
      "epoch": 0.9545412689155591,
      "grad_norm": 0.9601178437717185,
      "learning_rate": 1.080526320426789e-07,
      "loss": 0.7068,
      "step": 15549
    },
    {
      "epoch": 0.9546026581540256,
      "grad_norm": 1.0129518516916505,
      "learning_rate": 1.0776132050241971e-07,
      "loss": 0.7351,
      "step": 15550
    },
    {
      "epoch": 0.9546640473924921,
      "grad_norm": 0.9829870996433915,
      "learning_rate": 1.0747040005526177e-07,
      "loss": 0.692,
      "step": 15551
    },
    {
      "epoch": 0.9547254366309585,
      "grad_norm": 0.9854535882327619,
      "learning_rate": 1.071798707127092e-07,
      "loss": 0.7217,
      "step": 15552
    },
    {
      "epoch": 0.9547868258694251,
      "grad_norm": 1.1602460205604233,
      "learning_rate": 1.0688973248624613e-07,
      "loss": 0.7588,
      "step": 15553
    },
    {
      "epoch": 0.9548482151078916,
      "grad_norm": 1.0292868403649367,
      "learning_rate": 1.065999853873445e-07,
      "loss": 0.718,
      "step": 15554
    },
    {
      "epoch": 0.9549096043463581,
      "grad_norm": 0.8631408812027199,
      "learning_rate": 1.0631062942745851e-07,
      "loss": 0.7179,
      "step": 15555
    },
    {
      "epoch": 0.9549709935848246,
      "grad_norm": 0.989360192449547,
      "learning_rate": 1.0602166461802787e-07,
      "loss": 0.6932,
      "step": 15556
    },
    {
      "epoch": 0.9550323828232911,
      "grad_norm": 0.9685974800520627,
      "learning_rate": 1.0573309097047902e-07,
      "loss": 0.7361,
      "step": 15557
    },
    {
      "epoch": 0.9550937720617576,
      "grad_norm": 1.0036825326958514,
      "learning_rate": 1.0544490849621947e-07,
      "loss": 0.7451,
      "step": 15558
    },
    {
      "epoch": 0.955155161300224,
      "grad_norm": 0.644745765831545,
      "learning_rate": 1.0515711720664124e-07,
      "loss": 0.7067,
      "step": 15559
    },
    {
      "epoch": 0.9552165505386906,
      "grad_norm": 1.005493101699296,
      "learning_rate": 1.048697171131241e-07,
      "loss": 0.7073,
      "step": 15560
    },
    {
      "epoch": 0.955277939777157,
      "grad_norm": 1.1479087918799054,
      "learning_rate": 1.045827082270301e-07,
      "loss": 0.7456,
      "step": 15561
    },
    {
      "epoch": 0.9553393290156236,
      "grad_norm": 1.0248380522287368,
      "learning_rate": 1.0429609055970569e-07,
      "loss": 0.6944,
      "step": 15562
    },
    {
      "epoch": 0.95540071825409,
      "grad_norm": 1.0331938457114258,
      "learning_rate": 1.0400986412248292e-07,
      "loss": 0.7109,
      "step": 15563
    },
    {
      "epoch": 0.9554621074925566,
      "grad_norm": 1.0531013278812673,
      "learning_rate": 1.0372402892667721e-07,
      "loss": 0.711,
      "step": 15564
    },
    {
      "epoch": 0.9555234967310231,
      "grad_norm": 1.0731729884199483,
      "learning_rate": 1.0343858498359061e-07,
      "loss": 0.6789,
      "step": 15565
    },
    {
      "epoch": 0.9555848859694895,
      "grad_norm": 1.0979374776860504,
      "learning_rate": 1.0315353230450631e-07,
      "loss": 0.6864,
      "step": 15566
    },
    {
      "epoch": 0.9556462752079561,
      "grad_norm": 1.0080404193220485,
      "learning_rate": 1.028688709006953e-07,
      "loss": 0.6949,
      "step": 15567
    },
    {
      "epoch": 0.9557076644464225,
      "grad_norm": 0.940911612237639,
      "learning_rate": 1.0258460078341193e-07,
      "loss": 0.737,
      "step": 15568
    },
    {
      "epoch": 0.9557690536848891,
      "grad_norm": 0.977433780078965,
      "learning_rate": 1.0230072196389384e-07,
      "loss": 0.6853,
      "step": 15569
    },
    {
      "epoch": 0.9558304429233555,
      "grad_norm": 1.1919636786212398,
      "learning_rate": 1.0201723445336431e-07,
      "loss": 0.7495,
      "step": 15570
    },
    {
      "epoch": 0.955891832161822,
      "grad_norm": 1.0873622095744377,
      "learning_rate": 1.0173413826303213e-07,
      "loss": 0.6772,
      "step": 15571
    },
    {
      "epoch": 0.9559532214002885,
      "grad_norm": 1.1023965697219003,
      "learning_rate": 1.0145143340408948e-07,
      "loss": 0.7288,
      "step": 15572
    },
    {
      "epoch": 0.956014610638755,
      "grad_norm": 1.1691145285513644,
      "learning_rate": 1.0116911988771294e-07,
      "loss": 0.7381,
      "step": 15573
    },
    {
      "epoch": 0.9560759998772215,
      "grad_norm": 1.0438335344631566,
      "learning_rate": 1.0088719772506361e-07,
      "loss": 0.7482,
      "step": 15574
    },
    {
      "epoch": 0.956137389115688,
      "grad_norm": 0.9774295265436932,
      "learning_rate": 1.0060566692728702e-07,
      "loss": 0.6952,
      "step": 15575
    },
    {
      "epoch": 0.9561987783541546,
      "grad_norm": 1.0262179344517677,
      "learning_rate": 1.0032452750551425e-07,
      "loss": 0.7163,
      "step": 15576
    },
    {
      "epoch": 0.956260167592621,
      "grad_norm": 1.146470998472874,
      "learning_rate": 1.0004377947086086e-07,
      "loss": 0.6828,
      "step": 15577
    },
    {
      "epoch": 0.9563215568310875,
      "grad_norm": 1.028114458985242,
      "learning_rate": 9.976342283442464e-08,
      "loss": 0.7254,
      "step": 15578
    },
    {
      "epoch": 0.956382946069554,
      "grad_norm": 1.0791193736302196,
      "learning_rate": 9.948345760729117e-08,
      "loss": 0.7692,
      "step": 15579
    },
    {
      "epoch": 0.9564443353080205,
      "grad_norm": 1.0155489036759844,
      "learning_rate": 9.920388380052715e-08,
      "loss": 0.7299,
      "step": 15580
    },
    {
      "epoch": 0.956505724546487,
      "grad_norm": 1.1315621327270786,
      "learning_rate": 9.892470142518707e-08,
      "loss": 0.698,
      "step": 15581
    },
    {
      "epoch": 0.9565671137849535,
      "grad_norm": 1.1530622448843069,
      "learning_rate": 9.864591049230876e-08,
      "loss": 0.7398,
      "step": 15582
    },
    {
      "epoch": 0.95662850302342,
      "grad_norm": 1.0608715955209123,
      "learning_rate": 9.836751101291452e-08,
      "loss": 0.74,
      "step": 15583
    },
    {
      "epoch": 0.9566898922618865,
      "grad_norm": 1.0806345613408888,
      "learning_rate": 9.80895029980089e-08,
      "loss": 0.7489,
      "step": 15584
    },
    {
      "epoch": 0.9567512815003529,
      "grad_norm": 1.0912073178068142,
      "learning_rate": 9.78118864585853e-08,
      "loss": 0.7345,
      "step": 15585
    },
    {
      "epoch": 0.9568126707388195,
      "grad_norm": 1.1325820168885756,
      "learning_rate": 9.753466140561829e-08,
      "loss": 0.7698,
      "step": 15586
    },
    {
      "epoch": 0.956874059977286,
      "grad_norm": 1.1056182510534849,
      "learning_rate": 9.725782785006799e-08,
      "loss": 0.7083,
      "step": 15587
    },
    {
      "epoch": 0.9569354492157525,
      "grad_norm": 1.0394873737722177,
      "learning_rate": 9.698138580287897e-08,
      "loss": 0.694,
      "step": 15588
    },
    {
      "epoch": 0.956996838454219,
      "grad_norm": 1.1056285471741816,
      "learning_rate": 9.670533527498139e-08,
      "loss": 0.7179,
      "step": 15589
    },
    {
      "epoch": 0.9570582276926854,
      "grad_norm": 1.1940890633597188,
      "learning_rate": 9.642967627728872e-08,
      "loss": 0.7411,
      "step": 15590
    },
    {
      "epoch": 0.957119616931152,
      "grad_norm": 1.1861103021092734,
      "learning_rate": 9.615440882069782e-08,
      "loss": 0.7554,
      "step": 15591
    },
    {
      "epoch": 0.9571810061696184,
      "grad_norm": 1.0991497755684148,
      "learning_rate": 9.587953291609331e-08,
      "loss": 0.7063,
      "step": 15592
    },
    {
      "epoch": 0.957242395408085,
      "grad_norm": 1.008955642150588,
      "learning_rate": 9.560504857434205e-08,
      "loss": 0.7163,
      "step": 15593
    },
    {
      "epoch": 0.9573037846465514,
      "grad_norm": 0.6275999238789914,
      "learning_rate": 9.533095580629536e-08,
      "loss": 0.6727,
      "step": 15594
    },
    {
      "epoch": 0.957365173885018,
      "grad_norm": 0.5765561851805099,
      "learning_rate": 9.505725462279014e-08,
      "loss": 0.662,
      "step": 15595
    },
    {
      "epoch": 0.9574265631234845,
      "grad_norm": 1.023932383478259,
      "learning_rate": 9.478394503464661e-08,
      "loss": 0.6978,
      "step": 15596
    },
    {
      "epoch": 0.957487952361951,
      "grad_norm": 0.9957892382076535,
      "learning_rate": 9.451102705267057e-08,
      "loss": 0.6867,
      "step": 15597
    },
    {
      "epoch": 0.9575493416004175,
      "grad_norm": 1.1153719708410537,
      "learning_rate": 9.423850068765228e-08,
      "loss": 0.7413,
      "step": 15598
    },
    {
      "epoch": 0.9576107308388839,
      "grad_norm": 1.0368914997430558,
      "learning_rate": 9.396636595036535e-08,
      "loss": 0.7718,
      "step": 15599
    },
    {
      "epoch": 0.9576721200773505,
      "grad_norm": 1.1871552052200425,
      "learning_rate": 9.369462285157005e-08,
      "loss": 0.7161,
      "step": 15600
    },
    {
      "epoch": 0.9577335093158169,
      "grad_norm": 1.0549293867679823,
      "learning_rate": 9.34232714020078e-08,
      "loss": 0.7259,
      "step": 15601
    },
    {
      "epoch": 0.9577948985542835,
      "grad_norm": 1.1398437847735543,
      "learning_rate": 9.31523116124089e-08,
      "loss": 0.765,
      "step": 15602
    },
    {
      "epoch": 0.9578562877927499,
      "grad_norm": 1.0546388816056846,
      "learning_rate": 9.288174349348366e-08,
      "loss": 0.6889,
      "step": 15603
    },
    {
      "epoch": 0.9579176770312164,
      "grad_norm": 0.9410564583118503,
      "learning_rate": 9.261156705593022e-08,
      "loss": 0.6806,
      "step": 15604
    },
    {
      "epoch": 0.9579790662696829,
      "grad_norm": 1.0773850450115707,
      "learning_rate": 9.234178231043e-08,
      "loss": 0.7287,
      "step": 15605
    },
    {
      "epoch": 0.9580404555081494,
      "grad_norm": 1.032655532808019,
      "learning_rate": 9.207238926764894e-08,
      "loss": 0.729,
      "step": 15606
    },
    {
      "epoch": 0.958101844746616,
      "grad_norm": 1.1326672008243044,
      "learning_rate": 9.180338793823851e-08,
      "loss": 0.8169,
      "step": 15607
    },
    {
      "epoch": 0.9581632339850824,
      "grad_norm": 1.0661103562418557,
      "learning_rate": 9.153477833283242e-08,
      "loss": 0.6962,
      "step": 15608
    },
    {
      "epoch": 0.958224623223549,
      "grad_norm": 1.245457752432954,
      "learning_rate": 9.126656046204996e-08,
      "loss": 0.7382,
      "step": 15609
    },
    {
      "epoch": 0.9582860124620154,
      "grad_norm": 1.092299464487363,
      "learning_rate": 9.099873433649708e-08,
      "loss": 0.6641,
      "step": 15610
    },
    {
      "epoch": 0.9583474017004819,
      "grad_norm": 1.0285129969090412,
      "learning_rate": 9.073129996676089e-08,
      "loss": 0.7222,
      "step": 15611
    },
    {
      "epoch": 0.9584087909389484,
      "grad_norm": 1.0577818329103623,
      "learning_rate": 9.046425736341513e-08,
      "loss": 0.7814,
      "step": 15612
    },
    {
      "epoch": 0.9584701801774149,
      "grad_norm": 1.0688584625226518,
      "learning_rate": 9.019760653701693e-08,
      "loss": 0.7174,
      "step": 15613
    },
    {
      "epoch": 0.9585315694158814,
      "grad_norm": 0.9580957355424611,
      "learning_rate": 8.993134749810895e-08,
      "loss": 0.7423,
      "step": 15614
    },
    {
      "epoch": 0.9585929586543479,
      "grad_norm": 1.027812633160439,
      "learning_rate": 8.966548025721722e-08,
      "loss": 0.68,
      "step": 15615
    },
    {
      "epoch": 0.9586543478928143,
      "grad_norm": 1.0133624574981142,
      "learning_rate": 8.940000482485333e-08,
      "loss": 0.7078,
      "step": 15616
    },
    {
      "epoch": 0.9587157371312809,
      "grad_norm": 1.0714662088329698,
      "learning_rate": 8.913492121151335e-08,
      "loss": 0.6921,
      "step": 15617
    },
    {
      "epoch": 0.9587771263697474,
      "grad_norm": 1.0405985152773525,
      "learning_rate": 8.887022942767665e-08,
      "loss": 0.7426,
      "step": 15618
    },
    {
      "epoch": 0.9588385156082139,
      "grad_norm": 0.9604337438541299,
      "learning_rate": 8.86059294838082e-08,
      "loss": 0.742,
      "step": 15619
    },
    {
      "epoch": 0.9588999048466804,
      "grad_norm": 0.9867280273324157,
      "learning_rate": 8.83420213903563e-08,
      "loss": 0.706,
      "step": 15620
    },
    {
      "epoch": 0.9589612940851469,
      "grad_norm": 0.9862896836654391,
      "learning_rate": 8.807850515775706e-08,
      "loss": 0.7229,
      "step": 15621
    },
    {
      "epoch": 0.9590226833236134,
      "grad_norm": 0.9602875259954409,
      "learning_rate": 8.781538079642659e-08,
      "loss": 0.7117,
      "step": 15622
    },
    {
      "epoch": 0.9590840725620798,
      "grad_norm": 0.9920508772895608,
      "learning_rate": 8.755264831676769e-08,
      "loss": 0.7036,
      "step": 15623
    },
    {
      "epoch": 0.9591454618005464,
      "grad_norm": 1.1564311868291999,
      "learning_rate": 8.72903077291687e-08,
      "loss": 0.6984,
      "step": 15624
    },
    {
      "epoch": 0.9592068510390128,
      "grad_norm": 0.9227460490307149,
      "learning_rate": 8.70283590440002e-08,
      "loss": 0.7426,
      "step": 15625
    },
    {
      "epoch": 0.9592682402774794,
      "grad_norm": 0.9423412035577947,
      "learning_rate": 8.676680227161949e-08,
      "loss": 0.7347,
      "step": 15626
    },
    {
      "epoch": 0.9593296295159458,
      "grad_norm": 1.1530468875501192,
      "learning_rate": 8.650563742236717e-08,
      "loss": 0.7369,
      "step": 15627
    },
    {
      "epoch": 0.9593910187544124,
      "grad_norm": 1.1069469049962115,
      "learning_rate": 8.624486450656722e-08,
      "loss": 0.7148,
      "step": 15628
    },
    {
      "epoch": 0.9594524079928789,
      "grad_norm": 1.0719308041802966,
      "learning_rate": 8.598448353453137e-08,
      "loss": 0.7494,
      "step": 15629
    },
    {
      "epoch": 0.9595137972313453,
      "grad_norm": 1.1702613225948857,
      "learning_rate": 8.572449451655141e-08,
      "loss": 0.7281,
      "step": 15630
    },
    {
      "epoch": 0.9595751864698119,
      "grad_norm": 0.9151956015223679,
      "learning_rate": 8.546489746290798e-08,
      "loss": 0.733,
      "step": 15631
    },
    {
      "epoch": 0.9596365757082783,
      "grad_norm": 1.0725721397769388,
      "learning_rate": 8.520569238386511e-08,
      "loss": 0.7408,
      "step": 15632
    },
    {
      "epoch": 0.9596979649467449,
      "grad_norm": 1.1599969541167028,
      "learning_rate": 8.494687928966794e-08,
      "loss": 0.6924,
      "step": 15633
    },
    {
      "epoch": 0.9597593541852113,
      "grad_norm": 1.1948859168717134,
      "learning_rate": 8.468845819054938e-08,
      "loss": 0.7504,
      "step": 15634
    },
    {
      "epoch": 0.9598207434236778,
      "grad_norm": 1.0491462257873085,
      "learning_rate": 8.443042909672794e-08,
      "loss": 0.7328,
      "step": 15635
    },
    {
      "epoch": 0.9598821326621443,
      "grad_norm": 0.9912523245631634,
      "learning_rate": 8.417279201840323e-08,
      "loss": 0.7077,
      "step": 15636
    },
    {
      "epoch": 0.9599435219006108,
      "grad_norm": 1.1233156547480612,
      "learning_rate": 8.391554696576266e-08,
      "loss": 0.7003,
      "step": 15637
    },
    {
      "epoch": 0.9600049111390773,
      "grad_norm": 1.0824614187556485,
      "learning_rate": 8.365869394897475e-08,
      "loss": 0.7098,
      "step": 15638
    },
    {
      "epoch": 0.9600663003775438,
      "grad_norm": 1.1192377768383341,
      "learning_rate": 8.340223297819472e-08,
      "loss": 0.7207,
      "step": 15639
    },
    {
      "epoch": 0.9601276896160104,
      "grad_norm": 0.9854279896692836,
      "learning_rate": 8.314616406356223e-08,
      "loss": 0.6611,
      "step": 15640
    },
    {
      "epoch": 0.9601890788544768,
      "grad_norm": 0.9519869898393165,
      "learning_rate": 8.289048721520143e-08,
      "loss": 0.6865,
      "step": 15641
    },
    {
      "epoch": 0.9602504680929433,
      "grad_norm": 1.0563192423959007,
      "learning_rate": 8.263520244321976e-08,
      "loss": 0.7028,
      "step": 15642
    },
    {
      "epoch": 0.9603118573314098,
      "grad_norm": 0.9438798384628118,
      "learning_rate": 8.238030975771028e-08,
      "loss": 0.7131,
      "step": 15643
    },
    {
      "epoch": 0.9603732465698763,
      "grad_norm": 1.1626449216507049,
      "learning_rate": 8.212580916875046e-08,
      "loss": 0.7605,
      "step": 15644
    },
    {
      "epoch": 0.9604346358083428,
      "grad_norm": 1.1421986309934122,
      "learning_rate": 8.187170068640227e-08,
      "loss": 0.7254,
      "step": 15645
    },
    {
      "epoch": 0.9604960250468093,
      "grad_norm": 1.1109625006680641,
      "learning_rate": 8.161798432071099e-08,
      "loss": 0.716,
      "step": 15646
    },
    {
      "epoch": 0.9605574142852757,
      "grad_norm": 1.0322029522155696,
      "learning_rate": 8.136466008170862e-08,
      "loss": 0.7285,
      "step": 15647
    },
    {
      "epoch": 0.9606188035237423,
      "grad_norm": 1.153258552867205,
      "learning_rate": 8.111172797940935e-08,
      "loss": 0.7896,
      "step": 15648
    },
    {
      "epoch": 0.9606801927622088,
      "grad_norm": 1.019238711001777,
      "learning_rate": 8.085918802381298e-08,
      "loss": 0.7043,
      "step": 15649
    },
    {
      "epoch": 0.9607415820006753,
      "grad_norm": 1.0839488495564158,
      "learning_rate": 8.060704022490484e-08,
      "loss": 0.717,
      "step": 15650
    },
    {
      "epoch": 0.9608029712391418,
      "grad_norm": 1.12856099708141,
      "learning_rate": 8.035528459265363e-08,
      "loss": 0.7149,
      "step": 15651
    },
    {
      "epoch": 0.9608643604776083,
      "grad_norm": 1.0115400124326879,
      "learning_rate": 8.010392113701137e-08,
      "loss": 0.7307,
      "step": 15652
    },
    {
      "epoch": 0.9609257497160748,
      "grad_norm": 1.0171111083983968,
      "learning_rate": 7.985294986791569e-08,
      "loss": 0.6951,
      "step": 15653
    },
    {
      "epoch": 0.9609871389545412,
      "grad_norm": 1.057023882749008,
      "learning_rate": 7.960237079529087e-08,
      "loss": 0.747,
      "step": 15654
    },
    {
      "epoch": 0.9610485281930078,
      "grad_norm": 1.0526834305089048,
      "learning_rate": 7.935218392904232e-08,
      "loss": 0.7371,
      "step": 15655
    },
    {
      "epoch": 0.9611099174314742,
      "grad_norm": 1.036127434916489,
      "learning_rate": 7.910238927905989e-08,
      "loss": 0.7114,
      "step": 15656
    },
    {
      "epoch": 0.9611713066699408,
      "grad_norm": 1.1102810897431639,
      "learning_rate": 7.885298685522235e-08,
      "loss": 0.8072,
      "step": 15657
    },
    {
      "epoch": 0.9612326959084072,
      "grad_norm": 1.1511226393962957,
      "learning_rate": 7.86039766673874e-08,
      "loss": 0.7526,
      "step": 15658
    },
    {
      "epoch": 0.9612940851468738,
      "grad_norm": 1.0289151470024873,
      "learning_rate": 7.835535872540045e-08,
      "loss": 0.707,
      "step": 15659
    },
    {
      "epoch": 0.9613554743853403,
      "grad_norm": 1.0706643238599929,
      "learning_rate": 7.810713303909034e-08,
      "loss": 0.6695,
      "step": 15660
    },
    {
      "epoch": 0.9614168636238067,
      "grad_norm": 1.0766199571805857,
      "learning_rate": 7.785929961827254e-08,
      "loss": 0.7515,
      "step": 15661
    },
    {
      "epoch": 0.9614782528622733,
      "grad_norm": 1.0074048579090498,
      "learning_rate": 7.761185847274367e-08,
      "loss": 0.716,
      "step": 15662
    },
    {
      "epoch": 0.9615396421007397,
      "grad_norm": 1.0782816494524763,
      "learning_rate": 7.736480961228588e-08,
      "loss": 0.7247,
      "step": 15663
    },
    {
      "epoch": 0.9616010313392063,
      "grad_norm": 1.0315998434076428,
      "learning_rate": 7.711815304666804e-08,
      "loss": 0.6772,
      "step": 15664
    },
    {
      "epoch": 0.9616624205776727,
      "grad_norm": 0.9870470364791584,
      "learning_rate": 7.687188878564122e-08,
      "loss": 0.7218,
      "step": 15665
    },
    {
      "epoch": 0.9617238098161393,
      "grad_norm": 0.5887799637926969,
      "learning_rate": 7.662601683893988e-08,
      "loss": 0.6309,
      "step": 15666
    },
    {
      "epoch": 0.9617851990546057,
      "grad_norm": 1.0186265029745343,
      "learning_rate": 7.638053721628735e-08,
      "loss": 0.663,
      "step": 15667
    },
    {
      "epoch": 0.9618465882930722,
      "grad_norm": 1.0742837590624863,
      "learning_rate": 7.613544992738697e-08,
      "loss": 0.7065,
      "step": 15668
    },
    {
      "epoch": 0.9619079775315387,
      "grad_norm": 1.0620283703474795,
      "learning_rate": 7.589075498192878e-08,
      "loss": 0.6805,
      "step": 15669
    },
    {
      "epoch": 0.9619693667700052,
      "grad_norm": 0.9803478820200178,
      "learning_rate": 7.564645238958612e-08,
      "loss": 0.7097,
      "step": 15670
    },
    {
      "epoch": 0.9620307560084718,
      "grad_norm": 1.0241253458491546,
      "learning_rate": 7.540254216002019e-08,
      "loss": 0.7585,
      "step": 15671
    },
    {
      "epoch": 0.9620921452469382,
      "grad_norm": 1.0327251845447456,
      "learning_rate": 7.515902430287103e-08,
      "loss": 0.6929,
      "step": 15672
    },
    {
      "epoch": 0.9621535344854047,
      "grad_norm": 1.0907447934187509,
      "learning_rate": 7.491589882776761e-08,
      "loss": 0.7276,
      "step": 15673
    },
    {
      "epoch": 0.9622149237238712,
      "grad_norm": 0.9055961837144219,
      "learning_rate": 7.467316574432115e-08,
      "loss": 0.7028,
      "step": 15674
    },
    {
      "epoch": 0.9622763129623377,
      "grad_norm": 1.04114798437702,
      "learning_rate": 7.443082506212951e-08,
      "loss": 0.7814,
      "step": 15675
    },
    {
      "epoch": 0.9623377022008042,
      "grad_norm": 1.0655989473898528,
      "learning_rate": 7.41888767907728e-08,
      "loss": 0.7829,
      "step": 15676
    },
    {
      "epoch": 0.9623990914392707,
      "grad_norm": 1.0676178084078312,
      "learning_rate": 7.394732093981783e-08,
      "loss": 0.7237,
      "step": 15677
    },
    {
      "epoch": 0.9624604806777372,
      "grad_norm": 0.9497763218874387,
      "learning_rate": 7.37061575188125e-08,
      "loss": 0.7475,
      "step": 15678
    },
    {
      "epoch": 0.9625218699162037,
      "grad_norm": 1.058774149103415,
      "learning_rate": 7.346538653729252e-08,
      "loss": 0.7269,
      "step": 15679
    },
    {
      "epoch": 0.9625832591546701,
      "grad_norm": 1.1445435298947615,
      "learning_rate": 7.322500800477583e-08,
      "loss": 0.7678,
      "step": 15680
    },
    {
      "epoch": 0.9626446483931367,
      "grad_norm": 1.2190561011103267,
      "learning_rate": 7.298502193076817e-08,
      "loss": 0.7539,
      "step": 15681
    },
    {
      "epoch": 0.9627060376316032,
      "grad_norm": 1.2198213603654562,
      "learning_rate": 7.274542832475529e-08,
      "loss": 0.7289,
      "step": 15682
    },
    {
      "epoch": 0.9627674268700697,
      "grad_norm": 1.1137493707566577,
      "learning_rate": 7.250622719620959e-08,
      "loss": 0.7741,
      "step": 15683
    },
    {
      "epoch": 0.9628288161085362,
      "grad_norm": 1.0872876421117381,
      "learning_rate": 7.226741855458908e-08,
      "loss": 0.733,
      "step": 15684
    },
    {
      "epoch": 0.9628902053470026,
      "grad_norm": 0.971197552918387,
      "learning_rate": 7.202900240933507e-08,
      "loss": 0.7856,
      "step": 15685
    },
    {
      "epoch": 0.9629515945854692,
      "grad_norm": 1.2212724568261175,
      "learning_rate": 7.17909787698745e-08,
      "loss": 0.7233,
      "step": 15686
    },
    {
      "epoch": 0.9630129838239356,
      "grad_norm": 1.0864296309979866,
      "learning_rate": 7.155334764561428e-08,
      "loss": 0.7639,
      "step": 15687
    },
    {
      "epoch": 0.9630743730624022,
      "grad_norm": 1.1339260186845965,
      "learning_rate": 7.131610904595133e-08,
      "loss": 0.7298,
      "step": 15688
    },
    {
      "epoch": 0.9631357623008686,
      "grad_norm": 1.0924491092764281,
      "learning_rate": 7.10792629802659e-08,
      "loss": 0.7344,
      "step": 15689
    },
    {
      "epoch": 0.9631971515393352,
      "grad_norm": 0.9604830026418466,
      "learning_rate": 7.084280945792055e-08,
      "loss": 0.7901,
      "step": 15690
    },
    {
      "epoch": 0.9632585407778016,
      "grad_norm": 0.994067253057223,
      "learning_rate": 7.060674848826332e-08,
      "loss": 0.7047,
      "step": 15691
    },
    {
      "epoch": 0.9633199300162681,
      "grad_norm": 0.9720217605840225,
      "learning_rate": 7.037108008062788e-08,
      "loss": 0.7136,
      "step": 15692
    },
    {
      "epoch": 0.9633813192547347,
      "grad_norm": 1.0049110480764725,
      "learning_rate": 7.01358042443312e-08,
      "loss": 0.6635,
      "step": 15693
    },
    {
      "epoch": 0.9634427084932011,
      "grad_norm": 1.0198391167742582,
      "learning_rate": 6.990092098867474e-08,
      "loss": 0.7371,
      "step": 15694
    },
    {
      "epoch": 0.9635040977316677,
      "grad_norm": 1.0907420664163339,
      "learning_rate": 6.96664303229444e-08,
      "loss": 0.7164,
      "step": 15695
    },
    {
      "epoch": 0.9635654869701341,
      "grad_norm": 1.1465231496840307,
      "learning_rate": 6.943233225641167e-08,
      "loss": 0.7647,
      "step": 15696
    },
    {
      "epoch": 0.9636268762086007,
      "grad_norm": 1.0983818330722803,
      "learning_rate": 6.919862679833134e-08,
      "loss": 0.7237,
      "step": 15697
    },
    {
      "epoch": 0.9636882654470671,
      "grad_norm": 1.0778881032065608,
      "learning_rate": 6.89653139579427e-08,
      "loss": 0.6921,
      "step": 15698
    },
    {
      "epoch": 0.9637496546855336,
      "grad_norm": 1.0108048243613894,
      "learning_rate": 6.873239374446949e-08,
      "loss": 0.7223,
      "step": 15699
    },
    {
      "epoch": 0.9638110439240001,
      "grad_norm": 1.105641052103067,
      "learning_rate": 6.849986616712212e-08,
      "loss": 0.741,
      "step": 15700
    },
    {
      "epoch": 0.9638724331624666,
      "grad_norm": 1.0804144245911758,
      "learning_rate": 6.826773123509212e-08,
      "loss": 0.7805,
      "step": 15701
    },
    {
      "epoch": 0.9639338224009332,
      "grad_norm": 1.0545432017502516,
      "learning_rate": 6.803598895755658e-08,
      "loss": 0.7358,
      "step": 15702
    },
    {
      "epoch": 0.9639952116393996,
      "grad_norm": 1.048603763813843,
      "learning_rate": 6.780463934367931e-08,
      "loss": 0.7353,
      "step": 15703
    },
    {
      "epoch": 0.9640566008778662,
      "grad_norm": 1.0142904187142832,
      "learning_rate": 6.757368240260521e-08,
      "loss": 0.7461,
      "step": 15704
    },
    {
      "epoch": 0.9641179901163326,
      "grad_norm": 1.092638279441023,
      "learning_rate": 6.734311814346472e-08,
      "loss": 0.6883,
      "step": 15705
    },
    {
      "epoch": 0.9641793793547991,
      "grad_norm": 1.1236765659191035,
      "learning_rate": 6.711294657537614e-08,
      "loss": 0.6805,
      "step": 15706
    },
    {
      "epoch": 0.9642407685932656,
      "grad_norm": 1.1085381526287297,
      "learning_rate": 6.688316770743664e-08,
      "loss": 0.7321,
      "step": 15707
    },
    {
      "epoch": 0.9643021578317321,
      "grad_norm": 1.1127206845974822,
      "learning_rate": 6.665378154873225e-08,
      "loss": 0.7398,
      "step": 15708
    },
    {
      "epoch": 0.9643635470701986,
      "grad_norm": 1.1052720654407233,
      "learning_rate": 6.642478810833019e-08,
      "loss": 0.7199,
      "step": 15709
    },
    {
      "epoch": 0.9644249363086651,
      "grad_norm": 1.1279239730716375,
      "learning_rate": 6.619618739528544e-08,
      "loss": 0.738,
      "step": 15710
    },
    {
      "epoch": 0.9644863255471315,
      "grad_norm": 0.9161599872773456,
      "learning_rate": 6.59679794186352e-08,
      "loss": 0.7154,
      "step": 15711
    },
    {
      "epoch": 0.9645477147855981,
      "grad_norm": 1.0921193175129111,
      "learning_rate": 6.574016418740115e-08,
      "loss": 0.7168,
      "step": 15712
    },
    {
      "epoch": 0.9646091040240646,
      "grad_norm": 1.0406044824340757,
      "learning_rate": 6.551274171059052e-08,
      "loss": 0.6998,
      "step": 15713
    },
    {
      "epoch": 0.9646704932625311,
      "grad_norm": 1.1456914710659911,
      "learning_rate": 6.528571199719502e-08,
      "loss": 0.7472,
      "step": 15714
    },
    {
      "epoch": 0.9647318825009976,
      "grad_norm": 1.0970997208094393,
      "learning_rate": 6.505907505618969e-08,
      "loss": 0.7156,
      "step": 15715
    },
    {
      "epoch": 0.964793271739464,
      "grad_norm": 1.0293659429351087,
      "learning_rate": 6.483283089653514e-08,
      "loss": 0.6855,
      "step": 15716
    },
    {
      "epoch": 0.9648546609779306,
      "grad_norm": 1.0245357448054253,
      "learning_rate": 6.460697952717531e-08,
      "loss": 0.7078,
      "step": 15717
    },
    {
      "epoch": 0.964916050216397,
      "grad_norm": 1.1290512231935965,
      "learning_rate": 6.438152095704087e-08,
      "loss": 0.7549,
      "step": 15718
    },
    {
      "epoch": 0.9649774394548636,
      "grad_norm": 1.1244103501914557,
      "learning_rate": 6.415645519504354e-08,
      "loss": 0.7403,
      "step": 15719
    },
    {
      "epoch": 0.96503882869333,
      "grad_norm": 1.0555619907857976,
      "learning_rate": 6.393178225008179e-08,
      "loss": 0.6837,
      "step": 15720
    },
    {
      "epoch": 0.9651002179317966,
      "grad_norm": 1.108450275290086,
      "learning_rate": 6.37075021310396e-08,
      "loss": 0.7013,
      "step": 15721
    },
    {
      "epoch": 0.965161607170263,
      "grad_norm": 0.9787899281593173,
      "learning_rate": 6.348361484678211e-08,
      "loss": 0.6614,
      "step": 15722
    },
    {
      "epoch": 0.9652229964087295,
      "grad_norm": 1.1050552029939422,
      "learning_rate": 6.326012040616114e-08,
      "loss": 0.666,
      "step": 15723
    },
    {
      "epoch": 0.9652843856471961,
      "grad_norm": 0.9834185203587303,
      "learning_rate": 6.303701881801404e-08,
      "loss": 0.7226,
      "step": 15724
    },
    {
      "epoch": 0.9653457748856625,
      "grad_norm": 1.0158261771540777,
      "learning_rate": 6.281431009115935e-08,
      "loss": 0.7508,
      "step": 15725
    },
    {
      "epoch": 0.9654071641241291,
      "grad_norm": 1.0955724937301576,
      "learning_rate": 6.259199423440332e-08,
      "loss": 0.7373,
      "step": 15726
    },
    {
      "epoch": 0.9654685533625955,
      "grad_norm": 1.1725344309756347,
      "learning_rate": 6.237007125653449e-08,
      "loss": 0.747,
      "step": 15727
    },
    {
      "epoch": 0.9655299426010621,
      "grad_norm": 1.0363478493963905,
      "learning_rate": 6.214854116632696e-08,
      "loss": 0.7123,
      "step": 15728
    },
    {
      "epoch": 0.9655913318395285,
      "grad_norm": 1.286455908035628,
      "learning_rate": 6.192740397253926e-08,
      "loss": 0.7457,
      "step": 15729
    },
    {
      "epoch": 0.965652721077995,
      "grad_norm": 1.134586188415311,
      "learning_rate": 6.170665968391332e-08,
      "loss": 0.7161,
      "step": 15730
    },
    {
      "epoch": 0.9657141103164615,
      "grad_norm": 1.1621479192011128,
      "learning_rate": 6.148630830917768e-08,
      "loss": 0.7935,
      "step": 15731
    },
    {
      "epoch": 0.965775499554928,
      "grad_norm": 1.1606510458832946,
      "learning_rate": 6.126634985704205e-08,
      "loss": 0.7178,
      "step": 15732
    },
    {
      "epoch": 0.9658368887933945,
      "grad_norm": 1.022266688186474,
      "learning_rate": 6.104678433620503e-08,
      "loss": 0.7389,
      "step": 15733
    },
    {
      "epoch": 0.965898278031861,
      "grad_norm": 0.9455973647696537,
      "learning_rate": 6.082761175534413e-08,
      "loss": 0.6988,
      "step": 15734
    },
    {
      "epoch": 0.9659596672703276,
      "grad_norm": 1.206603016147461,
      "learning_rate": 6.060883212312796e-08,
      "loss": 0.7485,
      "step": 15735
    },
    {
      "epoch": 0.966021056508794,
      "grad_norm": 1.0331094885141736,
      "learning_rate": 6.039044544820404e-08,
      "loss": 0.6973,
      "step": 15736
    },
    {
      "epoch": 0.9660824457472605,
      "grad_norm": 1.1427705409531825,
      "learning_rate": 6.01724517392055e-08,
      "loss": 0.7288,
      "step": 15737
    },
    {
      "epoch": 0.966143834985727,
      "grad_norm": 1.200291181229402,
      "learning_rate": 5.995485100475207e-08,
      "loss": 0.737,
      "step": 15738
    },
    {
      "epoch": 0.9662052242241935,
      "grad_norm": 1.0589842957598916,
      "learning_rate": 5.973764325344689e-08,
      "loss": 0.7913,
      "step": 15739
    },
    {
      "epoch": 0.96626661346266,
      "grad_norm": 1.218470621596955,
      "learning_rate": 5.9520828493876416e-08,
      "loss": 0.7294,
      "step": 15740
    },
    {
      "epoch": 0.9663280027011265,
      "grad_norm": 1.1072880933052909,
      "learning_rate": 5.93044067346138e-08,
      "loss": 0.6898,
      "step": 15741
    },
    {
      "epoch": 0.966389391939593,
      "grad_norm": 1.1200267881774606,
      "learning_rate": 5.9088377984214404e-08,
      "loss": 0.7053,
      "step": 15742
    },
    {
      "epoch": 0.9664507811780595,
      "grad_norm": 1.0041078129235106,
      "learning_rate": 5.8872742251219197e-08,
      "loss": 0.7224,
      "step": 15743
    },
    {
      "epoch": 0.9665121704165259,
      "grad_norm": 0.9931493377511595,
      "learning_rate": 5.865749954415245e-08,
      "loss": 0.6982,
      "step": 15744
    },
    {
      "epoch": 0.9665735596549925,
      "grad_norm": 1.0047655250576202,
      "learning_rate": 5.8442649871526255e-08,
      "loss": 0.7444,
      "step": 15745
    },
    {
      "epoch": 0.966634948893459,
      "grad_norm": 1.0583491553243334,
      "learning_rate": 5.82281932418316e-08,
      "loss": 0.7594,
      "step": 15746
    },
    {
      "epoch": 0.9666963381319255,
      "grad_norm": 1.0581042932441864,
      "learning_rate": 5.801412966355058e-08,
      "loss": 0.7254,
      "step": 15747
    },
    {
      "epoch": 0.966757727370392,
      "grad_norm": 1.1261317300667826,
      "learning_rate": 5.78004591451431e-08,
      "loss": 0.7413,
      "step": 15748
    },
    {
      "epoch": 0.9668191166088584,
      "grad_norm": 0.9279541480614024,
      "learning_rate": 5.7587181695057945e-08,
      "loss": 0.7502,
      "step": 15749
    },
    {
      "epoch": 0.966880505847325,
      "grad_norm": 1.1154463121957376,
      "learning_rate": 5.737429732172839e-08,
      "loss": 0.6876,
      "step": 15750
    },
    {
      "epoch": 0.9669418950857914,
      "grad_norm": 1.110770840835162,
      "learning_rate": 5.71618060335688e-08,
      "loss": 0.7202,
      "step": 15751
    },
    {
      "epoch": 0.967003284324258,
      "grad_norm": 0.976731225560377,
      "learning_rate": 5.694970783898246e-08,
      "loss": 0.7458,
      "step": 15752
    },
    {
      "epoch": 0.9670646735627244,
      "grad_norm": 1.0682325424797967,
      "learning_rate": 5.673800274635266e-08,
      "loss": 0.7687,
      "step": 15753
    },
    {
      "epoch": 0.967126062801191,
      "grad_norm": 1.0953417987407674,
      "learning_rate": 5.6526690764049375e-08,
      "loss": 0.7008,
      "step": 15754
    },
    {
      "epoch": 0.9671874520396575,
      "grad_norm": 1.1592686681128064,
      "learning_rate": 5.631577190042814e-08,
      "loss": 0.72,
      "step": 15755
    },
    {
      "epoch": 0.9672488412781239,
      "grad_norm": 0.9605859398492143,
      "learning_rate": 5.610524616382562e-08,
      "loss": 0.6762,
      "step": 15756
    },
    {
      "epoch": 0.9673102305165905,
      "grad_norm": 1.1093864683938803,
      "learning_rate": 5.5895113562567386e-08,
      "loss": 0.7796,
      "step": 15757
    },
    {
      "epoch": 0.9673716197550569,
      "grad_norm": 1.0655407005755935,
      "learning_rate": 5.568537410496122e-08,
      "loss": 0.7047,
      "step": 15758
    },
    {
      "epoch": 0.9674330089935235,
      "grad_norm": 0.9941305470584763,
      "learning_rate": 5.547602779929606e-08,
      "loss": 0.7428,
      "step": 15759
    },
    {
      "epoch": 0.9674943982319899,
      "grad_norm": 1.003333655344818,
      "learning_rate": 5.526707465385195e-08,
      "loss": 0.6947,
      "step": 15760
    },
    {
      "epoch": 0.9675557874704565,
      "grad_norm": 0.9926921402009039,
      "learning_rate": 5.5058514676888944e-08,
      "loss": 0.7337,
      "step": 15761
    },
    {
      "epoch": 0.9676171767089229,
      "grad_norm": 1.0990735380561116,
      "learning_rate": 5.4850347876650446e-08,
      "loss": 0.7016,
      "step": 15762
    },
    {
      "epoch": 0.9676785659473894,
      "grad_norm": 1.041924404197872,
      "learning_rate": 5.464257426136876e-08,
      "loss": 0.6911,
      "step": 15763
    },
    {
      "epoch": 0.9677399551858559,
      "grad_norm": 1.0479109640233084,
      "learning_rate": 5.443519383925844e-08,
      "loss": 0.7251,
      "step": 15764
    },
    {
      "epoch": 0.9678013444243224,
      "grad_norm": 1.0192589988333665,
      "learning_rate": 5.4228206618516243e-08,
      "loss": 0.7089,
      "step": 15765
    },
    {
      "epoch": 0.967862733662789,
      "grad_norm": 1.0703972210013557,
      "learning_rate": 5.402161260732786e-08,
      "loss": 0.7202,
      "step": 15766
    },
    {
      "epoch": 0.9679241229012554,
      "grad_norm": 1.0556176666119321,
      "learning_rate": 5.381541181386008e-08,
      "loss": 0.7405,
      "step": 15767
    },
    {
      "epoch": 0.967985512139722,
      "grad_norm": 1.0209358604463994,
      "learning_rate": 5.3609604246264157e-08,
      "loss": 0.7204,
      "step": 15768
    },
    {
      "epoch": 0.9680469013781884,
      "grad_norm": 1.0527654073128065,
      "learning_rate": 5.340418991267804e-08,
      "loss": 0.7586,
      "step": 15769
    },
    {
      "epoch": 0.9681082906166549,
      "grad_norm": 0.9355580394921231,
      "learning_rate": 5.3199168821223e-08,
      "loss": 0.6957,
      "step": 15770
    },
    {
      "epoch": 0.9681696798551214,
      "grad_norm": 0.9805393885694428,
      "learning_rate": 5.299454098000256e-08,
      "loss": 0.7291,
      "step": 15771
    },
    {
      "epoch": 0.9682310690935879,
      "grad_norm": 1.062672095982512,
      "learning_rate": 5.279030639710914e-08,
      "loss": 0.7393,
      "step": 15772
    },
    {
      "epoch": 0.9682924583320544,
      "grad_norm": 1.0145091342620454,
      "learning_rate": 5.2586465080616266e-08,
      "loss": 0.7577,
      "step": 15773
    },
    {
      "epoch": 0.9683538475705209,
      "grad_norm": 0.934958213628613,
      "learning_rate": 5.238301703858306e-08,
      "loss": 0.7438,
      "step": 15774
    },
    {
      "epoch": 0.9684152368089873,
      "grad_norm": 1.2015110722495577,
      "learning_rate": 5.217996227905309e-08,
      "loss": 0.7475,
      "step": 15775
    },
    {
      "epoch": 0.9684766260474539,
      "grad_norm": 0.9297817203359584,
      "learning_rate": 5.1977300810053255e-08,
      "loss": 0.7065,
      "step": 15776
    },
    {
      "epoch": 0.9685380152859204,
      "grad_norm": 1.0718161181253183,
      "learning_rate": 5.177503263959604e-08,
      "loss": 0.7381,
      "step": 15777
    },
    {
      "epoch": 0.9685994045243869,
      "grad_norm": 1.1165530526328011,
      "learning_rate": 5.15731577756795e-08,
      "loss": 0.7431,
      "step": 15778
    },
    {
      "epoch": 0.9686607937628534,
      "grad_norm": 1.0927250946485119,
      "learning_rate": 5.137167622628392e-08,
      "loss": 0.7042,
      "step": 15779
    },
    {
      "epoch": 0.9687221830013198,
      "grad_norm": 0.9682971443903514,
      "learning_rate": 5.117058799937513e-08,
      "loss": 0.7331,
      "step": 15780
    },
    {
      "epoch": 0.9687835722397864,
      "grad_norm": 1.0364566919472742,
      "learning_rate": 5.096989310290235e-08,
      "loss": 0.7158,
      "step": 15781
    },
    {
      "epoch": 0.9688449614782528,
      "grad_norm": 1.058654353680781,
      "learning_rate": 5.076959154480143e-08,
      "loss": 0.7416,
      "step": 15782
    },
    {
      "epoch": 0.9689063507167194,
      "grad_norm": 1.1009318581987513,
      "learning_rate": 5.0569683332990506e-08,
      "loss": 0.7163,
      "step": 15783
    },
    {
      "epoch": 0.9689677399551858,
      "grad_norm": 0.9435580487436146,
      "learning_rate": 5.0370168475373235e-08,
      "loss": 0.692,
      "step": 15784
    },
    {
      "epoch": 0.9690291291936524,
      "grad_norm": 0.9545012235296438,
      "learning_rate": 5.017104697983777e-08,
      "loss": 0.7267,
      "step": 15785
    },
    {
      "epoch": 0.9690905184321188,
      "grad_norm": 1.014712898228909,
      "learning_rate": 4.9972318854256684e-08,
      "loss": 0.6762,
      "step": 15786
    },
    {
      "epoch": 0.9691519076705853,
      "grad_norm": 1.107976075545414,
      "learning_rate": 4.9773984106485926e-08,
      "loss": 0.6853,
      "step": 15787
    },
    {
      "epoch": 0.9692132969090519,
      "grad_norm": 1.0620240017610876,
      "learning_rate": 4.9576042744367e-08,
      "loss": 0.7735,
      "step": 15788
    },
    {
      "epoch": 0.9692746861475183,
      "grad_norm": 0.9628688050693822,
      "learning_rate": 4.937849477572587e-08,
      "loss": 0.6771,
      "step": 15789
    },
    {
      "epoch": 0.9693360753859849,
      "grad_norm": 1.148440006097763,
      "learning_rate": 4.9181340208371843e-08,
      "loss": 0.7149,
      "step": 15790
    },
    {
      "epoch": 0.9693974646244513,
      "grad_norm": 1.0391701406835314,
      "learning_rate": 4.89845790501009e-08,
      "loss": 0.7154,
      "step": 15791
    },
    {
      "epoch": 0.9694588538629179,
      "grad_norm": 1.079715493909472,
      "learning_rate": 4.878821130869127e-08,
      "loss": 0.728,
      "step": 15792
    },
    {
      "epoch": 0.9695202431013843,
      "grad_norm": 1.0429702014218107,
      "learning_rate": 4.859223699190674e-08,
      "loss": 0.707,
      "step": 15793
    },
    {
      "epoch": 0.9695816323398508,
      "grad_norm": 1.1473251472811654,
      "learning_rate": 4.8396656107493334e-08,
      "loss": 0.7231,
      "step": 15794
    },
    {
      "epoch": 0.9696430215783173,
      "grad_norm": 1.130887707322817,
      "learning_rate": 4.820146866318709e-08,
      "loss": 0.6967,
      "step": 15795
    },
    {
      "epoch": 0.9697044108167838,
      "grad_norm": 1.0354530568727782,
      "learning_rate": 4.800667466670183e-08,
      "loss": 0.7077,
      "step": 15796
    },
    {
      "epoch": 0.9697658000552503,
      "grad_norm": 1.094182161540813,
      "learning_rate": 4.78122741257403e-08,
      "loss": 0.7091,
      "step": 15797
    },
    {
      "epoch": 0.9698271892937168,
      "grad_norm": 1.1222582303095632,
      "learning_rate": 4.7618267047986335e-08,
      "loss": 0.7078,
      "step": 15798
    },
    {
      "epoch": 0.9698885785321834,
      "grad_norm": 1.0886676522227166,
      "learning_rate": 4.742465344111269e-08,
      "loss": 0.7122,
      "step": 15799
    },
    {
      "epoch": 0.9699499677706498,
      "grad_norm": 1.0584149793298614,
      "learning_rate": 4.7231433312772134e-08,
      "loss": 0.7084,
      "step": 15800
    },
    {
      "epoch": 0.9700113570091163,
      "grad_norm": 1.044271157848836,
      "learning_rate": 4.703860667060301e-08,
      "loss": 0.7402,
      "step": 15801
    },
    {
      "epoch": 0.9700727462475828,
      "grad_norm": 1.1406994499815635,
      "learning_rate": 4.684617352223142e-08,
      "loss": 0.7417,
      "step": 15802
    },
    {
      "epoch": 0.9701341354860493,
      "grad_norm": 0.9199921058904617,
      "learning_rate": 4.665413387526352e-08,
      "loss": 0.7206,
      "step": 15803
    },
    {
      "epoch": 0.9701955247245158,
      "grad_norm": 1.0149168694833337,
      "learning_rate": 4.6462487737292115e-08,
      "loss": 0.7551,
      "step": 15804
    },
    {
      "epoch": 0.9702569139629823,
      "grad_norm": 1.1218042042734098,
      "learning_rate": 4.6271235115893374e-08,
      "loss": 0.7427,
      "step": 15805
    },
    {
      "epoch": 0.9703183032014487,
      "grad_norm": 1.055288198389205,
      "learning_rate": 4.608037601862903e-08,
      "loss": 0.7203,
      "step": 15806
    },
    {
      "epoch": 0.9703796924399153,
      "grad_norm": 1.082761725441733,
      "learning_rate": 4.588991045304525e-08,
      "loss": 0.7468,
      "step": 15807
    },
    {
      "epoch": 0.9704410816783818,
      "grad_norm": 1.0837530054297386,
      "learning_rate": 4.5699838426670474e-08,
      "loss": 0.7642,
      "step": 15808
    },
    {
      "epoch": 0.9705024709168483,
      "grad_norm": 0.9795577983870634,
      "learning_rate": 4.551015994702201e-08,
      "loss": 0.7677,
      "step": 15809
    },
    {
      "epoch": 0.9705638601553148,
      "grad_norm": 1.0051256044514678,
      "learning_rate": 4.53208750215961e-08,
      "loss": 0.7108,
      "step": 15810
    },
    {
      "epoch": 0.9706252493937813,
      "grad_norm": 1.0366224217887743,
      "learning_rate": 4.513198365787785e-08,
      "loss": 0.7259,
      "step": 15811
    },
    {
      "epoch": 0.9706866386322478,
      "grad_norm": 1.0804633576531555,
      "learning_rate": 4.494348586333353e-08,
      "loss": 0.7471,
      "step": 15812
    },
    {
      "epoch": 0.9707480278707142,
      "grad_norm": 1.1862685834206894,
      "learning_rate": 4.475538164541826e-08,
      "loss": 0.7492,
      "step": 15813
    },
    {
      "epoch": 0.9708094171091808,
      "grad_norm": 1.0413243735382929,
      "learning_rate": 4.4567671011567224e-08,
      "loss": 0.6907,
      "step": 15814
    },
    {
      "epoch": 0.9708708063476472,
      "grad_norm": 1.0427148288718286,
      "learning_rate": 4.438035396920004e-08,
      "loss": 0.7452,
      "step": 15815
    },
    {
      "epoch": 0.9709321955861138,
      "grad_norm": 1.015959335198253,
      "learning_rate": 4.419343052572411e-08,
      "loss": 0.6997,
      "step": 15816
    },
    {
      "epoch": 0.9709935848245802,
      "grad_norm": 1.0662954973799748,
      "learning_rate": 4.40069006885302e-08,
      "loss": 0.6931,
      "step": 15817
    },
    {
      "epoch": 0.9710549740630467,
      "grad_norm": 1.0599657056937266,
      "learning_rate": 4.3820764464991286e-08,
      "loss": 0.7129,
      "step": 15818
    },
    {
      "epoch": 0.9711163633015133,
      "grad_norm": 1.0104334867569091,
      "learning_rate": 4.363502186246704e-08,
      "loss": 0.6933,
      "step": 15819
    },
    {
      "epoch": 0.9711777525399797,
      "grad_norm": 1.0478456982346533,
      "learning_rate": 4.34496728883016e-08,
      "loss": 0.7452,
      "step": 15820
    },
    {
      "epoch": 0.9712391417784463,
      "grad_norm": 1.0474656286442163,
      "learning_rate": 4.326471754982131e-08,
      "loss": 0.7192,
      "step": 15821
    },
    {
      "epoch": 0.9713005310169127,
      "grad_norm": 1.2687430027567743,
      "learning_rate": 4.3080155854338116e-08,
      "loss": 0.726,
      "step": 15822
    },
    {
      "epoch": 0.9713619202553793,
      "grad_norm": 1.1854922688312834,
      "learning_rate": 4.2895987809150605e-08,
      "loss": 0.755,
      "step": 15823
    },
    {
      "epoch": 0.9714233094938457,
      "grad_norm": 1.094817205271589,
      "learning_rate": 4.271221342153964e-08,
      "loss": 0.7079,
      "step": 15824
    },
    {
      "epoch": 0.9714846987323122,
      "grad_norm": 1.125816161770419,
      "learning_rate": 4.2528832698769395e-08,
      "loss": 0.7312,
      "step": 15825
    },
    {
      "epoch": 0.9715460879707787,
      "grad_norm": 1.0820900799819757,
      "learning_rate": 4.2345845648090743e-08,
      "loss": 0.722,
      "step": 15826
    },
    {
      "epoch": 0.9716074772092452,
      "grad_norm": 1.0831683470302058,
      "learning_rate": 4.21632522767379e-08,
      "loss": 0.774,
      "step": 15827
    },
    {
      "epoch": 0.9716688664477117,
      "grad_norm": 1.1419863186964032,
      "learning_rate": 4.198105259193064e-08,
      "loss": 0.6664,
      "step": 15828
    },
    {
      "epoch": 0.9717302556861782,
      "grad_norm": 0.6015329485606321,
      "learning_rate": 4.179924660087098e-08,
      "loss": 0.6379,
      "step": 15829
    },
    {
      "epoch": 0.9717916449246448,
      "grad_norm": 1.0824801966535766,
      "learning_rate": 4.161783431074762e-08,
      "loss": 0.7712,
      "step": 15830
    },
    {
      "epoch": 0.9718530341631112,
      "grad_norm": 1.172132616729115,
      "learning_rate": 4.143681572873259e-08,
      "loss": 0.7036,
      "step": 15831
    },
    {
      "epoch": 0.9719144234015777,
      "grad_norm": 1.0474684522284614,
      "learning_rate": 4.12561908619824e-08,
      "loss": 0.7583,
      "step": 15832
    },
    {
      "epoch": 0.9719758126400442,
      "grad_norm": 1.023106966420068,
      "learning_rate": 4.107595971763689e-08,
      "loss": 0.7086,
      "step": 15833
    },
    {
      "epoch": 0.9720372018785107,
      "grad_norm": 1.1964772522432527,
      "learning_rate": 4.0896122302824804e-08,
      "loss": 0.7374,
      "step": 15834
    },
    {
      "epoch": 0.9720985911169772,
      "grad_norm": 1.0407408720105202,
      "learning_rate": 4.0716678624652676e-08,
      "loss": 0.6959,
      "step": 15835
    },
    {
      "epoch": 0.9721599803554437,
      "grad_norm": 1.0615713154890813,
      "learning_rate": 4.053762869021705e-08,
      "loss": 0.7044,
      "step": 15836
    },
    {
      "epoch": 0.9722213695939101,
      "grad_norm": 1.0442750094117446,
      "learning_rate": 4.0358972506594486e-08,
      "loss": 0.7525,
      "step": 15837
    },
    {
      "epoch": 0.9722827588323767,
      "grad_norm": 0.9144453417639486,
      "learning_rate": 4.018071008085045e-08,
      "loss": 0.7024,
      "step": 15838
    },
    {
      "epoch": 0.9723441480708431,
      "grad_norm": 1.0885087597092171,
      "learning_rate": 4.000284142003264e-08,
      "loss": 0.7029,
      "step": 15839
    },
    {
      "epoch": 0.9724055373093097,
      "grad_norm": 1.1603152406017605,
      "learning_rate": 3.982536653117097e-08,
      "loss": 0.7337,
      "step": 15840
    },
    {
      "epoch": 0.9724669265477762,
      "grad_norm": 1.2162119703566245,
      "learning_rate": 3.964828542128429e-08,
      "loss": 0.692,
      "step": 15841
    },
    {
      "epoch": 0.9725283157862427,
      "grad_norm": 1.246998970352002,
      "learning_rate": 3.9471598097372554e-08,
      "loss": 0.7263,
      "step": 15842
    },
    {
      "epoch": 0.9725897050247092,
      "grad_norm": 1.0607777371828566,
      "learning_rate": 3.929530456642017e-08,
      "loss": 0.704,
      "step": 15843
    },
    {
      "epoch": 0.9726510942631756,
      "grad_norm": 1.2062576613161384,
      "learning_rate": 3.911940483539933e-08,
      "loss": 0.7776,
      "step": 15844
    },
    {
      "epoch": 0.9727124835016422,
      "grad_norm": 1.1284217757814758,
      "learning_rate": 3.8943898911262266e-08,
      "loss": 0.6846,
      "step": 15845
    },
    {
      "epoch": 0.9727738727401086,
      "grad_norm": 1.0231216139214219,
      "learning_rate": 3.876878680094787e-08,
      "loss": 0.73,
      "step": 15846
    },
    {
      "epoch": 0.9728352619785752,
      "grad_norm": 1.0558464878637204,
      "learning_rate": 3.859406851138059e-08,
      "loss": 0.6822,
      "step": 15847
    },
    {
      "epoch": 0.9728966512170416,
      "grad_norm": 1.1470430888531693,
      "learning_rate": 3.841974404946602e-08,
      "loss": 0.7204,
      "step": 15848
    },
    {
      "epoch": 0.9729580404555082,
      "grad_norm": 1.1130919800694592,
      "learning_rate": 3.8245813422098653e-08,
      "loss": 0.7353,
      "step": 15849
    },
    {
      "epoch": 0.9730194296939746,
      "grad_norm": 1.0518115919525215,
      "learning_rate": 3.8072276636152985e-08,
      "loss": 0.7287,
      "step": 15850
    },
    {
      "epoch": 0.9730808189324411,
      "grad_norm": 1.029517265873864,
      "learning_rate": 3.789913369849019e-08,
      "loss": 0.7237,
      "step": 15851
    },
    {
      "epoch": 0.9731422081709077,
      "grad_norm": 1.0761680752174232,
      "learning_rate": 3.77263846159559e-08,
      "loss": 0.7279,
      "step": 15852
    },
    {
      "epoch": 0.9732035974093741,
      "grad_norm": 1.0366610319035092,
      "learning_rate": 3.755402939537911e-08,
      "loss": 0.7735,
      "step": 15853
    },
    {
      "epoch": 0.9732649866478407,
      "grad_norm": 1.0442756638237018,
      "learning_rate": 3.738206804357436e-08,
      "loss": 0.7329,
      "step": 15854
    },
    {
      "epoch": 0.9733263758863071,
      "grad_norm": 1.0369774414184152,
      "learning_rate": 3.721050056734066e-08,
      "loss": 0.6825,
      "step": 15855
    },
    {
      "epoch": 0.9733877651247737,
      "grad_norm": 1.0372001701109912,
      "learning_rate": 3.7039326973461465e-08,
      "loss": 0.7044,
      "step": 15856
    },
    {
      "epoch": 0.9734491543632401,
      "grad_norm": 1.1278854314833078,
      "learning_rate": 3.6868547268702484e-08,
      "loss": 0.7021,
      "step": 15857
    },
    {
      "epoch": 0.9735105436017066,
      "grad_norm": 1.1348926063244649,
      "learning_rate": 3.669816145981608e-08,
      "loss": 0.7437,
      "step": 15858
    },
    {
      "epoch": 0.9735719328401731,
      "grad_norm": 1.0242653623232036,
      "learning_rate": 3.652816955353911e-08,
      "loss": 0.678,
      "step": 15859
    },
    {
      "epoch": 0.9736333220786396,
      "grad_norm": 1.0802218520734794,
      "learning_rate": 3.6358571556592834e-08,
      "loss": 0.7455,
      "step": 15860
    },
    {
      "epoch": 0.9736947113171062,
      "grad_norm": 1.2700092221948318,
      "learning_rate": 3.61893674756808e-08,
      "loss": 0.7065,
      "step": 15861
    },
    {
      "epoch": 0.9737561005555726,
      "grad_norm": 1.1666697123435237,
      "learning_rate": 3.60205573174921e-08,
      "loss": 0.7354,
      "step": 15862
    },
    {
      "epoch": 0.9738174897940391,
      "grad_norm": 1.1481761294067232,
      "learning_rate": 3.5852141088703604e-08,
      "loss": 0.7596,
      "step": 15863
    },
    {
      "epoch": 0.9738788790325056,
      "grad_norm": 1.0385872936907412,
      "learning_rate": 3.568411879597111e-08,
      "loss": 0.7434,
      "step": 15864
    },
    {
      "epoch": 0.9739402682709721,
      "grad_norm": 1.0164632678657202,
      "learning_rate": 3.55164904459393e-08,
      "loss": 0.6993,
      "step": 15865
    },
    {
      "epoch": 0.9740016575094386,
      "grad_norm": 1.1500025656375044,
      "learning_rate": 3.534925604523287e-08,
      "loss": 0.6708,
      "step": 15866
    },
    {
      "epoch": 0.9740630467479051,
      "grad_norm": 1.1117780325889304,
      "learning_rate": 3.5182415600466534e-08,
      "loss": 0.7023,
      "step": 15867
    },
    {
      "epoch": 0.9741244359863716,
      "grad_norm": 1.014399580342334,
      "learning_rate": 3.501596911823391e-08,
      "loss": 0.7097,
      "step": 15868
    },
    {
      "epoch": 0.9741858252248381,
      "grad_norm": 1.0433802350286572,
      "learning_rate": 3.4849916605117496e-08,
      "loss": 0.7416,
      "step": 15869
    },
    {
      "epoch": 0.9742472144633045,
      "grad_norm": 1.0735313903787942,
      "learning_rate": 3.468425806767983e-08,
      "loss": 0.7156,
      "step": 15870
    },
    {
      "epoch": 0.9743086037017711,
      "grad_norm": 1.148628731010014,
      "learning_rate": 3.4518993512473456e-08,
      "loss": 0.7056,
      "step": 15871
    },
    {
      "epoch": 0.9743699929402376,
      "grad_norm": 1.0242436225876939,
      "learning_rate": 3.435412294602869e-08,
      "loss": 0.708,
      "step": 15872
    },
    {
      "epoch": 0.9744313821787041,
      "grad_norm": 0.9273035741530581,
      "learning_rate": 3.4189646374866994e-08,
      "loss": 0.6724,
      "step": 15873
    },
    {
      "epoch": 0.9744927714171706,
      "grad_norm": 1.0754482507113203,
      "learning_rate": 3.4025563805488714e-08,
      "loss": 0.7759,
      "step": 15874
    },
    {
      "epoch": 0.974554160655637,
      "grad_norm": 1.0480488795630405,
      "learning_rate": 3.3861875244380896e-08,
      "loss": 0.7176,
      "step": 15875
    },
    {
      "epoch": 0.9746155498941036,
      "grad_norm": 1.0851233231359698,
      "learning_rate": 3.369858069801612e-08,
      "loss": 0.7272,
      "step": 15876
    },
    {
      "epoch": 0.97467693913257,
      "grad_norm": 1.1232091926204464,
      "learning_rate": 3.353568017285036e-08,
      "loss": 0.7504,
      "step": 15877
    },
    {
      "epoch": 0.9747383283710366,
      "grad_norm": 0.9877761273804637,
      "learning_rate": 3.3373173675324e-08,
      "loss": 0.7946,
      "step": 15878
    },
    {
      "epoch": 0.974799717609503,
      "grad_norm": 1.0746459054951876,
      "learning_rate": 3.3211061211860796e-08,
      "loss": 0.6921,
      "step": 15879
    },
    {
      "epoch": 0.9748611068479696,
      "grad_norm": 1.0367890429531372,
      "learning_rate": 3.3049342788871175e-08,
      "loss": 0.6921,
      "step": 15880
    },
    {
      "epoch": 0.974922496086436,
      "grad_norm": 1.0376832003791938,
      "learning_rate": 3.28880184127478e-08,
      "loss": 0.7338,
      "step": 15881
    },
    {
      "epoch": 0.9749838853249025,
      "grad_norm": 1.1122762505080173,
      "learning_rate": 3.27270880898678e-08,
      "loss": 0.7391,
      "step": 15882
    },
    {
      "epoch": 0.9750452745633691,
      "grad_norm": 1.124079624742045,
      "learning_rate": 3.256655182659607e-08,
      "loss": 0.7493,
      "step": 15883
    },
    {
      "epoch": 0.9751066638018355,
      "grad_norm": 1.0550619217807786,
      "learning_rate": 3.2406409629277546e-08,
      "loss": 0.6936,
      "step": 15884
    },
    {
      "epoch": 0.9751680530403021,
      "grad_norm": 1.089064379333353,
      "learning_rate": 3.224666150424383e-08,
      "loss": 0.7311,
      "step": 15885
    },
    {
      "epoch": 0.9752294422787685,
      "grad_norm": 1.0475406843160864,
      "learning_rate": 3.208730745781097e-08,
      "loss": 0.7274,
      "step": 15886
    },
    {
      "epoch": 0.9752908315172351,
      "grad_norm": 0.9261308941247,
      "learning_rate": 3.192834749627949e-08,
      "loss": 0.7194,
      "step": 15887
    },
    {
      "epoch": 0.9753522207557015,
      "grad_norm": 1.0190858729836316,
      "learning_rate": 3.1769781625933246e-08,
      "loss": 0.6677,
      "step": 15888
    },
    {
      "epoch": 0.975413609994168,
      "grad_norm": 0.9123180238544683,
      "learning_rate": 3.161160985304168e-08,
      "loss": 0.764,
      "step": 15889
    },
    {
      "epoch": 0.9754749992326345,
      "grad_norm": 1.073779700915406,
      "learning_rate": 3.145383218385756e-08,
      "loss": 0.7236,
      "step": 15890
    },
    {
      "epoch": 0.975536388471101,
      "grad_norm": 1.2347252915755018,
      "learning_rate": 3.129644862461922e-08,
      "loss": 0.7008,
      "step": 15891
    },
    {
      "epoch": 0.9755977777095675,
      "grad_norm": 1.0242426736043966,
      "learning_rate": 3.113945918154837e-08,
      "loss": 0.6881,
      "step": 15892
    },
    {
      "epoch": 0.975659166948034,
      "grad_norm": 1.0546297363843782,
      "learning_rate": 3.0982863860851145e-08,
      "loss": 0.7047,
      "step": 15893
    },
    {
      "epoch": 0.9757205561865006,
      "grad_norm": 0.9841885289056893,
      "learning_rate": 3.082666266872036e-08,
      "loss": 0.6954,
      "step": 15894
    },
    {
      "epoch": 0.975781945424967,
      "grad_norm": 1.0439312553060327,
      "learning_rate": 3.067085561132998e-08,
      "loss": 0.7039,
      "step": 15895
    },
    {
      "epoch": 0.9758433346634335,
      "grad_norm": 0.957479591509577,
      "learning_rate": 3.0515442694840636e-08,
      "loss": 0.7026,
      "step": 15896
    },
    {
      "epoch": 0.9759047239019,
      "grad_norm": 1.1282914027199578,
      "learning_rate": 3.036042392539629e-08,
      "loss": 0.6994,
      "step": 15897
    },
    {
      "epoch": 0.9759661131403665,
      "grad_norm": 1.046605781287543,
      "learning_rate": 3.0205799309126485e-08,
      "loss": 0.7571,
      "step": 15898
    },
    {
      "epoch": 0.976027502378833,
      "grad_norm": 1.126800204022912,
      "learning_rate": 3.0051568852142996e-08,
      "loss": 0.7553,
      "step": 15899
    },
    {
      "epoch": 0.9760888916172995,
      "grad_norm": 1.0927826307935193,
      "learning_rate": 2.989773256054429e-08,
      "loss": 0.753,
      "step": 15900
    },
    {
      "epoch": 0.9761502808557659,
      "grad_norm": 1.0186856800056043,
      "learning_rate": 2.974429044041105e-08,
      "loss": 0.728,
      "step": 15901
    },
    {
      "epoch": 0.9762116700942325,
      "grad_norm": 1.0765945131973649,
      "learning_rate": 2.9591242497811756e-08,
      "loss": 0.754,
      "step": 15902
    },
    {
      "epoch": 0.9762730593326989,
      "grad_norm": 1.1845826442683747,
      "learning_rate": 2.9438588738796014e-08,
      "loss": 0.7351,
      "step": 15903
    },
    {
      "epoch": 0.9763344485711655,
      "grad_norm": 1.1421276598258894,
      "learning_rate": 2.9286329169398997e-08,
      "loss": 0.7331,
      "step": 15904
    },
    {
      "epoch": 0.976395837809632,
      "grad_norm": 1.0256475705487749,
      "learning_rate": 2.913446379564033e-08,
      "loss": 0.7125,
      "step": 15905
    },
    {
      "epoch": 0.9764572270480985,
      "grad_norm": 1.0167212065025542,
      "learning_rate": 2.898299262352411e-08,
      "loss": 0.6688,
      "step": 15906
    },
    {
      "epoch": 0.976518616286565,
      "grad_norm": 1.0996743509659097,
      "learning_rate": 2.8831915659039976e-08,
      "loss": 0.7459,
      "step": 15907
    },
    {
      "epoch": 0.9765800055250314,
      "grad_norm": 1.0404212751305126,
      "learning_rate": 2.8681232908158718e-08,
      "loss": 0.7053,
      "step": 15908
    },
    {
      "epoch": 0.976641394763498,
      "grad_norm": 1.0584708322614145,
      "learning_rate": 2.8530944376838898e-08,
      "loss": 0.7725,
      "step": 15909
    },
    {
      "epoch": 0.9767027840019644,
      "grad_norm": 1.0082105613700814,
      "learning_rate": 2.8381050071022433e-08,
      "loss": 0.7499,
      "step": 15910
    },
    {
      "epoch": 0.976764173240431,
      "grad_norm": 0.8547767621222975,
      "learning_rate": 2.823154999663458e-08,
      "loss": 0.7071,
      "step": 15911
    },
    {
      "epoch": 0.9768255624788974,
      "grad_norm": 1.0616524110651422,
      "learning_rate": 2.8082444159586164e-08,
      "loss": 0.7393,
      "step": 15912
    },
    {
      "epoch": 0.976886951717364,
      "grad_norm": 1.151804643153672,
      "learning_rate": 2.7933732565773587e-08,
      "loss": 0.6881,
      "step": 15913
    },
    {
      "epoch": 0.9769483409558305,
      "grad_norm": 1.1201493997530163,
      "learning_rate": 2.7785415221073254e-08,
      "loss": 0.7408,
      "step": 15914
    },
    {
      "epoch": 0.9770097301942969,
      "grad_norm": 1.1323507096692587,
      "learning_rate": 2.7637492131351585e-08,
      "loss": 0.7013,
      "step": 15915
    },
    {
      "epoch": 0.9770711194327635,
      "grad_norm": 1.1491481443348406,
      "learning_rate": 2.7489963302455012e-08,
      "loss": 0.6894,
      "step": 15916
    },
    {
      "epoch": 0.9771325086712299,
      "grad_norm": 1.0330996558176566,
      "learning_rate": 2.7342828740217765e-08,
      "loss": 0.7131,
      "step": 15917
    },
    {
      "epoch": 0.9771938979096965,
      "grad_norm": 1.1421648298202718,
      "learning_rate": 2.719608845045518e-08,
      "loss": 0.7418,
      "step": 15918
    },
    {
      "epoch": 0.9772552871481629,
      "grad_norm": 1.0866995985686603,
      "learning_rate": 2.7049742438970406e-08,
      "loss": 0.7143,
      "step": 15919
    },
    {
      "epoch": 0.9773166763866294,
      "grad_norm": 1.0637956842819705,
      "learning_rate": 2.6903790711547694e-08,
      "loss": 0.7255,
      "step": 15920
    },
    {
      "epoch": 0.9773780656250959,
      "grad_norm": 0.9420910286584243,
      "learning_rate": 2.67582332739591e-08,
      "loss": 0.7726,
      "step": 15921
    },
    {
      "epoch": 0.9774394548635624,
      "grad_norm": 1.0213914543632736,
      "learning_rate": 2.6613070131956686e-08,
      "loss": 0.7782,
      "step": 15922
    },
    {
      "epoch": 0.9775008441020289,
      "grad_norm": 1.1306482644412992,
      "learning_rate": 2.6468301291282526e-08,
      "loss": 0.7213,
      "step": 15923
    },
    {
      "epoch": 0.9775622333404954,
      "grad_norm": 1.1021884851322492,
      "learning_rate": 2.6323926757657602e-08,
      "loss": 0.7338,
      "step": 15924
    },
    {
      "epoch": 0.977623622578962,
      "grad_norm": 0.9495949321084733,
      "learning_rate": 2.617994653679068e-08,
      "loss": 0.7141,
      "step": 15925
    },
    {
      "epoch": 0.9776850118174284,
      "grad_norm": 1.0713524087385464,
      "learning_rate": 2.603636063437498e-08,
      "loss": 0.6967,
      "step": 15926
    },
    {
      "epoch": 0.9777464010558949,
      "grad_norm": 1.041039049994215,
      "learning_rate": 2.5893169056085966e-08,
      "loss": 0.7271,
      "step": 15927
    },
    {
      "epoch": 0.9778077902943614,
      "grad_norm": 0.956610737644022,
      "learning_rate": 2.575037180758577e-08,
      "loss": 0.6833,
      "step": 15928
    },
    {
      "epoch": 0.9778691795328279,
      "grad_norm": 1.0293377864182816,
      "learning_rate": 2.5607968894518775e-08,
      "loss": 0.7504,
      "step": 15929
    },
    {
      "epoch": 0.9779305687712944,
      "grad_norm": 0.9363659587981711,
      "learning_rate": 2.5465960322516025e-08,
      "loss": 0.7394,
      "step": 15930
    },
    {
      "epoch": 0.9779919580097609,
      "grad_norm": 1.0082335167836243,
      "learning_rate": 2.532434609719081e-08,
      "loss": 0.7071,
      "step": 15931
    },
    {
      "epoch": 0.9780533472482273,
      "grad_norm": 1.0708878855242296,
      "learning_rate": 2.5183126224143094e-08,
      "loss": 0.7414,
      "step": 15932
    },
    {
      "epoch": 0.9781147364866939,
      "grad_norm": 0.9858511841955694,
      "learning_rate": 2.5042300708955082e-08,
      "loss": 0.6515,
      "step": 15933
    },
    {
      "epoch": 0.9781761257251603,
      "grad_norm": 1.0550025149457753,
      "learning_rate": 2.4901869557194537e-08,
      "loss": 0.6823,
      "step": 15934
    },
    {
      "epoch": 0.9782375149636269,
      "grad_norm": 0.9539473063525408,
      "learning_rate": 2.4761832774414794e-08,
      "loss": 0.7481,
      "step": 15935
    },
    {
      "epoch": 0.9782989042020934,
      "grad_norm": 1.1397318382508628,
      "learning_rate": 2.462219036615032e-08,
      "loss": 0.7353,
      "step": 15936
    },
    {
      "epoch": 0.9783602934405599,
      "grad_norm": 0.9472051829960706,
      "learning_rate": 2.4482942337922255e-08,
      "loss": 0.6898,
      "step": 15937
    },
    {
      "epoch": 0.9784216826790264,
      "grad_norm": 1.0808187645304506,
      "learning_rate": 2.43440886952373e-08,
      "loss": 0.719,
      "step": 15938
    },
    {
      "epoch": 0.9784830719174928,
      "grad_norm": 1.097790002670561,
      "learning_rate": 2.420562944358329e-08,
      "loss": 0.6632,
      "step": 15939
    },
    {
      "epoch": 0.9785444611559594,
      "grad_norm": 1.0731127618810465,
      "learning_rate": 2.4067564588435844e-08,
      "loss": 0.7162,
      "step": 15940
    },
    {
      "epoch": 0.9786058503944258,
      "grad_norm": 1.1914054147762267,
      "learning_rate": 2.392989413525171e-08,
      "loss": 0.796,
      "step": 15941
    },
    {
      "epoch": 0.9786672396328924,
      "grad_norm": 1.1135102570024422,
      "learning_rate": 2.3792618089475416e-08,
      "loss": 0.7579,
      "step": 15942
    },
    {
      "epoch": 0.9787286288713588,
      "grad_norm": 1.1421326824277467,
      "learning_rate": 2.365573645653263e-08,
      "loss": 0.7311,
      "step": 15943
    },
    {
      "epoch": 0.9787900181098254,
      "grad_norm": 1.0215052198814722,
      "learning_rate": 2.3519249241836794e-08,
      "loss": 0.7315,
      "step": 15944
    },
    {
      "epoch": 0.9788514073482918,
      "grad_norm": 1.2219653834321835,
      "learning_rate": 2.3383156450782486e-08,
      "loss": 0.7067,
      "step": 15945
    },
    {
      "epoch": 0.9789127965867583,
      "grad_norm": 1.0868285837289828,
      "learning_rate": 2.3247458088749842e-08,
      "loss": 0.7386,
      "step": 15946
    },
    {
      "epoch": 0.9789741858252249,
      "grad_norm": 1.0267435571103545,
      "learning_rate": 2.311215416110568e-08,
      "loss": 0.7027,
      "step": 15947
    },
    {
      "epoch": 0.9790355750636913,
      "grad_norm": 1.038924447659107,
      "learning_rate": 2.297724467319795e-08,
      "loss": 0.8068,
      "step": 15948
    },
    {
      "epoch": 0.9790969643021579,
      "grad_norm": 1.0154184782216322,
      "learning_rate": 2.2842729630361272e-08,
      "loss": 0.7083,
      "step": 15949
    },
    {
      "epoch": 0.9791583535406243,
      "grad_norm": 0.980167563201097,
      "learning_rate": 2.27086090379125e-08,
      "loss": 0.6898,
      "step": 15950
    },
    {
      "epoch": 0.9792197427790909,
      "grad_norm": 1.08023420905896,
      "learning_rate": 2.2574882901154062e-08,
      "loss": 0.7479,
      "step": 15951
    },
    {
      "epoch": 0.9792811320175573,
      "grad_norm": 1.0538098826022315,
      "learning_rate": 2.2441551225375058e-08,
      "loss": 0.6732,
      "step": 15952
    },
    {
      "epoch": 0.9793425212560238,
      "grad_norm": 1.0927540854470281,
      "learning_rate": 2.23086140158435e-08,
      "loss": 0.6996,
      "step": 15953
    },
    {
      "epoch": 0.9794039104944903,
      "grad_norm": 1.1453105562670025,
      "learning_rate": 2.2176071277817402e-08,
      "loss": 0.7671,
      "step": 15954
    },
    {
      "epoch": 0.9794652997329568,
      "grad_norm": 1.0454760008669566,
      "learning_rate": 2.2043923016537015e-08,
      "loss": 0.752,
      "step": 15955
    },
    {
      "epoch": 0.9795266889714234,
      "grad_norm": 1.0040982914800476,
      "learning_rate": 2.1912169237225946e-08,
      "loss": 0.6495,
      "step": 15956
    },
    {
      "epoch": 0.9795880782098898,
      "grad_norm": 1.1320075744313507,
      "learning_rate": 2.178080994509335e-08,
      "loss": 0.7462,
      "step": 15957
    },
    {
      "epoch": 0.9796494674483563,
      "grad_norm": 1.0271687977399748,
      "learning_rate": 2.164984514533286e-08,
      "loss": 0.7295,
      "step": 15958
    },
    {
      "epoch": 0.9797108566868228,
      "grad_norm": 0.9638933866372628,
      "learning_rate": 2.1519274843121442e-08,
      "loss": 0.6984,
      "step": 15959
    },
    {
      "epoch": 0.9797722459252893,
      "grad_norm": 0.997361401721869,
      "learning_rate": 2.138909904362163e-08,
      "loss": 0.7247,
      "step": 15960
    },
    {
      "epoch": 0.9798336351637558,
      "grad_norm": 1.114492884140878,
      "learning_rate": 2.1259317751980422e-08,
      "loss": 0.7209,
      "step": 15961
    },
    {
      "epoch": 0.9798950244022223,
      "grad_norm": 1.011370078175868,
      "learning_rate": 2.112993097332927e-08,
      "loss": 0.7552,
      "step": 15962
    },
    {
      "epoch": 0.9799564136406888,
      "grad_norm": 1.0090463070763143,
      "learning_rate": 2.100093871278186e-08,
      "loss": 0.7005,
      "step": 15963
    },
    {
      "epoch": 0.9800178028791553,
      "grad_norm": 1.0533436449088232,
      "learning_rate": 2.0872340975438555e-08,
      "loss": 0.7241,
      "step": 15964
    },
    {
      "epoch": 0.9800791921176217,
      "grad_norm": 1.0746070403582872,
      "learning_rate": 2.0744137766384175e-08,
      "loss": 0.7628,
      "step": 15965
    },
    {
      "epoch": 0.9801405813560883,
      "grad_norm": 1.055833642285508,
      "learning_rate": 2.0616329090685782e-08,
      "loss": 0.7122,
      "step": 15966
    },
    {
      "epoch": 0.9802019705945548,
      "grad_norm": 1.0632454664112596,
      "learning_rate": 2.048891495339933e-08,
      "loss": 0.7152,
      "step": 15967
    },
    {
      "epoch": 0.9802633598330213,
      "grad_norm": 1.2360689669173992,
      "learning_rate": 2.036189535955857e-08,
      "loss": 0.7404,
      "step": 15968
    },
    {
      "epoch": 0.9803247490714878,
      "grad_norm": 0.8789514596979328,
      "learning_rate": 2.023527031418726e-08,
      "loss": 0.7074,
      "step": 15969
    },
    {
      "epoch": 0.9803861383099542,
      "grad_norm": 0.9794090296494032,
      "learning_rate": 2.010903982229251e-08,
      "loss": 0.7235,
      "step": 15970
    },
    {
      "epoch": 0.9804475275484208,
      "grad_norm": 1.2085666423933623,
      "learning_rate": 1.9983203888862547e-08,
      "loss": 0.7177,
      "step": 15971
    },
    {
      "epoch": 0.9805089167868872,
      "grad_norm": 1.1151568523544788,
      "learning_rate": 1.985776251887339e-08,
      "loss": 0.7191,
      "step": 15972
    },
    {
      "epoch": 0.9805703060253538,
      "grad_norm": 1.0358151000536036,
      "learning_rate": 1.973271571728441e-08,
      "loss": 0.7034,
      "step": 15973
    },
    {
      "epoch": 0.9806316952638202,
      "grad_norm": 1.0767069376504992,
      "learning_rate": 1.960806348903943e-08,
      "loss": 0.7171,
      "step": 15974
    },
    {
      "epoch": 0.9806930845022868,
      "grad_norm": 0.5940778512551198,
      "learning_rate": 1.9483805839066726e-08,
      "loss": 0.6438,
      "step": 15975
    },
    {
      "epoch": 0.9807544737407532,
      "grad_norm": 1.2586067192300059,
      "learning_rate": 1.9359942772279038e-08,
      "loss": 0.745,
      "step": 15976
    },
    {
      "epoch": 0.9808158629792197,
      "grad_norm": 1.117479628116604,
      "learning_rate": 1.9236474293572448e-08,
      "loss": 0.708,
      "step": 15977
    },
    {
      "epoch": 0.9808772522176863,
      "grad_norm": 1.1161185089730945,
      "learning_rate": 1.911340040782972e-08,
      "loss": 0.7547,
      "step": 15978
    },
    {
      "epoch": 0.9809386414561527,
      "grad_norm": 1.0230535993766543,
      "learning_rate": 1.8990721119914734e-08,
      "loss": 0.7064,
      "step": 15979
    },
    {
      "epoch": 0.9810000306946193,
      "grad_norm": 1.1718003869429423,
      "learning_rate": 1.886843643467917e-08,
      "loss": 0.7236,
      "step": 15980
    },
    {
      "epoch": 0.9810614199330857,
      "grad_norm": 1.072474614910985,
      "learning_rate": 1.874654635695805e-08,
      "loss": 0.7203,
      "step": 15981
    },
    {
      "epoch": 0.9811228091715523,
      "grad_norm": 1.099307057992944,
      "learning_rate": 1.8625050891568632e-08,
      "loss": 0.7191,
      "step": 15982
    },
    {
      "epoch": 0.9811841984100187,
      "grad_norm": 0.9684645219950646,
      "learning_rate": 1.8503950043314845e-08,
      "loss": 0.7587,
      "step": 15983
    },
    {
      "epoch": 0.9812455876484852,
      "grad_norm": 1.139298677110735,
      "learning_rate": 1.8383243816985087e-08,
      "loss": 0.7973,
      "step": 15984
    },
    {
      "epoch": 0.9813069768869517,
      "grad_norm": 1.1867484136537025,
      "learning_rate": 1.8262932217351094e-08,
      "loss": 0.7597,
      "step": 15985
    },
    {
      "epoch": 0.9813683661254182,
      "grad_norm": 1.0768672664046346,
      "learning_rate": 1.814301524916906e-08,
      "loss": 0.7575,
      "step": 15986
    },
    {
      "epoch": 0.9814297553638847,
      "grad_norm": 0.978261719810162,
      "learning_rate": 1.8023492917180752e-08,
      "loss": 0.6942,
      "step": 15987
    },
    {
      "epoch": 0.9814911446023512,
      "grad_norm": 1.0161603613699244,
      "learning_rate": 1.7904365226111276e-08,
      "loss": 0.6928,
      "step": 15988
    },
    {
      "epoch": 0.9815525338408178,
      "grad_norm": 1.1889455634052795,
      "learning_rate": 1.77856321806702e-08,
      "loss": 0.7348,
      "step": 15989
    },
    {
      "epoch": 0.9816139230792842,
      "grad_norm": 1.0453949905613702,
      "learning_rate": 1.7667293785551543e-08,
      "loss": 0.7414,
      "step": 15990
    },
    {
      "epoch": 0.9816753123177507,
      "grad_norm": 1.1533494972697687,
      "learning_rate": 1.7549350045433788e-08,
      "loss": 0.7543,
      "step": 15991
    },
    {
      "epoch": 0.9817367015562172,
      "grad_norm": 0.9958261876094904,
      "learning_rate": 1.7431800964980984e-08,
      "loss": 0.745,
      "step": 15992
    },
    {
      "epoch": 0.9817980907946837,
      "grad_norm": 1.0205164909235025,
      "learning_rate": 1.73146465488383e-08,
      "loss": 0.6601,
      "step": 15993
    },
    {
      "epoch": 0.9818594800331502,
      "grad_norm": 1.0189352912441139,
      "learning_rate": 1.7197886801639806e-08,
      "loss": 0.7438,
      "step": 15994
    },
    {
      "epoch": 0.9819208692716167,
      "grad_norm": 1.1382642362369686,
      "learning_rate": 1.7081521728000704e-08,
      "loss": 0.7508,
      "step": 15995
    },
    {
      "epoch": 0.9819822585100831,
      "grad_norm": 0.9896719411495439,
      "learning_rate": 1.6965551332520648e-08,
      "loss": 0.7512,
      "step": 15996
    },
    {
      "epoch": 0.9820436477485497,
      "grad_norm": 1.0353297202019816,
      "learning_rate": 1.6849975619785963e-08,
      "loss": 0.7166,
      "step": 15997
    },
    {
      "epoch": 0.9821050369870161,
      "grad_norm": 1.104011415789741,
      "learning_rate": 1.6734794594365224e-08,
      "loss": 0.7084,
      "step": 15998
    },
    {
      "epoch": 0.9821664262254827,
      "grad_norm": 1.0839566840787316,
      "learning_rate": 1.662000826081256e-08,
      "loss": 0.7112,
      "step": 15999
    },
    {
      "epoch": 0.9822278154639492,
      "grad_norm": 1.0458119038090448,
      "learning_rate": 1.6505616623665455e-08,
      "loss": 0.7387,
      "step": 16000
    },
    {
      "epoch": 0.9822892047024157,
      "grad_norm": 0.9886136812387191,
      "learning_rate": 1.6391619687446957e-08,
      "loss": 0.7282,
      "step": 16001
    },
    {
      "epoch": 0.9823505939408822,
      "grad_norm": 0.9599719897616166,
      "learning_rate": 1.6278017456663464e-08,
      "loss": 0.6858,
      "step": 16002
    },
    {
      "epoch": 0.9824119831793486,
      "grad_norm": 1.038514211429929,
      "learning_rate": 1.6164809935806935e-08,
      "loss": 0.7284,
      "step": 16003
    },
    {
      "epoch": 0.9824733724178152,
      "grad_norm": 1.0806420551141918,
      "learning_rate": 1.605199712935268e-08,
      "loss": 0.7103,
      "step": 16004
    },
    {
      "epoch": 0.9825347616562816,
      "grad_norm": 1.0914119113356224,
      "learning_rate": 1.5939579041761577e-08,
      "loss": 0.7066,
      "step": 16005
    },
    {
      "epoch": 0.9825961508947482,
      "grad_norm": 1.0513780159145056,
      "learning_rate": 1.5827555677476736e-08,
      "loss": 0.6919,
      "step": 16006
    },
    {
      "epoch": 0.9826575401332146,
      "grad_norm": 1.0354146782959066,
      "learning_rate": 1.5715927040927947e-08,
      "loss": 0.686,
      "step": 16007
    },
    {
      "epoch": 0.9827189293716811,
      "grad_norm": 1.1602582448066792,
      "learning_rate": 1.5604693136528348e-08,
      "loss": 0.7819,
      "step": 16008
    },
    {
      "epoch": 0.9827803186101477,
      "grad_norm": 1.0704100830494954,
      "learning_rate": 1.5493853968675533e-08,
      "loss": 0.7956,
      "step": 16009
    },
    {
      "epoch": 0.9828417078486141,
      "grad_norm": 1.002061474986515,
      "learning_rate": 1.538340954175044e-08,
      "loss": 0.7373,
      "step": 16010
    },
    {
      "epoch": 0.9829030970870807,
      "grad_norm": 0.9649147195920073,
      "learning_rate": 1.5273359860121796e-08,
      "loss": 0.7251,
      "step": 16011
    },
    {
      "epoch": 0.9829644863255471,
      "grad_norm": 1.0696129593464339,
      "learning_rate": 1.5163704928139456e-08,
      "loss": 0.7319,
      "step": 16012
    },
    {
      "epoch": 0.9830258755640137,
      "grad_norm": 0.9866704523102083,
      "learning_rate": 1.505444475013773e-08,
      "loss": 0.7009,
      "step": 16013
    },
    {
      "epoch": 0.9830872648024801,
      "grad_norm": 1.1400175986282228,
      "learning_rate": 1.494557933043761e-08,
      "loss": 0.7979,
      "step": 16014
    },
    {
      "epoch": 0.9831486540409466,
      "grad_norm": 1.0772019414624017,
      "learning_rate": 1.4837108673342315e-08,
      "loss": 0.7512,
      "step": 16015
    },
    {
      "epoch": 0.9832100432794131,
      "grad_norm": 1.0915064758684347,
      "learning_rate": 1.472903278314175e-08,
      "loss": 0.6735,
      "step": 16016
    },
    {
      "epoch": 0.9832714325178796,
      "grad_norm": 1.0951410857749226,
      "learning_rate": 1.4621351664105831e-08,
      "loss": 0.6875,
      "step": 16017
    },
    {
      "epoch": 0.9833328217563461,
      "grad_norm": 1.1139117413056463,
      "learning_rate": 1.4514065320493376e-08,
      "loss": 0.7361,
      "step": 16018
    },
    {
      "epoch": 0.9833942109948126,
      "grad_norm": 1.0737567448708163,
      "learning_rate": 1.4407173756547654e-08,
      "loss": 0.7183,
      "step": 16019
    },
    {
      "epoch": 0.9834556002332792,
      "grad_norm": 1.028242304476374,
      "learning_rate": 1.4300676976491957e-08,
      "loss": 0.7606,
      "step": 16020
    },
    {
      "epoch": 0.9835169894717456,
      "grad_norm": 1.0868859263010642,
      "learning_rate": 1.4194574984537357e-08,
      "loss": 0.7194,
      "step": 16021
    },
    {
      "epoch": 0.9835783787102121,
      "grad_norm": 0.975564172212722,
      "learning_rate": 1.408886778487939e-08,
      "loss": 0.7592,
      "step": 16022
    },
    {
      "epoch": 0.9836397679486786,
      "grad_norm": 0.9535195009320856,
      "learning_rate": 1.3983555381698044e-08,
      "loss": 0.7328,
      "step": 16023
    },
    {
      "epoch": 0.9837011571871451,
      "grad_norm": 1.0737751249926701,
      "learning_rate": 1.3878637779154437e-08,
      "loss": 0.7401,
      "step": 16024
    },
    {
      "epoch": 0.9837625464256116,
      "grad_norm": 1.1270484857412522,
      "learning_rate": 1.3774114981397469e-08,
      "loss": 0.7469,
      "step": 16025
    },
    {
      "epoch": 0.9838239356640781,
      "grad_norm": 1.1278481452521891,
      "learning_rate": 1.3669986992561613e-08,
      "loss": 0.7633,
      "step": 16026
    },
    {
      "epoch": 0.9838853249025445,
      "grad_norm": 1.1058770283789956,
      "learning_rate": 1.3566253816760245e-08,
      "loss": 0.7414,
      "step": 16027
    },
    {
      "epoch": 0.9839467141410111,
      "grad_norm": 1.0255895697450244,
      "learning_rate": 1.3462915458096748e-08,
      "loss": 0.7627,
      "step": 16028
    },
    {
      "epoch": 0.9840081033794775,
      "grad_norm": 0.9650782154288567,
      "learning_rate": 1.3359971920655634e-08,
      "loss": 0.6544,
      "step": 16029
    },
    {
      "epoch": 0.9840694926179441,
      "grad_norm": 0.9580731599087391,
      "learning_rate": 1.325742320850698e-08,
      "loss": 0.7581,
      "step": 16030
    },
    {
      "epoch": 0.9841308818564106,
      "grad_norm": 1.0324206490230217,
      "learning_rate": 1.3155269325706432e-08,
      "loss": 0.717,
      "step": 16031
    },
    {
      "epoch": 0.9841922710948771,
      "grad_norm": 1.1186772686617457,
      "learning_rate": 1.3053510276289649e-08,
      "loss": 0.7553,
      "step": 16032
    },
    {
      "epoch": 0.9842536603333436,
      "grad_norm": 1.060494949955841,
      "learning_rate": 1.29521460642823e-08,
      "loss": 0.7679,
      "step": 16033
    },
    {
      "epoch": 0.98431504957181,
      "grad_norm": 0.9694380638657009,
      "learning_rate": 1.2851176693691182e-08,
      "loss": 0.6944,
      "step": 16034
    },
    {
      "epoch": 0.9843764388102766,
      "grad_norm": 0.8960562911052534,
      "learning_rate": 1.2750602168508652e-08,
      "loss": 0.7443,
      "step": 16035
    },
    {
      "epoch": 0.984437828048743,
      "grad_norm": 0.5906623992402201,
      "learning_rate": 1.2650422492710424e-08,
      "loss": 0.6186,
      "step": 16036
    },
    {
      "epoch": 0.9844992172872096,
      "grad_norm": 1.0776405882912177,
      "learning_rate": 1.255063767025666e-08,
      "loss": 0.7733,
      "step": 16037
    },
    {
      "epoch": 0.984560606525676,
      "grad_norm": 1.121958687826892,
      "learning_rate": 1.2451247705091985e-08,
      "loss": 0.7441,
      "step": 16038
    },
    {
      "epoch": 0.9846219957641426,
      "grad_norm": 1.0337919969973621,
      "learning_rate": 1.2352252601147696e-08,
      "loss": 0.7423,
      "step": 16039
    },
    {
      "epoch": 0.984683385002609,
      "grad_norm": 1.0510021104941487,
      "learning_rate": 1.2253652362336222e-08,
      "loss": 0.7156,
      "step": 16040
    },
    {
      "epoch": 0.9847447742410755,
      "grad_norm": 1.107568343740764,
      "learning_rate": 1.2155446992556664e-08,
      "loss": 0.7427,
      "step": 16041
    },
    {
      "epoch": 0.9848061634795421,
      "grad_norm": 1.0792914578887585,
      "learning_rate": 1.2057636495690362e-08,
      "loss": 0.7225,
      "step": 16042
    },
    {
      "epoch": 0.9848675527180085,
      "grad_norm": 1.0238119920449757,
      "learning_rate": 1.1960220875604222e-08,
      "loss": 0.7078,
      "step": 16043
    },
    {
      "epoch": 0.9849289419564751,
      "grad_norm": 0.942495358795749,
      "learning_rate": 1.186320013615183e-08,
      "loss": 0.7178,
      "step": 16044
    },
    {
      "epoch": 0.9849903311949415,
      "grad_norm": 0.9018541844272563,
      "learning_rate": 1.1766574281166787e-08,
      "loss": 0.707,
      "step": 16045
    },
    {
      "epoch": 0.985051720433408,
      "grad_norm": 0.9019112881566739,
      "learning_rate": 1.1670343314469367e-08,
      "loss": 0.7224,
      "step": 16046
    },
    {
      "epoch": 0.9851131096718745,
      "grad_norm": 0.9917053121478752,
      "learning_rate": 1.1574507239865418e-08,
      "loss": 0.6742,
      "step": 16047
    },
    {
      "epoch": 0.985174498910341,
      "grad_norm": 1.1525088732194744,
      "learning_rate": 1.1479066061143018e-08,
      "loss": 0.7225,
      "step": 16048
    },
    {
      "epoch": 0.9852358881488075,
      "grad_norm": 1.0220209459976097,
      "learning_rate": 1.1384019782075818e-08,
      "loss": 0.7172,
      "step": 16049
    },
    {
      "epoch": 0.985297277387274,
      "grad_norm": 0.9517045254960216,
      "learning_rate": 1.1289368406419698e-08,
      "loss": 0.725,
      "step": 16050
    },
    {
      "epoch": 0.9853586666257405,
      "grad_norm": 1.0450561032073868,
      "learning_rate": 1.1195111937919444e-08,
      "loss": 0.7233,
      "step": 16051
    },
    {
      "epoch": 0.985420055864207,
      "grad_norm": 1.212020117268933,
      "learning_rate": 1.1101250380300965e-08,
      "loss": 0.7121,
      "step": 16052
    },
    {
      "epoch": 0.9854814451026735,
      "grad_norm": 1.1482475065776103,
      "learning_rate": 1.1007783737272403e-08,
      "loss": 0.76,
      "step": 16053
    },
    {
      "epoch": 0.98554283434114,
      "grad_norm": 1.1506456664725424,
      "learning_rate": 1.0914712012533023e-08,
      "loss": 0.7395,
      "step": 16054
    },
    {
      "epoch": 0.9856042235796065,
      "grad_norm": 1.0774124023536071,
      "learning_rate": 1.0822035209758775e-08,
      "loss": 0.7658,
      "step": 16055
    },
    {
      "epoch": 0.985665612818073,
      "grad_norm": 1.1113581104836758,
      "learning_rate": 1.072975333261672e-08,
      "loss": 0.7128,
      "step": 16056
    },
    {
      "epoch": 0.9857270020565395,
      "grad_norm": 0.9635518893697106,
      "learning_rate": 1.0637866384752837e-08,
      "loss": 0.732,
      "step": 16057
    },
    {
      "epoch": 0.985788391295006,
      "grad_norm": 0.9416650065806825,
      "learning_rate": 1.0546374369801992e-08,
      "loss": 0.7109,
      "step": 16058
    },
    {
      "epoch": 0.9858497805334725,
      "grad_norm": 1.0169520156214409,
      "learning_rate": 1.0455277291380183e-08,
      "loss": 0.6736,
      "step": 16059
    },
    {
      "epoch": 0.9859111697719389,
      "grad_norm": 0.9882869248224679,
      "learning_rate": 1.0364575153087863e-08,
      "loss": 0.7404,
      "step": 16060
    },
    {
      "epoch": 0.9859725590104055,
      "grad_norm": 1.189143649826372,
      "learning_rate": 1.0274267958513273e-08,
      "loss": 0.7546,
      "step": 16061
    },
    {
      "epoch": 0.986033948248872,
      "grad_norm": 1.0153929512052466,
      "learning_rate": 1.018435571122578e-08,
      "loss": 0.7348,
      "step": 16062
    },
    {
      "epoch": 0.9860953374873385,
      "grad_norm": 1.068873493206477,
      "learning_rate": 1.0094838414780316e-08,
      "loss": 0.7293,
      "step": 16063
    },
    {
      "epoch": 0.986156726725805,
      "grad_norm": 1.064367570002799,
      "learning_rate": 1.0005716072714055e-08,
      "loss": 0.7449,
      "step": 16064
    },
    {
      "epoch": 0.9862181159642714,
      "grad_norm": 1.1962949989114409,
      "learning_rate": 9.916988688553065e-09,
      "loss": 0.7708,
      "step": 16065
    },
    {
      "epoch": 0.986279505202738,
      "grad_norm": 1.047402089750412,
      "learning_rate": 9.828656265804537e-09,
      "loss": 0.7326,
      "step": 16066
    },
    {
      "epoch": 0.9863408944412044,
      "grad_norm": 1.1020640835603748,
      "learning_rate": 9.740718807960125e-09,
      "loss": 0.7695,
      "step": 16067
    },
    {
      "epoch": 0.986402283679671,
      "grad_norm": 0.9663568914499429,
      "learning_rate": 9.653176318497048e-09,
      "loss": 0.7235,
      "step": 16068
    },
    {
      "epoch": 0.9864636729181374,
      "grad_norm": 1.1323359635679753,
      "learning_rate": 9.56602880087587e-09,
      "loss": 0.7675,
      "step": 16069
    },
    {
      "epoch": 0.986525062156604,
      "grad_norm": 0.9848240394604864,
      "learning_rate": 9.479276258541614e-09,
      "loss": 0.7169,
      "step": 16070
    },
    {
      "epoch": 0.9865864513950704,
      "grad_norm": 1.0206680501747847,
      "learning_rate": 9.392918694924869e-09,
      "loss": 0.7228,
      "step": 16071
    },
    {
      "epoch": 0.9866478406335369,
      "grad_norm": 1.0317723368015377,
      "learning_rate": 9.30695611344068e-09,
      "loss": 0.7051,
      "step": 16072
    },
    {
      "epoch": 0.9867092298720035,
      "grad_norm": 0.9800910155798642,
      "learning_rate": 9.221388517485218e-09,
      "loss": 0.7534,
      "step": 16073
    },
    {
      "epoch": 0.9867706191104699,
      "grad_norm": 1.0864117278899488,
      "learning_rate": 9.136215910442448e-09,
      "loss": 0.7388,
      "step": 16074
    },
    {
      "epoch": 0.9868320083489365,
      "grad_norm": 1.006171584853988,
      "learning_rate": 9.05143829568078e-09,
      "loss": 0.775,
      "step": 16075
    },
    {
      "epoch": 0.9868933975874029,
      "grad_norm": 1.050175734201429,
      "learning_rate": 8.967055676550874e-09,
      "loss": 0.7169,
      "step": 16076
    },
    {
      "epoch": 0.9869547868258695,
      "grad_norm": 1.196006081967551,
      "learning_rate": 8.883068056390053e-09,
      "loss": 0.697,
      "step": 16077
    },
    {
      "epoch": 0.9870161760643359,
      "grad_norm": 1.061620325178529,
      "learning_rate": 8.79947543851567e-09,
      "loss": 0.6831,
      "step": 16078
    },
    {
      "epoch": 0.9870775653028024,
      "grad_norm": 1.1620001460016744,
      "learning_rate": 8.716277826236186e-09,
      "loss": 0.7505,
      "step": 16079
    },
    {
      "epoch": 0.9871389545412689,
      "grad_norm": 1.0272773188741888,
      "learning_rate": 8.633475222838972e-09,
      "loss": 0.6923,
      "step": 16080
    },
    {
      "epoch": 0.9872003437797354,
      "grad_norm": 1.0768652873884057,
      "learning_rate": 8.551067631599186e-09,
      "loss": 0.7707,
      "step": 16081
    },
    {
      "epoch": 0.9872617330182019,
      "grad_norm": 0.8909110274208285,
      "learning_rate": 8.469055055772002e-09,
      "loss": 0.7113,
      "step": 16082
    },
    {
      "epoch": 0.9873231222566684,
      "grad_norm": 1.0792602395885535,
      "learning_rate": 8.387437498602602e-09,
      "loss": 0.7106,
      "step": 16083
    },
    {
      "epoch": 0.987384511495135,
      "grad_norm": 1.0723647732342199,
      "learning_rate": 8.306214963316183e-09,
      "loss": 0.7257,
      "step": 16084
    },
    {
      "epoch": 0.9874459007336014,
      "grad_norm": 1.0162367654358573,
      "learning_rate": 8.225387453124623e-09,
      "loss": 0.7195,
      "step": 16085
    },
    {
      "epoch": 0.9875072899720679,
      "grad_norm": 1.074301214133178,
      "learning_rate": 8.144954971223141e-09,
      "loss": 0.7317,
      "step": 16086
    },
    {
      "epoch": 0.9875686792105344,
      "grad_norm": 1.0581634029649727,
      "learning_rate": 8.064917520791416e-09,
      "loss": 0.7371,
      "step": 16087
    },
    {
      "epoch": 0.9876300684490009,
      "grad_norm": 1.0022821941313542,
      "learning_rate": 7.985275104994694e-09,
      "loss": 0.7019,
      "step": 16088
    },
    {
      "epoch": 0.9876914576874674,
      "grad_norm": 1.0363571466973538,
      "learning_rate": 7.906027726981568e-09,
      "loss": 0.7605,
      "step": 16089
    },
    {
      "epoch": 0.9877528469259339,
      "grad_norm": 0.9821607305577357,
      "learning_rate": 7.827175389883979e-09,
      "loss": 0.716,
      "step": 16090
    },
    {
      "epoch": 0.9878142361644003,
      "grad_norm": 1.1190624947174685,
      "learning_rate": 7.74871809682054e-09,
      "loss": 0.7644,
      "step": 16091
    },
    {
      "epoch": 0.9878756254028669,
      "grad_norm": 1.1524575199768514,
      "learning_rate": 7.670655850892106e-09,
      "loss": 0.8056,
      "step": 16092
    },
    {
      "epoch": 0.9879370146413333,
      "grad_norm": 0.8976029128623594,
      "learning_rate": 7.592988655185097e-09,
      "loss": 0.703,
      "step": 16093
    },
    {
      "epoch": 0.9879984038797999,
      "grad_norm": 1.0143552504907487,
      "learning_rate": 7.515716512770388e-09,
      "loss": 0.6691,
      "step": 16094
    },
    {
      "epoch": 0.9880597931182664,
      "grad_norm": 1.1151217318323725,
      "learning_rate": 7.438839426703315e-09,
      "loss": 0.7095,
      "step": 16095
    },
    {
      "epoch": 0.9881211823567329,
      "grad_norm": 1.0312882502485359,
      "learning_rate": 7.362357400023668e-09,
      "loss": 0.7396,
      "step": 16096
    },
    {
      "epoch": 0.9881825715951994,
      "grad_norm": 1.14692841482414,
      "learning_rate": 7.286270435753473e-09,
      "loss": 0.7227,
      "step": 16097
    },
    {
      "epoch": 0.9882439608336658,
      "grad_norm": 1.0612018514904407,
      "learning_rate": 7.210578536901436e-09,
      "loss": 0.6702,
      "step": 16098
    },
    {
      "epoch": 0.9883053500721324,
      "grad_norm": 1.063944078510042,
      "learning_rate": 7.135281706461828e-09,
      "loss": 0.7234,
      "step": 16099
    },
    {
      "epoch": 0.9883667393105988,
      "grad_norm": 1.0691646908532062,
      "learning_rate": 7.060379947408935e-09,
      "loss": 0.74,
      "step": 16100
    },
    {
      "epoch": 0.9884281285490654,
      "grad_norm": 1.1194824997502038,
      "learning_rate": 6.985873262705945e-09,
      "loss": 0.7305,
      "step": 16101
    },
    {
      "epoch": 0.9884895177875318,
      "grad_norm": 1.082396090702226,
      "learning_rate": 6.9117616552971664e-09,
      "loss": 0.7497,
      "step": 16102
    },
    {
      "epoch": 0.9885509070259983,
      "grad_norm": 0.9247832997062743,
      "learning_rate": 6.838045128113591e-09,
      "loss": 0.7237,
      "step": 16103
    },
    {
      "epoch": 0.9886122962644648,
      "grad_norm": 1.0671053040238478,
      "learning_rate": 6.764723684068442e-09,
      "loss": 0.7067,
      "step": 16104
    },
    {
      "epoch": 0.9886736855029313,
      "grad_norm": 1.126648228044208,
      "learning_rate": 6.691797326062732e-09,
      "loss": 0.7594,
      "step": 16105
    },
    {
      "epoch": 0.9887350747413979,
      "grad_norm": 1.1089797136139175,
      "learning_rate": 6.619266056977491e-09,
      "loss": 0.7464,
      "step": 16106
    },
    {
      "epoch": 0.9887964639798643,
      "grad_norm": 1.0705401967925547,
      "learning_rate": 6.547129879680425e-09,
      "loss": 0.7014,
      "step": 16107
    },
    {
      "epoch": 0.9888578532183309,
      "grad_norm": 1.0396259278337212,
      "learning_rate": 6.475388797024807e-09,
      "loss": 0.7027,
      "step": 16108
    },
    {
      "epoch": 0.9889192424567973,
      "grad_norm": 1.0595569504204163,
      "learning_rate": 6.404042811846145e-09,
      "loss": 0.7495,
      "step": 16109
    },
    {
      "epoch": 0.9889806316952638,
      "grad_norm": 1.1486217041215658,
      "learning_rate": 6.333091926965518e-09,
      "loss": 0.7396,
      "step": 16110
    },
    {
      "epoch": 0.9890420209337303,
      "grad_norm": 1.0477659223208025,
      "learning_rate": 6.262536145187348e-09,
      "loss": 0.7423,
      "step": 16111
    },
    {
      "epoch": 0.9891034101721968,
      "grad_norm": 0.9647353724666602,
      "learning_rate": 6.192375469301626e-09,
      "loss": 0.7364,
      "step": 16112
    },
    {
      "epoch": 0.9891647994106633,
      "grad_norm": 1.0237698303909295,
      "learning_rate": 6.122609902081689e-09,
      "loss": 0.7221,
      "step": 16113
    },
    {
      "epoch": 0.9892261886491298,
      "grad_norm": 1.0993278290501218,
      "learning_rate": 6.05323944628533e-09,
      "loss": 0.7366,
      "step": 16114
    },
    {
      "epoch": 0.9892875778875964,
      "grad_norm": 0.9825357148718837,
      "learning_rate": 5.9842641046570225e-09,
      "loss": 0.7833,
      "step": 16115
    },
    {
      "epoch": 0.9893489671260628,
      "grad_norm": 1.0695909429872912,
      "learning_rate": 5.915683879921253e-09,
      "loss": 0.7703,
      "step": 16116
    },
    {
      "epoch": 0.9894103563645293,
      "grad_norm": 1.053264958663328,
      "learning_rate": 5.847498774791405e-09,
      "loss": 0.7282,
      "step": 16117
    },
    {
      "epoch": 0.9894717456029958,
      "grad_norm": 1.1347937550947644,
      "learning_rate": 5.779708791961991e-09,
      "loss": 0.7788,
      "step": 16118
    },
    {
      "epoch": 0.9895331348414623,
      "grad_norm": 1.057017238440396,
      "learning_rate": 5.7123139341142e-09,
      "loss": 0.6583,
      "step": 16119
    },
    {
      "epoch": 0.9895945240799288,
      "grad_norm": 1.0309906300356375,
      "learning_rate": 5.645314203911456e-09,
      "loss": 0.7384,
      "step": 16120
    },
    {
      "epoch": 0.9896559133183953,
      "grad_norm": 1.0165320356828422,
      "learning_rate": 5.5787096040027526e-09,
      "loss": 0.6824,
      "step": 16121
    },
    {
      "epoch": 0.9897173025568617,
      "grad_norm": 1.0196821346994607,
      "learning_rate": 5.512500137022647e-09,
      "loss": 0.7416,
      "step": 16122
    },
    {
      "epoch": 0.9897786917953283,
      "grad_norm": 1.1403400263953314,
      "learning_rate": 5.4466858055868265e-09,
      "loss": 0.737,
      "step": 16123
    },
    {
      "epoch": 0.9898400810337947,
      "grad_norm": 1.056643555385394,
      "learning_rate": 5.381266612297653e-09,
      "loss": 0.7441,
      "step": 16124
    },
    {
      "epoch": 0.9899014702722613,
      "grad_norm": 1.0809970593319083,
      "learning_rate": 5.316242559743057e-09,
      "loss": 0.6949,
      "step": 16125
    },
    {
      "epoch": 0.9899628595107278,
      "grad_norm": 1.036606983798109,
      "learning_rate": 5.251613650492094e-09,
      "loss": 0.6947,
      "step": 16126
    },
    {
      "epoch": 0.9900242487491943,
      "grad_norm": 0.9962648293068742,
      "learning_rate": 5.187379887100496e-09,
      "loss": 0.7194,
      "step": 16127
    },
    {
      "epoch": 0.9900856379876608,
      "grad_norm": 0.9663611607070451,
      "learning_rate": 5.123541272108457e-09,
      "loss": 0.7184,
      "step": 16128
    },
    {
      "epoch": 0.9901470272261272,
      "grad_norm": 1.1234296475413164,
      "learning_rate": 5.0600978080384e-09,
      "loss": 0.6944,
      "step": 16129
    },
    {
      "epoch": 0.9902084164645938,
      "grad_norm": 1.0683724186321761,
      "learning_rate": 4.997049497399431e-09,
      "loss": 0.7417,
      "step": 16130
    },
    {
      "epoch": 0.9902698057030602,
      "grad_norm": 0.9848768703901845,
      "learning_rate": 4.9343963426840006e-09,
      "loss": 0.7102,
      "step": 16131
    },
    {
      "epoch": 0.9903311949415268,
      "grad_norm": 1.0082695108698818,
      "learning_rate": 4.8721383463701255e-09,
      "loss": 0.7112,
      "step": 16132
    },
    {
      "epoch": 0.9903925841799932,
      "grad_norm": 0.9598491405833987,
      "learning_rate": 4.810275510918061e-09,
      "loss": 0.7237,
      "step": 16133
    },
    {
      "epoch": 0.9904539734184598,
      "grad_norm": 1.1464646867648436,
      "learning_rate": 4.748807838773628e-09,
      "loss": 0.7371,
      "step": 16134
    },
    {
      "epoch": 0.9905153626569262,
      "grad_norm": 1.0295231773121831,
      "learning_rate": 4.6877353323671046e-09,
      "loss": 0.7306,
      "step": 16135
    },
    {
      "epoch": 0.9905767518953927,
      "grad_norm": 1.1109541433111605,
      "learning_rate": 4.627057994113226e-09,
      "loss": 0.7694,
      "step": 16136
    },
    {
      "epoch": 0.9906381411338593,
      "grad_norm": 1.0425525910139275,
      "learning_rate": 4.566775826410075e-09,
      "loss": 0.7291,
      "step": 16137
    },
    {
      "epoch": 0.9906995303723257,
      "grad_norm": 1.1145980306207743,
      "learning_rate": 4.506888831642408e-09,
      "loss": 0.7465,
      "step": 16138
    },
    {
      "epoch": 0.9907609196107923,
      "grad_norm": 1.0117303760778913,
      "learning_rate": 4.447397012177224e-09,
      "loss": 0.6828,
      "step": 16139
    },
    {
      "epoch": 0.9908223088492587,
      "grad_norm": 1.0670157174051185,
      "learning_rate": 4.3883003703659724e-09,
      "loss": 0.7174,
      "step": 16140
    },
    {
      "epoch": 0.9908836980877253,
      "grad_norm": 1.0396110302211288,
      "learning_rate": 4.329598908544563e-09,
      "loss": 0.7367,
      "step": 16141
    },
    {
      "epoch": 0.9909450873261917,
      "grad_norm": 1.118154955129449,
      "learning_rate": 4.2712926290355835e-09,
      "loss": 0.7756,
      "step": 16142
    },
    {
      "epoch": 0.9910064765646582,
      "grad_norm": 1.088079140802586,
      "learning_rate": 4.213381534143857e-09,
      "loss": 0.7076,
      "step": 16143
    },
    {
      "epoch": 0.9910678658031247,
      "grad_norm": 1.1620960341026751,
      "learning_rate": 4.1558656261586616e-09,
      "loss": 0.7015,
      "step": 16144
    },
    {
      "epoch": 0.9911292550415912,
      "grad_norm": 1.0742855533539153,
      "learning_rate": 4.0987449073526254e-09,
      "loss": 0.774,
      "step": 16145
    },
    {
      "epoch": 0.9911906442800577,
      "grad_norm": 1.1141884933308492,
      "learning_rate": 4.042019379985052e-09,
      "loss": 0.7367,
      "step": 16146
    },
    {
      "epoch": 0.9912520335185242,
      "grad_norm": 0.8852417829580196,
      "learning_rate": 3.985689046298591e-09,
      "loss": 0.6935,
      "step": 16147
    },
    {
      "epoch": 0.9913134227569907,
      "grad_norm": 0.9988295735392739,
      "learning_rate": 3.929753908521461e-09,
      "loss": 0.7497,
      "step": 16148
    },
    {
      "epoch": 0.9913748119954572,
      "grad_norm": 1.0074769522569593,
      "learning_rate": 3.874213968863005e-09,
      "loss": 0.7049,
      "step": 16149
    },
    {
      "epoch": 0.9914362012339237,
      "grad_norm": 1.1951635550125819,
      "learning_rate": 3.819069229519245e-09,
      "loss": 0.714,
      "step": 16150
    },
    {
      "epoch": 0.9914975904723902,
      "grad_norm": 1.152194789245232,
      "learning_rate": 3.7643196926717695e-09,
      "loss": 0.7309,
      "step": 16151
    },
    {
      "epoch": 0.9915589797108567,
      "grad_norm": 1.0339834157783796,
      "learning_rate": 3.709965360484402e-09,
      "loss": 0.753,
      "step": 16152
    },
    {
      "epoch": 0.9916203689493231,
      "grad_norm": 1.1690547424969628,
      "learning_rate": 3.656006235105425e-09,
      "loss": 0.7478,
      "step": 16153
    },
    {
      "epoch": 0.9916817581877897,
      "grad_norm": 1.069787040373229,
      "learning_rate": 3.6024423186697966e-09,
      "loss": 0.718,
      "step": 16154
    },
    {
      "epoch": 0.9917431474262561,
      "grad_norm": 1.062517266231648,
      "learning_rate": 3.5492736132936023e-09,
      "loss": 0.7,
      "step": 16155
    },
    {
      "epoch": 0.9918045366647227,
      "grad_norm": 1.0814000644809352,
      "learning_rate": 3.4965001210796045e-09,
      "loss": 0.7489,
      "step": 16156
    },
    {
      "epoch": 0.9918659259031891,
      "grad_norm": 1.0614562968462893,
      "learning_rate": 3.444121844112802e-09,
      "loss": 0.7035,
      "step": 16157
    },
    {
      "epoch": 0.9919273151416557,
      "grad_norm": 1.03075090664827,
      "learning_rate": 3.3921387844670915e-09,
      "loss": 0.7366,
      "step": 16158
    },
    {
      "epoch": 0.9919887043801222,
      "grad_norm": 1.1045333689288819,
      "learning_rate": 3.340550944194165e-09,
      "loss": 0.7585,
      "step": 16159
    },
    {
      "epoch": 0.9920500936185886,
      "grad_norm": 0.6224374201219927,
      "learning_rate": 3.289358325335723e-09,
      "loss": 0.6697,
      "step": 16160
    },
    {
      "epoch": 0.9921114828570552,
      "grad_norm": 1.1251219723215395,
      "learning_rate": 3.238560929915702e-09,
      "loss": 0.7078,
      "step": 16161
    },
    {
      "epoch": 0.9921728720955216,
      "grad_norm": 1.1563437361677096,
      "learning_rate": 3.1881587599413845e-09,
      "loss": 0.7724,
      "step": 16162
    },
    {
      "epoch": 0.9922342613339882,
      "grad_norm": 1.0285622840530242,
      "learning_rate": 3.1381518174056214e-09,
      "loss": 0.7495,
      "step": 16163
    },
    {
      "epoch": 0.9922956505724546,
      "grad_norm": 1.1027881088692568,
      "learning_rate": 3.0885401042857197e-09,
      "loss": 0.7103,
      "step": 16164
    },
    {
      "epoch": 0.9923570398109212,
      "grad_norm": 1.1291767926028373,
      "learning_rate": 3.039323622543444e-09,
      "loss": 0.7238,
      "step": 16165
    },
    {
      "epoch": 0.9924184290493876,
      "grad_norm": 0.9287432483990581,
      "learning_rate": 2.9905023741239048e-09,
      "loss": 0.7147,
      "step": 16166
    },
    {
      "epoch": 0.9924798182878541,
      "grad_norm": 1.086336694356532,
      "learning_rate": 2.9420763609577798e-09,
      "loss": 0.7374,
      "step": 16167
    },
    {
      "epoch": 0.9925412075263207,
      "grad_norm": 1.0144776014450825,
      "learning_rate": 2.894045584959093e-09,
      "loss": 0.7089,
      "step": 16168
    },
    {
      "epoch": 0.9926025967647871,
      "grad_norm": 1.0032427304984133,
      "learning_rate": 2.846410048027437e-09,
      "loss": 0.745,
      "step": 16169
    },
    {
      "epoch": 0.9926639860032537,
      "grad_norm": 0.9927098837652114,
      "learning_rate": 2.7991697520446394e-09,
      "loss": 0.6953,
      "step": 16170
    },
    {
      "epoch": 0.9927253752417201,
      "grad_norm": 1.0745381697715823,
      "learning_rate": 2.752324698880315e-09,
      "loss": 0.7419,
      "step": 16171
    },
    {
      "epoch": 0.9927867644801867,
      "grad_norm": 1.1029439401132564,
      "learning_rate": 2.7058748903863173e-09,
      "loss": 0.6994,
      "step": 16172
    },
    {
      "epoch": 0.9928481537186531,
      "grad_norm": 1.0249199104827178,
      "learning_rate": 2.6598203283978443e-09,
      "loss": 0.7318,
      "step": 16173
    },
    {
      "epoch": 0.9929095429571196,
      "grad_norm": 1.1649139817229315,
      "learning_rate": 2.6141610147356613e-09,
      "loss": 0.7539,
      "step": 16174
    },
    {
      "epoch": 0.9929709321955861,
      "grad_norm": 1.0362454296777766,
      "learning_rate": 2.5688969512061012e-09,
      "loss": 0.7296,
      "step": 16175
    },
    {
      "epoch": 0.9930323214340526,
      "grad_norm": 1.0010672378931593,
      "learning_rate": 2.524028139597734e-09,
      "loss": 0.7337,
      "step": 16176
    },
    {
      "epoch": 0.9930937106725191,
      "grad_norm": 1.0608811916297713,
      "learning_rate": 2.4795545816846955e-09,
      "loss": 0.7148,
      "step": 16177
    },
    {
      "epoch": 0.9931550999109856,
      "grad_norm": 0.904225914942143,
      "learning_rate": 2.4354762792255794e-09,
      "loss": 0.7062,
      "step": 16178
    },
    {
      "epoch": 0.9932164891494522,
      "grad_norm": 0.9825079000568198,
      "learning_rate": 2.391793233962325e-09,
      "loss": 0.7234,
      "step": 16179
    },
    {
      "epoch": 0.9932778783879186,
      "grad_norm": 1.1293400231453967,
      "learning_rate": 2.34850544762355e-09,
      "loss": 0.7012,
      "step": 16180
    },
    {
      "epoch": 0.9933392676263851,
      "grad_norm": 1.1254915658748375,
      "learning_rate": 2.3056129219189983e-09,
      "loss": 0.6622,
      "step": 16181
    },
    {
      "epoch": 0.9934006568648516,
      "grad_norm": 1.1635232286405632,
      "learning_rate": 2.2631156585439794e-09,
      "loss": 0.701,
      "step": 16182
    },
    {
      "epoch": 0.9934620461033181,
      "grad_norm": 0.9111773968407939,
      "learning_rate": 2.221013659181592e-09,
      "loss": 0.7255,
      "step": 16183
    },
    {
      "epoch": 0.9935234353417846,
      "grad_norm": 0.9482181825842272,
      "learning_rate": 2.1793069254927302e-09,
      "loss": 0.6842,
      "step": 16184
    },
    {
      "epoch": 0.9935848245802511,
      "grad_norm": 1.137662594321333,
      "learning_rate": 2.1379954591282946e-09,
      "loss": 0.6915,
      "step": 16185
    },
    {
      "epoch": 0.9936462138187175,
      "grad_norm": 0.9901103763671708,
      "learning_rate": 2.0970792617225345e-09,
      "loss": 0.6936,
      "step": 16186
    },
    {
      "epoch": 0.9937076030571841,
      "grad_norm": 1.2966206383550731,
      "learning_rate": 2.0565583348908236e-09,
      "loss": 0.698,
      "step": 16187
    },
    {
      "epoch": 0.9937689922956505,
      "grad_norm": 1.122263273830187,
      "learning_rate": 2.016432680235214e-09,
      "loss": 0.6901,
      "step": 16188
    },
    {
      "epoch": 0.9938303815341171,
      "grad_norm": 0.8753672006650961,
      "learning_rate": 1.9767022993444353e-09,
      "loss": 0.7295,
      "step": 16189
    },
    {
      "epoch": 0.9938917707725836,
      "grad_norm": 1.049762405369792,
      "learning_rate": 1.937367193787232e-09,
      "loss": 0.7179,
      "step": 16190
    },
    {
      "epoch": 0.99395316001105,
      "grad_norm": 1.007376345237496,
      "learning_rate": 1.8984273651190265e-09,
      "loss": 0.6977,
      "step": 16191
    },
    {
      "epoch": 0.9940145492495166,
      "grad_norm": 1.0280348657506997,
      "learning_rate": 1.8598828148796988e-09,
      "loss": 0.7275,
      "step": 16192
    },
    {
      "epoch": 0.994075938487983,
      "grad_norm": 1.0180920744070228,
      "learning_rate": 1.8217335445935847e-09,
      "loss": 0.7478,
      "step": 16193
    },
    {
      "epoch": 0.9941373277264496,
      "grad_norm": 1.0610641255211324,
      "learning_rate": 1.783979555768367e-09,
      "loss": 0.7889,
      "step": 16194
    },
    {
      "epoch": 0.994198716964916,
      "grad_norm": 0.9521324507704644,
      "learning_rate": 1.7466208498961857e-09,
      "loss": 0.7251,
      "step": 16195
    },
    {
      "epoch": 0.9942601062033826,
      "grad_norm": 1.11106825754502,
      "learning_rate": 1.7096574284547474e-09,
      "loss": 0.6977,
      "step": 16196
    },
    {
      "epoch": 0.994321495441849,
      "grad_norm": 1.2187200052699638,
      "learning_rate": 1.6730892929051057e-09,
      "loss": 0.7467,
      "step": 16197
    },
    {
      "epoch": 0.9943828846803155,
      "grad_norm": 1.3032747277507535,
      "learning_rate": 1.636916444692771e-09,
      "loss": 0.7372,
      "step": 16198
    },
    {
      "epoch": 0.994444273918782,
      "grad_norm": 1.1409443811303406,
      "learning_rate": 1.6011388852477106e-09,
      "loss": 0.7342,
      "step": 16199
    },
    {
      "epoch": 0.9945056631572485,
      "grad_norm": 1.101829969220092,
      "learning_rate": 1.5657566159854586e-09,
      "loss": 0.7566,
      "step": 16200
    },
    {
      "epoch": 0.9945670523957151,
      "grad_norm": 1.0969317257256679,
      "learning_rate": 1.5307696383048965e-09,
      "loss": 0.7353,
      "step": 16201
    },
    {
      "epoch": 0.9946284416341815,
      "grad_norm": 1.2382630103712442,
      "learning_rate": 1.4961779535871412e-09,
      "loss": 0.7449,
      "step": 16202
    },
    {
      "epoch": 0.9946898308726481,
      "grad_norm": 1.0337892190641689,
      "learning_rate": 1.4619815632022083e-09,
      "loss": 0.7624,
      "step": 16203
    },
    {
      "epoch": 0.9947512201111145,
      "grad_norm": 0.9402136468066186,
      "learning_rate": 1.428180468501239e-09,
      "loss": 0.7321,
      "step": 16204
    },
    {
      "epoch": 0.994812609349581,
      "grad_norm": 1.1763134385706417,
      "learning_rate": 1.3947746708198318e-09,
      "loss": 0.761,
      "step": 16205
    },
    {
      "epoch": 0.9948739985880475,
      "grad_norm": 1.0303495246270395,
      "learning_rate": 1.3617641714791518e-09,
      "loss": 0.7369,
      "step": 16206
    },
    {
      "epoch": 0.994935387826514,
      "grad_norm": 0.9856717568490003,
      "learning_rate": 1.3291489717848215e-09,
      "loss": 0.717,
      "step": 16207
    },
    {
      "epoch": 0.9949967770649805,
      "grad_norm": 1.1473861689941152,
      "learning_rate": 1.29692907302581e-09,
      "loss": 0.7207,
      "step": 16208
    },
    {
      "epoch": 0.995058166303447,
      "grad_norm": 1.048074055156042,
      "learning_rate": 1.265104476476653e-09,
      "loss": 0.6858,
      "step": 16209
    },
    {
      "epoch": 0.9951195555419134,
      "grad_norm": 1.1501758647475826,
      "learning_rate": 1.233675183394123e-09,
      "loss": 0.7375,
      "step": 16210
    },
    {
      "epoch": 0.99518094478038,
      "grad_norm": 1.040313855870842,
      "learning_rate": 1.2026411950216698e-09,
      "loss": 0.6927,
      "step": 16211
    },
    {
      "epoch": 0.9952423340188465,
      "grad_norm": 1.171725671927245,
      "learning_rate": 1.1720025125860901e-09,
      "loss": 0.7129,
      "step": 16212
    },
    {
      "epoch": 0.995303723257313,
      "grad_norm": 1.0130718252042312,
      "learning_rate": 1.1417591372986369e-09,
      "loss": 0.751,
      "step": 16213
    },
    {
      "epoch": 0.9953651124957795,
      "grad_norm": 1.1883473156452964,
      "learning_rate": 1.111911070356131e-09,
      "loss": 0.7839,
      "step": 16214
    },
    {
      "epoch": 0.995426501734246,
      "grad_norm": 1.1490000983909006,
      "learning_rate": 1.0824583129365184e-09,
      "loss": 0.7485,
      "step": 16215
    },
    {
      "epoch": 0.9954878909727125,
      "grad_norm": 0.9487610837314838,
      "learning_rate": 1.053400866205534e-09,
      "loss": 0.673,
      "step": 16216
    },
    {
      "epoch": 0.9955492802111789,
      "grad_norm": 1.095115674652836,
      "learning_rate": 1.024738731311148e-09,
      "loss": 0.7324,
      "step": 16217
    },
    {
      "epoch": 0.9956106694496455,
      "grad_norm": 1.035685589350173,
      "learning_rate": 9.964719093880082e-10,
      "loss": 0.7159,
      "step": 16218
    },
    {
      "epoch": 0.9956720586881119,
      "grad_norm": 1.0581002158574586,
      "learning_rate": 9.686004015529992e-10,
      "loss": 0.6956,
      "step": 16219
    },
    {
      "epoch": 0.9957334479265785,
      "grad_norm": 1.058945142862273,
      "learning_rate": 9.411242089063521e-10,
      "loss": 0.7019,
      "step": 16220
    },
    {
      "epoch": 0.995794837165045,
      "grad_norm": 1.163215497820953,
      "learning_rate": 9.140433325371956e-10,
      "loss": 0.7687,
      "step": 16221
    },
    {
      "epoch": 0.9958562264035115,
      "grad_norm": 0.9577597185339946,
      "learning_rate": 8.873577735146743e-10,
      "loss": 0.7439,
      "step": 16222
    },
    {
      "epoch": 0.995917615641978,
      "grad_norm": 1.0274859570719876,
      "learning_rate": 8.610675328935003e-10,
      "loss": 0.7502,
      "step": 16223
    },
    {
      "epoch": 0.9959790048804444,
      "grad_norm": 1.13923419691728,
      "learning_rate": 8.351726117128422e-10,
      "loss": 0.749,
      "step": 16224
    },
    {
      "epoch": 0.996040394118911,
      "grad_norm": 1.1004761549068711,
      "learning_rate": 8.096730109985462e-10,
      "loss": 0.706,
      "step": 16225
    },
    {
      "epoch": 0.9961017833573774,
      "grad_norm": 1.0190602926318257,
      "learning_rate": 7.845687317564743e-10,
      "loss": 0.6963,
      "step": 16226
    },
    {
      "epoch": 0.996163172595844,
      "grad_norm": 1.0128699485423882,
      "learning_rate": 7.598597749791658e-10,
      "loss": 0.7394,
      "step": 16227
    },
    {
      "epoch": 0.9962245618343104,
      "grad_norm": 1.0416660689600357,
      "learning_rate": 7.355461416458376e-10,
      "loss": 0.7,
      "step": 16228
    },
    {
      "epoch": 0.996285951072777,
      "grad_norm": 1.0422616967891418,
      "learning_rate": 7.116278327157223e-10,
      "loss": 0.6684,
      "step": 16229
    },
    {
      "epoch": 0.9963473403112434,
      "grad_norm": 1.0933591856568825,
      "learning_rate": 6.881048491347297e-10,
      "loss": 0.7147,
      "step": 16230
    },
    {
      "epoch": 0.9964087295497099,
      "grad_norm": 0.9621244454410014,
      "learning_rate": 6.649771918321169e-10,
      "loss": 0.7374,
      "step": 16231
    },
    {
      "epoch": 0.9964701187881765,
      "grad_norm": 1.0522962422164877,
      "learning_rate": 6.422448617249277e-10,
      "loss": 0.6857,
      "step": 16232
    },
    {
      "epoch": 0.9965315080266429,
      "grad_norm": 1.0141767892383762,
      "learning_rate": 6.199078597091124e-10,
      "loss": 0.6935,
      "step": 16233
    },
    {
      "epoch": 0.9965928972651095,
      "grad_norm": 0.9848987721234316,
      "learning_rate": 5.979661866684083e-10,
      "loss": 0.6968,
      "step": 16234
    },
    {
      "epoch": 0.9966542865035759,
      "grad_norm": 0.992087783264446,
      "learning_rate": 5.7641984347101e-10,
      "loss": 0.7846,
      "step": 16235
    },
    {
      "epoch": 0.9967156757420425,
      "grad_norm": 1.0110221325747926,
      "learning_rate": 5.552688309684585e-10,
      "loss": 0.7523,
      "step": 16236
    },
    {
      "epoch": 0.9967770649805089,
      "grad_norm": 1.1515186637428843,
      "learning_rate": 5.345131499978618e-10,
      "loss": 0.7081,
      "step": 16237
    },
    {
      "epoch": 0.9968384542189754,
      "grad_norm": 1.0510988887402117,
      "learning_rate": 5.141528013774543e-10,
      "loss": 0.7427,
      "step": 16238
    },
    {
      "epoch": 0.9968998434574419,
      "grad_norm": 0.9669423660910372,
      "learning_rate": 4.941877859143684e-10,
      "loss": 0.6807,
      "step": 16239
    },
    {
      "epoch": 0.9969612326959084,
      "grad_norm": 1.0756862246593213,
      "learning_rate": 4.746181043968623e-10,
      "loss": 0.7394,
      "step": 16240
    },
    {
      "epoch": 0.9970226219343749,
      "grad_norm": 0.9817872669166602,
      "learning_rate": 4.5544375759876135e-10,
      "loss": 0.7822,
      "step": 16241
    },
    {
      "epoch": 0.9970840111728414,
      "grad_norm": 1.0174830228338299,
      "learning_rate": 4.366647462794582e-10,
      "loss": 0.7224,
      "step": 16242
    },
    {
      "epoch": 0.997145400411308,
      "grad_norm": 1.0815694697408873,
      "learning_rate": 4.182810711794716e-10,
      "loss": 0.7106,
      "step": 16243
    },
    {
      "epoch": 0.9972067896497744,
      "grad_norm": 1.131886761644036,
      "learning_rate": 4.002927330259976e-10,
      "loss": 0.7226,
      "step": 16244
    },
    {
      "epoch": 0.9972681788882409,
      "grad_norm": 1.1326577272285798,
      "learning_rate": 3.8269973253068915e-10,
      "loss": 0.734,
      "step": 16245
    },
    {
      "epoch": 0.9973295681267074,
      "grad_norm": 1.108811965080069,
      "learning_rate": 3.655020703885459e-10,
      "loss": 0.7614,
      "step": 16246
    },
    {
      "epoch": 0.9973909573651739,
      "grad_norm": 1.0730284999665933,
      "learning_rate": 3.4869974728013457e-10,
      "loss": 0.722,
      "step": 16247
    },
    {
      "epoch": 0.9974523466036403,
      "grad_norm": 1.082158320933942,
      "learning_rate": 3.3229276387047873e-10,
      "loss": 0.7285,
      "step": 16248
    },
    {
      "epoch": 0.9975137358421069,
      "grad_norm": 1.120553767007912,
      "learning_rate": 3.1628112080683837e-10,
      "loss": 0.7049,
      "step": 16249
    },
    {
      "epoch": 0.9975751250805733,
      "grad_norm": 1.1472705862518078,
      "learning_rate": 3.006648187220407e-10,
      "loss": 0.7158,
      "step": 16250
    },
    {
      "epoch": 0.9976365143190399,
      "grad_norm": 1.0522244361247168,
      "learning_rate": 2.8544385823447984e-10,
      "loss": 0.7586,
      "step": 16251
    },
    {
      "epoch": 0.9976979035575063,
      "grad_norm": 1.1494832575259646,
      "learning_rate": 2.7061823994589676e-10,
      "loss": 0.7458,
      "step": 16252
    },
    {
      "epoch": 0.9977592927959729,
      "grad_norm": 1.0951672067133387,
      "learning_rate": 2.5618796444137893e-10,
      "loss": 0.7177,
      "step": 16253
    },
    {
      "epoch": 0.9978206820344394,
      "grad_norm": 1.0545484817786308,
      "learning_rate": 2.4215303229269127e-10,
      "loss": 0.763,
      "step": 16254
    },
    {
      "epoch": 0.9978820712729058,
      "grad_norm": 1.0359360034623635,
      "learning_rate": 2.2851344405383503e-10,
      "loss": 0.6643,
      "step": 16255
    },
    {
      "epoch": 0.9979434605113724,
      "grad_norm": 1.0803613025920804,
      "learning_rate": 2.1526920026437858e-10,
      "loss": 0.7154,
      "step": 16256
    },
    {
      "epoch": 0.9980048497498388,
      "grad_norm": 0.9229693544773885,
      "learning_rate": 2.0242030144834724e-10,
      "loss": 0.7475,
      "step": 16257
    },
    {
      "epoch": 0.9980662389883054,
      "grad_norm": 1.1017124131913105,
      "learning_rate": 1.899667481131129e-10,
      "loss": 0.7232,
      "step": 16258
    },
    {
      "epoch": 0.9981276282267718,
      "grad_norm": 1.0649066737644752,
      "learning_rate": 1.7790854075161456e-10,
      "loss": 0.7005,
      "step": 16259
    },
    {
      "epoch": 0.9981890174652384,
      "grad_norm": 1.18754935312642,
      "learning_rate": 1.6624567983902774e-10,
      "loss": 0.7558,
      "step": 16260
    },
    {
      "epoch": 0.9982504067037048,
      "grad_norm": 1.0018095471208115,
      "learning_rate": 1.5497816583831538e-10,
      "loss": 0.696,
      "step": 16261
    },
    {
      "epoch": 0.9983117959421713,
      "grad_norm": 1.0803047655415725,
      "learning_rate": 1.4410599919467694e-10,
      "loss": 0.7412,
      "step": 16262
    },
    {
      "epoch": 0.9983731851806378,
      "grad_norm": 0.9906442776038121,
      "learning_rate": 1.3362918033776873e-10,
      "loss": 0.7057,
      "step": 16263
    },
    {
      "epoch": 0.9984345744191043,
      "grad_norm": 1.1291106671404811,
      "learning_rate": 1.235477096805937e-10,
      "loss": 0.753,
      "step": 16264
    },
    {
      "epoch": 0.9984959636575709,
      "grad_norm": 0.9542577212261647,
      "learning_rate": 1.1386158762283217e-10,
      "loss": 0.7674,
      "step": 16265
    },
    {
      "epoch": 0.9985573528960373,
      "grad_norm": 1.120219696277068,
      "learning_rate": 1.0457081454751105e-10,
      "loss": 0.7644,
      "step": 16266
    },
    {
      "epoch": 0.9986187421345039,
      "grad_norm": 1.020401632285532,
      "learning_rate": 9.567539082211418e-11,
      "loss": 0.7113,
      "step": 16267
    },
    {
      "epoch": 0.9986801313729703,
      "grad_norm": 1.143014670174182,
      "learning_rate": 8.717531679747205e-11,
      "loss": 0.6914,
      "step": 16268
    },
    {
      "epoch": 0.9987415206114368,
      "grad_norm": 1.2215384060208203,
      "learning_rate": 7.90705928099822e-11,
      "loss": 0.7265,
      "step": 16269
    },
    {
      "epoch": 0.9988029098499033,
      "grad_norm": 1.0806215070266394,
      "learning_rate": 7.136121917938887e-11,
      "loss": 0.7215,
      "step": 16270
    },
    {
      "epoch": 0.9988642990883698,
      "grad_norm": 1.0584894246101098,
      "learning_rate": 6.404719621211364e-11,
      "loss": 0.7259,
      "step": 16271
    },
    {
      "epoch": 0.9989256883268363,
      "grad_norm": 0.9204732157121305,
      "learning_rate": 5.712852419681447e-11,
      "loss": 0.7051,
      "step": 16272
    },
    {
      "epoch": 0.9989870775653028,
      "grad_norm": 1.087044274432493,
      "learning_rate": 5.060520340660624e-11,
      "loss": 0.744,
      "step": 16273
    },
    {
      "epoch": 0.9990484668037694,
      "grad_norm": 1.0420512629098169,
      "learning_rate": 4.4477234099060685e-11,
      "loss": 0.7361,
      "step": 16274
    },
    {
      "epoch": 0.9991098560422358,
      "grad_norm": 1.0037133435407752,
      "learning_rate": 3.8744616517316644e-11,
      "loss": 0.7068,
      "step": 16275
    },
    {
      "epoch": 0.9991712452807023,
      "grad_norm": 1.0000590214340077,
      "learning_rate": 3.3407350886749403e-11,
      "loss": 0.7037,
      "step": 16276
    },
    {
      "epoch": 0.9992326345191688,
      "grad_norm": 1.0868421090992122,
      "learning_rate": 2.8465437419411547e-11,
      "loss": 0.7167,
      "step": 16277
    },
    {
      "epoch": 0.9992940237576353,
      "grad_norm": 1.0414620276147493,
      "learning_rate": 2.391887631070233e-11,
      "loss": 0.718,
      "step": 16278
    },
    {
      "epoch": 0.9993554129961018,
      "grad_norm": 1.1387876363231835,
      "learning_rate": 1.976766774047789e-11,
      "loss": 0.8134,
      "step": 16279
    },
    {
      "epoch": 0.9994168022345683,
      "grad_norm": 1.0876197054146806,
      "learning_rate": 1.6011811871941007e-11,
      "loss": 0.7292,
      "step": 16280
    },
    {
      "epoch": 0.9994781914730347,
      "grad_norm": 1.0864729854901647,
      "learning_rate": 1.2651308853861566e-11,
      "loss": 0.6939,
      "step": 16281
    },
    {
      "epoch": 0.9995395807115013,
      "grad_norm": 1.0351404071730943,
      "learning_rate": 9.686158820576552e-12,
      "loss": 0.7165,
      "step": 16282
    },
    {
      "epoch": 0.9996009699499677,
      "grad_norm": 1.09621486249818,
      "learning_rate": 7.1163618875491616e-12,
      "loss": 0.6937,
      "step": 16283
    },
    {
      "epoch": 0.9996623591884343,
      "grad_norm": 1.1488431955962843,
      "learning_rate": 4.941918155809689e-12,
      "loss": 0.7024,
      "step": 16284
    },
    {
      "epoch": 0.9997237484269008,
      "grad_norm": 1.0994881914625476,
      "learning_rate": 3.1628277141759754e-12,
      "loss": 0.6928,
      "step": 16285
    },
    {
      "epoch": 0.9997851376653673,
      "grad_norm": 1.1826173059315166,
      "learning_rate": 1.779090630371627e-12,
      "loss": 0.709,
      "step": 16286
    },
    {
      "epoch": 0.9998465269038338,
      "grad_norm": 1.2107029395733446,
      "learning_rate": 7.907069599077943e-13,
      "loss": 0.7502,
      "step": 16287
    },
    {
      "epoch": 0.9999079161423002,
      "grad_norm": 1.085388175871007,
      "learning_rate": 1.9767674164228312e-13,
      "loss": 0.7427,
      "step": 16288
    },
    {
      "epoch": 0.9999693053807668,
      "grad_norm": 0.724888611985626,
      "learning_rate": 0.0,
      "loss": 0.6631,
      "step": 16289
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 16289,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 50000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 2.9484990053482496e+16,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}