{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.999936,
  "eval_steps": 500,
  "global_step": 7812,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.000128,
      "grad_norm": 85.44178009033203,
      "learning_rate": 4.255319148936171e-06,
      "loss": 8.5656,
      "step": 1
    },
    {
      "epoch": 0.000256,
      "grad_norm": 84.19152069091797,
      "learning_rate": 8.510638297872341e-06,
      "loss": 8.6162,
      "step": 2
    },
    {
      "epoch": 0.000384,
      "grad_norm": 74.98263549804688,
      "learning_rate": 1.2765957446808511e-05,
      "loss": 8.6569,
      "step": 3
    },
    {
      "epoch": 0.000512,
      "grad_norm": 77.43897247314453,
      "learning_rate": 1.7021276595744682e-05,
      "loss": 8.3434,
      "step": 4
    },
    {
      "epoch": 0.00064,
      "grad_norm": 46.673404693603516,
      "learning_rate": 2.1276595744680852e-05,
      "loss": 7.5514,
      "step": 5
    },
    {
      "epoch": 0.000768,
      "grad_norm": 32.80625915527344,
      "learning_rate": 2.5531914893617022e-05,
      "loss": 6.5781,
      "step": 6
    },
    {
      "epoch": 0.000896,
      "grad_norm": 34.07679748535156,
      "learning_rate": 2.9787234042553195e-05,
      "loss": 6.2577,
      "step": 7
    },
    {
      "epoch": 0.001024,
      "grad_norm": 19.241958618164062,
      "learning_rate": 3.4042553191489365e-05,
      "loss": 6.1768,
      "step": 8
    },
    {
      "epoch": 0.001152,
      "grad_norm": 18.202795028686523,
      "learning_rate": 3.829787234042553e-05,
      "loss": 5.8154,
      "step": 9
    },
    {
      "epoch": 0.00128,
      "grad_norm": 16.51165771484375,
      "learning_rate": 4.2553191489361704e-05,
      "loss": 5.6617,
      "step": 10
    },
    {
      "epoch": 0.001408,
      "grad_norm": 14.700949668884277,
      "learning_rate": 4.680851063829787e-05,
      "loss": 5.402,
      "step": 11
    },
    {
      "epoch": 0.001536,
      "grad_norm": 11.407525062561035,
      "learning_rate": 5.1063829787234044e-05,
      "loss": 5.2589,
      "step": 12
    },
    {
      "epoch": 0.001664,
      "grad_norm": 11.151972770690918,
      "learning_rate": 5.531914893617021e-05,
      "loss": 5.1584,
      "step": 13
    },
    {
      "epoch": 0.001792,
      "grad_norm": 11.113198280334473,
      "learning_rate": 5.957446808510639e-05,
      "loss": 4.9641,
      "step": 14
    },
    {
      "epoch": 0.00192,
      "grad_norm": 10.183454513549805,
      "learning_rate": 6.382978723404255e-05,
      "loss": 4.7789,
      "step": 15
    },
    {
      "epoch": 0.002048,
      "grad_norm": 7.238648891448975,
      "learning_rate": 6.808510638297873e-05,
      "loss": 4.6637,
      "step": 16
    },
    {
      "epoch": 0.002176,
      "grad_norm": 7.313605308532715,
      "learning_rate": 7.234042553191488e-05,
      "loss": 4.614,
      "step": 17
    },
    {
      "epoch": 0.002304,
      "grad_norm": 6.497183322906494,
      "learning_rate": 7.659574468085106e-05,
      "loss": 4.5518,
      "step": 18
    },
    {
      "epoch": 0.002432,
      "grad_norm": 4.96201753616333,
      "learning_rate": 8.085106382978724e-05,
      "loss": 4.3812,
      "step": 19
    },
    {
      "epoch": 0.00256,
      "grad_norm": 4.680474758148193,
      "learning_rate": 8.510638297872341e-05,
      "loss": 4.4056,
      "step": 20
    },
    {
      "epoch": 0.002688,
      "grad_norm": 4.353175163269043,
      "learning_rate": 8.936170212765958e-05,
      "loss": 4.3984,
      "step": 21
    },
    {
      "epoch": 0.002816,
      "grad_norm": 5.4004411697387695,
      "learning_rate": 9.361702127659574e-05,
      "loss": 4.3151,
      "step": 22
    },
    {
      "epoch": 0.002944,
      "grad_norm": 3.3863251209259033,
      "learning_rate": 9.787234042553192e-05,
      "loss": 4.332,
      "step": 23
    },
    {
      "epoch": 0.003072,
      "grad_norm": 3.077268600463867,
      "learning_rate": 0.00010212765957446809,
      "loss": 4.1498,
      "step": 24
    },
    {
      "epoch": 0.0032,
      "grad_norm": 2.841158866882324,
      "learning_rate": 0.00010638297872340425,
      "loss": 4.3344,
      "step": 25
    },
    {
      "epoch": 0.003328,
      "grad_norm": 3.3488993644714355,
      "learning_rate": 0.00011063829787234042,
      "loss": 4.3452,
      "step": 26
    },
    {
      "epoch": 0.003456,
      "grad_norm": 2.276250123977661,
      "learning_rate": 0.0001148936170212766,
      "loss": 4.0437,
      "step": 27
    },
    {
      "epoch": 0.003584,
      "grad_norm": 2.8654086589813232,
      "learning_rate": 0.00011914893617021278,
      "loss": 4.1471,
      "step": 28
    },
    {
      "epoch": 0.003712,
      "grad_norm": 2.9424307346343994,
      "learning_rate": 0.00012340425531914893,
      "loss": 4.1333,
      "step": 29
    },
    {
      "epoch": 0.00384,
      "grad_norm": 2.0766897201538086,
      "learning_rate": 0.0001276595744680851,
      "loss": 4.1276,
      "step": 30
    },
    {
      "epoch": 0.003968,
      "grad_norm": 2.9801530838012695,
      "learning_rate": 0.00013191489361702127,
      "loss": 4.1457,
      "step": 31
    },
    {
      "epoch": 0.004096,
      "grad_norm": 1.917728066444397,
      "learning_rate": 0.00013617021276595746,
      "loss": 4.1571,
      "step": 32
    },
    {
      "epoch": 0.004224,
      "grad_norm": 1.8398464918136597,
      "learning_rate": 0.00014042553191489363,
      "loss": 4.0371,
      "step": 33
    },
    {
      "epoch": 0.004352,
      "grad_norm": 1.870069146156311,
      "learning_rate": 0.00014468085106382977,
      "loss": 4.0072,
      "step": 34
    },
    {
      "epoch": 0.00448,
      "grad_norm": 1.524924874305725,
      "learning_rate": 0.00014893617021276596,
      "loss": 3.947,
      "step": 35
    },
    {
      "epoch": 0.004608,
      "grad_norm": 1.5179951190948486,
      "learning_rate": 0.00015319148936170213,
      "loss": 3.922,
      "step": 36
    },
    {
      "epoch": 0.004736,
      "grad_norm": 1.3854444026947021,
      "learning_rate": 0.00015744680851063832,
      "loss": 3.8768,
      "step": 37
    },
    {
      "epoch": 0.004864,
      "grad_norm": 1.234571933746338,
      "learning_rate": 0.00016170212765957449,
      "loss": 3.9444,
      "step": 38
    },
    {
      "epoch": 0.004992,
      "grad_norm": 1.2938698530197144,
      "learning_rate": 0.00016595744680851062,
      "loss": 4.003,
      "step": 39
    },
    {
      "epoch": 0.00512,
      "grad_norm": 1.223921537399292,
      "learning_rate": 0.00017021276595744682,
      "loss": 3.8661,
      "step": 40
    },
    {
      "epoch": 0.005248,
      "grad_norm": 1.2796342372894287,
      "learning_rate": 0.00017446808510638298,
      "loss": 3.7809,
      "step": 41
    },
    {
      "epoch": 0.005376,
      "grad_norm": 1.1349914073944092,
      "learning_rate": 0.00017872340425531915,
      "loss": 3.9231,
      "step": 42
    },
    {
      "epoch": 0.005504,
      "grad_norm": 1.2805324792861938,
      "learning_rate": 0.00018297872340425532,
      "loss": 3.9765,
      "step": 43
    },
    {
      "epoch": 0.005632,
      "grad_norm": 1.2027126550674438,
      "learning_rate": 0.00018723404255319148,
      "loss": 3.9261,
      "step": 44
    },
    {
      "epoch": 0.00576,
      "grad_norm": 1.1265102624893188,
      "learning_rate": 0.00019148936170212765,
      "loss": 3.9088,
      "step": 45
    },
    {
      "epoch": 0.005888,
      "grad_norm": 1.5035914182662964,
      "learning_rate": 0.00019574468085106384,
      "loss": 3.8467,
      "step": 46
    },
    {
      "epoch": 0.006016,
      "grad_norm": 1.1000916957855225,
      "learning_rate": 0.0002,
      "loss": 3.8628,
      "step": 47
    },
    {
      "epoch": 0.006144,
      "grad_norm": 1.0668323040008545,
      "learning_rate": 0.00020425531914893618,
      "loss": 3.8711,
      "step": 48
    },
    {
      "epoch": 0.006272,
      "grad_norm": 1.1439239978790283,
      "learning_rate": 0.00020851063829787234,
      "loss": 3.7885,
      "step": 49
    },
    {
      "epoch": 0.0064,
      "grad_norm": 1.0467712879180908,
      "learning_rate": 0.0002127659574468085,
      "loss": 3.7011,
      "step": 50
    },
    {
      "epoch": 0.006528,
      "grad_norm": 0.9421353936195374,
      "learning_rate": 0.0002170212765957447,
      "loss": 3.8659,
      "step": 51
    },
    {
      "epoch": 0.006656,
      "grad_norm": 1.2325026988983154,
      "learning_rate": 0.00022127659574468084,
      "loss": 3.7674,
      "step": 52
    },
    {
      "epoch": 0.006784,
      "grad_norm": 1.0368468761444092,
      "learning_rate": 0.000225531914893617,
      "loss": 3.9196,
      "step": 53
    },
    {
      "epoch": 0.006912,
      "grad_norm": 1.0254344940185547,
      "learning_rate": 0.0002297872340425532,
      "loss": 3.9012,
      "step": 54
    },
    {
      "epoch": 0.00704,
      "grad_norm": 0.8820498585700989,
      "learning_rate": 0.00023404255319148937,
      "loss": 3.777,
      "step": 55
    },
    {
      "epoch": 0.007168,
      "grad_norm": 0.8848971128463745,
      "learning_rate": 0.00023829787234042556,
      "loss": 3.8642,
      "step": 56
    },
    {
      "epoch": 0.007296,
      "grad_norm": 0.9892427325248718,
      "learning_rate": 0.0002425531914893617,
      "loss": 3.7494,
      "step": 57
    },
    {
      "epoch": 0.007424,
      "grad_norm": 0.9091596007347107,
      "learning_rate": 0.00024680851063829787,
      "loss": 3.8062,
      "step": 58
    },
    {
      "epoch": 0.007552,
      "grad_norm": 0.8131343126296997,
      "learning_rate": 0.00025106382978723403,
      "loss": 3.6548,
      "step": 59
    },
    {
      "epoch": 0.00768,
      "grad_norm": 0.8103273510932922,
      "learning_rate": 0.0002553191489361702,
      "loss": 3.6671,
      "step": 60
    },
    {
      "epoch": 0.007808,
      "grad_norm": 0.8517604470252991,
      "learning_rate": 0.00025957446808510637,
      "loss": 3.7596,
      "step": 61
    },
    {
      "epoch": 0.007936,
      "grad_norm": 0.8071579933166504,
      "learning_rate": 0.00026382978723404253,
      "loss": 3.7383,
      "step": 62
    },
    {
      "epoch": 0.008064,
      "grad_norm": 1.044870138168335,
      "learning_rate": 0.00026808510638297875,
      "loss": 3.8537,
      "step": 63
    },
    {
      "epoch": 0.008192,
      "grad_norm": 0.7782248258590698,
      "learning_rate": 0.0002723404255319149,
      "loss": 3.738,
      "step": 64
    },
    {
      "epoch": 0.00832,
      "grad_norm": 0.9955766797065735,
      "learning_rate": 0.0002765957446808511,
      "loss": 3.7612,
      "step": 65
    },
    {
      "epoch": 0.008448,
      "grad_norm": 0.8899986743927002,
      "learning_rate": 0.00028085106382978725,
      "loss": 3.6041,
      "step": 66
    },
    {
      "epoch": 0.008576,
      "grad_norm": 0.859923779964447,
      "learning_rate": 0.0002851063829787234,
      "loss": 3.8085,
      "step": 67
    },
    {
      "epoch": 0.008704,
      "grad_norm": 0.7499911785125732,
      "learning_rate": 0.00028936170212765953,
      "loss": 3.6565,
      "step": 68
    },
    {
      "epoch": 0.008832,
      "grad_norm": 0.7738646268844604,
      "learning_rate": 0.00029361702127659575,
      "loss": 3.5931,
      "step": 69
    },
    {
      "epoch": 0.00896,
      "grad_norm": 0.8987733125686646,
      "learning_rate": 0.0002978723404255319,
      "loss": 3.7695,
      "step": 70
    },
    {
      "epoch": 0.009088,
      "grad_norm": 0.9147993326187134,
      "learning_rate": 0.0003021276595744681,
      "loss": 3.7878,
      "step": 71
    },
    {
      "epoch": 0.009216,
      "grad_norm": 0.7714316248893738,
      "learning_rate": 0.00030638297872340425,
      "loss": 3.6276,
      "step": 72
    },
    {
      "epoch": 0.009344,
      "grad_norm": 0.8053210973739624,
      "learning_rate": 0.0003106382978723404,
      "loss": 3.7274,
      "step": 73
    },
    {
      "epoch": 0.009472,
      "grad_norm": 0.8243674635887146,
      "learning_rate": 0.00031489361702127664,
      "loss": 3.646,
      "step": 74
    },
    {
      "epoch": 0.0096,
      "grad_norm": 0.7861165404319763,
      "learning_rate": 0.0003191489361702128,
      "loss": 3.6696,
      "step": 75
    },
    {
      "epoch": 0.009728,
      "grad_norm": 0.8386576175689697,
      "learning_rate": 0.00032340425531914897,
      "loss": 3.7261,
      "step": 76
    },
    {
      "epoch": 0.009856,
      "grad_norm": 0.904460072517395,
      "learning_rate": 0.0003276595744680851,
      "loss": 3.6823,
      "step": 77
    },
    {
      "epoch": 0.009984,
      "grad_norm": 0.8897749781608582,
      "learning_rate": 0.00033191489361702125,
      "loss": 3.6544,
      "step": 78
    },
    {
      "epoch": 0.010112,
      "grad_norm": 0.9021503329277039,
      "learning_rate": 0.0003361702127659574,
      "loss": 3.6645,
      "step": 79
    },
    {
      "epoch": 0.01024,
      "grad_norm": 0.931369960308075,
      "learning_rate": 0.00034042553191489364,
      "loss": 3.6778,
      "step": 80
    },
    {
      "epoch": 0.010368,
      "grad_norm": 0.8733760118484497,
      "learning_rate": 0.0003446808510638298,
      "loss": 3.6252,
      "step": 81
    },
    {
      "epoch": 0.010496,
      "grad_norm": 0.7430742979049683,
      "learning_rate": 0.00034893617021276597,
      "loss": 3.7201,
      "step": 82
    },
    {
      "epoch": 0.010624,
      "grad_norm": 0.8488394021987915,
      "learning_rate": 0.00035319148936170213,
      "loss": 3.6709,
      "step": 83
    },
    {
      "epoch": 0.010752,
      "grad_norm": 1.0589978694915771,
      "learning_rate": 0.0003574468085106383,
      "loss": 3.5852,
      "step": 84
    },
    {
      "epoch": 0.01088,
      "grad_norm": 0.9025973081588745,
      "learning_rate": 0.0003617021276595745,
      "loss": 3.6901,
      "step": 85
    },
    {
      "epoch": 0.011008,
      "grad_norm": 0.7948459982872009,
      "learning_rate": 0.00036595744680851063,
      "loss": 3.6556,
      "step": 86
    },
    {
      "epoch": 0.011136,
      "grad_norm": 0.7652031779289246,
      "learning_rate": 0.0003702127659574468,
      "loss": 3.7041,
      "step": 87
    },
    {
      "epoch": 0.011264,
      "grad_norm": 0.9122452139854431,
      "learning_rate": 0.00037446808510638297,
      "loss": 3.6721,
      "step": 88
    },
    {
      "epoch": 0.011392,
      "grad_norm": 0.9899469017982483,
      "learning_rate": 0.00037872340425531913,
      "loss": 3.7506,
      "step": 89
    },
    {
      "epoch": 0.01152,
      "grad_norm": 0.9804373383522034,
      "learning_rate": 0.0003829787234042553,
      "loss": 3.7213,
      "step": 90
    },
    {
      "epoch": 0.011648,
      "grad_norm": 0.7347725033760071,
      "learning_rate": 0.0003872340425531915,
      "loss": 3.7477,
      "step": 91
    },
    {
      "epoch": 0.011776,
      "grad_norm": 0.9304172396659851,
      "learning_rate": 0.0003914893617021277,
      "loss": 3.5331,
      "step": 92
    },
    {
      "epoch": 0.011904,
      "grad_norm": 0.8682372570037842,
      "learning_rate": 0.00039574468085106385,
      "loss": 3.5015,
      "step": 93
    },
    {
      "epoch": 0.012032,
      "grad_norm": 1.062011480331421,
      "learning_rate": 0.0004,
      "loss": 3.5923,
      "step": 94
    },
    {
      "epoch": 0.01216,
      "grad_norm": 0.7771174311637878,
      "learning_rate": 0.00040425531914893613,
      "loss": 3.5435,
      "step": 95
    },
    {
      "epoch": 0.012288,
      "grad_norm": 0.9650898575782776,
      "learning_rate": 0.00040851063829787235,
      "loss": 3.5532,
      "step": 96
    },
    {
      "epoch": 0.012416,
      "grad_norm": 1.1472983360290527,
      "learning_rate": 0.0004127659574468085,
      "loss": 3.5338,
      "step": 97
    },
    {
      "epoch": 0.012544,
      "grad_norm": 1.0113859176635742,
      "learning_rate": 0.0004170212765957447,
      "loss": 3.6769,
      "step": 98
    },
    {
      "epoch": 0.012672,
      "grad_norm": 1.2221604585647583,
      "learning_rate": 0.00042127659574468085,
      "loss": 3.5922,
      "step": 99
    },
    {
      "epoch": 0.0128,
      "grad_norm": 1.0673686265945435,
      "learning_rate": 0.000425531914893617,
      "loss": 3.5636,
      "step": 100
    },
    {
      "epoch": 0.012928,
      "grad_norm": 0.87080979347229,
      "learning_rate": 0.0004297872340425532,
      "loss": 3.6221,
      "step": 101
    },
    {
      "epoch": 0.013056,
      "grad_norm": 0.8614749312400818,
      "learning_rate": 0.0004340425531914894,
      "loss": 3.4592,
      "step": 102
    },
    {
      "epoch": 0.013184,
      "grad_norm": 1.1190485954284668,
      "learning_rate": 0.00043829787234042557,
      "loss": 3.5449,
      "step": 103
    },
    {
      "epoch": 0.013312,
      "grad_norm": 0.7853002548217773,
      "learning_rate": 0.0004425531914893617,
      "loss": 3.3822,
      "step": 104
    },
    {
      "epoch": 0.01344,
      "grad_norm": 1.1355797052383423,
      "learning_rate": 0.00044680851063829785,
      "loss": 3.5487,
      "step": 105
    },
    {
      "epoch": 0.013568,
      "grad_norm": 1.0409480333328247,
      "learning_rate": 0.000451063829787234,
      "loss": 3.6248,
      "step": 106
    },
    {
      "epoch": 0.013696,
      "grad_norm": 0.966842770576477,
      "learning_rate": 0.00045531914893617024,
      "loss": 3.4778,
      "step": 107
    },
    {
      "epoch": 0.013824,
      "grad_norm": 0.9912462830543518,
      "learning_rate": 0.0004595744680851064,
      "loss": 3.5293,
      "step": 108
    },
    {
      "epoch": 0.013952,
      "grad_norm": 0.8655415177345276,
      "learning_rate": 0.00046382978723404257,
      "loss": 3.4744,
      "step": 109
    },
    {
      "epoch": 0.01408,
      "grad_norm": 1.1039891242980957,
      "learning_rate": 0.00046808510638297874,
      "loss": 3.6072,
      "step": 110
    },
    {
      "epoch": 0.014208,
      "grad_norm": 1.0865576267242432,
      "learning_rate": 0.0004723404255319149,
      "loss": 3.435,
      "step": 111
    },
    {
      "epoch": 0.014336,
      "grad_norm": 0.909172773361206,
      "learning_rate": 0.0004765957446808511,
      "loss": 3.4282,
      "step": 112
    },
    {
      "epoch": 0.014464,
      "grad_norm": 0.9563931822776794,
      "learning_rate": 0.00048085106382978723,
      "loss": 3.6372,
      "step": 113
    },
    {
      "epoch": 0.014592,
      "grad_norm": 1.0095747709274292,
      "learning_rate": 0.0004851063829787234,
      "loss": 3.5459,
      "step": 114
    },
    {
      "epoch": 0.01472,
      "grad_norm": 1.0250639915466309,
      "learning_rate": 0.0004893617021276596,
      "loss": 3.5405,
      "step": 115
    },
    {
      "epoch": 0.014848,
      "grad_norm": 1.090760588645935,
      "learning_rate": 0.0004936170212765957,
      "loss": 3.4873,
      "step": 116
    },
    {
      "epoch": 0.014976,
      "grad_norm": 1.2670589685440063,
      "learning_rate": 0.000497872340425532,
      "loss": 3.6147,
      "step": 117
    },
    {
      "epoch": 0.015104,
      "grad_norm": 1.1454437971115112,
      "learning_rate": 0.0005021276595744681,
      "loss": 3.6038,
      "step": 118
    },
    {
      "epoch": 0.015232,
      "grad_norm": 1.060421109199524,
      "learning_rate": 0.0005063829787234042,
      "loss": 3.5507,
      "step": 119
    },
    {
      "epoch": 0.01536,
      "grad_norm": 1.3501315116882324,
      "learning_rate": 0.0005106382978723404,
      "loss": 3.3851,
      "step": 120
    },
    {
      "epoch": 0.015488,
      "grad_norm": 0.9809452891349792,
      "learning_rate": 0.0005148936170212766,
      "loss": 3.4377,
      "step": 121
    },
    {
      "epoch": 0.015616,
      "grad_norm": 1.1527228355407715,
      "learning_rate": 0.0005191489361702127,
      "loss": 3.4648,
      "step": 122
    },
    {
      "epoch": 0.015744,
      "grad_norm": 1.3340975046157837,
      "learning_rate": 0.000523404255319149,
      "loss": 3.5055,
      "step": 123
    },
    {
      "epoch": 0.015872,
      "grad_norm": 1.2258431911468506,
      "learning_rate": 0.0005276595744680851,
      "loss": 3.5637,
      "step": 124
    },
    {
      "epoch": 0.016,
      "grad_norm": 1.2929353713989258,
      "learning_rate": 0.0005319148936170213,
      "loss": 3.3823,
      "step": 125
    },
    {
      "epoch": 0.016128,
      "grad_norm": 0.9632730484008789,
      "learning_rate": 0.0005361702127659575,
      "loss": 3.4117,
      "step": 126
    },
    {
      "epoch": 0.016256,
      "grad_norm": 1.1244301795959473,
      "learning_rate": 0.0005404255319148936,
      "loss": 3.5145,
      "step": 127
    },
    {
      "epoch": 0.016384,
      "grad_norm": 1.2787673473358154,
      "learning_rate": 0.0005446808510638298,
      "loss": 3.5888,
      "step": 128
    },
    {
      "epoch": 0.016512,
      "grad_norm": 0.9335303902626038,
      "learning_rate": 0.000548936170212766,
      "loss": 3.4881,
      "step": 129
    },
    {
      "epoch": 0.01664,
      "grad_norm": 1.1960763931274414,
      "learning_rate": 0.0005531914893617022,
      "loss": 3.4609,
      "step": 130
    },
    {
      "epoch": 0.016768,
      "grad_norm": 0.9911436438560486,
      "learning_rate": 0.0005574468085106383,
      "loss": 3.4634,
      "step": 131
    },
    {
      "epoch": 0.016896,
      "grad_norm": 1.428568720817566,
      "learning_rate": 0.0005617021276595745,
      "loss": 3.467,
      "step": 132
    },
    {
      "epoch": 0.017024,
      "grad_norm": 1.407132625579834,
      "learning_rate": 0.0005659574468085107,
      "loss": 3.5838,
      "step": 133
    },
    {
      "epoch": 0.017152,
      "grad_norm": 1.2396906614303589,
      "learning_rate": 0.0005702127659574468,
      "loss": 3.5047,
      "step": 134
    },
    {
      "epoch": 0.01728,
      "grad_norm": 1.1934436559677124,
      "learning_rate": 0.0005744680851063831,
      "loss": 3.3604,
      "step": 135
    },
    {
      "epoch": 0.017408,
      "grad_norm": 1.1586065292358398,
      "learning_rate": 0.0005787234042553191,
      "loss": 3.4285,
      "step": 136
    },
    {
      "epoch": 0.017536,
      "grad_norm": 1.044615626335144,
      "learning_rate": 0.0005829787234042553,
      "loss": 3.4329,
      "step": 137
    },
    {
      "epoch": 0.017664,
      "grad_norm": 1.0664594173431396,
      "learning_rate": 0.0005872340425531915,
      "loss": 3.3249,
      "step": 138
    },
    {
      "epoch": 0.017792,
      "grad_norm": 1.1789802312850952,
      "learning_rate": 0.0005914893617021276,
      "loss": 3.4968,
      "step": 139
    },
    {
      "epoch": 0.01792,
      "grad_norm": 0.9804016351699829,
      "learning_rate": 0.0005957446808510638,
      "loss": 3.3734,
      "step": 140
    },
    {
      "epoch": 0.018048,
      "grad_norm": 1.044003963470459,
      "learning_rate": 0.0006,
      "loss": 3.5041,
      "step": 141
    },
    {
      "epoch": 0.018176,
      "grad_norm": 1.2280548810958862,
      "learning_rate": 0.0006042553191489362,
      "loss": 3.5189,
      "step": 142
    },
    {
      "epoch": 0.018304,
      "grad_norm": 1.1640428304672241,
      "learning_rate": 0.0006085106382978724,
      "loss": 3.4355,
      "step": 143
    },
    {
      "epoch": 0.018432,
      "grad_norm": 1.0376780033111572,
      "learning_rate": 0.0006127659574468085,
      "loss": 3.4356,
      "step": 144
    },
    {
      "epoch": 0.01856,
      "grad_norm": 1.1297138929367065,
      "learning_rate": 0.0006170212765957447,
      "loss": 3.2255,
      "step": 145
    },
    {
      "epoch": 0.018688,
      "grad_norm": 0.9650883078575134,
      "learning_rate": 0.0006212765957446808,
      "loss": 3.4198,
      "step": 146
    },
    {
      "epoch": 0.018816,
      "grad_norm": 1.0592154264450073,
      "learning_rate": 0.000625531914893617,
      "loss": 3.2384,
      "step": 147
    },
    {
      "epoch": 0.018944,
      "grad_norm": 0.9976747035980225,
      "learning_rate": 0.0006297872340425533,
      "loss": 3.3712,
      "step": 148
    },
    {
      "epoch": 0.019072,
      "grad_norm": 0.9566013813018799,
      "learning_rate": 0.0006340425531914894,
      "loss": 3.3515,
      "step": 149
    },
    {
      "epoch": 0.0192,
      "grad_norm": 0.9389305710792542,
      "learning_rate": 0.0006382978723404256,
      "loss": 3.3441,
      "step": 150
    },
    {
      "epoch": 0.019328,
      "grad_norm": 1.1003676652908325,
      "learning_rate": 0.0006425531914893617,
      "loss": 3.3163,
      "step": 151
    },
    {
      "epoch": 0.019456,
      "grad_norm": 1.153186559677124,
      "learning_rate": 0.0006468085106382979,
      "loss": 3.35,
      "step": 152
    },
    {
      "epoch": 0.019584,
      "grad_norm": 1.1992379426956177,
      "learning_rate": 0.0006510638297872342,
      "loss": 3.2598,
      "step": 153
    },
    {
      "epoch": 0.019712,
      "grad_norm": 1.1861536502838135,
      "learning_rate": 0.0006553191489361702,
      "loss": 3.3192,
      "step": 154
    },
    {
      "epoch": 0.01984,
      "grad_norm": 1.0618276596069336,
      "learning_rate": 0.0006595744680851064,
      "loss": 3.3532,
      "step": 155
    },
    {
      "epoch": 0.019968,
      "grad_norm": 0.9960892200469971,
      "learning_rate": 0.0006638297872340425,
      "loss": 3.3498,
      "step": 156
    },
    {
      "epoch": 0.020096,
      "grad_norm": 1.1976211071014404,
      "learning_rate": 0.0006680851063829787,
      "loss": 3.2455,
      "step": 157
    },
    {
      "epoch": 0.020224,
      "grad_norm": 1.1545395851135254,
      "learning_rate": 0.0006723404255319148,
      "loss": 3.3599,
      "step": 158
    },
    {
      "epoch": 0.020352,
      "grad_norm": 1.2576904296875,
      "learning_rate": 0.000676595744680851,
      "loss": 3.4338,
      "step": 159
    },
    {
      "epoch": 0.02048,
      "grad_norm": 1.0920307636260986,
      "learning_rate": 0.0006808510638297873,
      "loss": 3.332,
      "step": 160
    },
    {
      "epoch": 0.020608,
      "grad_norm": 1.069137692451477,
      "learning_rate": 0.0006851063829787234,
      "loss": 3.2413,
      "step": 161
    },
    {
      "epoch": 0.020736,
      "grad_norm": 1.1251360177993774,
      "learning_rate": 0.0006893617021276596,
      "loss": 3.3141,
      "step": 162
    },
    {
      "epoch": 0.020864,
      "grad_norm": 1.274717092514038,
      "learning_rate": 0.0006936170212765957,
      "loss": 3.3348,
      "step": 163
    },
    {
      "epoch": 0.020992,
      "grad_norm": 1.8864483833312988,
      "learning_rate": 0.0006978723404255319,
      "loss": 3.2656,
      "step": 164
    },
    {
      "epoch": 0.02112,
      "grad_norm": 1.325162410736084,
      "learning_rate": 0.0007021276595744682,
      "loss": 3.313,
      "step": 165
    },
    {
      "epoch": 0.021248,
      "grad_norm": 1.2034209966659546,
      "learning_rate": 0.0007063829787234043,
      "loss": 3.2448,
      "step": 166
    },
    {
      "epoch": 0.021376,
      "grad_norm": 1.1466381549835205,
      "learning_rate": 0.0007106382978723405,
      "loss": 3.3196,
      "step": 167
    },
    {
      "epoch": 0.021504,
      "grad_norm": 0.9780840277671814,
      "learning_rate": 0.0007148936170212766,
      "loss": 3.2527,
      "step": 168
    },
    {
      "epoch": 0.021632,
      "grad_norm": 1.109329342842102,
      "learning_rate": 0.0007191489361702128,
      "loss": 3.4209,
      "step": 169
    },
    {
      "epoch": 0.02176,
      "grad_norm": 1.157483696937561,
      "learning_rate": 0.000723404255319149,
      "loss": 3.2365,
      "step": 170
    },
    {
      "epoch": 0.021888,
      "grad_norm": 0.9294780492782593,
      "learning_rate": 0.0007276595744680852,
      "loss": 3.2902,
      "step": 171
    },
    {
      "epoch": 0.022016,
      "grad_norm": 1.1500272750854492,
      "learning_rate": 0.0007319148936170213,
      "loss": 3.2651,
      "step": 172
    },
    {
      "epoch": 0.022144,
      "grad_norm": 1.088771104812622,
      "learning_rate": 0.0007361702127659574,
      "loss": 3.2711,
      "step": 173
    },
    {
      "epoch": 0.022272,
      "grad_norm": 0.9594299793243408,
      "learning_rate": 0.0007404255319148936,
      "loss": 3.3424,
      "step": 174
    },
    {
      "epoch": 0.0224,
      "grad_norm": 1.098388671875,
      "learning_rate": 0.0007446808510638298,
      "loss": 3.3564,
      "step": 175
    },
    {
      "epoch": 0.022528,
      "grad_norm": 1.2537527084350586,
      "learning_rate": 0.0007489361702127659,
      "loss": 3.1222,
      "step": 176
    },
    {
      "epoch": 0.022656,
      "grad_norm": 0.9817749261856079,
      "learning_rate": 0.0007531914893617022,
      "loss": 3.4,
      "step": 177
    },
    {
      "epoch": 0.022784,
      "grad_norm": 1.0211855173110962,
      "learning_rate": 0.0007574468085106383,
      "loss": 3.1509,
      "step": 178
    },
    {
      "epoch": 0.022912,
      "grad_norm": 1.019299030303955,
      "learning_rate": 0.0007617021276595745,
      "loss": 3.2002,
      "step": 179
    },
    {
      "epoch": 0.02304,
      "grad_norm": 0.9195669889450073,
      "learning_rate": 0.0007659574468085106,
      "loss": 3.2184,
      "step": 180
    },
    {
      "epoch": 0.023168,
      "grad_norm": 0.9520158767700195,
      "learning_rate": 0.0007702127659574468,
      "loss": 3.2373,
      "step": 181
    },
    {
      "epoch": 0.023296,
      "grad_norm": 0.9263327717781067,
      "learning_rate": 0.000774468085106383,
      "loss": 3.1889,
      "step": 182
    },
    {
      "epoch": 0.023424,
      "grad_norm": 0.9835395216941833,
      "learning_rate": 0.0007787234042553192,
      "loss": 3.1973,
      "step": 183
    },
    {
      "epoch": 0.023552,
      "grad_norm": 1.0108965635299683,
      "learning_rate": 0.0007829787234042554,
      "loss": 3.1881,
      "step": 184
    },
    {
      "epoch": 0.02368,
      "grad_norm": 1.140355110168457,
      "learning_rate": 0.0007872340425531915,
      "loss": 3.2981,
      "step": 185
    },
    {
      "epoch": 0.023808,
      "grad_norm": 1.0745989084243774,
      "learning_rate": 0.0007914893617021277,
      "loss": 3.2548,
      "step": 186
    },
    {
      "epoch": 0.023936,
      "grad_norm": 1.1012014150619507,
      "learning_rate": 0.0007957446808510639,
      "loss": 3.174,
      "step": 187
    },
    {
      "epoch": 0.024064,
      "grad_norm": 1.0435924530029297,
      "learning_rate": 0.0008,
      "loss": 3.2073,
      "step": 188
    },
    {
      "epoch": 0.024192,
      "grad_norm": 0.998992919921875,
      "learning_rate": 0.0008042553191489363,
      "loss": 3.212,
      "step": 189
    },
    {
      "epoch": 0.02432,
      "grad_norm": 0.9902203679084778,
      "learning_rate": 0.0008085106382978723,
      "loss": 3.2246,
      "step": 190
    },
    {
      "epoch": 0.024448,
      "grad_norm": 1.0344561338424683,
      "learning_rate": 0.0008127659574468085,
      "loss": 3.1067,
      "step": 191
    },
    {
      "epoch": 0.024576,
      "grad_norm": 1.0879191160202026,
      "learning_rate": 0.0008170212765957447,
      "loss": 3.1803,
      "step": 192
    },
    {
      "epoch": 0.024704,
      "grad_norm": 1.0393433570861816,
      "learning_rate": 0.0008212765957446808,
      "loss": 3.3066,
      "step": 193
    },
    {
      "epoch": 0.024832,
      "grad_norm": 1.0951956510543823,
      "learning_rate": 0.000825531914893617,
      "loss": 3.1537,
      "step": 194
    },
    {
      "epoch": 0.02496,
      "grad_norm": 1.0355380773544312,
      "learning_rate": 0.0008297872340425531,
      "loss": 3.3332,
      "step": 195
    },
    {
      "epoch": 0.025088,
      "grad_norm": 0.8857280611991882,
      "learning_rate": 0.0008340425531914894,
      "loss": 3.2164,
      "step": 196
    },
    {
      "epoch": 0.025216,
      "grad_norm": 1.0834819078445435,
      "learning_rate": 0.0008382978723404256,
      "loss": 3.1309,
      "step": 197
    },
    {
      "epoch": 0.025344,
      "grad_norm": 1.066514253616333,
      "learning_rate": 0.0008425531914893617,
      "loss": 3.1731,
      "step": 198
    },
    {
      "epoch": 0.025472,
      "grad_norm": 0.9492433071136475,
      "learning_rate": 0.0008468085106382979,
      "loss": 3.2075,
      "step": 199
    },
    {
      "epoch": 0.0256,
      "grad_norm": 0.9976780414581299,
      "learning_rate": 0.000851063829787234,
      "loss": 3.1901,
      "step": 200
    },
    {
      "epoch": 0.025728,
      "grad_norm": 0.9801614880561829,
      "learning_rate": 0.0008553191489361703,
      "loss": 3.1316,
      "step": 201
    },
    {
      "epoch": 0.025856,
      "grad_norm": 1.1135509014129639,
      "learning_rate": 0.0008595744680851064,
      "loss": 3.1814,
      "step": 202
    },
    {
      "epoch": 0.025984,
      "grad_norm": 1.0914548635482788,
      "learning_rate": 0.0008638297872340426,
      "loss": 3.197,
      "step": 203
    },
    {
      "epoch": 0.026112,
      "grad_norm": 0.8279664516448975,
      "learning_rate": 0.0008680851063829788,
      "loss": 3.1637,
      "step": 204
    },
    {
      "epoch": 0.02624,
      "grad_norm": 0.9164723753929138,
      "learning_rate": 0.0008723404255319149,
      "loss": 3.2101,
      "step": 205
    },
    {
      "epoch": 0.026368,
      "grad_norm": 0.9083778262138367,
      "learning_rate": 0.0008765957446808511,
      "loss": 3.0897,
      "step": 206
    },
    {
      "epoch": 0.026496,
      "grad_norm": 0.8910767436027527,
      "learning_rate": 0.0008808510638297873,
      "loss": 3.1338,
      "step": 207
    },
    {
      "epoch": 0.026624,
      "grad_norm": 0.9002741575241089,
      "learning_rate": 0.0008851063829787234,
      "loss": 3.1182,
      "step": 208
    },
    {
      "epoch": 0.026752,
      "grad_norm": 0.9927005171775818,
      "learning_rate": 0.0008893617021276596,
      "loss": 3.1952,
      "step": 209
    },
    {
      "epoch": 0.02688,
      "grad_norm": 0.8872673511505127,
      "learning_rate": 0.0008936170212765957,
      "loss": 3.1814,
      "step": 210
    },
    {
      "epoch": 0.027008,
      "grad_norm": 0.9671887159347534,
      "learning_rate": 0.0008978723404255319,
      "loss": 3.1022,
      "step": 211
    },
    {
      "epoch": 0.027136,
      "grad_norm": 0.9791719913482666,
      "learning_rate": 0.000902127659574468,
      "loss": 3.1105,
      "step": 212
    },
    {
      "epoch": 0.027264,
      "grad_norm": 0.87013179063797,
      "learning_rate": 0.0009063829787234043,
      "loss": 3.1416,
      "step": 213
    },
    {
      "epoch": 0.027392,
      "grad_norm": 0.9094297289848328,
      "learning_rate": 0.0009106382978723405,
      "loss": 3.0886,
      "step": 214
    },
    {
      "epoch": 0.02752,
      "grad_norm": 0.92318195104599,
      "learning_rate": 0.0009148936170212766,
      "loss": 3.0417,
      "step": 215
    },
    {
      "epoch": 0.027648,
      "grad_norm": 0.8414750099182129,
      "learning_rate": 0.0009191489361702128,
      "loss": 3.0414,
      "step": 216
    },
    {
      "epoch": 0.027776,
      "grad_norm": 0.9712803959846497,
      "learning_rate": 0.0009234042553191489,
      "loss": 3.0626,
      "step": 217
    },
    {
      "epoch": 0.027904,
      "grad_norm": 0.9522022604942322,
      "learning_rate": 0.0009276595744680851,
      "loss": 3.0942,
      "step": 218
    },
    {
      "epoch": 0.028032,
      "grad_norm": 0.9481101632118225,
      "learning_rate": 0.0009319148936170214,
      "loss": 3.0344,
      "step": 219
    },
    {
      "epoch": 0.02816,
      "grad_norm": 0.9689142107963562,
      "learning_rate": 0.0009361702127659575,
      "loss": 3.1855,
      "step": 220
    },
    {
      "epoch": 0.028288,
      "grad_norm": 0.8818896412849426,
      "learning_rate": 0.0009404255319148937,
      "loss": 3.1449,
      "step": 221
    },
    {
      "epoch": 0.028416,
      "grad_norm": 1.0158207416534424,
      "learning_rate": 0.0009446808510638298,
      "loss": 3.1507,
      "step": 222
    },
    {
      "epoch": 0.028544,
      "grad_norm": 0.8860445618629456,
      "learning_rate": 0.000948936170212766,
      "loss": 3.0348,
      "step": 223
    },
    {
      "epoch": 0.028672,
      "grad_norm": 0.9745045304298401,
      "learning_rate": 0.0009531914893617022,
      "loss": 3.12,
      "step": 224
    },
    {
      "epoch": 0.0288,
      "grad_norm": 0.8385130167007446,
      "learning_rate": 0.0009574468085106384,
      "loss": 3.033,
      "step": 225
    },
    {
      "epoch": 0.028928,
      "grad_norm": 0.9507827162742615,
      "learning_rate": 0.0009617021276595745,
      "loss": 3.1153,
      "step": 226
    },
    {
      "epoch": 0.029056,
      "grad_norm": 0.8837984800338745,
      "learning_rate": 0.0009659574468085106,
      "loss": 3.0591,
      "step": 227
    },
    {
      "epoch": 0.029184,
      "grad_norm": 0.9604395031929016,
      "learning_rate": 0.0009702127659574468,
      "loss": 3.1474,
      "step": 228
    },
    {
      "epoch": 0.029312,
      "grad_norm": 0.8817190527915955,
      "learning_rate": 0.0009744680851063829,
      "loss": 3.1112,
      "step": 229
    },
    {
      "epoch": 0.02944,
      "grad_norm": 0.7797825336456299,
      "learning_rate": 0.0009787234042553192,
      "loss": 2.9623,
      "step": 230
    },
    {
      "epoch": 0.029568,
      "grad_norm": 0.9636910557746887,
      "learning_rate": 0.0009829787234042554,
      "loss": 3.1421,
      "step": 231
    },
    {
      "epoch": 0.029696,
      "grad_norm": 0.8808191418647766,
      "learning_rate": 0.0009872340425531915,
      "loss": 3.0927,
      "step": 232
    },
    {
      "epoch": 0.029824,
      "grad_norm": 0.8707711100578308,
      "learning_rate": 0.0009914893617021276,
      "loss": 3.1024,
      "step": 233
    },
    {
      "epoch": 0.029952,
      "grad_norm": 0.9221770763397217,
      "learning_rate": 0.000995744680851064,
      "loss": 2.998,
      "step": 234
    },
    {
      "epoch": 0.03008,
      "grad_norm": 0.8865799307823181,
      "learning_rate": 0.001,
      "loss": 3.1223,
      "step": 235
    },
    {
      "epoch": 0.030208,
      "grad_norm": 0.8823196291923523,
      "learning_rate": 0.0009999999570221019,
      "loss": 2.9992,
      "step": 236
    },
    {
      "epoch": 0.030336,
      "grad_norm": 0.9251866936683655,
      "learning_rate": 0.0009999998280884144,
      "loss": 3.0262,
      "step": 237
    },
    {
      "epoch": 0.030464,
      "grad_norm": 0.8821667432785034,
      "learning_rate": 0.0009999996131989603,
      "loss": 3.1471,
      "step": 238
    },
    {
      "epoch": 0.030592,
      "grad_norm": 1.0354844331741333,
      "learning_rate": 0.0009999993123537758,
      "loss": 3.1385,
      "step": 239
    },
    {
      "epoch": 0.03072,
      "grad_norm": 1.0107269287109375,
      "learning_rate": 0.0009999989255529132,
      "loss": 3.0836,
      "step": 240
    },
    {
      "epoch": 0.030848,
      "grad_norm": 0.863836407661438,
      "learning_rate": 0.0009999984527964388,
      "loss": 3.0621,
      "step": 241
    },
    {
      "epoch": 0.030976,
      "grad_norm": 0.846956193447113,
      "learning_rate": 0.000999997894084434,
      "loss": 2.975,
      "step": 242
    },
    {
      "epoch": 0.031104,
      "grad_norm": 0.841764509677887,
      "learning_rate": 0.0009999972494169947,
      "loss": 3.1079,
      "step": 243
    },
    {
      "epoch": 0.031232,
      "grad_norm": 0.8270351886749268,
      "learning_rate": 0.0009999965187942315,
      "loss": 3.1359,
      "step": 244
    },
    {
      "epoch": 0.03136,
      "grad_norm": 0.9058095812797546,
      "learning_rate": 0.0009999957022162706,
      "loss": 3.0236,
      "step": 245
    },
    {
      "epoch": 0.031488,
      "grad_norm": 0.9222115278244019,
      "learning_rate": 0.0009999947996832518,
      "loss": 3.0729,
      "step": 246
    },
    {
      "epoch": 0.031616,
      "grad_norm": 0.900174617767334,
      "learning_rate": 0.0009999938111953305,
      "loss": 3.0958,
      "step": 247
    },
    {
      "epoch": 0.031744,
      "grad_norm": 0.8774619698524475,
      "learning_rate": 0.0009999927367526768,
      "loss": 2.9782,
      "step": 248
    },
    {
      "epoch": 0.031872,
      "grad_norm": 0.9533689618110657,
      "learning_rate": 0.0009999915763554753,
      "loss": 2.9565,
      "step": 249
    },
    {
      "epoch": 0.032,
      "grad_norm": 1.0539335012435913,
      "learning_rate": 0.0009999903300039253,
      "loss": 3.2335,
      "step": 250
    },
    {
      "epoch": 0.032128,
      "grad_norm": 0.9264887571334839,
      "learning_rate": 0.0009999889976982413,
      "loss": 3.019,
      "step": 251
    },
    {
      "epoch": 0.032256,
      "grad_norm": 0.8369119763374329,
      "learning_rate": 0.000999987579438652,
      "loss": 3.1846,
      "step": 252
    },
    {
      "epoch": 0.032384,
      "grad_norm": 0.8524092435836792,
      "learning_rate": 0.0009999860752254014,
      "loss": 3.0671,
      "step": 253
    },
    {
      "epoch": 0.032512,
      "grad_norm": 0.811575710773468,
      "learning_rate": 0.0009999844850587486,
      "loss": 3.0022,
      "step": 254
    },
    {
      "epoch": 0.03264,
      "grad_norm": 0.8222184181213379,
      "learning_rate": 0.000999982808938966,
      "loss": 3.1132,
      "step": 255
    },
    {
      "epoch": 0.032768,
      "grad_norm": 0.8614973425865173,
      "learning_rate": 0.0009999810468663425,
      "loss": 3.0398,
      "step": 256
    },
    {
      "epoch": 0.032896,
      "grad_norm": 1.0861093997955322,
      "learning_rate": 0.0009999791988411805,
      "loss": 3.0917,
      "step": 257
    },
    {
      "epoch": 0.033024,
      "grad_norm": 0.822741687297821,
      "learning_rate": 0.0009999772648637984,
      "loss": 2.9989,
      "step": 258
    },
    {
      "epoch": 0.033152,
      "grad_norm": 0.7793201208114624,
      "learning_rate": 0.000999975244934528,
      "loss": 3.044,
      "step": 259
    },
    {
      "epoch": 0.03328,
      "grad_norm": 0.8446470499038696,
      "learning_rate": 0.0009999731390537168,
      "loss": 3.0204,
      "step": 260
    },
    {
      "epoch": 0.033408,
      "grad_norm": 0.8958456516265869,
      "learning_rate": 0.0009999709472217266,
      "loss": 3.0255,
      "step": 261
    },
    {
      "epoch": 0.033536,
      "grad_norm": 0.8587238788604736,
      "learning_rate": 0.0009999686694389348,
      "loss": 3.0204,
      "step": 262
    },
    {
      "epoch": 0.033664,
      "grad_norm": 0.8403927683830261,
      "learning_rate": 0.0009999663057057323,
      "loss": 3.0421,
      "step": 263
    },
    {
      "epoch": 0.033792,
      "grad_norm": 0.905823826789856,
      "learning_rate": 0.0009999638560225258,
      "loss": 3.077,
      "step": 264
    },
    {
      "epoch": 0.03392,
      "grad_norm": 0.8159812092781067,
      "learning_rate": 0.0009999613203897364,
      "loss": 3.0125,
      "step": 265
    },
    {
      "epoch": 0.034048,
      "grad_norm": 0.8046128749847412,
      "learning_rate": 0.0009999586988078,
      "loss": 3.0701,
      "step": 266
    },
    {
      "epoch": 0.034176,
      "grad_norm": 0.8173848986625671,
      "learning_rate": 0.0009999559912771672,
      "loss": 3.0729,
      "step": 267
    },
    {
      "epoch": 0.034304,
      "grad_norm": 0.7329995632171631,
      "learning_rate": 0.0009999531977983036,
      "loss": 3.0211,
      "step": 268
    },
    {
      "epoch": 0.034432,
      "grad_norm": 0.7342677712440491,
      "learning_rate": 0.0009999503183716894,
      "loss": 2.8931,
      "step": 269
    },
    {
      "epoch": 0.03456,
      "grad_norm": 0.8743920922279358,
      "learning_rate": 0.0009999473529978193,
      "loss": 2.9303,
      "step": 270
    },
    {
      "epoch": 0.034688,
      "grad_norm": 0.7958998084068298,
      "learning_rate": 0.0009999443016772036,
      "loss": 3.0537,
      "step": 271
    },
    {
      "epoch": 0.034816,
      "grad_norm": 0.8771225214004517,
      "learning_rate": 0.0009999411644103665,
      "loss": 3.0885,
      "step": 272
    },
    {
      "epoch": 0.034944,
      "grad_norm": 0.910785973072052,
      "learning_rate": 0.0009999379411978473,
      "loss": 3.0794,
      "step": 273
    },
    {
      "epoch": 0.035072,
      "grad_norm": 0.809373140335083,
      "learning_rate": 0.0009999346320402002,
      "loss": 2.9713,
      "step": 274
    },
    {
      "epoch": 0.0352,
      "grad_norm": 0.8064568042755127,
      "learning_rate": 0.0009999312369379943,
      "loss": 3.1238,
      "step": 275
    },
    {
      "epoch": 0.035328,
      "grad_norm": 0.772553563117981,
      "learning_rate": 0.000999927755891813,
      "loss": 3.0141,
      "step": 276
    },
    {
      "epoch": 0.035456,
      "grad_norm": 0.7310764193534851,
      "learning_rate": 0.0009999241889022549,
      "loss": 3.0199,
      "step": 277
    },
    {
      "epoch": 0.035584,
      "grad_norm": 0.8301486968994141,
      "learning_rate": 0.000999920535969933,
      "loss": 3.0203,
      "step": 278
    },
    {
      "epoch": 0.035712,
      "grad_norm": 0.7449310421943665,
      "learning_rate": 0.0009999167970954753,
      "loss": 3.0081,
      "step": 279
    },
    {
      "epoch": 0.03584,
      "grad_norm": 0.8585334420204163,
      "learning_rate": 0.0009999129722795248,
      "loss": 2.9167,
      "step": 280
    },
    {
      "epoch": 0.035968,
      "grad_norm": 0.8676912784576416,
      "learning_rate": 0.000999909061522739,
      "loss": 3.1166,
      "step": 281
    },
    {
      "epoch": 0.036096,
      "grad_norm": 0.7833254337310791,
      "learning_rate": 0.0009999050648257899,
      "loss": 2.921,
      "step": 282
    },
    {
      "epoch": 0.036224,
      "grad_norm": 0.9498588442802429,
      "learning_rate": 0.0009999009821893647,
      "loss": 3.049,
      "step": 283
    },
    {
      "epoch": 0.036352,
      "grad_norm": 0.829802393913269,
      "learning_rate": 0.0009998968136141653,
      "loss": 2.9878,
      "step": 284
    },
    {
      "epoch": 0.03648,
      "grad_norm": 0.7596468925476074,
      "learning_rate": 0.0009998925591009084,
      "loss": 2.9704,
      "step": 285
    },
    {
      "epoch": 0.036608,
      "grad_norm": 0.7765874862670898,
      "learning_rate": 0.0009998882186503255,
      "loss": 3.0784,
      "step": 286
    },
    {
      "epoch": 0.036736,
      "grad_norm": 0.890815019607544,
      "learning_rate": 0.0009998837922631624,
      "loss": 3.0247,
      "step": 287
    },
    {
      "epoch": 0.036864,
      "grad_norm": 0.8184230923652649,
      "learning_rate": 0.0009998792799401804,
      "loss": 3.0332,
      "step": 288
    },
    {
      "epoch": 0.036992,
      "grad_norm": 0.8372507691383362,
      "learning_rate": 0.000999874681682155,
      "loss": 3.0593,
      "step": 289
    },
    {
      "epoch": 0.03712,
      "grad_norm": 0.7939251065254211,
      "learning_rate": 0.0009998699974898767,
      "loss": 3.1207,
      "step": 290
    },
    {
      "epoch": 0.037248,
      "grad_norm": 0.7978199124336243,
      "learning_rate": 0.000999865227364151,
      "loss": 3.0795,
      "step": 291
    },
    {
      "epoch": 0.037376,
      "grad_norm": 0.8779267072677612,
      "learning_rate": 0.0009998603713057977,
      "loss": 3.0749,
      "step": 292
    },
    {
      "epoch": 0.037504,
      "grad_norm": 0.7923197746276855,
      "learning_rate": 0.0009998554293156516,
      "loss": 2.9248,
      "step": 293
    },
    {
      "epoch": 0.037632,
      "grad_norm": 0.7730646133422852,
      "learning_rate": 0.0009998504013945626,
      "loss": 2.9585,
      "step": 294
    },
    {
      "epoch": 0.03776,
      "grad_norm": 0.7723582983016968,
      "learning_rate": 0.0009998452875433948,
      "loss": 3.0097,
      "step": 295
    },
    {
      "epoch": 0.037888,
      "grad_norm": 0.8291860222816467,
      "learning_rate": 0.0009998400877630272,
      "loss": 2.9145,
      "step": 296
    },
    {
      "epoch": 0.038016,
      "grad_norm": 0.730612576007843,
      "learning_rate": 0.000999834802054354,
      "loss": 2.8641,
      "step": 297
    },
    {
      "epoch": 0.038144,
      "grad_norm": 0.7343920469284058,
      "learning_rate": 0.0009998294304182837,
      "loss": 3.0473,
      "step": 298
    },
    {
      "epoch": 0.038272,
      "grad_norm": 0.7951215505599976,
      "learning_rate": 0.0009998239728557397,
      "loss": 2.9151,
      "step": 299
    },
    {
      "epoch": 0.0384,
      "grad_norm": 0.7295165061950684,
      "learning_rate": 0.0009998184293676603,
      "loss": 2.9663,
      "step": 300
    },
    {
      "epoch": 0.038528,
      "grad_norm": 0.8205047249794006,
      "learning_rate": 0.0009998127999549988,
      "loss": 3.0799,
      "step": 301
    },
    {
      "epoch": 0.038656,
      "grad_norm": 0.7838205099105835,
      "learning_rate": 0.0009998070846187223,
      "loss": 2.984,
      "step": 302
    },
    {
      "epoch": 0.038784,
      "grad_norm": 0.819526731967926,
      "learning_rate": 0.000999801283359814,
      "loss": 2.9837,
      "step": 303
    },
    {
      "epoch": 0.038912,
      "grad_norm": 0.8023993968963623,
      "learning_rate": 0.0009997953961792708,
      "loss": 3.0742,
      "step": 304
    },
    {
      "epoch": 0.03904,
      "grad_norm": 0.8278064131736755,
      "learning_rate": 0.0009997894230781047,
      "loss": 3.0809,
      "step": 305
    },
    {
      "epoch": 0.039168,
      "grad_norm": 0.8104820251464844,
      "learning_rate": 0.0009997833640573428,
      "loss": 3.0392,
      "step": 306
    },
    {
      "epoch": 0.039296,
      "grad_norm": 0.8277298212051392,
      "learning_rate": 0.0009997772191180268,
      "loss": 3.1144,
      "step": 307
    },
    {
      "epoch": 0.039424,
      "grad_norm": 0.7920846343040466,
      "learning_rate": 0.0009997709882612128,
      "loss": 2.9864,
      "step": 308
    },
    {
      "epoch": 0.039552,
      "grad_norm": 0.7960850596427917,
      "learning_rate": 0.000999764671487972,
      "loss": 3.0195,
      "step": 309
    },
    {
      "epoch": 0.03968,
      "grad_norm": 0.802424967288971,
      "learning_rate": 0.0009997582687993904,
      "loss": 2.9398,
      "step": 310
    },
    {
      "epoch": 0.039808,
      "grad_norm": 0.8840559720993042,
      "learning_rate": 0.000999751780196569,
      "loss": 2.9394,
      "step": 311
    },
    {
      "epoch": 0.039936,
      "grad_norm": 0.8715512752532959,
      "learning_rate": 0.0009997452056806227,
      "loss": 2.966,
      "step": 312
    },
    {
      "epoch": 0.040064,
      "grad_norm": 0.9042573571205139,
      "learning_rate": 0.000999738545252682,
      "loss": 3.0,
      "step": 313
    },
    {
      "epoch": 0.040192,
      "grad_norm": 1.0008691549301147,
      "learning_rate": 0.0009997317989138919,
      "loss": 3.0594,
      "step": 314
    },
    {
      "epoch": 0.04032,
      "grad_norm": 0.8207758069038391,
      "learning_rate": 0.0009997249666654122,
      "loss": 3.0084,
      "step": 315
    },
    {
      "epoch": 0.040448,
      "grad_norm": 0.7920501828193665,
      "learning_rate": 0.0009997180485084175,
      "loss": 2.9894,
      "step": 316
    },
    {
      "epoch": 0.040576,
      "grad_norm": 0.8167833089828491,
      "learning_rate": 0.000999711044444097,
      "loss": 3.0616,
      "step": 317
    },
    {
      "epoch": 0.040704,
      "grad_norm": 0.8098284602165222,
      "learning_rate": 0.0009997039544736546,
      "loss": 3.0504,
      "step": 318
    },
    {
      "epoch": 0.040832,
      "grad_norm": 0.8333719372749329,
      "learning_rate": 0.0009996967785983097,
      "loss": 2.904,
      "step": 319
    },
    {
      "epoch": 0.04096,
      "grad_norm": 0.7676956057548523,
      "learning_rate": 0.0009996895168192955,
      "loss": 3.01,
      "step": 320
    },
    {
      "epoch": 0.041088,
      "grad_norm": 0.7602295875549316,
      "learning_rate": 0.0009996821691378602,
      "loss": 2.9658,
      "step": 321
    },
    {
      "epoch": 0.041216,
      "grad_norm": 0.7099831700325012,
      "learning_rate": 0.0009996747355552674,
      "loss": 2.9654,
      "step": 322
    },
    {
      "epoch": 0.041344,
      "grad_norm": 0.7907658219337463,
      "learning_rate": 0.000999667216072795,
      "loss": 2.9752,
      "step": 323
    },
    {
      "epoch": 0.041472,
      "grad_norm": 0.7906250357627869,
      "learning_rate": 0.0009996596106917352,
      "loss": 2.9788,
      "step": 324
    },
    {
      "epoch": 0.0416,
      "grad_norm": 0.7327110171318054,
      "learning_rate": 0.000999651919413396,
      "loss": 2.8661,
      "step": 325
    },
    {
      "epoch": 0.041728,
      "grad_norm": 0.773250162601471,
      "learning_rate": 0.0009996441422390992,
      "loss": 3.0199,
      "step": 326
    },
    {
      "epoch": 0.041856,
      "grad_norm": 0.7845718860626221,
      "learning_rate": 0.0009996362791701821,
      "loss": 2.897,
      "step": 327
    },
    {
      "epoch": 0.041984,
      "grad_norm": 0.7358576655387878,
      "learning_rate": 0.0009996283302079964,
      "loss": 3.0096,
      "step": 328
    },
    {
      "epoch": 0.042112,
      "grad_norm": 0.7531759738922119,
      "learning_rate": 0.0009996202953539083,
      "loss": 3.014,
      "step": 329
    },
    {
      "epoch": 0.04224,
      "grad_norm": 0.9208515882492065,
      "learning_rate": 0.0009996121746092997,
      "loss": 3.0565,
      "step": 330
    },
    {
      "epoch": 0.042368,
      "grad_norm": 0.8191081881523132,
      "learning_rate": 0.000999603967975566,
      "loss": 2.9436,
      "step": 331
    },
    {
      "epoch": 0.042496,
      "grad_norm": 0.7497951984405518,
      "learning_rate": 0.0009995956754541182,
      "loss": 2.9112,
      "step": 332
    },
    {
      "epoch": 0.042624,
      "grad_norm": 0.7644115686416626,
      "learning_rate": 0.0009995872970463822,
      "loss": 3.0145,
      "step": 333
    },
    {
      "epoch": 0.042752,
      "grad_norm": 0.8410481810569763,
      "learning_rate": 0.0009995788327537983,
      "loss": 2.9408,
      "step": 334
    },
    {
      "epoch": 0.04288,
      "grad_norm": 0.8171800374984741,
      "learning_rate": 0.0009995702825778211,
      "loss": 2.9052,
      "step": 335
    },
    {
      "epoch": 0.043008,
      "grad_norm": 0.7562091946601868,
      "learning_rate": 0.0009995616465199209,
      "loss": 2.9089,
      "step": 336
    },
    {
      "epoch": 0.043136,
      "grad_norm": 0.6987423896789551,
      "learning_rate": 0.0009995529245815822,
      "loss": 2.9003,
      "step": 337
    },
    {
      "epoch": 0.043264,
      "grad_norm": 0.7732651829719543,
      "learning_rate": 0.0009995441167643046,
      "loss": 2.8769,
      "step": 338
    },
    {
      "epoch": 0.043392,
      "grad_norm": 0.8085380792617798,
      "learning_rate": 0.000999535223069602,
      "loss": 2.9909,
      "step": 339
    },
    {
      "epoch": 0.04352,
      "grad_norm": 0.6947699785232544,
      "learning_rate": 0.0009995262434990037,
      "loss": 2.9387,
      "step": 340
    },
    {
      "epoch": 0.043648,
      "grad_norm": 0.8547946810722351,
      "learning_rate": 0.000999517178054053,
      "loss": 2.996,
      "step": 341
    },
    {
      "epoch": 0.043776,
      "grad_norm": 0.8499475121498108,
      "learning_rate": 0.0009995080267363081,
      "loss": 2.924,
      "step": 342
    },
    {
      "epoch": 0.043904,
      "grad_norm": 0.7079708576202393,
      "learning_rate": 0.000999498789547343,
      "loss": 2.9367,
      "step": 343
    },
    {
      "epoch": 0.044032,
      "grad_norm": 0.7523759603500366,
      "learning_rate": 0.0009994894664887453,
      "loss": 2.9537,
      "step": 344
    },
    {
      "epoch": 0.04416,
      "grad_norm": 0.7353530526161194,
      "learning_rate": 0.0009994800575621175,
      "loss": 2.9587,
      "step": 345
    },
    {
      "epoch": 0.044288,
      "grad_norm": 0.7879810929298401,
      "learning_rate": 0.0009994705627690776,
      "loss": 2.9283,
      "step": 346
    },
    {
      "epoch": 0.044416,
      "grad_norm": 1.2621722221374512,
      "learning_rate": 0.0009994609821112575,
      "loss": 2.9459,
      "step": 347
    },
    {
      "epoch": 0.044544,
      "grad_norm": 0.8287922143936157,
      "learning_rate": 0.0009994513155903043,
      "loss": 2.9493,
      "step": 348
    },
    {
      "epoch": 0.044672,
      "grad_norm": 0.6668418645858765,
      "learning_rate": 0.0009994415632078796,
      "loss": 2.9095,
      "step": 349
    },
    {
      "epoch": 0.0448,
      "grad_norm": 0.7588780522346497,
      "learning_rate": 0.0009994317249656607,
      "loss": 2.8607,
      "step": 350
    },
    {
      "epoch": 0.044928,
      "grad_norm": 0.7136585116386414,
      "learning_rate": 0.000999421800865338,
      "loss": 2.9373,
      "step": 351
    },
    {
      "epoch": 0.045056,
      "grad_norm": 0.7700455188751221,
      "learning_rate": 0.0009994117909086179,
      "loss": 3.0105,
      "step": 352
    },
    {
      "epoch": 0.045184,
      "grad_norm": 0.7388994693756104,
      "learning_rate": 0.0009994016950972213,
      "loss": 2.9567,
      "step": 353
    },
    {
      "epoch": 0.045312,
      "grad_norm": 0.8087120652198792,
      "learning_rate": 0.000999391513432884,
      "loss": 2.9705,
      "step": 354
    },
    {
      "epoch": 0.04544,
      "grad_norm": 0.7967016100883484,
      "learning_rate": 0.0009993812459173556,
      "loss": 2.9548,
      "step": 355
    },
    {
      "epoch": 0.045568,
      "grad_norm": 0.826020359992981,
      "learning_rate": 0.000999370892552402,
      "loss": 2.906,
      "step": 356
    },
    {
      "epoch": 0.045696,
      "grad_norm": 0.717284083366394,
      "learning_rate": 0.000999360453339803,
      "loss": 2.9417,
      "step": 357
    },
    {
      "epoch": 0.045824,
      "grad_norm": 0.7637431025505066,
      "learning_rate": 0.0009993499282813527,
      "loss": 2.9235,
      "step": 358
    },
    {
      "epoch": 0.045952,
      "grad_norm": 0.9485911726951599,
      "learning_rate": 0.0009993393173788607,
      "loss": 3.0467,
      "step": 359
    },
    {
      "epoch": 0.04608,
      "grad_norm": 0.7742293477058411,
      "learning_rate": 0.0009993286206341513,
      "loss": 3.0042,
      "step": 360
    },
    {
      "epoch": 0.046208,
      "grad_norm": 0.7855820059776306,
      "learning_rate": 0.0009993178380490635,
      "loss": 3.0826,
      "step": 361
    },
    {
      "epoch": 0.046336,
      "grad_norm": 0.8208217024803162,
      "learning_rate": 0.0009993069696254506,
      "loss": 2.9024,
      "step": 362
    },
    {
      "epoch": 0.046464,
      "grad_norm": 0.7711336016654968,
      "learning_rate": 0.0009992960153651811,
      "loss": 3.0154,
      "step": 363
    },
    {
      "epoch": 0.046592,
      "grad_norm": 0.6990008354187012,
      "learning_rate": 0.0009992849752701383,
      "loss": 2.968,
      "step": 364
    },
    {
      "epoch": 0.04672,
      "grad_norm": 0.7153813242912292,
      "learning_rate": 0.00099927384934222,
      "loss": 2.8887,
      "step": 365
    },
    {
      "epoch": 0.046848,
      "grad_norm": 0.7239260077476501,
      "learning_rate": 0.0009992626375833389,
      "loss": 2.927,
      "step": 366
    },
    {
      "epoch": 0.046976,
      "grad_norm": 0.7412793040275574,
      "learning_rate": 0.0009992513399954225,
      "loss": 2.9486,
      "step": 367
    },
    {
      "epoch": 0.047104,
      "grad_norm": 0.7471758127212524,
      "learning_rate": 0.0009992399565804128,
      "loss": 2.8246,
      "step": 368
    },
    {
      "epoch": 0.047232,
      "grad_norm": 0.7466433644294739,
      "learning_rate": 0.000999228487340267,
      "loss": 2.8456,
      "step": 369
    },
    {
      "epoch": 0.04736,
      "grad_norm": 0.8232702612876892,
      "learning_rate": 0.0009992169322769566,
      "loss": 3.0164,
      "step": 370
    },
    {
      "epoch": 0.047488,
      "grad_norm": 0.8188246488571167,
      "learning_rate": 0.0009992052913924683,
      "loss": 3.0096,
      "step": 371
    },
    {
      "epoch": 0.047616,
      "grad_norm": 0.8527145385742188,
      "learning_rate": 0.000999193564688803,
      "loss": 2.9531,
      "step": 372
    },
    {
      "epoch": 0.047744,
      "grad_norm": 0.7991988658905029,
      "learning_rate": 0.0009991817521679768,
      "loss": 3.0161,
      "step": 373
    },
    {
      "epoch": 0.047872,
      "grad_norm": 0.7451139092445374,
      "learning_rate": 0.0009991698538320203,
      "loss": 3.005,
      "step": 374
    },
    {
      "epoch": 0.048,
      "grad_norm": 0.7326631546020508,
      "learning_rate": 0.0009991578696829794,
      "loss": 2.8539,
      "step": 375
    },
    {
      "epoch": 0.048128,
      "grad_norm": 0.7414899468421936,
      "learning_rate": 0.0009991457997229134,
      "loss": 2.9757,
      "step": 376
    },
    {
      "epoch": 0.048256,
      "grad_norm": 0.7293359637260437,
      "learning_rate": 0.0009991336439538984,
      "loss": 2.958,
      "step": 377
    },
    {
      "epoch": 0.048384,
      "grad_norm": 0.7434738278388977,
      "learning_rate": 0.000999121402378023,
      "loss": 2.8922,
      "step": 378
    },
    {
      "epoch": 0.048512,
      "grad_norm": 0.7188611626625061,
      "learning_rate": 0.0009991090749973926,
      "loss": 2.9229,
      "step": 379
    },
    {
      "epoch": 0.04864,
      "grad_norm": 0.8213701844215393,
      "learning_rate": 0.000999096661814126,
      "loss": 3.0311,
      "step": 380
    },
    {
      "epoch": 0.048768,
      "grad_norm": 0.8130387663841248,
      "learning_rate": 0.0009990841628303572,
      "loss": 2.9471,
      "step": 381
    },
    {
      "epoch": 0.048896,
      "grad_norm": 0.7141883373260498,
      "learning_rate": 0.0009990715780482347,
      "loss": 2.8643,
      "step": 382
    },
    {
      "epoch": 0.049024,
      "grad_norm": 0.7227689027786255,
      "learning_rate": 0.0009990589074699225,
      "loss": 2.9233,
      "step": 383
    },
    {
      "epoch": 0.049152,
      "grad_norm": 0.7159281969070435,
      "learning_rate": 0.0009990461510975984,
      "loss": 2.9775,
      "step": 384
    },
    {
      "epoch": 0.04928,
      "grad_norm": 0.711033821105957,
      "learning_rate": 0.0009990333089334555,
      "loss": 2.9429,
      "step": 385
    },
    {
      "epoch": 0.049408,
      "grad_norm": 0.7156189680099487,
      "learning_rate": 0.0009990203809797013,
      "loss": 2.9052,
      "step": 386
    },
    {
      "epoch": 0.049536,
      "grad_norm": 0.7093839049339294,
      "learning_rate": 0.0009990073672385587,
      "loss": 2.9064,
      "step": 387
    },
    {
      "epoch": 0.049664,
      "grad_norm": 0.786714494228363,
      "learning_rate": 0.0009989942677122647,
      "loss": 2.9042,
      "step": 388
    },
    {
      "epoch": 0.049792,
      "grad_norm": 0.7406700849533081,
      "learning_rate": 0.0009989810824030713,
      "loss": 2.9446,
      "step": 389
    },
    {
      "epoch": 0.04992,
      "grad_norm": 0.74721759557724,
      "learning_rate": 0.000998967811313245,
      "loss": 2.9853,
      "step": 390
    },
    {
      "epoch": 0.050048,
      "grad_norm": 0.7379189729690552,
      "learning_rate": 0.0009989544544450673,
      "loss": 2.9718,
      "step": 391
    },
    {
      "epoch": 0.050176,
      "grad_norm": 0.7020636200904846,
      "learning_rate": 0.0009989410118008348,
      "loss": 2.8018,
      "step": 392
    },
    {
      "epoch": 0.050304,
      "grad_norm": 0.6999073624610901,
      "learning_rate": 0.000998927483382858,
      "loss": 2.9006,
      "step": 393
    },
    {
      "epoch": 0.050432,
      "grad_norm": 0.8041828274726868,
      "learning_rate": 0.0009989138691934628,
      "loss": 2.9357,
      "step": 394
    },
    {
      "epoch": 0.05056,
      "grad_norm": 0.800893247127533,
      "learning_rate": 0.0009989001692349894,
      "loss": 3.0512,
      "step": 395
    },
    {
      "epoch": 0.050688,
      "grad_norm": 0.7486956119537354,
      "learning_rate": 0.0009988863835097932,
      "loss": 2.8396,
      "step": 396
    },
    {
      "epoch": 0.050816,
      "grad_norm": 0.732937753200531,
      "learning_rate": 0.0009988725120202442,
      "loss": 2.8903,
      "step": 397
    },
    {
      "epoch": 0.050944,
      "grad_norm": 0.7370038628578186,
      "learning_rate": 0.000998858554768727,
      "loss": 2.85,
      "step": 398
    },
    {
      "epoch": 0.051072,
      "grad_norm": 0.7382048964500427,
      "learning_rate": 0.0009988445117576409,
      "loss": 2.9606,
      "step": 399
    },
    {
      "epoch": 0.0512,
      "grad_norm": 0.7654327750205994,
      "learning_rate": 0.0009988303829894002,
      "loss": 2.859,
      "step": 400
    },
    {
      "epoch": 0.051328,
      "grad_norm": 1.0289684534072876,
      "learning_rate": 0.0009988161684664335,
      "loss": 2.9448,
      "step": 401
    },
    {
      "epoch": 0.051456,
      "grad_norm": 0.8460339903831482,
      "learning_rate": 0.0009988018681911849,
      "loss": 2.962,
      "step": 402
    },
    {
      "epoch": 0.051584,
      "grad_norm": 0.7286472320556641,
      "learning_rate": 0.0009987874821661123,
      "loss": 2.8709,
      "step": 403
    },
    {
      "epoch": 0.051712,
      "grad_norm": 0.7036677002906799,
      "learning_rate": 0.0009987730103936895,
      "loss": 2.9167,
      "step": 404
    },
    {
      "epoch": 0.05184,
      "grad_norm": 0.8125416040420532,
      "learning_rate": 0.0009987584528764035,
      "loss": 2.8724,
      "step": 405
    },
    {
      "epoch": 0.051968,
      "grad_norm": 0.7193828821182251,
      "learning_rate": 0.0009987438096167576,
      "loss": 2.8827,
      "step": 406
    },
    {
      "epoch": 0.052096,
      "grad_norm": 0.7576302886009216,
      "learning_rate": 0.0009987290806172688,
      "loss": 2.9247,
      "step": 407
    },
    {
      "epoch": 0.052224,
      "grad_norm": 0.8142833709716797,
      "learning_rate": 0.0009987142658804693,
      "loss": 2.993,
      "step": 408
    },
    {
      "epoch": 0.052352,
      "grad_norm": 0.7452402710914612,
      "learning_rate": 0.0009986993654089059,
      "loss": 2.9218,
      "step": 409
    },
    {
      "epoch": 0.05248,
      "grad_norm": 0.7928854823112488,
      "learning_rate": 0.00099868437920514,
      "loss": 2.9685,
      "step": 410
    },
    {
      "epoch": 0.052608,
      "grad_norm": 0.7366248369216919,
      "learning_rate": 0.0009986693072717484,
      "loss": 2.9269,
      "step": 411
    },
    {
      "epoch": 0.052736,
      "grad_norm": 0.6686785221099854,
      "learning_rate": 0.0009986541496113215,
      "loss": 2.9525,
      "step": 412
    },
    {
      "epoch": 0.052864,
      "grad_norm": 0.6975135207176208,
      "learning_rate": 0.0009986389062264657,
      "loss": 2.9234,
      "step": 413
    },
    {
      "epoch": 0.052992,
      "grad_norm": 0.7470535039901733,
      "learning_rate": 0.0009986235771198009,
      "loss": 2.8688,
      "step": 414
    },
    {
      "epoch": 0.05312,
      "grad_norm": 0.7390527725219727,
      "learning_rate": 0.000998608162293963,
      "loss": 2.8757,
      "step": 415
    },
    {
      "epoch": 0.053248,
      "grad_norm": 0.7540098428726196,
      "learning_rate": 0.0009985926617516012,
      "loss": 2.9547,
      "step": 416
    },
    {
      "epoch": 0.053376,
      "grad_norm": 0.7685210704803467,
      "learning_rate": 0.0009985770754953808,
      "loss": 2.9239,
      "step": 417
    },
    {
      "epoch": 0.053504,
      "grad_norm": 0.7650520205497742,
      "learning_rate": 0.0009985614035279812,
      "loss": 2.7917,
      "step": 418
    },
    {
      "epoch": 0.053632,
      "grad_norm": 0.788323163986206,
      "learning_rate": 0.0009985456458520968,
      "loss": 2.9474,
      "step": 419
    },
    {
      "epoch": 0.05376,
      "grad_norm": 0.7480061054229736,
      "learning_rate": 0.000998529802470436,
      "loss": 2.8872,
      "step": 420
    },
    {
      "epoch": 0.053888,
      "grad_norm": 0.7569649815559387,
      "learning_rate": 0.0009985138733857224,
      "loss": 2.8447,
      "step": 421
    },
    {
      "epoch": 0.054016,
      "grad_norm": 0.7866568565368652,
      "learning_rate": 0.000998497858600695,
      "loss": 2.8783,
      "step": 422
    },
    {
      "epoch": 0.054144,
      "grad_norm": 0.8231125473976135,
      "learning_rate": 0.0009984817581181068,
      "loss": 2.9223,
      "step": 423
    },
    {
      "epoch": 0.054272,
      "grad_norm": 0.8571563959121704,
      "learning_rate": 0.0009984655719407253,
      "loss": 2.9568,
      "step": 424
    },
    {
      "epoch": 0.0544,
      "grad_norm": 0.6802962422370911,
      "learning_rate": 0.000998449300071333,
      "loss": 2.8467,
      "step": 425
    },
    {
      "epoch": 0.054528,
      "grad_norm": 0.7630572319030762,
      "learning_rate": 0.0009984329425127279,
      "loss": 2.9189,
      "step": 426
    },
    {
      "epoch": 0.054656,
      "grad_norm": 0.7260887622833252,
      "learning_rate": 0.0009984164992677214,
      "loss": 2.9063,
      "step": 427
    },
    {
      "epoch": 0.054784,
      "grad_norm": 0.7219315767288208,
      "learning_rate": 0.0009983999703391407,
      "loss": 2.8542,
      "step": 428
    },
    {
      "epoch": 0.054912,
      "grad_norm": 0.7041778564453125,
      "learning_rate": 0.000998383355729827,
      "loss": 2.8977,
      "step": 429
    },
    {
      "epoch": 0.05504,
      "grad_norm": 0.7076782584190369,
      "learning_rate": 0.0009983666554426367,
      "loss": 3.003,
      "step": 430
    },
    {
      "epoch": 0.055168,
      "grad_norm": 0.7419974207878113,
      "learning_rate": 0.000998349869480441,
      "loss": 2.9506,
      "step": 431
    },
    {
      "epoch": 0.055296,
      "grad_norm": 0.8506702184677124,
      "learning_rate": 0.0009983329978461252,
      "loss": 2.9744,
      "step": 432
    },
    {
      "epoch": 0.055424,
      "grad_norm": 0.7701376080513,
      "learning_rate": 0.0009983160405425899,
      "loss": 2.8631,
      "step": 433
    },
    {
      "epoch": 0.055552,
      "grad_norm": 0.8821103572845459,
      "learning_rate": 0.0009982989975727502,
      "loss": 2.9125,
      "step": 434
    },
    {
      "epoch": 0.05568,
      "grad_norm": 0.6935509443283081,
      "learning_rate": 0.0009982818689395362,
      "loss": 2.9427,
      "step": 435
    },
    {
      "epoch": 0.055808,
      "grad_norm": 0.8969885110855103,
      "learning_rate": 0.0009982646546458922,
      "loss": 2.7355,
      "step": 436
    },
    {
      "epoch": 0.055936,
      "grad_norm": 0.7058903574943542,
      "learning_rate": 0.0009982473546947777,
      "loss": 2.8798,
      "step": 437
    },
    {
      "epoch": 0.056064,
      "grad_norm": 0.7770272493362427,
      "learning_rate": 0.0009982299690891668,
      "loss": 2.7899,
      "step": 438
    },
    {
      "epoch": 0.056192,
      "grad_norm": 0.7144386768341064,
      "learning_rate": 0.0009982124978320482,
      "loss": 2.9012,
      "step": 439
    },
    {
      "epoch": 0.05632,
      "grad_norm": 0.7955106496810913,
      "learning_rate": 0.0009981949409264255,
      "loss": 2.9465,
      "step": 440
    },
    {
      "epoch": 0.056448,
      "grad_norm": 0.7219462990760803,
      "learning_rate": 0.0009981772983753167,
      "loss": 2.937,
      "step": 441
    },
    {
      "epoch": 0.056576,
      "grad_norm": 0.743165135383606,
      "learning_rate": 0.000998159570181755,
      "loss": 2.9295,
      "step": 442
    },
    {
      "epoch": 0.056704,
      "grad_norm": 0.7607104778289795,
      "learning_rate": 0.0009981417563487884,
      "loss": 2.8818,
      "step": 443
    },
    {
      "epoch": 0.056832,
      "grad_norm": 0.6982340812683105,
      "learning_rate": 0.0009981238568794787,
      "loss": 2.9519,
      "step": 444
    },
    {
      "epoch": 0.05696,
      "grad_norm": 0.7112115025520325,
      "learning_rate": 0.000998105871776903,
      "loss": 2.9082,
      "step": 445
    },
    {
      "epoch": 0.057088,
      "grad_norm": 0.7452848553657532,
      "learning_rate": 0.0009980878010441537,
      "loss": 2.9235,
      "step": 446
    },
    {
      "epoch": 0.057216,
      "grad_norm": 0.8161841630935669,
      "learning_rate": 0.000998069644684337,
      "loss": 2.8136,
      "step": 447
    },
    {
      "epoch": 0.057344,
      "grad_norm": 0.7534580230712891,
      "learning_rate": 0.0009980514027005743,
      "loss": 2.8987,
      "step": 448
    },
    {
      "epoch": 0.057472,
      "grad_norm": 0.6795932650566101,
      "learning_rate": 0.0009980330750960014,
      "loss": 2.8717,
      "step": 449
    },
    {
      "epoch": 0.0576,
      "grad_norm": 0.7696260213851929,
      "learning_rate": 0.0009980146618737693,
      "loss": 2.905,
      "step": 450
    },
    {
      "epoch": 0.057728,
      "grad_norm": 1.0000600814819336,
      "learning_rate": 0.0009979961630370434,
      "loss": 2.9627,
      "step": 451
    },
    {
      "epoch": 0.057856,
      "grad_norm": 0.750922441482544,
      "learning_rate": 0.0009979775785890037,
      "loss": 2.905,
      "step": 452
    },
    {
      "epoch": 0.057984,
      "grad_norm": 0.7074589729309082,
      "learning_rate": 0.0009979589085328453,
      "loss": 2.9408,
      "step": 453
    },
    {
      "epoch": 0.058112,
      "grad_norm": 0.7339429259300232,
      "learning_rate": 0.0009979401528717776,
      "loss": 2.8884,
      "step": 454
    },
    {
      "epoch": 0.05824,
      "grad_norm": 0.7728070616722107,
      "learning_rate": 0.0009979213116090252,
      "loss": 2.8469,
      "step": 455
    },
    {
      "epoch": 0.058368,
      "grad_norm": 0.8663111329078674,
      "learning_rate": 0.0009979023847478266,
      "loss": 2.8164,
      "step": 456
    },
    {
      "epoch": 0.058496,
      "grad_norm": 0.8416646122932434,
      "learning_rate": 0.0009978833722914362,
      "loss": 2.987,
      "step": 457
    },
    {
      "epoch": 0.058624,
      "grad_norm": 0.745223879814148,
      "learning_rate": 0.000997864274243122,
      "loss": 2.9308,
      "step": 458
    },
    {
      "epoch": 0.058752,
      "grad_norm": 0.7064284682273865,
      "learning_rate": 0.0009978450906061673,
      "loss": 2.8606,
      "step": 459
    },
    {
      "epoch": 0.05888,
      "grad_norm": 0.6708196401596069,
      "learning_rate": 0.00099782582138387,
      "loss": 2.9115,
      "step": 460
    },
    {
      "epoch": 0.059008,
      "grad_norm": 0.7844587564468384,
      "learning_rate": 0.0009978064665795428,
      "loss": 2.9335,
      "step": 461
    },
    {
      "epoch": 0.059136,
      "grad_norm": 0.6877437233924866,
      "learning_rate": 0.0009977870261965128,
      "loss": 2.8671,
      "step": 462
    },
    {
      "epoch": 0.059264,
      "grad_norm": 0.7587658762931824,
      "learning_rate": 0.000997767500238122,
      "loss": 2.8442,
      "step": 463
    },
    {
      "epoch": 0.059392,
      "grad_norm": 0.6999993920326233,
      "learning_rate": 0.0009977478887077276,
      "loss": 2.9014,
      "step": 464
    },
    {
      "epoch": 0.05952,
      "grad_norm": 0.7816402316093445,
      "learning_rate": 0.0009977281916087007,
      "loss": 2.8417,
      "step": 465
    },
    {
      "epoch": 0.059648,
      "grad_norm": 0.789971649646759,
      "learning_rate": 0.0009977084089444275,
      "loss": 2.8715,
      "step": 466
    },
    {
      "epoch": 0.059776,
      "grad_norm": 2.6072707176208496,
      "learning_rate": 0.000997688540718309,
      "loss": 2.8238,
      "step": 467
    },
    {
      "epoch": 0.059904,
      "grad_norm": 0.7317622900009155,
      "learning_rate": 0.0009976685869337602,
      "loss": 2.9098,
      "step": 468
    },
    {
      "epoch": 0.060032,
      "grad_norm": 0.7233216166496277,
      "learning_rate": 0.0009976485475942122,
      "loss": 2.8843,
      "step": 469
    },
    {
      "epoch": 0.06016,
      "grad_norm": 0.7213143706321716,
      "learning_rate": 0.0009976284227031097,
      "loss": 2.8593,
      "step": 470
    },
    {
      "epoch": 0.060288,
      "grad_norm": 0.7211679220199585,
      "learning_rate": 0.000997608212263912,
      "loss": 2.8602,
      "step": 471
    },
    {
      "epoch": 0.060416,
      "grad_norm": 0.7079771757125854,
      "learning_rate": 0.000997587916280094,
      "loss": 2.912,
      "step": 472
    },
    {
      "epoch": 0.060544,
      "grad_norm": 0.649564266204834,
      "learning_rate": 0.0009975675347551447,
      "loss": 2.8971,
      "step": 473
    },
    {
      "epoch": 0.060672,
      "grad_norm": 0.7165371179580688,
      "learning_rate": 0.000997547067692568,
      "loss": 2.872,
      "step": 474
    },
    {
      "epoch": 0.0608,
      "grad_norm": 0.7394447326660156,
      "learning_rate": 0.000997526515095882,
      "loss": 2.8754,
      "step": 475
    },
    {
      "epoch": 0.060928,
      "grad_norm": 0.7151893377304077,
      "learning_rate": 0.0009975058769686204,
      "loss": 2.8189,
      "step": 476
    },
    {
      "epoch": 0.061056,
      "grad_norm": 0.7254834771156311,
      "learning_rate": 0.000997485153314331,
      "loss": 2.8809,
      "step": 477
    },
    {
      "epoch": 0.061184,
      "grad_norm": 0.7281098365783691,
      "learning_rate": 0.0009974643441365764,
      "loss": 2.8559,
      "step": 478
    },
    {
      "epoch": 0.061312,
      "grad_norm": 0.7571215033531189,
      "learning_rate": 0.000997443449438934,
      "loss": 2.9449,
      "step": 479
    },
    {
      "epoch": 0.06144,
      "grad_norm": 0.7816464900970459,
      "learning_rate": 0.0009974224692249956,
      "loss": 2.8504,
      "step": 480
    },
    {
      "epoch": 0.061568,
      "grad_norm": 0.6987037658691406,
      "learning_rate": 0.0009974014034983684,
      "loss": 2.784,
      "step": 481
    },
    {
      "epoch": 0.061696,
      "grad_norm": 0.7981724143028259,
      "learning_rate": 0.0009973802522626732,
      "loss": 2.9178,
      "step": 482
    },
    {
      "epoch": 0.061824,
      "grad_norm": 0.6905959844589233,
      "learning_rate": 0.0009973590155215467,
      "loss": 2.9061,
      "step": 483
    },
    {
      "epoch": 0.061952,
      "grad_norm": 0.6780474185943604,
      "learning_rate": 0.0009973376932786396,
      "loss": 2.768,
      "step": 484
    },
    {
      "epoch": 0.06208,
      "grad_norm": 0.7048524618148804,
      "learning_rate": 0.0009973162855376172,
      "loss": 2.9403,
      "step": 485
    },
    {
      "epoch": 0.062208,
      "grad_norm": 0.6749555468559265,
      "learning_rate": 0.0009972947923021602,
      "loss": 2.8743,
      "step": 486
    },
    {
      "epoch": 0.062336,
      "grad_norm": 0.7191352844238281,
      "learning_rate": 0.000997273213575963,
      "loss": 2.9761,
      "step": 487
    },
    {
      "epoch": 0.062464,
      "grad_norm": 0.7581136226654053,
      "learning_rate": 0.0009972515493627356,
      "loss": 2.9088,
      "step": 488
    },
    {
      "epoch": 0.062592,
      "grad_norm": 0.6700450778007507,
      "learning_rate": 0.0009972297996662023,
      "loss": 2.8318,
      "step": 489
    },
    {
      "epoch": 0.06272,
      "grad_norm": 0.7962287068367004,
      "learning_rate": 0.0009972079644901019,
      "loss": 2.9229,
      "step": 490
    },
    {
      "epoch": 0.062848,
      "grad_norm": 0.7523927092552185,
      "learning_rate": 0.0009971860438381885,
      "loss": 2.9416,
      "step": 491
    },
    {
      "epoch": 0.062976,
      "grad_norm": 0.6922873258590698,
      "learning_rate": 0.0009971640377142302,
      "loss": 2.8048,
      "step": 492
    },
    {
      "epoch": 0.063104,
      "grad_norm": 0.7308809757232666,
      "learning_rate": 0.0009971419461220102,
      "loss": 2.9237,
      "step": 493
    },
    {
      "epoch": 0.063232,
      "grad_norm": 0.7837206721305847,
      "learning_rate": 0.0009971197690653263,
      "loss": 2.8571,
      "step": 494
    },
    {
      "epoch": 0.06336,
      "grad_norm": 0.7899783849716187,
      "learning_rate": 0.000997097506547991,
      "loss": 2.8907,
      "step": 495
    },
    {
      "epoch": 0.063488,
      "grad_norm": 0.7482380270957947,
      "learning_rate": 0.0009970751585738314,
      "loss": 2.8783,
      "step": 496
    },
    {
      "epoch": 0.063616,
      "grad_norm": 0.7579564452171326,
      "learning_rate": 0.0009970527251466894,
      "loss": 2.7834,
      "step": 497
    },
    {
      "epoch": 0.063744,
      "grad_norm": 0.6866500377655029,
      "learning_rate": 0.0009970302062704216,
      "loss": 2.9236,
      "step": 498
    },
    {
      "epoch": 0.063872,
      "grad_norm": 0.6595263481140137,
      "learning_rate": 0.0009970076019488996,
      "loss": 2.9165,
      "step": 499
    },
    {
      "epoch": 0.064,
      "grad_norm": 0.7494218349456787,
      "learning_rate": 0.0009969849121860088,
      "loss": 2.8738,
      "step": 500
    },
    {
      "epoch": 0.064128,
      "grad_norm": 0.7209905982017517,
      "learning_rate": 0.0009969621369856501,
      "loss": 2.9413,
      "step": 501
    },
    {
      "epoch": 0.064256,
      "grad_norm": 0.7330408096313477,
      "learning_rate": 0.0009969392763517387,
      "loss": 2.8945,
      "step": 502
    },
    {
      "epoch": 0.064384,
      "grad_norm": 0.6640249490737915,
      "learning_rate": 0.0009969163302882048,
      "loss": 2.8671,
      "step": 503
    },
    {
      "epoch": 0.064512,
      "grad_norm": 0.7380381226539612,
      "learning_rate": 0.0009968932987989927,
      "loss": 2.8969,
      "step": 504
    },
    {
      "epoch": 0.06464,
      "grad_norm": 0.7377332448959351,
      "learning_rate": 0.0009968701818880623,
      "loss": 2.7487,
      "step": 505
    },
    {
      "epoch": 0.064768,
      "grad_norm": 0.7534441351890564,
      "learning_rate": 0.0009968469795593874,
      "loss": 2.9525,
      "step": 506
    },
    {
      "epoch": 0.064896,
      "grad_norm": 0.6870163083076477,
      "learning_rate": 0.0009968236918169566,
      "loss": 2.9291,
      "step": 507
    },
    {
      "epoch": 0.065024,
      "grad_norm": 0.7678444385528564,
      "learning_rate": 0.0009968003186647735,
      "loss": 2.8201,
      "step": 508
    },
    {
      "epoch": 0.065152,
      "grad_norm": 0.7949291467666626,
      "learning_rate": 0.0009967768601068566,
      "loss": 2.8058,
      "step": 509
    },
    {
      "epoch": 0.06528,
      "grad_norm": 0.6757795810699463,
      "learning_rate": 0.000996753316147238,
      "loss": 2.731,
      "step": 510
    },
    {
      "epoch": 0.065408,
      "grad_norm": 0.7289888262748718,
      "learning_rate": 0.0009967296867899656,
      "loss": 2.8411,
      "step": 511
    },
    {
      "epoch": 0.065536,
      "grad_norm": 0.7950957417488098,
      "learning_rate": 0.0009967059720391014,
      "loss": 2.8809,
      "step": 512
    },
    {
      "epoch": 0.065664,
      "grad_norm": 0.6298813223838806,
      "learning_rate": 0.0009966821718987223,
      "loss": 2.8672,
      "step": 513
    },
    {
      "epoch": 0.065792,
      "grad_norm": 0.7715944051742554,
      "learning_rate": 0.0009966582863729198,
      "loss": 2.8287,
      "step": 514
    },
    {
      "epoch": 0.06592,
      "grad_norm": 0.7727383375167847,
      "learning_rate": 0.0009966343154658001,
      "loss": 2.7919,
      "step": 515
    },
    {
      "epoch": 0.066048,
      "grad_norm": 0.8400039076805115,
      "learning_rate": 0.0009966102591814842,
      "loss": 2.976,
      "step": 516
    },
    {
      "epoch": 0.066176,
      "grad_norm": 0.7574458718299866,
      "learning_rate": 0.0009965861175241075,
      "loss": 2.841,
      "step": 517
    },
    {
      "epoch": 0.066304,
      "grad_norm": 0.7224125862121582,
      "learning_rate": 0.0009965618904978202,
      "loss": 2.9178,
      "step": 518
    },
    {
      "epoch": 0.066432,
      "grad_norm": 0.816202700138092,
      "learning_rate": 0.0009965375781067873,
      "loss": 2.8507,
      "step": 519
    },
    {
      "epoch": 0.06656,
      "grad_norm": 0.7427515983581543,
      "learning_rate": 0.0009965131803551886,
      "loss": 2.9807,
      "step": 520
    },
    {
      "epoch": 0.066688,
      "grad_norm": 0.7628286480903625,
      "learning_rate": 0.0009964886972472179,
      "loss": 2.8385,
      "step": 521
    },
    {
      "epoch": 0.066816,
      "grad_norm": 0.7806083559989929,
      "learning_rate": 0.0009964641287870842,
      "loss": 2.937,
      "step": 522
    },
    {
      "epoch": 0.066944,
      "grad_norm": 0.7481129169464111,
      "learning_rate": 0.0009964394749790116,
      "loss": 2.8567,
      "step": 523
    },
    {
      "epoch": 0.067072,
      "grad_norm": 0.7574443817138672,
      "learning_rate": 0.0009964147358272378,
      "loss": 2.8711,
      "step": 524
    },
    {
      "epoch": 0.0672,
      "grad_norm": 0.758450984954834,
      "learning_rate": 0.000996389911336016,
      "loss": 2.8416,
      "step": 525
    },
    {
      "epoch": 0.067328,
      "grad_norm": 0.6765022873878479,
      "learning_rate": 0.000996365001509614,
      "loss": 2.8689,
      "step": 526
    },
    {
      "epoch": 0.067456,
      "grad_norm": 0.7311047911643982,
      "learning_rate": 0.0009963400063523135,
      "loss": 2.8024,
      "step": 527
    },
    {
      "epoch": 0.067584,
      "grad_norm": 0.7545148730278015,
      "learning_rate": 0.0009963149258684122,
      "loss": 2.8987,
      "step": 528
    },
    {
      "epoch": 0.067712,
      "grad_norm": 0.7534709572792053,
      "learning_rate": 0.000996289760062221,
      "loss": 2.896,
      "step": 529
    },
    {
      "epoch": 0.06784,
      "grad_norm": 0.9732462167739868,
      "learning_rate": 0.000996264508938067,
      "loss": 2.8448,
      "step": 530
    },
    {
      "epoch": 0.067968,
      "grad_norm": 0.7076502442359924,
      "learning_rate": 0.0009962391725002904,
      "loss": 2.7686,
      "step": 531
    },
    {
      "epoch": 0.068096,
      "grad_norm": 0.7159558534622192,
      "learning_rate": 0.0009962137507532475,
      "loss": 2.8926,
      "step": 532
    },
    {
      "epoch": 0.068224,
      "grad_norm": 0.800703227519989,
      "learning_rate": 0.000996188243701308,
      "loss": 2.8345,
      "step": 533
    },
    {
      "epoch": 0.068352,
      "grad_norm": 0.82103431224823,
      "learning_rate": 0.000996162651348857,
      "loss": 2.8408,
      "step": 534
    },
    {
      "epoch": 0.06848,
      "grad_norm": 0.7500486373901367,
      "learning_rate": 0.0009961369737002943,
      "loss": 2.8089,
      "step": 535
    },
    {
      "epoch": 0.068608,
      "grad_norm": 0.7568099498748779,
      "learning_rate": 0.0009961112107600343,
      "loss": 2.8946,
      "step": 536
    },
    {
      "epoch": 0.068736,
      "grad_norm": 1.2328654527664185,
      "learning_rate": 0.0009960853625325054,
      "loss": 2.7453,
      "step": 537
    },
    {
      "epoch": 0.068864,
      "grad_norm": 0.7636092901229858,
      "learning_rate": 0.0009960594290221519,
      "loss": 2.8018,
      "step": 538
    },
    {
      "epoch": 0.068992,
      "grad_norm": 0.7195631265640259,
      "learning_rate": 0.0009960334102334315,
      "loss": 2.9573,
      "step": 539
    },
    {
      "epoch": 0.06912,
      "grad_norm": 0.761326253414154,
      "learning_rate": 0.0009960073061708176,
      "loss": 2.8076,
      "step": 540
    },
    {
      "epoch": 0.069248,
      "grad_norm": 0.7231371998786926,
      "learning_rate": 0.0009959811168387973,
      "loss": 2.8993,
      "step": 541
    },
    {
      "epoch": 0.069376,
      "grad_norm": 0.768622875213623,
      "learning_rate": 0.0009959548422418733,
      "loss": 2.7842,
      "step": 542
    },
    {
      "epoch": 0.069504,
      "grad_norm": 0.6857913732528687,
      "learning_rate": 0.0009959284823845623,
      "loss": 2.794,
      "step": 543
    },
    {
      "epoch": 0.069632,
      "grad_norm": 0.7178384065628052,
      "learning_rate": 0.0009959020372713957,
      "loss": 2.8765,
      "step": 544
    },
    {
      "epoch": 0.06976,
      "grad_norm": 0.7603514790534973,
      "learning_rate": 0.00099587550690692,
      "loss": 2.8772,
      "step": 545
    },
    {
      "epoch": 0.069888,
      "grad_norm": 0.7367030382156372,
      "learning_rate": 0.000995848891295696,
      "loss": 2.9103,
      "step": 546
    },
    {
      "epoch": 0.070016,
      "grad_norm": 0.7134978175163269,
      "learning_rate": 0.0009958221904422992,
      "loss": 2.8421,
      "step": 547
    },
    {
      "epoch": 0.070144,
      "grad_norm": 0.6366381049156189,
      "learning_rate": 0.00099579540435132,
      "loss": 2.7314,
      "step": 548
    },
    {
      "epoch": 0.070272,
      "grad_norm": 0.7659031748771667,
      "learning_rate": 0.0009957685330273629,
      "loss": 2.8047,
      "step": 549
    },
    {
      "epoch": 0.0704,
      "grad_norm": 0.6999586224555969,
      "learning_rate": 0.0009957415764750475,
      "loss": 2.9022,
      "step": 550
    },
    {
      "epoch": 0.070528,
      "grad_norm": 0.7424202561378479,
      "learning_rate": 0.000995714534699008,
      "loss": 2.8778,
      "step": 551
    },
    {
      "epoch": 0.070656,
      "grad_norm": 0.7458272576332092,
      "learning_rate": 0.000995687407703893,
      "loss": 2.8504,
      "step": 552
    },
    {
      "epoch": 0.070784,
      "grad_norm": 0.8071589469909668,
      "learning_rate": 0.0009956601954943663,
      "loss": 2.9814,
      "step": 553
    },
    {
      "epoch": 0.070912,
      "grad_norm": 0.7489913105964661,
      "learning_rate": 0.0009956328980751058,
      "loss": 2.9154,
      "step": 554
    },
    {
      "epoch": 0.07104,
      "grad_norm": 0.7586219906806946,
      "learning_rate": 0.000995605515450804,
      "loss": 2.8463,
      "step": 555
    },
    {
      "epoch": 0.071168,
      "grad_norm": 0.6523095965385437,
      "learning_rate": 0.0009955780476261689,
      "loss": 2.8627,
      "step": 556
    },
    {
      "epoch": 0.071296,
      "grad_norm": 0.6334665417671204,
      "learning_rate": 0.000995550494605922,
      "loss": 2.8459,
      "step": 557
    },
    {
      "epoch": 0.071424,
      "grad_norm": 0.6916696429252625,
      "learning_rate": 0.0009955228563948003,
      "loss": 2.8861,
      "step": 558
    },
    {
      "epoch": 0.071552,
      "grad_norm": 0.6450904607772827,
      "learning_rate": 0.0009954951329975547,
      "loss": 2.8259,
      "step": 559
    },
    {
      "epoch": 0.07168,
      "grad_norm": 0.700899064540863,
      "learning_rate": 0.0009954673244189519,
      "loss": 2.821,
      "step": 560
    },
    {
      "epoch": 0.071808,
      "grad_norm": 0.6913270950317383,
      "learning_rate": 0.0009954394306637717,
      "loss": 2.8042,
      "step": 561
    },
    {
      "epoch": 0.071936,
      "grad_norm": 0.7231398820877075,
      "learning_rate": 0.00099541145173681,
      "loss": 2.8362,
      "step": 562
    },
    {
      "epoch": 0.072064,
      "grad_norm": 0.7301126718521118,
      "learning_rate": 0.0009953833876428762,
      "loss": 2.8616,
      "step": 563
    },
    {
      "epoch": 0.072192,
      "grad_norm": 0.6811243891716003,
      "learning_rate": 0.0009953552383867952,
      "loss": 2.8189,
      "step": 564
    },
    {
      "epoch": 0.07232,
      "grad_norm": 0.7172535061836243,
      "learning_rate": 0.000995327003973406,
      "loss": 2.8061,
      "step": 565
    },
    {
      "epoch": 0.072448,
      "grad_norm": 0.6666502952575684,
      "learning_rate": 0.0009952986844075627,
      "loss": 2.7969,
      "step": 566
    },
    {
      "epoch": 0.072576,
      "grad_norm": 0.7019267082214355,
      "learning_rate": 0.0009952702796941334,
      "loss": 2.832,
      "step": 567
    },
    {
      "epoch": 0.072704,
      "grad_norm": 0.6862568855285645,
      "learning_rate": 0.0009952417898380014,
      "loss": 2.8399,
      "step": 568
    },
    {
      "epoch": 0.072832,
      "grad_norm": 0.7139686346054077,
      "learning_rate": 0.0009952132148440644,
      "loss": 2.9774,
      "step": 569
    },
    {
      "epoch": 0.07296,
      "grad_norm": 0.7199956774711609,
      "learning_rate": 0.0009951845547172347,
      "loss": 2.8449,
      "step": 570
    },
    {
      "epoch": 0.073088,
      "grad_norm": 0.895547091960907,
      "learning_rate": 0.0009951558094624395,
      "loss": 2.7932,
      "step": 571
    },
    {
      "epoch": 0.073216,
      "grad_norm": 0.7191147804260254,
      "learning_rate": 0.0009951269790846203,
      "loss": 2.8593,
      "step": 572
    },
    {
      "epoch": 0.073344,
      "grad_norm": 0.6850281357765198,
      "learning_rate": 0.0009950980635887333,
      "loss": 2.8843,
      "step": 573
    },
    {
      "epoch": 0.073472,
      "grad_norm": 0.6776314377784729,
      "learning_rate": 0.0009950690629797494,
      "loss": 2.7625,
      "step": 574
    },
    {
      "epoch": 0.0736,
      "grad_norm": 0.6714927554130554,
      "learning_rate": 0.0009950399772626543,
      "loss": 2.8027,
      "step": 575
    },
    {
      "epoch": 0.073728,
      "grad_norm": 0.8113593459129333,
      "learning_rate": 0.0009950108064424481,
      "loss": 2.8348,
      "step": 576
    },
    {
      "epoch": 0.073856,
      "grad_norm": 0.7024692893028259,
      "learning_rate": 0.0009949815505241458,
      "loss": 2.8555,
      "step": 577
    },
    {
      "epoch": 0.073984,
      "grad_norm": 0.7443499565124512,
      "learning_rate": 0.0009949522095127766,
      "loss": 2.7024,
      "step": 578
    },
    {
      "epoch": 0.074112,
      "grad_norm": 0.7729921936988831,
      "learning_rate": 0.0009949227834133846,
      "loss": 2.9252,
      "step": 579
    },
    {
      "epoch": 0.07424,
      "grad_norm": 0.7098550796508789,
      "learning_rate": 0.0009948932722310283,
      "loss": 2.8658,
      "step": 580
    },
    {
      "epoch": 0.074368,
      "grad_norm": 0.8597286343574524,
      "learning_rate": 0.0009948636759707814,
      "loss": 2.9232,
      "step": 581
    },
    {
      "epoch": 0.074496,
      "grad_norm": 0.6904221177101135,
      "learning_rate": 0.0009948339946377316,
      "loss": 2.8205,
      "step": 582
    },
    {
      "epoch": 0.074624,
      "grad_norm": 0.6668626666069031,
      "learning_rate": 0.0009948042282369816,
      "loss": 2.8831,
      "step": 583
    },
    {
      "epoch": 0.074752,
      "grad_norm": 0.6853503584861755,
      "learning_rate": 0.0009947743767736484,
      "loss": 2.7657,
      "step": 584
    },
    {
      "epoch": 0.07488,
      "grad_norm": 0.6574388146400452,
      "learning_rate": 0.0009947444402528638,
      "loss": 2.8702,
      "step": 585
    },
    {
      "epoch": 0.075008,
      "grad_norm": 0.6647721529006958,
      "learning_rate": 0.0009947144186797745,
      "loss": 2.8021,
      "step": 586
    },
    {
      "epoch": 0.075136,
      "grad_norm": 0.6992091536521912,
      "learning_rate": 0.0009946843120595414,
      "loss": 2.7625,
      "step": 587
    },
    {
      "epoch": 0.075264,
      "grad_norm": 0.7408139109611511,
      "learning_rate": 0.00099465412039734,
      "loss": 2.7212,
      "step": 588
    },
    {
      "epoch": 0.075392,
      "grad_norm": 0.7973839044570923,
      "learning_rate": 0.000994623843698361,
      "loss": 2.8253,
      "step": 589
    },
    {
      "epoch": 0.07552,
      "grad_norm": 0.7240005135536194,
      "learning_rate": 0.000994593481967809,
      "loss": 2.8331,
      "step": 590
    },
    {
      "epoch": 0.075648,
      "grad_norm": 0.6763007640838623,
      "learning_rate": 0.0009945630352109038,
      "loss": 2.7805,
      "step": 591
    },
    {
      "epoch": 0.075776,
      "grad_norm": 1.3533786535263062,
      "learning_rate": 0.0009945325034328792,
      "loss": 2.7317,
      "step": 592
    },
    {
      "epoch": 0.075904,
      "grad_norm": 0.6384550929069519,
      "learning_rate": 0.0009945018866389843,
      "loss": 2.8209,
      "step": 593
    },
    {
      "epoch": 0.076032,
      "grad_norm": 0.608781635761261,
      "learning_rate": 0.0009944711848344822,
      "loss": 2.797,
      "step": 594
    },
    {
      "epoch": 0.07616,
      "grad_norm": 0.7924611568450928,
      "learning_rate": 0.000994440398024651,
      "loss": 2.811,
      "step": 595
    },
    {
      "epoch": 0.076288,
      "grad_norm": 0.7127884030342102,
      "learning_rate": 0.0009944095262147835,
      "loss": 2.9234,
      "step": 596
    },
    {
      "epoch": 0.076416,
      "grad_norm": 0.6490393280982971,
      "learning_rate": 0.0009943785694101865,
      "loss": 2.8373,
      "step": 597
    },
    {
      "epoch": 0.076544,
      "grad_norm": 0.6821115612983704,
      "learning_rate": 0.0009943475276161823,
      "loss": 2.8016,
      "step": 598
    },
    {
      "epoch": 0.076672,
      "grad_norm": 0.5901361107826233,
      "learning_rate": 0.0009943164008381071,
      "loss": 2.8337,
      "step": 599
    },
    {
      "epoch": 0.0768,
      "grad_norm": 0.7221669554710388,
      "learning_rate": 0.000994285189081312,
      "loss": 2.8805,
      "step": 600
    },
    {
      "epoch": 0.076928,
      "grad_norm": 0.668512761592865,
      "learning_rate": 0.0009942538923511626,
      "loss": 2.8476,
      "step": 601
    },
    {
      "epoch": 0.077056,
      "grad_norm": 0.6640844345092773,
      "learning_rate": 0.000994222510653039,
      "loss": 2.8329,
      "step": 602
    },
    {
      "epoch": 0.077184,
      "grad_norm": 0.6373377442359924,
      "learning_rate": 0.0009941910439923366,
      "loss": 2.9053,
      "step": 603
    },
    {
      "epoch": 0.077312,
      "grad_norm": 0.6897482872009277,
      "learning_rate": 0.0009941594923744647,
      "loss": 2.9124,
      "step": 604
    },
    {
      "epoch": 0.07744,
      "grad_norm": 0.6740285754203796,
      "learning_rate": 0.000994127855804847,
      "loss": 2.8148,
      "step": 605
    },
    {
      "epoch": 0.077568,
      "grad_norm": 0.6654040813446045,
      "learning_rate": 0.0009940961342889225,
      "loss": 2.9307,
      "step": 606
    },
    {
      "epoch": 0.077696,
      "grad_norm": 0.6932732462882996,
      "learning_rate": 0.0009940643278321447,
      "loss": 2.8424,
      "step": 607
    },
    {
      "epoch": 0.077824,
      "grad_norm": 0.7006093263626099,
      "learning_rate": 0.0009940324364399809,
      "loss": 2.7157,
      "step": 608
    },
    {
      "epoch": 0.077952,
      "grad_norm": 0.8271225094795227,
      "learning_rate": 0.0009940004601179141,
      "loss": 2.8371,
      "step": 609
    },
    {
      "epoch": 0.07808,
      "grad_norm": 0.6892542243003845,
      "learning_rate": 0.0009939683988714413,
      "loss": 2.8361,
      "step": 610
    },
    {
      "epoch": 0.078208,
      "grad_norm": 0.6491683125495911,
      "learning_rate": 0.0009939362527060743,
      "loss": 2.7817,
      "step": 611
    },
    {
      "epoch": 0.078336,
      "grad_norm": 0.7099301218986511,
      "learning_rate": 0.0009939040216273391,
      "loss": 2.8651,
      "step": 612
    },
    {
      "epoch": 0.078464,
      "grad_norm": 0.6576447486877441,
      "learning_rate": 0.0009938717056407768,
      "loss": 2.8182,
      "step": 613
    },
    {
      "epoch": 0.078592,
      "grad_norm": 0.7025126218795776,
      "learning_rate": 0.0009938393047519427,
      "loss": 2.8401,
      "step": 614
    },
    {
      "epoch": 0.07872,
      "grad_norm": 0.6443642377853394,
      "learning_rate": 0.0009938068189664071,
      "loss": 2.8059,
      "step": 615
    },
    {
      "epoch": 0.078848,
      "grad_norm": 0.7462778091430664,
      "learning_rate": 0.0009937742482897549,
      "loss": 2.8501,
      "step": 616
    },
    {
      "epoch": 0.078976,
      "grad_norm": 0.6543923616409302,
      "learning_rate": 0.0009937415927275847,
      "loss": 2.7824,
      "step": 617
    },
    {
      "epoch": 0.079104,
      "grad_norm": 0.6773133277893066,
      "learning_rate": 0.000993708852285511,
      "loss": 2.8669,
      "step": 618
    },
    {
      "epoch": 0.079232,
      "grad_norm": 0.6913003325462341,
      "learning_rate": 0.0009936760269691621,
      "loss": 2.9398,
      "step": 619
    },
    {
      "epoch": 0.07936,
      "grad_norm": 0.6557754278182983,
      "learning_rate": 0.0009936431167841806,
      "loss": 2.7641,
      "step": 620
    },
    {
      "epoch": 0.079488,
      "grad_norm": 0.6818208694458008,
      "learning_rate": 0.000993610121736225,
      "loss": 2.7335,
      "step": 621
    },
    {
      "epoch": 0.079616,
      "grad_norm": 0.7176511287689209,
      "learning_rate": 0.0009935770418309667,
      "loss": 2.8955,
      "step": 622
    },
    {
      "epoch": 0.079744,
      "grad_norm": 0.6637143492698669,
      "learning_rate": 0.000993543877074093,
      "loss": 2.7781,
      "step": 623
    },
    {
      "epoch": 0.079872,
      "grad_norm": 0.6738074421882629,
      "learning_rate": 0.0009935106274713053,
      "loss": 2.9002,
      "step": 624
    },
    {
      "epoch": 0.08,
      "grad_norm": 0.6858532428741455,
      "learning_rate": 0.0009934772930283193,
      "loss": 2.7712,
      "step": 625
    },
    {
      "epoch": 0.080128,
      "grad_norm": 0.6182119846343994,
      "learning_rate": 0.0009934438737508658,
      "loss": 2.7556,
      "step": 626
    },
    {
      "epoch": 0.080256,
      "grad_norm": 0.6596737504005432,
      "learning_rate": 0.00099341036964469,
      "loss": 2.8243,
      "step": 627
    },
    {
      "epoch": 0.080384,
      "grad_norm": 0.7167941927909851,
      "learning_rate": 0.0009933767807155515,
      "loss": 2.7787,
      "step": 628
    },
    {
      "epoch": 0.080512,
      "grad_norm": 0.6414484977722168,
      "learning_rate": 0.0009933431069692245,
      "loss": 2.8265,
      "step": 629
    },
    {
      "epoch": 0.08064,
      "grad_norm": 0.6562004685401917,
      "learning_rate": 0.0009933093484114982,
      "loss": 2.8954,
      "step": 630
    },
    {
      "epoch": 0.080768,
      "grad_norm": 0.6665216088294983,
      "learning_rate": 0.000993275505048176,
      "loss": 2.8255,
      "step": 631
    },
    {
      "epoch": 0.080896,
      "grad_norm": 0.6340885162353516,
      "learning_rate": 0.000993241576885076,
      "loss": 2.7276,
      "step": 632
    },
    {
      "epoch": 0.081024,
      "grad_norm": 0.7091708779335022,
      "learning_rate": 0.0009932075639280306,
      "loss": 2.8404,
      "step": 633
    },
    {
      "epoch": 0.081152,
      "grad_norm": 0.6083390116691589,
      "learning_rate": 0.0009931734661828874,
      "loss": 2.8581,
      "step": 634
    },
    {
      "epoch": 0.08128,
      "grad_norm": 0.6735627055168152,
      "learning_rate": 0.000993139283655508,
      "loss": 2.8656,
      "step": 635
    },
    {
      "epoch": 0.081408,
      "grad_norm": 0.6271505355834961,
      "learning_rate": 0.0009931050163517687,
      "loss": 2.9272,
      "step": 636
    },
    {
      "epoch": 0.081536,
      "grad_norm": 0.6105108857154846,
      "learning_rate": 0.0009930706642775607,
      "loss": 2.805,
      "step": 637
    },
    {
      "epoch": 0.081664,
      "grad_norm": 0.6423622965812683,
      "learning_rate": 0.0009930362274387892,
      "loss": 2.7858,
      "step": 638
    },
    {
      "epoch": 0.081792,
      "grad_norm": 0.6455710530281067,
      "learning_rate": 0.0009930017058413744,
      "loss": 2.6755,
      "step": 639
    },
    {
      "epoch": 0.08192,
      "grad_norm": 0.6408838629722595,
      "learning_rate": 0.000992967099491251,
      "loss": 2.8233,
      "step": 640
    },
    {
      "epoch": 0.082048,
      "grad_norm": 0.6582222580909729,
      "learning_rate": 0.0009929324083943682,
      "loss": 2.7697,
      "step": 641
    },
    {
      "epoch": 0.082176,
      "grad_norm": 0.6494474411010742,
      "learning_rate": 0.00099289763255669,
      "loss": 2.7658,
      "step": 642
    },
    {
      "epoch": 0.082304,
      "grad_norm": 0.6640416383743286,
      "learning_rate": 0.0009928627719841944,
      "loss": 2.8317,
      "step": 643
    },
    {
      "epoch": 0.082432,
      "grad_norm": 0.7157195806503296,
      "learning_rate": 0.0009928278266828747,
      "loss": 2.8794,
      "step": 644
    },
    {
      "epoch": 0.08256,
      "grad_norm": 0.6609348654747009,
      "learning_rate": 0.0009927927966587383,
      "loss": 2.8706,
      "step": 645
    },
    {
      "epoch": 0.082688,
      "grad_norm": 0.6672921776771545,
      "learning_rate": 0.000992757681917807,
      "loss": 2.8443,
      "step": 646
    },
    {
      "epoch": 0.082816,
      "grad_norm": 0.6829620003700256,
      "learning_rate": 0.0009927224824661178,
      "loss": 2.805,
      "step": 647
    },
    {
      "epoch": 0.082944,
      "grad_norm": 0.6964007019996643,
      "learning_rate": 0.0009926871983097216,
      "loss": 2.8364,
      "step": 648
    },
    {
      "epoch": 0.083072,
      "grad_norm": 0.6383361220359802,
      "learning_rate": 0.0009926518294546844,
      "loss": 2.8494,
      "step": 649
    },
    {
      "epoch": 0.0832,
      "grad_norm": 0.6137437224388123,
      "learning_rate": 0.0009926163759070863,
      "loss": 2.7543,
      "step": 650
    },
    {
      "epoch": 0.083328,
      "grad_norm": 0.5805132985115051,
      "learning_rate": 0.0009925808376730224,
      "loss": 2.8836,
      "step": 651
    },
    {
      "epoch": 0.083456,
      "grad_norm": 0.6466415524482727,
      "learning_rate": 0.000992545214758602,
      "loss": 2.7898,
      "step": 652
    },
    {
      "epoch": 0.083584,
      "grad_norm": 0.6976507306098938,
      "learning_rate": 0.000992509507169949,
      "loss": 2.8109,
      "step": 653
    },
    {
      "epoch": 0.083712,
      "grad_norm": 0.6540555953979492,
      "learning_rate": 0.0009924737149132022,
      "loss": 2.8439,
      "step": 654
    },
    {
      "epoch": 0.08384,
      "grad_norm": 0.6185824871063232,
      "learning_rate": 0.0009924378379945146,
      "loss": 2.8185,
      "step": 655
    },
    {
      "epoch": 0.083968,
      "grad_norm": 0.6825012564659119,
      "learning_rate": 0.0009924018764200537,
      "loss": 2.8742,
      "step": 656
    },
    {
      "epoch": 0.084096,
      "grad_norm": 0.6745966672897339,
      "learning_rate": 0.0009923658301960018,
      "loss": 2.8823,
      "step": 657
    },
    {
      "epoch": 0.084224,
      "grad_norm": 0.6187270879745483,
      "learning_rate": 0.0009923296993285557,
      "loss": 2.8187,
      "step": 658
    },
    {
      "epoch": 0.084352,
      "grad_norm": 0.6796595454216003,
      "learning_rate": 0.0009922934838239269,
      "loss": 2.868,
      "step": 659
    },
    {
      "epoch": 0.08448,
      "grad_norm": 0.5960772037506104,
      "learning_rate": 0.0009922571836883409,
      "loss": 2.8537,
      "step": 660
    },
    {
      "epoch": 0.084608,
      "grad_norm": 0.6174808740615845,
      "learning_rate": 0.0009922207989280383,
      "loss": 2.7165,
      "step": 661
    },
    {
      "epoch": 0.084736,
      "grad_norm": 0.6310651302337646,
      "learning_rate": 0.000992184329549274,
      "loss": 2.7477,
      "step": 662
    },
    {
      "epoch": 0.084864,
      "grad_norm": 0.6850467324256897,
      "learning_rate": 0.0009921477755583177,
      "loss": 2.7419,
      "step": 663
    },
    {
      "epoch": 0.084992,
      "grad_norm": 0.7018382549285889,
      "learning_rate": 0.0009921111369614532,
      "loss": 2.8299,
      "step": 664
    },
    {
      "epoch": 0.08512,
      "grad_norm": 0.6459423899650574,
      "learning_rate": 0.0009920744137649792,
      "loss": 2.8216,
      "step": 665
    },
    {
      "epoch": 0.085248,
      "grad_norm": 0.6246547698974609,
      "learning_rate": 0.000992037605975209,
      "loss": 2.8462,
      "step": 666
    },
    {
      "epoch": 0.085376,
      "grad_norm": 0.6340565085411072,
      "learning_rate": 0.00099200071359847,
      "loss": 2.8146,
      "step": 667
    },
    {
      "epoch": 0.085504,
      "grad_norm": 0.6441705822944641,
      "learning_rate": 0.0009919637366411047,
      "loss": 2.9706,
      "step": 668
    },
    {
      "epoch": 0.085632,
      "grad_norm": 0.6616201400756836,
      "learning_rate": 0.0009919266751094696,
      "loss": 2.8992,
      "step": 669
    },
    {
      "epoch": 0.08576,
      "grad_norm": 0.6278066039085388,
      "learning_rate": 0.0009918895290099363,
      "loss": 2.8667,
      "step": 670
    },
    {
      "epoch": 0.085888,
      "grad_norm": 0.6537258625030518,
      "learning_rate": 0.0009918522983488904,
      "loss": 2.7939,
      "step": 671
    },
    {
      "epoch": 0.086016,
      "grad_norm": 0.6698303818702698,
      "learning_rate": 0.0009918149831327323,
      "loss": 2.7616,
      "step": 672
    },
    {
      "epoch": 0.086144,
      "grad_norm": 0.7324276566505432,
      "learning_rate": 0.0009917775833678771,
      "loss": 2.9104,
      "step": 673
    },
    {
      "epoch": 0.086272,
      "grad_norm": 0.6231430172920227,
      "learning_rate": 0.000991740099060754,
      "loss": 2.9571,
      "step": 674
    },
    {
      "epoch": 0.0864,
      "grad_norm": 0.6116046905517578,
      "learning_rate": 0.0009917025302178073,
      "loss": 2.8623,
      "step": 675
    },
    {
      "epoch": 0.086528,
      "grad_norm": 0.5749148726463318,
      "learning_rate": 0.0009916648768454955,
      "loss": 2.7714,
      "step": 676
    },
    {
      "epoch": 0.086656,
      "grad_norm": 0.5604370832443237,
      "learning_rate": 0.000991627138950291,
      "loss": 2.8185,
      "step": 677
    },
    {
      "epoch": 0.086784,
      "grad_norm": 0.6103397011756897,
      "learning_rate": 0.0009915893165386824,
      "loss": 2.8593,
      "step": 678
    },
    {
      "epoch": 0.086912,
      "grad_norm": 0.6023093461990356,
      "learning_rate": 0.0009915514096171711,
      "loss": 2.874,
      "step": 679
    },
    {
      "epoch": 0.08704,
      "grad_norm": 0.6345666646957397,
      "learning_rate": 0.0009915134181922739,
      "loss": 2.8531,
      "step": 680
    },
    {
      "epoch": 0.087168,
      "grad_norm": 0.615990161895752,
      "learning_rate": 0.000991475342270522,
      "loss": 2.8583,
      "step": 681
    },
    {
      "epoch": 0.087296,
      "grad_norm": 0.6826305985450745,
      "learning_rate": 0.0009914371818584612,
      "loss": 2.829,
      "step": 682
    },
    {
      "epoch": 0.087424,
      "grad_norm": 0.6300767064094543,
      "learning_rate": 0.0009913989369626515,
      "loss": 2.7869,
      "step": 683
    },
    {
      "epoch": 0.087552,
      "grad_norm": 0.6426927447319031,
      "learning_rate": 0.0009913606075896675,
      "loss": 2.8184,
      "step": 684
    },
    {
      "epoch": 0.08768,
      "grad_norm": 0.6587970852851868,
      "learning_rate": 0.000991322193746099,
      "loss": 2.8859,
      "step": 685
    },
    {
      "epoch": 0.087808,
      "grad_norm": 0.607295036315918,
      "learning_rate": 0.0009912836954385496,
      "loss": 2.7804,
      "step": 686
    },
    {
      "epoch": 0.087936,
      "grad_norm": 0.6579040884971619,
      "learning_rate": 0.0009912451126736373,
      "loss": 2.7735,
      "step": 687
    },
    {
      "epoch": 0.088064,
      "grad_norm": 0.7205179929733276,
      "learning_rate": 0.0009912064454579953,
      "loss": 2.8607,
      "step": 688
    },
    {
      "epoch": 0.088192,
      "grad_norm": 0.7853997945785522,
      "learning_rate": 0.0009911676937982706,
      "loss": 2.8334,
      "step": 689
    },
    {
      "epoch": 0.08832,
      "grad_norm": 0.6712275743484497,
      "learning_rate": 0.0009911288577011254,
      "loss": 2.8448,
      "step": 690
    },
    {
      "epoch": 0.088448,
      "grad_norm": 0.6852601766586304,
      "learning_rate": 0.0009910899371732358,
      "loss": 2.8216,
      "step": 691
    },
    {
      "epoch": 0.088576,
      "grad_norm": 0.5996238589286804,
      "learning_rate": 0.0009910509322212928,
      "loss": 2.8112,
      "step": 692
    },
    {
      "epoch": 0.088704,
      "grad_norm": 0.5887268781661987,
      "learning_rate": 0.000991011842852002,
      "loss": 2.6986,
      "step": 693
    },
    {
      "epoch": 0.088832,
      "grad_norm": 0.6170493960380554,
      "learning_rate": 0.0009909726690720828,
      "loss": 2.722,
      "step": 694
    },
    {
      "epoch": 0.08896,
      "grad_norm": 0.6365220546722412,
      "learning_rate": 0.00099093341088827,
      "loss": 2.7345,
      "step": 695
    },
    {
      "epoch": 0.089088,
      "grad_norm": 0.6257541179656982,
      "learning_rate": 0.0009908940683073127,
      "loss": 2.8063,
      "step": 696
    },
    {
      "epoch": 0.089216,
      "grad_norm": 0.6873896718025208,
      "learning_rate": 0.000990854641335974,
      "loss": 2.7786,
      "step": 697
    },
    {
      "epoch": 0.089344,
      "grad_norm": 0.6299195289611816,
      "learning_rate": 0.000990815129981032,
      "loss": 2.774,
      "step": 698
    },
    {
      "epoch": 0.089472,
      "grad_norm": 0.5898109674453735,
      "learning_rate": 0.000990775534249279,
      "loss": 2.7889,
      "step": 699
    },
    {
      "epoch": 0.0896,
      "grad_norm": 0.6549893021583557,
      "learning_rate": 0.0009907358541475222,
      "loss": 2.9344,
      "step": 700
    },
    {
      "epoch": 0.089728,
      "grad_norm": 0.6747819781303406,
      "learning_rate": 0.0009906960896825829,
      "loss": 2.7646,
      "step": 701
    },
    {
      "epoch": 0.089856,
      "grad_norm": 0.5890595316886902,
      "learning_rate": 0.0009906562408612974,
      "loss": 2.7485,
      "step": 702
    },
    {
      "epoch": 0.089984,
      "grad_norm": 0.6093412041664124,
      "learning_rate": 0.0009906163076905158,
      "loss": 2.6439,
      "step": 703
    },
    {
      "epoch": 0.090112,
      "grad_norm": 0.6311061382293701,
      "learning_rate": 0.000990576290177103,
      "loss": 2.8884,
      "step": 704
    },
    {
      "epoch": 0.09024,
      "grad_norm": 0.6279577612876892,
      "learning_rate": 0.0009905361883279387,
      "loss": 2.8298,
      "step": 705
    },
    {
      "epoch": 0.090368,
      "grad_norm": 0.6791747212409973,
      "learning_rate": 0.000990496002149917,
      "loss": 2.7908,
      "step": 706
    },
    {
      "epoch": 0.090496,
      "grad_norm": 0.6120884418487549,
      "learning_rate": 0.0009904557316499463,
      "loss": 2.7539,
      "step": 707
    },
    {
      "epoch": 0.090624,
      "grad_norm": 0.6504047513008118,
      "learning_rate": 0.0009904153768349492,
      "loss": 2.7798,
      "step": 708
    },
    {
      "epoch": 0.090752,
      "grad_norm": 0.6381285190582275,
      "learning_rate": 0.0009903749377118637,
      "loss": 2.8033,
      "step": 709
    },
    {
      "epoch": 0.09088,
      "grad_norm": 0.6337871551513672,
      "learning_rate": 0.0009903344142876414,
      "loss": 2.8178,
      "step": 710
    },
    {
      "epoch": 0.091008,
      "grad_norm": 0.6561869382858276,
      "learning_rate": 0.0009902938065692486,
      "loss": 2.9134,
      "step": 711
    },
    {
      "epoch": 0.091136,
      "grad_norm": 0.663830041885376,
      "learning_rate": 0.000990253114563667,
      "loss": 2.7973,
      "step": 712
    },
    {
      "epoch": 0.091264,
      "grad_norm": 0.6031503081321716,
      "learning_rate": 0.000990212338277891,
      "loss": 2.7725,
      "step": 713
    },
    {
      "epoch": 0.091392,
      "grad_norm": 0.6077892780303955,
      "learning_rate": 0.0009901714777189312,
      "loss": 2.7953,
      "step": 714
    },
    {
      "epoch": 0.09152,
      "grad_norm": 0.7054643034934998,
      "learning_rate": 0.0009901305328938118,
      "loss": 2.7976,
      "step": 715
    },
    {
      "epoch": 0.091648,
      "grad_norm": 0.673582136631012,
      "learning_rate": 0.000990089503809572,
      "loss": 2.8188,
      "step": 716
    },
    {
      "epoch": 0.091776,
      "grad_norm": 0.6433671712875366,
      "learning_rate": 0.0009900483904732645,
      "loss": 2.8301,
      "step": 717
    },
    {
      "epoch": 0.091904,
      "grad_norm": 0.6094067692756653,
      "learning_rate": 0.0009900071928919578,
      "loss": 2.7756,
      "step": 718
    },
    {
      "epoch": 0.092032,
      "grad_norm": 0.5731477737426758,
      "learning_rate": 0.0009899659110727337,
      "loss": 2.7714,
      "step": 719
    },
    {
      "epoch": 0.09216,
      "grad_norm": 0.5526401996612549,
      "learning_rate": 0.0009899245450226896,
      "loss": 2.748,
      "step": 720
    },
    {
      "epoch": 0.092288,
      "grad_norm": 0.6026794910430908,
      "learning_rate": 0.0009898830947489366,
      "loss": 2.772,
      "step": 721
    },
    {
      "epoch": 0.092416,
      "grad_norm": 0.6676191687583923,
      "learning_rate": 0.0009898415602586001,
      "loss": 2.7156,
      "step": 722
    },
    {
      "epoch": 0.092544,
      "grad_norm": 0.6084476113319397,
      "learning_rate": 0.000989799941558821,
      "loss": 2.7877,
      "step": 723
    },
    {
      "epoch": 0.092672,
      "grad_norm": 0.5948991179466248,
      "learning_rate": 0.000989758238656753,
      "loss": 2.8273,
      "step": 724
    },
    {
      "epoch": 0.0928,
      "grad_norm": 0.6985250115394592,
      "learning_rate": 0.0009897164515595667,
      "loss": 2.8089,
      "step": 725
    },
    {
      "epoch": 0.092928,
      "grad_norm": 0.6468443274497986,
      "learning_rate": 0.0009896745802744449,
      "loss": 2.7046,
      "step": 726
    },
    {
      "epoch": 0.093056,
      "grad_norm": 0.6469998359680176,
      "learning_rate": 0.000989632624808586,
      "loss": 2.8469,
      "step": 727
    },
    {
      "epoch": 0.093184,
      "grad_norm": 0.6472017168998718,
      "learning_rate": 0.0009895905851692026,
      "loss": 2.726,
      "step": 728
    },
    {
      "epoch": 0.093312,
      "grad_norm": 0.7000433206558228,
      "learning_rate": 0.0009895484613635216,
      "loss": 2.7947,
      "step": 729
    },
    {
      "epoch": 0.09344,
      "grad_norm": 0.6146612167358398,
      "learning_rate": 0.0009895062533987848,
      "loss": 2.7887,
      "step": 730
    },
    {
      "epoch": 0.093568,
      "grad_norm": 0.6564903259277344,
      "learning_rate": 0.0009894639612822486,
      "loss": 2.8185,
      "step": 731
    },
    {
      "epoch": 0.093696,
      "grad_norm": 0.6483172178268433,
      "learning_rate": 0.0009894215850211824,
      "loss": 2.7902,
      "step": 732
    },
    {
      "epoch": 0.093824,
      "grad_norm": 0.6261118054389954,
      "learning_rate": 0.0009893791246228724,
      "loss": 2.777,
      "step": 733
    },
    {
      "epoch": 0.093952,
      "grad_norm": 0.706915557384491,
      "learning_rate": 0.0009893365800946175,
      "loss": 2.8369,
      "step": 734
    },
    {
      "epoch": 0.09408,
      "grad_norm": 0.6100596189498901,
      "learning_rate": 0.0009892939514437313,
      "loss": 2.8141,
      "step": 735
    },
    {
      "epoch": 0.094208,
      "grad_norm": 0.6423460245132446,
      "learning_rate": 0.0009892512386775428,
      "loss": 2.8061,
      "step": 736
    },
    {
      "epoch": 0.094336,
      "grad_norm": 0.5889858603477478,
      "learning_rate": 0.000989208441803394,
      "loss": 2.761,
      "step": 737
    },
    {
      "epoch": 0.094464,
      "grad_norm": 0.6384763717651367,
      "learning_rate": 0.0009891655608286433,
      "loss": 2.857,
      "step": 738
    },
    {
      "epoch": 0.094592,
      "grad_norm": 0.6460410356521606,
      "learning_rate": 0.0009891225957606613,
      "loss": 2.6995,
      "step": 739
    },
    {
      "epoch": 0.09472,
      "grad_norm": 0.6443074345588684,
      "learning_rate": 0.000989079546606835,
      "loss": 2.7699,
      "step": 740
    },
    {
      "epoch": 0.094848,
      "grad_norm": 0.5849409103393555,
      "learning_rate": 0.0009890364133745646,
      "loss": 2.7097,
      "step": 741
    },
    {
      "epoch": 0.094976,
      "grad_norm": 0.626846969127655,
      "learning_rate": 0.0009889931960712652,
      "loss": 2.8237,
      "step": 742
    },
    {
      "epoch": 0.095104,
      "grad_norm": 0.5876837968826294,
      "learning_rate": 0.0009889498947043668,
      "loss": 2.8078,
      "step": 743
    },
    {
      "epoch": 0.095232,
      "grad_norm": 0.5960461497306824,
      "learning_rate": 0.000988906509281313,
      "loss": 2.8001,
      "step": 744
    },
    {
      "epoch": 0.09536,
      "grad_norm": 0.6126185655593872,
      "learning_rate": 0.0009888630398095623,
      "loss": 2.8343,
      "step": 745
    },
    {
      "epoch": 0.095488,
      "grad_norm": 0.5880275964736938,
      "learning_rate": 0.0009888194862965878,
      "loss": 2.8166,
      "step": 746
    },
    {
      "epoch": 0.095616,
      "grad_norm": 0.6577414274215698,
      "learning_rate": 0.0009887758487498765,
      "loss": 2.8176,
      "step": 747
    },
    {
      "epoch": 0.095744,
      "grad_norm": 0.6705825328826904,
      "learning_rate": 0.0009887321271769304,
      "loss": 2.7785,
      "step": 748
    },
    {
      "epoch": 0.095872,
      "grad_norm": 0.6451374292373657,
      "learning_rate": 0.000988688321585266,
      "loss": 2.8169,
      "step": 749
    },
    {
      "epoch": 0.096,
      "grad_norm": 0.5956161022186279,
      "learning_rate": 0.0009886444319824137,
      "loss": 2.778,
      "step": 750
    },
    {
      "epoch": 0.096128,
      "grad_norm": 0.6327295899391174,
      "learning_rate": 0.0009886004583759187,
      "loss": 2.8503,
      "step": 751
    },
    {
      "epoch": 0.096256,
      "grad_norm": 0.6312670111656189,
      "learning_rate": 0.0009885564007733405,
      "loss": 2.8183,
      "step": 752
    },
    {
      "epoch": 0.096384,
      "grad_norm": 0.6112887859344482,
      "learning_rate": 0.0009885122591822533,
      "loss": 2.7967,
      "step": 753
    },
    {
      "epoch": 0.096512,
      "grad_norm": 0.6259969472885132,
      "learning_rate": 0.0009884680336102452,
      "loss": 2.8793,
      "step": 754
    },
    {
      "epoch": 0.09664,
      "grad_norm": 0.6892764568328857,
      "learning_rate": 0.0009884237240649193,
      "loss": 2.7603,
      "step": 755
    },
    {
      "epoch": 0.096768,
      "grad_norm": 0.682623028755188,
      "learning_rate": 0.0009883793305538932,
      "loss": 2.8205,
      "step": 756
    },
    {
      "epoch": 0.096896,
      "grad_norm": 0.6390745043754578,
      "learning_rate": 0.0009883348530847983,
      "loss": 2.7326,
      "step": 757
    },
    {
      "epoch": 0.097024,
      "grad_norm": 0.589984655380249,
      "learning_rate": 0.0009882902916652809,
      "loss": 2.9325,
      "step": 758
    },
    {
      "epoch": 0.097152,
      "grad_norm": 0.5692408084869385,
      "learning_rate": 0.0009882456463030016,
      "loss": 2.642,
      "step": 759
    },
    {
      "epoch": 0.09728,
      "grad_norm": 0.5981008410453796,
      "learning_rate": 0.0009882009170056353,
      "loss": 2.7624,
      "step": 760
    },
    {
      "epoch": 0.097408,
      "grad_norm": 0.6292402148246765,
      "learning_rate": 0.000988156103780872,
      "loss": 2.7605,
      "step": 761
    },
    {
      "epoch": 0.097536,
      "grad_norm": 0.5807685852050781,
      "learning_rate": 0.000988111206636415,
      "loss": 2.7757,
      "step": 762
    },
    {
      "epoch": 0.097664,
      "grad_norm": 0.5984708666801453,
      "learning_rate": 0.000988066225579983,
      "loss": 2.8866,
      "step": 763
    },
    {
      "epoch": 0.097792,
      "grad_norm": 0.582970380783081,
      "learning_rate": 0.0009880211606193088,
      "loss": 2.6777,
      "step": 764
    },
    {
      "epoch": 0.09792,
      "grad_norm": 0.6592897772789001,
      "learning_rate": 0.0009879760117621392,
      "loss": 2.7143,
      "step": 765
    },
    {
      "epoch": 0.098048,
      "grad_norm": 0.6749177575111389,
      "learning_rate": 0.0009879307790162362,
      "loss": 2.7257,
      "step": 766
    },
    {
      "epoch": 0.098176,
      "grad_norm": 0.594306230545044,
      "learning_rate": 0.000987885462389376,
      "loss": 2.7326,
      "step": 767
    },
    {
      "epoch": 0.098304,
      "grad_norm": 0.653889536857605,
      "learning_rate": 0.0009878400618893483,
      "loss": 2.8091,
      "step": 768
    },
    {
      "epoch": 0.098432,
      "grad_norm": 0.5648307800292969,
      "learning_rate": 0.0009877945775239585,
      "loss": 2.7986,
      "step": 769
    },
    {
      "epoch": 0.09856,
      "grad_norm": 0.575474202632904,
      "learning_rate": 0.0009877490093010259,
      "loss": 2.8094,
      "step": 770
    },
    {
      "epoch": 0.098688,
      "grad_norm": 0.6090101599693298,
      "learning_rate": 0.0009877033572283842,
      "loss": 2.8684,
      "step": 771
    },
    {
      "epoch": 0.098816,
      "grad_norm": 0.7748733758926392,
      "learning_rate": 0.0009876576213138815,
      "loss": 2.9178,
      "step": 772
    },
    {
      "epoch": 0.098944,
      "grad_norm": 0.6425460577011108,
      "learning_rate": 0.0009876118015653803,
      "loss": 2.7714,
      "step": 773
    },
    {
      "epoch": 0.099072,
      "grad_norm": 0.6075500845909119,
      "learning_rate": 0.0009875658979907574,
      "loss": 2.8834,
      "step": 774
    },
    {
      "epoch": 0.0992,
      "grad_norm": 0.6271635293960571,
      "learning_rate": 0.0009875199105979042,
      "loss": 2.7727,
      "step": 775
    },
    {
      "epoch": 0.099328,
      "grad_norm": 0.6330634951591492,
      "learning_rate": 0.0009874738393947267,
      "loss": 2.8057,
      "step": 776
    },
    {
      "epoch": 0.099456,
      "grad_norm": 0.5857647657394409,
      "learning_rate": 0.0009874276843891449,
      "loss": 2.8228,
      "step": 777
    },
    {
      "epoch": 0.099584,
      "grad_norm": 0.6122685670852661,
      "learning_rate": 0.0009873814455890935,
      "loss": 2.7827,
      "step": 778
    },
    {
      "epoch": 0.099712,
      "grad_norm": 0.6291216611862183,
      "learning_rate": 0.0009873351230025211,
      "loss": 2.8134,
      "step": 779
    },
    {
      "epoch": 0.09984,
      "grad_norm": 0.6332638263702393,
      "learning_rate": 0.0009872887166373916,
      "loss": 2.8095,
      "step": 780
    },
    {
      "epoch": 0.099968,
      "grad_norm": 0.5863742232322693,
      "learning_rate": 0.0009872422265016826,
      "loss": 2.8003,
      "step": 781
    },
    {
      "epoch": 0.100096,
      "grad_norm": 0.6116770505905151,
      "learning_rate": 0.0009871956526033862,
      "loss": 2.6911,
      "step": 782
    },
    {
      "epoch": 0.100224,
      "grad_norm": 2.7007014751434326,
      "learning_rate": 0.0009871489949505091,
      "loss": 2.7918,
      "step": 783
    },
    {
      "epoch": 0.100352,
      "grad_norm": 0.6830151081085205,
      "learning_rate": 0.0009871022535510722,
      "loss": 2.755,
      "step": 784
    },
    {
      "epoch": 0.10048,
      "grad_norm": 0.5937487483024597,
      "learning_rate": 0.0009870554284131111,
      "loss": 2.729,
      "step": 785
    },
    {
      "epoch": 0.100608,
      "grad_norm": 0.5870329737663269,
      "learning_rate": 0.0009870085195446752,
      "loss": 2.8093,
      "step": 786
    },
    {
      "epoch": 0.100736,
      "grad_norm": 0.6796907186508179,
      "learning_rate": 0.000986961526953829,
      "loss": 2.831,
      "step": 787
    },
    {
      "epoch": 0.100864,
      "grad_norm": 0.7465339303016663,
      "learning_rate": 0.000986914450648651,
      "loss": 2.7117,
      "step": 788
    },
    {
      "epoch": 0.100992,
      "grad_norm": 0.6901183724403381,
      "learning_rate": 0.0009868672906372341,
      "loss": 2.8075,
      "step": 789
    },
    {
      "epoch": 0.10112,
      "grad_norm": 0.6446228623390198,
      "learning_rate": 0.0009868200469276857,
      "loss": 2.8799,
      "step": 790
    },
    {
      "epoch": 0.101248,
      "grad_norm": 0.634698748588562,
      "learning_rate": 0.0009867727195281275,
      "loss": 2.7985,
      "step": 791
    },
    {
      "epoch": 0.101376,
      "grad_norm": 0.6398109197616577,
      "learning_rate": 0.0009867253084466956,
      "loss": 2.9185,
      "step": 792
    },
    {
      "epoch": 0.101504,
      "grad_norm": 0.6228291988372803,
      "learning_rate": 0.0009866778136915408,
      "loss": 2.7688,
      "step": 793
    },
    {
      "epoch": 0.101632,
      "grad_norm": 0.6698846817016602,
      "learning_rate": 0.0009866302352708276,
      "loss": 2.8149,
      "step": 794
    },
    {
      "epoch": 0.10176,
      "grad_norm": 0.7067086696624756,
      "learning_rate": 0.0009865825731927354,
      "loss": 2.8371,
      "step": 795
    },
    {
      "epoch": 0.101888,
      "grad_norm": 0.6640371680259705,
      "learning_rate": 0.000986534827465458,
      "loss": 2.8706,
      "step": 796
    },
    {
      "epoch": 0.102016,
      "grad_norm": 0.7059177160263062,
      "learning_rate": 0.0009864869980972034,
      "loss": 2.7642,
      "step": 797
    },
    {
      "epoch": 0.102144,
      "grad_norm": 0.6602753400802612,
      "learning_rate": 0.000986439085096194,
      "loss": 2.6786,
      "step": 798
    },
    {
      "epoch": 0.102272,
      "grad_norm": 0.6432440876960754,
      "learning_rate": 0.0009863910884706666,
      "loss": 2.9021,
      "step": 799
    },
    {
      "epoch": 0.1024,
      "grad_norm": 0.6290929317474365,
      "learning_rate": 0.0009863430082288722,
      "loss": 2.8677,
      "step": 800
    },
    {
      "epoch": 0.102528,
      "grad_norm": 0.6386841535568237,
      "learning_rate": 0.0009862948443790766,
      "loss": 2.7505,
      "step": 801
    },
    {
      "epoch": 0.102656,
      "grad_norm": 0.6005198955535889,
      "learning_rate": 0.0009862465969295597,
      "loss": 2.7993,
      "step": 802
    },
    {
      "epoch": 0.102784,
      "grad_norm": 0.6364853382110596,
      "learning_rate": 0.0009861982658886158,
      "loss": 2.8412,
      "step": 803
    },
    {
      "epoch": 0.102912,
      "grad_norm": 0.6403594017028809,
      "learning_rate": 0.0009861498512645532,
      "loss": 2.9071,
      "step": 804
    },
    {
      "epoch": 0.10304,
      "grad_norm": 0.6037935018539429,
      "learning_rate": 0.0009861013530656955,
      "loss": 2.813,
      "step": 805
    },
    {
      "epoch": 0.103168,
      "grad_norm": 0.6392989158630371,
      "learning_rate": 0.0009860527713003798,
      "loss": 2.7208,
      "step": 806
    },
    {
      "epoch": 0.103296,
      "grad_norm": 0.6989043354988098,
      "learning_rate": 0.0009860041059769579,
      "loss": 2.8711,
      "step": 807
    },
    {
      "epoch": 0.103424,
      "grad_norm": 0.6440208554267883,
      "learning_rate": 0.000985955357103796,
      "loss": 2.9016,
      "step": 808
    },
    {
      "epoch": 0.103552,
      "grad_norm": 0.6296306848526001,
      "learning_rate": 0.0009859065246892744,
      "loss": 2.7682,
      "step": 809
    },
    {
      "epoch": 0.10368,
      "grad_norm": 0.6051629781723022,
      "learning_rate": 0.000985857608741788,
      "loss": 2.7421,
      "step": 810
    },
    {
      "epoch": 0.103808,
      "grad_norm": 0.6126458644866943,
      "learning_rate": 0.0009858086092697463,
      "loss": 2.7528,
      "step": 811
    },
    {
      "epoch": 0.103936,
      "grad_norm": 0.6583166122436523,
      "learning_rate": 0.0009857595262815727,
      "loss": 2.8345,
      "step": 812
    },
    {
      "epoch": 0.104064,
      "grad_norm": 0.6032102108001709,
      "learning_rate": 0.000985710359785705,
      "loss": 2.806,
      "step": 813
    },
    {
      "epoch": 0.104192,
      "grad_norm": 0.594845175743103,
      "learning_rate": 0.0009856611097905955,
      "loss": 2.7656,
      "step": 814
    },
    {
      "epoch": 0.10432,
      "grad_norm": 0.5929123759269714,
      "learning_rate": 0.0009856117763047114,
      "loss": 2.8786,
      "step": 815
    },
    {
      "epoch": 0.104448,
      "grad_norm": 0.6602712273597717,
      "learning_rate": 0.0009855623593365331,
      "loss": 2.8737,
      "step": 816
    },
    {
      "epoch": 0.104576,
      "grad_norm": 0.6083605289459229,
      "learning_rate": 0.000985512858894556,
      "loss": 2.6823,
      "step": 817
    },
    {
      "epoch": 0.104704,
      "grad_norm": 0.6439127326011658,
      "learning_rate": 0.0009854632749872899,
      "loss": 2.8074,
      "step": 818
    },
    {
      "epoch": 0.104832,
      "grad_norm": 0.6076107025146484,
      "learning_rate": 0.0009854136076232587,
      "loss": 2.8182,
      "step": 819
    },
    {
      "epoch": 0.10496,
      "grad_norm": 0.6653445959091187,
      "learning_rate": 0.0009853638568110012,
      "loss": 2.8411,
      "step": 820
    },
    {
      "epoch": 0.105088,
      "grad_norm": 0.6439939737319946,
      "learning_rate": 0.0009853140225590698,
      "loss": 2.8436,
      "step": 821
    },
    {
      "epoch": 0.105216,
      "grad_norm": 0.6649248600006104,
      "learning_rate": 0.0009852641048760317,
      "loss": 2.8012,
      "step": 822
    },
    {
      "epoch": 0.105344,
      "grad_norm": 0.5895849466323853,
      "learning_rate": 0.0009852141037704682,
      "loss": 2.7671,
      "step": 823
    },
    {
      "epoch": 0.105472,
      "grad_norm": 0.5748792290687561,
      "learning_rate": 0.0009851640192509753,
      "loss": 2.689,
      "step": 824
    },
    {
      "epoch": 0.1056,
      "grad_norm": 0.6060187220573425,
      "learning_rate": 0.0009851138513261631,
      "loss": 2.8344,
      "step": 825
    },
    {
      "epoch": 0.105728,
      "grad_norm": 0.5851595401763916,
      "learning_rate": 0.0009850636000046558,
      "loss": 2.7926,
      "step": 826
    },
    {
      "epoch": 0.105856,
      "grad_norm": 0.6126608848571777,
      "learning_rate": 0.0009850132652950922,
      "loss": 2.7453,
      "step": 827
    },
    {
      "epoch": 0.105984,
      "grad_norm": 0.6334810853004456,
      "learning_rate": 0.0009849628472061258,
      "loss": 2.7937,
      "step": 828
    },
    {
      "epoch": 0.106112,
      "grad_norm": 0.6283869743347168,
      "learning_rate": 0.0009849123457464236,
      "loss": 2.747,
      "step": 829
    },
    {
      "epoch": 0.10624,
      "grad_norm": 0.5730935335159302,
      "learning_rate": 0.0009848617609246677,
      "loss": 2.7462,
      "step": 830
    },
    {
      "epoch": 0.106368,
      "grad_norm": 0.6146301627159119,
      "learning_rate": 0.0009848110927495538,
      "loss": 2.7363,
      "step": 831
    },
    {
      "epoch": 0.106496,
      "grad_norm": 0.6685543060302734,
      "learning_rate": 0.000984760341229793,
      "loss": 2.7218,
      "step": 832
    },
    {
      "epoch": 0.106624,
      "grad_norm": 0.5908210277557373,
      "learning_rate": 0.0009847095063741096,
      "loss": 2.8078,
      "step": 833
    },
    {
      "epoch": 0.106752,
      "grad_norm": 0.6333723664283752,
      "learning_rate": 0.000984658588191243,
      "loss": 2.7666,
      "step": 834
    },
    {
      "epoch": 0.10688,
      "grad_norm": 0.7050348520278931,
      "learning_rate": 0.0009846075866899462,
      "loss": 2.8048,
      "step": 835
    },
    {
      "epoch": 0.107008,
      "grad_norm": 0.5983240008354187,
      "learning_rate": 0.0009845565018789873,
      "loss": 2.784,
      "step": 836
    },
    {
      "epoch": 0.107136,
      "grad_norm": 0.5837526321411133,
      "learning_rate": 0.0009845053337671481,
      "loss": 2.7807,
      "step": 837
    },
    {
      "epoch": 0.107264,
      "grad_norm": 0.6391170024871826,
      "learning_rate": 0.0009844540823632252,
      "loss": 2.7838,
      "step": 838
    },
    {
      "epoch": 0.107392,
      "grad_norm": 0.6417423486709595,
      "learning_rate": 0.0009844027476760295,
      "loss": 2.8087,
      "step": 839
    },
    {
      "epoch": 0.10752,
      "grad_norm": 0.645114004611969,
      "learning_rate": 0.0009843513297143856,
      "loss": 2.7689,
      "step": 840
    },
    {
      "epoch": 0.107648,
      "grad_norm": 0.61383455991745,
      "learning_rate": 0.0009842998284871332,
      "loss": 2.8141,
      "step": 841
    },
    {
      "epoch": 0.107776,
      "grad_norm": 0.6373850107192993,
      "learning_rate": 0.0009842482440031255,
      "loss": 2.8244,
      "step": 842
    },
    {
      "epoch": 0.107904,
      "grad_norm": 0.6734111309051514,
      "learning_rate": 0.0009841965762712312,
      "loss": 2.7531,
      "step": 843
    },
    {
      "epoch": 0.108032,
      "grad_norm": 0.6064965724945068,
      "learning_rate": 0.0009841448253003317,
      "loss": 2.8251,
      "step": 844
    },
    {
      "epoch": 0.10816,
      "grad_norm": 0.635980486869812,
      "learning_rate": 0.0009840929910993244,
      "loss": 2.8068,
      "step": 845
    },
    {
      "epoch": 0.108288,
      "grad_norm": 0.6356415748596191,
      "learning_rate": 0.0009840410736771197,
      "loss": 2.6575,
      "step": 846
    },
    {
      "epoch": 0.108416,
      "grad_norm": 0.6023411750793457,
      "learning_rate": 0.000983989073042643,
      "loss": 2.7743,
      "step": 847
    },
    {
      "epoch": 0.108544,
      "grad_norm": 0.5805996656417847,
      "learning_rate": 0.0009839369892048336,
      "loss": 2.8964,
      "step": 848
    },
    {
      "epoch": 0.108672,
      "grad_norm": 0.5700211524963379,
      "learning_rate": 0.0009838848221726455,
      "loss": 2.7277,
      "step": 849
    },
    {
      "epoch": 0.1088,
      "grad_norm": 0.6346428394317627,
      "learning_rate": 0.000983832571955047,
      "loss": 2.8809,
      "step": 850
    },
    {
      "epoch": 0.108928,
      "grad_norm": 0.6366507411003113,
      "learning_rate": 0.00098378023856102,
      "loss": 2.8148,
      "step": 851
    },
    {
      "epoch": 0.109056,
      "grad_norm": 0.6012441515922546,
      "learning_rate": 0.0009837278219995617,
      "loss": 2.8322,
      "step": 852
    },
    {
      "epoch": 0.109184,
      "grad_norm": 0.7537410259246826,
      "learning_rate": 0.000983675322279683,
      "loss": 2.7821,
      "step": 853
    },
    {
      "epoch": 0.109312,
      "grad_norm": 0.5867059230804443,
      "learning_rate": 0.0009836227394104092,
      "loss": 2.7829,
      "step": 854
    },
    {
      "epoch": 0.10944,
      "grad_norm": 0.6366684436798096,
      "learning_rate": 0.0009835700734007796,
      "loss": 2.7653,
      "step": 855
    },
    {
      "epoch": 0.109568,
      "grad_norm": 0.6084903478622437,
      "learning_rate": 0.0009835173242598485,
      "loss": 2.859,
      "step": 856
    },
    {
      "epoch": 0.109696,
      "grad_norm": 0.5708959698677063,
      "learning_rate": 0.0009834644919966841,
      "loss": 2.7265,
      "step": 857
    },
    {
      "epoch": 0.109824,
      "grad_norm": 0.6097862124443054,
      "learning_rate": 0.0009834115766203686,
      "loss": 2.7568,
      "step": 858
    },
    {
      "epoch": 0.109952,
      "grad_norm": 0.63030606508255,
      "learning_rate": 0.000983358578139999,
      "loss": 2.7581,
      "step": 859
    },
    {
      "epoch": 0.11008,
      "grad_norm": 0.6277570724487305,
      "learning_rate": 0.000983305496564686,
      "loss": 2.8849,
      "step": 860
    },
    {
      "epoch": 0.110208,
      "grad_norm": 0.5921233892440796,
      "learning_rate": 0.0009832523319035554,
      "loss": 2.8355,
      "step": 861
    },
    {
      "epoch": 0.110336,
      "grad_norm": 0.5625348091125488,
      "learning_rate": 0.0009831990841657463,
      "loss": 2.6502,
      "step": 862
    },
    {
      "epoch": 0.110464,
      "grad_norm": 0.639201819896698,
      "learning_rate": 0.0009831457533604133,
      "loss": 2.8422,
      "step": 863
    },
    {
      "epoch": 0.110592,
      "grad_norm": 0.6009607911109924,
      "learning_rate": 0.000983092339496724,
      "loss": 2.7121,
      "step": 864
    },
    {
      "epoch": 0.11072,
      "grad_norm": 0.6245540976524353,
      "learning_rate": 0.000983038842583861,
      "loss": 2.8217,
      "step": 865
    },
    {
      "epoch": 0.110848,
      "grad_norm": 0.6583575010299683,
      "learning_rate": 0.0009829852626310211,
      "loss": 2.662,
      "step": 866
    },
    {
      "epoch": 0.110976,
      "grad_norm": 0.5865240097045898,
      "learning_rate": 0.0009829315996474155,
      "loss": 2.7645,
      "step": 867
    },
    {
      "epoch": 0.111104,
      "grad_norm": 0.5778612494468689,
      "learning_rate": 0.0009828778536422691,
      "loss": 2.8496,
      "step": 868
    },
    {
      "epoch": 0.111232,
      "grad_norm": 0.5663614869117737,
      "learning_rate": 0.0009828240246248217,
      "loss": 2.7964,
      "step": 869
    },
    {
      "epoch": 0.11136,
      "grad_norm": 0.6006061434745789,
      "learning_rate": 0.0009827701126043271,
      "loss": 2.8631,
      "step": 870
    },
    {
      "epoch": 0.111488,
      "grad_norm": 0.6212081909179688,
      "learning_rate": 0.0009827161175900534,
      "loss": 2.6718,
      "step": 871
    },
    {
      "epoch": 0.111616,
      "grad_norm": 0.5509989261627197,
      "learning_rate": 0.0009826620395912832,
      "loss": 2.7854,
      "step": 872
    },
    {
      "epoch": 0.111744,
      "grad_norm": 0.5954610109329224,
      "learning_rate": 0.0009826078786173125,
      "loss": 2.7774,
      "step": 873
    },
    {
      "epoch": 0.111872,
      "grad_norm": 0.5777668952941895,
      "learning_rate": 0.000982553634677453,
      "loss": 2.7481,
      "step": 874
    },
    {
      "epoch": 0.112,
      "grad_norm": 0.6154332756996155,
      "learning_rate": 0.000982499307781029,
      "loss": 2.8277,
      "step": 875
    },
    {
      "epoch": 0.112128,
      "grad_norm": 0.6392161250114441,
      "learning_rate": 0.0009824448979373806,
      "loss": 2.6497,
      "step": 876
    },
    {
      "epoch": 0.112256,
      "grad_norm": 0.6608901619911194,
      "learning_rate": 0.0009823904051558612,
      "loss": 2.8628,
      "step": 877
    },
    {
      "epoch": 0.112384,
      "grad_norm": 0.6657507419586182,
      "learning_rate": 0.0009823358294458388,
      "loss": 2.9244,
      "step": 878
    },
    {
      "epoch": 0.112512,
      "grad_norm": 0.5645162463188171,
      "learning_rate": 0.0009822811708166959,
      "loss": 2.8493,
      "step": 879
    },
    {
      "epoch": 0.11264,
      "grad_norm": 0.5694570541381836,
      "learning_rate": 0.0009822264292778282,
      "loss": 2.7503,
      "step": 880
    },
    {
      "epoch": 0.112768,
      "grad_norm": 0.5686466693878174,
      "learning_rate": 0.0009821716048386473,
      "loss": 2.7338,
      "step": 881
    },
    {
      "epoch": 0.112896,
      "grad_norm": 0.5693116188049316,
      "learning_rate": 0.0009821166975085773,
      "loss": 2.8634,
      "step": 882
    },
    {
      "epoch": 0.113024,
      "grad_norm": 0.5836139917373657,
      "learning_rate": 0.0009820617072970582,
      "loss": 2.7017,
      "step": 883
    },
    {
      "epoch": 0.113152,
      "grad_norm": 0.5826423764228821,
      "learning_rate": 0.0009820066342135427,
      "loss": 2.7746,
      "step": 884
    },
    {
      "epoch": 0.11328,
      "grad_norm": 0.5697187185287476,
      "learning_rate": 0.0009819514782674992,
      "loss": 2.769,
      "step": 885
    },
    {
      "epoch": 0.113408,
      "grad_norm": 0.5690415501594543,
      "learning_rate": 0.0009818962394684092,
      "loss": 2.7655,
      "step": 886
    },
    {
      "epoch": 0.113536,
      "grad_norm": 0.5894742012023926,
      "learning_rate": 0.000981840917825769,
      "loss": 2.8116,
      "step": 887
    },
    {
      "epoch": 0.113664,
      "grad_norm": 0.6387711763381958,
      "learning_rate": 0.0009817855133490891,
      "loss": 2.8504,
      "step": 888
    },
    {
      "epoch": 0.113792,
      "grad_norm": 0.6152102947235107,
      "learning_rate": 0.000981730026047894,
      "loss": 2.7663,
      "step": 889
    },
    {
      "epoch": 0.11392,
      "grad_norm": 0.5931515097618103,
      "learning_rate": 0.0009816744559317228,
      "loss": 2.7349,
      "step": 890
    },
    {
      "epoch": 0.114048,
      "grad_norm": 0.6105088591575623,
      "learning_rate": 0.0009816188030101285,
      "loss": 2.7391,
      "step": 891
    },
    {
      "epoch": 0.114176,
      "grad_norm": 0.5547090172767639,
      "learning_rate": 0.0009815630672926788,
      "loss": 2.7983,
      "step": 892
    },
    {
      "epoch": 0.114304,
      "grad_norm": 0.5692914128303528,
      "learning_rate": 0.0009815072487889549,
      "loss": 2.8709,
      "step": 893
    },
    {
      "epoch": 0.114432,
      "grad_norm": 0.604821503162384,
      "learning_rate": 0.000981451347508553,
      "loss": 2.7881,
      "step": 894
    },
    {
      "epoch": 0.11456,
      "grad_norm": 0.5770875215530396,
      "learning_rate": 0.0009813953634610826,
      "loss": 2.7581,
      "step": 895
    },
    {
      "epoch": 0.114688,
      "grad_norm": 0.8093606233596802,
      "learning_rate": 0.0009813392966561687,
      "loss": 2.7408,
      "step": 896
    },
    {
      "epoch": 0.114816,
      "grad_norm": 0.6534593105316162,
      "learning_rate": 0.0009812831471034495,
      "loss": 2.8164,
      "step": 897
    },
    {
      "epoch": 0.114944,
      "grad_norm": 0.5952637791633606,
      "learning_rate": 0.0009812269148125777,
      "loss": 2.7325,
      "step": 898
    },
    {
      "epoch": 0.115072,
      "grad_norm": 0.6296796798706055,
      "learning_rate": 0.0009811705997932205,
      "loss": 2.7218,
      "step": 899
    },
    {
      "epoch": 0.1152,
      "grad_norm": 0.5407091379165649,
      "learning_rate": 0.000981114202055059,
      "loss": 2.6834,
      "step": 900
    },
    {
      "epoch": 0.115328,
      "grad_norm": 0.6043116450309753,
      "learning_rate": 0.0009810577216077885,
      "loss": 2.8047,
      "step": 901
    },
    {
      "epoch": 0.115456,
      "grad_norm": 0.5822126269340515,
      "learning_rate": 0.000981001158461119,
      "loss": 2.7721,
      "step": 902
    },
    {
      "epoch": 0.115584,
      "grad_norm": 0.6491378545761108,
      "learning_rate": 0.0009809445126247739,
      "loss": 2.6954,
      "step": 903
    },
    {
      "epoch": 0.115712,
      "grad_norm": 0.594914436340332,
      "learning_rate": 0.0009808877841084914,
      "loss": 2.7636,
      "step": 904
    },
    {
      "epoch": 0.11584,
      "grad_norm": 0.5268549919128418,
      "learning_rate": 0.000980830972922024,
      "loss": 2.7449,
      "step": 905
    },
    {
      "epoch": 0.115968,
      "grad_norm": 0.5344944596290588,
      "learning_rate": 0.0009807740790751382,
      "loss": 2.6969,
      "step": 906
    },
    {
      "epoch": 0.116096,
      "grad_norm": 0.5944616198539734,
      "learning_rate": 0.0009807171025776145,
      "loss": 2.767,
      "step": 907
    },
    {
      "epoch": 0.116224,
      "grad_norm": 0.6480891704559326,
      "learning_rate": 0.0009806600434392478,
      "loss": 2.8362,
      "step": 908
    },
    {
      "epoch": 0.116352,
      "grad_norm": 0.6049019694328308,
      "learning_rate": 0.0009806029016698474,
      "loss": 2.753,
      "step": 909
    },
    {
      "epoch": 0.11648,
      "grad_norm": 0.6273736953735352,
      "learning_rate": 0.0009805456772792368,
      "loss": 2.7779,
      "step": 910
    },
    {
      "epoch": 0.116608,
      "grad_norm": 0.5828092098236084,
      "learning_rate": 0.0009804883702772531,
      "loss": 2.751,
      "step": 911
    },
    {
      "epoch": 0.116736,
      "grad_norm": 0.5794533491134644,
      "learning_rate": 0.0009804309806737482,
      "loss": 2.758,
      "step": 912
    },
    {
      "epoch": 0.116864,
      "grad_norm": 0.5486896634101868,
      "learning_rate": 0.0009803735084785883,
      "loss": 2.7941,
      "step": 913
    },
    {
      "epoch": 0.116992,
      "grad_norm": 0.5803906321525574,
      "learning_rate": 0.000980315953701653,
      "loss": 2.8619,
      "step": 914
    },
    {
      "epoch": 0.11712,
      "grad_norm": 0.5883187055587769,
      "learning_rate": 0.0009802583163528373,
      "loss": 2.7943,
      "step": 915
    },
    {
      "epoch": 0.117248,
      "grad_norm": 0.5835874676704407,
      "learning_rate": 0.0009802005964420493,
      "loss": 2.8099,
      "step": 916
    },
    {
      "epoch": 0.117376,
      "grad_norm": 0.5059971213340759,
      "learning_rate": 0.0009801427939792118,
      "loss": 2.7697,
      "step": 917
    },
    {
      "epoch": 0.117504,
      "grad_norm": 0.6141585111618042,
      "learning_rate": 0.0009800849089742615,
      "loss": 2.767,
      "step": 918
    },
    {
      "epoch": 0.117632,
      "grad_norm": 0.6166432499885559,
      "learning_rate": 0.0009800269414371502,
      "loss": 2.7808,
      "step": 919
    },
    {
      "epoch": 0.11776,
      "grad_norm": 0.5395179986953735,
      "learning_rate": 0.000979968891377842,
      "loss": 2.8564,
      "step": 920
    },
    {
      "epoch": 0.117888,
      "grad_norm": 0.6034530997276306,
      "learning_rate": 0.0009799107588063178,
      "loss": 2.7168,
      "step": 921
    },
    {
      "epoch": 0.118016,
      "grad_norm": 0.6113799214363098,
      "learning_rate": 0.0009798525437325703,
      "loss": 2.9434,
      "step": 922
    },
    {
      "epoch": 0.118144,
      "grad_norm": 0.60833740234375,
      "learning_rate": 0.0009797942461666075,
      "loss": 2.8141,
      "step": 923
    },
    {
      "epoch": 0.118272,
      "grad_norm": 0.5959431529045105,
      "learning_rate": 0.0009797358661184517,
      "loss": 2.7959,
      "step": 924
    },
    {
      "epoch": 0.1184,
      "grad_norm": 0.5794847011566162,
      "learning_rate": 0.0009796774035981388,
      "loss": 2.6964,
      "step": 925
    },
    {
      "epoch": 0.118528,
      "grad_norm": 0.5754680633544922,
      "learning_rate": 0.0009796188586157193,
      "loss": 2.8235,
      "step": 926
    },
    {
      "epoch": 0.118656,
      "grad_norm": 0.5957996249198914,
      "learning_rate": 0.000979560231181258,
      "loss": 2.6113,
      "step": 927
    },
    {
      "epoch": 0.118784,
      "grad_norm": 0.567238986492157,
      "learning_rate": 0.0009795015213048333,
      "loss": 2.8005,
      "step": 928
    },
    {
      "epoch": 0.118912,
      "grad_norm": 0.8780508637428284,
      "learning_rate": 0.0009794427289965381,
      "loss": 2.6877,
      "step": 929
    },
    {
      "epoch": 0.11904,
      "grad_norm": 0.5615832209587097,
      "learning_rate": 0.0009793838542664797,
      "loss": 2.6903,
      "step": 930
    },
    {
      "epoch": 0.119168,
      "grad_norm": 0.5876904129981995,
      "learning_rate": 0.0009793248971247791,
      "loss": 2.7257,
      "step": 931
    },
    {
      "epoch": 0.119296,
      "grad_norm": 0.6404591798782349,
      "learning_rate": 0.0009792658575815724,
      "loss": 2.6571,
      "step": 932
    },
    {
      "epoch": 0.119424,
      "grad_norm": 0.5889340043067932,
      "learning_rate": 0.0009792067356470082,
      "loss": 2.8437,
      "step": 933
    },
    {
      "epoch": 0.119552,
      "grad_norm": 0.5920798778533936,
      "learning_rate": 0.0009791475313312508,
      "loss": 2.7632,
      "step": 934
    },
    {
      "epoch": 0.11968,
      "grad_norm": 0.5544745326042175,
      "learning_rate": 0.000979088244644478,
      "loss": 2.7921,
      "step": 935
    },
    {
      "epoch": 0.119808,
      "grad_norm": 0.5551739931106567,
      "learning_rate": 0.000979028875596882,
      "loss": 2.7935,
      "step": 936
    },
    {
      "epoch": 0.119936,
      "grad_norm": 0.5903156995773315,
      "learning_rate": 0.0009789694241986687,
      "loss": 2.7057,
      "step": 937
    },
    {
      "epoch": 0.120064,
      "grad_norm": 0.5671282410621643,
      "learning_rate": 0.0009789098904600588,
      "loss": 2.7313,
      "step": 938
    },
    {
      "epoch": 0.120192,
      "grad_norm": 0.6077776551246643,
      "learning_rate": 0.0009788502743912867,
      "loss": 2.7734,
      "step": 939
    },
    {
      "epoch": 0.12032,
      "grad_norm": 0.5498971939086914,
      "learning_rate": 0.000978790576002601,
      "loss": 2.7055,
      "step": 940
    },
    {
      "epoch": 0.120448,
      "grad_norm": 0.552588939666748,
      "learning_rate": 0.000978730795304265,
      "loss": 2.7332,
      "step": 941
    },
    {
      "epoch": 0.120576,
      "grad_norm": 0.8250076174736023,
      "learning_rate": 0.0009786709323065552,
      "loss": 2.815,
      "step": 942
    },
    {
      "epoch": 0.120704,
      "grad_norm": 0.7869100570678711,
      "learning_rate": 0.0009786109870197628,
      "loss": 2.7943,
      "step": 943
    },
    {
      "epoch": 0.120832,
      "grad_norm": 0.5821451544761658,
      "learning_rate": 0.0009785509594541933,
      "loss": 2.7493,
      "step": 944
    },
    {
      "epoch": 0.12096,
      "grad_norm": 0.6112892627716064,
      "learning_rate": 0.000978490849620166,
      "loss": 2.8231,
      "step": 945
    },
    {
      "epoch": 0.121088,
      "grad_norm": 0.5756590366363525,
      "learning_rate": 0.0009784306575280144,
      "loss": 2.7644,
      "step": 946
    },
    {
      "epoch": 0.121216,
      "grad_norm": 0.5605499744415283,
      "learning_rate": 0.0009783703831880866,
      "loss": 2.7181,
      "step": 947
    },
    {
      "epoch": 0.121344,
      "grad_norm": 0.5745502710342407,
      "learning_rate": 0.000978310026610744,
      "loss": 2.7088,
      "step": 948
    },
    {
      "epoch": 0.121472,
      "grad_norm": 0.5625278949737549,
      "learning_rate": 0.0009782495878063629,
      "loss": 2.6962,
      "step": 949
    },
    {
      "epoch": 0.1216,
      "grad_norm": 0.5278235673904419,
      "learning_rate": 0.000978189066785333,
      "loss": 2.7891,
      "step": 950
    },
    {
      "epoch": 0.121728,
      "grad_norm": 0.5617494583129883,
      "learning_rate": 0.0009781284635580591,
      "loss": 2.746,
      "step": 951
    },
    {
      "epoch": 0.121856,
      "grad_norm": 0.5598378777503967,
      "learning_rate": 0.0009780677781349595,
      "loss": 2.77,
      "step": 952
    },
    {
      "epoch": 0.121984,
      "grad_norm": 0.5765339136123657,
      "learning_rate": 0.0009780070105264666,
      "loss": 2.7138,
      "step": 953
    },
    {
      "epoch": 0.122112,
      "grad_norm": 0.5589073896408081,
      "learning_rate": 0.0009779461607430267,
      "loss": 2.8723,
      "step": 954
    },
    {
      "epoch": 0.12224,
      "grad_norm": 0.5861268043518066,
      "learning_rate": 0.0009778852287951013,
      "loss": 2.7836,
      "step": 955
    },
    {
      "epoch": 0.122368,
      "grad_norm": 0.5909964442253113,
      "learning_rate": 0.000977824214693165,
      "loss": 2.8015,
      "step": 956
    },
    {
      "epoch": 0.122496,
      "grad_norm": 0.5827324986457825,
      "learning_rate": 0.0009777631184477065,
      "loss": 2.6976,
      "step": 957
    },
    {
      "epoch": 0.122624,
      "grad_norm": 0.5184588432312012,
      "learning_rate": 0.0009777019400692291,
      "loss": 2.733,
      "step": 958
    },
    {
      "epoch": 0.122752,
      "grad_norm": 0.5404397249221802,
      "learning_rate": 0.0009776406795682505,
      "loss": 2.7561,
      "step": 959
    },
    {
      "epoch": 0.12288,
      "grad_norm": 0.5386800169944763,
      "learning_rate": 0.0009775793369553017,
      "loss": 2.7274,
      "step": 960
    },
    {
      "epoch": 0.123008,
      "grad_norm": 0.5673693418502808,
      "learning_rate": 0.0009775179122409284,
      "loss": 2.7078,
      "step": 961
    },
    {
      "epoch": 0.123136,
      "grad_norm": 0.576617419719696,
      "learning_rate": 0.00097745640543569,
      "loss": 2.7063,
      "step": 962
    },
    {
      "epoch": 0.123264,
      "grad_norm": 0.5326325297355652,
      "learning_rate": 0.0009773948165501605,
      "loss": 2.7036,
      "step": 963
    },
    {
      "epoch": 0.123392,
      "grad_norm": 0.6603876948356628,
      "learning_rate": 0.0009773331455949275,
      "loss": 2.7231,
      "step": 964
    },
    {
      "epoch": 0.12352,
      "grad_norm": 0.5943463444709778,
      "learning_rate": 0.000977271392580593,
      "loss": 2.8043,
      "step": 965
    },
    {
      "epoch": 0.123648,
      "grad_norm": 0.5573945045471191,
      "learning_rate": 0.0009772095575177732,
      "loss": 2.7878,
      "step": 966
    },
    {
      "epoch": 0.123776,
      "grad_norm": 0.5843298435211182,
      "learning_rate": 0.0009771476404170983,
      "loss": 2.8018,
      "step": 967
    },
    {
      "epoch": 0.123904,
      "grad_norm": 0.5685533285140991,
      "learning_rate": 0.0009770856412892122,
      "loss": 2.7799,
      "step": 968
    },
    {
      "epoch": 0.124032,
      "grad_norm": 0.5619754791259766,
      "learning_rate": 0.0009770235601447737,
      "loss": 2.8529,
      "step": 969
    },
    {
      "epoch": 0.12416,
      "grad_norm": 0.6120027303695679,
      "learning_rate": 0.0009769613969944548,
      "loss": 2.7596,
      "step": 970
    },
    {
      "epoch": 0.124288,
      "grad_norm": 0.5775627493858337,
      "learning_rate": 0.0009768991518489425,
      "loss": 2.7326,
      "step": 971
    },
    {
      "epoch": 0.124416,
      "grad_norm": 0.573745846748352,
      "learning_rate": 0.0009768368247189375,
      "loss": 2.7456,
      "step": 972
    },
    {
      "epoch": 0.124544,
      "grad_norm": 0.5322345495223999,
      "learning_rate": 0.0009767744156151542,
      "loss": 2.7204,
      "step": 973
    },
    {
      "epoch": 0.124672,
      "grad_norm": 0.5968127846717834,
      "learning_rate": 0.0009767119245483215,
      "loss": 2.7658,
      "step": 974
    },
    {
      "epoch": 0.1248,
      "grad_norm": 0.5826796293258667,
      "learning_rate": 0.0009766493515291827,
      "loss": 2.8674,
      "step": 975
    },
    {
      "epoch": 0.124928,
      "grad_norm": 0.6823064088821411,
      "learning_rate": 0.0009765866965684945,
      "loss": 2.6881,
      "step": 976
    },
    {
      "epoch": 0.125056,
      "grad_norm": 0.5054442882537842,
      "learning_rate": 0.0009765239596770279,
      "loss": 2.786,
      "step": 977
    },
    {
      "epoch": 0.125184,
      "grad_norm": 0.5926365852355957,
      "learning_rate": 0.0009764611408655685,
      "loss": 2.8065,
      "step": 978
    },
    {
      "epoch": 0.125312,
      "grad_norm": 0.5958117246627808,
      "learning_rate": 0.0009763982401449153,
      "loss": 2.7957,
      "step": 979
    },
    {
      "epoch": 0.12544,
      "grad_norm": 0.5459636449813843,
      "learning_rate": 0.0009763352575258817,
      "loss": 2.7348,
      "step": 980
    },
    {
      "epoch": 0.125568,
      "grad_norm": 0.593291163444519,
      "learning_rate": 0.0009762721930192952,
      "loss": 2.7386,
      "step": 981
    },
    {
      "epoch": 0.125696,
      "grad_norm": 0.500684380531311,
      "learning_rate": 0.0009762090466359974,
      "loss": 2.7346,
      "step": 982
    },
    {
      "epoch": 0.125824,
      "grad_norm": 0.6039171814918518,
      "learning_rate": 0.0009761458183868437,
      "loss": 2.7844,
      "step": 983
    },
    {
      "epoch": 0.125952,
      "grad_norm": 0.7328662276268005,
      "learning_rate": 0.0009760825082827039,
      "loss": 2.7713,
      "step": 984
    },
    {
      "epoch": 0.12608,
      "grad_norm": 0.5913252234458923,
      "learning_rate": 0.0009760191163344617,
      "loss": 2.6769,
      "step": 985
    },
    {
      "epoch": 0.126208,
      "grad_norm": 0.588530957698822,
      "learning_rate": 0.000975955642553015,
      "loss": 2.6942,
      "step": 986
    },
    {
      "epoch": 0.126336,
      "grad_norm": 0.6578594446182251,
      "learning_rate": 0.0009758920869492754,
      "loss": 2.7337,
      "step": 987
    },
    {
      "epoch": 0.126464,
      "grad_norm": 0.5896798372268677,
      "learning_rate": 0.0009758284495341692,
      "loss": 2.7632,
      "step": 988
    },
    {
      "epoch": 0.126592,
      "grad_norm": 0.5842105150222778,
      "learning_rate": 0.0009757647303186361,
      "loss": 2.782,
      "step": 989
    },
    {
      "epoch": 0.12672,
      "grad_norm": 0.5798694491386414,
      "learning_rate": 0.0009757009293136303,
      "loss": 2.7344,
      "step": 990
    },
    {
      "epoch": 0.126848,
      "grad_norm": 0.5524253845214844,
      "learning_rate": 0.00097563704653012,
      "loss": 2.7149,
      "step": 991
    },
    {
      "epoch": 0.126976,
      "grad_norm": 0.6569291353225708,
      "learning_rate": 0.0009755730819790876,
      "loss": 2.8486,
      "step": 992
    },
    {
      "epoch": 0.127104,
      "grad_norm": 0.5324857234954834,
      "learning_rate": 0.0009755090356715288,
      "loss": 2.7896,
      "step": 993
    },
    {
      "epoch": 0.127232,
      "grad_norm": 0.5989140272140503,
      "learning_rate": 0.0009754449076184543,
      "loss": 2.7211,
      "step": 994
    },
    {
      "epoch": 0.12736,
      "grad_norm": 0.6087852716445923,
      "learning_rate": 0.0009753806978308883,
      "loss": 2.8582,
      "step": 995
    },
    {
      "epoch": 0.127488,
      "grad_norm": 0.5951318144798279,
      "learning_rate": 0.0009753164063198693,
      "loss": 2.742,
      "step": 996
    },
    {
      "epoch": 0.127616,
      "grad_norm": 0.5645627379417419,
      "learning_rate": 0.0009752520330964496,
      "loss": 2.7018,
      "step": 997
    },
    {
      "epoch": 0.127744,
      "grad_norm": 0.5428346991539001,
      "learning_rate": 0.000975187578171696,
      "loss": 2.6799,
      "step": 998
    },
    {
      "epoch": 0.127872,
      "grad_norm": 0.6057425737380981,
      "learning_rate": 0.0009751230415566887,
      "loss": 2.9549,
      "step": 999
    },
    {
      "epoch": 0.128,
      "grad_norm": 0.5371371507644653,
      "learning_rate": 0.0009750584232625226,
      "loss": 2.8234,
      "step": 1000
    },
    {
      "epoch": 0.128128,
      "grad_norm": 0.5290284752845764,
      "learning_rate": 0.0009749937233003061,
      "loss": 2.6107,
      "step": 1001
    },
    {
      "epoch": 0.128256,
      "grad_norm": 0.524549663066864,
      "learning_rate": 0.0009749289416811621,
      "loss": 2.7386,
      "step": 1002
    },
    {
      "epoch": 0.128384,
      "grad_norm": 0.793236255645752,
      "learning_rate": 0.000974864078416227,
      "loss": 2.7929,
      "step": 1003
    },
    {
      "epoch": 0.128512,
      "grad_norm": 0.5933788418769836,
      "learning_rate": 0.0009747991335166519,
      "loss": 2.7348,
      "step": 1004
    },
    {
      "epoch": 0.12864,
      "grad_norm": 0.6499942541122437,
      "learning_rate": 0.0009747341069936013,
      "loss": 2.7209,
      "step": 1005
    },
    {
      "epoch": 0.128768,
      "grad_norm": 0.6414073705673218,
      "learning_rate": 0.000974668998858254,
      "loss": 2.7553,
      "step": 1006
    },
    {
      "epoch": 0.128896,
      "grad_norm": 0.5987319946289062,
      "learning_rate": 0.0009746038091218031,
      "loss": 2.7867,
      "step": 1007
    },
    {
      "epoch": 0.129024,
      "grad_norm": 0.5145929455757141,
      "learning_rate": 0.0009745385377954555,
      "loss": 2.7789,
      "step": 1008
    },
    {
      "epoch": 0.129152,
      "grad_norm": 0.5534160733222961,
      "learning_rate": 0.0009744731848904315,
      "loss": 2.7435,
      "step": 1009
    },
    {
      "epoch": 0.12928,
      "grad_norm": 0.5497812628746033,
      "learning_rate": 0.0009744077504179669,
      "loss": 2.7295,
      "step": 1010
    },
    {
      "epoch": 0.129408,
      "grad_norm": 0.5612091422080994,
      "learning_rate": 0.0009743422343893098,
      "loss": 2.767,
      "step": 1011
    },
    {
      "epoch": 0.129536,
      "grad_norm": 0.5519700646400452,
      "learning_rate": 0.0009742766368157239,
      "loss": 2.7232,
      "step": 1012
    },
    {
      "epoch": 0.129664,
      "grad_norm": 0.5443127751350403,
      "learning_rate": 0.0009742109577084856,
      "loss": 2.8042,
      "step": 1013
    },
    {
      "epoch": 0.129792,
      "grad_norm": 0.5425928235054016,
      "learning_rate": 0.0009741451970788862,
      "loss": 2.6634,
      "step": 1014
    },
    {
      "epoch": 0.12992,
      "grad_norm": 0.622830867767334,
      "learning_rate": 0.0009740793549382307,
      "loss": 2.8979,
      "step": 1015
    },
    {
      "epoch": 0.130048,
      "grad_norm": 0.5819705128669739,
      "learning_rate": 0.0009740134312978382,
      "loss": 2.7655,
      "step": 1016
    },
    {
      "epoch": 0.130176,
      "grad_norm": 0.5580922365188599,
      "learning_rate": 0.0009739474261690415,
      "loss": 2.7725,
      "step": 1017
    },
    {
      "epoch": 0.130304,
      "grad_norm": 0.5889028310775757,
      "learning_rate": 0.0009738813395631878,
      "loss": 2.8112,
      "step": 1018
    },
    {
      "epoch": 0.130432,
      "grad_norm": 0.5853602886199951,
      "learning_rate": 0.0009738151714916381,
      "loss": 2.5952,
      "step": 1019
    },
    {
      "epoch": 0.13056,
      "grad_norm": 0.5676952004432678,
      "learning_rate": 0.0009737489219657675,
      "loss": 2.7418,
      "step": 1020
    },
    {
      "epoch": 0.130688,
      "grad_norm": 0.5928979516029358,
      "learning_rate": 0.000973682590996965,
      "loss": 2.7031,
      "step": 1021
    },
    {
      "epoch": 0.130816,
      "grad_norm": 0.5853238105773926,
      "learning_rate": 0.0009736161785966337,
      "loss": 2.842,
      "step": 1022
    },
    {
      "epoch": 0.130944,
      "grad_norm": 0.5448943376541138,
      "learning_rate": 0.0009735496847761908,
      "loss": 2.7317,
      "step": 1023
    },
    {
      "epoch": 0.131072,
      "grad_norm": 0.5522635579109192,
      "learning_rate": 0.0009734831095470671,
      "loss": 2.6978,
      "step": 1024
    },
    {
      "epoch": 0.1312,
      "grad_norm": 0.5370444655418396,
      "learning_rate": 0.0009734164529207079,
      "loss": 2.714,
      "step": 1025
    },
    {
      "epoch": 0.131328,
      "grad_norm": 0.5519615411758423,
      "learning_rate": 0.0009733497149085719,
      "loss": 2.7085,
      "step": 1026
    },
    {
      "epoch": 0.131456,
      "grad_norm": 0.5774186253547668,
      "learning_rate": 0.0009732828955221327,
      "loss": 2.7522,
      "step": 1027
    },
    {
      "epoch": 0.131584,
      "grad_norm": 0.5261178612709045,
      "learning_rate": 0.0009732159947728767,
      "loss": 2.7257,
      "step": 1028
    },
    {
      "epoch": 0.131712,
      "grad_norm": 0.573032796382904,
      "learning_rate": 0.0009731490126723052,
      "loss": 2.6935,
      "step": 1029
    },
    {
      "epoch": 0.13184,
      "grad_norm": 0.7416812777519226,
      "learning_rate": 0.0009730819492319335,
      "loss": 2.7922,
      "step": 1030
    },
    {
      "epoch": 0.131968,
      "grad_norm": 0.5232690572738647,
      "learning_rate": 0.0009730148044632901,
      "loss": 2.7853,
      "step": 1031
    },
    {
      "epoch": 0.132096,
      "grad_norm": 0.5730559825897217,
      "learning_rate": 0.0009729475783779181,
      "loss": 2.8046,
      "step": 1032
    },
    {
      "epoch": 0.132224,
      "grad_norm": 0.5668174028396606,
      "learning_rate": 0.0009728802709873747,
      "loss": 2.6646,
      "step": 1033
    },
    {
      "epoch": 0.132352,
      "grad_norm": 0.5700153112411499,
      "learning_rate": 0.0009728128823032305,
      "loss": 2.8025,
      "step": 1034
    },
    {
      "epoch": 0.13248,
      "grad_norm": 0.5482971668243408,
      "learning_rate": 0.0009727454123370705,
      "loss": 2.7396,
      "step": 1035
    },
    {
      "epoch": 0.132608,
      "grad_norm": 0.5541278123855591,
      "learning_rate": 0.0009726778611004935,
      "loss": 2.8,
      "step": 1036
    },
    {
      "epoch": 0.132736,
      "grad_norm": 0.5589011907577515,
      "learning_rate": 0.0009726102286051127,
      "loss": 2.7656,
      "step": 1037
    },
    {
      "epoch": 0.132864,
      "grad_norm": 0.5453944206237793,
      "learning_rate": 0.0009725425148625542,
      "loss": 2.7139,
      "step": 1038
    },
    {
      "epoch": 0.132992,
      "grad_norm": 0.5972406268119812,
      "learning_rate": 0.0009724747198844595,
      "loss": 2.8401,
      "step": 1039
    },
    {
      "epoch": 0.13312,
      "grad_norm": 0.5651578307151794,
      "learning_rate": 0.0009724068436824831,
      "loss": 2.7671,
      "step": 1040
    },
    {
      "epoch": 0.133248,
      "grad_norm": 0.5210664868354797,
      "learning_rate": 0.0009723388862682936,
      "loss": 2.6238,
      "step": 1041
    },
    {
      "epoch": 0.133376,
      "grad_norm": 0.5587118864059448,
      "learning_rate": 0.0009722708476535736,
      "loss": 2.8423,
      "step": 1042
    },
    {
      "epoch": 0.133504,
      "grad_norm": 0.5431729555130005,
      "learning_rate": 0.0009722027278500201,
      "loss": 2.8332,
      "step": 1043
    },
    {
      "epoch": 0.133632,
      "grad_norm": 0.574455976486206,
      "learning_rate": 0.0009721345268693432,
      "loss": 2.7687,
      "step": 1044
    },
    {
      "epoch": 0.13376,
      "grad_norm": 0.5078973174095154,
      "learning_rate": 0.0009720662447232677,
      "loss": 2.7764,
      "step": 1045
    },
    {
      "epoch": 0.133888,
      "grad_norm": 0.5839478373527527,
      "learning_rate": 0.0009719978814235322,
      "loss": 2.8123,
      "step": 1046
    },
    {
      "epoch": 0.134016,
      "grad_norm": 0.5702113509178162,
      "learning_rate": 0.000971929436981889,
      "loss": 2.773,
      "step": 1047
    },
    {
      "epoch": 0.134144,
      "grad_norm": 0.5389565825462341,
      "learning_rate": 0.0009718609114101045,
      "loss": 2.7379,
      "step": 1048
    },
    {
      "epoch": 0.134272,
      "grad_norm": 0.5253669619560242,
      "learning_rate": 0.0009717923047199591,
      "loss": 2.6356,
      "step": 1049
    },
    {
      "epoch": 0.1344,
      "grad_norm": 0.5353885293006897,
      "learning_rate": 0.0009717236169232468,
      "loss": 2.8125,
      "step": 1050
    },
    {
      "epoch": 0.134528,
      "grad_norm": 0.5144272446632385,
      "learning_rate": 0.0009716548480317763,
      "loss": 2.6914,
      "step": 1051
    },
    {
      "epoch": 0.134656,
      "grad_norm": 0.5533109903335571,
      "learning_rate": 0.0009715859980573694,
      "loss": 2.7581,
      "step": 1052
    },
    {
      "epoch": 0.134784,
      "grad_norm": 0.5792716145515442,
      "learning_rate": 0.0009715170670118624,
      "loss": 2.6276,
      "step": 1053
    },
    {
      "epoch": 0.134912,
      "grad_norm": 0.5962552428245544,
      "learning_rate": 0.0009714480549071052,
      "loss": 2.802,
      "step": 1054
    },
    {
      "epoch": 0.13504,
      "grad_norm": 0.6053869128227234,
      "learning_rate": 0.000971378961754962,
      "loss": 2.7301,
      "step": 1055
    },
    {
      "epoch": 0.135168,
      "grad_norm": 0.561097264289856,
      "learning_rate": 0.0009713097875673105,
      "loss": 2.7884,
      "step": 1056
    },
    {
      "epoch": 0.135296,
      "grad_norm": 0.5286165475845337,
      "learning_rate": 0.0009712405323560427,
      "loss": 2.696,
      "step": 1057
    },
    {
      "epoch": 0.135424,
      "grad_norm": 0.5465713739395142,
      "learning_rate": 0.0009711711961330643,
      "loss": 2.7534,
      "step": 1058
    },
    {
      "epoch": 0.135552,
      "grad_norm": 0.5807316899299622,
      "learning_rate": 0.0009711017789102948,
      "loss": 2.837,
      "step": 1059
    },
    {
      "epoch": 0.13568,
      "grad_norm": 0.5654181838035583,
      "learning_rate": 0.0009710322806996682,
      "loss": 2.8091,
      "step": 1060
    },
    {
      "epoch": 0.135808,
      "grad_norm": 0.5369175672531128,
      "learning_rate": 0.0009709627015131319,
      "loss": 2.784,
      "step": 1061
    },
    {
      "epoch": 0.135936,
      "grad_norm": 0.5622304081916809,
      "learning_rate": 0.0009708930413626473,
      "loss": 2.7878,
      "step": 1062
    },
    {
      "epoch": 0.136064,
      "grad_norm": 0.5244447588920593,
      "learning_rate": 0.0009708233002601898,
      "loss": 2.7246,
      "step": 1063
    },
    {
      "epoch": 0.136192,
      "grad_norm": 0.5655294060707092,
      "learning_rate": 0.0009707534782177487,
      "loss": 2.7684,
      "step": 1064
    },
    {
      "epoch": 0.13632,
      "grad_norm": 0.4945736825466156,
      "learning_rate": 0.0009706835752473273,
      "loss": 2.7762,
      "step": 1065
    },
    {
      "epoch": 0.136448,
      "grad_norm": 0.5696102380752563,
      "learning_rate": 0.0009706135913609426,
      "loss": 2.7581,
      "step": 1066
    },
    {
      "epoch": 0.136576,
      "grad_norm": 0.5709420442581177,
      "learning_rate": 0.0009705435265706258,
      "loss": 2.7034,
      "step": 1067
    },
    {
      "epoch": 0.136704,
      "grad_norm": 0.5731574892997742,
      "learning_rate": 0.0009704733808884218,
      "loss": 2.7717,
      "step": 1068
    },
    {
      "epoch": 0.136832,
      "grad_norm": 0.5395718216896057,
      "learning_rate": 0.0009704031543263893,
      "loss": 2.6923,
      "step": 1069
    },
    {
      "epoch": 0.13696,
      "grad_norm": 0.5490468144416809,
      "learning_rate": 0.0009703328468966015,
      "loss": 2.8238,
      "step": 1070
    },
    {
      "epoch": 0.137088,
      "grad_norm": 0.5375430583953857,
      "learning_rate": 0.0009702624586111445,
      "loss": 2.6974,
      "step": 1071
    },
    {
      "epoch": 0.137216,
      "grad_norm": 0.6166486740112305,
      "learning_rate": 0.0009701919894821192,
      "loss": 2.7822,
      "step": 1072
    },
    {
      "epoch": 0.137344,
      "grad_norm": 0.5679643154144287,
      "learning_rate": 0.0009701214395216399,
      "loss": 2.7377,
      "step": 1073
    },
    {
      "epoch": 0.137472,
      "grad_norm": 0.5228607654571533,
      "learning_rate": 0.0009700508087418351,
      "loss": 2.7379,
      "step": 1074
    },
    {
      "epoch": 0.1376,
      "grad_norm": 0.5712684392929077,
      "learning_rate": 0.0009699800971548469,
      "loss": 2.7606,
      "step": 1075
    },
    {
      "epoch": 0.137728,
      "grad_norm": 0.5781854391098022,
      "learning_rate": 0.0009699093047728316,
      "loss": 2.8094,
      "step": 1076
    },
    {
      "epoch": 0.137856,
      "grad_norm": 0.6304422616958618,
      "learning_rate": 0.0009698384316079591,
      "loss": 2.8004,
      "step": 1077
    },
    {
      "epoch": 0.137984,
      "grad_norm": 0.5136895775794983,
      "learning_rate": 0.0009697674776724135,
      "loss": 2.7198,
      "step": 1078
    },
    {
      "epoch": 0.138112,
      "grad_norm": 0.5738369226455688,
      "learning_rate": 0.0009696964429783923,
      "loss": 2.7689,
      "step": 1079
    },
    {
      "epoch": 0.13824,
      "grad_norm": 0.5697618722915649,
      "learning_rate": 0.0009696253275381074,
      "loss": 2.7751,
      "step": 1080
    },
    {
      "epoch": 0.138368,
      "grad_norm": 0.549670934677124,
      "learning_rate": 0.0009695541313637843,
      "loss": 2.722,
      "step": 1081
    },
    {
      "epoch": 0.138496,
      "grad_norm": 0.5465897917747498,
      "learning_rate": 0.0009694828544676626,
      "loss": 2.8241,
      "step": 1082
    },
    {
      "epoch": 0.138624,
      "grad_norm": 0.5320687294006348,
      "learning_rate": 0.0009694114968619954,
      "loss": 2.7272,
      "step": 1083
    },
    {
      "epoch": 0.138752,
      "grad_norm": 0.5599291324615479,
      "learning_rate": 0.0009693400585590501,
      "loss": 2.6561,
      "step": 1084
    },
    {
      "epoch": 0.13888,
      "grad_norm": 0.5028194189071655,
      "learning_rate": 0.0009692685395711076,
      "loss": 2.6627,
      "step": 1085
    },
    {
      "epoch": 0.139008,
      "grad_norm": 0.49911633133888245,
      "learning_rate": 0.000969196939910463,
      "loss": 2.7443,
      "step": 1086
    },
    {
      "epoch": 0.139136,
      "grad_norm": 0.5291373133659363,
      "learning_rate": 0.000969125259589425,
      "loss": 2.59,
      "step": 1087
    },
    {
      "epoch": 0.139264,
      "grad_norm": 0.51959228515625,
      "learning_rate": 0.0009690534986203164,
      "loss": 2.7663,
      "step": 1088
    },
    {
      "epoch": 0.139392,
      "grad_norm": 0.4982328712940216,
      "learning_rate": 0.0009689816570154734,
      "loss": 2.7197,
      "step": 1089
    },
    {
      "epoch": 0.13952,
      "grad_norm": 0.5659201145172119,
      "learning_rate": 0.0009689097347872469,
      "loss": 2.6667,
      "step": 1090
    },
    {
      "epoch": 0.139648,
      "grad_norm": 0.5523765087127686,
      "learning_rate": 0.0009688377319480009,
      "loss": 2.6486,
      "step": 1091
    },
    {
      "epoch": 0.139776,
      "grad_norm": 0.5271371603012085,
      "learning_rate": 0.0009687656485101132,
      "loss": 2.7305,
      "step": 1092
    },
    {
      "epoch": 0.139904,
      "grad_norm": 0.5277243852615356,
      "learning_rate": 0.0009686934844859765,
      "loss": 2.746,
      "step": 1093
    },
    {
      "epoch": 0.140032,
      "grad_norm": 0.588326096534729,
      "learning_rate": 0.0009686212398879962,
      "loss": 2.9182,
      "step": 1094
    },
    {
      "epoch": 0.14016,
      "grad_norm": 0.5923886299133301,
      "learning_rate": 0.000968548914728592,
      "loss": 2.7721,
      "step": 1095
    },
    {
      "epoch": 0.140288,
      "grad_norm": 0.5387137532234192,
      "learning_rate": 0.0009684765090201974,
      "loss": 2.693,
      "step": 1096
    },
    {
      "epoch": 0.140416,
      "grad_norm": 0.5343083739280701,
      "learning_rate": 0.0009684040227752599,
      "loss": 2.8093,
      "step": 1097
    },
    {
      "epoch": 0.140544,
      "grad_norm": 0.5145105123519897,
      "learning_rate": 0.0009683314560062408,
      "loss": 2.5845,
      "step": 1098
    },
    {
      "epoch": 0.140672,
      "grad_norm": 0.5335602760314941,
      "learning_rate": 0.0009682588087256148,
      "loss": 2.7783,
      "step": 1099
    },
    {
      "epoch": 0.1408,
      "grad_norm": 0.5654175281524658,
      "learning_rate": 0.0009681860809458713,
      "loss": 2.7092,
      "step": 1100
    },
    {
      "epoch": 0.140928,
      "grad_norm": 0.5120723843574524,
      "learning_rate": 0.0009681132726795128,
      "loss": 2.7548,
      "step": 1101
    },
    {
      "epoch": 0.141056,
      "grad_norm": 0.5322307348251343,
      "learning_rate": 0.0009680403839390557,
      "loss": 2.7067,
      "step": 1102
    },
    {
      "epoch": 0.141184,
      "grad_norm": 0.5187237858772278,
      "learning_rate": 0.0009679674147370308,
      "loss": 2.7812,
      "step": 1103
    },
    {
      "epoch": 0.141312,
      "grad_norm": 0.5228966474533081,
      "learning_rate": 0.0009678943650859819,
      "loss": 2.76,
      "step": 1104
    },
    {
      "epoch": 0.14144,
      "grad_norm": 0.5202060341835022,
      "learning_rate": 0.0009678212349984676,
      "loss": 2.6191,
      "step": 1105
    },
    {
      "epoch": 0.141568,
      "grad_norm": 0.5261989235877991,
      "learning_rate": 0.0009677480244870596,
      "loss": 2.7075,
      "step": 1106
    },
    {
      "epoch": 0.141696,
      "grad_norm": 0.5382381081581116,
      "learning_rate": 0.0009676747335643435,
      "loss": 2.7255,
      "step": 1107
    },
    {
      "epoch": 0.141824,
      "grad_norm": 0.5471853017807007,
      "learning_rate": 0.0009676013622429187,
      "loss": 2.7594,
      "step": 1108
    },
    {
      "epoch": 0.141952,
      "grad_norm": 0.5437287092208862,
      "learning_rate": 0.0009675279105353992,
      "loss": 2.7324,
      "step": 1109
    },
    {
      "epoch": 0.14208,
      "grad_norm": 0.5312137603759766,
      "learning_rate": 0.0009674543784544117,
      "loss": 2.7821,
      "step": 1110
    },
    {
      "epoch": 0.142208,
      "grad_norm": 0.5753242373466492,
      "learning_rate": 0.0009673807660125973,
      "loss": 2.7227,
      "step": 1111
    },
    {
      "epoch": 0.142336,
      "grad_norm": 0.5769855976104736,
      "learning_rate": 0.0009673070732226108,
      "loss": 2.6496,
      "step": 1112
    },
    {
      "epoch": 0.142464,
      "grad_norm": 0.5329451560974121,
      "learning_rate": 0.000967233300097121,
      "loss": 2.7007,
      "step": 1113
    },
    {
      "epoch": 0.142592,
      "grad_norm": 0.6233447790145874,
      "learning_rate": 0.0009671594466488104,
      "loss": 2.6609,
      "step": 1114
    },
    {
      "epoch": 0.14272,
      "grad_norm": 0.5642275810241699,
      "learning_rate": 0.000967085512890375,
      "loss": 2.7414,
      "step": 1115
    },
    {
      "epoch": 0.142848,
      "grad_norm": 0.5093091726303101,
      "learning_rate": 0.000967011498834525,
      "loss": 2.6608,
      "step": 1116
    },
    {
      "epoch": 0.142976,
      "grad_norm": 0.55000901222229,
      "learning_rate": 0.0009669374044939845,
      "loss": 2.7009,
      "step": 1117
    },
    {
      "epoch": 0.143104,
      "grad_norm": 0.5522658228874207,
      "learning_rate": 0.0009668632298814908,
      "loss": 2.6789,
      "step": 1118
    },
    {
      "epoch": 0.143232,
      "grad_norm": 0.5530815124511719,
      "learning_rate": 0.0009667889750097956,
      "loss": 2.6724,
      "step": 1119
    },
    {
      "epoch": 0.14336,
      "grad_norm": 0.4730967879295349,
      "learning_rate": 0.000966714639891664,
      "loss": 2.7776,
      "step": 1120
    },
    {
      "epoch": 0.143488,
      "grad_norm": 0.578052282333374,
      "learning_rate": 0.0009666402245398754,
      "loss": 2.8216,
      "step": 1121
    },
    {
      "epoch": 0.143616,
      "grad_norm": 0.5260628461837769,
      "learning_rate": 0.0009665657289672222,
      "loss": 2.676,
      "step": 1122
    },
    {
      "epoch": 0.143744,
      "grad_norm": 0.5386227369308472,
      "learning_rate": 0.0009664911531865114,
      "loss": 2.7828,
      "step": 1123
    },
    {
      "epoch": 0.143872,
      "grad_norm": 0.7504031658172607,
      "learning_rate": 0.0009664164972105633,
      "loss": 2.7683,
      "step": 1124
    },
    {
      "epoch": 0.144,
      "grad_norm": 0.5928084850311279,
      "learning_rate": 0.0009663417610522123,
      "loss": 2.8431,
      "step": 1125
    },
    {
      "epoch": 0.144128,
      "grad_norm": 0.5359914898872375,
      "learning_rate": 0.0009662669447243061,
      "loss": 2.7367,
      "step": 1126
    },
    {
      "epoch": 0.144256,
      "grad_norm": 0.5530595779418945,
      "learning_rate": 0.0009661920482397068,
      "loss": 2.6964,
      "step": 1127
    },
    {
      "epoch": 0.144384,
      "grad_norm": 0.5121349692344666,
      "learning_rate": 0.0009661170716112897,
      "loss": 2.7367,
      "step": 1128
    },
    {
      "epoch": 0.144512,
      "grad_norm": 0.47876888513565063,
      "learning_rate": 0.0009660420148519444,
      "loss": 2.7775,
      "step": 1129
    },
    {
      "epoch": 0.14464,
      "grad_norm": 0.5577842593193054,
      "learning_rate": 0.000965966877974574,
      "loss": 2.7418,
      "step": 1130
    },
    {
      "epoch": 0.144768,
      "grad_norm": 0.4869782626628876,
      "learning_rate": 0.0009658916609920951,
      "loss": 2.7958,
      "step": 1131
    },
    {
      "epoch": 0.144896,
      "grad_norm": 0.4875207841396332,
      "learning_rate": 0.0009658163639174389,
      "loss": 2.7242,
      "step": 1132
    },
    {
      "epoch": 0.145024,
      "grad_norm": 0.5335657000541687,
      "learning_rate": 0.0009657409867635492,
      "loss": 2.7243,
      "step": 1133
    },
    {
      "epoch": 0.145152,
      "grad_norm": 0.49473273754119873,
      "learning_rate": 0.0009656655295433848,
      "loss": 2.8262,
      "step": 1134
    },
    {
      "epoch": 0.14528,
      "grad_norm": 0.5748688578605652,
      "learning_rate": 0.0009655899922699174,
      "loss": 2.7734,
      "step": 1135
    },
    {
      "epoch": 0.145408,
      "grad_norm": 0.5651988387107849,
      "learning_rate": 0.0009655143749561325,
      "loss": 2.7178,
      "step": 1136
    },
    {
      "epoch": 0.145536,
      "grad_norm": 0.5294767022132874,
      "learning_rate": 0.0009654386776150302,
      "loss": 2.7294,
      "step": 1137
    },
    {
      "epoch": 0.145664,
      "grad_norm": 0.5751946568489075,
      "learning_rate": 0.0009653629002596231,
      "loss": 2.664,
      "step": 1138
    },
    {
      "epoch": 0.145792,
      "grad_norm": 0.5230525135993958,
      "learning_rate": 0.0009652870429029386,
      "loss": 2.6456,
      "step": 1139
    },
    {
      "epoch": 0.14592,
      "grad_norm": 0.5299578905105591,
      "learning_rate": 0.0009652111055580174,
      "loss": 2.7603,
      "step": 1140
    },
    {
      "epoch": 0.146048,
      "grad_norm": 0.5094776153564453,
      "learning_rate": 0.0009651350882379139,
      "loss": 2.6647,
      "step": 1141
    },
    {
      "epoch": 0.146176,
      "grad_norm": 0.5469826459884644,
      "learning_rate": 0.0009650589909556964,
      "loss": 2.8771,
      "step": 1142
    },
    {
      "epoch": 0.146304,
      "grad_norm": 0.5370985269546509,
      "learning_rate": 0.000964982813724447,
      "loss": 2.7422,
      "step": 1143
    },
    {
      "epoch": 0.146432,
      "grad_norm": 0.5610750913619995,
      "learning_rate": 0.0009649065565572614,
      "loss": 2.8374,
      "step": 1144
    },
    {
      "epoch": 0.14656,
      "grad_norm": 0.5582898259162903,
      "learning_rate": 0.0009648302194672489,
      "loss": 2.7793,
      "step": 1145
    },
    {
      "epoch": 0.146688,
      "grad_norm": 0.5586379766464233,
      "learning_rate": 0.0009647538024675331,
      "loss": 2.7969,
      "step": 1146
    },
    {
      "epoch": 0.146816,
      "grad_norm": 0.5241544246673584,
      "learning_rate": 0.0009646773055712506,
      "loss": 2.7067,
      "step": 1147
    },
    {
      "epoch": 0.146944,
      "grad_norm": 0.48750168085098267,
      "learning_rate": 0.0009646007287915523,
      "loss": 2.676,
      "step": 1148
    },
    {
      "epoch": 0.147072,
      "grad_norm": 0.5331738591194153,
      "learning_rate": 0.0009645240721416028,
      "loss": 2.7606,
      "step": 1149
    },
    {
      "epoch": 0.1472,
      "grad_norm": 0.568291962146759,
      "learning_rate": 0.00096444733563458,
      "loss": 2.8663,
      "step": 1150
    },
    {
      "epoch": 0.147328,
      "grad_norm": 0.5291843414306641,
      "learning_rate": 0.0009643705192836758,
      "loss": 2.7501,
      "step": 1151
    },
    {
      "epoch": 0.147456,
      "grad_norm": 0.515954852104187,
      "learning_rate": 0.0009642936231020958,
      "loss": 2.8376,
      "step": 1152
    },
    {
      "epoch": 0.147584,
      "grad_norm": 0.5240644216537476,
      "learning_rate": 0.0009642166471030596,
      "loss": 2.7147,
      "step": 1153
    },
    {
      "epoch": 0.147712,
      "grad_norm": 0.5790603160858154,
      "learning_rate": 0.0009641395912998,
      "loss": 2.7594,
      "step": 1154
    },
    {
      "epoch": 0.14784,
      "grad_norm": 0.5543925166130066,
      "learning_rate": 0.0009640624557055639,
      "loss": 2.7704,
      "step": 1155
    },
    {
      "epoch": 0.147968,
      "grad_norm": 0.5146676898002625,
      "learning_rate": 0.0009639852403336118,
      "loss": 2.7915,
      "step": 1156
    },
    {
      "epoch": 0.148096,
      "grad_norm": 0.5145158171653748,
      "learning_rate": 0.0009639079451972179,
      "loss": 2.7033,
      "step": 1157
    },
    {
      "epoch": 0.148224,
      "grad_norm": 0.5659601092338562,
      "learning_rate": 0.0009638305703096701,
      "loss": 2.8021,
      "step": 1158
    },
    {
      "epoch": 0.148352,
      "grad_norm": 0.6109037399291992,
      "learning_rate": 0.0009637531156842702,
      "loss": 2.7206,
      "step": 1159
    },
    {
      "epoch": 0.14848,
      "grad_norm": 0.5276168584823608,
      "learning_rate": 0.0009636755813343334,
      "loss": 2.812,
      "step": 1160
    },
    {
      "epoch": 0.148608,
      "grad_norm": 0.5540091395378113,
      "learning_rate": 0.0009635979672731887,
      "loss": 2.7421,
      "step": 1161
    },
    {
      "epoch": 0.148736,
      "grad_norm": 0.5271949172019958,
      "learning_rate": 0.000963520273514179,
      "loss": 2.7404,
      "step": 1162
    },
    {
      "epoch": 0.148864,
      "grad_norm": 0.5510692000389099,
      "learning_rate": 0.0009634425000706607,
      "loss": 2.812,
      "step": 1163
    },
    {
      "epoch": 0.148992,
      "grad_norm": 0.5292593240737915,
      "learning_rate": 0.0009633646469560039,
      "loss": 2.6351,
      "step": 1164
    },
    {
      "epoch": 0.14912,
      "grad_norm": 0.5054780840873718,
      "learning_rate": 0.0009632867141835926,
      "loss": 2.6965,
      "step": 1165
    },
    {
      "epoch": 0.149248,
      "grad_norm": 0.5399360060691833,
      "learning_rate": 0.000963208701766824,
      "loss": 2.7268,
      "step": 1166
    },
    {
      "epoch": 0.149376,
      "grad_norm": 0.5035396218299866,
      "learning_rate": 0.0009631306097191099,
      "loss": 2.6918,
      "step": 1167
    },
    {
      "epoch": 0.149504,
      "grad_norm": 0.5786160826683044,
      "learning_rate": 0.0009630524380538748,
      "loss": 2.6667,
      "step": 1168
    },
    {
      "epoch": 0.149632,
      "grad_norm": 0.5573903918266296,
      "learning_rate": 0.0009629741867845573,
      "loss": 2.7608,
      "step": 1169
    },
    {
      "epoch": 0.14976,
      "grad_norm": 0.5322262644767761,
      "learning_rate": 0.00096289585592461,
      "loss": 2.7233,
      "step": 1170
    },
    {
      "epoch": 0.149888,
      "grad_norm": 0.524495542049408,
      "learning_rate": 0.0009628174454874987,
      "loss": 2.7959,
      "step": 1171
    },
    {
      "epoch": 0.150016,
      "grad_norm": 0.5159528851509094,
      "learning_rate": 0.0009627389554867031,
      "loss": 2.7852,
      "step": 1172
    },
    {
      "epoch": 0.150144,
      "grad_norm": 0.5317308902740479,
      "learning_rate": 0.0009626603859357165,
      "loss": 2.8275,
      "step": 1173
    },
    {
      "epoch": 0.150272,
      "grad_norm": 0.5377143025398254,
      "learning_rate": 0.0009625817368480458,
      "loss": 2.6754,
      "step": 1174
    },
    {
      "epoch": 0.1504,
      "grad_norm": 0.5938971638679504,
      "learning_rate": 0.000962503008237212,
      "loss": 2.7612,
      "step": 1175
    },
    {
      "epoch": 0.150528,
      "grad_norm": 0.5513560771942139,
      "learning_rate": 0.0009624242001167493,
      "loss": 2.7626,
      "step": 1176
    },
    {
      "epoch": 0.150656,
      "grad_norm": 0.5698713660240173,
      "learning_rate": 0.0009623453125002056,
      "loss": 2.7069,
      "step": 1177
    },
    {
      "epoch": 0.150784,
      "grad_norm": 0.5173695087432861,
      "learning_rate": 0.0009622663454011427,
      "loss": 2.7618,
      "step": 1178
    },
    {
      "epoch": 0.150912,
      "grad_norm": 0.5190596580505371,
      "learning_rate": 0.0009621872988331362,
      "loss": 2.7565,
      "step": 1179
    },
    {
      "epoch": 0.15104,
      "grad_norm": 0.5057371854782104,
      "learning_rate": 0.0009621081728097747,
      "loss": 2.6384,
      "step": 1180
    },
    {
      "epoch": 0.151168,
      "grad_norm": 0.5478951334953308,
      "learning_rate": 0.000962028967344661,
      "loss": 2.7108,
      "step": 1181
    },
    {
      "epoch": 0.151296,
      "grad_norm": 0.5052752494812012,
      "learning_rate": 0.0009619496824514117,
      "loss": 2.6308,
      "step": 1182
    },
    {
      "epoch": 0.151424,
      "grad_norm": 0.5482858419418335,
      "learning_rate": 0.0009618703181436566,
      "loss": 2.8629,
      "step": 1183
    },
    {
      "epoch": 0.151552,
      "grad_norm": 0.49182260036468506,
      "learning_rate": 0.0009617908744350393,
      "loss": 2.6633,
      "step": 1184
    },
    {
      "epoch": 0.15168,
      "grad_norm": 0.5816386342048645,
      "learning_rate": 0.000961711351339217,
      "loss": 2.8068,
      "step": 1185
    },
    {
      "epoch": 0.151808,
      "grad_norm": 0.5620522499084473,
      "learning_rate": 0.0009616317488698609,
      "loss": 2.7076,
      "step": 1186
    },
    {
      "epoch": 0.151936,
      "grad_norm": 0.5596601366996765,
      "learning_rate": 0.0009615520670406554,
      "loss": 2.6994,
      "step": 1187
    },
    {
      "epoch": 0.152064,
      "grad_norm": 0.524344801902771,
      "learning_rate": 0.000961472305865299,
      "loss": 2.6913,
      "step": 1188
    },
    {
      "epoch": 0.152192,
      "grad_norm": 0.5321812033653259,
      "learning_rate": 0.0009613924653575032,
      "loss": 2.662,
      "step": 1189
    },
    {
      "epoch": 0.15232,
      "grad_norm": 0.48581796884536743,
      "learning_rate": 0.0009613125455309939,
      "loss": 2.6798,
      "step": 1190
    },
    {
      "epoch": 0.152448,
      "grad_norm": 0.5207802057266235,
      "learning_rate": 0.0009612325463995099,
      "loss": 2.7699,
      "step": 1191
    },
    {
      "epoch": 0.152576,
      "grad_norm": 0.5191328525543213,
      "learning_rate": 0.000961152467976804,
      "loss": 2.7202,
      "step": 1192
    },
    {
      "epoch": 0.152704,
      "grad_norm": 0.6004005670547485,
      "learning_rate": 0.0009610723102766428,
      "loss": 2.6531,
      "step": 1193
    },
    {
      "epoch": 0.152832,
      "grad_norm": 0.5195609927177429,
      "learning_rate": 0.0009609920733128064,
      "loss": 2.7395,
      "step": 1194
    },
    {
      "epoch": 0.15296,
      "grad_norm": 0.5226022601127625,
      "learning_rate": 0.000960911757099088,
      "loss": 2.6885,
      "step": 1195
    },
    {
      "epoch": 0.153088,
      "grad_norm": 0.557806670665741,
      "learning_rate": 0.0009608313616492955,
      "loss": 2.6936,
      "step": 1196
    },
    {
      "epoch": 0.153216,
      "grad_norm": 0.5141384601593018,
      "learning_rate": 0.0009607508869772495,
      "loss": 2.6514,
      "step": 1197
    },
    {
      "epoch": 0.153344,
      "grad_norm": 0.4803314805030823,
      "learning_rate": 0.0009606703330967843,
      "loss": 2.766,
      "step": 1198
    },
    {
      "epoch": 0.153472,
      "grad_norm": 0.5937412977218628,
      "learning_rate": 0.0009605897000217485,
      "loss": 2.689,
      "step": 1199
    },
    {
      "epoch": 0.1536,
      "grad_norm": 0.5739459991455078,
      "learning_rate": 0.0009605089877660036,
      "loss": 2.8548,
      "step": 1200
    },
    {
      "epoch": 0.153728,
      "grad_norm": 0.49912378191947937,
      "learning_rate": 0.000960428196343425,
      "loss": 2.8469,
      "step": 1201
    },
    {
      "epoch": 0.153856,
      "grad_norm": 0.5491020083427429,
      "learning_rate": 0.0009603473257679018,
      "loss": 2.7624,
      "step": 1202
    },
    {
      "epoch": 0.153984,
      "grad_norm": 0.5623134970664978,
      "learning_rate": 0.0009602663760533363,
      "loss": 2.7113,
      "step": 1203
    },
    {
      "epoch": 0.154112,
      "grad_norm": 0.511297881603241,
      "learning_rate": 0.000960185347213645,
      "loss": 2.7901,
      "step": 1204
    },
    {
      "epoch": 0.15424,
      "grad_norm": 0.5675488710403442,
      "learning_rate": 0.0009601042392627576,
      "loss": 2.6758,
      "step": 1205
    },
    {
      "epoch": 0.154368,
      "grad_norm": 0.6021217703819275,
      "learning_rate": 0.0009600230522146176,
      "loss": 2.6501,
      "step": 1206
    },
    {
      "epoch": 0.154496,
      "grad_norm": 0.5425636172294617,
      "learning_rate": 0.0009599417860831817,
      "loss": 2.7544,
      "step": 1207
    },
    {
      "epoch": 0.154624,
      "grad_norm": 0.5646335482597351,
      "learning_rate": 0.0009598604408824207,
      "loss": 2.7813,
      "step": 1208
    },
    {
      "epoch": 0.154752,
      "grad_norm": 0.5290167927742004,
      "learning_rate": 0.0009597790166263189,
      "loss": 2.7524,
      "step": 1209
    },
    {
      "epoch": 0.15488,
      "grad_norm": 0.6197939515113831,
      "learning_rate": 0.0009596975133288738,
      "loss": 2.8123,
      "step": 1210
    },
    {
      "epoch": 0.155008,
      "grad_norm": 0.4885890483856201,
      "learning_rate": 0.0009596159310040969,
      "loss": 2.6444,
      "step": 1211
    },
    {
      "epoch": 0.155136,
      "grad_norm": 0.5632337331771851,
      "learning_rate": 0.0009595342696660132,
      "loss": 2.7903,
      "step": 1212
    },
    {
      "epoch": 0.155264,
      "grad_norm": 0.5278649926185608,
      "learning_rate": 0.000959452529328661,
      "loss": 2.8139,
      "step": 1213
    },
    {
      "epoch": 0.155392,
      "grad_norm": 0.5411337614059448,
      "learning_rate": 0.0009593707100060926,
      "loss": 2.7321,
      "step": 1214
    },
    {
      "epoch": 0.15552,
      "grad_norm": 0.5334292650222778,
      "learning_rate": 0.000959288811712374,
      "loss": 2.7543,
      "step": 1215
    },
    {
      "epoch": 0.155648,
      "grad_norm": 0.5246371626853943,
      "learning_rate": 0.0009592068344615837,
      "loss": 2.6956,
      "step": 1216
    },
    {
      "epoch": 0.155776,
      "grad_norm": 0.5465478897094727,
      "learning_rate": 0.0009591247782678152,
      "loss": 2.6605,
      "step": 1217
    },
    {
      "epoch": 0.155904,
      "grad_norm": 0.5253536105155945,
      "learning_rate": 0.0009590426431451746,
      "loss": 2.7768,
      "step": 1218
    },
    {
      "epoch": 0.156032,
      "grad_norm": 0.5062538981437683,
      "learning_rate": 0.000958960429107782,
      "loss": 2.7774,
      "step": 1219
    },
    {
      "epoch": 0.15616,
      "grad_norm": 0.48318514227867126,
      "learning_rate": 0.0009588781361697709,
      "loss": 2.5931,
      "step": 1220
    },
    {
      "epoch": 0.156288,
      "grad_norm": 0.5351243615150452,
      "learning_rate": 0.0009587957643452885,
      "loss": 2.7443,
      "step": 1221
    },
    {
      "epoch": 0.156416,
      "grad_norm": 0.5243902802467346,
      "learning_rate": 0.0009587133136484953,
      "loss": 2.7883,
      "step": 1222
    },
    {
      "epoch": 0.156544,
      "grad_norm": 0.4853728115558624,
      "learning_rate": 0.0009586307840935657,
      "loss": 2.6615,
      "step": 1223
    },
    {
      "epoch": 0.156672,
      "grad_norm": 0.5356696844100952,
      "learning_rate": 0.0009585481756946874,
      "loss": 2.8112,
      "step": 1224
    },
    {
      "epoch": 0.1568,
      "grad_norm": 0.5111836194992065,
      "learning_rate": 0.0009584654884660618,
      "loss": 2.6676,
      "step": 1225
    },
    {
      "epoch": 0.156928,
      "grad_norm": 0.5374957919120789,
      "learning_rate": 0.0009583827224219035,
      "loss": 2.699,
      "step": 1226
    },
    {
      "epoch": 0.157056,
      "grad_norm": 0.5296627879142761,
      "learning_rate": 0.0009582998775764413,
      "loss": 2.7805,
      "step": 1227
    },
    {
      "epoch": 0.157184,
      "grad_norm": 0.488950252532959,
      "learning_rate": 0.0009582169539439171,
      "loss": 2.6887,
      "step": 1228
    },
    {
      "epoch": 0.157312,
      "grad_norm": 0.5430004000663757,
      "learning_rate": 0.0009581339515385865,
      "loss": 2.7612,
      "step": 1229
    },
    {
      "epoch": 0.15744,
      "grad_norm": 0.5155881643295288,
      "learning_rate": 0.0009580508703747184,
      "loss": 2.7352,
      "step": 1230
    },
    {
      "epoch": 0.157568,
      "grad_norm": 0.5174129009246826,
      "learning_rate": 0.0009579677104665956,
      "loss": 2.7209,
      "step": 1231
    },
    {
      "epoch": 0.157696,
      "grad_norm": 0.5017378926277161,
      "learning_rate": 0.000957884471828514,
      "loss": 2.7208,
      "step": 1232
    },
    {
      "epoch": 0.157824,
      "grad_norm": 0.48119696974754333,
      "learning_rate": 0.0009578011544747835,
      "loss": 2.7489,
      "step": 1233
    },
    {
      "epoch": 0.157952,
      "grad_norm": 0.5065861344337463,
      "learning_rate": 0.0009577177584197274,
      "loss": 2.7663,
      "step": 1234
    },
    {
      "epoch": 0.15808,
      "grad_norm": 0.5483933687210083,
      "learning_rate": 0.0009576342836776821,
      "loss": 2.8363,
      "step": 1235
    },
    {
      "epoch": 0.158208,
      "grad_norm": 0.5495311617851257,
      "learning_rate": 0.0009575507302629982,
      "loss": 2.8493,
      "step": 1236
    },
    {
      "epoch": 0.158336,
      "grad_norm": 0.5243045091629028,
      "learning_rate": 0.0009574670981900393,
      "loss": 2.6894,
      "step": 1237
    },
    {
      "epoch": 0.158464,
      "grad_norm": 0.5572388172149658,
      "learning_rate": 0.0009573833874731829,
      "loss": 2.6333,
      "step": 1238
    },
    {
      "epoch": 0.158592,
      "grad_norm": 0.581008791923523,
      "learning_rate": 0.0009572995981268198,
      "loss": 2.806,
      "step": 1239
    },
    {
      "epoch": 0.15872,
      "grad_norm": 0.6105191707611084,
      "learning_rate": 0.0009572157301653542,
      "loss": 2.7863,
      "step": 1240
    },
    {
      "epoch": 0.158848,
      "grad_norm": 0.5936762690544128,
      "learning_rate": 0.0009571317836032041,
      "loss": 2.6856,
      "step": 1241
    },
    {
      "epoch": 0.158976,
      "grad_norm": 0.5040580034255981,
      "learning_rate": 0.0009570477584548007,
      "loss": 2.6542,
      "step": 1242
    },
    {
      "epoch": 0.159104,
      "grad_norm": 0.5614385008811951,
      "learning_rate": 0.0009569636547345894,
      "loss": 2.6648,
      "step": 1243
    },
    {
      "epoch": 0.159232,
      "grad_norm": 0.6891130208969116,
      "learning_rate": 0.0009568794724570281,
      "loss": 2.7306,
      "step": 1244
    },
    {
      "epoch": 0.15936,
      "grad_norm": 0.5344766974449158,
      "learning_rate": 0.0009567952116365889,
      "loss": 2.6792,
      "step": 1245
    },
    {
      "epoch": 0.159488,
      "grad_norm": 0.5433530211448669,
      "learning_rate": 0.0009567108722877572,
      "loss": 2.8102,
      "step": 1246
    },
    {
      "epoch": 0.159616,
      "grad_norm": 0.4855893552303314,
      "learning_rate": 0.0009566264544250318,
      "loss": 2.7598,
      "step": 1247
    },
    {
      "epoch": 0.159744,
      "grad_norm": 0.5086364150047302,
      "learning_rate": 0.0009565419580629253,
      "loss": 2.701,
      "step": 1248
    },
    {
      "epoch": 0.159872,
      "grad_norm": 0.5295925736427307,
      "learning_rate": 0.0009564573832159637,
      "loss": 2.7283,
      "step": 1249
    },
    {
      "epoch": 0.16,
      "grad_norm": 0.5436658263206482,
      "learning_rate": 0.0009563727298986859,
      "loss": 2.7778,
      "step": 1250
    },
    {
      "epoch": 0.160128,
      "grad_norm": 0.517650306224823,
      "learning_rate": 0.0009562879981256454,
      "loss": 2.7565,
      "step": 1251
    },
    {
      "epoch": 0.160256,
      "grad_norm": 0.5494064688682556,
      "learning_rate": 0.0009562031879114081,
      "loss": 2.8192,
      "step": 1252
    },
    {
      "epoch": 0.160384,
      "grad_norm": 0.5092416405677795,
      "learning_rate": 0.0009561182992705541,
      "loss": 2.7103,
      "step": 1253
    },
    {
      "epoch": 0.160512,
      "grad_norm": 0.5102664828300476,
      "learning_rate": 0.0009560333322176767,
      "loss": 2.601,
      "step": 1254
    },
    {
      "epoch": 0.16064,
      "grad_norm": 0.6494626998901367,
      "learning_rate": 0.0009559482867673825,
      "loss": 2.7359,
      "step": 1255
    },
    {
      "epoch": 0.160768,
      "grad_norm": 0.5704382658004761,
      "learning_rate": 0.0009558631629342922,
      "loss": 2.7993,
      "step": 1256
    },
    {
      "epoch": 0.160896,
      "grad_norm": 0.5676530599594116,
      "learning_rate": 0.0009557779607330393,
      "loss": 2.8499,
      "step": 1257
    },
    {
      "epoch": 0.161024,
      "grad_norm": 0.5241055488586426,
      "learning_rate": 0.0009556926801782713,
      "loss": 2.819,
      "step": 1258
    },
    {
      "epoch": 0.161152,
      "grad_norm": 0.5189226865768433,
      "learning_rate": 0.0009556073212846485,
      "loss": 2.628,
      "step": 1259
    },
    {
      "epoch": 0.16128,
      "grad_norm": 0.5005845427513123,
      "learning_rate": 0.0009555218840668454,
      "loss": 2.7021,
      "step": 1260
    },
    {
      "epoch": 0.161408,
      "grad_norm": 0.5453279614448547,
      "learning_rate": 0.0009554363685395495,
      "loss": 2.7051,
      "step": 1261
    },
    {
      "epoch": 0.161536,
      "grad_norm": 0.5301254987716675,
      "learning_rate": 0.0009553507747174622,
      "loss": 2.7622,
      "step": 1262
    },
    {
      "epoch": 0.161664,
      "grad_norm": 0.5518428683280945,
      "learning_rate": 0.0009552651026152976,
      "loss": 2.6613,
      "step": 1263
    },
    {
      "epoch": 0.161792,
      "grad_norm": 0.5485758781433105,
      "learning_rate": 0.0009551793522477841,
      "loss": 2.7134,
      "step": 1264
    },
    {
      "epoch": 0.16192,
      "grad_norm": 0.7680882811546326,
      "learning_rate": 0.0009550935236296629,
      "loss": 2.8346,
      "step": 1265
    },
    {
      "epoch": 0.162048,
      "grad_norm": 0.5702438354492188,
      "learning_rate": 0.0009550076167756892,
      "loss": 2.7528,
      "step": 1266
    },
    {
      "epoch": 0.162176,
      "grad_norm": 0.5475928783416748,
      "learning_rate": 0.0009549216317006313,
      "loss": 2.7597,
      "step": 1267
    },
    {
      "epoch": 0.162304,
      "grad_norm": 0.6331676840782166,
      "learning_rate": 0.0009548355684192711,
      "loss": 2.7212,
      "step": 1268
    },
    {
      "epoch": 0.162432,
      "grad_norm": 0.5128452777862549,
      "learning_rate": 0.0009547494269464036,
      "loss": 2.8716,
      "step": 1269
    },
    {
      "epoch": 0.16256,
      "grad_norm": 0.5151728987693787,
      "learning_rate": 0.0009546632072968378,
      "loss": 2.8131,
      "step": 1270
    },
    {
      "epoch": 0.162688,
      "grad_norm": 0.5325345993041992,
      "learning_rate": 0.0009545769094853958,
      "loss": 2.7577,
      "step": 1271
    },
    {
      "epoch": 0.162816,
      "grad_norm": 0.4955229163169861,
      "learning_rate": 0.000954490533526913,
      "loss": 2.6635,
      "step": 1272
    },
    {
      "epoch": 0.162944,
      "grad_norm": 0.5508705377578735,
      "learning_rate": 0.0009544040794362388,
      "loss": 2.7535,
      "step": 1273
    },
    {
      "epoch": 0.163072,
      "grad_norm": 0.5502394437789917,
      "learning_rate": 0.0009543175472282352,
      "loss": 2.7552,
      "step": 1274
    },
    {
      "epoch": 0.1632,
      "grad_norm": 0.5674100518226624,
      "learning_rate": 0.0009542309369177784,
      "loss": 2.738,
      "step": 1275
    },
    {
      "epoch": 0.163328,
      "grad_norm": 0.504077672958374,
      "learning_rate": 0.0009541442485197577,
      "loss": 2.6924,
      "step": 1276
    },
    {
      "epoch": 0.163456,
      "grad_norm": 0.5330091118812561,
      "learning_rate": 0.0009540574820490757,
      "loss": 2.6273,
      "step": 1277
    },
    {
      "epoch": 0.163584,
      "grad_norm": 0.5276629328727722,
      "learning_rate": 0.0009539706375206487,
      "loss": 2.7265,
      "step": 1278
    },
    {
      "epoch": 0.163712,
      "grad_norm": 0.5747729539871216,
      "learning_rate": 0.0009538837149494064,
      "loss": 2.7269,
      "step": 1279
    },
    {
      "epoch": 0.16384,
      "grad_norm": 0.5172771215438843,
      "learning_rate": 0.0009537967143502915,
      "loss": 2.6453,
      "step": 1280
    },
    {
      "epoch": 0.163968,
      "grad_norm": 0.5863388180732727,
      "learning_rate": 0.0009537096357382604,
      "loss": 2.7985,
      "step": 1281
    },
    {
      "epoch": 0.164096,
      "grad_norm": 0.5455213189125061,
      "learning_rate": 0.0009536224791282833,
      "loss": 2.7569,
      "step": 1282
    },
    {
      "epoch": 0.164224,
      "grad_norm": 0.7135941982269287,
      "learning_rate": 0.000953535244535343,
      "loss": 2.8473,
      "step": 1283
    },
    {
      "epoch": 0.164352,
      "grad_norm": 0.5502411723136902,
      "learning_rate": 0.0009534479319744365,
      "loss": 2.8084,
      "step": 1284
    },
    {
      "epoch": 0.16448,
      "grad_norm": 0.6020917892456055,
      "learning_rate": 0.0009533605414605735,
      "loss": 2.7803,
      "step": 1285
    },
    {
      "epoch": 0.164608,
      "grad_norm": 0.5041988492012024,
      "learning_rate": 0.0009532730730087778,
      "loss": 2.7059,
      "step": 1286
    },
    {
      "epoch": 0.164736,
      "grad_norm": 0.5250744223594666,
      "learning_rate": 0.0009531855266340859,
      "loss": 2.5778,
      "step": 1287
    },
    {
      "epoch": 0.164864,
      "grad_norm": 0.4930306077003479,
      "learning_rate": 0.0009530979023515483,
      "loss": 2.6723,
      "step": 1288
    },
    {
      "epoch": 0.164992,
      "grad_norm": 0.558075487613678,
      "learning_rate": 0.0009530102001762284,
      "loss": 2.8556,
      "step": 1289
    },
    {
      "epoch": 0.16512,
      "grad_norm": 0.543556272983551,
      "learning_rate": 0.0009529224201232034,
      "loss": 2.7869,
      "step": 1290
    },
    {
      "epoch": 0.165248,
      "grad_norm": 0.7971698641777039,
      "learning_rate": 0.0009528345622075635,
      "loss": 2.7654,
      "step": 1291
    },
    {
      "epoch": 0.165376,
      "grad_norm": 0.5600593686103821,
      "learning_rate": 0.000952746626444413,
      "loss": 2.6018,
      "step": 1292
    },
    {
      "epoch": 0.165504,
      "grad_norm": 0.5311623811721802,
      "learning_rate": 0.0009526586128488685,
      "loss": 2.7867,
      "step": 1293
    },
    {
      "epoch": 0.165632,
      "grad_norm": 0.5728663802146912,
      "learning_rate": 0.0009525705214360609,
      "loss": 2.7508,
      "step": 1294
    },
    {
      "epoch": 0.16576,
      "grad_norm": 0.5677109956741333,
      "learning_rate": 0.0009524823522211339,
      "loss": 2.6501,
      "step": 1295
    },
    {
      "epoch": 0.165888,
      "grad_norm": 0.5356132984161377,
      "learning_rate": 0.000952394105219245,
      "loss": 2.7971,
      "step": 1296
    },
    {
      "epoch": 0.166016,
      "grad_norm": 0.5264906883239746,
      "learning_rate": 0.0009523057804455648,
      "loss": 2.7611,
      "step": 1297
    },
    {
      "epoch": 0.166144,
      "grad_norm": 0.5627365112304688,
      "learning_rate": 0.0009522173779152773,
      "loss": 2.7104,
      "step": 1298
    },
    {
      "epoch": 0.166272,
      "grad_norm": 0.618522047996521,
      "learning_rate": 0.00095212889764358,
      "loss": 2.8534,
      "step": 1299
    },
    {
      "epoch": 0.1664,
      "grad_norm": 0.7139624953269958,
      "learning_rate": 0.0009520403396456838,
      "loss": 2.6171,
      "step": 1300
    },
    {
      "epoch": 0.166528,
      "grad_norm": 0.5343664884567261,
      "learning_rate": 0.0009519517039368126,
      "loss": 2.8175,
      "step": 1301
    },
    {
      "epoch": 0.166656,
      "grad_norm": 0.5670651197433472,
      "learning_rate": 0.000951862990532204,
      "loss": 2.7105,
      "step": 1302
    },
    {
      "epoch": 0.166784,
      "grad_norm": 0.5867030620574951,
      "learning_rate": 0.000951774199447109,
      "loss": 2.7279,
      "step": 1303
    },
    {
      "epoch": 0.166912,
      "grad_norm": 0.576462984085083,
      "learning_rate": 0.0009516853306967915,
      "loss": 2.7534,
      "step": 1304
    },
    {
      "epoch": 0.16704,
      "grad_norm": 0.5361133813858032,
      "learning_rate": 0.0009515963842965294,
      "loss": 2.7091,
      "step": 1305
    },
    {
      "epoch": 0.167168,
      "grad_norm": 0.6093153357505798,
      "learning_rate": 0.0009515073602616135,
      "loss": 2.6503,
      "step": 1306
    },
    {
      "epoch": 0.167296,
      "grad_norm": 0.6054698824882507,
      "learning_rate": 0.000951418258607348,
      "loss": 2.7809,
      "step": 1307
    },
    {
      "epoch": 0.167424,
      "grad_norm": 0.5721693634986877,
      "learning_rate": 0.0009513290793490505,
      "loss": 2.7369,
      "step": 1308
    },
    {
      "epoch": 0.167552,
      "grad_norm": 0.5885550379753113,
      "learning_rate": 0.0009512398225020522,
      "loss": 2.6981,
      "step": 1309
    },
    {
      "epoch": 0.16768,
      "grad_norm": 0.5361431241035461,
      "learning_rate": 0.000951150488081697,
      "loss": 2.7601,
      "step": 1310
    },
    {
      "epoch": 0.167808,
      "grad_norm": 0.5249921679496765,
      "learning_rate": 0.0009510610761033427,
      "loss": 2.6967,
      "step": 1311
    },
    {
      "epoch": 0.167936,
      "grad_norm": 0.5432402491569519,
      "learning_rate": 0.0009509715865823604,
      "loss": 2.7244,
      "step": 1312
    },
    {
      "epoch": 0.168064,
      "grad_norm": 0.5539069771766663,
      "learning_rate": 0.0009508820195341342,
      "loss": 2.6838,
      "step": 1313
    },
    {
      "epoch": 0.168192,
      "grad_norm": 0.5271430611610413,
      "learning_rate": 0.0009507923749740618,
      "loss": 2.6278,
      "step": 1314
    },
    {
      "epoch": 0.16832,
      "grad_norm": 0.5793154835700989,
      "learning_rate": 0.000950702652917554,
      "loss": 2.6846,
      "step": 1315
    },
    {
      "epoch": 0.168448,
      "grad_norm": 0.9429912567138672,
      "learning_rate": 0.0009506128533800354,
      "loss": 2.6947,
      "step": 1316
    },
    {
      "epoch": 0.168576,
      "grad_norm": 0.583731472492218,
      "learning_rate": 0.0009505229763769431,
      "loss": 2.6836,
      "step": 1317
    },
    {
      "epoch": 0.168704,
      "grad_norm": 0.5454093813896179,
      "learning_rate": 0.0009504330219237283,
      "loss": 2.7806,
      "step": 1318
    },
    {
      "epoch": 0.168832,
      "grad_norm": 0.5484874844551086,
      "learning_rate": 0.0009503429900358553,
      "loss": 2.8021,
      "step": 1319
    },
    {
      "epoch": 0.16896,
      "grad_norm": 0.6923860907554626,
      "learning_rate": 0.0009502528807288014,
      "loss": 2.7143,
      "step": 1320
    },
    {
      "epoch": 0.169088,
      "grad_norm": 0.529720664024353,
      "learning_rate": 0.0009501626940180575,
      "loss": 2.7359,
      "step": 1321
    },
    {
      "epoch": 0.169216,
      "grad_norm": 0.6034497618675232,
      "learning_rate": 0.0009500724299191278,
      "loss": 2.7197,
      "step": 1322
    },
    {
      "epoch": 0.169344,
      "grad_norm": 0.5611066818237305,
      "learning_rate": 0.0009499820884475296,
      "loss": 2.6303,
      "step": 1323
    },
    {
      "epoch": 0.169472,
      "grad_norm": 0.55152428150177,
      "learning_rate": 0.000949891669618794,
      "loss": 2.7151,
      "step": 1324
    },
    {
      "epoch": 0.1696,
      "grad_norm": 0.6737107634544373,
      "learning_rate": 0.0009498011734484646,
      "loss": 2.7122,
      "step": 1325
    },
    {
      "epoch": 0.169728,
      "grad_norm": 0.5946348309516907,
      "learning_rate": 0.0009497105999520989,
      "loss": 2.7675,
      "step": 1326
    },
    {
      "epoch": 0.169856,
      "grad_norm": 0.5625699162483215,
      "learning_rate": 0.0009496199491452679,
      "loss": 2.7159,
      "step": 1327
    },
    {
      "epoch": 0.169984,
      "grad_norm": 0.543542742729187,
      "learning_rate": 0.0009495292210435548,
      "loss": 2.6989,
      "step": 1328
    },
    {
      "epoch": 0.170112,
      "grad_norm": 0.5339669585227966,
      "learning_rate": 0.0009494384156625575,
      "loss": 2.7566,
      "step": 1329
    },
    {
      "epoch": 0.17024,
      "grad_norm": 0.5698612332344055,
      "learning_rate": 0.000949347533017886,
      "loss": 2.7956,
      "step": 1330
    },
    {
      "epoch": 0.170368,
      "grad_norm": 0.6209084391593933,
      "learning_rate": 0.0009492565731251644,
      "loss": 2.8887,
      "step": 1331
    },
    {
      "epoch": 0.170496,
      "grad_norm": 0.5236597061157227,
      "learning_rate": 0.0009491655360000297,
      "loss": 2.7273,
      "step": 1332
    },
    {
      "epoch": 0.170624,
      "grad_norm": 0.6185588240623474,
      "learning_rate": 0.0009490744216581322,
      "loss": 2.7156,
      "step": 1333
    },
    {
      "epoch": 0.170752,
      "grad_norm": 0.5979053378105164,
      "learning_rate": 0.0009489832301151353,
      "loss": 2.7151,
      "step": 1334
    },
    {
      "epoch": 0.17088,
      "grad_norm": 0.5360316038131714,
      "learning_rate": 0.0009488919613867162,
      "loss": 2.663,
      "step": 1335
    },
    {
      "epoch": 0.171008,
      "grad_norm": 0.5524845719337463,
      "learning_rate": 0.000948800615488565,
      "loss": 2.7364,
      "step": 1336
    },
    {
      "epoch": 0.171136,
      "grad_norm": 0.574614405632019,
      "learning_rate": 0.0009487091924363851,
      "loss": 2.7923,
      "step": 1337
    },
    {
      "epoch": 0.171264,
      "grad_norm": 0.579473614692688,
      "learning_rate": 0.0009486176922458929,
      "loss": 2.7111,
      "step": 1338
    },
    {
      "epoch": 0.171392,
      "grad_norm": 0.5664458870887756,
      "learning_rate": 0.0009485261149328188,
      "loss": 2.6332,
      "step": 1339
    },
    {
      "epoch": 0.17152,
      "grad_norm": 0.5442751049995422,
      "learning_rate": 0.0009484344605129056,
      "loss": 2.7511,
      "step": 1340
    },
    {
      "epoch": 0.171648,
      "grad_norm": 0.5425553321838379,
      "learning_rate": 0.0009483427290019101,
      "loss": 2.7969,
      "step": 1341
    },
    {
      "epoch": 0.171776,
      "grad_norm": 0.9996044039726257,
      "learning_rate": 0.0009482509204156018,
      "loss": 2.6879,
      "step": 1342
    },
    {
      "epoch": 0.171904,
      "grad_norm": 0.5302444100379944,
      "learning_rate": 0.0009481590347697637,
      "loss": 2.7344,
      "step": 1343
    },
    {
      "epoch": 0.172032,
      "grad_norm": 0.5185858011245728,
      "learning_rate": 0.0009480670720801921,
      "loss": 2.6605,
      "step": 1344
    },
    {
      "epoch": 0.17216,
      "grad_norm": 0.5725930333137512,
      "learning_rate": 0.0009479750323626962,
      "loss": 2.7397,
      "step": 1345
    },
    {
      "epoch": 0.172288,
      "grad_norm": 0.5533618330955505,
      "learning_rate": 0.000947882915633099,
      "loss": 2.7679,
      "step": 1346
    },
    {
      "epoch": 0.172416,
      "grad_norm": 0.5749006271362305,
      "learning_rate": 0.0009477907219072361,
      "loss": 2.9382,
      "step": 1347
    },
    {
      "epoch": 0.172544,
      "grad_norm": 0.5793493390083313,
      "learning_rate": 0.0009476984512009571,
      "loss": 2.6927,
      "step": 1348
    },
    {
      "epoch": 0.172672,
      "grad_norm": 0.4820196330547333,
      "learning_rate": 0.0009476061035301241,
      "loss": 2.7159,
      "step": 1349
    },
    {
      "epoch": 0.1728,
      "grad_norm": 0.5265783667564392,
      "learning_rate": 0.0009475136789106128,
      "loss": 2.7756,
      "step": 1350
    },
    {
      "epoch": 0.172928,
      "grad_norm": 0.6731835603713989,
      "learning_rate": 0.0009474211773583121,
      "loss": 2.6238,
      "step": 1351
    },
    {
      "epoch": 0.173056,
      "grad_norm": 0.556584358215332,
      "learning_rate": 0.000947328598889124,
      "loss": 2.8393,
      "step": 1352
    },
    {
      "epoch": 0.173184,
      "grad_norm": 0.5364807844161987,
      "learning_rate": 0.000947235943518964,
      "loss": 2.7489,
      "step": 1353
    },
    {
      "epoch": 0.173312,
      "grad_norm": 0.5496452450752258,
      "learning_rate": 0.0009471432112637604,
      "loss": 2.6442,
      "step": 1354
    },
    {
      "epoch": 0.17344,
      "grad_norm": 0.5896655917167664,
      "learning_rate": 0.000947050402139455,
      "loss": 2.7825,
      "step": 1355
    },
    {
      "epoch": 0.173568,
      "grad_norm": 0.4980693459510803,
      "learning_rate": 0.0009469575161620029,
      "loss": 2.7408,
      "step": 1356
    },
    {
      "epoch": 0.173696,
      "grad_norm": 0.5118650794029236,
      "learning_rate": 0.0009468645533473721,
      "loss": 2.7561,
      "step": 1357
    },
    {
      "epoch": 0.173824,
      "grad_norm": 0.5421112775802612,
      "learning_rate": 0.0009467715137115442,
      "loss": 2.7252,
      "step": 1358
    },
    {
      "epoch": 0.173952,
      "grad_norm": 0.5508285760879517,
      "learning_rate": 0.0009466783972705136,
      "loss": 2.73,
      "step": 1359
    },
    {
      "epoch": 0.17408,
      "grad_norm": 0.5579522848129272,
      "learning_rate": 0.0009465852040402883,
      "loss": 2.7794,
      "step": 1360
    },
    {
      "epoch": 0.174208,
      "grad_norm": 0.5279567241668701,
      "learning_rate": 0.000946491934036889,
      "loss": 2.7462,
      "step": 1361
    },
    {
      "epoch": 0.174336,
      "grad_norm": 0.5292567610740662,
      "learning_rate": 0.00094639858727635,
      "loss": 2.7612,
      "step": 1362
    },
    {
      "epoch": 0.174464,
      "grad_norm": 0.5520612597465515,
      "learning_rate": 0.0009463051637747191,
      "loss": 2.7033,
      "step": 1363
    },
    {
      "epoch": 0.174592,
      "grad_norm": 0.5747506022453308,
      "learning_rate": 0.0009462116635480562,
      "loss": 2.5628,
      "step": 1364
    },
    {
      "epoch": 0.17472,
      "grad_norm": 0.5078028440475464,
      "learning_rate": 0.0009461180866124356,
      "loss": 2.6812,
      "step": 1365
    },
    {
      "epoch": 0.174848,
      "grad_norm": 0.5494400262832642,
      "learning_rate": 0.000946024432983944,
      "loss": 2.8868,
      "step": 1366
    },
    {
      "epoch": 0.174976,
      "grad_norm": 0.5124056339263916,
      "learning_rate": 0.0009459307026786816,
      "loss": 2.7296,
      "step": 1367
    },
    {
      "epoch": 0.175104,
      "grad_norm": 0.5424842834472656,
      "learning_rate": 0.0009458368957127617,
      "loss": 2.827,
      "step": 1368
    },
    {
      "epoch": 0.175232,
      "grad_norm": 0.5303713083267212,
      "learning_rate": 0.000945743012102311,
      "loss": 2.7315,
      "step": 1369
    },
    {
      "epoch": 0.17536,
      "grad_norm": 0.5052770376205444,
      "learning_rate": 0.0009456490518634688,
      "loss": 2.6609,
      "step": 1370
    },
    {
      "epoch": 0.175488,
      "grad_norm": 0.4654543101787567,
      "learning_rate": 0.0009455550150123883,
      "loss": 2.6994,
      "step": 1371
    },
    {
      "epoch": 0.175616,
      "grad_norm": 0.4971960186958313,
      "learning_rate": 0.0009454609015652353,
      "loss": 2.7574,
      "step": 1372
    },
    {
      "epoch": 0.175744,
      "grad_norm": 0.49050581455230713,
      "learning_rate": 0.0009453667115381892,
      "loss": 2.7481,
      "step": 1373
    },
    {
      "epoch": 0.175872,
      "grad_norm": 0.5296740531921387,
      "learning_rate": 0.0009452724449474422,
      "loss": 2.7056,
      "step": 1374
    },
    {
      "epoch": 0.176,
      "grad_norm": 0.49844563007354736,
      "learning_rate": 0.0009451781018091999,
      "loss": 2.7952,
      "step": 1375
    },
    {
      "epoch": 0.176128,
      "grad_norm": 1.2206928730010986,
      "learning_rate": 0.000945083682139681,
      "loss": 2.7058,
      "step": 1376
    },
    {
      "epoch": 0.176256,
      "grad_norm": 0.5391727089881897,
      "learning_rate": 0.0009449891859551172,
      "loss": 2.7892,
      "step": 1377
    },
    {
      "epoch": 0.176384,
      "grad_norm": 0.5028244853019714,
      "learning_rate": 0.0009448946132717536,
      "loss": 2.6642,
      "step": 1378
    },
    {
      "epoch": 0.176512,
      "grad_norm": 0.5042487978935242,
      "learning_rate": 0.0009447999641058485,
      "loss": 2.7566,
      "step": 1379
    },
    {
      "epoch": 0.17664,
      "grad_norm": 0.5451518297195435,
      "learning_rate": 0.0009447052384736728,
      "loss": 2.6631,
      "step": 1380
    },
    {
      "epoch": 0.176768,
      "grad_norm": 0.4978453814983368,
      "learning_rate": 0.0009446104363915112,
      "loss": 2.7072,
      "step": 1381
    },
    {
      "epoch": 0.176896,
      "grad_norm": 0.49864813685417175,
      "learning_rate": 0.0009445155578756611,
      "loss": 2.7579,
      "step": 1382
    },
    {
      "epoch": 0.177024,
      "grad_norm": 0.524910569190979,
      "learning_rate": 0.0009444206029424334,
      "loss": 2.7017,
      "step": 1383
    },
    {
      "epoch": 0.177152,
      "grad_norm": 0.5252255797386169,
      "learning_rate": 0.0009443255716081521,
      "loss": 2.732,
      "step": 1384
    },
    {
      "epoch": 0.17728,
      "grad_norm": 0.5283398628234863,
      "learning_rate": 0.0009442304638891537,
      "loss": 2.7652,
      "step": 1385
    },
    {
      "epoch": 0.177408,
      "grad_norm": 0.5443993806838989,
      "learning_rate": 0.0009441352798017886,
      "loss": 2.7254,
      "step": 1386
    },
    {
      "epoch": 0.177536,
      "grad_norm": 0.5572652816772461,
      "learning_rate": 0.0009440400193624201,
      "loss": 2.7722,
      "step": 1387
    },
    {
      "epoch": 0.177664,
      "grad_norm": 0.5208683609962463,
      "learning_rate": 0.0009439446825874247,
      "loss": 2.7417,
      "step": 1388
    },
    {
      "epoch": 0.177792,
      "grad_norm": 0.5143972635269165,
      "learning_rate": 0.0009438492694931915,
      "loss": 2.7731,
      "step": 1389
    },
    {
      "epoch": 0.17792,
      "grad_norm": 0.5245186686515808,
      "learning_rate": 0.0009437537800961234,
      "loss": 2.7291,
      "step": 1390
    },
    {
      "epoch": 0.178048,
      "grad_norm": 0.505097508430481,
      "learning_rate": 0.0009436582144126361,
      "loss": 2.7718,
      "step": 1391
    },
    {
      "epoch": 0.178176,
      "grad_norm": 0.5284972190856934,
      "learning_rate": 0.0009435625724591583,
      "loss": 2.6912,
      "step": 1392
    },
    {
      "epoch": 0.178304,
      "grad_norm": 0.49019959568977356,
      "learning_rate": 0.0009434668542521323,
      "loss": 2.7834,
      "step": 1393
    },
    {
      "epoch": 0.178432,
      "grad_norm": 0.595998227596283,
      "learning_rate": 0.0009433710598080127,
      "loss": 2.7224,
      "step": 1394
    },
    {
      "epoch": 0.17856,
      "grad_norm": 0.551946222782135,
      "learning_rate": 0.000943275189143268,
      "loss": 2.7021,
      "step": 1395
    },
    {
      "epoch": 0.178688,
      "grad_norm": 0.6980593800544739,
      "learning_rate": 0.0009431792422743794,
      "loss": 2.6455,
      "step": 1396
    },
    {
      "epoch": 0.178816,
      "grad_norm": 0.4984813332557678,
      "learning_rate": 0.0009430832192178413,
      "loss": 2.721,
      "step": 1397
    },
    {
      "epoch": 0.178944,
      "grad_norm": 0.5801998376846313,
      "learning_rate": 0.0009429871199901613,
      "loss": 2.7977,
      "step": 1398
    },
    {
      "epoch": 0.179072,
      "grad_norm": 0.5376647114753723,
      "learning_rate": 0.0009428909446078598,
      "loss": 2.8518,
      "step": 1399
    },
    {
      "epoch": 0.1792,
      "grad_norm": 0.5102377533912659,
      "learning_rate": 0.0009427946930874703,
      "loss": 2.6873,
      "step": 1400
    },
    {
      "epoch": 0.179328,
      "grad_norm": 0.48282745480537415,
      "learning_rate": 0.0009426983654455398,
      "loss": 2.7624,
      "step": 1401
    },
    {
      "epoch": 0.179456,
      "grad_norm": 0.5187153816223145,
      "learning_rate": 0.0009426019616986281,
      "loss": 2.7703,
      "step": 1402
    },
    {
      "epoch": 0.179584,
      "grad_norm": 0.4734482169151306,
      "learning_rate": 0.0009425054818633081,
      "loss": 2.8354,
      "step": 1403
    },
    {
      "epoch": 0.179712,
      "grad_norm": 0.5442434549331665,
      "learning_rate": 0.0009424089259561657,
      "loss": 2.6951,
      "step": 1404
    },
    {
      "epoch": 0.17984,
      "grad_norm": 0.5069937705993652,
      "learning_rate": 0.0009423122939938003,
      "loss": 2.7302,
      "step": 1405
    },
    {
      "epoch": 0.179968,
      "grad_norm": 0.530876636505127,
      "learning_rate": 0.0009422155859928236,
      "loss": 2.8218,
      "step": 1406
    },
    {
      "epoch": 0.180096,
      "grad_norm": 0.48872533440589905,
      "learning_rate": 0.0009421188019698612,
      "loss": 2.7792,
      "step": 1407
    },
    {
      "epoch": 0.180224,
      "grad_norm": 0.5293881297111511,
      "learning_rate": 0.0009420219419415514,
      "loss": 2.8,
      "step": 1408
    },
    {
      "epoch": 0.180352,
      "grad_norm": 0.6955413818359375,
      "learning_rate": 0.0009419250059245452,
      "loss": 2.6383,
      "step": 1409
    },
    {
      "epoch": 0.18048,
      "grad_norm": 0.46747326850891113,
      "learning_rate": 0.0009418279939355074,
      "loss": 2.5829,
      "step": 1410
    },
    {
      "epoch": 0.180608,
      "grad_norm": 0.7449164390563965,
      "learning_rate": 0.0009417309059911152,
      "loss": 2.826,
      "step": 1411
    },
    {
      "epoch": 0.180736,
      "grad_norm": 0.5362902879714966,
      "learning_rate": 0.0009416337421080593,
      "loss": 2.6932,
      "step": 1412
    },
    {
      "epoch": 0.180864,
      "grad_norm": 0.5192707180976868,
      "learning_rate": 0.0009415365023030433,
      "loss": 2.7246,
      "step": 1413
    },
    {
      "epoch": 0.180992,
      "grad_norm": 0.48164013028144836,
      "learning_rate": 0.0009414391865927838,
      "loss": 2.6645,
      "step": 1414
    },
    {
      "epoch": 0.18112,
      "grad_norm": 0.5104053616523743,
      "learning_rate": 0.0009413417949940107,
      "loss": 2.6692,
      "step": 1415
    },
    {
      "epoch": 0.181248,
      "grad_norm": 0.5104692578315735,
      "learning_rate": 0.0009412443275234663,
      "loss": 2.7079,
      "step": 1416
    },
    {
      "epoch": 0.181376,
      "grad_norm": 0.5356189012527466,
      "learning_rate": 0.0009411467841979068,
      "loss": 2.613,
      "step": 1417
    },
    {
      "epoch": 0.181504,
      "grad_norm": 0.5286459922790527,
      "learning_rate": 0.0009410491650341009,
      "loss": 2.7466,
      "step": 1418
    },
    {
      "epoch": 0.181632,
      "grad_norm": 0.5147411227226257,
      "learning_rate": 0.0009409514700488304,
      "loss": 2.7887,
      "step": 1419
    },
    {
      "epoch": 0.18176,
      "grad_norm": 0.5046815872192383,
      "learning_rate": 0.0009408536992588902,
      "loss": 2.7697,
      "step": 1420
    },
    {
      "epoch": 0.181888,
      "grad_norm": 0.5312877893447876,
      "learning_rate": 0.0009407558526810883,
      "loss": 2.7109,
      "step": 1421
    },
    {
      "epoch": 0.182016,
      "grad_norm": 0.5028607249259949,
      "learning_rate": 0.0009406579303322458,
      "loss": 2.7156,
      "step": 1422
    },
    {
      "epoch": 0.182144,
      "grad_norm": 0.5788992047309875,
      "learning_rate": 0.0009405599322291962,
      "loss": 2.7429,
      "step": 1423
    },
    {
      "epoch": 0.182272,
      "grad_norm": 0.5117329359054565,
      "learning_rate": 0.0009404618583887872,
      "loss": 2.8316,
      "step": 1424
    },
    {
      "epoch": 0.1824,
      "grad_norm": 0.49641546607017517,
      "learning_rate": 0.0009403637088278783,
      "loss": 2.7243,
      "step": 1425
    },
    {
      "epoch": 0.182528,
      "grad_norm": 0.5094485282897949,
      "learning_rate": 0.0009402654835633427,
      "loss": 2.7501,
      "step": 1426
    },
    {
      "epoch": 0.182656,
      "grad_norm": 0.5098284482955933,
      "learning_rate": 0.0009401671826120665,
      "loss": 2.7864,
      "step": 1427
    },
    {
      "epoch": 0.182784,
      "grad_norm": 0.5011908411979675,
      "learning_rate": 0.0009400688059909487,
      "loss": 2.8582,
      "step": 1428
    },
    {
      "epoch": 0.182912,
      "grad_norm": 0.4936275780200958,
      "learning_rate": 0.0009399703537169016,
      "loss": 2.6974,
      "step": 1429
    },
    {
      "epoch": 0.18304,
      "grad_norm": 0.5718955397605896,
      "learning_rate": 0.0009398718258068502,
      "loss": 2.675,
      "step": 1430
    },
    {
      "epoch": 0.183168,
      "grad_norm": 0.5094112157821655,
      "learning_rate": 0.0009397732222777322,
      "loss": 2.7564,
      "step": 1431
    },
    {
      "epoch": 0.183296,
      "grad_norm": 0.47555458545684814,
      "learning_rate": 0.0009396745431464993,
      "loss": 2.7541,
      "step": 1432
    },
    {
      "epoch": 0.183424,
      "grad_norm": 0.48376500606536865,
      "learning_rate": 0.000939575788430115,
      "loss": 2.6497,
      "step": 1433
    },
    {
      "epoch": 0.183552,
      "grad_norm": 0.6861069798469543,
      "learning_rate": 0.0009394769581455569,
      "loss": 2.6533,
      "step": 1434
    },
    {
      "epoch": 0.18368,
      "grad_norm": 0.49121782183647156,
      "learning_rate": 0.0009393780523098146,
      "loss": 2.689,
      "step": 1435
    },
    {
      "epoch": 0.183808,
      "grad_norm": 0.5085844397544861,
      "learning_rate": 0.0009392790709398917,
      "loss": 2.6411,
      "step": 1436
    },
    {
      "epoch": 0.183936,
      "grad_norm": 0.5341482162475586,
      "learning_rate": 0.0009391800140528037,
      "loss": 2.7305,
      "step": 1437
    },
    {
      "epoch": 0.184064,
      "grad_norm": 0.5527880191802979,
      "learning_rate": 0.0009390808816655801,
      "loss": 2.6638,
      "step": 1438
    },
    {
      "epoch": 0.184192,
      "grad_norm": 0.5469643473625183,
      "learning_rate": 0.0009389816737952623,
      "loss": 2.7878,
      "step": 1439
    },
    {
      "epoch": 0.18432,
      "grad_norm": 0.4976557195186615,
      "learning_rate": 0.0009388823904589061,
      "loss": 2.6138,
      "step": 1440
    },
    {
      "epoch": 0.184448,
      "grad_norm": 0.547014594078064,
      "learning_rate": 0.0009387830316735788,
      "loss": 2.7027,
      "step": 1441
    },
    {
      "epoch": 0.184576,
      "grad_norm": 0.55793696641922,
      "learning_rate": 0.0009386835974563615,
      "loss": 2.7259,
      "step": 1442
    },
    {
      "epoch": 0.184704,
      "grad_norm": 0.5681323409080505,
      "learning_rate": 0.0009385840878243483,
      "loss": 2.6565,
      "step": 1443
    },
    {
      "epoch": 0.184832,
      "grad_norm": 0.5809363722801208,
      "learning_rate": 0.0009384845027946458,
      "loss": 2.7045,
      "step": 1444
    },
    {
      "epoch": 0.18496,
      "grad_norm": 0.4895783066749573,
      "learning_rate": 0.000938384842384374,
      "loss": 2.5535,
      "step": 1445
    },
    {
      "epoch": 0.185088,
      "grad_norm": 0.4806765019893646,
      "learning_rate": 0.0009382851066106655,
      "loss": 2.8122,
      "step": 1446
    },
    {
      "epoch": 0.185216,
      "grad_norm": 0.5201246738433838,
      "learning_rate": 0.0009381852954906661,
      "loss": 2.6407,
      "step": 1447
    },
    {
      "epoch": 0.185344,
      "grad_norm": 0.5504888296127319,
      "learning_rate": 0.0009380854090415347,
      "loss": 2.6458,
      "step": 1448
    },
    {
      "epoch": 0.185472,
      "grad_norm": 0.47855913639068604,
      "learning_rate": 0.0009379854472804425,
      "loss": 2.6504,
      "step": 1449
    },
    {
      "epoch": 0.1856,
      "grad_norm": 0.5346158742904663,
      "learning_rate": 0.0009378854102245746,
      "loss": 2.7151,
      "step": 1450
    },
    {
      "epoch": 0.185728,
      "grad_norm": 0.4973682761192322,
      "learning_rate": 0.0009377852978911281,
      "loss": 2.7657,
      "step": 1451
    },
    {
      "epoch": 0.185856,
      "grad_norm": 0.5550567507743835,
      "learning_rate": 0.0009376851102973139,
      "loss": 2.6793,
      "step": 1452
    },
    {
      "epoch": 0.185984,
      "grad_norm": 0.5217489004135132,
      "learning_rate": 0.0009375848474603549,
      "loss": 2.8138,
      "step": 1453
    },
    {
      "epoch": 0.186112,
      "grad_norm": 0.5547917485237122,
      "learning_rate": 0.0009374845093974878,
      "loss": 2.8685,
      "step": 1454
    },
    {
      "epoch": 0.18624,
      "grad_norm": 0.49312523007392883,
      "learning_rate": 0.0009373840961259619,
      "loss": 2.652,
      "step": 1455
    },
    {
      "epoch": 0.186368,
      "grad_norm": 0.4741676449775696,
      "learning_rate": 0.0009372836076630392,
      "loss": 2.7238,
      "step": 1456
    },
    {
      "epoch": 0.186496,
      "grad_norm": 0.4698611795902252,
      "learning_rate": 0.0009371830440259947,
      "loss": 2.7513,
      "step": 1457
    },
    {
      "epoch": 0.186624,
      "grad_norm": 0.4741548001766205,
      "learning_rate": 0.0009370824052321168,
      "loss": 2.6546,
      "step": 1458
    },
    {
      "epoch": 0.186752,
      "grad_norm": 0.5239407420158386,
      "learning_rate": 0.0009369816912987065,
      "loss": 2.7378,
      "step": 1459
    },
    {
      "epoch": 0.18688,
      "grad_norm": 0.5022091269493103,
      "learning_rate": 0.0009368809022430773,
      "loss": 2.706,
      "step": 1460
    },
    {
      "epoch": 0.187008,
      "grad_norm": 0.49305880069732666,
      "learning_rate": 0.0009367800380825564,
      "loss": 2.6912,
      "step": 1461
    },
    {
      "epoch": 0.187136,
      "grad_norm": 0.5551690459251404,
      "learning_rate": 0.0009366790988344834,
      "loss": 2.6951,
      "step": 1462
    },
    {
      "epoch": 0.187264,
      "grad_norm": 0.5554086565971375,
      "learning_rate": 0.0009365780845162108,
      "loss": 2.7347,
      "step": 1463
    },
    {
      "epoch": 0.187392,
      "grad_norm": 0.5662972927093506,
      "learning_rate": 0.0009364769951451044,
      "loss": 2.6568,
      "step": 1464
    },
    {
      "epoch": 0.18752,
      "grad_norm": 0.5133744478225708,
      "learning_rate": 0.0009363758307385422,
      "loss": 2.6676,
      "step": 1465
    },
    {
      "epoch": 0.187648,
      "grad_norm": 0.5598733425140381,
      "learning_rate": 0.0009362745913139159,
      "loss": 2.8491,
      "step": 1466
    },
    {
      "epoch": 0.187776,
      "grad_norm": 0.5450116395950317,
      "learning_rate": 0.0009361732768886298,
      "loss": 2.7819,
      "step": 1467
    },
    {
      "epoch": 0.187904,
      "grad_norm": 0.4593329429626465,
      "learning_rate": 0.0009360718874801006,
      "loss": 2.583,
      "step": 1468
    },
    {
      "epoch": 0.188032,
      "grad_norm": 0.4490441381931305,
      "learning_rate": 0.0009359704231057586,
      "loss": 2.6676,
      "step": 1469
    },
    {
      "epoch": 0.18816,
      "grad_norm": 0.501736044883728,
      "learning_rate": 0.0009358688837830468,
      "loss": 2.828,
      "step": 1470
    },
    {
      "epoch": 0.188288,
      "grad_norm": 0.5189395546913147,
      "learning_rate": 0.0009357672695294208,
      "loss": 2.7485,
      "step": 1471
    },
    {
      "epoch": 0.188416,
      "grad_norm": 0.48374679684638977,
      "learning_rate": 0.0009356655803623492,
      "loss": 2.7258,
      "step": 1472
    },
    {
      "epoch": 0.188544,
      "grad_norm": 0.4838624894618988,
      "learning_rate": 0.0009355638162993139,
      "loss": 2.7442,
      "step": 1473
    },
    {
      "epoch": 0.188672,
      "grad_norm": 0.5070748925209045,
      "learning_rate": 0.0009354619773578088,
      "loss": 2.7296,
      "step": 1474
    },
    {
      "epoch": 0.1888,
      "grad_norm": 0.6075478792190552,
      "learning_rate": 0.0009353600635553416,
      "loss": 2.7658,
      "step": 1475
    },
    {
      "epoch": 0.188928,
      "grad_norm": 0.5110433101654053,
      "learning_rate": 0.0009352580749094324,
      "loss": 2.6851,
      "step": 1476
    },
    {
      "epoch": 0.189056,
      "grad_norm": 0.541384220123291,
      "learning_rate": 0.0009351560114376142,
      "loss": 2.6935,
      "step": 1477
    },
    {
      "epoch": 0.189184,
      "grad_norm": 0.5393385291099548,
      "learning_rate": 0.0009350538731574329,
      "loss": 2.7369,
      "step": 1478
    },
    {
      "epoch": 0.189312,
      "grad_norm": 0.532114565372467,
      "learning_rate": 0.0009349516600864471,
      "loss": 2.8458,
      "step": 1479
    },
    {
      "epoch": 0.18944,
      "grad_norm": 0.531114935874939,
      "learning_rate": 0.0009348493722422287,
      "loss": 2.788,
      "step": 1480
    },
    {
      "epoch": 0.189568,
      "grad_norm": 0.522809624671936,
      "learning_rate": 0.0009347470096423618,
      "loss": 2.8214,
      "step": 1481
    },
    {
      "epoch": 0.189696,
      "grad_norm": 0.4789174199104309,
      "learning_rate": 0.0009346445723044441,
      "loss": 2.715,
      "step": 1482
    },
    {
      "epoch": 0.189824,
      "grad_norm": 0.5195133090019226,
      "learning_rate": 0.0009345420602460855,
      "loss": 2.6251,
      "step": 1483
    },
    {
      "epoch": 0.189952,
      "grad_norm": 0.5043891072273254,
      "learning_rate": 0.0009344394734849091,
      "loss": 2.6941,
      "step": 1484
    },
    {
      "epoch": 0.19008,
      "grad_norm": 0.48794808983802795,
      "learning_rate": 0.0009343368120385507,
      "loss": 2.7438,
      "step": 1485
    },
    {
      "epoch": 0.190208,
      "grad_norm": 0.5698238015174866,
      "learning_rate": 0.0009342340759246591,
      "loss": 2.7271,
      "step": 1486
    },
    {
      "epoch": 0.190336,
      "grad_norm": 0.49419325590133667,
      "learning_rate": 0.0009341312651608958,
      "loss": 2.7136,
      "step": 1487
    },
    {
      "epoch": 0.190464,
      "grad_norm": 0.5340306758880615,
      "learning_rate": 0.0009340283797649352,
      "loss": 2.7297,
      "step": 1488
    },
    {
      "epoch": 0.190592,
      "grad_norm": 1.4827706813812256,
      "learning_rate": 0.0009339254197544642,
      "loss": 2.7749,
      "step": 1489
    },
    {
      "epoch": 0.19072,
      "grad_norm": 0.5436127781867981,
      "learning_rate": 0.0009338223851471832,
      "loss": 2.6977,
      "step": 1490
    },
    {
      "epoch": 0.190848,
      "grad_norm": 0.4727877676486969,
      "learning_rate": 0.0009337192759608049,
      "loss": 2.6271,
      "step": 1491
    },
    {
      "epoch": 0.190976,
      "grad_norm": 0.4997248947620392,
      "learning_rate": 0.000933616092213055,
      "loss": 2.742,
      "step": 1492
    },
    {
      "epoch": 0.191104,
      "grad_norm": 0.520238995552063,
      "learning_rate": 0.0009335128339216719,
      "loss": 2.7805,
      "step": 1493
    },
    {
      "epoch": 0.191232,
      "grad_norm": 0.5490902066230774,
      "learning_rate": 0.0009334095011044069,
      "loss": 2.6745,
      "step": 1494
    },
    {
      "epoch": 0.19136,
      "grad_norm": 0.4969743490219116,
      "learning_rate": 0.0009333060937790242,
      "loss": 2.6698,
      "step": 1495
    },
    {
      "epoch": 0.191488,
      "grad_norm": 0.5470181703567505,
      "learning_rate": 0.0009332026119633006,
      "loss": 2.7216,
      "step": 1496
    },
    {
      "epoch": 0.191616,
      "grad_norm": 0.4736802577972412,
      "learning_rate": 0.000933099055675026,
      "loss": 2.6938,
      "step": 1497
    },
    {
      "epoch": 0.191744,
      "grad_norm": 0.49985548853874207,
      "learning_rate": 0.0009329954249320027,
      "loss": 2.6426,
      "step": 1498
    },
    {
      "epoch": 0.191872,
      "grad_norm": 0.49970996379852295,
      "learning_rate": 0.0009328917197520461,
      "loss": 2.5925,
      "step": 1499
    },
    {
      "epoch": 0.192,
      "grad_norm": 0.5060126185417175,
      "learning_rate": 0.0009327879401529846,
      "loss": 2.7444,
      "step": 1500
    },
    {
      "epoch": 0.192128,
      "grad_norm": 0.6337973475456238,
      "learning_rate": 0.0009326840861526586,
      "loss": 2.5866,
      "step": 1501
    },
    {
      "epoch": 0.192256,
      "grad_norm": 0.5450189709663391,
      "learning_rate": 0.0009325801577689223,
      "loss": 2.6797,
      "step": 1502
    },
    {
      "epoch": 0.192384,
      "grad_norm": 0.5203096866607666,
      "learning_rate": 0.0009324761550196419,
      "loss": 2.6704,
      "step": 1503
    },
    {
      "epoch": 0.192512,
      "grad_norm": 0.5278809666633606,
      "learning_rate": 0.0009323720779226967,
      "loss": 2.8067,
      "step": 1504
    },
    {
      "epoch": 0.19264,
      "grad_norm": 0.5292864441871643,
      "learning_rate": 0.0009322679264959789,
      "loss": 2.6443,
      "step": 1505
    },
    {
      "epoch": 0.192768,
      "grad_norm": 0.491000771522522,
      "learning_rate": 0.000932163700757393,
      "loss": 2.6919,
      "step": 1506
    },
    {
      "epoch": 0.192896,
      "grad_norm": 0.49328556656837463,
      "learning_rate": 0.0009320594007248573,
      "loss": 2.8257,
      "step": 1507
    },
    {
      "epoch": 0.193024,
      "grad_norm": 0.5112719535827637,
      "learning_rate": 0.0009319550264163015,
      "loss": 2.7049,
      "step": 1508
    },
    {
      "epoch": 0.193152,
      "grad_norm": 0.4752156436443329,
      "learning_rate": 0.0009318505778496691,
      "loss": 2.7208,
      "step": 1509
    },
    {
      "epoch": 0.19328,
      "grad_norm": 0.5404900312423706,
      "learning_rate": 0.0009317460550429159,
      "loss": 2.7189,
      "step": 1510
    },
    {
      "epoch": 0.193408,
      "grad_norm": 0.5157476663589478,
      "learning_rate": 0.0009316414580140105,
      "loss": 2.6922,
      "step": 1511
    },
    {
      "epoch": 0.193536,
      "grad_norm": 0.532783567905426,
      "learning_rate": 0.0009315367867809345,
      "loss": 2.7246,
      "step": 1512
    },
    {
      "epoch": 0.193664,
      "grad_norm": 0.4833373427391052,
      "learning_rate": 0.0009314320413616821,
      "loss": 2.6721,
      "step": 1513
    },
    {
      "epoch": 0.193792,
      "grad_norm": 0.49707120656967163,
      "learning_rate": 0.0009313272217742603,
      "loss": 2.6973,
      "step": 1514
    },
    {
      "epoch": 0.19392,
      "grad_norm": 0.48326271772384644,
      "learning_rate": 0.0009312223280366885,
      "loss": 2.646,
      "step": 1515
    },
    {
      "epoch": 0.194048,
      "grad_norm": 0.49598315358161926,
      "learning_rate": 0.0009311173601669996,
      "loss": 2.692,
      "step": 1516
    },
    {
      "epoch": 0.194176,
      "grad_norm": 0.5122969150543213,
      "learning_rate": 0.0009310123181832382,
      "loss": 2.6805,
      "step": 1517
    },
    {
      "epoch": 0.194304,
      "grad_norm": 0.5068203210830688,
      "learning_rate": 0.0009309072021034628,
      "loss": 2.7409,
      "step": 1518
    },
    {
      "epoch": 0.194432,
      "grad_norm": 0.4726967513561249,
      "learning_rate": 0.0009308020119457439,
      "loss": 2.7173,
      "step": 1519
    },
    {
      "epoch": 0.19456,
      "grad_norm": 0.5905122756958008,
      "learning_rate": 0.0009306967477281647,
      "loss": 2.5857,
      "step": 1520
    },
    {
      "epoch": 0.194688,
      "grad_norm": 0.510711133480072,
      "learning_rate": 0.0009305914094688216,
      "loss": 2.6798,
      "step": 1521
    },
    {
      "epoch": 0.194816,
      "grad_norm": 0.525452733039856,
      "learning_rate": 0.0009304859971858233,
      "loss": 2.7151,
      "step": 1522
    },
    {
      "epoch": 0.194944,
      "grad_norm": 0.5141806602478027,
      "learning_rate": 0.0009303805108972916,
      "loss": 2.674,
      "step": 1523
    },
    {
      "epoch": 0.195072,
      "grad_norm": 0.5417312383651733,
      "learning_rate": 0.0009302749506213606,
      "loss": 2.8284,
      "step": 1524
    },
    {
      "epoch": 0.1952,
      "grad_norm": 0.49815842509269714,
      "learning_rate": 0.0009301693163761773,
      "loss": 2.7058,
      "step": 1525
    },
    {
      "epoch": 0.195328,
      "grad_norm": 0.5404210686683655,
      "learning_rate": 0.0009300636081799017,
      "loss": 2.781,
      "step": 1526
    },
    {
      "epoch": 0.195456,
      "grad_norm": 0.5017451047897339,
      "learning_rate": 0.0009299578260507061,
      "loss": 2.7918,
      "step": 1527
    },
    {
      "epoch": 0.195584,
      "grad_norm": 0.5504072904586792,
      "learning_rate": 0.0009298519700067757,
      "loss": 2.7331,
      "step": 1528
    },
    {
      "epoch": 0.195712,
      "grad_norm": 0.496313214302063,
      "learning_rate": 0.0009297460400663084,
      "loss": 2.7473,
      "step": 1529
    },
    {
      "epoch": 0.19584,
      "grad_norm": 0.5186164379119873,
      "learning_rate": 0.0009296400362475148,
      "loss": 2.5715,
      "step": 1530
    },
    {
      "epoch": 0.195968,
      "grad_norm": 0.536314845085144,
      "learning_rate": 0.000929533958568618,
      "loss": 2.8085,
      "step": 1531
    },
    {
      "epoch": 0.196096,
      "grad_norm": 0.486144483089447,
      "learning_rate": 0.0009294278070478544,
      "loss": 2.7902,
      "step": 1532
    },
    {
      "epoch": 0.196224,
      "grad_norm": 0.49403271079063416,
      "learning_rate": 0.0009293215817034722,
      "loss": 2.7623,
      "step": 1533
    },
    {
      "epoch": 0.196352,
      "grad_norm": 0.6271544694900513,
      "learning_rate": 0.000929215282553733,
      "loss": 2.8124,
      "step": 1534
    },
    {
      "epoch": 0.19648,
      "grad_norm": 0.4981871247291565,
      "learning_rate": 0.0009291089096169109,
      "loss": 2.7093,
      "step": 1535
    },
    {
      "epoch": 0.196608,
      "grad_norm": 0.4876209497451782,
      "learning_rate": 0.0009290024629112926,
      "loss": 2.7779,
      "step": 1536
    },
    {
      "epoch": 0.196736,
      "grad_norm": 0.4781985282897949,
      "learning_rate": 0.0009288959424551774,
      "loss": 2.7636,
      "step": 1537
    },
    {
      "epoch": 0.196864,
      "grad_norm": 0.4973039925098419,
      "learning_rate": 0.0009287893482668774,
      "loss": 2.6968,
      "step": 1538
    },
    {
      "epoch": 0.196992,
      "grad_norm": 0.5199362635612488,
      "learning_rate": 0.0009286826803647177,
      "loss": 2.8066,
      "step": 1539
    },
    {
      "epoch": 0.19712,
      "grad_norm": 0.49128594994544983,
      "learning_rate": 0.0009285759387670356,
      "loss": 2.783,
      "step": 1540
    },
    {
      "epoch": 0.197248,
      "grad_norm": 0.5456224083900452,
      "learning_rate": 0.0009284691234921809,
      "loss": 2.8014,
      "step": 1541
    },
    {
      "epoch": 0.197376,
      "grad_norm": 0.5295675992965698,
      "learning_rate": 0.0009283622345585168,
      "loss": 2.6769,
      "step": 1542
    },
    {
      "epoch": 0.197504,
      "grad_norm": 0.5259669423103333,
      "learning_rate": 0.0009282552719844185,
      "loss": 2.8488,
      "step": 1543
    },
    {
      "epoch": 0.197632,
      "grad_norm": 0.5697319507598877,
      "learning_rate": 0.0009281482357882743,
      "loss": 2.8032,
      "step": 1544
    },
    {
      "epoch": 0.19776,
      "grad_norm": 1.0174616575241089,
      "learning_rate": 0.0009280411259884846,
      "loss": 2.6371,
      "step": 1545
    },
    {
      "epoch": 0.197888,
      "grad_norm": 0.5382570624351501,
      "learning_rate": 0.0009279339426034633,
      "loss": 2.6775,
      "step": 1546
    },
    {
      "epoch": 0.198016,
      "grad_norm": 0.5247347354888916,
      "learning_rate": 0.0009278266856516362,
      "loss": 2.7163,
      "step": 1547
    },
    {
      "epoch": 0.198144,
      "grad_norm": 0.5023019909858704,
      "learning_rate": 0.000927719355151442,
      "loss": 2.6788,
      "step": 1548
    },
    {
      "epoch": 0.198272,
      "grad_norm": 0.5511470437049866,
      "learning_rate": 0.0009276119511213321,
      "loss": 2.6923,
      "step": 1549
    },
    {
      "epoch": 0.1984,
      "grad_norm": 0.5170549154281616,
      "learning_rate": 0.0009275044735797705,
      "loss": 2.7388,
      "step": 1550
    },
    {
      "epoch": 0.198528,
      "grad_norm": 0.5488756895065308,
      "learning_rate": 0.0009273969225452339,
      "loss": 2.7788,
      "step": 1551
    },
    {
      "epoch": 0.198656,
      "grad_norm": 0.47534018754959106,
      "learning_rate": 0.0009272892980362114,
      "loss": 2.7991,
      "step": 1552
    },
    {
      "epoch": 0.198784,
      "grad_norm": 0.4712287187576294,
      "learning_rate": 0.000927181600071205,
      "loss": 2.7858,
      "step": 1553
    },
    {
      "epoch": 0.198912,
      "grad_norm": 0.5141199231147766,
      "learning_rate": 0.0009270738286687293,
      "loss": 2.7478,
      "step": 1554
    },
    {
      "epoch": 0.19904,
      "grad_norm": 0.4998721480369568,
      "learning_rate": 0.0009269659838473113,
      "loss": 2.8155,
      "step": 1555
    },
    {
      "epoch": 0.199168,
      "grad_norm": 0.5073792338371277,
      "learning_rate": 0.0009268580656254911,
      "loss": 2.6663,
      "step": 1556
    },
    {
      "epoch": 0.199296,
      "grad_norm": 0.5562565922737122,
      "learning_rate": 0.0009267500740218205,
      "loss": 2.7022,
      "step": 1557
    },
    {
      "epoch": 0.199424,
      "grad_norm": 0.5039071440696716,
      "learning_rate": 0.000926642009054865,
      "loss": 2.8206,
      "step": 1558
    },
    {
      "epoch": 0.199552,
      "grad_norm": 0.5086285471916199,
      "learning_rate": 0.0009265338707432023,
      "loss": 2.6895,
      "step": 1559
    },
    {
      "epoch": 0.19968,
      "grad_norm": 0.48553040623664856,
      "learning_rate": 0.0009264256591054222,
      "loss": 2.726,
      "step": 1560
    },
    {
      "epoch": 0.199808,
      "grad_norm": 0.4982103705406189,
      "learning_rate": 0.0009263173741601279,
      "loss": 2.612,
      "step": 1561
    },
    {
      "epoch": 0.199936,
      "grad_norm": 0.4731203019618988,
      "learning_rate": 0.0009262090159259344,
      "loss": 2.6882,
      "step": 1562
    },
    {
      "epoch": 0.200064,
      "grad_norm": 0.5084137916564941,
      "learning_rate": 0.0009261005844214703,
      "loss": 2.7828,
      "step": 1563
    },
    {
      "epoch": 0.200192,
      "grad_norm": 0.515082061290741,
      "learning_rate": 0.0009259920796653758,
      "loss": 2.7966,
      "step": 1564
    },
    {
      "epoch": 0.20032,
      "grad_norm": 0.4786331355571747,
      "learning_rate": 0.0009258835016763043,
      "loss": 2.7111,
      "step": 1565
    },
    {
      "epoch": 0.200448,
      "grad_norm": 0.4704306423664093,
      "learning_rate": 0.0009257748504729218,
      "loss": 2.7158,
      "step": 1566
    },
    {
      "epoch": 0.200576,
      "grad_norm": 0.48898518085479736,
      "learning_rate": 0.0009256661260739063,
      "loss": 2.7821,
      "step": 1567
    },
    {
      "epoch": 0.200704,
      "grad_norm": 0.4694942533969879,
      "learning_rate": 0.000925557328497949,
      "loss": 2.725,
      "step": 1568
    },
    {
      "epoch": 0.200832,
      "grad_norm": 0.477476567029953,
      "learning_rate": 0.0009254484577637534,
      "loss": 2.6343,
      "step": 1569
    },
    {
      "epoch": 0.20096,
      "grad_norm": 0.5026705861091614,
      "learning_rate": 0.0009253395138900358,
      "loss": 2.5629,
      "step": 1570
    },
    {
      "epoch": 0.201088,
      "grad_norm": 0.4898734986782074,
      "learning_rate": 0.0009252304968955247,
      "loss": 2.6414,
      "step": 1571
    },
    {
      "epoch": 0.201216,
      "grad_norm": 0.5393045544624329,
      "learning_rate": 0.0009251214067989616,
      "loss": 2.7364,
      "step": 1572
    },
    {
      "epoch": 0.201344,
      "grad_norm": 0.5332880616188049,
      "learning_rate": 0.0009250122436191002,
      "loss": 2.6637,
      "step": 1573
    },
    {
      "epoch": 0.201472,
      "grad_norm": 0.5199629068374634,
      "learning_rate": 0.0009249030073747069,
      "loss": 2.7385,
      "step": 1574
    },
    {
      "epoch": 0.2016,
      "grad_norm": 0.5299776196479797,
      "learning_rate": 0.0009247936980845608,
      "loss": 2.6892,
      "step": 1575
    },
    {
      "epoch": 0.201728,
      "grad_norm": 0.5215404629707336,
      "learning_rate": 0.0009246843157674534,
      "loss": 2.6646,
      "step": 1576
    },
    {
      "epoch": 0.201856,
      "grad_norm": 0.48766472935676575,
      "learning_rate": 0.0009245748604421886,
      "loss": 2.7303,
      "step": 1577
    },
    {
      "epoch": 0.201984,
      "grad_norm": 0.4862951338291168,
      "learning_rate": 0.0009244653321275833,
      "loss": 2.7197,
      "step": 1578
    },
    {
      "epoch": 0.202112,
      "grad_norm": 0.5157526731491089,
      "learning_rate": 0.0009243557308424666,
      "loss": 2.7903,
      "step": 1579
    },
    {
      "epoch": 0.20224,
      "grad_norm": 0.5118906497955322,
      "learning_rate": 0.0009242460566056803,
      "loss": 2.6741,
      "step": 1580
    },
    {
      "epoch": 0.202368,
      "grad_norm": 0.4863028824329376,
      "learning_rate": 0.0009241363094360784,
      "loss": 2.7032,
      "step": 1581
    },
    {
      "epoch": 0.202496,
      "grad_norm": 0.5012673735618591,
      "learning_rate": 0.0009240264893525281,
      "loss": 2.8195,
      "step": 1582
    },
    {
      "epoch": 0.202624,
      "grad_norm": 0.5197561979293823,
      "learning_rate": 0.0009239165963739084,
      "loss": 2.7704,
      "step": 1583
    },
    {
      "epoch": 0.202752,
      "grad_norm": 0.4771219491958618,
      "learning_rate": 0.0009238066305191113,
      "loss": 2.7317,
      "step": 1584
    },
    {
      "epoch": 0.20288,
      "grad_norm": 0.5363866090774536,
      "learning_rate": 0.0009236965918070412,
      "loss": 2.7397,
      "step": 1585
    },
    {
      "epoch": 0.203008,
      "grad_norm": 0.49558088183403015,
      "learning_rate": 0.0009235864802566152,
      "loss": 2.6896,
      "step": 1586
    },
    {
      "epoch": 0.203136,
      "grad_norm": 0.45999273657798767,
      "learning_rate": 0.0009234762958867626,
      "loss": 2.657,
      "step": 1587
    },
    {
      "epoch": 0.203264,
      "grad_norm": 0.5227340459823608,
      "learning_rate": 0.0009233660387164254,
      "loss": 2.676,
      "step": 1588
    },
    {
      "epoch": 0.203392,
      "grad_norm": 0.4883597791194916,
      "learning_rate": 0.0009232557087645579,
      "loss": 2.6467,
      "step": 1589
    },
    {
      "epoch": 0.20352,
      "grad_norm": 0.5036447644233704,
      "learning_rate": 0.0009231453060501274,
      "loss": 2.7113,
      "step": 1590
    },
    {
      "epoch": 0.203648,
      "grad_norm": 0.5127763152122498,
      "learning_rate": 0.0009230348305921131,
      "loss": 2.7783,
      "step": 1591
    },
    {
      "epoch": 0.203776,
      "grad_norm": 0.4952971637248993,
      "learning_rate": 0.0009229242824095073,
      "loss": 2.7979,
      "step": 1592
    },
    {
      "epoch": 0.203904,
      "grad_norm": 0.4979107975959778,
      "learning_rate": 0.0009228136615213144,
      "loss": 2.7406,
      "step": 1593
    },
    {
      "epoch": 0.204032,
      "grad_norm": 0.5206822752952576,
      "learning_rate": 0.0009227029679465514,
      "loss": 2.7195,
      "step": 1594
    },
    {
      "epoch": 0.20416,
      "grad_norm": 1.8055142164230347,
      "learning_rate": 0.0009225922017042479,
      "loss": 2.6688,
      "step": 1595
    },
    {
      "epoch": 0.204288,
      "grad_norm": 0.48497408628463745,
      "learning_rate": 0.0009224813628134457,
      "loss": 2.7418,
      "step": 1596
    },
    {
      "epoch": 0.204416,
      "grad_norm": 0.5060316920280457,
      "learning_rate": 0.0009223704512931994,
      "loss": 2.7503,
      "step": 1597
    },
    {
      "epoch": 0.204544,
      "grad_norm": 0.44671139121055603,
      "learning_rate": 0.0009222594671625759,
      "loss": 2.6684,
      "step": 1598
    },
    {
      "epoch": 0.204672,
      "grad_norm": 0.4594515562057495,
      "learning_rate": 0.000922148410440655,
      "loss": 2.805,
      "step": 1599
    },
    {
      "epoch": 0.2048,
      "grad_norm": 0.5107131004333496,
      "learning_rate": 0.0009220372811465282,
      "loss": 2.7548,
      "step": 1600
    },
    {
      "epoch": 0.204928,
      "grad_norm": 0.5253934860229492,
      "learning_rate": 0.0009219260792993001,
      "loss": 2.7185,
      "step": 1601
    },
    {
      "epoch": 0.205056,
      "grad_norm": 0.5188928842544556,
      "learning_rate": 0.0009218148049180877,
      "loss": 2.7304,
      "step": 1602
    },
    {
      "epoch": 0.205184,
      "grad_norm": 0.5410025715827942,
      "learning_rate": 0.0009217034580220201,
      "loss": 2.7193,
      "step": 1603
    },
    {
      "epoch": 0.205312,
      "grad_norm": 0.5405521392822266,
      "learning_rate": 0.0009215920386302394,
      "loss": 2.7414,
      "step": 1604
    },
    {
      "epoch": 0.20544,
      "grad_norm": 0.4954742193222046,
      "learning_rate": 0.0009214805467618997,
      "loss": 2.7348,
      "step": 1605
    },
    {
      "epoch": 0.205568,
      "grad_norm": 0.4806280732154846,
      "learning_rate": 0.0009213689824361678,
      "loss": 2.8056,
      "step": 1606
    },
    {
      "epoch": 0.205696,
      "grad_norm": 0.4927608072757721,
      "learning_rate": 0.0009212573456722226,
      "loss": 2.8401,
      "step": 1607
    },
    {
      "epoch": 0.205824,
      "grad_norm": 0.535468339920044,
      "learning_rate": 0.0009211456364892564,
      "loss": 2.6778,
      "step": 1608
    },
    {
      "epoch": 0.205952,
      "grad_norm": 0.49953457713127136,
      "learning_rate": 0.0009210338549064728,
      "loss": 2.6531,
      "step": 1609
    },
    {
      "epoch": 0.20608,
      "grad_norm": 0.5149068236351013,
      "learning_rate": 0.0009209220009430885,
      "loss": 2.8186,
      "step": 1610
    },
    {
      "epoch": 0.206208,
      "grad_norm": 0.4722752571105957,
      "learning_rate": 0.0009208100746183326,
      "loss": 2.597,
      "step": 1611
    },
    {
      "epoch": 0.206336,
      "grad_norm": 0.6516020894050598,
      "learning_rate": 0.0009206980759514464,
      "loss": 2.7675,
      "step": 1612
    },
    {
      "epoch": 0.206464,
      "grad_norm": 0.4816444218158722,
      "learning_rate": 0.0009205860049616837,
      "loss": 2.6326,
      "step": 1613
    },
    {
      "epoch": 0.206592,
      "grad_norm": 0.49718815088272095,
      "learning_rate": 0.000920473861668311,
      "loss": 2.6551,
      "step": 1614
    },
    {
      "epoch": 0.20672,
      "grad_norm": 0.523030161857605,
      "learning_rate": 0.0009203616460906068,
      "loss": 2.7623,
      "step": 1615
    },
    {
      "epoch": 0.206848,
      "grad_norm": 0.48913678526878357,
      "learning_rate": 0.0009202493582478625,
      "loss": 2.6811,
      "step": 1616
    },
    {
      "epoch": 0.206976,
      "grad_norm": 0.4773763418197632,
      "learning_rate": 0.0009201369981593814,
      "loss": 2.7312,
      "step": 1617
    },
    {
      "epoch": 0.207104,
      "grad_norm": 0.48892298340797424,
      "learning_rate": 0.0009200245658444799,
      "loss": 2.7993,
      "step": 1618
    },
    {
      "epoch": 0.207232,
      "grad_norm": 0.552483081817627,
      "learning_rate": 0.0009199120613224861,
      "loss": 2.5841,
      "step": 1619
    },
    {
      "epoch": 0.20736,
      "grad_norm": 0.45985525846481323,
      "learning_rate": 0.0009197994846127409,
      "loss": 2.7143,
      "step": 1620
    },
    {
      "epoch": 0.207488,
      "grad_norm": 0.4986020624637604,
      "learning_rate": 0.0009196868357345976,
      "loss": 2.8637,
      "step": 1621
    },
    {
      "epoch": 0.207616,
      "grad_norm": 0.4979929029941559,
      "learning_rate": 0.0009195741147074217,
      "loss": 2.8082,
      "step": 1622
    },
    {
      "epoch": 0.207744,
      "grad_norm": 0.4816462993621826,
      "learning_rate": 0.0009194613215505915,
      "loss": 2.6818,
      "step": 1623
    },
    {
      "epoch": 0.207872,
      "grad_norm": 0.4977605938911438,
      "learning_rate": 0.0009193484562834973,
      "loss": 2.6962,
      "step": 1624
    },
    {
      "epoch": 0.208,
      "grad_norm": 0.517077624797821,
      "learning_rate": 0.0009192355189255418,
      "loss": 2.7364,
      "step": 1625
    },
    {
      "epoch": 0.208128,
      "grad_norm": 0.4650203585624695,
      "learning_rate": 0.0009191225094961407,
      "loss": 2.6132,
      "step": 1626
    },
    {
      "epoch": 0.208256,
      "grad_norm": 0.5310485363006592,
      "learning_rate": 0.000919009428014721,
      "loss": 2.725,
      "step": 1627
    },
    {
      "epoch": 0.208384,
      "grad_norm": 0.4867076277732849,
      "learning_rate": 0.0009188962745007233,
      "loss": 2.7178,
      "step": 1628
    },
    {
      "epoch": 0.208512,
      "grad_norm": 0.4977739751338959,
      "learning_rate": 0.0009187830489735995,
      "loss": 2.7042,
      "step": 1629
    },
    {
      "epoch": 0.20864,
      "grad_norm": 0.4816909730434418,
      "learning_rate": 0.0009186697514528148,
      "loss": 2.7434,
      "step": 1630
    },
    {
      "epoch": 0.208768,
      "grad_norm": 0.504505455493927,
      "learning_rate": 0.0009185563819578462,
      "loss": 2.7163,
      "step": 1631
    },
    {
      "epoch": 0.208896,
      "grad_norm": 0.4770968556404114,
      "learning_rate": 0.0009184429405081832,
      "loss": 2.7333,
      "step": 1632
    },
    {
      "epoch": 0.209024,
      "grad_norm": 0.4975874423980713,
      "learning_rate": 0.0009183294271233277,
      "loss": 2.774,
      "step": 1633
    },
    {
      "epoch": 0.209152,
      "grad_norm": 0.45760002732276917,
      "learning_rate": 0.000918215841822794,
      "loss": 2.7574,
      "step": 1634
    },
    {
      "epoch": 0.20928,
      "grad_norm": 0.4797506332397461,
      "learning_rate": 0.0009181021846261087,
      "loss": 2.575,
      "step": 1635
    },
    {
      "epoch": 0.209408,
      "grad_norm": 0.5038858652114868,
      "learning_rate": 0.0009179884555528109,
      "loss": 2.6666,
      "step": 1636
    },
    {
      "epoch": 0.209536,
      "grad_norm": 0.48638707399368286,
      "learning_rate": 0.0009178746546224517,
      "loss": 2.7228,
      "step": 1637
    },
    {
      "epoch": 0.209664,
      "grad_norm": 0.5366789102554321,
      "learning_rate": 0.000917760781854595,
      "loss": 2.7071,
      "step": 1638
    },
    {
      "epoch": 0.209792,
      "grad_norm": 0.4757966101169586,
      "learning_rate": 0.0009176468372688168,
      "loss": 2.7752,
      "step": 1639
    },
    {
      "epoch": 0.20992,
      "grad_norm": 0.5121710896492004,
      "learning_rate": 0.0009175328208847056,
      "loss": 2.7303,
      "step": 1640
    },
    {
      "epoch": 0.210048,
      "grad_norm": 0.4564403295516968,
      "learning_rate": 0.000917418732721862,
      "loss": 2.8283,
      "step": 1641
    },
    {
      "epoch": 0.210176,
      "grad_norm": 0.4536215364933014,
      "learning_rate": 0.000917304572799899,
      "loss": 2.8242,
      "step": 1642
    },
    {
      "epoch": 0.210304,
      "grad_norm": 0.5086641311645508,
      "learning_rate": 0.0009171903411384422,
      "loss": 2.7743,
      "step": 1643
    },
    {
      "epoch": 0.210432,
      "grad_norm": 0.4857863485813141,
      "learning_rate": 0.0009170760377571292,
      "loss": 2.5804,
      "step": 1644
    },
    {
      "epoch": 0.21056,
      "grad_norm": 0.47852516174316406,
      "learning_rate": 0.0009169616626756102,
      "loss": 2.7437,
      "step": 1645
    },
    {
      "epoch": 0.210688,
      "grad_norm": 0.48391979932785034,
      "learning_rate": 0.0009168472159135476,
      "loss": 2.7846,
      "step": 1646
    },
    {
      "epoch": 0.210816,
      "grad_norm": 0.4895362854003906,
      "learning_rate": 0.000916732697490616,
      "loss": 2.7125,
      "step": 1647
    },
    {
      "epoch": 0.210944,
      "grad_norm": 0.5305505990982056,
      "learning_rate": 0.0009166181074265025,
      "loss": 2.6673,
      "step": 1648
    },
    {
      "epoch": 0.211072,
      "grad_norm": 0.49538740515708923,
      "learning_rate": 0.0009165034457409066,
      "loss": 2.6229,
      "step": 1649
    },
    {
      "epoch": 0.2112,
      "grad_norm": 0.51105797290802,
      "learning_rate": 0.0009163887124535397,
      "loss": 2.7668,
      "step": 1650
    },
    {
      "epoch": 0.211328,
      "grad_norm": 0.4994795620441437,
      "learning_rate": 0.0009162739075841262,
      "loss": 2.6918,
      "step": 1651
    },
    {
      "epoch": 0.211456,
      "grad_norm": 0.5003200769424438,
      "learning_rate": 0.000916159031152402,
      "loss": 2.8022,
      "step": 1652
    },
    {
      "epoch": 0.211584,
      "grad_norm": 0.5101814866065979,
      "learning_rate": 0.0009160440831781157,
      "loss": 2.6904,
      "step": 1653
    },
    {
      "epoch": 0.211712,
      "grad_norm": 0.4777144491672516,
      "learning_rate": 0.0009159290636810283,
      "loss": 2.7961,
      "step": 1654
    },
    {
      "epoch": 0.21184,
      "grad_norm": 0.4953049123287201,
      "learning_rate": 0.0009158139726809132,
      "loss": 2.7699,
      "step": 1655
    },
    {
      "epoch": 0.211968,
      "grad_norm": 0.4804935157299042,
      "learning_rate": 0.0009156988101975554,
      "loss": 2.7893,
      "step": 1656
    },
    {
      "epoch": 0.212096,
      "grad_norm": 0.5722693204879761,
      "learning_rate": 0.0009155835762507531,
      "loss": 2.7567,
      "step": 1657
    },
    {
      "epoch": 0.212224,
      "grad_norm": 0.48413094878196716,
      "learning_rate": 0.0009154682708603162,
      "loss": 2.6531,
      "step": 1658
    },
    {
      "epoch": 0.212352,
      "grad_norm": 0.5032209753990173,
      "learning_rate": 0.0009153528940460669,
      "loss": 2.7561,
      "step": 1659
    },
    {
      "epoch": 0.21248,
      "grad_norm": 0.47263702750205994,
      "learning_rate": 0.0009152374458278401,
      "loss": 2.6328,
      "step": 1660
    },
    {
      "epoch": 0.212608,
      "grad_norm": 0.4537160098552704,
      "learning_rate": 0.0009151219262254825,
      "loss": 2.6818,
      "step": 1661
    },
    {
      "epoch": 0.212736,
      "grad_norm": 0.4818989932537079,
      "learning_rate": 0.0009150063352588531,
      "loss": 2.7425,
      "step": 1662
    },
    {
      "epoch": 0.212864,
      "grad_norm": 0.49463802576065063,
      "learning_rate": 0.0009148906729478236,
      "loss": 2.599,
      "step": 1663
    },
    {
      "epoch": 0.212992,
      "grad_norm": 0.4896506667137146,
      "learning_rate": 0.0009147749393122775,
      "loss": 2.7452,
      "step": 1664
    },
    {
      "epoch": 0.21312,
      "grad_norm": 0.5207012295722961,
      "learning_rate": 0.000914659134372111,
      "loss": 2.7703,
      "step": 1665
    },
    {
      "epoch": 0.213248,
      "grad_norm": 0.4732311964035034,
      "learning_rate": 0.0009145432581472322,
      "loss": 2.7265,
      "step": 1666
    },
    {
      "epoch": 0.213376,
      "grad_norm": 0.5151774287223816,
      "learning_rate": 0.0009144273106575613,
      "loss": 2.682,
      "step": 1667
    },
    {
      "epoch": 0.213504,
      "grad_norm": 0.47699737548828125,
      "learning_rate": 0.0009143112919230314,
      "loss": 2.7342,
      "step": 1668
    },
    {
      "epoch": 0.213632,
      "grad_norm": 0.49827322363853455,
      "learning_rate": 0.0009141952019635873,
      "loss": 2.8042,
      "step": 1669
    },
    {
      "epoch": 0.21376,
      "grad_norm": 0.5127480030059814,
      "learning_rate": 0.0009140790407991861,
      "loss": 2.798,
      "step": 1670
    },
    {
      "epoch": 0.213888,
      "grad_norm": 0.5141050815582275,
      "learning_rate": 0.0009139628084497975,
      "loss": 2.7258,
      "step": 1671
    },
    {
      "epoch": 0.214016,
      "grad_norm": 0.4724629521369934,
      "learning_rate": 0.0009138465049354031,
      "loss": 2.7107,
      "step": 1672
    },
    {
      "epoch": 0.214144,
      "grad_norm": 0.48216480016708374,
      "learning_rate": 0.0009137301302759968,
      "loss": 2.7142,
      "step": 1673
    },
    {
      "epoch": 0.214272,
      "grad_norm": 0.4777752459049225,
      "learning_rate": 0.0009136136844915846,
      "loss": 2.7938,
      "step": 1674
    },
    {
      "epoch": 0.2144,
      "grad_norm": 0.4968217611312866,
      "learning_rate": 0.000913497167602185,
      "loss": 2.7763,
      "step": 1675
    },
    {
      "epoch": 0.214528,
      "grad_norm": 0.5042012929916382,
      "learning_rate": 0.0009133805796278287,
      "loss": 2.7035,
      "step": 1676
    },
    {
      "epoch": 0.214656,
      "grad_norm": 0.5105190873146057,
      "learning_rate": 0.0009132639205885585,
      "loss": 2.712,
      "step": 1677
    },
    {
      "epoch": 0.214784,
      "grad_norm": 0.5282621383666992,
      "learning_rate": 0.0009131471905044293,
      "loss": 2.6922,
      "step": 1678
    },
    {
      "epoch": 0.214912,
      "grad_norm": 0.5329172015190125,
      "learning_rate": 0.0009130303893955084,
      "loss": 2.7294,
      "step": 1679
    },
    {
      "epoch": 0.21504,
      "grad_norm": 0.5107693672180176,
      "learning_rate": 0.0009129135172818753,
      "loss": 2.7658,
      "step": 1680
    },
    {
      "epoch": 0.215168,
      "grad_norm": 0.4745052754878998,
      "learning_rate": 0.0009127965741836218,
      "loss": 2.6958,
      "step": 1681
    },
    {
      "epoch": 0.215296,
      "grad_norm": 0.4554528594017029,
      "learning_rate": 0.0009126795601208515,
      "loss": 2.7546,
      "step": 1682
    },
    {
      "epoch": 0.215424,
      "grad_norm": 0.4587023854255676,
      "learning_rate": 0.0009125624751136807,
      "loss": 2.7202,
      "step": 1683
    },
    {
      "epoch": 0.215552,
      "grad_norm": 0.46836498379707336,
      "learning_rate": 0.0009124453191822376,
      "loss": 2.7142,
      "step": 1684
    },
    {
      "epoch": 0.21568,
      "grad_norm": 0.4705623388290405,
      "learning_rate": 0.0009123280923466626,
      "loss": 2.657,
      "step": 1685
    },
    {
      "epoch": 0.215808,
      "grad_norm": 0.4892677664756775,
      "learning_rate": 0.0009122107946271086,
      "loss": 2.6662,
      "step": 1686
    },
    {
      "epoch": 0.215936,
      "grad_norm": 0.4697728157043457,
      "learning_rate": 0.00091209342604374,
      "loss": 2.7817,
      "step": 1687
    },
    {
      "epoch": 0.216064,
      "grad_norm": 0.4955008029937744,
      "learning_rate": 0.000911975986616734,
      "loss": 2.7437,
      "step": 1688
    },
    {
      "epoch": 0.216192,
      "grad_norm": 0.49621206521987915,
      "learning_rate": 0.0009118584763662803,
      "loss": 2.6792,
      "step": 1689
    },
    {
      "epoch": 0.21632,
      "grad_norm": 0.4963413178920746,
      "learning_rate": 0.0009117408953125795,
      "loss": 2.6325,
      "step": 1690
    },
    {
      "epoch": 0.216448,
      "grad_norm": 0.49829405546188354,
      "learning_rate": 0.0009116232434758456,
      "loss": 2.75,
      "step": 1691
    },
    {
      "epoch": 0.216576,
      "grad_norm": 0.5176740288734436,
      "learning_rate": 0.0009115055208763041,
      "loss": 2.7499,
      "step": 1692
    },
    {
      "epoch": 0.216704,
      "grad_norm": 0.49566948413848877,
      "learning_rate": 0.0009113877275341931,
      "loss": 2.6955,
      "step": 1693
    },
    {
      "epoch": 0.216832,
      "grad_norm": 0.4834267497062683,
      "learning_rate": 0.0009112698634697624,
      "loss": 2.6292,
      "step": 1694
    },
    {
      "epoch": 0.21696,
      "grad_norm": 0.4605399966239929,
      "learning_rate": 0.0009111519287032743,
      "loss": 2.7579,
      "step": 1695
    },
    {
      "epoch": 0.217088,
      "grad_norm": 0.5260927081108093,
      "learning_rate": 0.0009110339232550034,
      "loss": 2.7189,
      "step": 1696
    },
    {
      "epoch": 0.217216,
      "grad_norm": 0.609235405921936,
      "learning_rate": 0.0009109158471452357,
      "loss": 2.7684,
      "step": 1697
    },
    {
      "epoch": 0.217344,
      "grad_norm": 0.48174336552619934,
      "learning_rate": 0.0009107977003942702,
      "loss": 2.6889,
      "step": 1698
    },
    {
      "epoch": 0.217472,
      "grad_norm": 0.47987309098243713,
      "learning_rate": 0.0009106794830224179,
      "loss": 2.6513,
      "step": 1699
    },
    {
      "epoch": 0.2176,
      "grad_norm": 0.45430418848991394,
      "learning_rate": 0.0009105611950500012,
      "loss": 2.7722,
      "step": 1700
    },
    {
      "epoch": 0.217728,
      "grad_norm": 0.4571375250816345,
      "learning_rate": 0.0009104428364973553,
      "loss": 2.5869,
      "step": 1701
    },
    {
      "epoch": 0.217856,
      "grad_norm": 0.4649094343185425,
      "learning_rate": 0.0009103244073848278,
      "loss": 2.8701,
      "step": 1702
    },
    {
      "epoch": 0.217984,
      "grad_norm": 0.46396109461784363,
      "learning_rate": 0.0009102059077327778,
      "loss": 2.8337,
      "step": 1703
    },
    {
      "epoch": 0.218112,
      "grad_norm": 0.47230297327041626,
      "learning_rate": 0.0009100873375615765,
      "loss": 2.6588,
      "step": 1704
    },
    {
      "epoch": 0.21824,
      "grad_norm": 0.4641570746898651,
      "learning_rate": 0.0009099686968916082,
      "loss": 2.6571,
      "step": 1705
    },
    {
      "epoch": 0.218368,
      "grad_norm": 0.48356297612190247,
      "learning_rate": 0.0009098499857432676,
      "loss": 2.6832,
      "step": 1706
    },
    {
      "epoch": 0.218496,
      "grad_norm": 0.44782301783561707,
      "learning_rate": 0.0009097312041369634,
      "loss": 2.6548,
      "step": 1707
    },
    {
      "epoch": 0.218624,
      "grad_norm": 0.471437007188797,
      "learning_rate": 0.000909612352093115,
      "loss": 2.6576,
      "step": 1708
    },
    {
      "epoch": 0.218752,
      "grad_norm": 0.5174961686134338,
      "learning_rate": 0.0009094934296321549,
      "loss": 2.7318,
      "step": 1709
    },
    {
      "epoch": 0.21888,
      "grad_norm": 0.4873639643192291,
      "learning_rate": 0.0009093744367745267,
      "loss": 2.7454,
      "step": 1710
    },
    {
      "epoch": 0.219008,
      "grad_norm": 0.5357434153556824,
      "learning_rate": 0.0009092553735406871,
      "loss": 2.7493,
      "step": 1711
    },
    {
      "epoch": 0.219136,
      "grad_norm": 0.468637079000473,
      "learning_rate": 0.0009091362399511043,
      "loss": 2.6634,
      "step": 1712
    },
    {
      "epoch": 0.219264,
      "grad_norm": 0.4986487329006195,
      "learning_rate": 0.0009090170360262586,
      "loss": 2.7026,
      "step": 1713
    },
    {
      "epoch": 0.219392,
      "grad_norm": 0.5133845806121826,
      "learning_rate": 0.0009088977617866428,
      "loss": 2.7212,
      "step": 1714
    },
    {
      "epoch": 0.21952,
      "grad_norm": 0.45359718799591064,
      "learning_rate": 0.0009087784172527614,
      "loss": 2.6888,
      "step": 1715
    },
    {
      "epoch": 0.219648,
      "grad_norm": 0.47355058789253235,
      "learning_rate": 0.0009086590024451311,
      "loss": 2.6621,
      "step": 1716
    },
    {
      "epoch": 0.219776,
      "grad_norm": 0.5004047751426697,
      "learning_rate": 0.0009085395173842807,
      "loss": 2.7283,
      "step": 1717
    },
    {
      "epoch": 0.219904,
      "grad_norm": 0.49042728543281555,
      "learning_rate": 0.000908419962090751,
      "loss": 2.7538,
      "step": 1718
    },
    {
      "epoch": 0.220032,
      "grad_norm": 0.48293337225914,
      "learning_rate": 0.000908300336585095,
      "loss": 2.706,
      "step": 1719
    },
    {
      "epoch": 0.22016,
      "grad_norm": 0.5176761746406555,
      "learning_rate": 0.0009081806408878778,
      "loss": 2.751,
      "step": 1720
    },
    {
      "epoch": 0.220288,
      "grad_norm": 0.47931745648384094,
      "learning_rate": 0.0009080608750196764,
      "loss": 2.7141,
      "step": 1721
    },
    {
      "epoch": 0.220416,
      "grad_norm": 0.4496070146560669,
      "learning_rate": 0.0009079410390010798,
      "loss": 2.6905,
      "step": 1722
    },
    {
      "epoch": 0.220544,
      "grad_norm": 0.4794349670410156,
      "learning_rate": 0.0009078211328526895,
      "loss": 2.5588,
      "step": 1723
    },
    {
      "epoch": 0.220672,
      "grad_norm": 0.49355560541152954,
      "learning_rate": 0.0009077011565951185,
      "loss": 2.6443,
      "step": 1724
    },
    {
      "epoch": 0.2208,
      "grad_norm": 0.44691339135169983,
      "learning_rate": 0.0009075811102489923,
      "loss": 2.7473,
      "step": 1725
    },
    {
      "epoch": 0.220928,
      "grad_norm": 0.4451749622821808,
      "learning_rate": 0.0009074609938349481,
      "loss": 2.8328,
      "step": 1726
    },
    {
      "epoch": 0.221056,
      "grad_norm": 0.5054978132247925,
      "learning_rate": 0.0009073408073736354,
      "loss": 2.6735,
      "step": 1727
    },
    {
      "epoch": 0.221184,
      "grad_norm": 0.44962117075920105,
      "learning_rate": 0.0009072205508857154,
      "loss": 2.7374,
      "step": 1728
    },
    {
      "epoch": 0.221312,
      "grad_norm": 0.43604782223701477,
      "learning_rate": 0.0009071002243918621,
      "loss": 2.7005,
      "step": 1729
    },
    {
      "epoch": 0.22144,
      "grad_norm": 0.4896301031112671,
      "learning_rate": 0.0009069798279127605,
      "loss": 2.823,
      "step": 1730
    },
    {
      "epoch": 0.221568,
      "grad_norm": 0.46387600898742676,
      "learning_rate": 0.0009068593614691085,
      "loss": 2.7555,
      "step": 1731
    },
    {
      "epoch": 0.221696,
      "grad_norm": 0.4581175446510315,
      "learning_rate": 0.0009067388250816156,
      "loss": 2.7103,
      "step": 1732
    },
    {
      "epoch": 0.221824,
      "grad_norm": 0.48832064867019653,
      "learning_rate": 0.0009066182187710031,
      "loss": 2.8108,
      "step": 1733
    },
    {
      "epoch": 0.221952,
      "grad_norm": 0.4830259084701538,
      "learning_rate": 0.0009064975425580051,
      "loss": 2.5717,
      "step": 1734
    },
    {
      "epoch": 0.22208,
      "grad_norm": 0.4872790277004242,
      "learning_rate": 0.0009063767964633669,
      "loss": 2.7023,
      "step": 1735
    },
    {
      "epoch": 0.222208,
      "grad_norm": 0.5873993039131165,
      "learning_rate": 0.0009062559805078463,
      "loss": 2.6911,
      "step": 1736
    },
    {
      "epoch": 0.222336,
      "grad_norm": 0.5456323027610779,
      "learning_rate": 0.0009061350947122129,
      "loss": 2.6914,
      "step": 1737
    },
    {
      "epoch": 0.222464,
      "grad_norm": 0.4608169496059418,
      "learning_rate": 0.0009060141390972485,
      "loss": 2.6135,
      "step": 1738
    },
    {
      "epoch": 0.222592,
      "grad_norm": 0.5097144246101379,
      "learning_rate": 0.0009058931136837465,
      "loss": 2.7987,
      "step": 1739
    },
    {
      "epoch": 0.22272,
      "grad_norm": 0.4780523478984833,
      "learning_rate": 0.0009057720184925129,
      "loss": 2.7105,
      "step": 1740
    },
    {
      "epoch": 0.222848,
      "grad_norm": 0.4895017445087433,
      "learning_rate": 0.0009056508535443651,
      "loss": 2.6745,
      "step": 1741
    },
    {
      "epoch": 0.222976,
      "grad_norm": 0.47362020611763,
      "learning_rate": 0.0009055296188601329,
      "loss": 2.8304,
      "step": 1742
    },
    {
      "epoch": 0.223104,
      "grad_norm": 0.42356735467910767,
      "learning_rate": 0.0009054083144606579,
      "loss": 2.6222,
      "step": 1743
    },
    {
      "epoch": 0.223232,
      "grad_norm": 0.5338608026504517,
      "learning_rate": 0.0009052869403667938,
      "loss": 2.7944,
      "step": 1744
    },
    {
      "epoch": 0.22336,
      "grad_norm": 0.4547622799873352,
      "learning_rate": 0.000905165496599406,
      "loss": 2.7159,
      "step": 1745
    },
    {
      "epoch": 0.223488,
      "grad_norm": 0.5198718905448914,
      "learning_rate": 0.0009050439831793726,
      "loss": 2.7135,
      "step": 1746
    },
    {
      "epoch": 0.223616,
      "grad_norm": 0.47272372245788574,
      "learning_rate": 0.0009049224001275825,
      "loss": 2.7304,
      "step": 1747
    },
    {
      "epoch": 0.223744,
      "grad_norm": 0.47843754291534424,
      "learning_rate": 0.0009048007474649377,
      "loss": 2.7112,
      "step": 1748
    },
    {
      "epoch": 0.223872,
      "grad_norm": 0.5087753534317017,
      "learning_rate": 0.0009046790252123514,
      "loss": 2.6857,
      "step": 1749
    },
    {
      "epoch": 0.224,
      "grad_norm": 0.5151327848434448,
      "learning_rate": 0.0009045572333907495,
      "loss": 2.7779,
      "step": 1750
    },
    {
      "epoch": 0.224128,
      "grad_norm": 0.4713776409626007,
      "learning_rate": 0.000904435372021069,
      "loss": 2.7109,
      "step": 1751
    },
    {
      "epoch": 0.224256,
      "grad_norm": 0.6445677876472473,
      "learning_rate": 0.0009043134411242593,
      "loss": 2.6886,
      "step": 1752
    },
    {
      "epoch": 0.224384,
      "grad_norm": 0.4833824038505554,
      "learning_rate": 0.0009041914407212821,
      "loss": 2.7723,
      "step": 1753
    },
    {
      "epoch": 0.224512,
      "grad_norm": 0.5145895481109619,
      "learning_rate": 0.0009040693708331103,
      "loss": 2.6026,
      "step": 1754
    },
    {
      "epoch": 0.22464,
      "grad_norm": 0.4909721314907074,
      "learning_rate": 0.0009039472314807293,
      "loss": 2.7312,
      "step": 1755
    },
    {
      "epoch": 0.224768,
      "grad_norm": 0.5000162720680237,
      "learning_rate": 0.0009038250226851362,
      "loss": 2.7993,
      "step": 1756
    },
    {
      "epoch": 0.224896,
      "grad_norm": 0.48356184363365173,
      "learning_rate": 0.0009037027444673402,
      "loss": 2.6618,
      "step": 1757
    },
    {
      "epoch": 0.225024,
      "grad_norm": 0.5963442921638489,
      "learning_rate": 0.0009035803968483625,
      "loss": 2.7583,
      "step": 1758
    },
    {
      "epoch": 0.225152,
      "grad_norm": 0.4888549745082855,
      "learning_rate": 0.0009034579798492356,
      "loss": 2.6845,
      "step": 1759
    },
    {
      "epoch": 0.22528,
      "grad_norm": 0.5273102521896362,
      "learning_rate": 0.0009033354934910048,
      "loss": 2.723,
      "step": 1760
    },
    {
      "epoch": 0.225408,
      "grad_norm": 0.5890910029411316,
      "learning_rate": 0.0009032129377947267,
      "loss": 2.7109,
      "step": 1761
    },
    {
      "epoch": 0.225536,
      "grad_norm": 0.4739379584789276,
      "learning_rate": 0.0009030903127814703,
      "loss": 2.6647,
      "step": 1762
    },
    {
      "epoch": 0.225664,
      "grad_norm": 0.5032855868339539,
      "learning_rate": 0.0009029676184723161,
      "loss": 2.6535,
      "step": 1763
    },
    {
      "epoch": 0.225792,
      "grad_norm": 0.4695621728897095,
      "learning_rate": 0.0009028448548883566,
      "loss": 2.7294,
      "step": 1764
    },
    {
      "epoch": 0.22592,
      "grad_norm": 0.4827408194541931,
      "learning_rate": 0.0009027220220506965,
      "loss": 2.6017,
      "step": 1765
    },
    {
      "epoch": 0.226048,
      "grad_norm": 0.550725519657135,
      "learning_rate": 0.0009025991199804517,
      "loss": 2.6677,
      "step": 1766
    },
    {
      "epoch": 0.226176,
      "grad_norm": 0.5416275858879089,
      "learning_rate": 0.0009024761486987512,
      "loss": 2.7383,
      "step": 1767
    },
    {
      "epoch": 0.226304,
      "grad_norm": 0.5218689441680908,
      "learning_rate": 0.0009023531082267347,
      "loss": 2.6517,
      "step": 1768
    },
    {
      "epoch": 0.226432,
      "grad_norm": 0.5110704898834229,
      "learning_rate": 0.0009022299985855545,
      "loss": 2.7581,
      "step": 1769
    },
    {
      "epoch": 0.22656,
      "grad_norm": 0.5159258842468262,
      "learning_rate": 0.0009021068197963744,
      "loss": 2.6039,
      "step": 1770
    },
    {
      "epoch": 0.226688,
      "grad_norm": 0.788083016872406,
      "learning_rate": 0.0009019835718803704,
      "loss": 2.6483,
      "step": 1771
    },
    {
      "epoch": 0.226816,
      "grad_norm": 0.49587389826774597,
      "learning_rate": 0.0009018602548587302,
      "loss": 2.6913,
      "step": 1772
    },
    {
      "epoch": 0.226944,
      "grad_norm": 0.4761980175971985,
      "learning_rate": 0.0009017368687526535,
      "loss": 2.6566,
      "step": 1773
    },
    {
      "epoch": 0.227072,
      "grad_norm": 0.4776678681373596,
      "learning_rate": 0.0009016134135833516,
      "loss": 2.6008,
      "step": 1774
    },
    {
      "epoch": 0.2272,
      "grad_norm": 0.45658907294273376,
      "learning_rate": 0.000901489889372048,
      "loss": 2.7777,
      "step": 1775
    },
    {
      "epoch": 0.227328,
      "grad_norm": 0.47352150082588196,
      "learning_rate": 0.000901366296139978,
      "loss": 2.7426,
      "step": 1776
    },
    {
      "epoch": 0.227456,
      "grad_norm": 0.457807719707489,
      "learning_rate": 0.0009012426339083887,
      "loss": 2.6951,
      "step": 1777
    },
    {
      "epoch": 0.227584,
      "grad_norm": 0.49408936500549316,
      "learning_rate": 0.0009011189026985389,
      "loss": 2.6816,
      "step": 1778
    },
    {
      "epoch": 0.227712,
      "grad_norm": 0.5383832454681396,
      "learning_rate": 0.0009009951025316997,
      "loss": 2.6516,
      "step": 1779
    },
    {
      "epoch": 0.22784,
      "grad_norm": 0.501194417476654,
      "learning_rate": 0.0009008712334291535,
      "loss": 2.815,
      "step": 1780
    },
    {
      "epoch": 0.227968,
      "grad_norm": 0.5361071228981018,
      "learning_rate": 0.0009007472954121952,
      "loss": 2.7795,
      "step": 1781
    },
    {
      "epoch": 0.228096,
      "grad_norm": 0.4618106186389923,
      "learning_rate": 0.0009006232885021308,
      "loss": 2.7862,
      "step": 1782
    },
    {
      "epoch": 0.228224,
      "grad_norm": 0.48180606961250305,
      "learning_rate": 0.0009004992127202787,
      "loss": 2.6845,
      "step": 1783
    },
    {
      "epoch": 0.228352,
      "grad_norm": 0.4919170141220093,
      "learning_rate": 0.0009003750680879689,
      "loss": 2.6878,
      "step": 1784
    },
    {
      "epoch": 0.22848,
      "grad_norm": 0.48212960362434387,
      "learning_rate": 0.0009002508546265434,
      "loss": 2.7414,
      "step": 1785
    },
    {
      "epoch": 0.228608,
      "grad_norm": 0.48117581009864807,
      "learning_rate": 0.0009001265723573559,
      "loss": 2.742,
      "step": 1786
    },
    {
      "epoch": 0.228736,
      "grad_norm": 0.47420960664749146,
      "learning_rate": 0.0009000022213017719,
      "loss": 2.6633,
      "step": 1787
    },
    {
      "epoch": 0.228864,
      "grad_norm": 0.45576831698417664,
      "learning_rate": 0.0008998778014811689,
      "loss": 2.7502,
      "step": 1788
    },
    {
      "epoch": 0.228992,
      "grad_norm": 0.4772809147834778,
      "learning_rate": 0.000899753312916936,
      "loss": 2.7152,
      "step": 1789
    },
    {
      "epoch": 0.22912,
      "grad_norm": 0.44578817486763,
      "learning_rate": 0.0008996287556304743,
      "loss": 2.6838,
      "step": 1790
    },
    {
      "epoch": 0.229248,
      "grad_norm": 0.48363324999809265,
      "learning_rate": 0.0008995041296431965,
      "loss": 2.666,
      "step": 1791
    },
    {
      "epoch": 0.229376,
      "grad_norm": 0.4211074113845825,
      "learning_rate": 0.0008993794349765274,
      "loss": 2.6265,
      "step": 1792
    },
    {
      "epoch": 0.229504,
      "grad_norm": 0.46457719802856445,
      "learning_rate": 0.0008992546716519034,
      "loss": 2.7247,
      "step": 1793
    },
    {
      "epoch": 0.229632,
      "grad_norm": 0.4477272629737854,
      "learning_rate": 0.000899129839690773,
      "loss": 2.7168,
      "step": 1794
    },
    {
      "epoch": 0.22976,
      "grad_norm": 0.46759989857673645,
      "learning_rate": 0.0008990049391145959,
      "loss": 2.8119,
      "step": 1795
    },
    {
      "epoch": 0.229888,
      "grad_norm": 0.4549321234226227,
      "learning_rate": 0.0008988799699448441,
      "loss": 2.7199,
      "step": 1796
    },
    {
      "epoch": 0.230016,
      "grad_norm": 0.45476430654525757,
      "learning_rate": 0.0008987549322030013,
      "loss": 2.5653,
      "step": 1797
    },
    {
      "epoch": 0.230144,
      "grad_norm": 0.5031004548072815,
      "learning_rate": 0.0008986298259105629,
      "loss": 2.7124,
      "step": 1798
    },
    {
      "epoch": 0.230272,
      "grad_norm": 0.43909308314323425,
      "learning_rate": 0.000898504651089036,
      "loss": 2.636,
      "step": 1799
    },
    {
      "epoch": 0.2304,
      "grad_norm": 0.5088744759559631,
      "learning_rate": 0.0008983794077599398,
      "loss": 2.7735,
      "step": 1800
    },
    {
      "epoch": 0.230528,
      "grad_norm": 0.5068714022636414,
      "learning_rate": 0.0008982540959448049,
      "loss": 2.5998,
      "step": 1801
    },
    {
      "epoch": 0.230656,
      "grad_norm": 0.4698778986930847,
      "learning_rate": 0.000898128715665174,
      "loss": 2.689,
      "step": 1802
    },
    {
      "epoch": 0.230784,
      "grad_norm": 0.46080461144447327,
      "learning_rate": 0.0008980032669426015,
      "loss": 2.7107,
      "step": 1803
    },
    {
      "epoch": 0.230912,
      "grad_norm": 0.47188588976860046,
      "learning_rate": 0.0008978777497986532,
      "loss": 2.6636,
      "step": 1804
    },
    {
      "epoch": 0.23104,
      "grad_norm": 0.4474445581436157,
      "learning_rate": 0.0008977521642549072,
      "loss": 2.6533,
      "step": 1805
    },
    {
      "epoch": 0.231168,
      "grad_norm": 0.47117018699645996,
      "learning_rate": 0.0008976265103329531,
      "loss": 2.7932,
      "step": 1806
    },
    {
      "epoch": 0.231296,
      "grad_norm": 0.4506630301475525,
      "learning_rate": 0.0008975007880543921,
      "loss": 2.7262,
      "step": 1807
    },
    {
      "epoch": 0.231424,
      "grad_norm": 0.47382593154907227,
      "learning_rate": 0.0008973749974408374,
      "loss": 2.7571,
      "step": 1808
    },
    {
      "epoch": 0.231552,
      "grad_norm": 0.45029348134994507,
      "learning_rate": 0.0008972491385139138,
      "loss": 2.6127,
      "step": 1809
    },
    {
      "epoch": 0.23168,
      "grad_norm": 0.46033868193626404,
      "learning_rate": 0.0008971232112952581,
      "loss": 2.6752,
      "step": 1810
    },
    {
      "epoch": 0.231808,
      "grad_norm": 0.5077049136161804,
      "learning_rate": 0.0008969972158065185,
      "loss": 2.7709,
      "step": 1811
    },
    {
      "epoch": 0.231936,
      "grad_norm": 0.46987950801849365,
      "learning_rate": 0.0008968711520693551,
      "loss": 2.5621,
      "step": 1812
    },
    {
      "epoch": 0.232064,
      "grad_norm": 0.5073034167289734,
      "learning_rate": 0.0008967450201054397,
      "loss": 2.5935,
      "step": 1813
    },
    {
      "epoch": 0.232192,
      "grad_norm": 0.512047290802002,
      "learning_rate": 0.000896618819936456,
      "loss": 2.8146,
      "step": 1814
    },
    {
      "epoch": 0.23232,
      "grad_norm": 0.45834776759147644,
      "learning_rate": 0.0008964925515840991,
      "loss": 2.6368,
      "step": 1815
    },
    {
      "epoch": 0.232448,
      "grad_norm": 0.4944505989551544,
      "learning_rate": 0.000896366215070076,
      "loss": 2.6031,
      "step": 1816
    },
    {
      "epoch": 0.232576,
      "grad_norm": 0.4662798345088959,
      "learning_rate": 0.0008962398104161054,
      "loss": 2.6835,
      "step": 1817
    },
    {
      "epoch": 0.232704,
      "grad_norm": 0.45832133293151855,
      "learning_rate": 0.0008961133376439178,
      "loss": 2.7111,
      "step": 1818
    },
    {
      "epoch": 0.232832,
      "grad_norm": 0.4535248875617981,
      "learning_rate": 0.0008959867967752556,
      "loss": 2.748,
      "step": 1819
    },
    {
      "epoch": 0.23296,
      "grad_norm": 0.43794313073158264,
      "learning_rate": 0.000895860187831872,
      "loss": 2.7127,
      "step": 1820
    },
    {
      "epoch": 0.233088,
      "grad_norm": 0.46300211548805237,
      "learning_rate": 0.0008957335108355331,
      "loss": 2.6998,
      "step": 1821
    },
    {
      "epoch": 0.233216,
      "grad_norm": 0.4885643422603607,
      "learning_rate": 0.0008956067658080158,
      "loss": 2.7181,
      "step": 1822
    },
    {
      "epoch": 0.233344,
      "grad_norm": 0.4964883327484131,
      "learning_rate": 0.0008954799527711094,
      "loss": 2.6901,
      "step": 1823
    },
    {
      "epoch": 0.233472,
      "grad_norm": 0.4796174466609955,
      "learning_rate": 0.0008953530717466142,
      "loss": 2.5496,
      "step": 1824
    },
    {
      "epoch": 0.2336,
      "grad_norm": 0.4764080047607422,
      "learning_rate": 0.0008952261227563426,
      "loss": 2.6202,
      "step": 1825
    },
    {
      "epoch": 0.233728,
      "grad_norm": 0.5095029473304749,
      "learning_rate": 0.0008950991058221188,
      "loss": 2.8065,
      "step": 1826
    },
    {
      "epoch": 0.233856,
      "grad_norm": 0.49801772832870483,
      "learning_rate": 0.0008949720209657781,
      "loss": 2.6781,
      "step": 1827
    },
    {
      "epoch": 0.233984,
      "grad_norm": 0.472359836101532,
      "learning_rate": 0.0008948448682091683,
      "loss": 2.7032,
      "step": 1828
    },
    {
      "epoch": 0.234112,
      "grad_norm": 0.5045819878578186,
      "learning_rate": 0.0008947176475741481,
      "loss": 2.6874,
      "step": 1829
    },
    {
      "epoch": 0.23424,
      "grad_norm": 0.5015193223953247,
      "learning_rate": 0.0008945903590825883,
      "loss": 2.6894,
      "step": 1830
    },
    {
      "epoch": 0.234368,
      "grad_norm": 0.4429377317428589,
      "learning_rate": 0.0008944630027563714,
      "loss": 2.8095,
      "step": 1831
    },
    {
      "epoch": 0.234496,
      "grad_norm": 0.5192918181419373,
      "learning_rate": 0.0008943355786173912,
      "loss": 2.7655,
      "step": 1832
    },
    {
      "epoch": 0.234624,
      "grad_norm": 0.44186142086982727,
      "learning_rate": 0.0008942080866875537,
      "loss": 2.6531,
      "step": 1833
    },
    {
      "epoch": 0.234752,
      "grad_norm": 0.48307374119758606,
      "learning_rate": 0.000894080526988776,
      "loss": 2.8253,
      "step": 1834
    },
    {
      "epoch": 0.23488,
      "grad_norm": 0.46208658814430237,
      "learning_rate": 0.0008939528995429869,
      "loss": 2.728,
      "step": 1835
    },
    {
      "epoch": 0.235008,
      "grad_norm": 0.48118656873703003,
      "learning_rate": 0.0008938252043721274,
      "loss": 2.6553,
      "step": 1836
    },
    {
      "epoch": 0.235136,
      "grad_norm": 0.42026081681251526,
      "learning_rate": 0.0008936974414981498,
      "loss": 2.7299,
      "step": 1837
    },
    {
      "epoch": 0.235264,
      "grad_norm": 0.49958983063697815,
      "learning_rate": 0.0008935696109430177,
      "loss": 2.722,
      "step": 1838
    },
    {
      "epoch": 0.235392,
      "grad_norm": 0.48998478055000305,
      "learning_rate": 0.0008934417127287069,
      "loss": 2.7633,
      "step": 1839
    },
    {
      "epoch": 0.23552,
      "grad_norm": 0.517898440361023,
      "learning_rate": 0.0008933137468772046,
      "loss": 2.6706,
      "step": 1840
    },
    {
      "epoch": 0.235648,
      "grad_norm": 0.4356357455253601,
      "learning_rate": 0.0008931857134105093,
      "loss": 2.6869,
      "step": 1841
    },
    {
      "epoch": 0.235776,
      "grad_norm": 0.483964204788208,
      "learning_rate": 0.0008930576123506317,
      "loss": 2.6839,
      "step": 1842
    },
    {
      "epoch": 0.235904,
      "grad_norm": 0.46841007471084595,
      "learning_rate": 0.000892929443719594,
      "loss": 2.7475,
      "step": 1843
    },
    {
      "epoch": 0.236032,
      "grad_norm": 0.47293490171432495,
      "learning_rate": 0.0008928012075394296,
      "loss": 2.5902,
      "step": 1844
    },
    {
      "epoch": 0.23616,
      "grad_norm": 0.4813525080680847,
      "learning_rate": 0.000892672903832184,
      "loss": 2.639,
      "step": 1845
    },
    {
      "epoch": 0.236288,
      "grad_norm": 0.4273037016391754,
      "learning_rate": 0.0008925445326199138,
      "loss": 2.6714,
      "step": 1846
    },
    {
      "epoch": 0.236416,
      "grad_norm": 0.4780467450618744,
      "learning_rate": 0.0008924160939246877,
      "loss": 2.6201,
      "step": 1847
    },
    {
      "epoch": 0.236544,
      "grad_norm": 0.5892295241355896,
      "learning_rate": 0.0008922875877685858,
      "loss": 2.7414,
      "step": 1848
    },
    {
      "epoch": 0.236672,
      "grad_norm": 0.47581133246421814,
      "learning_rate": 0.0008921590141737,
      "loss": 2.6568,
      "step": 1849
    },
    {
      "epoch": 0.2368,
      "grad_norm": 0.49990540742874146,
      "learning_rate": 0.0008920303731621331,
      "loss": 2.7249,
      "step": 1850
    },
    {
      "epoch": 0.236928,
      "grad_norm": 0.4694409966468811,
      "learning_rate": 0.0008919016647560002,
      "loss": 2.8138,
      "step": 1851
    },
    {
      "epoch": 0.237056,
      "grad_norm": 0.5001538395881653,
      "learning_rate": 0.0008917728889774279,
      "loss": 2.6582,
      "step": 1852
    },
    {
      "epoch": 0.237184,
      "grad_norm": 0.5079808831214905,
      "learning_rate": 0.0008916440458485542,
      "loss": 2.7963,
      "step": 1853
    },
    {
      "epoch": 0.237312,
      "grad_norm": 0.5020259022712708,
      "learning_rate": 0.0008915151353915288,
      "loss": 2.7011,
      "step": 1854
    },
    {
      "epoch": 0.23744,
      "grad_norm": 0.4451148808002472,
      "learning_rate": 0.0008913861576285127,
      "loss": 2.6436,
      "step": 1855
    },
    {
      "epoch": 0.237568,
      "grad_norm": 0.43064284324645996,
      "learning_rate": 0.0008912571125816786,
      "loss": 2.6872,
      "step": 1856
    },
    {
      "epoch": 0.237696,
      "grad_norm": 0.4669547975063324,
      "learning_rate": 0.0008911280002732112,
      "loss": 2.7835,
      "step": 1857
    },
    {
      "epoch": 0.237824,
      "grad_norm": 0.4677436351776123,
      "learning_rate": 0.0008909988207253061,
      "loss": 2.7846,
      "step": 1858
    },
    {
      "epoch": 0.237952,
      "grad_norm": 0.45760101079940796,
      "learning_rate": 0.0008908695739601709,
      "loss": 2.7131,
      "step": 1859
    },
    {
      "epoch": 0.23808,
      "grad_norm": 0.4783268868923187,
      "learning_rate": 0.0008907402600000248,
      "loss": 2.7079,
      "step": 1860
    },
    {
      "epoch": 0.238208,
      "grad_norm": 0.4509902596473694,
      "learning_rate": 0.0008906108788670979,
      "loss": 2.7216,
      "step": 1861
    },
    {
      "epoch": 0.238336,
      "grad_norm": 0.4576190710067749,
      "learning_rate": 0.0008904814305836326,
      "loss": 2.6991,
      "step": 1862
    },
    {
      "epoch": 0.238464,
      "grad_norm": 0.46193498373031616,
      "learning_rate": 0.0008903519151718826,
      "loss": 2.6161,
      "step": 1863
    },
    {
      "epoch": 0.238592,
      "grad_norm": 0.44499096274375916,
      "learning_rate": 0.000890222332654113,
      "loss": 2.6875,
      "step": 1864
    },
    {
      "epoch": 0.23872,
      "grad_norm": 0.5146495699882507,
      "learning_rate": 0.0008900926830526005,
      "loss": 2.8061,
      "step": 1865
    },
    {
      "epoch": 0.238848,
      "grad_norm": 0.47469624876976013,
      "learning_rate": 0.0008899629663896336,
      "loss": 2.6897,
      "step": 1866
    },
    {
      "epoch": 0.238976,
      "grad_norm": 0.49600571393966675,
      "learning_rate": 0.0008898331826875117,
      "loss": 2.8409,
      "step": 1867
    },
    {
      "epoch": 0.239104,
      "grad_norm": 0.4357646703720093,
      "learning_rate": 0.0008897033319685466,
      "loss": 2.7072,
      "step": 1868
    },
    {
      "epoch": 0.239232,
      "grad_norm": 0.4988580644130707,
      "learning_rate": 0.0008895734142550609,
      "loss": 2.5958,
      "step": 1869
    },
    {
      "epoch": 0.23936,
      "grad_norm": 0.492177814245224,
      "learning_rate": 0.0008894434295693888,
      "loss": 2.6726,
      "step": 1870
    },
    {
      "epoch": 0.239488,
      "grad_norm": 0.4972650408744812,
      "learning_rate": 0.0008893133779338764,
      "loss": 2.7798,
      "step": 1871
    },
    {
      "epoch": 0.239616,
      "grad_norm": 0.4630870223045349,
      "learning_rate": 0.0008891832593708811,
      "loss": 2.683,
      "step": 1872
    },
    {
      "epoch": 0.239744,
      "grad_norm": 0.4827232360839844,
      "learning_rate": 0.0008890530739027717,
      "loss": 2.7436,
      "step": 1873
    },
    {
      "epoch": 0.239872,
      "grad_norm": 0.486307293176651,
      "learning_rate": 0.0008889228215519285,
      "loss": 2.7702,
      "step": 1874
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.48745790123939514,
      "learning_rate": 0.0008887925023407437,
      "loss": 2.5797,
      "step": 1875
    },
    {
      "epoch": 0.240128,
      "grad_norm": 0.46182674169540405,
      "learning_rate": 0.0008886621162916203,
      "loss": 2.7016,
      "step": 1876
    },
    {
      "epoch": 0.240256,
      "grad_norm": 0.45956921577453613,
      "learning_rate": 0.0008885316634269733,
      "loss": 2.6497,
      "step": 1877
    },
    {
      "epoch": 0.240384,
      "grad_norm": 0.47888046503067017,
      "learning_rate": 0.0008884011437692294,
      "loss": 2.7539,
      "step": 1878
    },
    {
      "epoch": 0.240512,
      "grad_norm": 0.454847127199173,
      "learning_rate": 0.0008882705573408259,
      "loss": 2.6852,
      "step": 1879
    },
    {
      "epoch": 0.24064,
      "grad_norm": 0.4678063988685608,
      "learning_rate": 0.0008881399041642124,
      "loss": 2.6503,
      "step": 1880
    },
    {
      "epoch": 0.240768,
      "grad_norm": 0.46734821796417236,
      "learning_rate": 0.0008880091842618497,
      "loss": 2.6678,
      "step": 1881
    },
    {
      "epoch": 0.240896,
      "grad_norm": 0.47434064745903015,
      "learning_rate": 0.0008878783976562102,
      "loss": 2.7621,
      "step": 1882
    },
    {
      "epoch": 0.241024,
      "grad_norm": 0.46450597047805786,
      "learning_rate": 0.0008877475443697773,
      "loss": 2.6513,
      "step": 1883
    },
    {
      "epoch": 0.241152,
      "grad_norm": 0.5115365386009216,
      "learning_rate": 0.0008876166244250463,
      "loss": 2.6445,
      "step": 1884
    },
    {
      "epoch": 0.24128,
      "grad_norm": 0.48815229535102844,
      "learning_rate": 0.0008874856378445241,
      "loss": 2.6457,
      "step": 1885
    },
    {
      "epoch": 0.241408,
      "grad_norm": 0.466988205909729,
      "learning_rate": 0.0008873545846507285,
      "loss": 2.8143,
      "step": 1886
    },
    {
      "epoch": 0.241536,
      "grad_norm": 0.4703800678253174,
      "learning_rate": 0.0008872234648661892,
      "loss": 2.7532,
      "step": 1887
    },
    {
      "epoch": 0.241664,
      "grad_norm": 0.4651966094970703,
      "learning_rate": 0.0008870922785134472,
      "loss": 2.8346,
      "step": 1888
    },
    {
      "epoch": 0.241792,
      "grad_norm": 0.4415970742702484,
      "learning_rate": 0.0008869610256150551,
      "loss": 2.6853,
      "step": 1889
    },
    {
      "epoch": 0.24192,
      "grad_norm": 0.45156410336494446,
      "learning_rate": 0.0008868297061935766,
      "loss": 2.5638,
      "step": 1890
    },
    {
      "epoch": 0.242048,
      "grad_norm": 0.48542577028274536,
      "learning_rate": 0.000886698320271587,
      "loss": 2.7045,
      "step": 1891
    },
    {
      "epoch": 0.242176,
      "grad_norm": 0.4514005780220032,
      "learning_rate": 0.0008865668678716734,
      "loss": 2.6064,
      "step": 1892
    },
    {
      "epoch": 0.242304,
      "grad_norm": 0.48136061429977417,
      "learning_rate": 0.0008864353490164335,
      "loss": 2.73,
      "step": 1893
    },
    {
      "epoch": 0.242432,
      "grad_norm": 0.4402660131454468,
      "learning_rate": 0.0008863037637284772,
      "loss": 2.6419,
      "step": 1894
    },
    {
      "epoch": 0.24256,
      "grad_norm": 0.47391411662101746,
      "learning_rate": 0.0008861721120304256,
      "loss": 2.6879,
      "step": 1895
    },
    {
      "epoch": 0.242688,
      "grad_norm": 0.4970976710319519,
      "learning_rate": 0.0008860403939449109,
      "loss": 2.7405,
      "step": 1896
    },
    {
      "epoch": 0.242816,
      "grad_norm": 0.4584466516971588,
      "learning_rate": 0.0008859086094945772,
      "loss": 2.722,
      "step": 1897
    },
    {
      "epoch": 0.242944,
      "grad_norm": 0.5262890458106995,
      "learning_rate": 0.0008857767587020798,
      "loss": 2.742,
      "step": 1898
    },
    {
      "epoch": 0.243072,
      "grad_norm": 0.44311267137527466,
      "learning_rate": 0.000885644841590085,
      "loss": 2.7096,
      "step": 1899
    },
    {
      "epoch": 0.2432,
      "grad_norm": 0.5186742544174194,
      "learning_rate": 0.0008855128581812714,
      "loss": 2.6956,
      "step": 1900
    },
    {
      "epoch": 0.243328,
      "grad_norm": 0.44083335995674133,
      "learning_rate": 0.0008853808084983281,
      "loss": 2.7588,
      "step": 1901
    },
    {
      "epoch": 0.243456,
      "grad_norm": 0.4976482689380646,
      "learning_rate": 0.0008852486925639561,
      "loss": 2.7666,
      "step": 1902
    },
    {
      "epoch": 0.243584,
      "grad_norm": 0.44425854086875916,
      "learning_rate": 0.0008851165104008679,
      "loss": 2.5945,
      "step": 1903
    },
    {
      "epoch": 0.243712,
      "grad_norm": 0.45931920409202576,
      "learning_rate": 0.0008849842620317865,
      "loss": 2.6149,
      "step": 1904
    },
    {
      "epoch": 0.24384,
      "grad_norm": 0.5543144941329956,
      "learning_rate": 0.0008848519474794476,
      "loss": 2.7224,
      "step": 1905
    },
    {
      "epoch": 0.243968,
      "grad_norm": 0.4319251477718353,
      "learning_rate": 0.0008847195667665973,
      "loss": 2.7065,
      "step": 1906
    },
    {
      "epoch": 0.244096,
      "grad_norm": 0.6081799268722534,
      "learning_rate": 0.0008845871199159934,
      "loss": 2.6328,
      "step": 1907
    },
    {
      "epoch": 0.244224,
      "grad_norm": 0.46008944511413574,
      "learning_rate": 0.0008844546069504051,
      "loss": 2.6981,
      "step": 1908
    },
    {
      "epoch": 0.244352,
      "grad_norm": 0.45183923840522766,
      "learning_rate": 0.0008843220278926128,
      "loss": 2.5662,
      "step": 1909
    },
    {
      "epoch": 0.24448,
      "grad_norm": 0.5074527263641357,
      "learning_rate": 0.0008841893827654086,
      "loss": 2.6905,
      "step": 1910
    },
    {
      "epoch": 0.244608,
      "grad_norm": 0.5479009747505188,
      "learning_rate": 0.0008840566715915955,
      "loss": 2.5851,
      "step": 1911
    },
    {
      "epoch": 0.244736,
      "grad_norm": 0.4367316663265228,
      "learning_rate": 0.0008839238943939882,
      "loss": 2.5687,
      "step": 1912
    },
    {
      "epoch": 0.244864,
      "grad_norm": 0.4811570644378662,
      "learning_rate": 0.0008837910511954127,
      "loss": 2.7215,
      "step": 1913
    },
    {
      "epoch": 0.244992,
      "grad_norm": 0.4725613594055176,
      "learning_rate": 0.0008836581420187062,
      "loss": 2.7196,
      "step": 1914
    },
    {
      "epoch": 0.24512,
      "grad_norm": 0.48174598813056946,
      "learning_rate": 0.0008835251668867172,
      "loss": 2.8141,
      "step": 1915
    },
    {
      "epoch": 0.245248,
      "grad_norm": 0.4331946074962616,
      "learning_rate": 0.0008833921258223059,
      "loss": 2.5829,
      "step": 1916
    },
    {
      "epoch": 0.245376,
      "grad_norm": 0.4816741347312927,
      "learning_rate": 0.0008832590188483436,
      "loss": 2.5946,
      "step": 1917
    },
    {
      "epoch": 0.245504,
      "grad_norm": 0.4836942255496979,
      "learning_rate": 0.0008831258459877127,
      "loss": 2.7284,
      "step": 1918
    },
    {
      "epoch": 0.245632,
      "grad_norm": 0.44747328758239746,
      "learning_rate": 0.0008829926072633074,
      "loss": 2.7212,
      "step": 1919
    },
    {
      "epoch": 0.24576,
      "grad_norm": 0.47415006160736084,
      "learning_rate": 0.0008828593026980327,
      "loss": 2.7131,
      "step": 1920
    },
    {
      "epoch": 0.245888,
      "grad_norm": 0.4728861451148987,
      "learning_rate": 0.0008827259323148055,
      "loss": 2.5285,
      "step": 1921
    },
    {
      "epoch": 0.246016,
      "grad_norm": 0.47075214982032776,
      "learning_rate": 0.0008825924961365537,
      "loss": 2.6892,
      "step": 1922
    },
    {
      "epoch": 0.246144,
      "grad_norm": 0.4507143497467041,
      "learning_rate": 0.0008824589941862163,
      "loss": 2.7154,
      "step": 1923
    },
    {
      "epoch": 0.246272,
      "grad_norm": 0.46240389347076416,
      "learning_rate": 0.0008823254264867439,
      "loss": 2.6367,
      "step": 1924
    },
    {
      "epoch": 0.2464,
      "grad_norm": 0.42387133836746216,
      "learning_rate": 0.0008821917930610985,
      "loss": 2.7569,
      "step": 1925
    },
    {
      "epoch": 0.246528,
      "grad_norm": 0.4716491997241974,
      "learning_rate": 0.0008820580939322532,
      "loss": 2.7383,
      "step": 1926
    },
    {
      "epoch": 0.246656,
      "grad_norm": 0.46585187315940857,
      "learning_rate": 0.0008819243291231922,
      "loss": 2.645,
      "step": 1927
    },
    {
      "epoch": 0.246784,
      "grad_norm": 0.4874706566333771,
      "learning_rate": 0.0008817904986569114,
      "loss": 2.7901,
      "step": 1928
    },
    {
      "epoch": 0.246912,
      "grad_norm": 0.4628814458847046,
      "learning_rate": 0.0008816566025564179,
      "loss": 2.7678,
      "step": 1929
    },
    {
      "epoch": 0.24704,
      "grad_norm": 0.4505268931388855,
      "learning_rate": 0.0008815226408447296,
      "loss": 2.6796,
      "step": 1930
    },
    {
      "epoch": 0.247168,
      "grad_norm": 0.47071391344070435,
      "learning_rate": 0.0008813886135448767,
      "loss": 2.6571,
      "step": 1931
    },
    {
      "epoch": 0.247296,
      "grad_norm": 0.47269362211227417,
      "learning_rate": 0.0008812545206798994,
      "loss": 2.7065,
      "step": 1932
    },
    {
      "epoch": 0.247424,
      "grad_norm": 0.44600939750671387,
      "learning_rate": 0.0008811203622728503,
      "loss": 2.6615,
      "step": 1933
    },
    {
      "epoch": 0.247552,
      "grad_norm": 0.4329575002193451,
      "learning_rate": 0.0008809861383467925,
      "loss": 2.6318,
      "step": 1934
    },
    {
      "epoch": 0.24768,
      "grad_norm": 0.45448485016822815,
      "learning_rate": 0.0008808518489248009,
      "loss": 2.6836,
      "step": 1935
    },
    {
      "epoch": 0.247808,
      "grad_norm": 0.46423447132110596,
      "learning_rate": 0.0008807174940299612,
      "loss": 2.6608,
      "step": 1936
    },
    {
      "epoch": 0.247936,
      "grad_norm": 0.4477936625480652,
      "learning_rate": 0.0008805830736853705,
      "loss": 2.5721,
      "step": 1937
    },
    {
      "epoch": 0.248064,
      "grad_norm": 0.4399605095386505,
      "learning_rate": 0.0008804485879141374,
      "loss": 2.5725,
      "step": 1938
    },
    {
      "epoch": 0.248192,
      "grad_norm": 0.45346567034721375,
      "learning_rate": 0.0008803140367393815,
      "loss": 2.7177,
      "step": 1939
    },
    {
      "epoch": 0.24832,
      "grad_norm": 0.4649699330329895,
      "learning_rate": 0.0008801794201842337,
      "loss": 2.7355,
      "step": 1940
    },
    {
      "epoch": 0.248448,
      "grad_norm": 0.4732707440853119,
      "learning_rate": 0.0008800447382718362,
      "loss": 2.6322,
      "step": 1941
    },
    {
      "epoch": 0.248576,
      "grad_norm": 0.4785863757133484,
      "learning_rate": 0.0008799099910253423,
      "loss": 2.6834,
      "step": 1942
    },
    {
      "epoch": 0.248704,
      "grad_norm": 0.448281466960907,
      "learning_rate": 0.0008797751784679166,
      "loss": 2.7415,
      "step": 1943
    },
    {
      "epoch": 0.248832,
      "grad_norm": 0.4438723027706146,
      "learning_rate": 0.000879640300622735,
      "loss": 2.7349,
      "step": 1944
    },
    {
      "epoch": 0.24896,
      "grad_norm": 0.4587751626968384,
      "learning_rate": 0.0008795053575129846,
      "loss": 2.7945,
      "step": 1945
    },
    {
      "epoch": 0.249088,
      "grad_norm": 0.4685509204864502,
      "learning_rate": 0.0008793703491618637,
      "loss": 2.6722,
      "step": 1946
    },
    {
      "epoch": 0.249216,
      "grad_norm": 0.48568040132522583,
      "learning_rate": 0.0008792352755925817,
      "loss": 2.7063,
      "step": 1947
    },
    {
      "epoch": 0.249344,
      "grad_norm": 0.5226182341575623,
      "learning_rate": 0.0008791001368283594,
      "loss": 2.651,
      "step": 1948
    },
    {
      "epoch": 0.249472,
      "grad_norm": 0.4809204936027527,
      "learning_rate": 0.0008789649328924285,
      "loss": 2.7189,
      "step": 1949
    },
    {
      "epoch": 0.2496,
      "grad_norm": 0.44043317437171936,
      "learning_rate": 0.0008788296638080324,
      "loss": 2.6927,
      "step": 1950
    },
    {
      "epoch": 0.249728,
      "grad_norm": 0.46723616123199463,
      "learning_rate": 0.0008786943295984253,
      "loss": 2.6442,
      "step": 1951
    },
    {
      "epoch": 0.249856,
      "grad_norm": 0.4465165138244629,
      "learning_rate": 0.0008785589302868727,
      "loss": 2.7008,
      "step": 1952
    },
    {
      "epoch": 0.249984,
      "grad_norm": 0.4652051031589508,
      "learning_rate": 0.0008784234658966515,
      "loss": 2.5968,
      "step": 1953
    },
    {
      "epoch": 0.250112,
      "grad_norm": 0.4720265567302704,
      "learning_rate": 0.0008782879364510494,
      "loss": 2.6257,
      "step": 1954
    },
    {
      "epoch": 0.25024,
      "grad_norm": 0.46732112765312195,
      "learning_rate": 0.0008781523419733654,
      "loss": 2.705,
      "step": 1955
    },
    {
      "epoch": 0.250368,
      "grad_norm": 0.4697451591491699,
      "learning_rate": 0.00087801668248691,
      "loss": 2.7582,
      "step": 1956
    },
    {
      "epoch": 0.250496,
      "grad_norm": 0.5129809975624084,
      "learning_rate": 0.0008778809580150045,
      "loss": 2.6883,
      "step": 1957
    },
    {
      "epoch": 0.250624,
      "grad_norm": 0.464561402797699,
      "learning_rate": 0.0008777451685809816,
      "loss": 2.7481,
      "step": 1958
    },
    {
      "epoch": 0.250752,
      "grad_norm": 0.4526717960834503,
      "learning_rate": 0.0008776093142081849,
      "loss": 2.7161,
      "step": 1959
    },
    {
      "epoch": 0.25088,
      "grad_norm": 0.4683108627796173,
      "learning_rate": 0.0008774733949199696,
      "loss": 2.6772,
      "step": 1960
    },
    {
      "epoch": 0.251008,
      "grad_norm": 0.5211499929428101,
      "learning_rate": 0.0008773374107397016,
      "loss": 2.6707,
      "step": 1961
    },
    {
      "epoch": 0.251136,
      "grad_norm": 0.45798778533935547,
      "learning_rate": 0.0008772013616907584,
      "loss": 2.6406,
      "step": 1962
    },
    {
      "epoch": 0.251264,
      "grad_norm": 0.4896726608276367,
      "learning_rate": 0.000877065247796528,
      "loss": 2.6638,
      "step": 1963
    },
    {
      "epoch": 0.251392,
      "grad_norm": 0.4473854899406433,
      "learning_rate": 0.0008769290690804103,
      "loss": 2.7172,
      "step": 1964
    },
    {
      "epoch": 0.25152,
      "grad_norm": 0.4498308002948761,
      "learning_rate": 0.0008767928255658157,
      "loss": 2.7831,
      "step": 1965
    },
    {
      "epoch": 0.251648,
      "grad_norm": 0.4330502152442932,
      "learning_rate": 0.0008766565172761664,
      "loss": 2.72,
      "step": 1966
    },
    {
      "epoch": 0.251776,
      "grad_norm": 0.5176634192466736,
      "learning_rate": 0.0008765201442348954,
      "loss": 2.625,
      "step": 1967
    },
    {
      "epoch": 0.251904,
      "grad_norm": 0.437458336353302,
      "learning_rate": 0.0008763837064654463,
      "loss": 2.7066,
      "step": 1968
    },
    {
      "epoch": 0.252032,
      "grad_norm": 0.46853554248809814,
      "learning_rate": 0.0008762472039912747,
      "loss": 2.6551,
      "step": 1969
    },
    {
      "epoch": 0.25216,
      "grad_norm": 0.4626305103302002,
      "learning_rate": 0.0008761106368358469,
      "loss": 2.7307,
      "step": 1970
    },
    {
      "epoch": 0.252288,
      "grad_norm": 0.5026342272758484,
      "learning_rate": 0.0008759740050226406,
      "loss": 2.6976,
      "step": 1971
    },
    {
      "epoch": 0.252416,
      "grad_norm": 0.46353664994239807,
      "learning_rate": 0.0008758373085751439,
      "loss": 2.585,
      "step": 1972
    },
    {
      "epoch": 0.252544,
      "grad_norm": 0.46510908007621765,
      "learning_rate": 0.0008757005475168569,
      "loss": 2.6586,
      "step": 1973
    },
    {
      "epoch": 0.252672,
      "grad_norm": 0.4441443383693695,
      "learning_rate": 0.0008755637218712902,
      "loss": 2.714,
      "step": 1974
    },
    {
      "epoch": 0.2528,
      "grad_norm": 0.43027013540267944,
      "learning_rate": 0.0008754268316619659,
      "loss": 2.6779,
      "step": 1975
    },
    {
      "epoch": 0.252928,
      "grad_norm": 0.4570978581905365,
      "learning_rate": 0.0008752898769124169,
      "loss": 2.7693,
      "step": 1976
    },
    {
      "epoch": 0.253056,
      "grad_norm": 0.4520253837108612,
      "learning_rate": 0.0008751528576461873,
      "loss": 2.7153,
      "step": 1977
    },
    {
      "epoch": 0.253184,
      "grad_norm": 0.4332742691040039,
      "learning_rate": 0.0008750157738868323,
      "loss": 2.6298,
      "step": 1978
    },
    {
      "epoch": 0.253312,
      "grad_norm": 0.45405644178390503,
      "learning_rate": 0.0008748786256579182,
      "loss": 2.7095,
      "step": 1979
    },
    {
      "epoch": 0.25344,
      "grad_norm": 0.480102002620697,
      "learning_rate": 0.0008747414129830224,
      "loss": 2.6219,
      "step": 1980
    },
    {
      "epoch": 0.253568,
      "grad_norm": 0.4838930070400238,
      "learning_rate": 0.0008746041358857334,
      "loss": 2.7193,
      "step": 1981
    },
    {
      "epoch": 0.253696,
      "grad_norm": 0.44716256856918335,
      "learning_rate": 0.0008744667943896506,
      "loss": 2.7539,
      "step": 1982
    },
    {
      "epoch": 0.253824,
      "grad_norm": 0.5579326748847961,
      "learning_rate": 0.0008743293885183848,
      "loss": 2.6339,
      "step": 1983
    },
    {
      "epoch": 0.253952,
      "grad_norm": 0.4735799729824066,
      "learning_rate": 0.0008741919182955573,
      "loss": 2.5752,
      "step": 1984
    },
    {
      "epoch": 0.25408,
      "grad_norm": 0.45530301332473755,
      "learning_rate": 0.0008740543837448012,
      "loss": 2.792,
      "step": 1985
    },
    {
      "epoch": 0.254208,
      "grad_norm": 0.461667001247406,
      "learning_rate": 0.00087391678488976,
      "loss": 2.6353,
      "step": 1986
    },
    {
      "epoch": 0.254336,
      "grad_norm": 0.46139630675315857,
      "learning_rate": 0.0008737791217540887,
      "loss": 2.7143,
      "step": 1987
    },
    {
      "epoch": 0.254464,
      "grad_norm": 0.4637744128704071,
      "learning_rate": 0.0008736413943614532,
      "loss": 2.6786,
      "step": 1988
    },
    {
      "epoch": 0.254592,
      "grad_norm": 0.4654911756515503,
      "learning_rate": 0.0008735036027355303,
      "loss": 2.6673,
      "step": 1989
    },
    {
      "epoch": 0.25472,
      "grad_norm": 0.4541652202606201,
      "learning_rate": 0.0008733657469000081,
      "loss": 2.7413,
      "step": 1990
    },
    {
      "epoch": 0.254848,
      "grad_norm": 0.4752175807952881,
      "learning_rate": 0.0008732278268785856,
      "loss": 2.6684,
      "step": 1991
    },
    {
      "epoch": 0.254976,
      "grad_norm": 0.44881805777549744,
      "learning_rate": 0.0008730898426949727,
      "loss": 2.6571,
      "step": 1992
    },
    {
      "epoch": 0.255104,
      "grad_norm": 0.4427029490470886,
      "learning_rate": 0.0008729517943728909,
      "loss": 2.6578,
      "step": 1993
    },
    {
      "epoch": 0.255232,
      "grad_norm": 0.4781467616558075,
      "learning_rate": 0.0008728136819360717,
      "loss": 2.6218,
      "step": 1994
    },
    {
      "epoch": 0.25536,
      "grad_norm": 0.4513643980026245,
      "learning_rate": 0.0008726755054082588,
      "loss": 2.6726,
      "step": 1995
    },
    {
      "epoch": 0.255488,
      "grad_norm": 0.47446227073669434,
      "learning_rate": 0.0008725372648132059,
      "loss": 2.8502,
      "step": 1996
    },
    {
      "epoch": 0.255616,
      "grad_norm": 0.45017433166503906,
      "learning_rate": 0.0008723989601746784,
      "loss": 2.6142,
      "step": 1997
    },
    {
      "epoch": 0.255744,
      "grad_norm": 0.4644702970981598,
      "learning_rate": 0.0008722605915164525,
      "loss": 2.7159,
      "step": 1998
    },
    {
      "epoch": 0.255872,
      "grad_norm": 0.4133238196372986,
      "learning_rate": 0.0008721221588623154,
      "loss": 2.6814,
      "step": 1999
    },
    {
      "epoch": 0.256,
      "grad_norm": 0.5165576338768005,
      "learning_rate": 0.000871983662236065,
      "loss": 2.8387,
      "step": 2000
    },
    {
      "epoch": 0.256128,
      "grad_norm": 0.5036346912384033,
      "learning_rate": 0.0008718451016615108,
      "loss": 2.7233,
      "step": 2001
    },
    {
      "epoch": 0.256256,
      "grad_norm": 0.46367204189300537,
      "learning_rate": 0.0008717064771624727,
      "loss": 2.7692,
      "step": 2002
    },
    {
      "epoch": 0.256384,
      "grad_norm": 0.4757411777973175,
      "learning_rate": 0.000871567788762782,
      "loss": 2.7124,
      "step": 2003
    },
    {
      "epoch": 0.256512,
      "grad_norm": 0.469452828168869,
      "learning_rate": 0.000871429036486281,
      "loss": 2.6715,
      "step": 2004
    },
    {
      "epoch": 0.25664,
      "grad_norm": 0.5259366035461426,
      "learning_rate": 0.0008712902203568225,
      "loss": 2.5959,
      "step": 2005
    },
    {
      "epoch": 0.256768,
      "grad_norm": 0.48800936341285706,
      "learning_rate": 0.0008711513403982707,
      "loss": 2.7423,
      "step": 2006
    },
    {
      "epoch": 0.256896,
      "grad_norm": 0.4520942270755768,
      "learning_rate": 0.0008710123966345007,
      "loss": 2.6553,
      "step": 2007
    },
    {
      "epoch": 0.257024,
      "grad_norm": 0.4373485743999481,
      "learning_rate": 0.0008708733890893987,
      "loss": 2.6045,
      "step": 2008
    },
    {
      "epoch": 0.257152,
      "grad_norm": 0.48315125703811646,
      "learning_rate": 0.0008707343177868617,
      "loss": 2.6866,
      "step": 2009
    },
    {
      "epoch": 0.25728,
      "grad_norm": 0.4739229679107666,
      "learning_rate": 0.0008705951827507974,
      "loss": 2.7335,
      "step": 2010
    },
    {
      "epoch": 0.257408,
      "grad_norm": 0.46724817156791687,
      "learning_rate": 0.0008704559840051248,
      "loss": 2.6931,
      "step": 2011
    },
    {
      "epoch": 0.257536,
      "grad_norm": 0.5040832757949829,
      "learning_rate": 0.0008703167215737739,
      "loss": 2.6026,
      "step": 2012
    },
    {
      "epoch": 0.257664,
      "grad_norm": 0.56435227394104,
      "learning_rate": 0.0008701773954806855,
      "loss": 2.7345,
      "step": 2013
    },
    {
      "epoch": 0.257792,
      "grad_norm": 0.49415233731269836,
      "learning_rate": 0.0008700380057498114,
      "loss": 2.6544,
      "step": 2014
    },
    {
      "epoch": 0.25792,
      "grad_norm": 0.48770737648010254,
      "learning_rate": 0.0008698985524051143,
      "loss": 2.689,
      "step": 2015
    },
    {
      "epoch": 0.258048,
      "grad_norm": 0.46170592308044434,
      "learning_rate": 0.0008697590354705678,
      "loss": 2.7085,
      "step": 2016
    },
    {
      "epoch": 0.258176,
      "grad_norm": 0.5252669453620911,
      "learning_rate": 0.0008696194549701564,
      "loss": 2.7069,
      "step": 2017
    },
    {
      "epoch": 0.258304,
      "grad_norm": 0.426272988319397,
      "learning_rate": 0.0008694798109278757,
      "loss": 2.7771,
      "step": 2018
    },
    {
      "epoch": 0.258432,
      "grad_norm": 0.459276020526886,
      "learning_rate": 0.0008693401033677321,
      "loss": 2.7034,
      "step": 2019
    },
    {
      "epoch": 0.25856,
      "grad_norm": 0.5025584101676941,
      "learning_rate": 0.000869200332313743,
      "loss": 2.747,
      "step": 2020
    },
    {
      "epoch": 0.258688,
      "grad_norm": 0.43831586837768555,
      "learning_rate": 0.0008690604977899368,
      "loss": 2.6596,
      "step": 2021
    },
    {
      "epoch": 0.258816,
      "grad_norm": 0.4301219880580902,
      "learning_rate": 0.0008689205998203522,
      "loss": 2.8028,
      "step": 2022
    },
    {
      "epoch": 0.258944,
      "grad_norm": 0.4284204840660095,
      "learning_rate": 0.0008687806384290399,
      "loss": 2.5701,
      "step": 2023
    },
    {
      "epoch": 0.259072,
      "grad_norm": 0.47045356035232544,
      "learning_rate": 0.0008686406136400604,
      "loss": 2.606,
      "step": 2024
    },
    {
      "epoch": 0.2592,
      "grad_norm": 0.4733166992664337,
      "learning_rate": 0.0008685005254774858,
      "loss": 2.6945,
      "step": 2025
    },
    {
      "epoch": 0.259328,
      "grad_norm": 0.48138704895973206,
      "learning_rate": 0.0008683603739653989,
      "loss": 2.6442,
      "step": 2026
    },
    {
      "epoch": 0.259456,
      "grad_norm": 0.4627016484737396,
      "learning_rate": 0.0008682201591278933,
      "loss": 2.6259,
      "step": 2027
    },
    {
      "epoch": 0.259584,
      "grad_norm": 0.4677029848098755,
      "learning_rate": 0.0008680798809890736,
      "loss": 2.7097,
      "step": 2028
    },
    {
      "epoch": 0.259712,
      "grad_norm": 0.4412957727909088,
      "learning_rate": 0.0008679395395730552,
      "loss": 2.6485,
      "step": 2029
    },
    {
      "epoch": 0.25984,
      "grad_norm": 0.4453675150871277,
      "learning_rate": 0.0008677991349039643,
      "loss": 2.7765,
      "step": 2030
    },
    {
      "epoch": 0.259968,
      "grad_norm": 0.5000683069229126,
      "learning_rate": 0.0008676586670059383,
      "loss": 2.6665,
      "step": 2031
    },
    {
      "epoch": 0.260096,
      "grad_norm": 0.47012394666671753,
      "learning_rate": 0.0008675181359031252,
      "loss": 2.6929,
      "step": 2032
    },
    {
      "epoch": 0.260224,
      "grad_norm": 0.47821545600891113,
      "learning_rate": 0.0008673775416196839,
      "loss": 2.7228,
      "step": 2033
    },
    {
      "epoch": 0.260352,
      "grad_norm": 0.4938351511955261,
      "learning_rate": 0.0008672368841797841,
      "loss": 2.6722,
      "step": 2034
    },
    {
      "epoch": 0.26048,
      "grad_norm": 0.6791782975196838,
      "learning_rate": 0.0008670961636076067,
      "loss": 2.7272,
      "step": 2035
    },
    {
      "epoch": 0.260608,
      "grad_norm": 0.5157347321510315,
      "learning_rate": 0.0008669553799273428,
      "loss": 2.7456,
      "step": 2036
    },
    {
      "epoch": 0.260736,
      "grad_norm": 0.4864354431629181,
      "learning_rate": 0.0008668145331631953,
      "loss": 2.6464,
      "step": 2037
    },
    {
      "epoch": 0.260864,
      "grad_norm": 0.43613702058792114,
      "learning_rate": 0.0008666736233393768,
      "loss": 2.6651,
      "step": 2038
    },
    {
      "epoch": 0.260992,
      "grad_norm": 0.47893112897872925,
      "learning_rate": 0.0008665326504801117,
      "loss": 2.7066,
      "step": 2039
    },
    {
      "epoch": 0.26112,
      "grad_norm": 0.4703030586242676,
      "learning_rate": 0.0008663916146096348,
      "loss": 2.7833,
      "step": 2040
    },
    {
      "epoch": 0.261248,
      "grad_norm": 0.4365406334400177,
      "learning_rate": 0.0008662505157521918,
      "loss": 2.8072,
      "step": 2041
    },
    {
      "epoch": 0.261376,
      "grad_norm": 0.47781845927238464,
      "learning_rate": 0.0008661093539320391,
      "loss": 2.7022,
      "step": 2042
    },
    {
      "epoch": 0.261504,
      "grad_norm": 0.44789770245552063,
      "learning_rate": 0.0008659681291734441,
      "loss": 2.717,
      "step": 2043
    },
    {
      "epoch": 0.261632,
      "grad_norm": 0.46262654662132263,
      "learning_rate": 0.0008658268415006851,
      "loss": 2.594,
      "step": 2044
    },
    {
      "epoch": 0.26176,
      "grad_norm": 0.4337522089481354,
      "learning_rate": 0.0008656854909380511,
      "loss": 2.6957,
      "step": 2045
    },
    {
      "epoch": 0.261888,
      "grad_norm": 0.4804520010948181,
      "learning_rate": 0.0008655440775098417,
      "loss": 2.6872,
      "step": 2046
    },
    {
      "epoch": 0.262016,
      "grad_norm": 0.4773639738559723,
      "learning_rate": 0.0008654026012403677,
      "loss": 2.7087,
      "step": 2047
    },
    {
      "epoch": 0.262144,
      "grad_norm": 0.5196304321289062,
      "learning_rate": 0.0008652610621539505,
      "loss": 2.8126,
      "step": 2048
    },
    {
      "epoch": 0.262272,
      "grad_norm": 0.46114662289619446,
      "learning_rate": 0.0008651194602749221,
      "loss": 2.7442,
      "step": 2049
    },
    {
      "epoch": 0.2624,
      "grad_norm": 0.451186865568161,
      "learning_rate": 0.0008649777956276257,
      "loss": 2.6178,
      "step": 2050
    },
    {
      "epoch": 0.262528,
      "grad_norm": 0.4521774351596832,
      "learning_rate": 0.0008648360682364151,
      "loss": 2.5596,
      "step": 2051
    },
    {
      "epoch": 0.262656,
      "grad_norm": 0.4474647641181946,
      "learning_rate": 0.0008646942781256548,
      "loss": 2.5361,
      "step": 2052
    },
    {
      "epoch": 0.262784,
      "grad_norm": 0.44799697399139404,
      "learning_rate": 0.0008645524253197201,
      "loss": 2.7445,
      "step": 2053
    },
    {
      "epoch": 0.262912,
      "grad_norm": 0.49452653527259827,
      "learning_rate": 0.0008644105098429974,
      "loss": 2.6303,
      "step": 2054
    },
    {
      "epoch": 0.26304,
      "grad_norm": 0.4755953252315521,
      "learning_rate": 0.0008642685317198833,
      "loss": 2.6902,
      "step": 2055
    },
    {
      "epoch": 0.263168,
      "grad_norm": 0.43439629673957825,
      "learning_rate": 0.0008641264909747858,
      "loss": 2.6008,
      "step": 2056
    },
    {
      "epoch": 0.263296,
      "grad_norm": 0.4406207501888275,
      "learning_rate": 0.0008639843876321231,
      "loss": 2.7255,
      "step": 2057
    },
    {
      "epoch": 0.263424,
      "grad_norm": 0.44117969274520874,
      "learning_rate": 0.0008638422217163244,
      "loss": 2.6826,
      "step": 2058
    },
    {
      "epoch": 0.263552,
      "grad_norm": 0.5868653059005737,
      "learning_rate": 0.00086369999325183,
      "loss": 2.731,
      "step": 2059
    },
    {
      "epoch": 0.26368,
      "grad_norm": 0.4499049484729767,
      "learning_rate": 0.0008635577022630901,
      "loss": 2.6866,
      "step": 2060
    },
    {
      "epoch": 0.263808,
      "grad_norm": 0.4648851454257965,
      "learning_rate": 0.0008634153487745666,
      "loss": 2.6582,
      "step": 2061
    },
    {
      "epoch": 0.263936,
      "grad_norm": 0.4680785834789276,
      "learning_rate": 0.0008632729328107317,
      "loss": 2.6614,
      "step": 2062
    },
    {
      "epoch": 0.264064,
      "grad_norm": 0.48060306906700134,
      "learning_rate": 0.000863130454396068,
      "loss": 2.6856,
      "step": 2063
    },
    {
      "epoch": 0.264192,
      "grad_norm": 0.4485124349594116,
      "learning_rate": 0.0008629879135550694,
      "loss": 2.7318,
      "step": 2064
    },
    {
      "epoch": 0.26432,
      "grad_norm": 0.42364323139190674,
      "learning_rate": 0.0008628453103122404,
      "loss": 2.72,
      "step": 2065
    },
    {
      "epoch": 0.264448,
      "grad_norm": 0.4659299850463867,
      "learning_rate": 0.0008627026446920963,
      "loss": 2.7046,
      "step": 2066
    },
    {
      "epoch": 0.264576,
      "grad_norm": 0.4963783621788025,
      "learning_rate": 0.0008625599167191626,
      "loss": 2.7373,
      "step": 2067
    },
    {
      "epoch": 0.264704,
      "grad_norm": 0.4835342466831207,
      "learning_rate": 0.0008624171264179761,
      "loss": 2.6699,
      "step": 2068
    },
    {
      "epoch": 0.264832,
      "grad_norm": 0.5082303881645203,
      "learning_rate": 0.000862274273813084,
      "loss": 2.6965,
      "step": 2069
    },
    {
      "epoch": 0.26496,
      "grad_norm": 0.4881860911846161,
      "learning_rate": 0.0008621313589290445,
      "loss": 2.8317,
      "step": 2070
    },
    {
      "epoch": 0.265088,
      "grad_norm": 0.4543631970882416,
      "learning_rate": 0.0008619883817904262,
      "loss": 2.7146,
      "step": 2071
    },
    {
      "epoch": 0.265216,
      "grad_norm": 0.44975826144218445,
      "learning_rate": 0.0008618453424218084,
      "loss": 2.6111,
      "step": 2072
    },
    {
      "epoch": 0.265344,
      "grad_norm": 0.4470876455307007,
      "learning_rate": 0.0008617022408477815,
      "loss": 2.8342,
      "step": 2073
    },
    {
      "epoch": 0.265472,
      "grad_norm": 0.4758492410182953,
      "learning_rate": 0.000861559077092946,
      "loss": 2.7593,
      "step": 2074
    },
    {
      "epoch": 0.2656,
      "grad_norm": 0.43163472414016724,
      "learning_rate": 0.0008614158511819138,
      "loss": 2.6483,
      "step": 2075
    },
    {
      "epoch": 0.265728,
      "grad_norm": 0.44619783759117126,
      "learning_rate": 0.0008612725631393068,
      "loss": 2.7616,
      "step": 2076
    },
    {
      "epoch": 0.265856,
      "grad_norm": 0.4390590190887451,
      "learning_rate": 0.0008611292129897581,
      "loss": 2.659,
      "step": 2077
    },
    {
      "epoch": 0.265984,
      "grad_norm": 0.43835780024528503,
      "learning_rate": 0.000860985800757911,
      "loss": 2.6331,
      "step": 2078
    },
    {
      "epoch": 0.266112,
      "grad_norm": 0.4792608320713043,
      "learning_rate": 0.0008608423264684198,
      "loss": 2.5552,
      "step": 2079
    },
    {
      "epoch": 0.26624,
      "grad_norm": 0.4326457977294922,
      "learning_rate": 0.0008606987901459496,
      "loss": 2.5652,
      "step": 2080
    },
    {
      "epoch": 0.266368,
      "grad_norm": 0.42114537954330444,
      "learning_rate": 0.0008605551918151755,
      "loss": 2.6229,
      "step": 2081
    },
    {
      "epoch": 0.266496,
      "grad_norm": 0.42845845222473145,
      "learning_rate": 0.0008604115315007843,
      "loss": 2.6932,
      "step": 2082
    },
    {
      "epoch": 0.266624,
      "grad_norm": 0.4439678490161896,
      "learning_rate": 0.0008602678092274725,
      "loss": 2.6205,
      "step": 2083
    },
    {
      "epoch": 0.266752,
      "grad_norm": 0.45914939045906067,
      "learning_rate": 0.0008601240250199476,
      "loss": 2.6574,
      "step": 2084
    },
    {
      "epoch": 0.26688,
      "grad_norm": 0.4528929889202118,
      "learning_rate": 0.000859980178902928,
      "loss": 2.6884,
      "step": 2085
    },
    {
      "epoch": 0.267008,
      "grad_norm": 0.45872077345848083,
      "learning_rate": 0.0008598362709011424,
      "loss": 2.6749,
      "step": 2086
    },
    {
      "epoch": 0.267136,
      "grad_norm": 0.44744032621383667,
      "learning_rate": 0.0008596923010393303,
      "loss": 2.6852,
      "step": 2087
    },
    {
      "epoch": 0.267264,
      "grad_norm": 0.48385554552078247,
      "learning_rate": 0.0008595482693422417,
      "loss": 2.8461,
      "step": 2088
    },
    {
      "epoch": 0.267392,
      "grad_norm": 0.44578421115875244,
      "learning_rate": 0.0008594041758346371,
      "loss": 2.6153,
      "step": 2089
    },
    {
      "epoch": 0.26752,
      "grad_norm": 0.42406314611434937,
      "learning_rate": 0.0008592600205412883,
      "loss": 2.6972,
      "step": 2090
    },
    {
      "epoch": 0.267648,
      "grad_norm": 0.42809516191482544,
      "learning_rate": 0.0008591158034869773,
      "loss": 2.7338,
      "step": 2091
    },
    {
      "epoch": 0.267776,
      "grad_norm": 0.44256120920181274,
      "learning_rate": 0.0008589715246964963,
      "loss": 2.6989,
      "step": 2092
    },
    {
      "epoch": 0.267904,
      "grad_norm": 0.4676363170146942,
      "learning_rate": 0.0008588271841946484,
      "loss": 2.7059,
      "step": 2093
    },
    {
      "epoch": 0.268032,
      "grad_norm": 0.4701387584209442,
      "learning_rate": 0.000858682782006248,
      "loss": 2.7485,
      "step": 2094
    },
    {
      "epoch": 0.26816,
      "grad_norm": 0.4804825186729431,
      "learning_rate": 0.000858538318156119,
      "loss": 2.6612,
      "step": 2095
    },
    {
      "epoch": 0.268288,
      "grad_norm": 0.4690210819244385,
      "learning_rate": 0.0008583937926690965,
      "loss": 2.6308,
      "step": 2096
    },
    {
      "epoch": 0.268416,
      "grad_norm": 0.48614922165870667,
      "learning_rate": 0.0008582492055700264,
      "loss": 2.7409,
      "step": 2097
    },
    {
      "epoch": 0.268544,
      "grad_norm": 0.45992767810821533,
      "learning_rate": 0.0008581045568837645,
      "loss": 2.6336,
      "step": 2098
    },
    {
      "epoch": 0.268672,
      "grad_norm": 0.44623589515686035,
      "learning_rate": 0.0008579598466351779,
      "loss": 2.7034,
      "step": 2099
    },
    {
      "epoch": 0.2688,
      "grad_norm": 0.4305954873561859,
      "learning_rate": 0.0008578150748491438,
      "loss": 2.5843,
      "step": 2100
    },
    {
      "epoch": 0.268928,
      "grad_norm": 0.44892287254333496,
      "learning_rate": 0.0008576702415505501,
      "loss": 2.7753,
      "step": 2101
    },
    {
      "epoch": 0.269056,
      "grad_norm": 0.46185147762298584,
      "learning_rate": 0.0008575253467642954,
      "loss": 2.6965,
      "step": 2102
    },
    {
      "epoch": 0.269184,
      "grad_norm": 0.45036637783050537,
      "learning_rate": 0.000857380390515289,
      "loss": 2.6929,
      "step": 2103
    },
    {
      "epoch": 0.269312,
      "grad_norm": 0.44970083236694336,
      "learning_rate": 0.0008572353728284501,
      "loss": 2.6582,
      "step": 2104
    },
    {
      "epoch": 0.26944,
      "grad_norm": 0.450806200504303,
      "learning_rate": 0.0008570902937287092,
      "loss": 2.7365,
      "step": 2105
    },
    {
      "epoch": 0.269568,
      "grad_norm": 0.4410550892353058,
      "learning_rate": 0.0008569451532410074,
      "loss": 2.6257,
      "step": 2106
    },
    {
      "epoch": 0.269696,
      "grad_norm": 0.4591602087020874,
      "learning_rate": 0.0008567999513902953,
      "loss": 2.7109,
      "step": 2107
    },
    {
      "epoch": 0.269824,
      "grad_norm": 0.44706690311431885,
      "learning_rate": 0.0008566546882015354,
      "loss": 2.5162,
      "step": 2108
    },
    {
      "epoch": 0.269952,
      "grad_norm": 0.44088026881217957,
      "learning_rate": 0.0008565093636996999,
      "loss": 2.6242,
      "step": 2109
    },
    {
      "epoch": 0.27008,
      "grad_norm": 0.46265214681625366,
      "learning_rate": 0.0008563639779097716,
      "loss": 2.6961,
      "step": 2110
    },
    {
      "epoch": 0.270208,
      "grad_norm": 0.4778243899345398,
      "learning_rate": 0.0008562185308567443,
      "loss": 2.7043,
      "step": 2111
    },
    {
      "epoch": 0.270336,
      "grad_norm": 0.4525822401046753,
      "learning_rate": 0.000856073022565622,
      "loss": 2.6594,
      "step": 2112
    },
    {
      "epoch": 0.270464,
      "grad_norm": 0.44206297397613525,
      "learning_rate": 0.0008559274530614189,
      "loss": 2.7173,
      "step": 2113
    },
    {
      "epoch": 0.270592,
      "grad_norm": 0.4373367726802826,
      "learning_rate": 0.0008557818223691607,
      "loss": 2.6866,
      "step": 2114
    },
    {
      "epoch": 0.27072,
      "grad_norm": 0.412313848733902,
      "learning_rate": 0.0008556361305138825,
      "loss": 2.7727,
      "step": 2115
    },
    {
      "epoch": 0.270848,
      "grad_norm": 0.46405938267707825,
      "learning_rate": 0.0008554903775206304,
      "loss": 2.6671,
      "step": 2116
    },
    {
      "epoch": 0.270976,
      "grad_norm": 0.46640443801879883,
      "learning_rate": 0.0008553445634144614,
      "loss": 2.6519,
      "step": 2117
    },
    {
      "epoch": 0.271104,
      "grad_norm": 0.43232619762420654,
      "learning_rate": 0.0008551986882204424,
      "loss": 2.6911,
      "step": 2118
    },
    {
      "epoch": 0.271232,
      "grad_norm": 0.4454733729362488,
      "learning_rate": 0.0008550527519636511,
      "loss": 2.696,
      "step": 2119
    },
    {
      "epoch": 0.27136,
      "grad_norm": 0.395907998085022,
      "learning_rate": 0.0008549067546691756,
      "loss": 2.685,
      "step": 2120
    },
    {
      "epoch": 0.271488,
      "grad_norm": 0.43429479002952576,
      "learning_rate": 0.0008547606963621145,
      "loss": 2.657,
      "step": 2121
    },
    {
      "epoch": 0.271616,
      "grad_norm": 0.4756888747215271,
      "learning_rate": 0.000854614577067577,
      "loss": 2.737,
      "step": 2122
    },
    {
      "epoch": 0.271744,
      "grad_norm": 0.44633397459983826,
      "learning_rate": 0.0008544683968106826,
      "loss": 2.6546,
      "step": 2123
    },
    {
      "epoch": 0.271872,
      "grad_norm": 0.46673783659935,
      "learning_rate": 0.0008543221556165614,
      "loss": 2.7238,
      "step": 2124
    },
    {
      "epoch": 0.272,
      "grad_norm": 0.4421752393245697,
      "learning_rate": 0.0008541758535103541,
      "loss": 2.7437,
      "step": 2125
    },
    {
      "epoch": 0.272128,
      "grad_norm": 0.46863076090812683,
      "learning_rate": 0.0008540294905172117,
      "loss": 2.7296,
      "step": 2126
    },
    {
      "epoch": 0.272256,
      "grad_norm": 0.49743276834487915,
      "learning_rate": 0.0008538830666622954,
      "loss": 2.6517,
      "step": 2127
    },
    {
      "epoch": 0.272384,
      "grad_norm": 0.41987988352775574,
      "learning_rate": 0.0008537365819707776,
      "loss": 2.6698,
      "step": 2128
    },
    {
      "epoch": 0.272512,
      "grad_norm": 0.4422524869441986,
      "learning_rate": 0.0008535900364678402,
      "loss": 2.697,
      "step": 2129
    },
    {
      "epoch": 0.27264,
      "grad_norm": 0.4521741569042206,
      "learning_rate": 0.0008534434301786766,
      "loss": 2.6381,
      "step": 2130
    },
    {
      "epoch": 0.272768,
      "grad_norm": 0.4102511405944824,
      "learning_rate": 0.0008532967631284898,
      "loss": 2.6183,
      "step": 2131
    },
    {
      "epoch": 0.272896,
      "grad_norm": 0.39666810631752014,
      "learning_rate": 0.0008531500353424937,
      "loss": 2.6428,
      "step": 2132
    },
    {
      "epoch": 0.273024,
      "grad_norm": 0.4761027693748474,
      "learning_rate": 0.0008530032468459126,
      "loss": 2.6195,
      "step": 2133
    },
    {
      "epoch": 0.273152,
      "grad_norm": 0.49192604422569275,
      "learning_rate": 0.0008528563976639807,
      "loss": 2.6805,
      "step": 2134
    },
    {
      "epoch": 0.27328,
      "grad_norm": 0.48650601506233215,
      "learning_rate": 0.0008527094878219434,
      "loss": 2.6187,
      "step": 2135
    },
    {
      "epoch": 0.273408,
      "grad_norm": 0.4427374005317688,
      "learning_rate": 0.0008525625173450564,
      "loss": 2.7544,
      "step": 2136
    },
    {
      "epoch": 0.273536,
      "grad_norm": 0.4867967665195465,
      "learning_rate": 0.0008524154862585853,
      "loss": 2.7702,
      "step": 2137
    },
    {
      "epoch": 0.273664,
      "grad_norm": 0.46761783957481384,
      "learning_rate": 0.0008522683945878066,
      "loss": 2.6009,
      "step": 2138
    },
    {
      "epoch": 0.273792,
      "grad_norm": 0.4448070824146271,
      "learning_rate": 0.000852121242358007,
      "loss": 2.628,
      "step": 2139
    },
    {
      "epoch": 0.27392,
      "grad_norm": 0.4465261697769165,
      "learning_rate": 0.0008519740295944838,
      "loss": 2.7373,
      "step": 2140
    },
    {
      "epoch": 0.274048,
      "grad_norm": 0.4334929883480072,
      "learning_rate": 0.0008518267563225444,
      "loss": 2.7634,
      "step": 2141
    },
    {
      "epoch": 0.274176,
      "grad_norm": 0.4406720995903015,
      "learning_rate": 0.0008516794225675069,
      "loss": 2.7437,
      "step": 2142
    },
    {
      "epoch": 0.274304,
      "grad_norm": 0.4547572135925293,
      "learning_rate": 0.0008515320283546995,
      "loss": 2.761,
      "step": 2143
    },
    {
      "epoch": 0.274432,
      "grad_norm": 0.4469875395298004,
      "learning_rate": 0.0008513845737094612,
      "loss": 2.6067,
      "step": 2144
    },
    {
      "epoch": 0.27456,
      "grad_norm": 0.49422454833984375,
      "learning_rate": 0.0008512370586571409,
      "loss": 2.7033,
      "step": 2145
    },
    {
      "epoch": 0.274688,
      "grad_norm": 0.4266246557235718,
      "learning_rate": 0.0008510894832230987,
      "loss": 2.6896,
      "step": 2146
    },
    {
      "epoch": 0.274816,
      "grad_norm": 0.40411442518234253,
      "learning_rate": 0.000850941847432704,
      "loss": 2.6812,
      "step": 2147
    },
    {
      "epoch": 0.274944,
      "grad_norm": 0.4874572455883026,
      "learning_rate": 0.000850794151311337,
      "loss": 2.6516,
      "step": 2148
    },
    {
      "epoch": 0.275072,
      "grad_norm": 0.4797384440898895,
      "learning_rate": 0.000850646394884389,
      "loss": 2.7085,
      "step": 2149
    },
    {
      "epoch": 0.2752,
      "grad_norm": 0.46449047327041626,
      "learning_rate": 0.0008504985781772605,
      "loss": 2.6753,
      "step": 2150
    },
    {
      "epoch": 0.275328,
      "grad_norm": 0.4516340494155884,
      "learning_rate": 0.0008503507012153632,
      "loss": 2.7152,
      "step": 2151
    },
    {
      "epoch": 0.275456,
      "grad_norm": 0.4595152735710144,
      "learning_rate": 0.0008502027640241187,
      "loss": 2.8106,
      "step": 2152
    },
    {
      "epoch": 0.275584,
      "grad_norm": 0.47028523683547974,
      "learning_rate": 0.000850054766628959,
      "loss": 2.7212,
      "step": 2153
    },
    {
      "epoch": 0.275712,
      "grad_norm": 0.46764081716537476,
      "learning_rate": 0.0008499067090553269,
      "loss": 2.7579,
      "step": 2154
    },
    {
      "epoch": 0.27584,
      "grad_norm": 0.45114976167678833,
      "learning_rate": 0.0008497585913286752,
      "loss": 2.7605,
      "step": 2155
    },
    {
      "epoch": 0.275968,
      "grad_norm": 0.4512203633785248,
      "learning_rate": 0.0008496104134744667,
      "loss": 2.7394,
      "step": 2156
    },
    {
      "epoch": 0.276096,
      "grad_norm": 0.5099245309829712,
      "learning_rate": 0.000849462175518175,
      "loss": 2.6211,
      "step": 2157
    },
    {
      "epoch": 0.276224,
      "grad_norm": 0.46480268239974976,
      "learning_rate": 0.0008493138774852841,
      "loss": 2.6813,
      "step": 2158
    },
    {
      "epoch": 0.276352,
      "grad_norm": 0.4379907548427582,
      "learning_rate": 0.0008491655194012881,
      "loss": 2.6185,
      "step": 2159
    },
    {
      "epoch": 0.27648,
      "grad_norm": 0.4834387004375458,
      "learning_rate": 0.0008490171012916914,
      "loss": 2.7144,
      "step": 2160
    },
    {
      "epoch": 0.276608,
      "grad_norm": 0.47527995705604553,
      "learning_rate": 0.0008488686231820088,
      "loss": 2.6928,
      "step": 2161
    },
    {
      "epoch": 0.276736,
      "grad_norm": 0.48133566975593567,
      "learning_rate": 0.0008487200850977657,
      "loss": 2.6662,
      "step": 2162
    },
    {
      "epoch": 0.276864,
      "grad_norm": 0.46326786279678345,
      "learning_rate": 0.0008485714870644969,
      "loss": 2.5834,
      "step": 2163
    },
    {
      "epoch": 0.276992,
      "grad_norm": 0.45782309770584106,
      "learning_rate": 0.0008484228291077488,
      "loss": 2.6416,
      "step": 2164
    },
    {
      "epoch": 0.27712,
      "grad_norm": 0.46108946204185486,
      "learning_rate": 0.0008482741112530769,
      "loss": 2.6295,
      "step": 2165
    },
    {
      "epoch": 0.277248,
      "grad_norm": 0.5308348536491394,
      "learning_rate": 0.0008481253335260478,
      "loss": 2.6952,
      "step": 2166
    },
    {
      "epoch": 0.277376,
      "grad_norm": 0.442617267370224,
      "learning_rate": 0.000847976495952238,
      "loss": 2.7053,
      "step": 2167
    },
    {
      "epoch": 0.277504,
      "grad_norm": 0.43628987669944763,
      "learning_rate": 0.0008478275985572346,
      "loss": 2.618,
      "step": 2168
    },
    {
      "epoch": 0.277632,
      "grad_norm": 0.46224576234817505,
      "learning_rate": 0.0008476786413666345,
      "loss": 2.6286,
      "step": 2169
    },
    {
      "epoch": 0.27776,
      "grad_norm": 0.46403926610946655,
      "learning_rate": 0.0008475296244060454,
      "loss": 2.5836,
      "step": 2170
    },
    {
      "epoch": 0.277888,
      "grad_norm": 0.48187056183815,
      "learning_rate": 0.0008473805477010849,
      "loss": 2.652,
      "step": 2171
    },
    {
      "epoch": 0.278016,
      "grad_norm": 0.467829167842865,
      "learning_rate": 0.0008472314112773811,
      "loss": 2.7349,
      "step": 2172
    },
    {
      "epoch": 0.278144,
      "grad_norm": 0.45945048332214355,
      "learning_rate": 0.0008470822151605723,
      "loss": 2.6961,
      "step": 2173
    },
    {
      "epoch": 0.278272,
      "grad_norm": 0.43298277258872986,
      "learning_rate": 0.0008469329593763069,
      "loss": 2.5777,
      "step": 2174
    },
    {
      "epoch": 0.2784,
      "grad_norm": 0.45774590969085693,
      "learning_rate": 0.0008467836439502439,
      "loss": 2.7632,
      "step": 2175
    },
    {
      "epoch": 0.278528,
      "grad_norm": 0.4335314631462097,
      "learning_rate": 0.000846634268908052,
      "loss": 2.7315,
      "step": 2176
    },
    {
      "epoch": 0.278656,
      "grad_norm": 0.46867746114730835,
      "learning_rate": 0.000846484834275411,
      "loss": 2.5324,
      "step": 2177
    },
    {
      "epoch": 0.278784,
      "grad_norm": 0.4410950541496277,
      "learning_rate": 0.0008463353400780101,
      "loss": 2.7585,
      "step": 2178
    },
    {
      "epoch": 0.278912,
      "grad_norm": 0.46765202283859253,
      "learning_rate": 0.0008461857863415492,
      "loss": 2.7118,
      "step": 2179
    },
    {
      "epoch": 0.27904,
      "grad_norm": 0.46113866567611694,
      "learning_rate": 0.0008460361730917383,
      "loss": 2.6859,
      "step": 2180
    },
    {
      "epoch": 0.279168,
      "grad_norm": 0.4892405867576599,
      "learning_rate": 0.0008458865003542975,
      "loss": 2.7847,
      "step": 2181
    },
    {
      "epoch": 0.279296,
      "grad_norm": 0.46865028142929077,
      "learning_rate": 0.0008457367681549575,
      "loss": 2.7775,
      "step": 2182
    },
    {
      "epoch": 0.279424,
      "grad_norm": 0.4554779827594757,
      "learning_rate": 0.0008455869765194591,
      "loss": 2.6568,
      "step": 2183
    },
    {
      "epoch": 0.279552,
      "grad_norm": 0.46698877215385437,
      "learning_rate": 0.000845437125473553,
      "loss": 2.6431,
      "step": 2184
    },
    {
      "epoch": 0.27968,
      "grad_norm": 0.463678240776062,
      "learning_rate": 0.0008452872150430002,
      "loss": 2.635,
      "step": 2185
    },
    {
      "epoch": 0.279808,
      "grad_norm": 0.45631223917007446,
      "learning_rate": 0.0008451372452535724,
      "loss": 2.6712,
      "step": 2186
    },
    {
      "epoch": 0.279936,
      "grad_norm": 0.4381476938724518,
      "learning_rate": 0.000844987216131051,
      "loss": 2.7087,
      "step": 2187
    },
    {
      "epoch": 0.280064,
      "grad_norm": 0.4623035192489624,
      "learning_rate": 0.0008448371277012276,
      "loss": 2.678,
      "step": 2188
    },
    {
      "epoch": 0.280192,
      "grad_norm": 0.4735325276851654,
      "learning_rate": 0.0008446869799899042,
      "loss": 2.6531,
      "step": 2189
    },
    {
      "epoch": 0.28032,
      "grad_norm": 1.1349886655807495,
      "learning_rate": 0.000844536773022893,
      "loss": 2.7129,
      "step": 2190
    },
    {
      "epoch": 0.280448,
      "grad_norm": 0.4351261556148529,
      "learning_rate": 0.0008443865068260164,
      "loss": 2.715,
      "step": 2191
    },
    {
      "epoch": 0.280576,
      "grad_norm": 0.4564727544784546,
      "learning_rate": 0.0008442361814251069,
      "loss": 2.5928,
      "step": 2192
    },
    {
      "epoch": 0.280704,
      "grad_norm": 0.44092732667922974,
      "learning_rate": 0.0008440857968460069,
      "loss": 2.696,
      "step": 2193
    },
    {
      "epoch": 0.280832,
      "grad_norm": 0.45217081904411316,
      "learning_rate": 0.0008439353531145695,
      "loss": 2.7876,
      "step": 2194
    },
    {
      "epoch": 0.28096,
      "grad_norm": 0.46683362126350403,
      "learning_rate": 0.0008437848502566575,
      "loss": 2.7624,
      "step": 2195
    },
    {
      "epoch": 0.281088,
      "grad_norm": 0.46811163425445557,
      "learning_rate": 0.0008436342882981445,
      "loss": 2.7084,
      "step": 2196
    },
    {
      "epoch": 0.281216,
      "grad_norm": 0.4886702597141266,
      "learning_rate": 0.0008434836672649135,
      "loss": 2.7152,
      "step": 2197
    },
    {
      "epoch": 0.281344,
      "grad_norm": 0.47952985763549805,
      "learning_rate": 0.0008433329871828582,
      "loss": 2.7424,
      "step": 2198
    },
    {
      "epoch": 0.281472,
      "grad_norm": 0.47289228439331055,
      "learning_rate": 0.0008431822480778819,
      "loss": 2.6066,
      "step": 2199
    },
    {
      "epoch": 0.2816,
      "grad_norm": 0.4492940604686737,
      "learning_rate": 0.0008430314499758986,
      "loss": 2.6469,
      "step": 2200
    },
    {
      "epoch": 0.281728,
      "grad_norm": 0.44417765736579895,
      "learning_rate": 0.0008428805929028326,
      "loss": 2.6611,
      "step": 2201
    },
    {
      "epoch": 0.281856,
      "grad_norm": 0.4473547637462616,
      "learning_rate": 0.0008427296768846175,
      "loss": 2.7105,
      "step": 2202
    },
    {
      "epoch": 0.281984,
      "grad_norm": 0.4358202815055847,
      "learning_rate": 0.0008425787019471978,
      "loss": 2.6214,
      "step": 2203
    },
    {
      "epoch": 0.282112,
      "grad_norm": 0.46906501054763794,
      "learning_rate": 0.0008424276681165275,
      "loss": 2.7151,
      "step": 2204
    },
    {
      "epoch": 0.28224,
      "grad_norm": 0.4239816665649414,
      "learning_rate": 0.0008422765754185715,
      "loss": 2.664,
      "step": 2205
    },
    {
      "epoch": 0.282368,
      "grad_norm": 0.5450254082679749,
      "learning_rate": 0.000842125423879304,
      "loss": 2.6009,
      "step": 2206
    },
    {
      "epoch": 0.282496,
      "grad_norm": 0.48574015498161316,
      "learning_rate": 0.00084197421352471,
      "loss": 2.7604,
      "step": 2207
    },
    {
      "epoch": 0.282624,
      "grad_norm": 0.42107459902763367,
      "learning_rate": 0.0008418229443807841,
      "loss": 2.6337,
      "step": 2208
    },
    {
      "epoch": 0.282752,
      "grad_norm": 0.45219191908836365,
      "learning_rate": 0.0008416716164735314,
      "loss": 2.6978,
      "step": 2209
    },
    {
      "epoch": 0.28288,
      "grad_norm": 0.468445748090744,
      "learning_rate": 0.0008415202298289668,
      "loss": 2.7475,
      "step": 2210
    },
    {
      "epoch": 0.283008,
      "grad_norm": 0.47168979048728943,
      "learning_rate": 0.0008413687844731155,
      "loss": 2.6923,
      "step": 2211
    },
    {
      "epoch": 0.283136,
      "grad_norm": 0.43622568249702454,
      "learning_rate": 0.0008412172804320126,
      "loss": 2.6355,
      "step": 2212
    },
    {
      "epoch": 0.283264,
      "grad_norm": 0.43515053391456604,
      "learning_rate": 0.0008410657177317034,
      "loss": 2.7235,
      "step": 2213
    },
    {
      "epoch": 0.283392,
      "grad_norm": 0.4960883855819702,
      "learning_rate": 0.0008409140963982435,
      "loss": 2.656,
      "step": 2214
    },
    {
      "epoch": 0.28352,
      "grad_norm": 0.4471083879470825,
      "learning_rate": 0.0008407624164576981,
      "loss": 2.6053,
      "step": 2215
    },
    {
      "epoch": 0.283648,
      "grad_norm": 0.4579091966152191,
      "learning_rate": 0.0008406106779361429,
      "loss": 2.6987,
      "step": 2216
    },
    {
      "epoch": 0.283776,
      "grad_norm": 0.47208043932914734,
      "learning_rate": 0.0008404588808596634,
      "loss": 2.702,
      "step": 2217
    },
    {
      "epoch": 0.283904,
      "grad_norm": 0.4648253321647644,
      "learning_rate": 0.0008403070252543555,
      "loss": 2.7211,
      "step": 2218
    },
    {
      "epoch": 0.284032,
      "grad_norm": 0.4277217388153076,
      "learning_rate": 0.0008401551111463245,
      "loss": 2.7234,
      "step": 2219
    },
    {
      "epoch": 0.28416,
      "grad_norm": 0.43845683336257935,
      "learning_rate": 0.0008400031385616867,
      "loss": 2.7097,
      "step": 2220
    },
    {
      "epoch": 0.284288,
      "grad_norm": 0.5036646127700806,
      "learning_rate": 0.0008398511075265677,
      "loss": 2.7372,
      "step": 2221
    },
    {
      "epoch": 0.284416,
      "grad_norm": 0.4618222117424011,
      "learning_rate": 0.0008396990180671033,
      "loss": 2.6814,
      "step": 2222
    },
    {
      "epoch": 0.284544,
      "grad_norm": 0.4585033655166626,
      "learning_rate": 0.0008395468702094398,
      "loss": 2.6079,
      "step": 2223
    },
    {
      "epoch": 0.284672,
      "grad_norm": 0.5747891664505005,
      "learning_rate": 0.0008393946639797328,
      "loss": 2.6524,
      "step": 2224
    },
    {
      "epoch": 0.2848,
      "grad_norm": 0.4393428862094879,
      "learning_rate": 0.0008392423994041485,
      "loss": 2.7431,
      "step": 2225
    },
    {
      "epoch": 0.284928,
      "grad_norm": 0.4046366810798645,
      "learning_rate": 0.000839090076508863,
      "loss": 2.6425,
      "step": 2226
    },
    {
      "epoch": 0.285056,
      "grad_norm": 0.4502130448818207,
      "learning_rate": 0.000838937695320062,
      "loss": 2.6193,
      "step": 2227
    },
    {
      "epoch": 0.285184,
      "grad_norm": 0.4542752802371979,
      "learning_rate": 0.0008387852558639421,
      "loss": 2.6484,
      "step": 2228
    },
    {
      "epoch": 0.285312,
      "grad_norm": 0.45983439683914185,
      "learning_rate": 0.0008386327581667091,
      "loss": 2.6832,
      "step": 2229
    },
    {
      "epoch": 0.28544,
      "grad_norm": 0.4673113226890564,
      "learning_rate": 0.0008384802022545793,
      "loss": 2.5513,
      "step": 2230
    },
    {
      "epoch": 0.285568,
      "grad_norm": 0.4638251066207886,
      "learning_rate": 0.0008383275881537786,
      "loss": 2.7253,
      "step": 2231
    },
    {
      "epoch": 0.285696,
      "grad_norm": 0.4290854036808014,
      "learning_rate": 0.0008381749158905432,
      "loss": 2.5951,
      "step": 2232
    },
    {
      "epoch": 0.285824,
      "grad_norm": 0.4086977541446686,
      "learning_rate": 0.0008380221854911194,
      "loss": 2.678,
      "step": 2233
    },
    {
      "epoch": 0.285952,
      "grad_norm": 0.4302821159362793,
      "learning_rate": 0.0008378693969817632,
      "loss": 2.5183,
      "step": 2234
    },
    {
      "epoch": 0.28608,
      "grad_norm": 0.46819621324539185,
      "learning_rate": 0.0008377165503887409,
      "loss": 2.6304,
      "step": 2235
    },
    {
      "epoch": 0.286208,
      "grad_norm": 0.43773457407951355,
      "learning_rate": 0.0008375636457383282,
      "loss": 2.73,
      "step": 2236
    },
    {
      "epoch": 0.286336,
      "grad_norm": 0.4145294427871704,
      "learning_rate": 0.0008374106830568117,
      "loss": 2.6395,
      "step": 2237
    },
    {
      "epoch": 0.286464,
      "grad_norm": 0.5591151714324951,
      "learning_rate": 0.000837257662370487,
      "loss": 2.63,
      "step": 2238
    },
    {
      "epoch": 0.286592,
      "grad_norm": 0.4361259341239929,
      "learning_rate": 0.0008371045837056604,
      "loss": 2.7082,
      "step": 2239
    },
    {
      "epoch": 0.28672,
      "grad_norm": 0.4702404737472534,
      "learning_rate": 0.0008369514470886476,
      "loss": 2.6269,
      "step": 2240
    },
    {
      "epoch": 0.286848,
      "grad_norm": 0.46347150206565857,
      "learning_rate": 0.000836798252545775,
      "loss": 2.6203,
      "step": 2241
    },
    {
      "epoch": 0.286976,
      "grad_norm": 0.44287797808647156,
      "learning_rate": 0.0008366450001033783,
      "loss": 2.6633,
      "step": 2242
    },
    {
      "epoch": 0.287104,
      "grad_norm": 0.45175838470458984,
      "learning_rate": 0.0008364916897878032,
      "loss": 2.6643,
      "step": 2243
    },
    {
      "epoch": 0.287232,
      "grad_norm": 0.46295708417892456,
      "learning_rate": 0.0008363383216254057,
      "loss": 2.7925,
      "step": 2244
    },
    {
      "epoch": 0.28736,
      "grad_norm": 0.4382464587688446,
      "learning_rate": 0.0008361848956425515,
      "loss": 2.644,
      "step": 2245
    },
    {
      "epoch": 0.287488,
      "grad_norm": 0.45240628719329834,
      "learning_rate": 0.0008360314118656165,
      "loss": 2.6372,
      "step": 2246
    },
    {
      "epoch": 0.287616,
      "grad_norm": 0.4482826292514801,
      "learning_rate": 0.0008358778703209861,
      "loss": 2.7113,
      "step": 2247
    },
    {
      "epoch": 0.287744,
      "grad_norm": 0.4176594913005829,
      "learning_rate": 0.0008357242710350561,
      "loss": 2.6415,
      "step": 2248
    },
    {
      "epoch": 0.287872,
      "grad_norm": 0.4248996675014496,
      "learning_rate": 0.0008355706140342318,
      "loss": 2.6043,
      "step": 2249
    },
    {
      "epoch": 0.288,
      "grad_norm": 0.43432965874671936,
      "learning_rate": 0.0008354168993449285,
      "loss": 2.6343,
      "step": 2250
    },
    {
      "epoch": 0.288128,
      "grad_norm": 0.4358145594596863,
      "learning_rate": 0.0008352631269935718,
      "loss": 2.7555,
      "step": 2251
    },
    {
      "epoch": 0.288256,
      "grad_norm": 0.44485995173454285,
      "learning_rate": 0.0008351092970065969,
      "loss": 2.7135,
      "step": 2252
    },
    {
      "epoch": 0.288384,
      "grad_norm": 1.5785435438156128,
      "learning_rate": 0.000834955409410449,
      "loss": 2.6338,
      "step": 2253
    },
    {
      "epoch": 0.288512,
      "grad_norm": 0.4282395541667938,
      "learning_rate": 0.0008348014642315831,
      "loss": 2.7171,
      "step": 2254
    },
    {
      "epoch": 0.28864,
      "grad_norm": 0.4554452896118164,
      "learning_rate": 0.0008346474614964641,
      "loss": 2.778,
      "step": 2255
    },
    {
      "epoch": 0.288768,
      "grad_norm": 0.4010964334011078,
      "learning_rate": 0.0008344934012315668,
      "loss": 2.6626,
      "step": 2256
    },
    {
      "epoch": 0.288896,
      "grad_norm": 0.43523773550987244,
      "learning_rate": 0.0008343392834633761,
      "loss": 2.5712,
      "step": 2257
    },
    {
      "epoch": 0.289024,
      "grad_norm": 0.8170601725578308,
      "learning_rate": 0.0008341851082183867,
      "loss": 2.7412,
      "step": 2258
    },
    {
      "epoch": 0.289152,
      "grad_norm": 0.4256967306137085,
      "learning_rate": 0.0008340308755231027,
      "loss": 2.7346,
      "step": 2259
    },
    {
      "epoch": 0.28928,
      "grad_norm": 0.5091403722763062,
      "learning_rate": 0.0008338765854040392,
      "loss": 2.6654,
      "step": 2260
    },
    {
      "epoch": 0.289408,
      "grad_norm": 0.4800841808319092,
      "learning_rate": 0.0008337222378877196,
      "loss": 2.7176,
      "step": 2261
    },
    {
      "epoch": 0.289536,
      "grad_norm": 0.48809412121772766,
      "learning_rate": 0.0008335678330006789,
      "loss": 2.6482,
      "step": 2262
    },
    {
      "epoch": 0.289664,
      "grad_norm": 0.45750775933265686,
      "learning_rate": 0.0008334133707694604,
      "loss": 2.7638,
      "step": 2263
    },
    {
      "epoch": 0.289792,
      "grad_norm": 0.44995051622390747,
      "learning_rate": 0.0008332588512206181,
      "loss": 2.8326,
      "step": 2264
    },
    {
      "epoch": 0.28992,
      "grad_norm": 0.44846004247665405,
      "learning_rate": 0.000833104274380716,
      "loss": 2.7518,
      "step": 2265
    },
    {
      "epoch": 0.290048,
      "grad_norm": 0.4534594416618347,
      "learning_rate": 0.0008329496402763273,
      "loss": 2.6988,
      "step": 2266
    },
    {
      "epoch": 0.290176,
      "grad_norm": 0.5127413868904114,
      "learning_rate": 0.0008327949489340358,
      "loss": 2.6635,
      "step": 2267
    },
    {
      "epoch": 0.290304,
      "grad_norm": 0.4723903238773346,
      "learning_rate": 0.0008326402003804343,
      "loss": 2.5991,
      "step": 2268
    },
    {
      "epoch": 0.290432,
      "grad_norm": 0.49432122707366943,
      "learning_rate": 0.000832485394642126,
      "loss": 2.5797,
      "step": 2269
    },
    {
      "epoch": 0.29056,
      "grad_norm": 0.44469118118286133,
      "learning_rate": 0.000832330531745724,
      "loss": 2.655,
      "step": 2270
    },
    {
      "epoch": 0.290688,
      "grad_norm": 0.44502031803131104,
      "learning_rate": 0.000832175611717851,
      "loss": 2.7203,
      "step": 2271
    },
    {
      "epoch": 0.290816,
      "grad_norm": 0.45585885643959045,
      "learning_rate": 0.0008320206345851393,
      "loss": 2.5981,
      "step": 2272
    },
    {
      "epoch": 0.290944,
      "grad_norm": 0.49798181653022766,
      "learning_rate": 0.0008318656003742313,
      "loss": 2.743,
      "step": 2273
    },
    {
      "epoch": 0.291072,
      "grad_norm": 0.47855475544929504,
      "learning_rate": 0.0008317105091117794,
      "loss": 2.6681,
      "step": 2274
    },
    {
      "epoch": 0.2912,
      "grad_norm": 0.5189287066459656,
      "learning_rate": 0.0008315553608244453,
      "loss": 2.6178,
      "step": 2275
    },
    {
      "epoch": 0.291328,
      "grad_norm": 0.4504951536655426,
      "learning_rate": 0.0008314001555389012,
      "loss": 2.5377,
      "step": 2276
    },
    {
      "epoch": 0.291456,
      "grad_norm": 0.5289047360420227,
      "learning_rate": 0.0008312448932818283,
      "loss": 2.6744,
      "step": 2277
    },
    {
      "epoch": 0.291584,
      "grad_norm": 1.0436593294143677,
      "learning_rate": 0.0008310895740799181,
      "loss": 2.8206,
      "step": 2278
    },
    {
      "epoch": 0.291712,
      "grad_norm": 0.4337613880634308,
      "learning_rate": 0.0008309341979598719,
      "loss": 2.6448,
      "step": 2279
    },
    {
      "epoch": 0.29184,
      "grad_norm": 0.4601061940193176,
      "learning_rate": 0.0008307787649484004,
      "loss": 2.7908,
      "step": 2280
    },
    {
      "epoch": 0.291968,
      "grad_norm": 0.4124886393547058,
      "learning_rate": 0.0008306232750722247,
      "loss": 2.7058,
      "step": 2281
    },
    {
      "epoch": 0.292096,
      "grad_norm": 0.4795202910900116,
      "learning_rate": 0.0008304677283580749,
      "loss": 2.7272,
      "step": 2282
    },
    {
      "epoch": 0.292224,
      "grad_norm": 0.46733221411705017,
      "learning_rate": 0.0008303121248326915,
      "loss": 2.6546,
      "step": 2283
    },
    {
      "epoch": 0.292352,
      "grad_norm": 0.46593695878982544,
      "learning_rate": 0.0008301564645228248,
      "loss": 2.7145,
      "step": 2284
    },
    {
      "epoch": 0.29248,
      "grad_norm": 0.4725932478904724,
      "learning_rate": 0.0008300007474552341,
      "loss": 2.692,
      "step": 2285
    },
    {
      "epoch": 0.292608,
      "grad_norm": 0.4855351746082306,
      "learning_rate": 0.0008298449736566893,
      "loss": 2.6552,
      "step": 2286
    },
    {
      "epoch": 0.292736,
      "grad_norm": 0.46680164337158203,
      "learning_rate": 0.0008296891431539695,
      "loss": 2.7843,
      "step": 2287
    },
    {
      "epoch": 0.292864,
      "grad_norm": 0.47023123502731323,
      "learning_rate": 0.0008295332559738641,
      "loss": 2.726,
      "step": 2288
    },
    {
      "epoch": 0.292992,
      "grad_norm": 0.5116118788719177,
      "learning_rate": 0.0008293773121431716,
      "loss": 2.7925,
      "step": 2289
    },
    {
      "epoch": 0.29312,
      "grad_norm": 0.45968565344810486,
      "learning_rate": 0.0008292213116887008,
      "loss": 2.6814,
      "step": 2290
    },
    {
      "epoch": 0.293248,
      "grad_norm": 0.4654823839664459,
      "learning_rate": 0.0008290652546372696,
      "loss": 2.6398,
      "step": 2291
    },
    {
      "epoch": 0.293376,
      "grad_norm": 0.49292275309562683,
      "learning_rate": 0.0008289091410157066,
      "loss": 2.8157,
      "step": 2292
    },
    {
      "epoch": 0.293504,
      "grad_norm": 0.4372405707836151,
      "learning_rate": 0.000828752970850849,
      "loss": 2.5594,
      "step": 2293
    },
    {
      "epoch": 0.293632,
      "grad_norm": 0.5161036252975464,
      "learning_rate": 0.0008285967441695446,
      "loss": 2.6668,
      "step": 2294
    },
    {
      "epoch": 0.29376,
      "grad_norm": 0.44129881262779236,
      "learning_rate": 0.0008284404609986504,
      "loss": 2.6965,
      "step": 2295
    },
    {
      "epoch": 0.293888,
      "grad_norm": 0.5009932518005371,
      "learning_rate": 0.0008282841213650332,
      "loss": 2.6373,
      "step": 2296
    },
    {
      "epoch": 0.294016,
      "grad_norm": 0.5042763352394104,
      "learning_rate": 0.0008281277252955699,
      "loss": 2.6888,
      "step": 2297
    },
    {
      "epoch": 0.294144,
      "grad_norm": 0.48368504643440247,
      "learning_rate": 0.0008279712728171466,
      "loss": 2.7517,
      "step": 2298
    },
    {
      "epoch": 0.294272,
      "grad_norm": 0.4469481408596039,
      "learning_rate": 0.0008278147639566595,
      "loss": 2.7417,
      "step": 2299
    },
    {
      "epoch": 0.2944,
      "grad_norm": 0.44374096393585205,
      "learning_rate": 0.0008276581987410139,
      "loss": 2.6947,
      "step": 2300
    },
    {
      "epoch": 0.294528,
      "grad_norm": 0.4679478108882904,
      "learning_rate": 0.0008275015771971255,
      "loss": 2.5573,
      "step": 2301
    },
    {
      "epoch": 0.294656,
      "grad_norm": 0.4821285605430603,
      "learning_rate": 0.0008273448993519193,
      "loss": 2.6759,
      "step": 2302
    },
    {
      "epoch": 0.294784,
      "grad_norm": 0.4913884401321411,
      "learning_rate": 0.0008271881652323298,
      "loss": 2.6974,
      "step": 2303
    },
    {
      "epoch": 0.294912,
      "grad_norm": 0.43281522393226624,
      "learning_rate": 0.0008270313748653018,
      "loss": 2.6332,
      "step": 2304
    },
    {
      "epoch": 0.29504,
      "grad_norm": 0.4551081359386444,
      "learning_rate": 0.0008268745282777891,
      "loss": 2.7744,
      "step": 2305
    },
    {
      "epoch": 0.295168,
      "grad_norm": 0.3975616693496704,
      "learning_rate": 0.0008267176254967556,
      "loss": 2.7097,
      "step": 2306
    },
    {
      "epoch": 0.295296,
      "grad_norm": 0.47836750745773315,
      "learning_rate": 0.0008265606665491745,
      "loss": 2.5719,
      "step": 2307
    },
    {
      "epoch": 0.295424,
      "grad_norm": 0.4317171573638916,
      "learning_rate": 0.0008264036514620293,
      "loss": 2.5679,
      "step": 2308
    },
    {
      "epoch": 0.295552,
      "grad_norm": 0.46733811497688293,
      "learning_rate": 0.0008262465802623121,
      "loss": 2.6291,
      "step": 2309
    },
    {
      "epoch": 0.29568,
      "grad_norm": 0.42545410990715027,
      "learning_rate": 0.0008260894529770257,
      "loss": 2.5925,
      "step": 2310
    },
    {
      "epoch": 0.295808,
      "grad_norm": 0.5209170579910278,
      "learning_rate": 0.0008259322696331819,
      "loss": 2.5984,
      "step": 2311
    },
    {
      "epoch": 0.295936,
      "grad_norm": 0.43534523248672485,
      "learning_rate": 0.0008257750302578026,
      "loss": 2.7645,
      "step": 2312
    },
    {
      "epoch": 0.296064,
      "grad_norm": 0.44808587431907654,
      "learning_rate": 0.0008256177348779188,
      "loss": 2.7226,
      "step": 2313
    },
    {
      "epoch": 0.296192,
      "grad_norm": 0.48866090178489685,
      "learning_rate": 0.0008254603835205714,
      "loss": 2.666,
      "step": 2314
    },
    {
      "epoch": 0.29632,
      "grad_norm": 0.45528361201286316,
      "learning_rate": 0.000825302976212811,
      "loss": 2.7275,
      "step": 2315
    },
    {
      "epoch": 0.296448,
      "grad_norm": 0.5003068447113037,
      "learning_rate": 0.0008251455129816979,
      "loss": 2.6948,
      "step": 2316
    },
    {
      "epoch": 0.296576,
      "grad_norm": 0.4553779661655426,
      "learning_rate": 0.0008249879938543017,
      "loss": 2.5637,
      "step": 2317
    },
    {
      "epoch": 0.296704,
      "grad_norm": 0.4615742862224579,
      "learning_rate": 0.0008248304188577017,
      "loss": 2.6851,
      "step": 2318
    },
    {
      "epoch": 0.296832,
      "grad_norm": 0.44554752111434937,
      "learning_rate": 0.0008246727880189869,
      "loss": 2.7253,
      "step": 2319
    },
    {
      "epoch": 0.29696,
      "grad_norm": 0.4905337393283844,
      "learning_rate": 0.0008245151013652561,
      "loss": 2.8073,
      "step": 2320
    },
    {
      "epoch": 0.297088,
      "grad_norm": 0.4633454978466034,
      "learning_rate": 0.0008243573589236171,
      "loss": 2.7194,
      "step": 2321
    },
    {
      "epoch": 0.297216,
      "grad_norm": 0.43971577286720276,
      "learning_rate": 0.0008241995607211879,
      "loss": 2.6203,
      "step": 2322
    },
    {
      "epoch": 0.297344,
      "grad_norm": 0.4426500201225281,
      "learning_rate": 0.0008240417067850957,
      "loss": 2.7484,
      "step": 2323
    },
    {
      "epoch": 0.297472,
      "grad_norm": 0.4457017183303833,
      "learning_rate": 0.0008238837971424775,
      "loss": 2.7023,
      "step": 2324
    },
    {
      "epoch": 0.2976,
      "grad_norm": 0.4448089003562927,
      "learning_rate": 0.0008237258318204799,
      "loss": 2.7719,
      "step": 2325
    },
    {
      "epoch": 0.297728,
      "grad_norm": 0.46877121925354004,
      "learning_rate": 0.0008235678108462587,
      "loss": 2.6085,
      "step": 2326
    },
    {
      "epoch": 0.297856,
      "grad_norm": 0.4384400248527527,
      "learning_rate": 0.0008234097342469798,
      "loss": 2.6186,
      "step": 2327
    },
    {
      "epoch": 0.297984,
      "grad_norm": 0.49110350012779236,
      "learning_rate": 0.0008232516020498183,
      "loss": 2.6166,
      "step": 2328
    },
    {
      "epoch": 0.298112,
      "grad_norm": 0.4297751784324646,
      "learning_rate": 0.0008230934142819588,
      "loss": 2.6672,
      "step": 2329
    },
    {
      "epoch": 0.29824,
      "grad_norm": 0.46601733565330505,
      "learning_rate": 0.000822935170970596,
      "loss": 2.5783,
      "step": 2330
    },
    {
      "epoch": 0.298368,
      "grad_norm": 0.48191890120506287,
      "learning_rate": 0.0008227768721429334,
      "loss": 2.6283,
      "step": 2331
    },
    {
      "epoch": 0.298496,
      "grad_norm": 0.4355994462966919,
      "learning_rate": 0.0008226185178261846,
      "loss": 2.6737,
      "step": 2332
    },
    {
      "epoch": 0.298624,
      "grad_norm": 0.4303082227706909,
      "learning_rate": 0.0008224601080475723,
      "loss": 2.6757,
      "step": 2333
    },
    {
      "epoch": 0.298752,
      "grad_norm": 0.5256078839302063,
      "learning_rate": 0.0008223016428343293,
      "loss": 2.7387,
      "step": 2334
    },
    {
      "epoch": 0.29888,
      "grad_norm": 0.45517390966415405,
      "learning_rate": 0.0008221431222136975,
      "loss": 2.6415,
      "step": 2335
    },
    {
      "epoch": 0.299008,
      "grad_norm": 0.40989431738853455,
      "learning_rate": 0.0008219845462129283,
      "loss": 2.7522,
      "step": 2336
    },
    {
      "epoch": 0.299136,
      "grad_norm": 0.4152735471725464,
      "learning_rate": 0.0008218259148592828,
      "loss": 2.5665,
      "step": 2337
    },
    {
      "epoch": 0.299264,
      "grad_norm": 0.43711763620376587,
      "learning_rate": 0.0008216672281800316,
      "loss": 2.6665,
      "step": 2338
    },
    {
      "epoch": 0.299392,
      "grad_norm": 0.4190841019153595,
      "learning_rate": 0.0008215084862024549,
      "loss": 2.6579,
      "step": 2339
    },
    {
      "epoch": 0.29952,
      "grad_norm": 0.4201025366783142,
      "learning_rate": 0.0008213496889538421,
      "loss": 2.7415,
      "step": 2340
    },
    {
      "epoch": 0.299648,
      "grad_norm": 0.45635297894477844,
      "learning_rate": 0.0008211908364614924,
      "loss": 2.6882,
      "step": 2341
    },
    {
      "epoch": 0.299776,
      "grad_norm": 0.43963542580604553,
      "learning_rate": 0.0008210319287527143,
      "loss": 2.61,
      "step": 2342
    },
    {
      "epoch": 0.299904,
      "grad_norm": 0.554800808429718,
      "learning_rate": 0.000820872965854826,
      "loss": 2.6994,
      "step": 2343
    },
    {
      "epoch": 0.300032,
      "grad_norm": 0.44439998269081116,
      "learning_rate": 0.0008207139477951549,
      "loss": 2.6654,
      "step": 2344
    },
    {
      "epoch": 0.30016,
      "grad_norm": 0.4429679214954376,
      "learning_rate": 0.0008205548746010382,
      "loss": 2.6155,
      "step": 2345
    },
    {
      "epoch": 0.300288,
      "grad_norm": 0.5507403016090393,
      "learning_rate": 0.0008203957462998224,
      "loss": 2.7032,
      "step": 2346
    },
    {
      "epoch": 0.300416,
      "grad_norm": 0.4202764332294464,
      "learning_rate": 0.0008202365629188633,
      "loss": 2.6728,
      "step": 2347
    },
    {
      "epoch": 0.300544,
      "grad_norm": 0.4419023096561432,
      "learning_rate": 0.0008200773244855267,
      "loss": 2.7274,
      "step": 2348
    },
    {
      "epoch": 0.300672,
      "grad_norm": 0.39854666590690613,
      "learning_rate": 0.0008199180310271873,
      "loss": 2.684,
      "step": 2349
    },
    {
      "epoch": 0.3008,
      "grad_norm": 0.3972938060760498,
      "learning_rate": 0.0008197586825712295,
      "loss": 2.7061,
      "step": 2350
    },
    {
      "epoch": 0.300928,
      "grad_norm": 0.44298091530799866,
      "learning_rate": 0.0008195992791450474,
      "loss": 2.5912,
      "step": 2351
    },
    {
      "epoch": 0.301056,
      "grad_norm": 0.4360074996948242,
      "learning_rate": 0.0008194398207760439,
      "loss": 2.597,
      "step": 2352
    },
    {
      "epoch": 0.301184,
      "grad_norm": 0.4547410309314728,
      "learning_rate": 0.0008192803074916321,
      "loss": 2.7478,
      "step": 2353
    },
    {
      "epoch": 0.301312,
      "grad_norm": 0.4452756643295288,
      "learning_rate": 0.0008191207393192339,
      "loss": 2.7486,
      "step": 2354
    },
    {
      "epoch": 0.30144,
      "grad_norm": 0.4409511089324951,
      "learning_rate": 0.0008189611162862812,
      "loss": 2.7562,
      "step": 2355
    },
    {
      "epoch": 0.301568,
      "grad_norm": 0.43934166431427,
      "learning_rate": 0.0008188014384202147,
      "loss": 2.5947,
      "step": 2356
    },
    {
      "epoch": 0.301696,
      "grad_norm": 0.4584343135356903,
      "learning_rate": 0.0008186417057484852,
      "loss": 2.6087,
      "step": 2357
    },
    {
      "epoch": 0.301824,
      "grad_norm": 0.4143427312374115,
      "learning_rate": 0.0008184819182985524,
      "loss": 2.6606,
      "step": 2358
    },
    {
      "epoch": 0.301952,
      "grad_norm": 0.4337121844291687,
      "learning_rate": 0.0008183220760978858,
      "loss": 2.6006,
      "step": 2359
    },
    {
      "epoch": 0.30208,
      "grad_norm": 0.4300970435142517,
      "learning_rate": 0.000818162179173964,
      "loss": 2.764,
      "step": 2360
    },
    {
      "epoch": 0.302208,
      "grad_norm": 0.43035146594047546,
      "learning_rate": 0.0008180022275542749,
      "loss": 2.7973,
      "step": 2361
    },
    {
      "epoch": 0.302336,
      "grad_norm": 0.4601525068283081,
      "learning_rate": 0.0008178422212663166,
      "loss": 2.621,
      "step": 2362
    },
    {
      "epoch": 0.302464,
      "grad_norm": 0.4418688714504242,
      "learning_rate": 0.0008176821603375954,
      "loss": 2.669,
      "step": 2363
    },
    {
      "epoch": 0.302592,
      "grad_norm": 0.42083173990249634,
      "learning_rate": 0.0008175220447956281,
      "loss": 2.6602,
      "step": 2364
    },
    {
      "epoch": 0.30272,
      "grad_norm": 0.42016905546188354,
      "learning_rate": 0.0008173618746679406,
      "loss": 2.7012,
      "step": 2365
    },
    {
      "epoch": 0.302848,
      "grad_norm": 0.42589136958122253,
      "learning_rate": 0.0008172016499820671,
      "loss": 2.7681,
      "step": 2366
    },
    {
      "epoch": 0.302976,
      "grad_norm": 0.4720712900161743,
      "learning_rate": 0.000817041370765553,
      "loss": 2.7267,
      "step": 2367
    },
    {
      "epoch": 0.303104,
      "grad_norm": 0.41689661145210266,
      "learning_rate": 0.0008168810370459518,
      "loss": 2.6294,
      "step": 2368
    },
    {
      "epoch": 0.303232,
      "grad_norm": 0.4808521866798401,
      "learning_rate": 0.0008167206488508267,
      "loss": 2.7188,
      "step": 2369
    },
    {
      "epoch": 0.30336,
      "grad_norm": 0.4145272374153137,
      "learning_rate": 0.0008165602062077502,
      "loss": 2.6585,
      "step": 2370
    },
    {
      "epoch": 0.303488,
      "grad_norm": 0.4931603670120239,
      "learning_rate": 0.0008163997091443045,
      "loss": 2.5421,
      "step": 2371
    },
    {
      "epoch": 0.303616,
      "grad_norm": 0.49411293864250183,
      "learning_rate": 0.0008162391576880808,
      "loss": 2.7361,
      "step": 2372
    },
    {
      "epoch": 0.303744,
      "grad_norm": 0.47044891119003296,
      "learning_rate": 0.0008160785518666796,
      "loss": 2.6212,
      "step": 2373
    },
    {
      "epoch": 0.303872,
      "grad_norm": 0.4559180438518524,
      "learning_rate": 0.0008159178917077111,
      "loss": 2.7176,
      "step": 2374
    },
    {
      "epoch": 0.304,
      "grad_norm": 0.4649358093738556,
      "learning_rate": 0.0008157571772387946,
      "loss": 2.5928,
      "step": 2375
    },
    {
      "epoch": 0.304128,
      "grad_norm": 0.4444572627544403,
      "learning_rate": 0.0008155964084875587,
      "loss": 2.6927,
      "step": 2376
    },
    {
      "epoch": 0.304256,
      "grad_norm": 0.46184808015823364,
      "learning_rate": 0.0008154355854816416,
      "loss": 2.7603,
      "step": 2377
    },
    {
      "epoch": 0.304384,
      "grad_norm": 0.4929508566856384,
      "learning_rate": 0.0008152747082486904,
      "loss": 2.7346,
      "step": 2378
    },
    {
      "epoch": 0.304512,
      "grad_norm": 0.46053287386894226,
      "learning_rate": 0.0008151137768163619,
      "loss": 2.6641,
      "step": 2379
    },
    {
      "epoch": 0.30464,
      "grad_norm": 0.4160769283771515,
      "learning_rate": 0.000814952791212322,
      "loss": 2.6992,
      "step": 2380
    },
    {
      "epoch": 0.304768,
      "grad_norm": 0.4415893256664276,
      "learning_rate": 0.0008147917514642462,
      "loss": 2.61,
      "step": 2381
    },
    {
      "epoch": 0.304896,
      "grad_norm": 0.4317139685153961,
      "learning_rate": 0.0008146306575998188,
      "loss": 2.7151,
      "step": 2382
    },
    {
      "epoch": 0.305024,
      "grad_norm": 0.4075808823108673,
      "learning_rate": 0.0008144695096467341,
      "loss": 2.7219,
      "step": 2383
    },
    {
      "epoch": 0.305152,
      "grad_norm": 0.4513919949531555,
      "learning_rate": 0.0008143083076326947,
      "loss": 2.7135,
      "step": 2384
    },
    {
      "epoch": 0.30528,
      "grad_norm": 0.4216964542865753,
      "learning_rate": 0.0008141470515854135,
      "loss": 2.5811,
      "step": 2385
    },
    {
      "epoch": 0.305408,
      "grad_norm": 0.4467553198337555,
      "learning_rate": 0.0008139857415326124,
      "loss": 2.7018,
      "step": 2386
    },
    {
      "epoch": 0.305536,
      "grad_norm": 0.47317108511924744,
      "learning_rate": 0.0008138243775020223,
      "loss": 2.6496,
      "step": 2387
    },
    {
      "epoch": 0.305664,
      "grad_norm": 0.4528402090072632,
      "learning_rate": 0.0008136629595213834,
      "loss": 2.6037,
      "step": 2388
    },
    {
      "epoch": 0.305792,
      "grad_norm": 0.41185858845710754,
      "learning_rate": 0.0008135014876184454,
      "loss": 2.6893,
      "step": 2389
    },
    {
      "epoch": 0.30592,
      "grad_norm": 0.4639110565185547,
      "learning_rate": 0.0008133399618209674,
      "loss": 2.6983,
      "step": 2390
    },
    {
      "epoch": 0.306048,
      "grad_norm": 0.4507232904434204,
      "learning_rate": 0.0008131783821567174,
      "loss": 2.6346,
      "step": 2391
    },
    {
      "epoch": 0.306176,
      "grad_norm": 0.43622082471847534,
      "learning_rate": 0.0008130167486534729,
      "loss": 2.6653,
      "step": 2392
    },
    {
      "epoch": 0.306304,
      "grad_norm": 0.46584227681159973,
      "learning_rate": 0.0008128550613390205,
      "loss": 2.7165,
      "step": 2393
    },
    {
      "epoch": 0.306432,
      "grad_norm": 0.44975659251213074,
      "learning_rate": 0.0008126933202411559,
      "loss": 2.6277,
      "step": 2394
    },
    {
      "epoch": 0.30656,
      "grad_norm": 0.46518969535827637,
      "learning_rate": 0.0008125315253876849,
      "loss": 2.6554,
      "step": 2395
    },
    {
      "epoch": 0.306688,
      "grad_norm": 0.4560447931289673,
      "learning_rate": 0.0008123696768064212,
      "loss": 2.6007,
      "step": 2396
    },
    {
      "epoch": 0.306816,
      "grad_norm": 0.4576791822910309,
      "learning_rate": 0.0008122077745251888,
      "loss": 2.64,
      "step": 2397
    },
    {
      "epoch": 0.306944,
      "grad_norm": 0.47254517674446106,
      "learning_rate": 0.0008120458185718205,
      "loss": 2.6722,
      "step": 2398
    },
    {
      "epoch": 0.307072,
      "grad_norm": 0.4327828288078308,
      "learning_rate": 0.0008118838089741585,
      "loss": 2.5467,
      "step": 2399
    },
    {
      "epoch": 0.3072,
      "grad_norm": 0.4562693238258362,
      "learning_rate": 0.0008117217457600541,
      "loss": 2.6413,
      "step": 2400
    },
    {
      "epoch": 0.307328,
      "grad_norm": 0.4329524338245392,
      "learning_rate": 0.0008115596289573678,
      "loss": 2.6888,
      "step": 2401
    },
    {
      "epoch": 0.307456,
      "grad_norm": 0.4541497230529785,
      "learning_rate": 0.0008113974585939694,
      "loss": 2.6945,
      "step": 2402
    },
    {
      "epoch": 0.307584,
      "grad_norm": 0.4673227071762085,
      "learning_rate": 0.0008112352346977377,
      "loss": 2.6668,
      "step": 2403
    },
    {
      "epoch": 0.307712,
      "grad_norm": 0.40932586789131165,
      "learning_rate": 0.0008110729572965612,
      "loss": 2.6471,
      "step": 2404
    },
    {
      "epoch": 0.30784,
      "grad_norm": 0.4210464358329773,
      "learning_rate": 0.0008109106264183369,
      "loss": 2.6797,
      "step": 2405
    },
    {
      "epoch": 0.307968,
      "grad_norm": 0.3977366089820862,
      "learning_rate": 0.0008107482420909718,
      "loss": 2.602,
      "step": 2406
    },
    {
      "epoch": 0.308096,
      "grad_norm": 0.5027389526367188,
      "learning_rate": 0.0008105858043423811,
      "loss": 2.6626,
      "step": 2407
    },
    {
      "epoch": 0.308224,
      "grad_norm": 0.43907496333122253,
      "learning_rate": 0.0008104233132004901,
      "loss": 2.7727,
      "step": 2408
    },
    {
      "epoch": 0.308352,
      "grad_norm": 0.4625304341316223,
      "learning_rate": 0.0008102607686932328,
      "loss": 2.6933,
      "step": 2409
    },
    {
      "epoch": 0.30848,
      "grad_norm": 0.45207032561302185,
      "learning_rate": 0.0008100981708485526,
      "loss": 2.5416,
      "step": 2410
    },
    {
      "epoch": 0.308608,
      "grad_norm": 0.45961785316467285,
      "learning_rate": 0.0008099355196944018,
      "loss": 2.6022,
      "step": 2411
    },
    {
      "epoch": 0.308736,
      "grad_norm": 0.7115198969841003,
      "learning_rate": 0.000809772815258742,
      "loss": 2.759,
      "step": 2412
    },
    {
      "epoch": 0.308864,
      "grad_norm": 0.439098596572876,
      "learning_rate": 0.0008096100575695442,
      "loss": 2.6637,
      "step": 2413
    },
    {
      "epoch": 0.308992,
      "grad_norm": 0.4628685712814331,
      "learning_rate": 0.0008094472466547882,
      "loss": 2.7768,
      "step": 2414
    },
    {
      "epoch": 0.30912,
      "grad_norm": 0.46365103125572205,
      "learning_rate": 0.0008092843825424629,
      "loss": 2.7255,
      "step": 2415
    },
    {
      "epoch": 0.309248,
      "grad_norm": 0.5098532438278198,
      "learning_rate": 0.0008091214652605669,
      "loss": 2.7556,
      "step": 2416
    },
    {
      "epoch": 0.309376,
      "grad_norm": 0.44006502628326416,
      "learning_rate": 0.0008089584948371074,
      "loss": 2.7505,
      "step": 2417
    },
    {
      "epoch": 0.309504,
      "grad_norm": 0.40549033880233765,
      "learning_rate": 0.0008087954713001007,
      "loss": 2.6323,
      "step": 2418
    },
    {
      "epoch": 0.309632,
      "grad_norm": 0.4239218533039093,
      "learning_rate": 0.0008086323946775727,
      "loss": 2.6643,
      "step": 2419
    },
    {
      "epoch": 0.30976,
      "grad_norm": 0.48973414301872253,
      "learning_rate": 0.0008084692649975582,
      "loss": 2.5214,
      "step": 2420
    },
    {
      "epoch": 0.309888,
      "grad_norm": 0.44126182794570923,
      "learning_rate": 0.0008083060822881008,
      "loss": 2.7107,
      "step": 2421
    },
    {
      "epoch": 0.310016,
      "grad_norm": 0.4159538447856903,
      "learning_rate": 0.0008081428465772538,
      "loss": 2.7328,
      "step": 2422
    },
    {
      "epoch": 0.310144,
      "grad_norm": 0.4191986322402954,
      "learning_rate": 0.0008079795578930791,
      "loss": 2.5815,
      "step": 2423
    },
    {
      "epoch": 0.310272,
      "grad_norm": 0.46912139654159546,
      "learning_rate": 0.000807816216263648,
      "loss": 2.7106,
      "step": 2424
    },
    {
      "epoch": 0.3104,
      "grad_norm": 0.4607742726802826,
      "learning_rate": 0.0008076528217170408,
      "loss": 2.6643,
      "step": 2425
    },
    {
      "epoch": 0.310528,
      "grad_norm": 0.47693464159965515,
      "learning_rate": 0.0008074893742813469,
      "loss": 2.6925,
      "step": 2426
    },
    {
      "epoch": 0.310656,
      "grad_norm": 0.47674691677093506,
      "learning_rate": 0.0008073258739846649,
      "loss": 2.6373,
      "step": 2427
    },
    {
      "epoch": 0.310784,
      "grad_norm": 0.43350616097450256,
      "learning_rate": 0.0008071623208551023,
      "loss": 2.6207,
      "step": 2428
    },
    {
      "epoch": 0.310912,
      "grad_norm": 0.4466455280780792,
      "learning_rate": 0.0008069987149207759,
      "loss": 2.6885,
      "step": 2429
    },
    {
      "epoch": 0.31104,
      "grad_norm": 0.4195682108402252,
      "learning_rate": 0.0008068350562098112,
      "loss": 2.6274,
      "step": 2430
    },
    {
      "epoch": 0.311168,
      "grad_norm": 0.44550660252571106,
      "learning_rate": 0.0008066713447503433,
      "loss": 2.6525,
      "step": 2431
    },
    {
      "epoch": 0.311296,
      "grad_norm": 0.43412238359451294,
      "learning_rate": 0.000806507580570516,
      "loss": 2.6799,
      "step": 2432
    },
    {
      "epoch": 0.311424,
      "grad_norm": 0.4482496976852417,
      "learning_rate": 0.0008063437636984823,
      "loss": 2.6092,
      "step": 2433
    },
    {
      "epoch": 0.311552,
      "grad_norm": 0.436928927898407,
      "learning_rate": 0.0008061798941624041,
      "loss": 2.6393,
      "step": 2434
    },
    {
      "epoch": 0.31168,
      "grad_norm": 0.8852389454841614,
      "learning_rate": 0.0008060159719904525,
      "loss": 2.5418,
      "step": 2435
    },
    {
      "epoch": 0.311808,
      "grad_norm": 0.41851896047592163,
      "learning_rate": 0.0008058519972108079,
      "loss": 2.7001,
      "step": 2436
    },
    {
      "epoch": 0.311936,
      "grad_norm": 0.45462027192115784,
      "learning_rate": 0.0008056879698516591,
      "loss": 2.6768,
      "step": 2437
    },
    {
      "epoch": 0.312064,
      "grad_norm": 0.4423335790634155,
      "learning_rate": 0.0008055238899412045,
      "loss": 2.6156,
      "step": 2438
    },
    {
      "epoch": 0.312192,
      "grad_norm": 0.4521327614784241,
      "learning_rate": 0.0008053597575076512,
      "loss": 2.6383,
      "step": 2439
    },
    {
      "epoch": 0.31232,
      "grad_norm": 0.47115060687065125,
      "learning_rate": 0.0008051955725792155,
      "loss": 2.6467,
      "step": 2440
    },
    {
      "epoch": 0.312448,
      "grad_norm": 0.47663065791130066,
      "learning_rate": 0.0008050313351841228,
      "loss": 2.6983,
      "step": 2441
    },
    {
      "epoch": 0.312576,
      "grad_norm": 0.4381314814090729,
      "learning_rate": 0.0008048670453506074,
      "loss": 2.6583,
      "step": 2442
    },
    {
      "epoch": 0.312704,
      "grad_norm": 0.4216797947883606,
      "learning_rate": 0.0008047027031069126,
      "loss": 2.5521,
      "step": 2443
    },
    {
      "epoch": 0.312832,
      "grad_norm": 0.44362375140190125,
      "learning_rate": 0.0008045383084812906,
      "loss": 2.7368,
      "step": 2444
    },
    {
      "epoch": 0.31296,
      "grad_norm": 0.40930911898612976,
      "learning_rate": 0.0008043738615020029,
      "loss": 2.6297,
      "step": 2445
    },
    {
      "epoch": 0.313088,
      "grad_norm": 0.4481859803199768,
      "learning_rate": 0.0008042093621973198,
      "loss": 2.6778,
      "step": 2446
    },
    {
      "epoch": 0.313216,
      "grad_norm": 0.41141220927238464,
      "learning_rate": 0.0008040448105955208,
      "loss": 2.7259,
      "step": 2447
    },
    {
      "epoch": 0.313344,
      "grad_norm": 0.4391756057739258,
      "learning_rate": 0.0008038802067248939,
      "loss": 2.6719,
      "step": 2448
    },
    {
      "epoch": 0.313472,
      "grad_norm": 0.4144676923751831,
      "learning_rate": 0.0008037155506137366,
      "loss": 2.5323,
      "step": 2449
    },
    {
      "epoch": 0.3136,
      "grad_norm": 0.46922528743743896,
      "learning_rate": 0.0008035508422903553,
      "loss": 2.753,
      "step": 2450
    },
    {
      "epoch": 0.313728,
      "grad_norm": 0.4360903203487396,
      "learning_rate": 0.000803386081783065,
      "loss": 2.65,
      "step": 2451
    },
    {
      "epoch": 0.313856,
      "grad_norm": 0.40191370248794556,
      "learning_rate": 0.0008032212691201901,
      "loss": 2.6132,
      "step": 2452
    },
    {
      "epoch": 0.313984,
      "grad_norm": 0.4175317585468292,
      "learning_rate": 0.0008030564043300639,
      "loss": 2.7379,
      "step": 2453
    },
    {
      "epoch": 0.314112,
      "grad_norm": 0.4090772271156311,
      "learning_rate": 0.0008028914874410283,
      "loss": 2.6874,
      "step": 2454
    },
    {
      "epoch": 0.31424,
      "grad_norm": 0.42425259947776794,
      "learning_rate": 0.0008027265184814348,
      "loss": 2.6529,
      "step": 2455
    },
    {
      "epoch": 0.314368,
      "grad_norm": 0.5292653441429138,
      "learning_rate": 0.0008025614974796431,
      "loss": 2.719,
      "step": 2456
    },
    {
      "epoch": 0.314496,
      "grad_norm": 0.4105037450790405,
      "learning_rate": 0.0008023964244640224,
      "loss": 2.5544,
      "step": 2457
    },
    {
      "epoch": 0.314624,
      "grad_norm": 0.41506439447402954,
      "learning_rate": 0.0008022312994629508,
      "loss": 2.6024,
      "step": 2458
    },
    {
      "epoch": 0.314752,
      "grad_norm": 0.4196760952472687,
      "learning_rate": 0.0008020661225048149,
      "loss": 2.8087,
      "step": 2459
    },
    {
      "epoch": 0.31488,
      "grad_norm": 0.42299696803092957,
      "learning_rate": 0.0008019008936180108,
      "loss": 2.7017,
      "step": 2460
    },
    {
      "epoch": 0.315008,
      "grad_norm": 0.43770620226860046,
      "learning_rate": 0.0008017356128309431,
      "loss": 2.6232,
      "step": 2461
    },
    {
      "epoch": 0.315136,
      "grad_norm": 0.4238266944885254,
      "learning_rate": 0.0008015702801720255,
      "loss": 2.6698,
      "step": 2462
    },
    {
      "epoch": 0.315264,
      "grad_norm": 0.4884667992591858,
      "learning_rate": 0.0008014048956696807,
      "loss": 2.5839,
      "step": 2463
    },
    {
      "epoch": 0.315392,
      "grad_norm": 0.42934513092041016,
      "learning_rate": 0.0008012394593523403,
      "loss": 2.6601,
      "step": 2464
    },
    {
      "epoch": 0.31552,
      "grad_norm": 0.4267430007457733,
      "learning_rate": 0.0008010739712484443,
      "loss": 2.7102,
      "step": 2465
    },
    {
      "epoch": 0.315648,
      "grad_norm": 0.4232974648475647,
      "learning_rate": 0.0008009084313864423,
      "loss": 2.6297,
      "step": 2466
    },
    {
      "epoch": 0.315776,
      "grad_norm": 0.4716778099536896,
      "learning_rate": 0.0008007428397947925,
      "loss": 2.6783,
      "step": 2467
    },
    {
      "epoch": 0.315904,
      "grad_norm": 0.45037153363227844,
      "learning_rate": 0.0008005771965019622,
      "loss": 2.5832,
      "step": 2468
    },
    {
      "epoch": 0.316032,
      "grad_norm": 0.44857263565063477,
      "learning_rate": 0.0008004115015364272,
      "loss": 2.7553,
      "step": 2469
    },
    {
      "epoch": 0.31616,
      "grad_norm": 0.47059518098831177,
      "learning_rate": 0.0008002457549266724,
      "loss": 2.6649,
      "step": 2470
    },
    {
      "epoch": 0.316288,
      "grad_norm": 0.4421669840812683,
      "learning_rate": 0.0008000799567011914,
      "loss": 2.6657,
      "step": 2471
    },
    {
      "epoch": 0.316416,
      "grad_norm": 0.42682307958602905,
      "learning_rate": 0.0007999141068884872,
      "loss": 2.6621,
      "step": 2472
    },
    {
      "epoch": 0.316544,
      "grad_norm": 0.41836270689964294,
      "learning_rate": 0.0007997482055170712,
      "loss": 2.6739,
      "step": 2473
    },
    {
      "epoch": 0.316672,
      "grad_norm": 0.45423683524131775,
      "learning_rate": 0.0007995822526154636,
      "loss": 2.6215,
      "step": 2474
    },
    {
      "epoch": 0.3168,
      "grad_norm": 0.41973668336868286,
      "learning_rate": 0.0007994162482121936,
      "loss": 2.7033,
      "step": 2475
    },
    {
      "epoch": 0.316928,
      "grad_norm": 0.4020698368549347,
      "learning_rate": 0.0007992501923357997,
      "loss": 2.5316,
      "step": 2476
    },
    {
      "epoch": 0.317056,
      "grad_norm": 0.4508848488330841,
      "learning_rate": 0.0007990840850148282,
      "loss": 2.6123,
      "step": 2477
    },
    {
      "epoch": 0.317184,
      "grad_norm": 0.4172351360321045,
      "learning_rate": 0.0007989179262778355,
      "loss": 2.5554,
      "step": 2478
    },
    {
      "epoch": 0.317312,
      "grad_norm": 0.43599364161491394,
      "learning_rate": 0.0007987517161533857,
      "loss": 2.5492,
      "step": 2479
    },
    {
      "epoch": 0.31744,
      "grad_norm": 0.41510701179504395,
      "learning_rate": 0.0007985854546700525,
      "loss": 2.703,
      "step": 2480
    },
    {
      "epoch": 0.317568,
      "grad_norm": 0.46548014879226685,
      "learning_rate": 0.0007984191418564182,
      "loss": 2.6245,
      "step": 2481
    },
    {
      "epoch": 0.317696,
      "grad_norm": 0.43629151582717896,
      "learning_rate": 0.0007982527777410737,
      "loss": 2.6539,
      "step": 2482
    },
    {
      "epoch": 0.317824,
      "grad_norm": 0.41993477940559387,
      "learning_rate": 0.0007980863623526193,
      "loss": 2.8216,
      "step": 2483
    },
    {
      "epoch": 0.317952,
      "grad_norm": 0.4231829345226288,
      "learning_rate": 0.0007979198957196634,
      "loss": 2.5669,
      "step": 2484
    },
    {
      "epoch": 0.31808,
      "grad_norm": 0.3923097848892212,
      "learning_rate": 0.0007977533778708236,
      "loss": 2.6625,
      "step": 2485
    },
    {
      "epoch": 0.318208,
      "grad_norm": 0.4130174219608307,
      "learning_rate": 0.0007975868088347263,
      "loss": 2.6624,
      "step": 2486
    },
    {
      "epoch": 0.318336,
      "grad_norm": 0.3853524327278137,
      "learning_rate": 0.0007974201886400066,
      "loss": 2.7224,
      "step": 2487
    },
    {
      "epoch": 0.318464,
      "grad_norm": 0.484897255897522,
      "learning_rate": 0.0007972535173153086,
      "loss": 2.6447,
      "step": 2488
    },
    {
      "epoch": 0.318592,
      "grad_norm": 0.44003158807754517,
      "learning_rate": 0.0007970867948892848,
      "loss": 2.7306,
      "step": 2489
    },
    {
      "epoch": 0.31872,
      "grad_norm": 0.40911492705345154,
      "learning_rate": 0.000796920021390597,
      "loss": 2.5179,
      "step": 2490
    },
    {
      "epoch": 0.318848,
      "grad_norm": 0.4615364670753479,
      "learning_rate": 0.0007967531968479151,
      "loss": 2.7399,
      "step": 2491
    },
    {
      "epoch": 0.318976,
      "grad_norm": 0.40510979294776917,
      "learning_rate": 0.0007965863212899185,
      "loss": 2.7447,
      "step": 2492
    },
    {
      "epoch": 0.319104,
      "grad_norm": 0.4271908104419708,
      "learning_rate": 0.0007964193947452949,
      "loss": 2.6576,
      "step": 2493
    },
    {
      "epoch": 0.319232,
      "grad_norm": 0.4112388789653778,
      "learning_rate": 0.0007962524172427411,
      "loss": 2.6388,
      "step": 2494
    },
    {
      "epoch": 0.31936,
      "grad_norm": 0.39688798785209656,
      "learning_rate": 0.0007960853888109622,
      "loss": 2.5747,
      "step": 2495
    },
    {
      "epoch": 0.319488,
      "grad_norm": 0.4354259967803955,
      "learning_rate": 0.0007959183094786725,
      "loss": 2.733,
      "step": 2496
    },
    {
      "epoch": 0.319616,
      "grad_norm": 0.41385793685913086,
      "learning_rate": 0.0007957511792745949,
      "loss": 2.5741,
      "step": 2497
    },
    {
      "epoch": 0.319744,
      "grad_norm": 0.43613573908805847,
      "learning_rate": 0.0007955839982274607,
      "loss": 2.6378,
      "step": 2498
    },
    {
      "epoch": 0.319872,
      "grad_norm": 0.47940555214881897,
      "learning_rate": 0.0007954167663660108,
      "loss": 2.5756,
      "step": 2499
    },
    {
      "epoch": 0.32,
      "grad_norm": 0.4774512052536011,
      "learning_rate": 0.0007952494837189937,
      "loss": 2.6954,
      "step": 2500
    },
    {
      "epoch": 0.320128,
      "grad_norm": 0.41148677468299866,
      "learning_rate": 0.0007950821503151678,
      "loss": 2.7242,
      "step": 2501
    },
    {
      "epoch": 0.320256,
      "grad_norm": 0.5439534783363342,
      "learning_rate": 0.0007949147661832992,
      "loss": 2.7389,
      "step": 2502
    },
    {
      "epoch": 0.320384,
      "grad_norm": 0.4393056631088257,
      "learning_rate": 0.0007947473313521634,
      "loss": 2.8089,
      "step": 2503
    },
    {
      "epoch": 0.320512,
      "grad_norm": 0.43968772888183594,
      "learning_rate": 0.0007945798458505442,
      "loss": 2.6619,
      "step": 2504
    },
    {
      "epoch": 0.32064,
      "grad_norm": 0.41286176443099976,
      "learning_rate": 0.0007944123097072347,
      "loss": 2.7533,
      "step": 2505
    },
    {
      "epoch": 0.320768,
      "grad_norm": 0.4238949418067932,
      "learning_rate": 0.0007942447229510359,
      "loss": 2.6573,
      "step": 2506
    },
    {
      "epoch": 0.320896,
      "grad_norm": 0.4134732484817505,
      "learning_rate": 0.000794077085610758,
      "loss": 2.7212,
      "step": 2507
    },
    {
      "epoch": 0.321024,
      "grad_norm": 0.45903003215789795,
      "learning_rate": 0.00079390939771522,
      "loss": 2.6127,
      "step": 2508
    },
    {
      "epoch": 0.321152,
      "grad_norm": 0.3928096890449524,
      "learning_rate": 0.000793741659293249,
      "loss": 2.6125,
      "step": 2509
    },
    {
      "epoch": 0.32128,
      "grad_norm": 0.4147281050682068,
      "learning_rate": 0.0007935738703736817,
      "loss": 2.6084,
      "step": 2510
    },
    {
      "epoch": 0.321408,
      "grad_norm": 0.4457080662250519,
      "learning_rate": 0.0007934060309853626,
      "loss": 2.6774,
      "step": 2511
    },
    {
      "epoch": 0.321536,
      "grad_norm": 0.4235863983631134,
      "learning_rate": 0.0007932381411571453,
      "loss": 2.6602,
      "step": 2512
    },
    {
      "epoch": 0.321664,
      "grad_norm": 0.484619677066803,
      "learning_rate": 0.0007930702009178918,
      "loss": 2.624,
      "step": 2513
    },
    {
      "epoch": 0.321792,
      "grad_norm": 0.4430463910102844,
      "learning_rate": 0.0007929022102964734,
      "loss": 2.6277,
      "step": 2514
    },
    {
      "epoch": 0.32192,
      "grad_norm": 0.4918385148048401,
      "learning_rate": 0.0007927341693217695,
      "loss": 2.6883,
      "step": 2515
    },
    {
      "epoch": 0.322048,
      "grad_norm": 0.4231700301170349,
      "learning_rate": 0.0007925660780226683,
      "loss": 2.6955,
      "step": 2516
    },
    {
      "epoch": 0.322176,
      "grad_norm": 0.4172388017177582,
      "learning_rate": 0.0007923979364280663,
      "loss": 2.6351,
      "step": 2517
    },
    {
      "epoch": 0.322304,
      "grad_norm": 0.418807715177536,
      "learning_rate": 0.0007922297445668694,
      "loss": 2.618,
      "step": 2518
    },
    {
      "epoch": 0.322432,
      "grad_norm": 0.42470917105674744,
      "learning_rate": 0.0007920615024679916,
      "loss": 2.6602,
      "step": 2519
    },
    {
      "epoch": 0.32256,
      "grad_norm": 0.40765029191970825,
      "learning_rate": 0.0007918932101603555,
      "loss": 2.6928,
      "step": 2520
    },
    {
      "epoch": 0.322688,
      "grad_norm": 0.441864550113678,
      "learning_rate": 0.0007917248676728929,
      "loss": 2.5953,
      "step": 2521
    },
    {
      "epoch": 0.322816,
      "grad_norm": 0.435738205909729,
      "learning_rate": 0.0007915564750345435,
      "loss": 2.7596,
      "step": 2522
    },
    {
      "epoch": 0.322944,
      "grad_norm": 0.4308939278125763,
      "learning_rate": 0.0007913880322742559,
      "loss": 2.6552,
      "step": 2523
    },
    {
      "epoch": 0.323072,
      "grad_norm": 0.469428688287735,
      "learning_rate": 0.0007912195394209877,
      "loss": 2.5499,
      "step": 2524
    },
    {
      "epoch": 0.3232,
      "grad_norm": 0.44079357385635376,
      "learning_rate": 0.0007910509965037045,
      "loss": 2.6808,
      "step": 2525
    },
    {
      "epoch": 0.323328,
      "grad_norm": 0.4424644410610199,
      "learning_rate": 0.0007908824035513808,
      "loss": 2.6735,
      "step": 2526
    },
    {
      "epoch": 0.323456,
      "grad_norm": 0.46729201078414917,
      "learning_rate": 0.0007907137605929997,
      "loss": 2.6122,
      "step": 2527
    },
    {
      "epoch": 0.323584,
      "grad_norm": 0.737030029296875,
      "learning_rate": 0.000790545067657553,
      "loss": 2.5924,
      "step": 2528
    },
    {
      "epoch": 0.323712,
      "grad_norm": 1.3226752281188965,
      "learning_rate": 0.0007903763247740407,
      "loss": 2.6747,
      "step": 2529
    },
    {
      "epoch": 0.32384,
      "grad_norm": 0.4150841534137726,
      "learning_rate": 0.0007902075319714721,
      "loss": 2.6796,
      "step": 2530
    },
    {
      "epoch": 0.323968,
      "grad_norm": 0.4469603896141052,
      "learning_rate": 0.0007900386892788642,
      "loss": 2.7283,
      "step": 2531
    },
    {
      "epoch": 0.324096,
      "grad_norm": 0.39289891719818115,
      "learning_rate": 0.0007898697967252433,
      "loss": 2.6845,
      "step": 2532
    },
    {
      "epoch": 0.324224,
      "grad_norm": 0.40992045402526855,
      "learning_rate": 0.0007897008543396438,
      "loss": 2.6873,
      "step": 2533
    },
    {
      "epoch": 0.324352,
      "grad_norm": 0.43461957573890686,
      "learning_rate": 0.000789531862151109,
      "loss": 2.6356,
      "step": 2534
    },
    {
      "epoch": 0.32448,
      "grad_norm": 0.4667716324329376,
      "learning_rate": 0.0007893628201886907,
      "loss": 2.7022,
      "step": 2535
    },
    {
      "epoch": 0.324608,
      "grad_norm": 0.4090235233306885,
      "learning_rate": 0.0007891937284814488,
      "loss": 2.6106,
      "step": 2536
    },
    {
      "epoch": 0.324736,
      "grad_norm": 0.40175485610961914,
      "learning_rate": 0.0007890245870584522,
      "loss": 2.6244,
      "step": 2537
    },
    {
      "epoch": 0.324864,
      "grad_norm": 0.41931506991386414,
      "learning_rate": 0.0007888553959487787,
      "loss": 2.7361,
      "step": 2538
    },
    {
      "epoch": 0.324992,
      "grad_norm": 0.4607328772544861,
      "learning_rate": 0.0007886861551815138,
      "loss": 2.6001,
      "step": 2539
    },
    {
      "epoch": 0.32512,
      "grad_norm": 0.4254749119281769,
      "learning_rate": 0.0007885168647857524,
      "loss": 2.6589,
      "step": 2540
    },
    {
      "epoch": 0.325248,
      "grad_norm": 0.4452723562717438,
      "learning_rate": 0.0007883475247905969,
      "loss": 2.6695,
      "step": 2541
    },
    {
      "epoch": 0.325376,
      "grad_norm": 0.4337211549282074,
      "learning_rate": 0.0007881781352251591,
      "loss": 2.6588,
      "step": 2542
    },
    {
      "epoch": 0.325504,
      "grad_norm": 0.47316089272499084,
      "learning_rate": 0.0007880086961185589,
      "loss": 2.755,
      "step": 2543
    },
    {
      "epoch": 0.325632,
      "grad_norm": 0.4279252886772156,
      "learning_rate": 0.0007878392074999253,
      "loss": 2.6614,
      "step": 2544
    },
    {
      "epoch": 0.32576,
      "grad_norm": 0.45438152551651,
      "learning_rate": 0.0007876696693983946,
      "loss": 2.7414,
      "step": 2545
    },
    {
      "epoch": 0.325888,
      "grad_norm": 0.4069604277610779,
      "learning_rate": 0.000787500081843113,
      "loss": 2.6059,
      "step": 2546
    },
    {
      "epoch": 0.326016,
      "grad_norm": 0.40968847274780273,
      "learning_rate": 0.0007873304448632344,
      "loss": 2.5915,
      "step": 2547
    },
    {
      "epoch": 0.326144,
      "grad_norm": 0.4334068298339844,
      "learning_rate": 0.0007871607584879211,
      "loss": 2.6411,
      "step": 2548
    },
    {
      "epoch": 0.326272,
      "grad_norm": 0.4457823634147644,
      "learning_rate": 0.0007869910227463446,
      "loss": 2.6566,
      "step": 2549
    },
    {
      "epoch": 0.3264,
      "grad_norm": 0.6712984442710876,
      "learning_rate": 0.000786821237667684,
      "loss": 2.7227,
      "step": 2550
    },
    {
      "epoch": 0.326528,
      "grad_norm": 0.4221315383911133,
      "learning_rate": 0.0007866514032811276,
      "loss": 2.586,
      "step": 2551
    },
    {
      "epoch": 0.326656,
      "grad_norm": 0.4742617905139923,
      "learning_rate": 0.0007864815196158718,
      "loss": 2.642,
      "step": 2552
    },
    {
      "epoch": 0.326784,
      "grad_norm": 0.424061119556427,
      "learning_rate": 0.0007863115867011216,
      "loss": 2.5685,
      "step": 2553
    },
    {
      "epoch": 0.326912,
      "grad_norm": 0.42716118693351746,
      "learning_rate": 0.0007861416045660905,
      "loss": 2.7331,
      "step": 2554
    },
    {
      "epoch": 0.32704,
      "grad_norm": 0.4458067715167999,
      "learning_rate": 0.0007859715732400004,
      "loss": 2.597,
      "step": 2555
    },
    {
      "epoch": 0.327168,
      "grad_norm": 0.4580409526824951,
      "learning_rate": 0.0007858014927520814,
      "loss": 2.684,
      "step": 2556
    },
    {
      "epoch": 0.327296,
      "grad_norm": 0.4556067883968353,
      "learning_rate": 0.0007856313631315726,
      "loss": 2.6811,
      "step": 2557
    },
    {
      "epoch": 0.327424,
      "grad_norm": 0.4515358507633209,
      "learning_rate": 0.0007854611844077213,
      "loss": 2.7739,
      "step": 2558
    },
    {
      "epoch": 0.327552,
      "grad_norm": 0.4309267997741699,
      "learning_rate": 0.0007852909566097828,
      "loss": 2.6522,
      "step": 2559
    },
    {
      "epoch": 0.32768,
      "grad_norm": 0.4818132519721985,
      "learning_rate": 0.0007851206797670216,
      "loss": 2.5698,
      "step": 2560
    },
    {
      "epoch": 0.327808,
      "grad_norm": 0.47445619106292725,
      "learning_rate": 0.0007849503539087101,
      "loss": 2.5696,
      "step": 2561
    },
    {
      "epoch": 0.327936,
      "grad_norm": 0.4705642759799957,
      "learning_rate": 0.0007847799790641295,
      "loss": 2.6374,
      "step": 2562
    },
    {
      "epoch": 0.328064,
      "grad_norm": 0.4693485200405121,
      "learning_rate": 0.0007846095552625688,
      "loss": 2.7185,
      "step": 2563
    },
    {
      "epoch": 0.328192,
      "grad_norm": 0.4951455891132355,
      "learning_rate": 0.0007844390825333263,
      "loss": 2.7574,
      "step": 2564
    },
    {
      "epoch": 0.32832,
      "grad_norm": 0.40373849868774414,
      "learning_rate": 0.0007842685609057077,
      "loss": 2.6427,
      "step": 2565
    },
    {
      "epoch": 0.328448,
      "grad_norm": 0.4371879994869232,
      "learning_rate": 0.0007840979904090282,
      "loss": 2.577,
      "step": 2566
    },
    {
      "epoch": 0.328576,
      "grad_norm": 0.4551467001438141,
      "learning_rate": 0.0007839273710726107,
      "loss": 2.5584,
      "step": 2567
    },
    {
      "epoch": 0.328704,
      "grad_norm": 0.4479261636734009,
      "learning_rate": 0.0007837567029257864,
      "loss": 2.6168,
      "step": 2568
    },
    {
      "epoch": 0.328832,
      "grad_norm": 0.4283897876739502,
      "learning_rate": 0.0007835859859978951,
      "loss": 2.6224,
      "step": 2569
    },
    {
      "epoch": 0.32896,
      "grad_norm": 0.45645949244499207,
      "learning_rate": 0.0007834152203182854,
      "loss": 2.8065,
      "step": 2570
    },
    {
      "epoch": 0.329088,
      "grad_norm": 0.4454668462276459,
      "learning_rate": 0.0007832444059163137,
      "loss": 2.7,
      "step": 2571
    },
    {
      "epoch": 0.329216,
      "grad_norm": 0.4592432677745819,
      "learning_rate": 0.0007830735428213451,
      "loss": 2.6086,
      "step": 2572
    },
    {
      "epoch": 0.329344,
      "grad_norm": 0.4705413579940796,
      "learning_rate": 0.0007829026310627527,
      "loss": 2.7525,
      "step": 2573
    },
    {
      "epoch": 0.329472,
      "grad_norm": 0.47670748829841614,
      "learning_rate": 0.0007827316706699181,
      "loss": 2.5995,
      "step": 2574
    },
    {
      "epoch": 0.3296,
      "grad_norm": 0.45640796422958374,
      "learning_rate": 0.0007825606616722318,
      "loss": 2.8344,
      "step": 2575
    },
    {
      "epoch": 0.329728,
      "grad_norm": 0.4746569097042084,
      "learning_rate": 0.0007823896040990921,
      "loss": 2.736,
      "step": 2576
    },
    {
      "epoch": 0.329856,
      "grad_norm": 0.44158899784088135,
      "learning_rate": 0.0007822184979799057,
      "loss": 2.6917,
      "step": 2577
    },
    {
      "epoch": 0.329984,
      "grad_norm": 0.45909783244132996,
      "learning_rate": 0.0007820473433440876,
      "loss": 2.6424,
      "step": 2578
    },
    {
      "epoch": 0.330112,
      "grad_norm": 0.42039182782173157,
      "learning_rate": 0.0007818761402210615,
      "loss": 2.727,
      "step": 2579
    },
    {
      "epoch": 0.33024,
      "grad_norm": 0.42542192339897156,
      "learning_rate": 0.0007817048886402592,
      "loss": 2.6074,
      "step": 2580
    },
    {
      "epoch": 0.330368,
      "grad_norm": 0.4242459833621979,
      "learning_rate": 0.0007815335886311206,
      "loss": 2.6458,
      "step": 2581
    },
    {
      "epoch": 0.330496,
      "grad_norm": 0.45713794231414795,
      "learning_rate": 0.0007813622402230943,
      "loss": 2.6729,
      "step": 2582
    },
    {
      "epoch": 0.330624,
      "grad_norm": 0.8343585133552551,
      "learning_rate": 0.0007811908434456372,
      "loss": 2.5144,
      "step": 2583
    },
    {
      "epoch": 0.330752,
      "grad_norm": 0.4487021565437317,
      "learning_rate": 0.0007810193983282141,
      "loss": 2.656,
      "step": 2584
    },
    {
      "epoch": 0.33088,
      "grad_norm": 0.44411545991897583,
      "learning_rate": 0.0007808479049002987,
      "loss": 2.6933,
      "step": 2585
    },
    {
      "epoch": 0.331008,
      "grad_norm": 0.4409889578819275,
      "learning_rate": 0.0007806763631913725,
      "loss": 2.6212,
      "step": 2586
    },
    {
      "epoch": 0.331136,
      "grad_norm": 0.47247862815856934,
      "learning_rate": 0.0007805047732309256,
      "loss": 2.6063,
      "step": 2587
    },
    {
      "epoch": 0.331264,
      "grad_norm": 0.4295489490032196,
      "learning_rate": 0.0007803331350484563,
      "loss": 2.6296,
      "step": 2588
    },
    {
      "epoch": 0.331392,
      "grad_norm": 0.42444899678230286,
      "learning_rate": 0.0007801614486734711,
      "loss": 2.5916,
      "step": 2589
    },
    {
      "epoch": 0.33152,
      "grad_norm": 0.40687087178230286,
      "learning_rate": 0.0007799897141354853,
      "loss": 2.6488,
      "step": 2590
    },
    {
      "epoch": 0.331648,
      "grad_norm": 0.4064078629016876,
      "learning_rate": 0.0007798179314640214,
      "loss": 2.6607,
      "step": 2591
    },
    {
      "epoch": 0.331776,
      "grad_norm": 0.433149516582489,
      "learning_rate": 0.000779646100688611,
      "loss": 2.6354,
      "step": 2592
    },
    {
      "epoch": 0.331904,
      "grad_norm": 0.4211425483226776,
      "learning_rate": 0.0007794742218387943,
      "loss": 2.7153,
      "step": 2593
    },
    {
      "epoch": 0.332032,
      "grad_norm": 0.4101223051548004,
      "learning_rate": 0.0007793022949441189,
      "loss": 2.5914,
      "step": 2594
    },
    {
      "epoch": 0.33216,
      "grad_norm": 0.43803873658180237,
      "learning_rate": 0.000779130320034141,
      "loss": 2.7268,
      "step": 2595
    },
    {
      "epoch": 0.332288,
      "grad_norm": 0.4245874881744385,
      "learning_rate": 0.000778958297138425,
      "loss": 2.6997,
      "step": 2596
    },
    {
      "epoch": 0.332416,
      "grad_norm": 0.4218316376209259,
      "learning_rate": 0.0007787862262865438,
      "loss": 2.6086,
      "step": 2597
    },
    {
      "epoch": 0.332544,
      "grad_norm": 0.5026280879974365,
      "learning_rate": 0.0007786141075080785,
      "loss": 2.6882,
      "step": 2598
    },
    {
      "epoch": 0.332672,
      "grad_norm": 0.41604697704315186,
      "learning_rate": 0.000778441940832618,
      "loss": 2.68,
      "step": 2599
    },
    {
      "epoch": 0.3328,
      "grad_norm": 0.49859029054641724,
      "learning_rate": 0.00077826972628976,
      "loss": 2.6549,
      "step": 2600
    },
    {
      "epoch": 0.332928,
      "grad_norm": 0.4264530539512634,
      "learning_rate": 0.00077809746390911,
      "loss": 2.7472,
      "step": 2601
    },
    {
      "epoch": 0.333056,
      "grad_norm": 0.46791285276412964,
      "learning_rate": 0.0007779251537202818,
      "loss": 2.6369,
      "step": 2602
    },
    {
      "epoch": 0.333184,
      "grad_norm": 0.4505945146083832,
      "learning_rate": 0.0007777527957528981,
      "loss": 2.7254,
      "step": 2603
    },
    {
      "epoch": 0.333312,
      "grad_norm": 0.43345576524734497,
      "learning_rate": 0.0007775803900365885,
      "loss": 2.578,
      "step": 2604
    },
    {
      "epoch": 0.33344,
      "grad_norm": 0.4090856611728668,
      "learning_rate": 0.0007774079366009919,
      "loss": 2.6969,
      "step": 2605
    },
    {
      "epoch": 0.333568,
      "grad_norm": 0.4470219612121582,
      "learning_rate": 0.0007772354354757549,
      "loss": 2.6929,
      "step": 2606
    },
    {
      "epoch": 0.333696,
      "grad_norm": 0.4139796793460846,
      "learning_rate": 0.0007770628866905329,
      "loss": 2.6905,
      "step": 2607
    },
    {
      "epoch": 0.333824,
      "grad_norm": 0.4225233793258667,
      "learning_rate": 0.0007768902902749884,
      "loss": 2.6368,
      "step": 2608
    },
    {
      "epoch": 0.333952,
      "grad_norm": 0.4124631881713867,
      "learning_rate": 0.0007767176462587931,
      "loss": 2.7433,
      "step": 2609
    },
    {
      "epoch": 0.33408,
      "grad_norm": 0.4198954105377197,
      "learning_rate": 0.0007765449546716266,
      "loss": 2.5574,
      "step": 2610
    },
    {
      "epoch": 0.334208,
      "grad_norm": 0.45807772874832153,
      "learning_rate": 0.0007763722155431761,
      "loss": 2.6013,
      "step": 2611
    },
    {
      "epoch": 0.334336,
      "grad_norm": 0.45421138405799866,
      "learning_rate": 0.000776199428903138,
      "loss": 2.6444,
      "step": 2612
    },
    {
      "epoch": 0.334464,
      "grad_norm": 0.4338363707065582,
      "learning_rate": 0.000776026594781216,
      "loss": 2.6446,
      "step": 2613
    },
    {
      "epoch": 0.334592,
      "grad_norm": 0.43826520442962646,
      "learning_rate": 0.0007758537132071224,
      "loss": 2.5914,
      "step": 2614
    },
    {
      "epoch": 0.33472,
      "grad_norm": 0.4954777657985687,
      "learning_rate": 0.0007756807842105774,
      "loss": 2.604,
      "step": 2615
    },
    {
      "epoch": 0.334848,
      "grad_norm": 0.47514304518699646,
      "learning_rate": 0.0007755078078213098,
      "loss": 2.6126,
      "step": 2616
    },
    {
      "epoch": 0.334976,
      "grad_norm": 0.44215455651283264,
      "learning_rate": 0.000775334784069056,
      "loss": 2.6729,
      "step": 2617
    },
    {
      "epoch": 0.335104,
      "grad_norm": 0.42719200253486633,
      "learning_rate": 0.0007751617129835609,
      "loss": 2.681,
      "step": 2618
    },
    {
      "epoch": 0.335232,
      "grad_norm": 0.39644181728363037,
      "learning_rate": 0.0007749885945945774,
      "loss": 2.6569,
      "step": 2619
    },
    {
      "epoch": 0.33536,
      "grad_norm": 0.46361154317855835,
      "learning_rate": 0.0007748154289318665,
      "loss": 2.7369,
      "step": 2620
    },
    {
      "epoch": 0.335488,
      "grad_norm": 0.4305320382118225,
      "learning_rate": 0.0007746422160251975,
      "loss": 2.61,
      "step": 2621
    },
    {
      "epoch": 0.335616,
      "grad_norm": 0.4475502371788025,
      "learning_rate": 0.0007744689559043475,
      "loss": 2.6906,
      "step": 2622
    },
    {
      "epoch": 0.335744,
      "grad_norm": 0.39839503169059753,
      "learning_rate": 0.0007742956485991022,
      "loss": 2.6621,
      "step": 2623
    },
    {
      "epoch": 0.335872,
      "grad_norm": 0.4290913939476013,
      "learning_rate": 0.000774122294139255,
      "loss": 2.5467,
      "step": 2624
    },
    {
      "epoch": 0.336,
      "grad_norm": 0.39944371581077576,
      "learning_rate": 0.0007739488925546075,
      "loss": 2.6961,
      "step": 2625
    },
    {
      "epoch": 0.336128,
      "grad_norm": 0.3995872735977173,
      "learning_rate": 0.0007737754438749693,
      "loss": 2.5955,
      "step": 2626
    },
    {
      "epoch": 0.336256,
      "grad_norm": 0.44178298115730286,
      "learning_rate": 0.0007736019481301588,
      "loss": 2.7063,
      "step": 2627
    },
    {
      "epoch": 0.336384,
      "grad_norm": 0.5672074556350708,
      "learning_rate": 0.0007734284053500013,
      "loss": 2.6311,
      "step": 2628
    },
    {
      "epoch": 0.336512,
      "grad_norm": 0.4354564845561981,
      "learning_rate": 0.000773254815564331,
      "loss": 2.7645,
      "step": 2629
    },
    {
      "epoch": 0.33664,
      "grad_norm": 0.4576096534729004,
      "learning_rate": 0.0007730811788029902,
      "loss": 2.671,
      "step": 2630
    },
    {
      "epoch": 0.336768,
      "grad_norm": 0.4586791396141052,
      "learning_rate": 0.0007729074950958289,
      "loss": 2.7179,
      "step": 2631
    },
    {
      "epoch": 0.336896,
      "grad_norm": 0.46497032046318054,
      "learning_rate": 0.0007727337644727055,
      "loss": 2.7514,
      "step": 2632
    },
    {
      "epoch": 0.337024,
      "grad_norm": 0.40176740288734436,
      "learning_rate": 0.000772559986963486,
      "loss": 2.6249,
      "step": 2633
    },
    {
      "epoch": 0.337152,
      "grad_norm": 0.5479004383087158,
      "learning_rate": 0.000772386162598045,
      "loss": 2.6841,
      "step": 2634
    },
    {
      "epoch": 0.33728,
      "grad_norm": 0.5061392188072205,
      "learning_rate": 0.0007722122914062649,
      "loss": 2.6461,
      "step": 2635
    },
    {
      "epoch": 0.337408,
      "grad_norm": 0.419189989566803,
      "learning_rate": 0.0007720383734180361,
      "loss": 2.6944,
      "step": 2636
    },
    {
      "epoch": 0.337536,
      "grad_norm": 0.4159151017665863,
      "learning_rate": 0.0007718644086632573,
      "loss": 2.7305,
      "step": 2637
    },
    {
      "epoch": 0.337664,
      "grad_norm": 0.4147728383541107,
      "learning_rate": 0.000771690397171835,
      "loss": 2.7089,
      "step": 2638
    },
    {
      "epoch": 0.337792,
      "grad_norm": 0.44248437881469727,
      "learning_rate": 0.0007715163389736834,
      "loss": 2.6063,
      "step": 2639
    },
    {
      "epoch": 0.33792,
      "grad_norm": 0.4273202121257782,
      "learning_rate": 0.0007713422340987257,
      "loss": 2.5609,
      "step": 2640
    },
    {
      "epoch": 0.338048,
      "grad_norm": 0.4319095313549042,
      "learning_rate": 0.0007711680825768921,
      "loss": 2.6617,
      "step": 2641
    },
    {
      "epoch": 0.338176,
      "grad_norm": 0.4364558160305023,
      "learning_rate": 0.0007709938844381217,
      "loss": 2.7285,
      "step": 2642
    },
    {
      "epoch": 0.338304,
      "grad_norm": 0.42397540807724,
      "learning_rate": 0.0007708196397123607,
      "loss": 2.6511,
      "step": 2643
    },
    {
      "epoch": 0.338432,
      "grad_norm": 0.44739118218421936,
      "learning_rate": 0.0007706453484295641,
      "loss": 2.7194,
      "step": 2644
    },
    {
      "epoch": 0.33856,
      "grad_norm": 0.4698809087276459,
      "learning_rate": 0.0007704710106196946,
      "loss": 2.5913,
      "step": 2645
    },
    {
      "epoch": 0.338688,
      "grad_norm": 0.4455132484436035,
      "learning_rate": 0.0007702966263127227,
      "loss": 2.6401,
      "step": 2646
    },
    {
      "epoch": 0.338816,
      "grad_norm": 0.42625677585601807,
      "learning_rate": 0.0007701221955386273,
      "loss": 2.5891,
      "step": 2647
    },
    {
      "epoch": 0.338944,
      "grad_norm": 0.3996276259422302,
      "learning_rate": 0.0007699477183273948,
      "loss": 2.668,
      "step": 2648
    },
    {
      "epoch": 0.339072,
      "grad_norm": 0.3968377411365509,
      "learning_rate": 0.00076977319470902,
      "loss": 2.6727,
      "step": 2649
    },
    {
      "epoch": 0.3392,
      "grad_norm": 0.4112686216831207,
      "learning_rate": 0.0007695986247135059,
      "loss": 2.6937,
      "step": 2650
    },
    {
      "epoch": 0.339328,
      "grad_norm": 0.44475045800209045,
      "learning_rate": 0.0007694240083708624,
      "loss": 2.6942,
      "step": 2651
    },
    {
      "epoch": 0.339456,
      "grad_norm": 0.4344000220298767,
      "learning_rate": 0.0007692493457111085,
      "loss": 2.7033,
      "step": 2652
    },
    {
      "epoch": 0.339584,
      "grad_norm": 0.41462838649749756,
      "learning_rate": 0.0007690746367642707,
      "loss": 2.627,
      "step": 2653
    },
    {
      "epoch": 0.339712,
      "grad_norm": 0.4074048399925232,
      "learning_rate": 0.0007688998815603836,
      "loss": 2.6172,
      "step": 2654
    },
    {
      "epoch": 0.33984,
      "grad_norm": 0.40581706166267395,
      "learning_rate": 0.0007687250801294892,
      "loss": 2.8246,
      "step": 2655
    },
    {
      "epoch": 0.339968,
      "grad_norm": 0.4434562921524048,
      "learning_rate": 0.0007685502325016385,
      "loss": 2.7156,
      "step": 2656
    },
    {
      "epoch": 0.340096,
      "grad_norm": 0.4350147247314453,
      "learning_rate": 0.0007683753387068893,
      "loss": 2.7633,
      "step": 2657
    },
    {
      "epoch": 0.340224,
      "grad_norm": 0.40329763293266296,
      "learning_rate": 0.0007682003987753083,
      "loss": 2.724,
      "step": 2658
    },
    {
      "epoch": 0.340352,
      "grad_norm": 0.5763877034187317,
      "learning_rate": 0.0007680254127369695,
      "loss": 2.7308,
      "step": 2659
    },
    {
      "epoch": 0.34048,
      "grad_norm": 0.4393324851989746,
      "learning_rate": 0.0007678503806219549,
      "loss": 2.6122,
      "step": 2660
    },
    {
      "epoch": 0.340608,
      "grad_norm": 0.4446623921394348,
      "learning_rate": 0.0007676753024603546,
      "loss": 2.6676,
      "step": 2661
    },
    {
      "epoch": 0.340736,
      "grad_norm": 0.48301970958709717,
      "learning_rate": 0.0007675001782822668,
      "loss": 2.6848,
      "step": 2662
    },
    {
      "epoch": 0.340864,
      "grad_norm": 0.4406092166900635,
      "learning_rate": 0.0007673250081177972,
      "loss": 2.6666,
      "step": 2663
    },
    {
      "epoch": 0.340992,
      "grad_norm": 0.4287070035934448,
      "learning_rate": 0.0007671497919970597,
      "loss": 2.6612,
      "step": 2664
    },
    {
      "epoch": 0.34112,
      "grad_norm": 0.4246300756931305,
      "learning_rate": 0.0007669745299501758,
      "loss": 2.5617,
      "step": 2665
    },
    {
      "epoch": 0.341248,
      "grad_norm": 0.41861408948898315,
      "learning_rate": 0.0007667992220072751,
      "loss": 2.6332,
      "step": 2666
    },
    {
      "epoch": 0.341376,
      "grad_norm": 0.43426334857940674,
      "learning_rate": 0.0007666238681984952,
      "loss": 2.717,
      "step": 2667
    },
    {
      "epoch": 0.341504,
      "grad_norm": 0.4375567138195038,
      "learning_rate": 0.0007664484685539814,
      "loss": 2.6316,
      "step": 2668
    },
    {
      "epoch": 0.341632,
      "grad_norm": 0.46036672592163086,
      "learning_rate": 0.0007662730231038869,
      "loss": 2.5854,
      "step": 2669
    },
    {
      "epoch": 0.34176,
      "grad_norm": 0.4576021730899811,
      "learning_rate": 0.0007660975318783729,
      "loss": 2.6031,
      "step": 2670
    },
    {
      "epoch": 0.341888,
      "grad_norm": 0.5152309536933899,
      "learning_rate": 0.0007659219949076081,
      "loss": 2.7001,
      "step": 2671
    },
    {
      "epoch": 0.342016,
      "grad_norm": 0.45814117789268494,
      "learning_rate": 0.0007657464122217697,
      "loss": 2.6223,
      "step": 2672
    },
    {
      "epoch": 0.342144,
      "grad_norm": 0.42377156019210815,
      "learning_rate": 0.0007655707838510423,
      "loss": 2.6178,
      "step": 2673
    },
    {
      "epoch": 0.342272,
      "grad_norm": 0.431751549243927,
      "learning_rate": 0.0007653951098256183,
      "loss": 2.5775,
      "step": 2674
    },
    {
      "epoch": 0.3424,
      "grad_norm": 0.41300198435783386,
      "learning_rate": 0.0007652193901756983,
      "loss": 2.6626,
      "step": 2675
    },
    {
      "epoch": 0.342528,
      "grad_norm": 0.390391081571579,
      "learning_rate": 0.0007650436249314903,
      "loss": 2.6419,
      "step": 2676
    },
    {
      "epoch": 0.342656,
      "grad_norm": 0.47912201285362244,
      "learning_rate": 0.0007648678141232106,
      "loss": 2.6925,
      "step": 2677
    },
    {
      "epoch": 0.342784,
      "grad_norm": 0.4282979667186737,
      "learning_rate": 0.000764691957781083,
      "loss": 2.7652,
      "step": 2678
    },
    {
      "epoch": 0.342912,
      "grad_norm": 0.4135446548461914,
      "learning_rate": 0.0007645160559353393,
      "loss": 2.8397,
      "step": 2679
    },
    {
      "epoch": 0.34304,
      "grad_norm": 0.4410032331943512,
      "learning_rate": 0.000764340108616219,
      "loss": 2.7248,
      "step": 2680
    },
    {
      "epoch": 0.343168,
      "grad_norm": 0.4360608160495758,
      "learning_rate": 0.0007641641158539697,
      "loss": 2.5795,
      "step": 2681
    },
    {
      "epoch": 0.343296,
      "grad_norm": 0.4573650658130646,
      "learning_rate": 0.0007639880776788464,
      "loss": 2.6598,
      "step": 2682
    },
    {
      "epoch": 0.343424,
      "grad_norm": 0.385529488325119,
      "learning_rate": 0.0007638119941211119,
      "loss": 2.6863,
      "step": 2683
    },
    {
      "epoch": 0.343552,
      "grad_norm": 0.43550610542297363,
      "learning_rate": 0.0007636358652110375,
      "loss": 2.6626,
      "step": 2684
    },
    {
      "epoch": 0.34368,
      "grad_norm": 0.3982134163379669,
      "learning_rate": 0.0007634596909789013,
      "loss": 2.573,
      "step": 2685
    },
    {
      "epoch": 0.343808,
      "grad_norm": 0.453390896320343,
      "learning_rate": 0.0007632834714549901,
      "loss": 2.6245,
      "step": 2686
    },
    {
      "epoch": 0.343936,
      "grad_norm": 0.4327077567577362,
      "learning_rate": 0.0007631072066695978,
      "loss": 2.7543,
      "step": 2687
    },
    {
      "epoch": 0.344064,
      "grad_norm": 0.4881671071052551,
      "learning_rate": 0.0007629308966530268,
      "loss": 2.5853,
      "step": 2688
    },
    {
      "epoch": 0.344192,
      "grad_norm": 0.5524337291717529,
      "learning_rate": 0.0007627545414355861,
      "loss": 2.7541,
      "step": 2689
    },
    {
      "epoch": 0.34432,
      "grad_norm": 0.4209612011909485,
      "learning_rate": 0.0007625781410475938,
      "loss": 2.7483,
      "step": 2690
    },
    {
      "epoch": 0.344448,
      "grad_norm": 0.39533013105392456,
      "learning_rate": 0.000762401695519375,
      "loss": 2.678,
      "step": 2691
    },
    {
      "epoch": 0.344576,
      "grad_norm": 0.4494481384754181,
      "learning_rate": 0.0007622252048812628,
      "loss": 2.5993,
      "step": 2692
    },
    {
      "epoch": 0.344704,
      "grad_norm": 0.4145587682723999,
      "learning_rate": 0.0007620486691635977,
      "loss": 2.7067,
      "step": 2693
    },
    {
      "epoch": 0.344832,
      "grad_norm": 0.40996915102005005,
      "learning_rate": 0.0007618720883967285,
      "loss": 2.5799,
      "step": 2694
    },
    {
      "epoch": 0.34496,
      "grad_norm": 0.40796753764152527,
      "learning_rate": 0.0007616954626110115,
      "loss": 2.5543,
      "step": 2695
    },
    {
      "epoch": 0.345088,
      "grad_norm": 0.40021848678588867,
      "learning_rate": 0.0007615187918368106,
      "loss": 2.7524,
      "step": 2696
    },
    {
      "epoch": 0.345216,
      "grad_norm": 0.42734837532043457,
      "learning_rate": 0.0007613420761044976,
      "loss": 2.5996,
      "step": 2697
    },
    {
      "epoch": 0.345344,
      "grad_norm": 0.41974106431007385,
      "learning_rate": 0.000761165315444452,
      "loss": 2.7498,
      "step": 2698
    },
    {
      "epoch": 0.345472,
      "grad_norm": 0.43371158838272095,
      "learning_rate": 0.0007609885098870609,
      "loss": 2.7249,
      "step": 2699
    },
    {
      "epoch": 0.3456,
      "grad_norm": 0.4374155104160309,
      "learning_rate": 0.0007608116594627195,
      "loss": 2.7226,
      "step": 2700
    },
    {
      "epoch": 0.345728,
      "grad_norm": 0.40199461579322815,
      "learning_rate": 0.0007606347642018301,
      "loss": 2.6313,
      "step": 2701
    },
    {
      "epoch": 0.345856,
      "grad_norm": 0.41823095083236694,
      "learning_rate": 0.0007604578241348032,
      "loss": 2.6487,
      "step": 2702
    },
    {
      "epoch": 0.345984,
      "grad_norm": 0.4133540987968445,
      "learning_rate": 0.0007602808392920569,
      "loss": 2.6768,
      "step": 2703
    },
    {
      "epoch": 0.346112,
      "grad_norm": 0.39674463868141174,
      "learning_rate": 0.0007601038097040169,
      "loss": 2.7944,
      "step": 2704
    },
    {
      "epoch": 0.34624,
      "grad_norm": 0.44338613748550415,
      "learning_rate": 0.0007599267354011166,
      "loss": 2.6891,
      "step": 2705
    },
    {
      "epoch": 0.346368,
      "grad_norm": 0.42381468415260315,
      "learning_rate": 0.0007597496164137972,
      "loss": 2.6891,
      "step": 2706
    },
    {
      "epoch": 0.346496,
      "grad_norm": 0.42256268858909607,
      "learning_rate": 0.0007595724527725074,
      "loss": 2.7734,
      "step": 2707
    },
    {
      "epoch": 0.346624,
      "grad_norm": 0.4199577271938324,
      "learning_rate": 0.0007593952445077035,
      "loss": 2.7766,
      "step": 2708
    },
    {
      "epoch": 0.346752,
      "grad_norm": 0.39389345049858093,
      "learning_rate": 0.0007592179916498503,
      "loss": 2.6063,
      "step": 2709
    },
    {
      "epoch": 0.34688,
      "grad_norm": 0.40703704953193665,
      "learning_rate": 0.0007590406942294191,
      "loss": 2.6435,
      "step": 2710
    },
    {
      "epoch": 0.347008,
      "grad_norm": 0.4250943958759308,
      "learning_rate": 0.0007588633522768895,
      "loss": 2.6985,
      "step": 2711
    },
    {
      "epoch": 0.347136,
      "grad_norm": 0.4474998712539673,
      "learning_rate": 0.0007586859658227486,
      "loss": 2.5789,
      "step": 2712
    },
    {
      "epoch": 0.347264,
      "grad_norm": 0.4254923462867737,
      "learning_rate": 0.0007585085348974912,
      "loss": 2.6997,
      "step": 2713
    },
    {
      "epoch": 0.347392,
      "grad_norm": 0.44355547428131104,
      "learning_rate": 0.0007583310595316199,
      "loss": 2.6824,
      "step": 2714
    },
    {
      "epoch": 0.34752,
      "grad_norm": 0.7944590449333191,
      "learning_rate": 0.0007581535397556445,
      "loss": 2.6102,
      "step": 2715
    },
    {
      "epoch": 0.347648,
      "grad_norm": 0.4479835331439972,
      "learning_rate": 0.000757975975600083,
      "loss": 2.5689,
      "step": 2716
    },
    {
      "epoch": 0.347776,
      "grad_norm": 0.4105583727359772,
      "learning_rate": 0.0007577983670954603,
      "loss": 2.4675,
      "step": 2717
    },
    {
      "epoch": 0.347904,
      "grad_norm": 0.4096696674823761,
      "learning_rate": 0.0007576207142723099,
      "loss": 2.5707,
      "step": 2718
    },
    {
      "epoch": 0.348032,
      "grad_norm": 0.4224146902561188,
      "learning_rate": 0.000757443017161172,
      "loss": 2.5006,
      "step": 2719
    },
    {
      "epoch": 0.34816,
      "grad_norm": 0.4380805492401123,
      "learning_rate": 0.0007572652757925951,
      "loss": 2.6594,
      "step": 2720
    },
    {
      "epoch": 0.348288,
      "grad_norm": 0.4301450252532959,
      "learning_rate": 0.0007570874901971347,
      "loss": 2.685,
      "step": 2721
    },
    {
      "epoch": 0.348416,
      "grad_norm": 0.5069606304168701,
      "learning_rate": 0.0007569096604053543,
      "loss": 2.8004,
      "step": 2722
    },
    {
      "epoch": 0.348544,
      "grad_norm": 0.431265264749527,
      "learning_rate": 0.0007567317864478247,
      "loss": 2.5536,
      "step": 2723
    },
    {
      "epoch": 0.348672,
      "grad_norm": 0.4338691532611847,
      "learning_rate": 0.0007565538683551251,
      "loss": 2.5929,
      "step": 2724
    },
    {
      "epoch": 0.3488,
      "grad_norm": 0.4069264233112335,
      "learning_rate": 0.0007563759061578411,
      "loss": 2.6706,
      "step": 2725
    },
    {
      "epoch": 0.348928,
      "grad_norm": 0.3982475697994232,
      "learning_rate": 0.0007561978998865666,
      "loss": 2.5999,
      "step": 2726
    },
    {
      "epoch": 0.349056,
      "grad_norm": 0.3884495198726654,
      "learning_rate": 0.0007560198495719032,
      "loss": 2.6834,
      "step": 2727
    },
    {
      "epoch": 0.349184,
      "grad_norm": 0.42310306429862976,
      "learning_rate": 0.0007558417552444596,
      "loss": 2.5772,
      "step": 2728
    },
    {
      "epoch": 0.349312,
      "grad_norm": 0.3870288133621216,
      "learning_rate": 0.0007556636169348523,
      "loss": 2.6369,
      "step": 2729
    },
    {
      "epoch": 0.34944,
      "grad_norm": 0.4167584776878357,
      "learning_rate": 0.0007554854346737052,
      "loss": 2.6582,
      "step": 2730
    },
    {
      "epoch": 0.349568,
      "grad_norm": 0.3979160785675049,
      "learning_rate": 0.00075530720849165,
      "loss": 2.7339,
      "step": 2731
    },
    {
      "epoch": 0.349696,
      "grad_norm": 0.4346025288105011,
      "learning_rate": 0.0007551289384193261,
      "loss": 2.627,
      "step": 2732
    },
    {
      "epoch": 0.349824,
      "grad_norm": 0.4122277796268463,
      "learning_rate": 0.0007549506244873799,
      "loss": 2.6707,
      "step": 2733
    },
    {
      "epoch": 0.349952,
      "grad_norm": 0.4206121563911438,
      "learning_rate": 0.0007547722667264656,
      "loss": 2.7351,
      "step": 2734
    },
    {
      "epoch": 0.35008,
      "grad_norm": 0.4144282341003418,
      "learning_rate": 0.0007545938651672453,
      "loss": 2.6142,
      "step": 2735
    },
    {
      "epoch": 0.350208,
      "grad_norm": 0.43140655755996704,
      "learning_rate": 0.0007544154198403879,
      "loss": 2.6317,
      "step": 2736
    },
    {
      "epoch": 0.350336,
      "grad_norm": 0.4498036205768585,
      "learning_rate": 0.0007542369307765704,
      "loss": 2.7094,
      "step": 2737
    },
    {
      "epoch": 0.350464,
      "grad_norm": 0.40120503306388855,
      "learning_rate": 0.0007540583980064771,
      "loss": 2.7059,
      "step": 2738
    },
    {
      "epoch": 0.350592,
      "grad_norm": 0.4067067503929138,
      "learning_rate": 0.0007538798215608,
      "loss": 2.6268,
      "step": 2739
    },
    {
      "epoch": 0.35072,
      "grad_norm": 0.37998783588409424,
      "learning_rate": 0.0007537012014702382,
      "loss": 2.6456,
      "step": 2740
    },
    {
      "epoch": 0.350848,
      "grad_norm": 0.44059714674949646,
      "learning_rate": 0.0007535225377654989,
      "loss": 2.6288,
      "step": 2741
    },
    {
      "epoch": 0.350976,
      "grad_norm": 0.4136240780353546,
      "learning_rate": 0.0007533438304772962,
      "loss": 2.6714,
      "step": 2742
    },
    {
      "epoch": 0.351104,
      "grad_norm": 0.4289351999759674,
      "learning_rate": 0.0007531650796363521,
      "loss": 2.6154,
      "step": 2743
    },
    {
      "epoch": 0.351232,
      "grad_norm": 0.38102203607559204,
      "learning_rate": 0.0007529862852733957,
      "loss": 2.7463,
      "step": 2744
    },
    {
      "epoch": 0.35136,
      "grad_norm": 0.41215020418167114,
      "learning_rate": 0.000752807447419164,
      "loss": 2.642,
      "step": 2745
    },
    {
      "epoch": 0.351488,
      "grad_norm": 0.4253387451171875,
      "learning_rate": 0.0007526285661044014,
      "loss": 2.6218,
      "step": 2746
    },
    {
      "epoch": 0.351616,
      "grad_norm": 0.4896843731403351,
      "learning_rate": 0.0007524496413598595,
      "loss": 2.7006,
      "step": 2747
    },
    {
      "epoch": 0.351744,
      "grad_norm": 0.4417414665222168,
      "learning_rate": 0.0007522706732162976,
      "loss": 2.7886,
      "step": 2748
    },
    {
      "epoch": 0.351872,
      "grad_norm": 0.4173916280269623,
      "learning_rate": 0.0007520916617044825,
      "loss": 2.7721,
      "step": 2749
    },
    {
      "epoch": 0.352,
      "grad_norm": 0.42410287261009216,
      "learning_rate": 0.0007519126068551882,
      "loss": 2.6964,
      "step": 2750
    },
    {
      "epoch": 0.352128,
      "grad_norm": 0.43681350350379944,
      "learning_rate": 0.0007517335086991964,
      "loss": 2.7585,
      "step": 2751
    },
    {
      "epoch": 0.352256,
      "grad_norm": 0.37530869245529175,
      "learning_rate": 0.000751554367267296,
      "loss": 2.754,
      "step": 2752
    },
    {
      "epoch": 0.352384,
      "grad_norm": 0.39642542600631714,
      "learning_rate": 0.0007513751825902837,
      "loss": 2.6082,
      "step": 2753
    },
    {
      "epoch": 0.352512,
      "grad_norm": 0.4228922426700592,
      "learning_rate": 0.0007511959546989632,
      "loss": 2.6022,
      "step": 2754
    },
    {
      "epoch": 0.35264,
      "grad_norm": 0.4228383004665375,
      "learning_rate": 0.000751016683624146,
      "loss": 2.7349,
      "step": 2755
    },
    {
      "epoch": 0.352768,
      "grad_norm": 0.3933654725551605,
      "learning_rate": 0.0007508373693966509,
      "loss": 2.6493,
      "step": 2756
    },
    {
      "epoch": 0.352896,
      "grad_norm": 0.41755589842796326,
      "learning_rate": 0.0007506580120473041,
      "loss": 2.6797,
      "step": 2757
    },
    {
      "epoch": 0.353024,
      "grad_norm": 0.4526521861553192,
      "learning_rate": 0.0007504786116069391,
      "loss": 2.7337,
      "step": 2758
    },
    {
      "epoch": 0.353152,
      "grad_norm": 0.4515799582004547,
      "learning_rate": 0.0007502991681063969,
      "loss": 2.7381,
      "step": 2759
    },
    {
      "epoch": 0.35328,
      "grad_norm": 0.3960743844509125,
      "learning_rate": 0.0007501196815765261,
      "loss": 2.6767,
      "step": 2760
    },
    {
      "epoch": 0.353408,
      "grad_norm": 0.4223031997680664,
      "learning_rate": 0.0007499401520481824,
      "loss": 2.633,
      "step": 2761
    },
    {
      "epoch": 0.353536,
      "grad_norm": 0.4095088541507721,
      "learning_rate": 0.0007497605795522288,
      "loss": 2.678,
      "step": 2762
    },
    {
      "epoch": 0.353664,
      "grad_norm": 0.43602442741394043,
      "learning_rate": 0.0007495809641195364,
      "loss": 2.5814,
      "step": 2763
    },
    {
      "epoch": 0.353792,
      "grad_norm": 0.4273514449596405,
      "learning_rate": 0.0007494013057809827,
      "loss": 2.6959,
      "step": 2764
    },
    {
      "epoch": 0.35392,
      "grad_norm": 0.40075451135635376,
      "learning_rate": 0.0007492216045674532,
      "loss": 2.6985,
      "step": 2765
    },
    {
      "epoch": 0.354048,
      "grad_norm": 0.3793143928050995,
      "learning_rate": 0.0007490418605098408,
      "loss": 2.6052,
      "step": 2766
    },
    {
      "epoch": 0.354176,
      "grad_norm": 0.4116152226924896,
      "learning_rate": 0.0007488620736390454,
      "loss": 2.6385,
      "step": 2767
    },
    {
      "epoch": 0.354304,
      "grad_norm": 0.3910219669342041,
      "learning_rate": 0.0007486822439859744,
      "loss": 2.5658,
      "step": 2768
    },
    {
      "epoch": 0.354432,
      "grad_norm": 0.43765464425086975,
      "learning_rate": 0.0007485023715815426,
      "loss": 2.6214,
      "step": 2769
    },
    {
      "epoch": 0.35456,
      "grad_norm": 0.42317745089530945,
      "learning_rate": 0.0007483224564566724,
      "loss": 2.7176,
      "step": 2770
    },
    {
      "epoch": 0.354688,
      "grad_norm": 0.4202336370944977,
      "learning_rate": 0.0007481424986422932,
      "loss": 2.6248,
      "step": 2771
    },
    {
      "epoch": 0.354816,
      "grad_norm": 0.4036807417869568,
      "learning_rate": 0.0007479624981693416,
      "loss": 2.6892,
      "step": 2772
    },
    {
      "epoch": 0.354944,
      "grad_norm": 0.3894117474555969,
      "learning_rate": 0.000747782455068762,
      "loss": 2.5175,
      "step": 2773
    },
    {
      "epoch": 0.355072,
      "grad_norm": 0.43760162591934204,
      "learning_rate": 0.0007476023693715058,
      "loss": 2.6248,
      "step": 2774
    },
    {
      "epoch": 0.3552,
      "grad_norm": 0.42592570185661316,
      "learning_rate": 0.000747422241108532,
      "loss": 2.7083,
      "step": 2775
    },
    {
      "epoch": 0.355328,
      "grad_norm": 0.4254545569419861,
      "learning_rate": 0.0007472420703108064,
      "loss": 2.7196,
      "step": 2776
    },
    {
      "epoch": 0.355456,
      "grad_norm": 0.42738285660743713,
      "learning_rate": 0.0007470618570093026,
      "loss": 2.7627,
      "step": 2777
    },
    {
      "epoch": 0.355584,
      "grad_norm": 0.3841647803783417,
      "learning_rate": 0.0007468816012350016,
      "loss": 2.5444,
      "step": 2778
    },
    {
      "epoch": 0.355712,
      "grad_norm": 0.3772643506526947,
      "learning_rate": 0.0007467013030188911,
      "loss": 2.6312,
      "step": 2779
    },
    {
      "epoch": 0.35584,
      "grad_norm": 0.4222498834133148,
      "learning_rate": 0.0007465209623919668,
      "loss": 2.7212,
      "step": 2780
    },
    {
      "epoch": 0.355968,
      "grad_norm": 0.3977804481983185,
      "learning_rate": 0.0007463405793852309,
      "loss": 2.6097,
      "step": 2781
    },
    {
      "epoch": 0.356096,
      "grad_norm": 0.43860405683517456,
      "learning_rate": 0.0007461601540296937,
      "loss": 2.6107,
      "step": 2782
    },
    {
      "epoch": 0.356224,
      "grad_norm": 0.3989095091819763,
      "learning_rate": 0.0007459796863563723,
      "loss": 2.7686,
      "step": 2783
    },
    {
      "epoch": 0.356352,
      "grad_norm": 0.38896113634109497,
      "learning_rate": 0.0007457991763962911,
      "loss": 2.6558,
      "step": 2784
    },
    {
      "epoch": 0.35648,
      "grad_norm": 0.4363313317298889,
      "learning_rate": 0.0007456186241804821,
      "loss": 2.7504,
      "step": 2785
    },
    {
      "epoch": 0.356608,
      "grad_norm": 0.4205275774002075,
      "learning_rate": 0.000745438029739984,
      "loss": 2.5839,
      "step": 2786
    },
    {
      "epoch": 0.356736,
      "grad_norm": 0.4322337508201599,
      "learning_rate": 0.0007452573931058432,
      "loss": 2.6524,
      "step": 2787
    },
    {
      "epoch": 0.356864,
      "grad_norm": 0.414425253868103,
      "learning_rate": 0.0007450767143091133,
      "loss": 2.7125,
      "step": 2788
    },
    {
      "epoch": 0.356992,
      "grad_norm": 0.4075482487678528,
      "learning_rate": 0.0007448959933808551,
      "loss": 2.6563,
      "step": 2789
    },
    {
      "epoch": 0.35712,
      "grad_norm": 0.39407989382743835,
      "learning_rate": 0.0007447152303521365,
      "loss": 2.607,
      "step": 2790
    },
    {
      "epoch": 0.357248,
      "grad_norm": 0.4414694011211395,
      "learning_rate": 0.0007445344252540327,
      "loss": 2.65,
      "step": 2791
    },
    {
      "epoch": 0.357376,
      "grad_norm": 0.39255422353744507,
      "learning_rate": 0.0007443535781176265,
      "loss": 2.7174,
      "step": 2792
    },
    {
      "epoch": 0.357504,
      "grad_norm": 0.4123794138431549,
      "learning_rate": 0.0007441726889740075,
      "loss": 2.5821,
      "step": 2793
    },
    {
      "epoch": 0.357632,
      "grad_norm": 0.40222635865211487,
      "learning_rate": 0.0007439917578542723,
      "loss": 2.609,
      "step": 2794
    },
    {
      "epoch": 0.35776,
      "grad_norm": 0.4054298996925354,
      "learning_rate": 0.0007438107847895256,
      "loss": 2.5735,
      "step": 2795
    },
    {
      "epoch": 0.357888,
      "grad_norm": 0.38721394538879395,
      "learning_rate": 0.0007436297698108782,
      "loss": 2.6158,
      "step": 2796
    },
    {
      "epoch": 0.358016,
      "grad_norm": 0.43045568466186523,
      "learning_rate": 0.0007434487129494493,
      "loss": 2.6439,
      "step": 2797
    },
    {
      "epoch": 0.358144,
      "grad_norm": 0.39445263147354126,
      "learning_rate": 0.0007432676142363642,
      "loss": 2.7677,
      "step": 2798
    },
    {
      "epoch": 0.358272,
      "grad_norm": 0.5185678005218506,
      "learning_rate": 0.0007430864737027561,
      "loss": 2.6596,
      "step": 2799
    },
    {
      "epoch": 0.3584,
      "grad_norm": 0.389740526676178,
      "learning_rate": 0.0007429052913797648,
      "loss": 2.6661,
      "step": 2800
    },
    {
      "epoch": 0.358528,
      "grad_norm": 0.38888615369796753,
      "learning_rate": 0.000742724067298538,
      "loss": 2.6437,
      "step": 2801
    },
    {
      "epoch": 0.358656,
      "grad_norm": 0.4250260889530182,
      "learning_rate": 0.0007425428014902303,
      "loss": 2.6989,
      "step": 2802
    },
    {
      "epoch": 0.358784,
      "grad_norm": 0.3987032473087311,
      "learning_rate": 0.0007423614939860032,
      "loss": 2.6485,
      "step": 2803
    },
    {
      "epoch": 0.358912,
      "grad_norm": 0.3688106834888458,
      "learning_rate": 0.0007421801448170256,
      "loss": 2.5782,
      "step": 2804
    },
    {
      "epoch": 0.35904,
      "grad_norm": 0.4118874967098236,
      "learning_rate": 0.0007419987540144733,
      "loss": 2.5457,
      "step": 2805
    },
    {
      "epoch": 0.359168,
      "grad_norm": 0.3900047838687897,
      "learning_rate": 0.0007418173216095299,
      "loss": 2.6862,
      "step": 2806
    },
    {
      "epoch": 0.359296,
      "grad_norm": 0.3892004191875458,
      "learning_rate": 0.0007416358476333855,
      "loss": 2.6336,
      "step": 2807
    },
    {
      "epoch": 0.359424,
      "grad_norm": 0.4214419722557068,
      "learning_rate": 0.0007414543321172376,
      "loss": 2.6494,
      "step": 2808
    },
    {
      "epoch": 0.359552,
      "grad_norm": 0.42083120346069336,
      "learning_rate": 0.0007412727750922908,
      "loss": 2.6626,
      "step": 2809
    },
    {
      "epoch": 0.35968,
      "grad_norm": 0.4380612075328827,
      "learning_rate": 0.0007410911765897567,
      "loss": 2.6676,
      "step": 2810
    },
    {
      "epoch": 0.359808,
      "grad_norm": 0.4467814862728119,
      "learning_rate": 0.0007409095366408547,
      "loss": 2.5872,
      "step": 2811
    },
    {
      "epoch": 0.359936,
      "grad_norm": 0.4352579414844513,
      "learning_rate": 0.0007407278552768103,
      "loss": 2.679,
      "step": 2812
    },
    {
      "epoch": 0.360064,
      "grad_norm": 0.41427749395370483,
      "learning_rate": 0.0007405461325288569,
      "loss": 2.6075,
      "step": 2813
    },
    {
      "epoch": 0.360192,
      "grad_norm": 0.3926350176334381,
      "learning_rate": 0.0007403643684282346,
      "loss": 2.674,
      "step": 2814
    },
    {
      "epoch": 0.36032,
      "grad_norm": 0.5113886594772339,
      "learning_rate": 0.000740182563006191,
      "loss": 2.6335,
      "step": 2815
    },
    {
      "epoch": 0.360448,
      "grad_norm": 0.39779409766197205,
      "learning_rate": 0.0007400007162939802,
      "loss": 2.6959,
      "step": 2816
    },
    {
      "epoch": 0.360576,
      "grad_norm": 0.411575585603714,
      "learning_rate": 0.000739818828322864,
      "loss": 2.6552,
      "step": 2817
    },
    {
      "epoch": 0.360704,
      "grad_norm": 0.41316360235214233,
      "learning_rate": 0.000739636899124111,
      "loss": 2.7222,
      "step": 2818
    },
    {
      "epoch": 0.360832,
      "grad_norm": 0.3868173658847809,
      "learning_rate": 0.0007394549287289969,
      "loss": 2.6538,
      "step": 2819
    },
    {
      "epoch": 0.36096,
      "grad_norm": 0.4783116579055786,
      "learning_rate": 0.0007392729171688046,
      "loss": 2.7031,
      "step": 2820
    },
    {
      "epoch": 0.361088,
      "grad_norm": 0.40777188539505005,
      "learning_rate": 0.000739090864474824,
      "loss": 2.7036,
      "step": 2821
    },
    {
      "epoch": 0.361216,
      "grad_norm": 0.37933605909347534,
      "learning_rate": 0.0007389087706783518,
      "loss": 2.5801,
      "step": 2822
    },
    {
      "epoch": 0.361344,
      "grad_norm": 0.41637441515922546,
      "learning_rate": 0.0007387266358106924,
      "loss": 2.5723,
      "step": 2823
    },
    {
      "epoch": 0.361472,
      "grad_norm": 0.39789074659347534,
      "learning_rate": 0.0007385444599031567,
      "loss": 2.677,
      "step": 2824
    },
    {
      "epoch": 0.3616,
      "grad_norm": 0.4161106050014496,
      "learning_rate": 0.000738362242987063,
      "loss": 2.5911,
      "step": 2825
    },
    {
      "epoch": 0.361728,
      "grad_norm": 0.5119485259056091,
      "learning_rate": 0.0007381799850937363,
      "loss": 2.7751,
      "step": 2826
    },
    {
      "epoch": 0.361856,
      "grad_norm": 0.43477383255958557,
      "learning_rate": 0.0007379976862545091,
      "loss": 2.6523,
      "step": 2827
    },
    {
      "epoch": 0.361984,
      "grad_norm": 0.46406102180480957,
      "learning_rate": 0.0007378153465007202,
      "loss": 2.7494,
      "step": 2828
    },
    {
      "epoch": 0.362112,
      "grad_norm": 0.4237215220928192,
      "learning_rate": 0.0007376329658637166,
      "loss": 2.6414,
      "step": 2829
    },
    {
      "epoch": 0.36224,
      "grad_norm": 0.40412986278533936,
      "learning_rate": 0.0007374505443748511,
      "loss": 2.5619,
      "step": 2830
    },
    {
      "epoch": 0.362368,
      "grad_norm": 0.48779088258743286,
      "learning_rate": 0.0007372680820654843,
      "loss": 2.6186,
      "step": 2831
    },
    {
      "epoch": 0.362496,
      "grad_norm": 0.3929823040962219,
      "learning_rate": 0.0007370855789669837,
      "loss": 2.6458,
      "step": 2832
    },
    {
      "epoch": 0.362624,
      "grad_norm": 0.4526974856853485,
      "learning_rate": 0.0007369030351107232,
      "loss": 2.6197,
      "step": 2833
    },
    {
      "epoch": 0.362752,
      "grad_norm": 0.4295231103897095,
      "learning_rate": 0.0007367204505280847,
      "loss": 2.6274,
      "step": 2834
    },
    {
      "epoch": 0.36288,
      "grad_norm": 0.3992747366428375,
      "learning_rate": 0.0007365378252504566,
      "loss": 2.6517,
      "step": 2835
    },
    {
      "epoch": 0.363008,
      "grad_norm": 0.4095815420150757,
      "learning_rate": 0.0007363551593092342,
      "loss": 2.7255,
      "step": 2836
    },
    {
      "epoch": 0.363136,
      "grad_norm": 0.47355565428733826,
      "learning_rate": 0.0007361724527358194,
      "loss": 2.6098,
      "step": 2837
    },
    {
      "epoch": 0.363264,
      "grad_norm": 0.3909768760204315,
      "learning_rate": 0.0007359897055616225,
      "loss": 2.751,
      "step": 2838
    },
    {
      "epoch": 0.363392,
      "grad_norm": 0.37246254086494446,
      "learning_rate": 0.0007358069178180592,
      "loss": 2.6537,
      "step": 2839
    },
    {
      "epoch": 0.36352,
      "grad_norm": 0.366487979888916,
      "learning_rate": 0.000735624089536553,
      "loss": 2.533,
      "step": 2840
    },
    {
      "epoch": 0.363648,
      "grad_norm": 0.4116639196872711,
      "learning_rate": 0.0007354412207485342,
      "loss": 2.7102,
      "step": 2841
    },
    {
      "epoch": 0.363776,
      "grad_norm": 0.40493229031562805,
      "learning_rate": 0.0007352583114854402,
      "loss": 2.6161,
      "step": 2842
    },
    {
      "epoch": 0.363904,
      "grad_norm": 0.4155876040458679,
      "learning_rate": 0.000735075361778715,
      "loss": 2.7657,
      "step": 2843
    },
    {
      "epoch": 0.364032,
      "grad_norm": 0.3975558876991272,
      "learning_rate": 0.0007348923716598099,
      "loss": 2.5683,
      "step": 2844
    },
    {
      "epoch": 0.36416,
      "grad_norm": 0.4084499180316925,
      "learning_rate": 0.0007347093411601831,
      "loss": 2.7257,
      "step": 2845
    },
    {
      "epoch": 0.364288,
      "grad_norm": 0.41181066632270813,
      "learning_rate": 0.0007345262703112996,
      "loss": 2.5958,
      "step": 2846
    },
    {
      "epoch": 0.364416,
      "grad_norm": 0.4154341220855713,
      "learning_rate": 0.0007343431591446312,
      "loss": 2.6945,
      "step": 2847
    },
    {
      "epoch": 0.364544,
      "grad_norm": 0.4394368827342987,
      "learning_rate": 0.0007341600076916571,
      "loss": 2.5281,
      "step": 2848
    },
    {
      "epoch": 0.364672,
      "grad_norm": 0.43517982959747314,
      "learning_rate": 0.0007339768159838631,
      "loss": 2.736,
      "step": 2849
    },
    {
      "epoch": 0.3648,
      "grad_norm": 0.4230845272541046,
      "learning_rate": 0.0007337935840527419,
      "loss": 2.7067,
      "step": 2850
    },
    {
      "epoch": 0.364928,
      "grad_norm": 0.3864457309246063,
      "learning_rate": 0.000733610311929793,
      "loss": 2.6764,
      "step": 2851
    },
    {
      "epoch": 0.365056,
      "grad_norm": 0.43569403886795044,
      "learning_rate": 0.0007334269996465235,
      "loss": 2.6078,
      "step": 2852
    },
    {
      "epoch": 0.365184,
      "grad_norm": 0.5009605288505554,
      "learning_rate": 0.0007332436472344467,
      "loss": 2.5603,
      "step": 2853
    },
    {
      "epoch": 0.365312,
      "grad_norm": 0.3790198862552643,
      "learning_rate": 0.0007330602547250827,
      "loss": 2.7042,
      "step": 2854
    },
    {
      "epoch": 0.36544,
      "grad_norm": 0.40319380164146423,
      "learning_rate": 0.0007328768221499594,
      "loss": 2.6423,
      "step": 2855
    },
    {
      "epoch": 0.365568,
      "grad_norm": 0.40880516171455383,
      "learning_rate": 0.0007326933495406103,
      "loss": 2.5949,
      "step": 2856
    },
    {
      "epoch": 0.365696,
      "grad_norm": 0.42719319462776184,
      "learning_rate": 0.000732509836928577,
      "loss": 2.6524,
      "step": 2857
    },
    {
      "epoch": 0.365824,
      "grad_norm": 0.3758608102798462,
      "learning_rate": 0.0007323262843454071,
      "loss": 2.6559,
      "step": 2858
    },
    {
      "epoch": 0.365952,
      "grad_norm": 0.39234939217567444,
      "learning_rate": 0.0007321426918226557,
      "loss": 2.5861,
      "step": 2859
    },
    {
      "epoch": 0.36608,
      "grad_norm": 0.4396611750125885,
      "learning_rate": 0.0007319590593918843,
      "loss": 2.7354,
      "step": 2860
    },
    {
      "epoch": 0.366208,
      "grad_norm": 0.4009976089000702,
      "learning_rate": 0.0007317753870846614,
      "loss": 2.6295,
      "step": 2861
    },
    {
      "epoch": 0.366336,
      "grad_norm": 0.41992005705833435,
      "learning_rate": 0.0007315916749325625,
      "loss": 2.6843,
      "step": 2862
    },
    {
      "epoch": 0.366464,
      "grad_norm": 0.42843952775001526,
      "learning_rate": 0.0007314079229671699,
      "loss": 2.6352,
      "step": 2863
    },
    {
      "epoch": 0.366592,
      "grad_norm": 0.4102194011211395,
      "learning_rate": 0.0007312241312200727,
      "loss": 2.6697,
      "step": 2864
    },
    {
      "epoch": 0.36672,
      "grad_norm": 0.4245501756668091,
      "learning_rate": 0.0007310402997228667,
      "loss": 2.6647,
      "step": 2865
    },
    {
      "epoch": 0.366848,
      "grad_norm": 0.3829488456249237,
      "learning_rate": 0.0007308564285071546,
      "loss": 2.6865,
      "step": 2866
    },
    {
      "epoch": 0.366976,
      "grad_norm": 0.448200523853302,
      "learning_rate": 0.0007306725176045464,
      "loss": 2.6547,
      "step": 2867
    },
    {
      "epoch": 0.367104,
      "grad_norm": 0.4006851613521576,
      "learning_rate": 0.0007304885670466582,
      "loss": 2.5514,
      "step": 2868
    },
    {
      "epoch": 0.367232,
      "grad_norm": 0.40089112520217896,
      "learning_rate": 0.000730304576865113,
      "loss": 2.5434,
      "step": 2869
    },
    {
      "epoch": 0.36736,
      "grad_norm": 0.404645174741745,
      "learning_rate": 0.0007301205470915412,
      "loss": 2.5821,
      "step": 2870
    },
    {
      "epoch": 0.367488,
      "grad_norm": 0.4946745038032532,
      "learning_rate": 0.0007299364777575796,
      "loss": 2.6518,
      "step": 2871
    },
    {
      "epoch": 0.367616,
      "grad_norm": 0.41660287976264954,
      "learning_rate": 0.000729752368894872,
      "loss": 2.6134,
      "step": 2872
    },
    {
      "epoch": 0.367744,
      "grad_norm": 0.4223578870296478,
      "learning_rate": 0.0007295682205350684,
      "loss": 2.5896,
      "step": 2873
    },
    {
      "epoch": 0.367872,
      "grad_norm": 0.4229775667190552,
      "learning_rate": 0.0007293840327098264,
      "loss": 2.6733,
      "step": 2874
    },
    {
      "epoch": 0.368,
      "grad_norm": 0.44216570258140564,
      "learning_rate": 0.0007291998054508101,
      "loss": 2.6611,
      "step": 2875
    },
    {
      "epoch": 0.368128,
      "grad_norm": 0.3833618462085724,
      "learning_rate": 0.0007290155387896899,
      "loss": 2.685,
      "step": 2876
    },
    {
      "epoch": 0.368256,
      "grad_norm": 0.3941524028778076,
      "learning_rate": 0.0007288312327581438,
      "loss": 2.7278,
      "step": 2877
    },
    {
      "epoch": 0.368384,
      "grad_norm": 0.42792418599128723,
      "learning_rate": 0.0007286468873878559,
      "loss": 2.6252,
      "step": 2878
    },
    {
      "epoch": 0.368512,
      "grad_norm": 0.3958180248737335,
      "learning_rate": 0.0007284625027105172,
      "loss": 2.6617,
      "step": 2879
    },
    {
      "epoch": 0.36864,
      "grad_norm": 0.40469518303871155,
      "learning_rate": 0.0007282780787578258,
      "loss": 2.5989,
      "step": 2880
    },
    {
      "epoch": 0.368768,
      "grad_norm": 0.5366954803466797,
      "learning_rate": 0.0007280936155614863,
      "loss": 2.6247,
      "step": 2881
    },
    {
      "epoch": 0.368896,
      "grad_norm": 0.4295440912246704,
      "learning_rate": 0.0007279091131532101,
      "loss": 2.6431,
      "step": 2882
    },
    {
      "epoch": 0.369024,
      "grad_norm": 0.44368860125541687,
      "learning_rate": 0.000727724571564715,
      "loss": 2.7001,
      "step": 2883
    },
    {
      "epoch": 0.369152,
      "grad_norm": 0.3968668580055237,
      "learning_rate": 0.000727539990827726,
      "loss": 2.696,
      "step": 2884
    },
    {
      "epoch": 0.36928,
      "grad_norm": 0.45105835795402527,
      "learning_rate": 0.0007273553709739749,
      "loss": 2.6835,
      "step": 2885
    },
    {
      "epoch": 0.369408,
      "grad_norm": 0.43012166023254395,
      "learning_rate": 0.0007271707120351996,
      "loss": 2.6685,
      "step": 2886
    },
    {
      "epoch": 0.369536,
      "grad_norm": 0.4111846685409546,
      "learning_rate": 0.0007269860140431454,
      "loss": 2.6989,
      "step": 2887
    },
    {
      "epoch": 0.369664,
      "grad_norm": 0.39476990699768066,
      "learning_rate": 0.000726801277029564,
      "loss": 2.5991,
      "step": 2888
    },
    {
      "epoch": 0.369792,
      "grad_norm": 0.40442514419555664,
      "learning_rate": 0.0007266165010262138,
      "loss": 2.6312,
      "step": 2889
    },
    {
      "epoch": 0.36992,
      "grad_norm": 0.373422771692276,
      "learning_rate": 0.0007264316860648598,
      "loss": 2.6014,
      "step": 2890
    },
    {
      "epoch": 0.370048,
      "grad_norm": 0.38984790444374084,
      "learning_rate": 0.000726246832177274,
      "loss": 2.5948,
      "step": 2891
    },
    {
      "epoch": 0.370176,
      "grad_norm": 0.41200336813926697,
      "learning_rate": 0.000726061939395235,
      "loss": 2.7284,
      "step": 2892
    },
    {
      "epoch": 0.370304,
      "grad_norm": 0.3866773843765259,
      "learning_rate": 0.0007258770077505275,
      "loss": 2.6743,
      "step": 2893
    },
    {
      "epoch": 0.370432,
      "grad_norm": 0.41393423080444336,
      "learning_rate": 0.000725692037274944,
      "loss": 2.6023,
      "step": 2894
    },
    {
      "epoch": 0.37056,
      "grad_norm": 0.4317765533924103,
      "learning_rate": 0.0007255070280002829,
      "loss": 2.6061,
      "step": 2895
    },
    {
      "epoch": 0.370688,
      "grad_norm": 0.4020998477935791,
      "learning_rate": 0.0007253219799583495,
      "loss": 2.616,
      "step": 2896
    },
    {
      "epoch": 0.370816,
      "grad_norm": 0.40918493270874023,
      "learning_rate": 0.0007251368931809553,
      "loss": 2.6474,
      "step": 2897
    },
    {
      "epoch": 0.370944,
      "grad_norm": 0.4371064007282257,
      "learning_rate": 0.0007249517676999192,
      "loss": 2.7514,
      "step": 2898
    },
    {
      "epoch": 0.371072,
      "grad_norm": 0.8184912204742432,
      "learning_rate": 0.0007247666035470666,
      "loss": 2.58,
      "step": 2899
    },
    {
      "epoch": 0.3712,
      "grad_norm": 0.40754303336143494,
      "learning_rate": 0.0007245814007542289,
      "loss": 2.5385,
      "step": 2900
    },
    {
      "epoch": 0.371328,
      "grad_norm": 0.42466112971305847,
      "learning_rate": 0.000724396159353245,
      "loss": 2.649,
      "step": 2901
    },
    {
      "epoch": 0.371456,
      "grad_norm": 0.3591640591621399,
      "learning_rate": 0.0007242108793759596,
      "loss": 2.6079,
      "step": 2902
    },
    {
      "epoch": 0.371584,
      "grad_norm": 0.45147040486335754,
      "learning_rate": 0.0007240255608542251,
      "loss": 2.7464,
      "step": 2903
    },
    {
      "epoch": 0.371712,
      "grad_norm": 0.4161827266216278,
      "learning_rate": 0.0007238402038198994,
      "loss": 2.7509,
      "step": 2904
    },
    {
      "epoch": 0.37184,
      "grad_norm": 0.5077998638153076,
      "learning_rate": 0.0007236548083048478,
      "loss": 2.6824,
      "step": 2905
    },
    {
      "epoch": 0.371968,
      "grad_norm": 0.41549935936927795,
      "learning_rate": 0.0007234693743409417,
      "loss": 2.6819,
      "step": 2906
    },
    {
      "epoch": 0.372096,
      "grad_norm": 0.41807442903518677,
      "learning_rate": 0.0007232839019600594,
      "loss": 2.659,
      "step": 2907
    },
    {
      "epoch": 0.372224,
      "grad_norm": 0.423301637172699,
      "learning_rate": 0.0007230983911940861,
      "loss": 2.5367,
      "step": 2908
    },
    {
      "epoch": 0.372352,
      "grad_norm": 0.39426612854003906,
      "learning_rate": 0.0007229128420749127,
      "loss": 2.604,
      "step": 2909
    },
    {
      "epoch": 0.37248,
      "grad_norm": 0.4571906328201294,
      "learning_rate": 0.0007227272546344377,
      "loss": 2.6339,
      "step": 2910
    },
    {
      "epoch": 0.372608,
      "grad_norm": 0.3974095284938812,
      "learning_rate": 0.0007225416289045654,
      "loss": 2.7825,
      "step": 2911
    },
    {
      "epoch": 0.372736,
      "grad_norm": 0.4083672761917114,
      "learning_rate": 0.0007223559649172073,
      "loss": 2.5367,
      "step": 2912
    },
    {
      "epoch": 0.372864,
      "grad_norm": 0.5977573394775391,
      "learning_rate": 0.000722170262704281,
      "loss": 2.7075,
      "step": 2913
    },
    {
      "epoch": 0.372992,
      "grad_norm": 0.41085284948349,
      "learning_rate": 0.0007219845222977109,
      "loss": 2.6486,
      "step": 2914
    },
    {
      "epoch": 0.37312,
      "grad_norm": 0.453287810087204,
      "learning_rate": 0.000721798743729428,
      "loss": 2.7315,
      "step": 2915
    },
    {
      "epoch": 0.373248,
      "grad_norm": 0.37566468119621277,
      "learning_rate": 0.0007216129270313697,
      "loss": 2.5842,
      "step": 2916
    },
    {
      "epoch": 0.373376,
      "grad_norm": 0.4314305782318115,
      "learning_rate": 0.0007214270722354801,
      "loss": 2.6053,
      "step": 2917
    },
    {
      "epoch": 0.373504,
      "grad_norm": 0.420564740896225,
      "learning_rate": 0.00072124117937371,
      "loss": 2.6347,
      "step": 2918
    },
    {
      "epoch": 0.373632,
      "grad_norm": 0.44553282856941223,
      "learning_rate": 0.000721055248478016,
      "loss": 2.6366,
      "step": 2919
    },
    {
      "epoch": 0.37376,
      "grad_norm": 0.4130878448486328,
      "learning_rate": 0.0007208692795803622,
      "loss": 2.7175,
      "step": 2920
    },
    {
      "epoch": 0.373888,
      "grad_norm": 0.40983015298843384,
      "learning_rate": 0.0007206832727127186,
      "loss": 2.6806,
      "step": 2921
    },
    {
      "epoch": 0.374016,
      "grad_norm": 0.5150294303894043,
      "learning_rate": 0.0007204972279070622,
      "loss": 2.6682,
      "step": 2922
    },
    {
      "epoch": 0.374144,
      "grad_norm": 0.440033882856369,
      "learning_rate": 0.000720311145195376,
      "loss": 2.6407,
      "step": 2923
    },
    {
      "epoch": 0.374272,
      "grad_norm": 0.4081990122795105,
      "learning_rate": 0.00072012502460965,
      "loss": 2.6514,
      "step": 2924
    },
    {
      "epoch": 0.3744,
      "grad_norm": 0.39192962646484375,
      "learning_rate": 0.0007199388661818802,
      "loss": 2.6687,
      "step": 2925
    },
    {
      "epoch": 0.374528,
      "grad_norm": 0.3851916193962097,
      "learning_rate": 0.0007197526699440697,
      "loss": 2.5047,
      "step": 2926
    },
    {
      "epoch": 0.374656,
      "grad_norm": 0.43010270595550537,
      "learning_rate": 0.0007195664359282275,
      "loss": 2.6424,
      "step": 2927
    },
    {
      "epoch": 0.374784,
      "grad_norm": 0.40805119276046753,
      "learning_rate": 0.0007193801641663697,
      "loss": 2.5962,
      "step": 2928
    },
    {
      "epoch": 0.374912,
      "grad_norm": 0.395939439535141,
      "learning_rate": 0.0007191938546905183,
      "loss": 2.5292,
      "step": 2929
    },
    {
      "epoch": 0.37504,
      "grad_norm": 0.38924673199653625,
      "learning_rate": 0.0007190075075327021,
      "loss": 2.685,
      "step": 2930
    },
    {
      "epoch": 0.375168,
      "grad_norm": 0.40446510910987854,
      "learning_rate": 0.0007188211227249565,
      "loss": 2.6145,
      "step": 2931
    },
    {
      "epoch": 0.375296,
      "grad_norm": 0.4427022337913513,
      "learning_rate": 0.0007186347002993232,
      "loss": 2.6411,
      "step": 2932
    },
    {
      "epoch": 0.375424,
      "grad_norm": 0.4501008987426758,
      "learning_rate": 0.0007184482402878501,
      "loss": 2.6613,
      "step": 2933
    },
    {
      "epoch": 0.375552,
      "grad_norm": 0.4205787479877472,
      "learning_rate": 0.0007182617427225922,
      "loss": 2.7567,
      "step": 2934
    },
    {
      "epoch": 0.37568,
      "grad_norm": 0.42020392417907715,
      "learning_rate": 0.0007180752076356102,
      "loss": 2.6154,
      "step": 2935
    },
    {
      "epoch": 0.375808,
      "grad_norm": 0.42322343587875366,
      "learning_rate": 0.0007178886350589721,
      "loss": 2.6905,
      "step": 2936
    },
    {
      "epoch": 0.375936,
      "grad_norm": 0.4179005026817322,
      "learning_rate": 0.0007177020250247514,
      "loss": 2.7142,
      "step": 2937
    },
    {
      "epoch": 0.376064,
      "grad_norm": 0.40241968631744385,
      "learning_rate": 0.0007175153775650289,
      "loss": 2.7172,
      "step": 2938
    },
    {
      "epoch": 0.376192,
      "grad_norm": 0.41555267572402954,
      "learning_rate": 0.0007173286927118914,
      "loss": 2.6966,
      "step": 2939
    },
    {
      "epoch": 0.37632,
      "grad_norm": 0.40058770775794983,
      "learning_rate": 0.000717141970497432,
      "loss": 2.7346,
      "step": 2940
    },
    {
      "epoch": 0.376448,
      "grad_norm": 0.4125971794128418,
      "learning_rate": 0.0007169552109537507,
      "loss": 2.5628,
      "step": 2941
    },
    {
      "epoch": 0.376576,
      "grad_norm": 0.45245978236198425,
      "learning_rate": 0.0007167684141129536,
      "loss": 2.7048,
      "step": 2942
    },
    {
      "epoch": 0.376704,
      "grad_norm": 0.4579333961009979,
      "learning_rate": 0.0007165815800071529,
      "loss": 2.7455,
      "step": 2943
    },
    {
      "epoch": 0.376832,
      "grad_norm": 0.43505942821502686,
      "learning_rate": 0.0007163947086684676,
      "loss": 2.6359,
      "step": 2944
    },
    {
      "epoch": 0.37696,
      "grad_norm": 0.4451712965965271,
      "learning_rate": 0.0007162078001290235,
      "loss": 2.5822,
      "step": 2945
    },
    {
      "epoch": 0.377088,
      "grad_norm": 0.4244362711906433,
      "learning_rate": 0.0007160208544209521,
      "loss": 2.6859,
      "step": 2946
    },
    {
      "epoch": 0.377216,
      "grad_norm": 0.3791123330593109,
      "learning_rate": 0.0007158338715763913,
      "loss": 2.6253,
      "step": 2947
    },
    {
      "epoch": 0.377344,
      "grad_norm": 0.3742665648460388,
      "learning_rate": 0.0007156468516274859,
      "loss": 2.6253,
      "step": 2948
    },
    {
      "epoch": 0.377472,
      "grad_norm": 0.4065629541873932,
      "learning_rate": 0.0007154597946063867,
      "loss": 2.5502,
      "step": 2949
    },
    {
      "epoch": 0.3776,
      "grad_norm": 0.3865903317928314,
      "learning_rate": 0.000715272700545251,
      "loss": 2.701,
      "step": 2950
    },
    {
      "epoch": 0.377728,
      "grad_norm": 0.38723984360694885,
      "learning_rate": 0.0007150855694762424,
      "loss": 2.6614,
      "step": 2951
    },
    {
      "epoch": 0.377856,
      "grad_norm": 0.3835127651691437,
      "learning_rate": 0.000714898401431531,
      "loss": 2.6264,
      "step": 2952
    },
    {
      "epoch": 0.377984,
      "grad_norm": 0.41148191690444946,
      "learning_rate": 0.000714711196443293,
      "loss": 2.6984,
      "step": 2953
    },
    {
      "epoch": 0.378112,
      "grad_norm": 0.41094040870666504,
      "learning_rate": 0.0007145239545437112,
      "loss": 2.7472,
      "step": 2954
    },
    {
      "epoch": 0.37824,
      "grad_norm": 0.40878748893737793,
      "learning_rate": 0.0007143366757649746,
      "loss": 2.5719,
      "step": 2955
    },
    {
      "epoch": 0.378368,
      "grad_norm": 0.45009899139404297,
      "learning_rate": 0.0007141493601392787,
      "loss": 2.6338,
      "step": 2956
    },
    {
      "epoch": 0.378496,
      "grad_norm": 0.42646652460098267,
      "learning_rate": 0.0007139620076988251,
      "loss": 2.5832,
      "step": 2957
    },
    {
      "epoch": 0.378624,
      "grad_norm": 0.4265550971031189,
      "learning_rate": 0.0007137746184758218,
      "loss": 2.6734,
      "step": 2958
    },
    {
      "epoch": 0.378752,
      "grad_norm": 0.4185087978839874,
      "learning_rate": 0.0007135871925024835,
      "loss": 2.6285,
      "step": 2959
    },
    {
      "epoch": 0.37888,
      "grad_norm": 0.432180792093277,
      "learning_rate": 0.0007133997298110307,
      "loss": 2.6966,
      "step": 2960
    },
    {
      "epoch": 0.379008,
      "grad_norm": 0.41230088472366333,
      "learning_rate": 0.0007132122304336903,
      "loss": 2.7547,
      "step": 2961
    },
    {
      "epoch": 0.379136,
      "grad_norm": 0.40356922149658203,
      "learning_rate": 0.0007130246944026956,
      "loss": 2.5933,
      "step": 2962
    },
    {
      "epoch": 0.379264,
      "grad_norm": 0.3942740261554718,
      "learning_rate": 0.0007128371217502867,
      "loss": 2.5723,
      "step": 2963
    },
    {
      "epoch": 0.379392,
      "grad_norm": 0.4271872043609619,
      "learning_rate": 0.000712649512508709,
      "loss": 2.5868,
      "step": 2964
    },
    {
      "epoch": 0.37952,
      "grad_norm": 0.38211342692375183,
      "learning_rate": 0.0007124618667102147,
      "loss": 2.5654,
      "step": 2965
    },
    {
      "epoch": 0.379648,
      "grad_norm": 0.42994117736816406,
      "learning_rate": 0.0007122741843870626,
      "loss": 2.5551,
      "step": 2966
    },
    {
      "epoch": 0.379776,
      "grad_norm": 0.4438813030719757,
      "learning_rate": 0.0007120864655715171,
      "loss": 2.6193,
      "step": 2967
    },
    {
      "epoch": 0.379904,
      "grad_norm": 0.41857436299324036,
      "learning_rate": 0.0007118987102958498,
      "loss": 2.7156,
      "step": 2968
    },
    {
      "epoch": 0.380032,
      "grad_norm": 0.4389181435108185,
      "learning_rate": 0.0007117109185923373,
      "loss": 2.6158,
      "step": 2969
    },
    {
      "epoch": 0.38016,
      "grad_norm": 0.42425772547721863,
      "learning_rate": 0.0007115230904932639,
      "loss": 2.756,
      "step": 2970
    },
    {
      "epoch": 0.380288,
      "grad_norm": 0.4044872522354126,
      "learning_rate": 0.0007113352260309188,
      "loss": 2.5951,
      "step": 2971
    },
    {
      "epoch": 0.380416,
      "grad_norm": 0.3817746937274933,
      "learning_rate": 0.0007111473252375983,
      "loss": 2.5783,
      "step": 2972
    },
    {
      "epoch": 0.380544,
      "grad_norm": 0.37079712748527527,
      "learning_rate": 0.0007109593881456048,
      "loss": 2.5966,
      "step": 2973
    },
    {
      "epoch": 0.380672,
      "grad_norm": 0.4369610548019409,
      "learning_rate": 0.000710771414787247,
      "loss": 2.6932,
      "step": 2974
    },
    {
      "epoch": 0.3808,
      "grad_norm": 0.39420607686042786,
      "learning_rate": 0.0007105834051948395,
      "loss": 2.5792,
      "step": 2975
    },
    {
      "epoch": 0.380928,
      "grad_norm": 0.45726969838142395,
      "learning_rate": 0.0007103953594007029,
      "loss": 2.6096,
      "step": 2976
    },
    {
      "epoch": 0.381056,
      "grad_norm": 0.4159582555294037,
      "learning_rate": 0.0007102072774371654,
      "loss": 2.5565,
      "step": 2977
    },
    {
      "epoch": 0.381184,
      "grad_norm": 0.42534518241882324,
      "learning_rate": 0.0007100191593365599,
      "loss": 2.764,
      "step": 2978
    },
    {
      "epoch": 0.381312,
      "grad_norm": 0.4227902293205261,
      "learning_rate": 0.000709831005131226,
      "loss": 2.6864,
      "step": 2979
    },
    {
      "epoch": 0.38144,
      "grad_norm": 0.43838390707969666,
      "learning_rate": 0.00070964281485351,
      "loss": 2.5856,
      "step": 2980
    },
    {
      "epoch": 0.381568,
      "grad_norm": 0.4182414412498474,
      "learning_rate": 0.0007094545885357635,
      "loss": 2.648,
      "step": 2981
    },
    {
      "epoch": 0.381696,
      "grad_norm": 0.3898441791534424,
      "learning_rate": 0.0007092663262103451,
      "loss": 2.552,
      "step": 2982
    },
    {
      "epoch": 0.381824,
      "grad_norm": 0.4317553639411926,
      "learning_rate": 0.0007090780279096192,
      "loss": 2.6518,
      "step": 2983
    },
    {
      "epoch": 0.381952,
      "grad_norm": 0.40690261125564575,
      "learning_rate": 0.0007088896936659566,
      "loss": 2.6574,
      "step": 2984
    },
    {
      "epoch": 0.38208,
      "grad_norm": 0.4044405519962311,
      "learning_rate": 0.0007087013235117338,
      "loss": 2.6324,
      "step": 2985
    },
    {
      "epoch": 0.382208,
      "grad_norm": 0.48990681767463684,
      "learning_rate": 0.0007085129174793342,
      "loss": 2.5804,
      "step": 2986
    },
    {
      "epoch": 0.382336,
      "grad_norm": 0.3911205530166626,
      "learning_rate": 0.0007083244756011465,
      "loss": 2.6373,
      "step": 2987
    },
    {
      "epoch": 0.382464,
      "grad_norm": 0.41255804896354675,
      "learning_rate": 0.0007081359979095666,
      "loss": 2.5464,
      "step": 2988
    },
    {
      "epoch": 0.382592,
      "grad_norm": 0.4301627278327942,
      "learning_rate": 0.0007079474844369957,
      "loss": 2.7389,
      "step": 2989
    },
    {
      "epoch": 0.38272,
      "grad_norm": 0.4982589781284332,
      "learning_rate": 0.0007077589352158415,
      "loss": 2.7706,
      "step": 2990
    },
    {
      "epoch": 0.382848,
      "grad_norm": 0.40797507762908936,
      "learning_rate": 0.0007075703502785177,
      "loss": 2.5761,
      "step": 2991
    },
    {
      "epoch": 0.382976,
      "grad_norm": 0.4769897758960724,
      "learning_rate": 0.0007073817296574444,
      "loss": 2.6978,
      "step": 2992
    },
    {
      "epoch": 0.383104,
      "grad_norm": 0.9084300398826599,
      "learning_rate": 0.0007071930733850476,
      "loss": 2.6947,
      "step": 2993
    },
    {
      "epoch": 0.383232,
      "grad_norm": 0.407076358795166,
      "learning_rate": 0.0007070043814937594,
      "loss": 2.5221,
      "step": 2994
    },
    {
      "epoch": 0.38336,
      "grad_norm": 0.4150380492210388,
      "learning_rate": 0.0007068156540160182,
      "loss": 2.5985,
      "step": 2995
    },
    {
      "epoch": 0.383488,
      "grad_norm": 0.39652714133262634,
      "learning_rate": 0.0007066268909842687,
      "loss": 2.5808,
      "step": 2996
    },
    {
      "epoch": 0.383616,
      "grad_norm": 0.4317149221897125,
      "learning_rate": 0.000706438092430961,
      "loss": 2.6799,
      "step": 2997
    },
    {
      "epoch": 0.383744,
      "grad_norm": 0.41057637333869934,
      "learning_rate": 0.000706249258388552,
      "loss": 2.6063,
      "step": 2998
    },
    {
      "epoch": 0.383872,
      "grad_norm": 0.4375094771385193,
      "learning_rate": 0.0007060603888895045,
      "loss": 2.6746,
      "step": 2999
    },
    {
      "epoch": 0.384,
      "grad_norm": 0.4535630941390991,
      "learning_rate": 0.0007058714839662874,
      "loss": 2.6353,
      "step": 3000
    },
    {
      "epoch": 0.384128,
      "grad_norm": 0.46457383036613464,
      "learning_rate": 0.0007056825436513753,
      "loss": 2.6107,
      "step": 3001
    },
    {
      "epoch": 0.384256,
      "grad_norm": 0.42359086871147156,
      "learning_rate": 0.0007054935679772496,
      "loss": 2.5918,
      "step": 3002
    },
    {
      "epoch": 0.384384,
      "grad_norm": 0.6900938153266907,
      "learning_rate": 0.0007053045569763973,
      "loss": 2.704,
      "step": 3003
    },
    {
      "epoch": 0.384512,
      "grad_norm": 0.3809193968772888,
      "learning_rate": 0.0007051155106813114,
      "loss": 2.6806,
      "step": 3004
    },
    {
      "epoch": 0.38464,
      "grad_norm": 0.42132025957107544,
      "learning_rate": 0.0007049264291244914,
      "loss": 2.608,
      "step": 3005
    },
    {
      "epoch": 0.384768,
      "grad_norm": 0.4192999601364136,
      "learning_rate": 0.0007047373123384426,
      "loss": 2.725,
      "step": 3006
    },
    {
      "epoch": 0.384896,
      "grad_norm": 0.412421315908432,
      "learning_rate": 0.0007045481603556763,
      "loss": 2.607,
      "step": 3007
    },
    {
      "epoch": 0.385024,
      "grad_norm": 0.42852190136909485,
      "learning_rate": 0.0007043589732087098,
      "loss": 2.6824,
      "step": 3008
    },
    {
      "epoch": 0.385152,
      "grad_norm": 0.40073496103286743,
      "learning_rate": 0.0007041697509300667,
      "loss": 2.6545,
      "step": 3009
    },
    {
      "epoch": 0.38528,
      "grad_norm": 0.41880565881729126,
      "learning_rate": 0.0007039804935522765,
      "loss": 2.7549,
      "step": 3010
    },
    {
      "epoch": 0.385408,
      "grad_norm": 0.4230197072029114,
      "learning_rate": 0.0007037912011078749,
      "loss": 2.6645,
      "step": 3011
    },
    {
      "epoch": 0.385536,
      "grad_norm": 0.4406726360321045,
      "learning_rate": 0.000703601873629403,
      "loss": 2.6744,
      "step": 3012
    },
    {
      "epoch": 0.385664,
      "grad_norm": 0.3784179091453552,
      "learning_rate": 0.0007034125111494087,
      "loss": 2.6661,
      "step": 3013
    },
    {
      "epoch": 0.385792,
      "grad_norm": 0.40898215770721436,
      "learning_rate": 0.0007032231137004457,
      "loss": 2.6291,
      "step": 3014
    },
    {
      "epoch": 0.38592,
      "grad_norm": 0.397621750831604,
      "learning_rate": 0.0007030336813150733,
      "loss": 2.6151,
      "step": 3015
    },
    {
      "epoch": 0.386048,
      "grad_norm": 0.4182914197444916,
      "learning_rate": 0.0007028442140258575,
      "loss": 2.716,
      "step": 3016
    },
    {
      "epoch": 0.386176,
      "grad_norm": 0.41847461462020874,
      "learning_rate": 0.0007026547118653696,
      "loss": 2.5732,
      "step": 3017
    },
    {
      "epoch": 0.386304,
      "grad_norm": 0.42878443002700806,
      "learning_rate": 0.0007024651748661875,
      "loss": 2.5892,
      "step": 3018
    },
    {
      "epoch": 0.386432,
      "grad_norm": 0.42287471890449524,
      "learning_rate": 0.0007022756030608946,
      "loss": 2.7597,
      "step": 3019
    },
    {
      "epoch": 0.38656,
      "grad_norm": 0.41916796565055847,
      "learning_rate": 0.0007020859964820805,
      "loss": 2.6263,
      "step": 3020
    },
    {
      "epoch": 0.386688,
      "grad_norm": 0.5860003232955933,
      "learning_rate": 0.000701896355162341,
      "loss": 2.6703,
      "step": 3021
    },
    {
      "epoch": 0.386816,
      "grad_norm": 0.4325214624404907,
      "learning_rate": 0.0007017066791342772,
      "loss": 2.6857,
      "step": 3022
    },
    {
      "epoch": 0.386944,
      "grad_norm": 0.3679945766925812,
      "learning_rate": 0.0007015169684304969,
      "loss": 2.6293,
      "step": 3023
    },
    {
      "epoch": 0.387072,
      "grad_norm": 0.4028472602367401,
      "learning_rate": 0.0007013272230836138,
      "loss": 2.692,
      "step": 3024
    },
    {
      "epoch": 0.3872,
      "grad_norm": 0.38569915294647217,
      "learning_rate": 0.000701137443126247,
      "loss": 2.7393,
      "step": 3025
    },
    {
      "epoch": 0.387328,
      "grad_norm": 0.4144458472728729,
      "learning_rate": 0.0007009476285910218,
      "loss": 2.6517,
      "step": 3026
    },
    {
      "epoch": 0.387456,
      "grad_norm": 0.3911775052547455,
      "learning_rate": 0.0007007577795105696,
      "loss": 2.6592,
      "step": 3027
    },
    {
      "epoch": 0.387584,
      "grad_norm": 0.4349844455718994,
      "learning_rate": 0.0007005678959175279,
      "loss": 2.7295,
      "step": 3028
    },
    {
      "epoch": 0.387712,
      "grad_norm": 0.39436623454093933,
      "learning_rate": 0.0007003779778445397,
      "loss": 2.6505,
      "step": 3029
    },
    {
      "epoch": 0.38784,
      "grad_norm": 0.3856737017631531,
      "learning_rate": 0.0007001880253242541,
      "loss": 2.6449,
      "step": 3030
    },
    {
      "epoch": 0.387968,
      "grad_norm": 0.44817447662353516,
      "learning_rate": 0.0006999980383893261,
      "loss": 2.5791,
      "step": 3031
    },
    {
      "epoch": 0.388096,
      "grad_norm": 0.5229958295822144,
      "learning_rate": 0.0006998080170724167,
      "loss": 2.7405,
      "step": 3032
    },
    {
      "epoch": 0.388224,
      "grad_norm": 0.4191032350063324,
      "learning_rate": 0.0006996179614061929,
      "loss": 2.6575,
      "step": 3033
    },
    {
      "epoch": 0.388352,
      "grad_norm": 0.4000089466571808,
      "learning_rate": 0.0006994278714233273,
      "loss": 2.5813,
      "step": 3034
    },
    {
      "epoch": 0.38848,
      "grad_norm": 0.4005541205406189,
      "learning_rate": 0.0006992377471564987,
      "loss": 2.6455,
      "step": 3035
    },
    {
      "epoch": 0.388608,
      "grad_norm": 0.3877399265766144,
      "learning_rate": 0.0006990475886383915,
      "loss": 2.5878,
      "step": 3036
    },
    {
      "epoch": 0.388736,
      "grad_norm": 0.4067261815071106,
      "learning_rate": 0.0006988573959016963,
      "loss": 2.7095,
      "step": 3037
    },
    {
      "epoch": 0.388864,
      "grad_norm": 0.38883325457572937,
      "learning_rate": 0.0006986671689791094,
      "loss": 2.562,
      "step": 3038
    },
    {
      "epoch": 0.388992,
      "grad_norm": 0.4164203107357025,
      "learning_rate": 0.0006984769079033331,
      "loss": 2.7156,
      "step": 3039
    },
    {
      "epoch": 0.38912,
      "grad_norm": 0.4489009976387024,
      "learning_rate": 0.0006982866127070753,
      "loss": 2.621,
      "step": 3040
    },
    {
      "epoch": 0.389248,
      "grad_norm": 0.4249378442764282,
      "learning_rate": 0.0006980962834230499,
      "loss": 2.6865,
      "step": 3041
    },
    {
      "epoch": 0.389376,
      "grad_norm": 0.6762056350708008,
      "learning_rate": 0.0006979059200839771,
      "loss": 2.6514,
      "step": 3042
    },
    {
      "epoch": 0.389504,
      "grad_norm": 0.4439373314380646,
      "learning_rate": 0.0006977155227225822,
      "loss": 2.6529,
      "step": 3043
    },
    {
      "epoch": 0.389632,
      "grad_norm": 0.435776948928833,
      "learning_rate": 0.0006975250913715968,
      "loss": 2.6041,
      "step": 3044
    },
    {
      "epoch": 0.38976,
      "grad_norm": 0.4143895208835602,
      "learning_rate": 0.0006973346260637583,
      "loss": 2.6885,
      "step": 3045
    },
    {
      "epoch": 0.389888,
      "grad_norm": 0.3885088562965393,
      "learning_rate": 0.0006971441268318099,
      "loss": 2.5391,
      "step": 3046
    },
    {
      "epoch": 0.390016,
      "grad_norm": 0.47072649002075195,
      "learning_rate": 0.0006969535937085005,
      "loss": 2.7554,
      "step": 3047
    },
    {
      "epoch": 0.390144,
      "grad_norm": 0.4301302134990692,
      "learning_rate": 0.0006967630267265853,
      "loss": 2.7707,
      "step": 3048
    },
    {
      "epoch": 0.390272,
      "grad_norm": 0.4032723903656006,
      "learning_rate": 0.0006965724259188246,
      "loss": 2.642,
      "step": 3049
    },
    {
      "epoch": 0.3904,
      "grad_norm": 0.3962644040584564,
      "learning_rate": 0.0006963817913179849,
      "loss": 2.5615,
      "step": 3050
    },
    {
      "epoch": 0.390528,
      "grad_norm": 0.3788490891456604,
      "learning_rate": 0.0006961911229568387,
      "loss": 2.7113,
      "step": 3051
    },
    {
      "epoch": 0.390656,
      "grad_norm": 0.4082067310810089,
      "learning_rate": 0.0006960004208681642,
      "loss": 2.6934,
      "step": 3052
    },
    {
      "epoch": 0.390784,
      "grad_norm": 0.39662447571754456,
      "learning_rate": 0.000695809685084745,
      "loss": 2.7363,
      "step": 3053
    },
    {
      "epoch": 0.390912,
      "grad_norm": 0.36803120374679565,
      "learning_rate": 0.0006956189156393708,
      "loss": 2.5386,
      "step": 3054
    },
    {
      "epoch": 0.39104,
      "grad_norm": 0.4645729064941406,
      "learning_rate": 0.0006954281125648373,
      "loss": 2.7096,
      "step": 3055
    },
    {
      "epoch": 0.391168,
      "grad_norm": 0.3875323235988617,
      "learning_rate": 0.0006952372758939457,
      "loss": 2.6711,
      "step": 3056
    },
    {
      "epoch": 0.391296,
      "grad_norm": 0.390103816986084,
      "learning_rate": 0.0006950464056595029,
      "loss": 2.6203,
      "step": 3057
    },
    {
      "epoch": 0.391424,
      "grad_norm": 0.4315911829471588,
      "learning_rate": 0.0006948555018943219,
      "loss": 2.7125,
      "step": 3058
    },
    {
      "epoch": 0.391552,
      "grad_norm": 0.42526811361312866,
      "learning_rate": 0.0006946645646312211,
      "loss": 2.5255,
      "step": 3059
    },
    {
      "epoch": 0.39168,
      "grad_norm": 0.3944377303123474,
      "learning_rate": 0.0006944735939030249,
      "loss": 2.6914,
      "step": 3060
    },
    {
      "epoch": 0.391808,
      "grad_norm": 0.4238569736480713,
      "learning_rate": 0.0006942825897425633,
      "loss": 2.6688,
      "step": 3061
    },
    {
      "epoch": 0.391936,
      "grad_norm": 0.5511823892593384,
      "learning_rate": 0.0006940915521826723,
      "loss": 2.641,
      "step": 3062
    },
    {
      "epoch": 0.392064,
      "grad_norm": 0.38969704508781433,
      "learning_rate": 0.0006939004812561933,
      "loss": 2.6529,
      "step": 3063
    },
    {
      "epoch": 0.392192,
      "grad_norm": 0.4181516766548157,
      "learning_rate": 0.0006937093769959736,
      "loss": 2.607,
      "step": 3064
    },
    {
      "epoch": 0.39232,
      "grad_norm": 0.40731287002563477,
      "learning_rate": 0.0006935182394348664,
      "loss": 2.5217,
      "step": 3065
    },
    {
      "epoch": 0.392448,
      "grad_norm": 0.4275728166103363,
      "learning_rate": 0.0006933270686057307,
      "loss": 2.5866,
      "step": 3066
    },
    {
      "epoch": 0.392576,
      "grad_norm": 0.38705068826675415,
      "learning_rate": 0.0006931358645414304,
      "loss": 2.7468,
      "step": 3067
    },
    {
      "epoch": 0.392704,
      "grad_norm": 0.4134441912174225,
      "learning_rate": 0.0006929446272748359,
      "loss": 2.5631,
      "step": 3068
    },
    {
      "epoch": 0.392832,
      "grad_norm": 0.403533399105072,
      "learning_rate": 0.0006927533568388231,
      "loss": 2.6816,
      "step": 3069
    },
    {
      "epoch": 0.39296,
      "grad_norm": 0.38710492849349976,
      "learning_rate": 0.000692562053266274,
      "loss": 2.6155,
      "step": 3070
    },
    {
      "epoch": 0.393088,
      "grad_norm": 0.380414754152298,
      "learning_rate": 0.0006923707165900754,
      "loss": 2.5828,
      "step": 3071
    },
    {
      "epoch": 0.393216,
      "grad_norm": 0.3750724792480469,
      "learning_rate": 0.0006921793468431203,
      "loss": 2.5792,
      "step": 3072
    },
    {
      "epoch": 0.393344,
      "grad_norm": 0.3982594311237335,
      "learning_rate": 0.0006919879440583077,
      "loss": 2.5592,
      "step": 3073
    },
    {
      "epoch": 0.393472,
      "grad_norm": 0.3959878385066986,
      "learning_rate": 0.0006917965082685418,
      "loss": 2.6197,
      "step": 3074
    },
    {
      "epoch": 0.3936,
      "grad_norm": 0.3952976167201996,
      "learning_rate": 0.0006916050395067327,
      "loss": 2.6317,
      "step": 3075
    },
    {
      "epoch": 0.393728,
      "grad_norm": 0.46031510829925537,
      "learning_rate": 0.0006914135378057959,
      "loss": 2.6142,
      "step": 3076
    },
    {
      "epoch": 0.393856,
      "grad_norm": 0.411344051361084,
      "learning_rate": 0.0006912220031986531,
      "loss": 2.6879,
      "step": 3077
    },
    {
      "epoch": 0.393984,
      "grad_norm": 0.42226147651672363,
      "learning_rate": 0.0006910304357182307,
      "loss": 2.6763,
      "step": 3078
    },
    {
      "epoch": 0.394112,
      "grad_norm": 0.38280272483825684,
      "learning_rate": 0.0006908388353974622,
      "loss": 2.5463,
      "step": 3079
    },
    {
      "epoch": 0.39424,
      "grad_norm": 0.4342540204524994,
      "learning_rate": 0.0006906472022692854,
      "loss": 2.6055,
      "step": 3080
    },
    {
      "epoch": 0.394368,
      "grad_norm": 0.38725706934928894,
      "learning_rate": 0.0006904555363666442,
      "loss": 2.6434,
      "step": 3081
    },
    {
      "epoch": 0.394496,
      "grad_norm": 0.39723825454711914,
      "learning_rate": 0.0006902638377224886,
      "loss": 2.7172,
      "step": 3082
    },
    {
      "epoch": 0.394624,
      "grad_norm": 0.40664219856262207,
      "learning_rate": 0.0006900721063697732,
      "loss": 2.6261,
      "step": 3083
    },
    {
      "epoch": 0.394752,
      "grad_norm": 0.3895743489265442,
      "learning_rate": 0.0006898803423414595,
      "loss": 2.5832,
      "step": 3084
    },
    {
      "epoch": 0.39488,
      "grad_norm": 0.4074297249317169,
      "learning_rate": 0.0006896885456705137,
      "loss": 2.6713,
      "step": 3085
    },
    {
      "epoch": 0.395008,
      "grad_norm": 0.39256152510643005,
      "learning_rate": 0.0006894967163899076,
      "loss": 2.7074,
      "step": 3086
    },
    {
      "epoch": 0.395136,
      "grad_norm": 0.4343096911907196,
      "learning_rate": 0.0006893048545326192,
      "loss": 2.7098,
      "step": 3087
    },
    {
      "epoch": 0.395264,
      "grad_norm": 0.4272511303424835,
      "learning_rate": 0.0006891129601316318,
      "loss": 2.6813,
      "step": 3088
    },
    {
      "epoch": 0.395392,
      "grad_norm": 0.43602731823921204,
      "learning_rate": 0.0006889210332199343,
      "loss": 2.7769,
      "step": 3089
    },
    {
      "epoch": 0.39552,
      "grad_norm": 0.39999473094940186,
      "learning_rate": 0.0006887290738305207,
      "loss": 2.7181,
      "step": 3090
    },
    {
      "epoch": 0.395648,
      "grad_norm": 0.4420892894268036,
      "learning_rate": 0.0006885370819963917,
      "loss": 2.5996,
      "step": 3091
    },
    {
      "epoch": 0.395776,
      "grad_norm": 0.41273558139801025,
      "learning_rate": 0.0006883450577505523,
      "loss": 2.5791,
      "step": 3092
    },
    {
      "epoch": 0.395904,
      "grad_norm": 0.4092309772968292,
      "learning_rate": 0.0006881530011260142,
      "loss": 2.6945,
      "step": 3093
    },
    {
      "epoch": 0.396032,
      "grad_norm": 0.6006457805633545,
      "learning_rate": 0.0006879609121557937,
      "loss": 2.5785,
      "step": 3094
    },
    {
      "epoch": 0.39616,
      "grad_norm": 0.3729795813560486,
      "learning_rate": 0.0006877687908729137,
      "loss": 2.7149,
      "step": 3095
    },
    {
      "epoch": 0.396288,
      "grad_norm": 0.4178257882595062,
      "learning_rate": 0.0006875766373104016,
      "loss": 2.6554,
      "step": 3096
    },
    {
      "epoch": 0.396416,
      "grad_norm": 0.40683677792549133,
      "learning_rate": 0.0006873844515012908,
      "loss": 2.5342,
      "step": 3097
    },
    {
      "epoch": 0.396544,
      "grad_norm": 0.376810222864151,
      "learning_rate": 0.0006871922334786205,
      "loss": 2.5929,
      "step": 3098
    },
    {
      "epoch": 0.396672,
      "grad_norm": 0.3743249773979187,
      "learning_rate": 0.0006869999832754355,
      "loss": 2.7356,
      "step": 3099
    },
    {
      "epoch": 0.3968,
      "grad_norm": 0.6732662320137024,
      "learning_rate": 0.0006868077009247852,
      "loss": 2.6863,
      "step": 3100
    },
    {
      "epoch": 0.396928,
      "grad_norm": 0.3812393546104431,
      "learning_rate": 0.0006866153864597253,
      "loss": 2.6674,
      "step": 3101
    },
    {
      "epoch": 0.397056,
      "grad_norm": 0.38977494835853577,
      "learning_rate": 0.0006864230399133173,
      "loss": 2.6304,
      "step": 3102
    },
    {
      "epoch": 0.397184,
      "grad_norm": 0.36731094121932983,
      "learning_rate": 0.0006862306613186275,
      "loss": 2.7341,
      "step": 3103
    },
    {
      "epoch": 0.397312,
      "grad_norm": 0.36063989996910095,
      "learning_rate": 0.0006860382507087279,
      "loss": 2.6998,
      "step": 3104
    },
    {
      "epoch": 0.39744,
      "grad_norm": 0.4130468964576721,
      "learning_rate": 0.0006858458081166964,
      "loss": 2.7222,
      "step": 3105
    },
    {
      "epoch": 0.397568,
      "grad_norm": 0.4043702185153961,
      "learning_rate": 0.0006856533335756158,
      "loss": 2.6325,
      "step": 3106
    },
    {
      "epoch": 0.397696,
      "grad_norm": 0.4662283957004547,
      "learning_rate": 0.0006854608271185752,
      "loss": 2.6282,
      "step": 3107
    },
    {
      "epoch": 0.397824,
      "grad_norm": 0.44091832637786865,
      "learning_rate": 0.0006852682887786681,
      "loss": 2.7166,
      "step": 3108
    },
    {
      "epoch": 0.397952,
      "grad_norm": 0.38448643684387207,
      "learning_rate": 0.0006850757185889945,
      "loss": 2.7006,
      "step": 3109
    },
    {
      "epoch": 0.39808,
      "grad_norm": 0.4236907362937927,
      "learning_rate": 0.0006848831165826591,
      "loss": 2.6808,
      "step": 3110
    },
    {
      "epoch": 0.398208,
      "grad_norm": 0.39486658573150635,
      "learning_rate": 0.0006846904827927728,
      "loss": 2.6243,
      "step": 3111
    },
    {
      "epoch": 0.398336,
      "grad_norm": 0.389719694852829,
      "learning_rate": 0.0006844978172524513,
      "loss": 2.7089,
      "step": 3112
    },
    {
      "epoch": 0.398464,
      "grad_norm": 0.42958009243011475,
      "learning_rate": 0.0006843051199948161,
      "loss": 2.626,
      "step": 3113
    },
    {
      "epoch": 0.398592,
      "grad_norm": 0.41026467084884644,
      "learning_rate": 0.0006841123910529943,
      "loss": 2.7488,
      "step": 3114
    },
    {
      "epoch": 0.39872,
      "grad_norm": 0.37902265787124634,
      "learning_rate": 0.0006839196304601179,
      "loss": 2.6625,
      "step": 3115
    },
    {
      "epoch": 0.398848,
      "grad_norm": 0.4848562479019165,
      "learning_rate": 0.0006837268382493248,
      "loss": 2.6748,
      "step": 3116
    },
    {
      "epoch": 0.398976,
      "grad_norm": 0.3635804355144501,
      "learning_rate": 0.0006835340144537584,
      "loss": 2.6897,
      "step": 3117
    },
    {
      "epoch": 0.399104,
      "grad_norm": 0.38571465015411377,
      "learning_rate": 0.0006833411591065673,
      "loss": 2.7321,
      "step": 3118
    },
    {
      "epoch": 0.399232,
      "grad_norm": 0.447940856218338,
      "learning_rate": 0.0006831482722409052,
      "loss": 2.7055,
      "step": 3119
    },
    {
      "epoch": 0.39936,
      "grad_norm": 0.378846138715744,
      "learning_rate": 0.0006829553538899321,
      "loss": 2.6516,
      "step": 3120
    },
    {
      "epoch": 0.399488,
      "grad_norm": 0.40706098079681396,
      "learning_rate": 0.0006827624040868125,
      "loss": 2.6417,
      "step": 3121
    },
    {
      "epoch": 0.399616,
      "grad_norm": 0.3971835970878601,
      "learning_rate": 0.0006825694228647169,
      "loss": 2.7572,
      "step": 3122
    },
    {
      "epoch": 0.399744,
      "grad_norm": 0.39480918645858765,
      "learning_rate": 0.0006823764102568211,
      "loss": 2.639,
      "step": 3123
    },
    {
      "epoch": 0.399872,
      "grad_norm": 0.39682620763778687,
      "learning_rate": 0.000682183366296306,
      "loss": 2.6412,
      "step": 3124
    },
    {
      "epoch": 0.4,
      "grad_norm": 0.4497106671333313,
      "learning_rate": 0.0006819902910163581,
      "loss": 2.6763,
      "step": 3125
    },
    {
      "epoch": 0.400128,
      "grad_norm": 0.3984910845756531,
      "learning_rate": 0.0006817971844501695,
      "loss": 2.7344,
      "step": 3126
    },
    {
      "epoch": 0.400256,
      "grad_norm": 0.3775632083415985,
      "learning_rate": 0.0006816040466309372,
      "loss": 2.6316,
      "step": 3127
    },
    {
      "epoch": 0.400384,
      "grad_norm": 0.40896546840667725,
      "learning_rate": 0.0006814108775918641,
      "loss": 2.5842,
      "step": 3128
    },
    {
      "epoch": 0.400512,
      "grad_norm": 0.39892035722732544,
      "learning_rate": 0.0006812176773661579,
      "loss": 2.5368,
      "step": 3129
    },
    {
      "epoch": 0.40064,
      "grad_norm": 0.41372281312942505,
      "learning_rate": 0.0006810244459870322,
      "loss": 2.6213,
      "step": 3130
    },
    {
      "epoch": 0.400768,
      "grad_norm": 0.44208526611328125,
      "learning_rate": 0.0006808311834877056,
      "loss": 2.6866,
      "step": 3131
    },
    {
      "epoch": 0.400896,
      "grad_norm": 0.3830622136592865,
      "learning_rate": 0.0006806378899014023,
      "loss": 2.6202,
      "step": 3132
    },
    {
      "epoch": 0.401024,
      "grad_norm": 0.39430880546569824,
      "learning_rate": 0.0006804445652613514,
      "loss": 2.6616,
      "step": 3133
    },
    {
      "epoch": 0.401152,
      "grad_norm": 0.4301770329475403,
      "learning_rate": 0.0006802512096007878,
      "loss": 2.6257,
      "step": 3134
    },
    {
      "epoch": 0.40128,
      "grad_norm": 0.4256269931793213,
      "learning_rate": 0.0006800578229529518,
      "loss": 2.7396,
      "step": 3135
    },
    {
      "epoch": 0.401408,
      "grad_norm": 0.40892165899276733,
      "learning_rate": 0.0006798644053510886,
      "loss": 2.7186,
      "step": 3136
    },
    {
      "epoch": 0.401536,
      "grad_norm": 0.4149356782436371,
      "learning_rate": 0.0006796709568284488,
      "loss": 2.7163,
      "step": 3137
    },
    {
      "epoch": 0.401664,
      "grad_norm": 0.39687642455101013,
      "learning_rate": 0.0006794774774182887,
      "loss": 2.6807,
      "step": 3138
    },
    {
      "epoch": 0.401792,
      "grad_norm": 0.5031819343566895,
      "learning_rate": 0.0006792839671538695,
      "loss": 2.7279,
      "step": 3139
    },
    {
      "epoch": 0.40192,
      "grad_norm": 0.3789752125740051,
      "learning_rate": 0.0006790904260684581,
      "loss": 2.647,
      "step": 3140
    },
    {
      "epoch": 0.402048,
      "grad_norm": 0.40407317876815796,
      "learning_rate": 0.0006788968541953261,
      "loss": 2.6755,
      "step": 3141
    },
    {
      "epoch": 0.402176,
      "grad_norm": 0.4016760587692261,
      "learning_rate": 0.0006787032515677509,
      "loss": 2.6323,
      "step": 3142
    },
    {
      "epoch": 0.402304,
      "grad_norm": 0.375019907951355,
      "learning_rate": 0.0006785096182190151,
      "loss": 2.7051,
      "step": 3143
    },
    {
      "epoch": 0.402432,
      "grad_norm": 0.3953111171722412,
      "learning_rate": 0.0006783159541824065,
      "loss": 2.7375,
      "step": 3144
    },
    {
      "epoch": 0.40256,
      "grad_norm": 0.3976341187953949,
      "learning_rate": 0.0006781222594912181,
      "loss": 2.638,
      "step": 3145
    },
    {
      "epoch": 0.402688,
      "grad_norm": 0.3798147439956665,
      "learning_rate": 0.0006779285341787484,
      "loss": 2.6703,
      "step": 3146
    },
    {
      "epoch": 0.402816,
      "grad_norm": 0.4325786828994751,
      "learning_rate": 0.0006777347782783008,
      "loss": 2.5312,
      "step": 3147
    },
    {
      "epoch": 0.402944,
      "grad_norm": 0.3990900218486786,
      "learning_rate": 0.0006775409918231843,
      "loss": 2.6157,
      "step": 3148
    },
    {
      "epoch": 0.403072,
      "grad_norm": 0.4048665463924408,
      "learning_rate": 0.0006773471748467133,
      "loss": 2.6096,
      "step": 3149
    },
    {
      "epoch": 0.4032,
      "grad_norm": 0.4027716815471649,
      "learning_rate": 0.000677153327382207,
      "loss": 2.605,
      "step": 3150
    },
    {
      "epoch": 0.403328,
      "grad_norm": 0.41885608434677124,
      "learning_rate": 0.0006769594494629897,
      "loss": 2.6918,
      "step": 3151
    },
    {
      "epoch": 0.403456,
      "grad_norm": 0.3910236060619354,
      "learning_rate": 0.0006767655411223916,
      "loss": 2.5547,
      "step": 3152
    },
    {
      "epoch": 0.403584,
      "grad_norm": 0.40856680274009705,
      "learning_rate": 0.0006765716023937479,
      "loss": 2.7458,
      "step": 3153
    },
    {
      "epoch": 0.403712,
      "grad_norm": 0.37663504481315613,
      "learning_rate": 0.0006763776333103988,
      "loss": 2.6314,
      "step": 3154
    },
    {
      "epoch": 0.40384,
      "grad_norm": 0.3843153119087219,
      "learning_rate": 0.0006761836339056896,
      "loss": 2.6563,
      "step": 3155
    },
    {
      "epoch": 0.403968,
      "grad_norm": 0.3888382017612457,
      "learning_rate": 0.0006759896042129713,
      "loss": 2.6026,
      "step": 3156
    },
    {
      "epoch": 0.404096,
      "grad_norm": 0.36964675784111023,
      "learning_rate": 0.0006757955442655998,
      "loss": 2.6296,
      "step": 3157
    },
    {
      "epoch": 0.404224,
      "grad_norm": 0.3838973641395569,
      "learning_rate": 0.0006756014540969362,
      "loss": 2.7536,
      "step": 3158
    },
    {
      "epoch": 0.404352,
      "grad_norm": 0.4074263274669647,
      "learning_rate": 0.0006754073337403469,
      "loss": 2.6805,
      "step": 3159
    },
    {
      "epoch": 0.40448,
      "grad_norm": 0.3954082131385803,
      "learning_rate": 0.0006752131832292035,
      "loss": 2.647,
      "step": 3160
    },
    {
      "epoch": 0.404608,
      "grad_norm": 0.41507843136787415,
      "learning_rate": 0.0006750190025968827,
      "loss": 2.6372,
      "step": 3161
    },
    {
      "epoch": 0.404736,
      "grad_norm": 0.38076576590538025,
      "learning_rate": 0.0006748247918767662,
      "loss": 2.6183,
      "step": 3162
    },
    {
      "epoch": 0.404864,
      "grad_norm": 0.38996756076812744,
      "learning_rate": 0.0006746305511022414,
      "loss": 2.6806,
      "step": 3163
    },
    {
      "epoch": 0.404992,
      "grad_norm": 0.3804734945297241,
      "learning_rate": 0.0006744362803067002,
      "loss": 2.6293,
      "step": 3164
    },
    {
      "epoch": 0.40512,
      "grad_norm": 0.39705386757850647,
      "learning_rate": 0.0006742419795235403,
      "loss": 2.7164,
      "step": 3165
    },
    {
      "epoch": 0.405248,
      "grad_norm": 0.4283250570297241,
      "learning_rate": 0.000674047648786164,
      "loss": 2.6306,
      "step": 3166
    },
    {
      "epoch": 0.405376,
      "grad_norm": 0.402288019657135,
      "learning_rate": 0.0006738532881279793,
      "loss": 2.6493,
      "step": 3167
    },
    {
      "epoch": 0.405504,
      "grad_norm": 0.41762775182724,
      "learning_rate": 0.000673658897582399,
      "loss": 2.5996,
      "step": 3168
    },
    {
      "epoch": 0.405632,
      "grad_norm": 0.400582492351532,
      "learning_rate": 0.0006734644771828407,
      "loss": 2.5948,
      "step": 3169
    },
    {
      "epoch": 0.40576,
      "grad_norm": 0.5074841976165771,
      "learning_rate": 0.0006732700269627279,
      "loss": 2.671,
      "step": 3170
    },
    {
      "epoch": 0.405888,
      "grad_norm": 0.3871706426143646,
      "learning_rate": 0.0006730755469554888,
      "loss": 2.6318,
      "step": 3171
    },
    {
      "epoch": 0.406016,
      "grad_norm": 0.5556960105895996,
      "learning_rate": 0.0006728810371945566,
      "loss": 2.6783,
      "step": 3172
    },
    {
      "epoch": 0.406144,
      "grad_norm": 0.4206429719924927,
      "learning_rate": 0.00067268649771337,
      "loss": 2.6959,
      "step": 3173
    },
    {
      "epoch": 0.406272,
      "grad_norm": 0.453156054019928,
      "learning_rate": 0.0006724919285453725,
      "loss": 2.6935,
      "step": 3174
    },
    {
      "epoch": 0.4064,
      "grad_norm": 0.4264344871044159,
      "learning_rate": 0.0006722973297240127,
      "loss": 2.6965,
      "step": 3175
    },
    {
      "epoch": 0.406528,
      "grad_norm": 0.4251288175582886,
      "learning_rate": 0.0006721027012827444,
      "loss": 2.6156,
      "step": 3176
    },
    {
      "epoch": 0.406656,
      "grad_norm": 0.4104294180870056,
      "learning_rate": 0.0006719080432550269,
      "loss": 2.6214,
      "step": 3177
    },
    {
      "epoch": 0.406784,
      "grad_norm": 0.3906829357147217,
      "learning_rate": 0.0006717133556743235,
      "loss": 2.7,
      "step": 3178
    },
    {
      "epoch": 0.406912,
      "grad_norm": 0.43648165464401245,
      "learning_rate": 0.0006715186385741037,
      "loss": 2.6498,
      "step": 3179
    },
    {
      "epoch": 0.40704,
      "grad_norm": 0.3848753273487091,
      "learning_rate": 0.0006713238919878415,
      "loss": 2.6531,
      "step": 3180
    },
    {
      "epoch": 0.407168,
      "grad_norm": 0.40664979815483093,
      "learning_rate": 0.0006711291159490161,
      "loss": 2.68,
      "step": 3181
    },
    {
      "epoch": 0.407296,
      "grad_norm": 0.39533016085624695,
      "learning_rate": 0.0006709343104911119,
      "loss": 2.5477,
      "step": 3182
    },
    {
      "epoch": 0.407424,
      "grad_norm": 0.3992021083831787,
      "learning_rate": 0.0006707394756476179,
      "loss": 2.5833,
      "step": 3183
    },
    {
      "epoch": 0.407552,
      "grad_norm": 0.3708157241344452,
      "learning_rate": 0.0006705446114520288,
      "loss": 2.707,
      "step": 3184
    },
    {
      "epoch": 0.40768,
      "grad_norm": 0.4586349427700043,
      "learning_rate": 0.0006703497179378438,
      "loss": 2.5964,
      "step": 3185
    },
    {
      "epoch": 0.407808,
      "grad_norm": 0.3850838840007782,
      "learning_rate": 0.0006701547951385675,
      "loss": 2.6467,
      "step": 3186
    },
    {
      "epoch": 0.407936,
      "grad_norm": 0.3998938798904419,
      "learning_rate": 0.0006699598430877092,
      "loss": 2.7168,
      "step": 3187
    },
    {
      "epoch": 0.408064,
      "grad_norm": 0.3884831368923187,
      "learning_rate": 0.0006697648618187836,
      "loss": 2.6274,
      "step": 3188
    },
    {
      "epoch": 0.408192,
      "grad_norm": 0.40057894587516785,
      "learning_rate": 0.0006695698513653101,
      "loss": 2.699,
      "step": 3189
    },
    {
      "epoch": 0.40832,
      "grad_norm": 0.44881582260131836,
      "learning_rate": 0.0006693748117608133,
      "loss": 2.6386,
      "step": 3190
    },
    {
      "epoch": 0.408448,
      "grad_norm": 0.41724932193756104,
      "learning_rate": 0.000669179743038823,
      "loss": 2.6305,
      "step": 3191
    },
    {
      "epoch": 0.408576,
      "grad_norm": 0.4930213987827301,
      "learning_rate": 0.0006689846452328735,
      "loss": 2.5488,
      "step": 3192
    },
    {
      "epoch": 0.408704,
      "grad_norm": 0.3924165964126587,
      "learning_rate": 0.0006687895183765043,
      "loss": 2.5539,
      "step": 3193
    },
    {
      "epoch": 0.408832,
      "grad_norm": 0.4136640429496765,
      "learning_rate": 0.0006685943625032603,
      "loss": 2.6805,
      "step": 3194
    },
    {
      "epoch": 0.40896,
      "grad_norm": 0.3878115713596344,
      "learning_rate": 0.0006683991776466906,
      "loss": 2.6764,
      "step": 3195
    },
    {
      "epoch": 0.409088,
      "grad_norm": 0.42906254529953003,
      "learning_rate": 0.0006682039638403503,
      "loss": 2.5799,
      "step": 3196
    },
    {
      "epoch": 0.409216,
      "grad_norm": 0.383842408657074,
      "learning_rate": 0.0006680087211177985,
      "loss": 2.5779,
      "step": 3197
    },
    {
      "epoch": 0.409344,
      "grad_norm": 0.4315151572227478,
      "learning_rate": 0.0006678134495125998,
      "loss": 2.648,
      "step": 3198
    },
    {
      "epoch": 0.409472,
      "grad_norm": 0.4111884534358978,
      "learning_rate": 0.0006676181490583238,
      "loss": 2.5376,
      "step": 3199
    },
    {
      "epoch": 0.4096,
      "grad_norm": 0.4103859066963196,
      "learning_rate": 0.0006674228197885446,
      "loss": 2.7006,
      "step": 3200
    },
    {
      "epoch": 0.409728,
      "grad_norm": 0.3993775546550751,
      "learning_rate": 0.0006672274617368418,
      "loss": 2.5135,
      "step": 3201
    },
    {
      "epoch": 0.409856,
      "grad_norm": 0.4193849563598633,
      "learning_rate": 0.0006670320749367997,
      "loss": 2.6519,
      "step": 3202
    },
    {
      "epoch": 0.409984,
      "grad_norm": 0.3973296880722046,
      "learning_rate": 0.0006668366594220075,
      "loss": 2.6097,
      "step": 3203
    },
    {
      "epoch": 0.410112,
      "grad_norm": 0.41245028376579285,
      "learning_rate": 0.0006666412152260595,
      "loss": 2.6866,
      "step": 3204
    },
    {
      "epoch": 0.41024,
      "grad_norm": 0.45080137252807617,
      "learning_rate": 0.0006664457423825546,
      "loss": 2.7708,
      "step": 3205
    },
    {
      "epoch": 0.410368,
      "grad_norm": 0.41684791445732117,
      "learning_rate": 0.000666250240925097,
      "loss": 2.6133,
      "step": 3206
    },
    {
      "epoch": 0.410496,
      "grad_norm": 0.4271295666694641,
      "learning_rate": 0.0006660547108872959,
      "loss": 2.6124,
      "step": 3207
    },
    {
      "epoch": 0.410624,
      "grad_norm": 0.4387734830379486,
      "learning_rate": 0.0006658591523027643,
      "loss": 2.7085,
      "step": 3208
    },
    {
      "epoch": 0.410752,
      "grad_norm": 0.5024478435516357,
      "learning_rate": 0.0006656635652051222,
      "loss": 2.5808,
      "step": 3209
    },
    {
      "epoch": 0.41088,
      "grad_norm": 0.4076707661151886,
      "learning_rate": 0.0006654679496279926,
      "loss": 2.6539,
      "step": 3210
    },
    {
      "epoch": 0.411008,
      "grad_norm": 0.4064112603664398,
      "learning_rate": 0.000665272305605004,
      "loss": 2.649,
      "step": 3211
    },
    {
      "epoch": 0.411136,
      "grad_norm": 0.3837791979312897,
      "learning_rate": 0.0006650766331697902,
      "loss": 2.6698,
      "step": 3212
    },
    {
      "epoch": 0.411264,
      "grad_norm": 0.3867436945438385,
      "learning_rate": 0.0006648809323559895,
      "loss": 2.5586,
      "step": 3213
    },
    {
      "epoch": 0.411392,
      "grad_norm": 0.3863728642463684,
      "learning_rate": 0.0006646852031972449,
      "loss": 2.5775,
      "step": 3214
    },
    {
      "epoch": 0.41152,
      "grad_norm": 0.3686932325363159,
      "learning_rate": 0.0006644894457272047,
      "loss": 2.5397,
      "step": 3215
    },
    {
      "epoch": 0.411648,
      "grad_norm": 0.38959062099456787,
      "learning_rate": 0.0006642936599795219,
      "loss": 2.6797,
      "step": 3216
    },
    {
      "epoch": 0.411776,
      "grad_norm": 0.4339974820613861,
      "learning_rate": 0.0006640978459878543,
      "loss": 2.6259,
      "step": 3217
    },
    {
      "epoch": 0.411904,
      "grad_norm": 0.35927772521972656,
      "learning_rate": 0.0006639020037858646,
      "loss": 2.616,
      "step": 3218
    },
    {
      "epoch": 0.412032,
      "grad_norm": 0.4021908938884735,
      "learning_rate": 0.0006637061334072203,
      "loss": 2.6088,
      "step": 3219
    },
    {
      "epoch": 0.41216,
      "grad_norm": 0.395949125289917,
      "learning_rate": 0.0006635102348855939,
      "loss": 2.6235,
      "step": 3220
    },
    {
      "epoch": 0.412288,
      "grad_norm": 0.3829352557659149,
      "learning_rate": 0.0006633143082546624,
      "loss": 2.5767,
      "step": 3221
    },
    {
      "epoch": 0.412416,
      "grad_norm": 0.3730719983577728,
      "learning_rate": 0.0006631183535481081,
      "loss": 2.5991,
      "step": 3222
    },
    {
      "epoch": 0.412544,
      "grad_norm": 0.4124317765235901,
      "learning_rate": 0.0006629223707996177,
      "loss": 2.6223,
      "step": 3223
    },
    {
      "epoch": 0.412672,
      "grad_norm": 0.37803754210472107,
      "learning_rate": 0.0006627263600428832,
      "loss": 2.6799,
      "step": 3224
    },
    {
      "epoch": 0.4128,
      "grad_norm": 0.38189518451690674,
      "learning_rate": 0.0006625303213116008,
      "loss": 2.6502,
      "step": 3225
    },
    {
      "epoch": 0.412928,
      "grad_norm": 0.35670700669288635,
      "learning_rate": 0.0006623342546394719,
      "loss": 2.5421,
      "step": 3226
    },
    {
      "epoch": 0.413056,
      "grad_norm": 0.40603604912757874,
      "learning_rate": 0.0006621381600602028,
      "loss": 2.7258,
      "step": 3227
    },
    {
      "epoch": 0.413184,
      "grad_norm": 0.3896070420742035,
      "learning_rate": 0.0006619420376075042,
      "loss": 2.5339,
      "step": 3228
    },
    {
      "epoch": 0.413312,
      "grad_norm": 0.422354131937027,
      "learning_rate": 0.0006617458873150921,
      "loss": 2.7446,
      "step": 3229
    },
    {
      "epoch": 0.41344,
      "grad_norm": 0.3869871497154236,
      "learning_rate": 0.0006615497092166868,
      "loss": 2.7636,
      "step": 3230
    },
    {
      "epoch": 0.413568,
      "grad_norm": 0.3908882141113281,
      "learning_rate": 0.0006613535033460135,
      "loss": 2.6148,
      "step": 3231
    },
    {
      "epoch": 0.413696,
      "grad_norm": 0.46490105986595154,
      "learning_rate": 0.0006611572697368026,
      "loss": 2.7242,
      "step": 3232
    },
    {
      "epoch": 0.413824,
      "grad_norm": 0.3976088762283325,
      "learning_rate": 0.0006609610084227886,
      "loss": 2.5864,
      "step": 3233
    },
    {
      "epoch": 0.413952,
      "grad_norm": 0.38370460271835327,
      "learning_rate": 0.0006607647194377113,
      "loss": 2.7243,
      "step": 3234
    },
    {
      "epoch": 0.41408,
      "grad_norm": 0.4150921106338501,
      "learning_rate": 0.0006605684028153149,
      "loss": 2.6561,
      "step": 3235
    },
    {
      "epoch": 0.414208,
      "grad_norm": 0.38812553882598877,
      "learning_rate": 0.0006603720585893486,
      "loss": 2.7505,
      "step": 3236
    },
    {
      "epoch": 0.414336,
      "grad_norm": 0.4022988975048065,
      "learning_rate": 0.0006601756867935664,
      "loss": 2.6125,
      "step": 3237
    },
    {
      "epoch": 0.414464,
      "grad_norm": 0.44058728218078613,
      "learning_rate": 0.0006599792874617266,
      "loss": 2.5921,
      "step": 3238
    },
    {
      "epoch": 0.414592,
      "grad_norm": 0.4358707368373871,
      "learning_rate": 0.0006597828606275928,
      "loss": 2.5957,
      "step": 3239
    },
    {
      "epoch": 0.41472,
      "grad_norm": 0.39177411794662476,
      "learning_rate": 0.0006595864063249326,
      "loss": 2.62,
      "step": 3240
    },
    {
      "epoch": 0.414848,
      "grad_norm": 0.5577852725982666,
      "learning_rate": 0.0006593899245875192,
      "loss": 2.615,
      "step": 3241
    },
    {
      "epoch": 0.414976,
      "grad_norm": 0.42710545659065247,
      "learning_rate": 0.00065919341544913,
      "loss": 2.6246,
      "step": 3242
    },
    {
      "epoch": 0.415104,
      "grad_norm": 0.4168451428413391,
      "learning_rate": 0.0006589968789435472,
      "loss": 2.6445,
      "step": 3243
    },
    {
      "epoch": 0.415232,
      "grad_norm": 0.42562514543533325,
      "learning_rate": 0.0006588003151045576,
      "loss": 2.5498,
      "step": 3244
    },
    {
      "epoch": 0.41536,
      "grad_norm": 0.39616695046424866,
      "learning_rate": 0.0006586037239659528,
      "loss": 2.622,
      "step": 3245
    },
    {
      "epoch": 0.415488,
      "grad_norm": 0.3968898355960846,
      "learning_rate": 0.0006584071055615293,
      "loss": 2.5696,
      "step": 3246
    },
    {
      "epoch": 0.415616,
      "grad_norm": 0.44813308119773865,
      "learning_rate": 0.0006582104599250878,
      "loss": 2.7542,
      "step": 3247
    },
    {
      "epoch": 0.415744,
      "grad_norm": 0.42616304755210876,
      "learning_rate": 0.0006580137870904341,
      "loss": 2.5808,
      "step": 3248
    },
    {
      "epoch": 0.415872,
      "grad_norm": 0.40835896134376526,
      "learning_rate": 0.0006578170870913787,
      "loss": 2.6361,
      "step": 3249
    },
    {
      "epoch": 0.416,
      "grad_norm": 0.4247712194919586,
      "learning_rate": 0.0006576203599617363,
      "loss": 2.6407,
      "step": 3250
    },
    {
      "epoch": 0.416128,
      "grad_norm": 0.5109090209007263,
      "learning_rate": 0.0006574236057353268,
      "loss": 2.642,
      "step": 3251
    },
    {
      "epoch": 0.416256,
      "grad_norm": 0.3967505097389221,
      "learning_rate": 0.0006572268244459745,
      "loss": 2.556,
      "step": 3252
    },
    {
      "epoch": 0.416384,
      "grad_norm": 0.41736796498298645,
      "learning_rate": 0.0006570300161275084,
      "loss": 2.6644,
      "step": 3253
    },
    {
      "epoch": 0.416512,
      "grad_norm": 0.4090389907360077,
      "learning_rate": 0.0006568331808137619,
      "loss": 2.5679,
      "step": 3254
    },
    {
      "epoch": 0.41664,
      "grad_norm": 0.42878347635269165,
      "learning_rate": 0.0006566363185385735,
      "loss": 2.6704,
      "step": 3255
    },
    {
      "epoch": 0.416768,
      "grad_norm": 0.40216705203056335,
      "learning_rate": 0.0006564394293357861,
      "loss": 2.5982,
      "step": 3256
    },
    {
      "epoch": 0.416896,
      "grad_norm": 0.3957933187484741,
      "learning_rate": 0.0006562425132392472,
      "loss": 2.7545,
      "step": 3257
    },
    {
      "epoch": 0.417024,
      "grad_norm": 0.4002123773097992,
      "learning_rate": 0.0006560455702828089,
      "loss": 2.7102,
      "step": 3258
    },
    {
      "epoch": 0.417152,
      "grad_norm": 0.41956186294555664,
      "learning_rate": 0.0006558486005003282,
      "loss": 2.6981,
      "step": 3259
    },
    {
      "epoch": 0.41728,
      "grad_norm": 0.388343870639801,
      "learning_rate": 0.0006556516039256661,
      "loss": 2.6662,
      "step": 3260
    },
    {
      "epoch": 0.417408,
      "grad_norm": 0.371388703584671,
      "learning_rate": 0.000655454580592689,
      "loss": 2.7581,
      "step": 3261
    },
    {
      "epoch": 0.417536,
      "grad_norm": 0.3684088885784149,
      "learning_rate": 0.0006552575305352671,
      "loss": 2.6516,
      "step": 3262
    },
    {
      "epoch": 0.417664,
      "grad_norm": 0.38818567991256714,
      "learning_rate": 0.0006550604537872759,
      "loss": 2.5372,
      "step": 3263
    },
    {
      "epoch": 0.417792,
      "grad_norm": 0.3817368745803833,
      "learning_rate": 0.0006548633503825952,
      "loss": 2.6609,
      "step": 3264
    },
    {
      "epoch": 0.41792,
      "grad_norm": 0.40183785557746887,
      "learning_rate": 0.0006546662203551092,
      "loss": 2.5677,
      "step": 3265
    },
    {
      "epoch": 0.418048,
      "grad_norm": 0.5153831839561462,
      "learning_rate": 0.0006544690637387068,
      "loss": 2.677,
      "step": 3266
    },
    {
      "epoch": 0.418176,
      "grad_norm": 0.41783416271209717,
      "learning_rate": 0.0006542718805672816,
      "loss": 2.5866,
      "step": 3267
    },
    {
      "epoch": 0.418304,
      "grad_norm": 0.400113046169281,
      "learning_rate": 0.0006540746708747317,
      "loss": 2.678,
      "step": 3268
    },
    {
      "epoch": 0.418432,
      "grad_norm": 0.4457957446575165,
      "learning_rate": 0.0006538774346949597,
      "loss": 2.6002,
      "step": 3269
    },
    {
      "epoch": 0.41856,
      "grad_norm": 0.42755818367004395,
      "learning_rate": 0.0006536801720618727,
      "loss": 2.602,
      "step": 3270
    },
    {
      "epoch": 0.418688,
      "grad_norm": 0.40305325388908386,
      "learning_rate": 0.0006534828830093827,
      "loss": 2.6712,
      "step": 3271
    },
    {
      "epoch": 0.418816,
      "grad_norm": 0.39991748332977295,
      "learning_rate": 0.0006532855675714054,
      "loss": 2.5271,
      "step": 3272
    },
    {
      "epoch": 0.418944,
      "grad_norm": 0.38989853858947754,
      "learning_rate": 0.0006530882257818622,
      "loss": 2.6671,
      "step": 3273
    },
    {
      "epoch": 0.419072,
      "grad_norm": 0.4267426133155823,
      "learning_rate": 0.0006528908576746784,
      "loss": 2.7624,
      "step": 3274
    },
    {
      "epoch": 0.4192,
      "grad_norm": 0.42031440138816833,
      "learning_rate": 0.0006526934632837835,
      "loss": 2.6799,
      "step": 3275
    },
    {
      "epoch": 0.419328,
      "grad_norm": 0.4161050319671631,
      "learning_rate": 0.0006524960426431122,
      "loss": 2.6281,
      "step": 3276
    },
    {
      "epoch": 0.419456,
      "grad_norm": 0.42844176292419434,
      "learning_rate": 0.0006522985957866032,
      "loss": 2.6516,
      "step": 3277
    },
    {
      "epoch": 0.419584,
      "grad_norm": 0.3879260718822479,
      "learning_rate": 0.0006521011227482,
      "loss": 2.697,
      "step": 3278
    },
    {
      "epoch": 0.419712,
      "grad_norm": 0.41556745767593384,
      "learning_rate": 0.0006519036235618505,
      "loss": 2.658,
      "step": 3279
    },
    {
      "epoch": 0.41984,
      "grad_norm": 0.54571133852005,
      "learning_rate": 0.0006517060982615071,
      "loss": 2.7667,
      "step": 3280
    },
    {
      "epoch": 0.419968,
      "grad_norm": 0.3889596462249756,
      "learning_rate": 0.0006515085468811268,
      "loss": 2.6774,
      "step": 3281
    },
    {
      "epoch": 0.420096,
      "grad_norm": 0.3960873782634735,
      "learning_rate": 0.0006513109694546706,
      "loss": 2.619,
      "step": 3282
    },
    {
      "epoch": 0.420224,
      "grad_norm": 0.45162615180015564,
      "learning_rate": 0.0006511133660161047,
      "loss": 2.6878,
      "step": 3283
    },
    {
      "epoch": 0.420352,
      "grad_norm": 0.40189361572265625,
      "learning_rate": 0.0006509157365993994,
      "loss": 2.5413,
      "step": 3284
    },
    {
      "epoch": 0.42048,
      "grad_norm": 0.4148460328578949,
      "learning_rate": 0.0006507180812385295,
      "loss": 2.7023,
      "step": 3285
    },
    {
      "epoch": 0.420608,
      "grad_norm": 0.43933185935020447,
      "learning_rate": 0.000650520399967474,
      "loss": 2.6467,
      "step": 3286
    },
    {
      "epoch": 0.420736,
      "grad_norm": 0.4192878305912018,
      "learning_rate": 0.0006503226928202167,
      "loss": 2.5977,
      "step": 3287
    },
    {
      "epoch": 0.420864,
      "grad_norm": 0.44640105962753296,
      "learning_rate": 0.000650124959830746,
      "loss": 2.6402,
      "step": 3288
    },
    {
      "epoch": 0.420992,
      "grad_norm": 0.42342594265937805,
      "learning_rate": 0.0006499272010330543,
      "loss": 2.6985,
      "step": 3289
    },
    {
      "epoch": 0.42112,
      "grad_norm": 0.4085145890712738,
      "learning_rate": 0.0006497294164611385,
      "loss": 2.5882,
      "step": 3290
    },
    {
      "epoch": 0.421248,
      "grad_norm": 0.4030732214450836,
      "learning_rate": 0.0006495316061490002,
      "loss": 2.6025,
      "step": 3291
    },
    {
      "epoch": 0.421376,
      "grad_norm": 0.407682329416275,
      "learning_rate": 0.0006493337701306454,
      "loss": 2.7412,
      "step": 3292
    },
    {
      "epoch": 0.421504,
      "grad_norm": 0.3917003273963928,
      "learning_rate": 0.0006491359084400843,
      "loss": 2.6627,
      "step": 3293
    },
    {
      "epoch": 0.421632,
      "grad_norm": 0.426473468542099,
      "learning_rate": 0.0006489380211113315,
      "loss": 2.7224,
      "step": 3294
    },
    {
      "epoch": 0.42176,
      "grad_norm": 0.4303201735019684,
      "learning_rate": 0.0006487401081784062,
      "loss": 2.648,
      "step": 3295
    },
    {
      "epoch": 0.421888,
      "grad_norm": 0.4396913945674896,
      "learning_rate": 0.000648542169675332,
      "loss": 2.6834,
      "step": 3296
    },
    {
      "epoch": 0.422016,
      "grad_norm": 0.45452189445495605,
      "learning_rate": 0.0006483442056361368,
      "loss": 2.6712,
      "step": 3297
    },
    {
      "epoch": 0.422144,
      "grad_norm": 0.4328720271587372,
      "learning_rate": 0.000648146216094853,
      "loss": 2.5445,
      "step": 3298
    },
    {
      "epoch": 0.422272,
      "grad_norm": 0.38829466700553894,
      "learning_rate": 0.0006479482010855172,
      "loss": 2.6652,
      "step": 3299
    },
    {
      "epoch": 0.4224,
      "grad_norm": 0.5152866840362549,
      "learning_rate": 0.0006477501606421702,
      "loss": 2.7077,
      "step": 3300
    },
    {
      "epoch": 0.422528,
      "grad_norm": 0.43437284231185913,
      "learning_rate": 0.000647552094798858,
      "loss": 2.6536,
      "step": 3301
    },
    {
      "epoch": 0.422656,
      "grad_norm": 0.38688594102859497,
      "learning_rate": 0.00064735400358963,
      "loss": 2.6785,
      "step": 3302
    },
    {
      "epoch": 0.422784,
      "grad_norm": 0.37511125206947327,
      "learning_rate": 0.0006471558870485407,
      "loss": 2.5105,
      "step": 3303
    },
    {
      "epoch": 0.422912,
      "grad_norm": 0.384394109249115,
      "learning_rate": 0.0006469577452096482,
      "loss": 2.6156,
      "step": 3304
    },
    {
      "epoch": 0.42304,
      "grad_norm": 0.4062941372394562,
      "learning_rate": 0.0006467595781070157,
      "loss": 2.5787,
      "step": 3305
    },
    {
      "epoch": 0.423168,
      "grad_norm": 0.36585330963134766,
      "learning_rate": 0.0006465613857747104,
      "loss": 2.5108,
      "step": 3306
    },
    {
      "epoch": 0.423296,
      "grad_norm": 0.37927767634391785,
      "learning_rate": 0.0006463631682468037,
      "loss": 2.6015,
      "step": 3307
    },
    {
      "epoch": 0.423424,
      "grad_norm": 0.4155724048614502,
      "learning_rate": 0.0006461649255573716,
      "loss": 2.7629,
      "step": 3308
    },
    {
      "epoch": 0.423552,
      "grad_norm": 0.3728989064693451,
      "learning_rate": 0.0006459666577404943,
      "loss": 2.6569,
      "step": 3309
    },
    {
      "epoch": 0.42368,
      "grad_norm": 0.37543678283691406,
      "learning_rate": 0.0006457683648302565,
      "loss": 2.6033,
      "step": 3310
    },
    {
      "epoch": 0.423808,
      "grad_norm": 0.3791728615760803,
      "learning_rate": 0.0006455700468607469,
      "loss": 2.5865,
      "step": 3311
    },
    {
      "epoch": 0.423936,
      "grad_norm": 0.3818376362323761,
      "learning_rate": 0.0006453717038660584,
      "loss": 2.6521,
      "step": 3312
    },
    {
      "epoch": 0.424064,
      "grad_norm": 0.3712047338485718,
      "learning_rate": 0.0006451733358802888,
      "loss": 2.5695,
      "step": 3313
    },
    {
      "epoch": 0.424192,
      "grad_norm": 0.38813114166259766,
      "learning_rate": 0.0006449749429375398,
      "loss": 2.5838,
      "step": 3314
    },
    {
      "epoch": 0.42432,
      "grad_norm": 0.4216228425502777,
      "learning_rate": 0.0006447765250719174,
      "loss": 2.5965,
      "step": 3315
    },
    {
      "epoch": 0.424448,
      "grad_norm": 0.4149610102176666,
      "learning_rate": 0.0006445780823175321,
      "loss": 2.6894,
      "step": 3316
    },
    {
      "epoch": 0.424576,
      "grad_norm": 0.41904526948928833,
      "learning_rate": 0.0006443796147084981,
      "loss": 2.7254,
      "step": 3317
    },
    {
      "epoch": 0.424704,
      "grad_norm": 0.41482609510421753,
      "learning_rate": 0.0006441811222789347,
      "loss": 2.7155,
      "step": 3318
    },
    {
      "epoch": 0.424832,
      "grad_norm": 0.374127060174942,
      "learning_rate": 0.0006439826050629648,
      "loss": 2.5519,
      "step": 3319
    },
    {
      "epoch": 0.42496,
      "grad_norm": 0.39716216921806335,
      "learning_rate": 0.0006437840630947161,
      "loss": 2.5993,
      "step": 3320
    },
    {
      "epoch": 0.425088,
      "grad_norm": 0.3735756278038025,
      "learning_rate": 0.0006435854964083198,
      "loss": 2.5739,
      "step": 3321
    },
    {
      "epoch": 0.425216,
      "grad_norm": 0.3822280466556549,
      "learning_rate": 0.0006433869050379121,
      "loss": 2.6454,
      "step": 3322
    },
    {
      "epoch": 0.425344,
      "grad_norm": 0.40607672929763794,
      "learning_rate": 0.0006431882890176333,
      "loss": 2.73,
      "step": 3323
    },
    {
      "epoch": 0.425472,
      "grad_norm": 0.3836250901222229,
      "learning_rate": 0.0006429896483816276,
      "loss": 2.7487,
      "step": 3324
    },
    {
      "epoch": 0.4256,
      "grad_norm": 0.38167044520378113,
      "learning_rate": 0.0006427909831640437,
      "loss": 2.7234,
      "step": 3325
    },
    {
      "epoch": 0.425728,
      "grad_norm": 0.3866869807243347,
      "learning_rate": 0.0006425922933990343,
      "loss": 2.7124,
      "step": 3326
    },
    {
      "epoch": 0.425856,
      "grad_norm": 0.4202066957950592,
      "learning_rate": 0.0006423935791207568,
      "loss": 2.739,
      "step": 3327
    },
    {
      "epoch": 0.425984,
      "grad_norm": 0.36950579285621643,
      "learning_rate": 0.0006421948403633721,
      "loss": 2.5366,
      "step": 3328
    },
    {
      "epoch": 0.426112,
      "grad_norm": 0.42648524045944214,
      "learning_rate": 0.000641996077161046,
      "loss": 2.6433,
      "step": 3329
    },
    {
      "epoch": 0.42624,
      "grad_norm": 0.3624110817909241,
      "learning_rate": 0.000641797289547948,
      "loss": 2.5384,
      "step": 3330
    },
    {
      "epoch": 0.426368,
      "grad_norm": 0.41624772548675537,
      "learning_rate": 0.0006415984775582521,
      "loss": 2.632,
      "step": 3331
    },
    {
      "epoch": 0.426496,
      "grad_norm": 0.44127944111824036,
      "learning_rate": 0.0006413996412261363,
      "loss": 2.6703,
      "step": 3332
    },
    {
      "epoch": 0.426624,
      "grad_norm": 0.3974190950393677,
      "learning_rate": 0.0006412007805857828,
      "loss": 2.537,
      "step": 3333
    },
    {
      "epoch": 0.426752,
      "grad_norm": 0.37290602922439575,
      "learning_rate": 0.0006410018956713783,
      "loss": 2.5252,
      "step": 3334
    },
    {
      "epoch": 0.42688,
      "grad_norm": 0.37264952063560486,
      "learning_rate": 0.0006408029865171134,
      "loss": 2.5667,
      "step": 3335
    },
    {
      "epoch": 0.427008,
      "grad_norm": 0.4184339940547943,
      "learning_rate": 0.0006406040531571828,
      "loss": 2.6577,
      "step": 3336
    },
    {
      "epoch": 0.427136,
      "grad_norm": 0.4053061902523041,
      "learning_rate": 0.0006404050956257852,
      "loss": 2.6143,
      "step": 3337
    },
    {
      "epoch": 0.427264,
      "grad_norm": 0.5136104822158813,
      "learning_rate": 0.0006402061139571243,
      "loss": 2.665,
      "step": 3338
    },
    {
      "epoch": 0.427392,
      "grad_norm": 0.42122671008110046,
      "learning_rate": 0.0006400071081854068,
      "loss": 2.7371,
      "step": 3339
    },
    {
      "epoch": 0.42752,
      "grad_norm": 0.39437782764434814,
      "learning_rate": 0.0006398080783448442,
      "loss": 2.5919,
      "step": 3340
    },
    {
      "epoch": 0.427648,
      "grad_norm": 0.3877143859863281,
      "learning_rate": 0.0006396090244696523,
      "loss": 2.5264,
      "step": 3341
    },
    {
      "epoch": 0.427776,
      "grad_norm": 0.35643884539604187,
      "learning_rate": 0.0006394099465940505,
      "loss": 2.6285,
      "step": 3342
    },
    {
      "epoch": 0.427904,
      "grad_norm": 0.3819904327392578,
      "learning_rate": 0.0006392108447522629,
      "loss": 2.6926,
      "step": 3343
    },
    {
      "epoch": 0.428032,
      "grad_norm": 0.3798935115337372,
      "learning_rate": 0.000639011718978517,
      "loss": 2.5848,
      "step": 3344
    },
    {
      "epoch": 0.42816,
      "grad_norm": 0.3819955587387085,
      "learning_rate": 0.0006388125693070451,
      "loss": 2.6309,
      "step": 3345
    },
    {
      "epoch": 0.428288,
      "grad_norm": 0.42749443650245667,
      "learning_rate": 0.0006386133957720832,
      "loss": 2.6324,
      "step": 3346
    },
    {
      "epoch": 0.428416,
      "grad_norm": 0.36596181988716125,
      "learning_rate": 0.0006384141984078719,
      "loss": 2.5823,
      "step": 3347
    },
    {
      "epoch": 0.428544,
      "grad_norm": 0.4143657386302948,
      "learning_rate": 0.000638214977248655,
      "loss": 2.6102,
      "step": 3348
    },
    {
      "epoch": 0.428672,
      "grad_norm": 0.39680251479148865,
      "learning_rate": 0.0006380157323286812,
      "loss": 2.6667,
      "step": 3349
    },
    {
      "epoch": 0.4288,
      "grad_norm": 0.37512919306755066,
      "learning_rate": 0.0006378164636822032,
      "loss": 2.6938,
      "step": 3350
    },
    {
      "epoch": 0.428928,
      "grad_norm": 0.4023849368095398,
      "learning_rate": 0.0006376171713434771,
      "loss": 2.6886,
      "step": 3351
    },
    {
      "epoch": 0.429056,
      "grad_norm": 0.4137510359287262,
      "learning_rate": 0.0006374178553467639,
      "loss": 2.7024,
      "step": 3352
    },
    {
      "epoch": 0.429184,
      "grad_norm": 0.40324488282203674,
      "learning_rate": 0.0006372185157263286,
      "loss": 2.5912,
      "step": 3353
    },
    {
      "epoch": 0.429312,
      "grad_norm": 0.3981582522392273,
      "learning_rate": 0.0006370191525164394,
      "loss": 2.7079,
      "step": 3354
    },
    {
      "epoch": 0.42944,
      "grad_norm": 0.4274936616420746,
      "learning_rate": 0.0006368197657513695,
      "loss": 2.6298,
      "step": 3355
    },
    {
      "epoch": 0.429568,
      "grad_norm": 0.4022839367389679,
      "learning_rate": 0.0006366203554653957,
      "loss": 2.6266,
      "step": 3356
    },
    {
      "epoch": 0.429696,
      "grad_norm": 0.4214237332344055,
      "learning_rate": 0.000636420921692799,
      "loss": 2.7036,
      "step": 3357
    },
    {
      "epoch": 0.429824,
      "grad_norm": 0.39443933963775635,
      "learning_rate": 0.0006362214644678641,
      "loss": 2.6329,
      "step": 3358
    },
    {
      "epoch": 0.429952,
      "grad_norm": 0.4097309410572052,
      "learning_rate": 0.0006360219838248806,
      "loss": 2.6703,
      "step": 3359
    },
    {
      "epoch": 0.43008,
      "grad_norm": 0.44547760486602783,
      "learning_rate": 0.0006358224797981409,
      "loss": 2.4734,
      "step": 3360
    },
    {
      "epoch": 0.430208,
      "grad_norm": 0.4519577920436859,
      "learning_rate": 0.0006356229524219425,
      "loss": 2.7157,
      "step": 3361
    },
    {
      "epoch": 0.430336,
      "grad_norm": 0.5931463837623596,
      "learning_rate": 0.0006354234017305862,
      "loss": 2.6506,
      "step": 3362
    },
    {
      "epoch": 0.430464,
      "grad_norm": 0.4809137284755707,
      "learning_rate": 0.0006352238277583773,
      "loss": 2.6007,
      "step": 3363
    },
    {
      "epoch": 0.430592,
      "grad_norm": 0.3876841962337494,
      "learning_rate": 0.0006350242305396247,
      "loss": 2.6748,
      "step": 3364
    },
    {
      "epoch": 0.43072,
      "grad_norm": 0.4005810022354126,
      "learning_rate": 0.0006348246101086413,
      "loss": 2.6717,
      "step": 3365
    },
    {
      "epoch": 0.430848,
      "grad_norm": 0.4055286943912506,
      "learning_rate": 0.0006346249664997448,
      "loss": 2.6317,
      "step": 3366
    },
    {
      "epoch": 0.430976,
      "grad_norm": 0.3997693955898285,
      "learning_rate": 0.0006344252997472556,
      "loss": 2.6512,
      "step": 3367
    },
    {
      "epoch": 0.431104,
      "grad_norm": 0.4036503732204437,
      "learning_rate": 0.0006342256098854992,
      "loss": 2.5738,
      "step": 3368
    },
    {
      "epoch": 0.431232,
      "grad_norm": 0.459031343460083,
      "learning_rate": 0.0006340258969488039,
      "loss": 2.6569,
      "step": 3369
    },
    {
      "epoch": 0.43136,
      "grad_norm": 0.38702988624572754,
      "learning_rate": 0.0006338261609715037,
      "loss": 2.6718,
      "step": 3370
    },
    {
      "epoch": 0.431488,
      "grad_norm": 0.41340839862823486,
      "learning_rate": 0.0006336264019879348,
      "loss": 2.6388,
      "step": 3371
    },
    {
      "epoch": 0.431616,
      "grad_norm": 0.4081425666809082,
      "learning_rate": 0.0006334266200324381,
      "loss": 2.6331,
      "step": 3372
    },
    {
      "epoch": 0.431744,
      "grad_norm": 0.4115700125694275,
      "learning_rate": 0.0006332268151393589,
      "loss": 2.6773,
      "step": 3373
    },
    {
      "epoch": 0.431872,
      "grad_norm": 0.4088415205478668,
      "learning_rate": 0.0006330269873430454,
      "loss": 2.5512,
      "step": 3374
    },
    {
      "epoch": 0.432,
      "grad_norm": 0.3973650336265564,
      "learning_rate": 0.0006328271366778509,
      "loss": 2.6214,
      "step": 3375
    },
    {
      "epoch": 0.432128,
      "grad_norm": 0.4703311622142792,
      "learning_rate": 0.0006326272631781314,
      "loss": 2.6166,
      "step": 3376
    },
    {
      "epoch": 0.432256,
      "grad_norm": 0.47349926829338074,
      "learning_rate": 0.000632427366878248,
      "loss": 2.5707,
      "step": 3377
    },
    {
      "epoch": 0.432384,
      "grad_norm": 0.3587278127670288,
      "learning_rate": 0.000632227447812565,
      "loss": 2.5471,
      "step": 3378
    },
    {
      "epoch": 0.432512,
      "grad_norm": 0.4379253089427948,
      "learning_rate": 0.0006320275060154507,
      "loss": 2.6881,
      "step": 3379
    },
    {
      "epoch": 0.43264,
      "grad_norm": 0.436230331659317,
      "learning_rate": 0.0006318275415212776,
      "loss": 2.577,
      "step": 3380
    },
    {
      "epoch": 0.432768,
      "grad_norm": 0.3937022089958191,
      "learning_rate": 0.0006316275543644218,
      "loss": 2.6372,
      "step": 3381
    },
    {
      "epoch": 0.432896,
      "grad_norm": 0.4002784192562103,
      "learning_rate": 0.0006314275445792637,
      "loss": 2.6265,
      "step": 3382
    },
    {
      "epoch": 0.433024,
      "grad_norm": 0.3807777464389801,
      "learning_rate": 0.0006312275122001866,
      "loss": 2.7057,
      "step": 3383
    },
    {
      "epoch": 0.433152,
      "grad_norm": 0.8620358109474182,
      "learning_rate": 0.0006310274572615791,
      "loss": 2.5546,
      "step": 3384
    },
    {
      "epoch": 0.43328,
      "grad_norm": 0.39658960700035095,
      "learning_rate": 0.0006308273797978328,
      "loss": 2.7065,
      "step": 3385
    },
    {
      "epoch": 0.433408,
      "grad_norm": 0.4221841096878052,
      "learning_rate": 0.000630627279843343,
      "loss": 2.5001,
      "step": 3386
    },
    {
      "epoch": 0.433536,
      "grad_norm": 0.3679300546646118,
      "learning_rate": 0.0006304271574325095,
      "loss": 2.5119,
      "step": 3387
    },
    {
      "epoch": 0.433664,
      "grad_norm": 0.3687152862548828,
      "learning_rate": 0.0006302270125997356,
      "loss": 2.6048,
      "step": 3388
    },
    {
      "epoch": 0.433792,
      "grad_norm": 0.38584664463996887,
      "learning_rate": 0.0006300268453794287,
      "loss": 2.6304,
      "step": 3389
    },
    {
      "epoch": 0.43392,
      "grad_norm": 0.4939005672931671,
      "learning_rate": 0.0006298266558059995,
      "loss": 2.5772,
      "step": 3390
    },
    {
      "epoch": 0.434048,
      "grad_norm": 0.42688918113708496,
      "learning_rate": 0.000629626443913863,
      "loss": 2.6793,
      "step": 3391
    },
    {
      "epoch": 0.434176,
      "grad_norm": 0.41144341230392456,
      "learning_rate": 0.0006294262097374382,
      "loss": 2.6437,
      "step": 3392
    },
    {
      "epoch": 0.434304,
      "grad_norm": 0.38821831345558167,
      "learning_rate": 0.0006292259533111474,
      "loss": 2.6342,
      "step": 3393
    },
    {
      "epoch": 0.434432,
      "grad_norm": 0.3986801505088806,
      "learning_rate": 0.0006290256746694172,
      "loss": 2.684,
      "step": 3394
    },
    {
      "epoch": 0.43456,
      "grad_norm": 0.39918577671051025,
      "learning_rate": 0.0006288253738466777,
      "loss": 2.5758,
      "step": 3395
    },
    {
      "epoch": 0.434688,
      "grad_norm": 0.38919124007225037,
      "learning_rate": 0.000628625050877363,
      "loss": 2.7489,
      "step": 3396
    },
    {
      "epoch": 0.434816,
      "grad_norm": 0.3950546681880951,
      "learning_rate": 0.0006284247057959107,
      "loss": 2.7904,
      "step": 3397
    },
    {
      "epoch": 0.434944,
      "grad_norm": 0.40992555022239685,
      "learning_rate": 0.0006282243386367628,
      "loss": 2.6655,
      "step": 3398
    },
    {
      "epoch": 0.435072,
      "grad_norm": 0.42059531807899475,
      "learning_rate": 0.0006280239494343647,
      "loss": 2.5166,
      "step": 3399
    },
    {
      "epoch": 0.4352,
      "grad_norm": 0.3845149874687195,
      "learning_rate": 0.0006278235382231654,
      "loss": 2.6481,
      "step": 3400
    },
    {
      "epoch": 0.435328,
      "grad_norm": 0.4034316837787628,
      "learning_rate": 0.000627623105037618,
      "loss": 2.6589,
      "step": 3401
    },
    {
      "epoch": 0.435456,
      "grad_norm": 0.39279526472091675,
      "learning_rate": 0.0006274226499121792,
      "loss": 2.6127,
      "step": 3402
    },
    {
      "epoch": 0.435584,
      "grad_norm": 0.424955815076828,
      "learning_rate": 0.0006272221728813099,
      "loss": 2.5885,
      "step": 3403
    },
    {
      "epoch": 0.435712,
      "grad_norm": 0.4446541965007782,
      "learning_rate": 0.0006270216739794741,
      "loss": 2.5346,
      "step": 3404
    },
    {
      "epoch": 0.43584,
      "grad_norm": 0.3924735188484192,
      "learning_rate": 0.00062682115324114,
      "loss": 2.6557,
      "step": 3405
    },
    {
      "epoch": 0.435968,
      "grad_norm": 0.37676146626472473,
      "learning_rate": 0.0006266206107007793,
      "loss": 2.6529,
      "step": 3406
    },
    {
      "epoch": 0.436096,
      "grad_norm": 0.39002689719200134,
      "learning_rate": 0.0006264200463928679,
      "loss": 2.554,
      "step": 3407
    },
    {
      "epoch": 0.436224,
      "grad_norm": 0.42892879247665405,
      "learning_rate": 0.0006262194603518847,
      "loss": 2.6996,
      "step": 3408
    },
    {
      "epoch": 0.436352,
      "grad_norm": 0.41611364483833313,
      "learning_rate": 0.0006260188526123133,
      "loss": 2.6309,
      "step": 3409
    },
    {
      "epoch": 0.43648,
      "grad_norm": 0.38374343514442444,
      "learning_rate": 0.00062581822320864,
      "loss": 2.7092,
      "step": 3410
    },
    {
      "epoch": 0.436608,
      "grad_norm": 0.4185640811920166,
      "learning_rate": 0.0006256175721753556,
      "loss": 2.5183,
      "step": 3411
    },
    {
      "epoch": 0.436736,
      "grad_norm": 0.40927037596702576,
      "learning_rate": 0.0006254168995469541,
      "loss": 2.6739,
      "step": 3412
    },
    {
      "epoch": 0.436864,
      "grad_norm": 0.39164668321609497,
      "learning_rate": 0.0006252162053579337,
      "loss": 2.5496,
      "step": 3413
    },
    {
      "epoch": 0.436992,
      "grad_norm": 0.39476168155670166,
      "learning_rate": 0.0006250154896427962,
      "loss": 2.7239,
      "step": 3414
    },
    {
      "epoch": 0.43712,
      "grad_norm": 0.4170736074447632,
      "learning_rate": 0.0006248147524360464,
      "loss": 2.6748,
      "step": 3415
    },
    {
      "epoch": 0.437248,
      "grad_norm": 0.40832120180130005,
      "learning_rate": 0.0006246139937721939,
      "loss": 2.5935,
      "step": 3416
    },
    {
      "epoch": 0.437376,
      "grad_norm": 0.5053339600563049,
      "learning_rate": 0.0006244132136857512,
      "loss": 2.6415,
      "step": 3417
    },
    {
      "epoch": 0.437504,
      "grad_norm": 0.4667634665966034,
      "learning_rate": 0.0006242124122112347,
      "loss": 2.6693,
      "step": 3418
    },
    {
      "epoch": 0.437632,
      "grad_norm": 0.38992512226104736,
      "learning_rate": 0.0006240115893831644,
      "loss": 2.6383,
      "step": 3419
    },
    {
      "epoch": 0.43776,
      "grad_norm": 0.5997768044471741,
      "learning_rate": 0.0006238107452360643,
      "loss": 2.6493,
      "step": 3420
    },
    {
      "epoch": 0.437888,
      "grad_norm": 0.4022437334060669,
      "learning_rate": 0.0006236098798044618,
      "loss": 2.6124,
      "step": 3421
    },
    {
      "epoch": 0.438016,
      "grad_norm": 0.5425349473953247,
      "learning_rate": 0.000623408993122888,
      "loss": 2.6134,
      "step": 3422
    },
    {
      "epoch": 0.438144,
      "grad_norm": 0.4059092402458191,
      "learning_rate": 0.0006232080852258776,
      "loss": 2.6281,
      "step": 3423
    },
    {
      "epoch": 0.438272,
      "grad_norm": 0.3794754445552826,
      "learning_rate": 0.000623007156147969,
      "loss": 2.6285,
      "step": 3424
    },
    {
      "epoch": 0.4384,
      "grad_norm": 0.4346487820148468,
      "learning_rate": 0.000622806205923704,
      "loss": 2.5931,
      "step": 3425
    },
    {
      "epoch": 0.438528,
      "grad_norm": 0.423278272151947,
      "learning_rate": 0.0006226052345876288,
      "loss": 2.6369,
      "step": 3426
    },
    {
      "epoch": 0.438656,
      "grad_norm": 0.40009817481040955,
      "learning_rate": 0.0006224042421742924,
      "loss": 2.555,
      "step": 3427
    },
    {
      "epoch": 0.438784,
      "grad_norm": 0.41377127170562744,
      "learning_rate": 0.0006222032287182477,
      "loss": 2.7056,
      "step": 3428
    },
    {
      "epoch": 0.438912,
      "grad_norm": 0.7633923888206482,
      "learning_rate": 0.0006220021942540512,
      "loss": 2.6146,
      "step": 3429
    },
    {
      "epoch": 0.43904,
      "grad_norm": 0.36993715167045593,
      "learning_rate": 0.000621801138816263,
      "loss": 2.4867,
      "step": 3430
    },
    {
      "epoch": 0.439168,
      "grad_norm": 0.39169812202453613,
      "learning_rate": 0.0006216000624394472,
      "loss": 2.6495,
      "step": 3431
    },
    {
      "epoch": 0.439296,
      "grad_norm": 0.40161874890327454,
      "learning_rate": 0.000621398965158171,
      "loss": 2.7002,
      "step": 3432
    },
    {
      "epoch": 0.439424,
      "grad_norm": 2.627668857574463,
      "learning_rate": 0.0006211978470070052,
      "loss": 2.617,
      "step": 3433
    },
    {
      "epoch": 0.439552,
      "grad_norm": 0.3812635540962219,
      "learning_rate": 0.0006209967080205244,
      "loss": 2.6093,
      "step": 3434
    },
    {
      "epoch": 0.43968,
      "grad_norm": 0.38339585065841675,
      "learning_rate": 0.000620795548233307,
      "loss": 2.569,
      "step": 3435
    },
    {
      "epoch": 0.439808,
      "grad_norm": 0.3603869080543518,
      "learning_rate": 0.0006205943676799344,
      "loss": 2.7038,
      "step": 3436
    },
    {
      "epoch": 0.439936,
      "grad_norm": 0.4091060161590576,
      "learning_rate": 0.0006203931663949918,
      "loss": 2.5192,
      "step": 3437
    },
    {
      "epoch": 0.440064,
      "grad_norm": 0.3856067359447479,
      "learning_rate": 0.0006201919444130683,
      "loss": 2.6483,
      "step": 3438
    },
    {
      "epoch": 0.440192,
      "grad_norm": 0.3863309919834137,
      "learning_rate": 0.0006199907017687561,
      "loss": 2.6398,
      "step": 3439
    },
    {
      "epoch": 0.44032,
      "grad_norm": 0.431037962436676,
      "learning_rate": 0.0006197894384966512,
      "loss": 2.597,
      "step": 3440
    },
    {
      "epoch": 0.440448,
      "grad_norm": 0.4443315863609314,
      "learning_rate": 0.0006195881546313532,
      "loss": 2.7126,
      "step": 3441
    },
    {
      "epoch": 0.440576,
      "grad_norm": 0.4074645936489105,
      "learning_rate": 0.0006193868502074651,
      "loss": 2.6398,
      "step": 3442
    },
    {
      "epoch": 0.440704,
      "grad_norm": 0.4729655683040619,
      "learning_rate": 0.0006191855252595933,
      "loss": 2.6707,
      "step": 3443
    },
    {
      "epoch": 0.440832,
      "grad_norm": 0.37897855043411255,
      "learning_rate": 0.0006189841798223479,
      "loss": 2.6204,
      "step": 3444
    },
    {
      "epoch": 0.44096,
      "grad_norm": 0.6104663014411926,
      "learning_rate": 0.0006187828139303427,
      "loss": 2.5476,
      "step": 3445
    },
    {
      "epoch": 0.441088,
      "grad_norm": 0.4031067490577698,
      "learning_rate": 0.0006185814276181948,
      "loss": 2.6471,
      "step": 3446
    },
    {
      "epoch": 0.441216,
      "grad_norm": 0.38958486914634705,
      "learning_rate": 0.0006183800209205246,
      "loss": 2.6407,
      "step": 3447
    },
    {
      "epoch": 0.441344,
      "grad_norm": 0.44316667318344116,
      "learning_rate": 0.0006181785938719565,
      "loss": 2.6344,
      "step": 3448
    },
    {
      "epoch": 0.441472,
      "grad_norm": 0.38016727566719055,
      "learning_rate": 0.0006179771465071181,
      "loss": 2.7319,
      "step": 3449
    },
    {
      "epoch": 0.4416,
      "grad_norm": 0.4861487150192261,
      "learning_rate": 0.0006177756788606405,
      "loss": 2.5373,
      "step": 3450
    },
    {
      "epoch": 0.441728,
      "grad_norm": 0.5788254141807556,
      "learning_rate": 0.0006175741909671584,
      "loss": 2.6559,
      "step": 3451
    },
    {
      "epoch": 0.441856,
      "grad_norm": 0.40032652020454407,
      "learning_rate": 0.0006173726828613097,
      "loss": 2.644,
      "step": 3452
    },
    {
      "epoch": 0.441984,
      "grad_norm": 0.41838595271110535,
      "learning_rate": 0.0006171711545777363,
      "loss": 2.6276,
      "step": 3453
    },
    {
      "epoch": 0.442112,
      "grad_norm": 0.40226247906684875,
      "learning_rate": 0.000616969606151083,
      "loss": 2.6291,
      "step": 3454
    },
    {
      "epoch": 0.44224,
      "grad_norm": 0.4220530390739441,
      "learning_rate": 0.0006167680376159982,
      "loss": 2.6801,
      "step": 3455
    },
    {
      "epoch": 0.442368,
      "grad_norm": 0.37276914715766907,
      "learning_rate": 0.0006165664490071342,
      "loss": 2.7262,
      "step": 3456
    },
    {
      "epoch": 0.442496,
      "grad_norm": 0.4076007306575775,
      "learning_rate": 0.0006163648403591462,
      "loss": 2.5653,
      "step": 3457
    },
    {
      "epoch": 0.442624,
      "grad_norm": 0.3784974217414856,
      "learning_rate": 0.0006161632117066931,
      "loss": 2.6956,
      "step": 3458
    },
    {
      "epoch": 0.442752,
      "grad_norm": 0.41358575224876404,
      "learning_rate": 0.0006159615630844374,
      "loss": 2.6897,
      "step": 3459
    },
    {
      "epoch": 0.44288,
      "grad_norm": 0.36785179376602173,
      "learning_rate": 0.0006157598945270446,
      "loss": 2.624,
      "step": 3460
    },
    {
      "epoch": 0.443008,
      "grad_norm": 0.3572854995727539,
      "learning_rate": 0.0006155582060691837,
      "loss": 2.6101,
      "step": 3461
    },
    {
      "epoch": 0.443136,
      "grad_norm": 0.3719419240951538,
      "learning_rate": 0.0006153564977455277,
      "loss": 2.5308,
      "step": 3462
    },
    {
      "epoch": 0.443264,
      "grad_norm": 0.3922572433948517,
      "learning_rate": 0.0006151547695907525,
      "loss": 2.76,
      "step": 3463
    },
    {
      "epoch": 0.443392,
      "grad_norm": 0.38304606080055237,
      "learning_rate": 0.0006149530216395374,
      "loss": 2.5929,
      "step": 3464
    },
    {
      "epoch": 0.44352,
      "grad_norm": 0.3915141224861145,
      "learning_rate": 0.0006147512539265651,
      "loss": 2.7262,
      "step": 3465
    },
    {
      "epoch": 0.443648,
      "grad_norm": 0.38517531752586365,
      "learning_rate": 0.000614549466486522,
      "loss": 2.6484,
      "step": 3466
    },
    {
      "epoch": 0.443776,
      "grad_norm": 0.39557215571403503,
      "learning_rate": 0.0006143476593540976,
      "loss": 2.7252,
      "step": 3467
    },
    {
      "epoch": 0.443904,
      "grad_norm": 0.362223744392395,
      "learning_rate": 0.000614145832563985,
      "loss": 2.6402,
      "step": 3468
    },
    {
      "epoch": 0.444032,
      "grad_norm": 0.38766172528266907,
      "learning_rate": 0.0006139439861508803,
      "loss": 2.5915,
      "step": 3469
    },
    {
      "epoch": 0.44416,
      "grad_norm": 0.39528679847717285,
      "learning_rate": 0.0006137421201494836,
      "loss": 2.6777,
      "step": 3470
    },
    {
      "epoch": 0.444288,
      "grad_norm": 0.3922675549983978,
      "learning_rate": 0.0006135402345944978,
      "loss": 2.6425,
      "step": 3471
    },
    {
      "epoch": 0.444416,
      "grad_norm": 0.3879595100879669,
      "learning_rate": 0.0006133383295206294,
      "loss": 2.5962,
      "step": 3472
    },
    {
      "epoch": 0.444544,
      "grad_norm": 0.4284191429615021,
      "learning_rate": 0.0006131364049625882,
      "loss": 2.6208,
      "step": 3473
    },
    {
      "epoch": 0.444672,
      "grad_norm": 0.401227205991745,
      "learning_rate": 0.0006129344609550876,
      "loss": 2.6284,
      "step": 3474
    },
    {
      "epoch": 0.4448,
      "grad_norm": 0.3557862341403961,
      "learning_rate": 0.0006127324975328436,
      "loss": 2.681,
      "step": 3475
    },
    {
      "epoch": 0.444928,
      "grad_norm": 0.353125661611557,
      "learning_rate": 0.0006125305147305764,
      "loss": 2.6071,
      "step": 3476
    },
    {
      "epoch": 0.445056,
      "grad_norm": 0.3982226550579071,
      "learning_rate": 0.0006123285125830093,
      "loss": 2.608,
      "step": 3477
    },
    {
      "epoch": 0.445184,
      "grad_norm": 0.36512258648872375,
      "learning_rate": 0.0006121264911248687,
      "loss": 2.5822,
      "step": 3478
    },
    {
      "epoch": 0.445312,
      "grad_norm": 0.3972527086734772,
      "learning_rate": 0.0006119244503908843,
      "loss": 2.6869,
      "step": 3479
    },
    {
      "epoch": 0.44544,
      "grad_norm": 0.36484846472740173,
      "learning_rate": 0.0006117223904157893,
      "loss": 2.667,
      "step": 3480
    },
    {
      "epoch": 0.445568,
      "grad_norm": 0.36479735374450684,
      "learning_rate": 0.0006115203112343203,
      "loss": 2.486,
      "step": 3481
    },
    {
      "epoch": 0.445696,
      "grad_norm": 0.39773377776145935,
      "learning_rate": 0.0006113182128812169,
      "loss": 2.7362,
      "step": 3482
    },
    {
      "epoch": 0.445824,
      "grad_norm": 0.41769495606422424,
      "learning_rate": 0.0006111160953912221,
      "loss": 2.5812,
      "step": 3483
    },
    {
      "epoch": 0.445952,
      "grad_norm": 0.3885140120983124,
      "learning_rate": 0.0006109139587990825,
      "loss": 2.5664,
      "step": 3484
    },
    {
      "epoch": 0.44608,
      "grad_norm": 0.37740564346313477,
      "learning_rate": 0.0006107118031395475,
      "loss": 2.5854,
      "step": 3485
    },
    {
      "epoch": 0.446208,
      "grad_norm": 0.3837305009365082,
      "learning_rate": 0.0006105096284473701,
      "loss": 2.6788,
      "step": 3486
    },
    {
      "epoch": 0.446336,
      "grad_norm": 0.3870662450790405,
      "learning_rate": 0.0006103074347573063,
      "loss": 2.6595,
      "step": 3487
    },
    {
      "epoch": 0.446464,
      "grad_norm": 0.3730672001838684,
      "learning_rate": 0.0006101052221041157,
      "loss": 2.6975,
      "step": 3488
    },
    {
      "epoch": 0.446592,
      "grad_norm": 0.3758174479007721,
      "learning_rate": 0.0006099029905225611,
      "loss": 2.6315,
      "step": 3489
    },
    {
      "epoch": 0.44672,
      "grad_norm": 0.39783039689064026,
      "learning_rate": 0.000609700740047408,
      "loss": 2.5446,
      "step": 3490
    },
    {
      "epoch": 0.446848,
      "grad_norm": 0.40008625388145447,
      "learning_rate": 0.0006094984707134262,
      "loss": 2.6689,
      "step": 3491
    },
    {
      "epoch": 0.446976,
      "grad_norm": 0.3548795282840729,
      "learning_rate": 0.000609296182555388,
      "loss": 2.4857,
      "step": 3492
    },
    {
      "epoch": 0.447104,
      "grad_norm": 0.41219276189804077,
      "learning_rate": 0.0006090938756080688,
      "loss": 2.6065,
      "step": 3493
    },
    {
      "epoch": 0.447232,
      "grad_norm": 0.4043692946434021,
      "learning_rate": 0.0006088915499062475,
      "loss": 2.6268,
      "step": 3494
    },
    {
      "epoch": 0.44736,
      "grad_norm": 0.4177936911582947,
      "learning_rate": 0.0006086892054847065,
      "loss": 2.5711,
      "step": 3495
    },
    {
      "epoch": 0.447488,
      "grad_norm": 0.47584497928619385,
      "learning_rate": 0.0006084868423782312,
      "loss": 2.7002,
      "step": 3496
    },
    {
      "epoch": 0.447616,
      "grad_norm": 0.3784002363681793,
      "learning_rate": 0.0006082844606216098,
      "loss": 2.7746,
      "step": 3497
    },
    {
      "epoch": 0.447744,
      "grad_norm": 0.3754560947418213,
      "learning_rate": 0.0006080820602496344,
      "loss": 2.6194,
      "step": 3498
    },
    {
      "epoch": 0.447872,
      "grad_norm": 0.40977391600608826,
      "learning_rate": 0.0006078796412970997,
      "loss": 2.5321,
      "step": 3499
    },
    {
      "epoch": 0.448,
      "grad_norm": 0.3853457272052765,
      "learning_rate": 0.0006076772037988042,
      "loss": 2.6625,
      "step": 3500
    },
    {
      "epoch": 0.448128,
      "grad_norm": 0.3768845796585083,
      "learning_rate": 0.0006074747477895489,
      "loss": 2.7152,
      "step": 3501
    },
    {
      "epoch": 0.448256,
      "grad_norm": 0.3766227960586548,
      "learning_rate": 0.0006072722733041387,
      "loss": 2.7176,
      "step": 3502
    },
    {
      "epoch": 0.448384,
      "grad_norm": 0.38656577467918396,
      "learning_rate": 0.000607069780377381,
      "loss": 2.6747,
      "step": 3503
    },
    {
      "epoch": 0.448512,
      "grad_norm": 0.4006260931491852,
      "learning_rate": 0.0006068672690440867,
      "loss": 2.5456,
      "step": 3504
    },
    {
      "epoch": 0.44864,
      "grad_norm": 0.37922054529190063,
      "learning_rate": 0.00060666473933907,
      "loss": 2.5813,
      "step": 3505
    },
    {
      "epoch": 0.448768,
      "grad_norm": 0.36861270666122437,
      "learning_rate": 0.0006064621912971481,
      "loss": 2.6353,
      "step": 3506
    },
    {
      "epoch": 0.448896,
      "grad_norm": 0.39669573307037354,
      "learning_rate": 0.0006062596249531414,
      "loss": 2.6559,
      "step": 3507
    },
    {
      "epoch": 0.449024,
      "grad_norm": 0.3882732391357422,
      "learning_rate": 0.0006060570403418731,
      "loss": 2.7378,
      "step": 3508
    },
    {
      "epoch": 0.449152,
      "grad_norm": 0.41125616431236267,
      "learning_rate": 0.00060585443749817,
      "loss": 2.6264,
      "step": 3509
    },
    {
      "epoch": 0.44928,
      "grad_norm": 0.49906766414642334,
      "learning_rate": 0.0006056518164568622,
      "loss": 2.5704,
      "step": 3510
    },
    {
      "epoch": 0.449408,
      "grad_norm": 0.4229883551597595,
      "learning_rate": 0.0006054491772527821,
      "loss": 2.6307,
      "step": 3511
    },
    {
      "epoch": 0.449536,
      "grad_norm": 0.4087129533290863,
      "learning_rate": 0.0006052465199207661,
      "loss": 2.5414,
      "step": 3512
    },
    {
      "epoch": 0.449664,
      "grad_norm": 0.4188079237937927,
      "learning_rate": 0.0006050438444956531,
      "loss": 2.5187,
      "step": 3513
    },
    {
      "epoch": 0.449792,
      "grad_norm": 0.3776959478855133,
      "learning_rate": 0.0006048411510122855,
      "loss": 2.6642,
      "step": 3514
    },
    {
      "epoch": 0.44992,
      "grad_norm": 0.46266135573387146,
      "learning_rate": 0.0006046384395055086,
      "loss": 2.6473,
      "step": 3515
    },
    {
      "epoch": 0.450048,
      "grad_norm": 0.3917071521282196,
      "learning_rate": 0.000604435710010171,
      "loss": 2.5825,
      "step": 3516
    },
    {
      "epoch": 0.450176,
      "grad_norm": 0.37152788043022156,
      "learning_rate": 0.0006042329625611239,
      "loss": 2.6831,
      "step": 3517
    },
    {
      "epoch": 0.450304,
      "grad_norm": 0.40119704604148865,
      "learning_rate": 0.0006040301971932222,
      "loss": 2.6553,
      "step": 3518
    },
    {
      "epoch": 0.450432,
      "grad_norm": 0.3762744963169098,
      "learning_rate": 0.0006038274139413237,
      "loss": 2.696,
      "step": 3519
    },
    {
      "epoch": 0.45056,
      "grad_norm": 0.3901984691619873,
      "learning_rate": 0.0006036246128402891,
      "loss": 2.6017,
      "step": 3520
    },
    {
      "epoch": 0.450688,
      "grad_norm": 0.43504801392555237,
      "learning_rate": 0.0006034217939249822,
      "loss": 2.7167,
      "step": 3521
    },
    {
      "epoch": 0.450816,
      "grad_norm": 0.41031476855278015,
      "learning_rate": 0.00060321895723027,
      "loss": 2.6094,
      "step": 3522
    },
    {
      "epoch": 0.450944,
      "grad_norm": 0.3823773264884949,
      "learning_rate": 0.0006030161027910223,
      "loss": 2.5646,
      "step": 3523
    },
    {
      "epoch": 0.451072,
      "grad_norm": 0.40678489208221436,
      "learning_rate": 0.0006028132306421124,
      "loss": 2.6461,
      "step": 3524
    },
    {
      "epoch": 0.4512,
      "grad_norm": 0.3773491680622101,
      "learning_rate": 0.0006026103408184162,
      "loss": 2.635,
      "step": 3525
    },
    {
      "epoch": 0.451328,
      "grad_norm": 0.4154294431209564,
      "learning_rate": 0.0006024074333548127,
      "loss": 2.7055,
      "step": 3526
    },
    {
      "epoch": 0.451456,
      "grad_norm": 0.39637628197669983,
      "learning_rate": 0.0006022045082861843,
      "loss": 2.6138,
      "step": 3527
    },
    {
      "epoch": 0.451584,
      "grad_norm": 0.42788445949554443,
      "learning_rate": 0.0006020015656474161,
      "loss": 2.606,
      "step": 3528
    },
    {
      "epoch": 0.451712,
      "grad_norm": 0.4078449010848999,
      "learning_rate": 0.0006017986054733962,
      "loss": 2.5534,
      "step": 3529
    },
    {
      "epoch": 0.45184,
      "grad_norm": 0.4263877868652344,
      "learning_rate": 0.000601595627799016,
      "loss": 2.5508,
      "step": 3530
    },
    {
      "epoch": 0.451968,
      "grad_norm": 0.3976920247077942,
      "learning_rate": 0.0006013926326591695,
      "loss": 2.6159,
      "step": 3531
    },
    {
      "epoch": 0.452096,
      "grad_norm": 0.44079625606536865,
      "learning_rate": 0.0006011896200887539,
      "loss": 2.6035,
      "step": 3532
    },
    {
      "epoch": 0.452224,
      "grad_norm": 0.4691195785999298,
      "learning_rate": 0.0006009865901226697,
      "loss": 2.5833,
      "step": 3533
    },
    {
      "epoch": 0.452352,
      "grad_norm": 0.3969334363937378,
      "learning_rate": 0.0006007835427958198,
      "loss": 2.7977,
      "step": 3534
    },
    {
      "epoch": 0.45248,
      "grad_norm": 0.4162735044956207,
      "learning_rate": 0.0006005804781431106,
      "loss": 2.6443,
      "step": 3535
    },
    {
      "epoch": 0.452608,
      "grad_norm": 0.40401187539100647,
      "learning_rate": 0.0006003773961994511,
      "loss": 2.5982,
      "step": 3536
    },
    {
      "epoch": 0.452736,
      "grad_norm": 0.40981510281562805,
      "learning_rate": 0.0006001742969997534,
      "loss": 2.6522,
      "step": 3537
    },
    {
      "epoch": 0.452864,
      "grad_norm": 0.45500338077545166,
      "learning_rate": 0.0005999711805789329,
      "loss": 2.6043,
      "step": 3538
    },
    {
      "epoch": 0.452992,
      "grad_norm": 0.4170304834842682,
      "learning_rate": 0.0005997680469719076,
      "loss": 2.605,
      "step": 3539
    },
    {
      "epoch": 0.45312,
      "grad_norm": 0.43249282240867615,
      "learning_rate": 0.0005995648962135983,
      "loss": 2.7083,
      "step": 3540
    },
    {
      "epoch": 0.453248,
      "grad_norm": 0.4029444754123688,
      "learning_rate": 0.0005993617283389289,
      "loss": 2.6257,
      "step": 3541
    },
    {
      "epoch": 0.453376,
      "grad_norm": 0.3983955979347229,
      "learning_rate": 0.0005991585433828267,
      "loss": 2.5563,
      "step": 3542
    },
    {
      "epoch": 0.453504,
      "grad_norm": 0.517193078994751,
      "learning_rate": 0.0005989553413802214,
      "loss": 2.5897,
      "step": 3543
    },
    {
      "epoch": 0.453632,
      "grad_norm": 0.4423445165157318,
      "learning_rate": 0.0005987521223660456,
      "loss": 2.5656,
      "step": 3544
    },
    {
      "epoch": 0.45376,
      "grad_norm": 0.40746182203292847,
      "learning_rate": 0.0005985488863752351,
      "loss": 2.5259,
      "step": 3545
    },
    {
      "epoch": 0.453888,
      "grad_norm": 0.4053649306297302,
      "learning_rate": 0.0005983456334427286,
      "loss": 2.5493,
      "step": 3546
    },
    {
      "epoch": 0.454016,
      "grad_norm": 0.3994011878967285,
      "learning_rate": 0.0005981423636034676,
      "loss": 2.5753,
      "step": 3547
    },
    {
      "epoch": 0.454144,
      "grad_norm": 0.4558804929256439,
      "learning_rate": 0.0005979390768923967,
      "loss": 2.7289,
      "step": 3548
    },
    {
      "epoch": 0.454272,
      "grad_norm": 0.693932294845581,
      "learning_rate": 0.000597735773344463,
      "loss": 2.5606,
      "step": 3549
    },
    {
      "epoch": 0.4544,
      "grad_norm": 0.41809502243995667,
      "learning_rate": 0.0005975324529946165,
      "loss": 2.712,
      "step": 3550
    },
    {
      "epoch": 0.454528,
      "grad_norm": 0.4027751684188843,
      "learning_rate": 0.0005973291158778109,
      "loss": 2.6032,
      "step": 3551
    },
    {
      "epoch": 0.454656,
      "grad_norm": 0.4084879457950592,
      "learning_rate": 0.000597125762029002,
      "loss": 2.6991,
      "step": 3552
    },
    {
      "epoch": 0.454784,
      "grad_norm": 0.4396880567073822,
      "learning_rate": 0.0005969223914831486,
      "loss": 2.6283,
      "step": 3553
    },
    {
      "epoch": 0.454912,
      "grad_norm": 0.45457470417022705,
      "learning_rate": 0.0005967190042752123,
      "loss": 2.6085,
      "step": 3554
    },
    {
      "epoch": 0.45504,
      "grad_norm": 0.4014336168766022,
      "learning_rate": 0.000596515600440158,
      "loss": 2.6549,
      "step": 3555
    },
    {
      "epoch": 0.455168,
      "grad_norm": 0.4099603295326233,
      "learning_rate": 0.0005963121800129532,
      "loss": 2.6776,
      "step": 3556
    },
    {
      "epoch": 0.455296,
      "grad_norm": 0.37997326254844666,
      "learning_rate": 0.0005961087430285681,
      "loss": 2.6717,
      "step": 3557
    },
    {
      "epoch": 0.455424,
      "grad_norm": 0.410054475069046,
      "learning_rate": 0.0005959052895219757,
      "loss": 2.6496,
      "step": 3558
    },
    {
      "epoch": 0.455552,
      "grad_norm": 0.40368151664733887,
      "learning_rate": 0.0005957018195281523,
      "loss": 2.5962,
      "step": 3559
    },
    {
      "epoch": 0.45568,
      "grad_norm": 0.3921089172363281,
      "learning_rate": 0.0005954983330820766,
      "loss": 2.6964,
      "step": 3560
    },
    {
      "epoch": 0.455808,
      "grad_norm": 0.46506959199905396,
      "learning_rate": 0.0005952948302187306,
      "loss": 2.613,
      "step": 3561
    },
    {
      "epoch": 0.455936,
      "grad_norm": 0.3919157087802887,
      "learning_rate": 0.0005950913109730982,
      "loss": 2.5847,
      "step": 3562
    },
    {
      "epoch": 0.456064,
      "grad_norm": 0.3907262980937958,
      "learning_rate": 0.0005948877753801673,
      "loss": 2.6939,
      "step": 3563
    },
    {
      "epoch": 0.456192,
      "grad_norm": 0.39430463314056396,
      "learning_rate": 0.0005946842234749274,
      "loss": 2.5911,
      "step": 3564
    },
    {
      "epoch": 0.45632,
      "grad_norm": 0.3944706320762634,
      "learning_rate": 0.0005944806552923721,
      "loss": 2.6787,
      "step": 3565
    },
    {
      "epoch": 0.456448,
      "grad_norm": 0.40289798378944397,
      "learning_rate": 0.0005942770708674969,
      "loss": 2.7051,
      "step": 3566
    },
    {
      "epoch": 0.456576,
      "grad_norm": 0.38475796580314636,
      "learning_rate": 0.0005940734702353002,
      "loss": 2.6546,
      "step": 3567
    },
    {
      "epoch": 0.456704,
      "grad_norm": 0.3629150986671448,
      "learning_rate": 0.0005938698534307833,
      "loss": 2.5902,
      "step": 3568
    },
    {
      "epoch": 0.456832,
      "grad_norm": 0.3828168213367462,
      "learning_rate": 0.0005936662204889504,
      "loss": 2.5864,
      "step": 3569
    },
    {
      "epoch": 0.45696,
      "grad_norm": 0.3945094645023346,
      "learning_rate": 0.0005934625714448084,
      "loss": 2.6264,
      "step": 3570
    },
    {
      "epoch": 0.457088,
      "grad_norm": 0.39200326800346375,
      "learning_rate": 0.0005932589063333668,
      "loss": 2.6834,
      "step": 3571
    },
    {
      "epoch": 0.457216,
      "grad_norm": 0.39746007323265076,
      "learning_rate": 0.000593055225189638,
      "loss": 2.7226,
      "step": 3572
    },
    {
      "epoch": 0.457344,
      "grad_norm": 0.3850628733634949,
      "learning_rate": 0.0005928515280486372,
      "loss": 2.639,
      "step": 3573
    },
    {
      "epoch": 0.457472,
      "grad_norm": 0.3927290737628937,
      "learning_rate": 0.0005926478149453823,
      "loss": 2.6221,
      "step": 3574
    },
    {
      "epoch": 0.4576,
      "grad_norm": 0.3877548277378082,
      "learning_rate": 0.000592444085914894,
      "loss": 2.6458,
      "step": 3575
    },
    {
      "epoch": 0.457728,
      "grad_norm": 0.38295695185661316,
      "learning_rate": 0.0005922403409921956,
      "loss": 2.7269,
      "step": 3576
    },
    {
      "epoch": 0.457856,
      "grad_norm": 0.4059206545352936,
      "learning_rate": 0.0005920365802123133,
      "loss": 2.749,
      "step": 3577
    },
    {
      "epoch": 0.457984,
      "grad_norm": 0.3739789128303528,
      "learning_rate": 0.0005918328036102758,
      "loss": 2.6455,
      "step": 3578
    },
    {
      "epoch": 0.458112,
      "grad_norm": 0.39882922172546387,
      "learning_rate": 0.000591629011221115,
      "loss": 2.6499,
      "step": 3579
    },
    {
      "epoch": 0.45824,
      "grad_norm": 0.36643484234809875,
      "learning_rate": 0.0005914252030798645,
      "loss": 2.5299,
      "step": 3580
    },
    {
      "epoch": 0.458368,
      "grad_norm": 0.3836769461631775,
      "learning_rate": 0.000591221379221562,
      "loss": 2.516,
      "step": 3581
    },
    {
      "epoch": 0.458496,
      "grad_norm": 0.34043630957603455,
      "learning_rate": 0.0005910175396812467,
      "loss": 2.575,
      "step": 3582
    },
    {
      "epoch": 0.458624,
      "grad_norm": 0.403074711561203,
      "learning_rate": 0.0005908136844939611,
      "loss": 2.6824,
      "step": 3583
    },
    {
      "epoch": 0.458752,
      "grad_norm": 0.40298381447792053,
      "learning_rate": 0.0005906098136947507,
      "loss": 2.5887,
      "step": 3584
    },
    {
      "epoch": 0.45888,
      "grad_norm": 0.386508584022522,
      "learning_rate": 0.0005904059273186626,
      "loss": 2.5855,
      "step": 3585
    },
    {
      "epoch": 0.459008,
      "grad_norm": 0.38593554496765137,
      "learning_rate": 0.0005902020254007475,
      "loss": 2.6308,
      "step": 3586
    },
    {
      "epoch": 0.459136,
      "grad_norm": 0.3968660235404968,
      "learning_rate": 0.0005899981079760585,
      "loss": 2.6726,
      "step": 3587
    },
    {
      "epoch": 0.459264,
      "grad_norm": 0.38208016753196716,
      "learning_rate": 0.0005897941750796516,
      "loss": 2.6841,
      "step": 3588
    },
    {
      "epoch": 0.459392,
      "grad_norm": 0.3579489290714264,
      "learning_rate": 0.000589590226746585,
      "loss": 2.5687,
      "step": 3589
    },
    {
      "epoch": 0.45952,
      "grad_norm": 0.3685224950313568,
      "learning_rate": 0.0005893862630119197,
      "loss": 2.7291,
      "step": 3590
    },
    {
      "epoch": 0.459648,
      "grad_norm": 0.3817337453365326,
      "learning_rate": 0.0005891822839107195,
      "loss": 2.6833,
      "step": 3591
    },
    {
      "epoch": 0.459776,
      "grad_norm": 0.5248281955718994,
      "learning_rate": 0.0005889782894780509,
      "loss": 2.6025,
      "step": 3592
    },
    {
      "epoch": 0.459904,
      "grad_norm": 0.39253750443458557,
      "learning_rate": 0.0005887742797489828,
      "loss": 2.6581,
      "step": 3593
    },
    {
      "epoch": 0.460032,
      "grad_norm": 0.3695741295814514,
      "learning_rate": 0.0005885702547585867,
      "loss": 2.5915,
      "step": 3594
    },
    {
      "epoch": 0.46016,
      "grad_norm": 0.38108348846435547,
      "learning_rate": 0.0005883662145419373,
      "loss": 2.649,
      "step": 3595
    },
    {
      "epoch": 0.460288,
      "grad_norm": 0.39504557847976685,
      "learning_rate": 0.0005881621591341109,
      "loss": 2.4148,
      "step": 3596
    },
    {
      "epoch": 0.460416,
      "grad_norm": 0.38166293501853943,
      "learning_rate": 0.0005879580885701874,
      "loss": 2.625,
      "step": 3597
    },
    {
      "epoch": 0.460544,
      "grad_norm": 0.36735957860946655,
      "learning_rate": 0.0005877540028852488,
      "loss": 2.6148,
      "step": 3598
    },
    {
      "epoch": 0.460672,
      "grad_norm": 0.40190646052360535,
      "learning_rate": 0.0005875499021143799,
      "loss": 2.7142,
      "step": 3599
    },
    {
      "epoch": 0.4608,
      "grad_norm": 0.3706416189670563,
      "learning_rate": 0.0005873457862926677,
      "loss": 2.599,
      "step": 3600
    },
    {
      "epoch": 0.460928,
      "grad_norm": 0.41684335470199585,
      "learning_rate": 0.0005871416554552021,
      "loss": 2.6056,
      "step": 3601
    },
    {
      "epoch": 0.461056,
      "grad_norm": 0.35742101073265076,
      "learning_rate": 0.000586937509637076,
      "loss": 2.5452,
      "step": 3602
    },
    {
      "epoch": 0.461184,
      "grad_norm": 0.38344454765319824,
      "learning_rate": 0.0005867333488733839,
      "loss": 2.5994,
      "step": 3603
    },
    {
      "epoch": 0.461312,
      "grad_norm": 0.43610116839408875,
      "learning_rate": 0.0005865291731992238,
      "loss": 2.6022,
      "step": 3604
    },
    {
      "epoch": 0.46144,
      "grad_norm": 0.40248075127601624,
      "learning_rate": 0.0005863249826496955,
      "loss": 2.7263,
      "step": 3605
    },
    {
      "epoch": 0.461568,
      "grad_norm": 0.36778584122657776,
      "learning_rate": 0.000586120777259902,
      "loss": 2.6021,
      "step": 3606
    },
    {
      "epoch": 0.461696,
      "grad_norm": 0.3892328441143036,
      "learning_rate": 0.0005859165570649486,
      "loss": 2.6786,
      "step": 3607
    },
    {
      "epoch": 0.461824,
      "grad_norm": 0.3834267854690552,
      "learning_rate": 0.0005857123220999428,
      "loss": 2.6261,
      "step": 3608
    },
    {
      "epoch": 0.461952,
      "grad_norm": 0.38458165526390076,
      "learning_rate": 0.0005855080723999954,
      "loss": 2.6786,
      "step": 3609
    },
    {
      "epoch": 0.46208,
      "grad_norm": 0.3675295114517212,
      "learning_rate": 0.0005853038080002188,
      "loss": 2.4997,
      "step": 3610
    },
    {
      "epoch": 0.462208,
      "grad_norm": 0.37774285674095154,
      "learning_rate": 0.0005850995289357289,
      "loss": 2.5945,
      "step": 3611
    },
    {
      "epoch": 0.462336,
      "grad_norm": 0.3746502101421356,
      "learning_rate": 0.0005848952352416433,
      "loss": 2.5858,
      "step": 3612
    },
    {
      "epoch": 0.462464,
      "grad_norm": 0.42827796936035156,
      "learning_rate": 0.0005846909269530827,
      "loss": 2.5601,
      "step": 3613
    },
    {
      "epoch": 0.462592,
      "grad_norm": 0.37714746594429016,
      "learning_rate": 0.0005844866041051698,
      "loss": 2.6725,
      "step": 3614
    },
    {
      "epoch": 0.46272,
      "grad_norm": 0.4090445637702942,
      "learning_rate": 0.0005842822667330302,
      "loss": 2.6823,
      "step": 3615
    },
    {
      "epoch": 0.462848,
      "grad_norm": 0.34262681007385254,
      "learning_rate": 0.0005840779148717919,
      "loss": 2.6365,
      "step": 3616
    },
    {
      "epoch": 0.462976,
      "grad_norm": 0.3503641188144684,
      "learning_rate": 0.0005838735485565855,
      "loss": 2.6039,
      "step": 3617
    },
    {
      "epoch": 0.463104,
      "grad_norm": 0.38427451252937317,
      "learning_rate": 0.0005836691678225434,
      "loss": 2.5623,
      "step": 3618
    },
    {
      "epoch": 0.463232,
      "grad_norm": 0.36999350786209106,
      "learning_rate": 0.0005834647727048016,
      "loss": 2.5878,
      "step": 3619
    },
    {
      "epoch": 0.46336,
      "grad_norm": 0.3852042257785797,
      "learning_rate": 0.0005832603632384977,
      "loss": 2.6513,
      "step": 3620
    },
    {
      "epoch": 0.463488,
      "grad_norm": 0.3724742829799652,
      "learning_rate": 0.0005830559394587724,
      "loss": 2.5279,
      "step": 3621
    },
    {
      "epoch": 0.463616,
      "grad_norm": 0.4496801197528839,
      "learning_rate": 0.0005828515014007678,
      "loss": 2.6026,
      "step": 3622
    },
    {
      "epoch": 0.463744,
      "grad_norm": 0.3603864908218384,
      "learning_rate": 0.0005826470490996298,
      "loss": 2.6243,
      "step": 3623
    },
    {
      "epoch": 0.463872,
      "grad_norm": 0.3508937954902649,
      "learning_rate": 0.000582442582590506,
      "loss": 2.6019,
      "step": 3624
    },
    {
      "epoch": 0.464,
      "grad_norm": 0.3747249245643616,
      "learning_rate": 0.0005822381019085465,
      "loss": 2.5819,
      "step": 3625
    },
    {
      "epoch": 0.464128,
      "grad_norm": 0.37780651450157166,
      "learning_rate": 0.0005820336070889037,
      "loss": 2.5749,
      "step": 3626
    },
    {
      "epoch": 0.464256,
      "grad_norm": 0.41788262128829956,
      "learning_rate": 0.0005818290981667332,
      "loss": 2.5902,
      "step": 3627
    },
    {
      "epoch": 0.464384,
      "grad_norm": 0.3768051862716675,
      "learning_rate": 0.0005816245751771917,
      "loss": 2.6549,
      "step": 3628
    },
    {
      "epoch": 0.464512,
      "grad_norm": 0.6835026741027832,
      "learning_rate": 0.0005814200381554397,
      "loss": 2.7354,
      "step": 3629
    },
    {
      "epoch": 0.46464,
      "grad_norm": 0.4076427221298218,
      "learning_rate": 0.0005812154871366389,
      "loss": 2.6161,
      "step": 3630
    },
    {
      "epoch": 0.464768,
      "grad_norm": 0.3637239336967468,
      "learning_rate": 0.0005810109221559548,
      "loss": 2.6456,
      "step": 3631
    },
    {
      "epoch": 0.464896,
      "grad_norm": 0.38539835810661316,
      "learning_rate": 0.0005808063432485537,
      "loss": 2.6334,
      "step": 3632
    },
    {
      "epoch": 0.465024,
      "grad_norm": 0.41388583183288574,
      "learning_rate": 0.0005806017504496054,
      "loss": 2.6373,
      "step": 3633
    },
    {
      "epoch": 0.465152,
      "grad_norm": 0.43703263998031616,
      "learning_rate": 0.0005803971437942819,
      "loss": 2.6293,
      "step": 3634
    },
    {
      "epoch": 0.46528,
      "grad_norm": 0.4213121235370636,
      "learning_rate": 0.0005801925233177574,
      "loss": 2.5774,
      "step": 3635
    },
    {
      "epoch": 0.465408,
      "grad_norm": 0.37088194489479065,
      "learning_rate": 0.0005799878890552083,
      "loss": 2.6025,
      "step": 3636
    },
    {
      "epoch": 0.465536,
      "grad_norm": 0.4973742663860321,
      "learning_rate": 0.000579783241041814,
      "loss": 2.5792,
      "step": 3637
    },
    {
      "epoch": 0.465664,
      "grad_norm": 0.3881648778915405,
      "learning_rate": 0.0005795785793127554,
      "loss": 2.7044,
      "step": 3638
    },
    {
      "epoch": 0.465792,
      "grad_norm": 0.40751487016677856,
      "learning_rate": 0.0005793739039032165,
      "loss": 2.6877,
      "step": 3639
    },
    {
      "epoch": 0.46592,
      "grad_norm": 0.3882651627063751,
      "learning_rate": 0.0005791692148483834,
      "loss": 2.6702,
      "step": 3640
    },
    {
      "epoch": 0.466048,
      "grad_norm": 0.374944806098938,
      "learning_rate": 0.0005789645121834445,
      "loss": 2.5723,
      "step": 3641
    },
    {
      "epoch": 0.466176,
      "grad_norm": 0.393851637840271,
      "learning_rate": 0.0005787597959435904,
      "loss": 2.6668,
      "step": 3642
    },
    {
      "epoch": 0.466304,
      "grad_norm": 0.4075784385204315,
      "learning_rate": 0.0005785550661640144,
      "loss": 2.6109,
      "step": 3643
    },
    {
      "epoch": 0.466432,
      "grad_norm": 0.3906022906303406,
      "learning_rate": 0.0005783503228799119,
      "loss": 2.6586,
      "step": 3644
    },
    {
      "epoch": 0.46656,
      "grad_norm": 0.3783907890319824,
      "learning_rate": 0.0005781455661264805,
      "loss": 2.6493,
      "step": 3645
    },
    {
      "epoch": 0.466688,
      "grad_norm": 0.4151706397533417,
      "learning_rate": 0.0005779407959389204,
      "loss": 2.6728,
      "step": 3646
    },
    {
      "epoch": 0.466816,
      "grad_norm": 0.38916873931884766,
      "learning_rate": 0.0005777360123524338,
      "loss": 2.6172,
      "step": 3647
    },
    {
      "epoch": 0.466944,
      "grad_norm": 0.3803212344646454,
      "learning_rate": 0.0005775312154022255,
      "loss": 2.6147,
      "step": 3648
    },
    {
      "epoch": 0.467072,
      "grad_norm": 0.3666384220123291,
      "learning_rate": 0.0005773264051235025,
      "loss": 2.6643,
      "step": 3649
    },
    {
      "epoch": 0.4672,
      "grad_norm": 0.3730088174343109,
      "learning_rate": 0.0005771215815514741,
      "loss": 2.6469,
      "step": 3650
    },
    {
      "epoch": 0.467328,
      "grad_norm": 0.39960992336273193,
      "learning_rate": 0.0005769167447213517,
      "loss": 2.5427,
      "step": 3651
    },
    {
      "epoch": 0.467456,
      "grad_norm": 0.3933127224445343,
      "learning_rate": 0.0005767118946683491,
      "loss": 2.6896,
      "step": 3652
    },
    {
      "epoch": 0.467584,
      "grad_norm": 0.4126143157482147,
      "learning_rate": 0.0005765070314276826,
      "loss": 2.6007,
      "step": 3653
    },
    {
      "epoch": 0.467712,
      "grad_norm": 0.3921210765838623,
      "learning_rate": 0.0005763021550345703,
      "loss": 2.6502,
      "step": 3654
    },
    {
      "epoch": 0.46784,
      "grad_norm": 0.36325904726982117,
      "learning_rate": 0.0005760972655242332,
      "loss": 2.6978,
      "step": 3655
    },
    {
      "epoch": 0.467968,
      "grad_norm": 0.3861370086669922,
      "learning_rate": 0.0005758923629318937,
      "loss": 2.7044,
      "step": 3656
    },
    {
      "epoch": 0.468096,
      "grad_norm": 0.3834986984729767,
      "learning_rate": 0.0005756874472927774,
      "loss": 2.6095,
      "step": 3657
    },
    {
      "epoch": 0.468224,
      "grad_norm": 0.36925438046455383,
      "learning_rate": 0.0005754825186421113,
      "loss": 2.6918,
      "step": 3658
    },
    {
      "epoch": 0.468352,
      "grad_norm": 0.3667917549610138,
      "learning_rate": 0.0005752775770151254,
      "loss": 2.5563,
      "step": 3659
    },
    {
      "epoch": 0.46848,
      "grad_norm": 0.38641732931137085,
      "learning_rate": 0.0005750726224470513,
      "loss": 2.6785,
      "step": 3660
    },
    {
      "epoch": 0.468608,
      "grad_norm": 0.4129980206489563,
      "learning_rate": 0.0005748676549731229,
      "loss": 2.6591,
      "step": 3661
    },
    {
      "epoch": 0.468736,
      "grad_norm": 0.4323350489139557,
      "learning_rate": 0.0005746626746285767,
      "loss": 2.636,
      "step": 3662
    },
    {
      "epoch": 0.468864,
      "grad_norm": 0.3942664861679077,
      "learning_rate": 0.0005744576814486512,
      "loss": 2.684,
      "step": 3663
    },
    {
      "epoch": 0.468992,
      "grad_norm": 0.39319390058517456,
      "learning_rate": 0.0005742526754685871,
      "loss": 2.5861,
      "step": 3664
    },
    {
      "epoch": 0.46912,
      "grad_norm": 0.4154815375804901,
      "learning_rate": 0.0005740476567236272,
      "loss": 2.6718,
      "step": 3665
    },
    {
      "epoch": 0.469248,
      "grad_norm": 0.37947773933410645,
      "learning_rate": 0.0005738426252490168,
      "loss": 2.6657,
      "step": 3666
    },
    {
      "epoch": 0.469376,
      "grad_norm": 0.3661644160747528,
      "learning_rate": 0.000573637581080003,
      "loss": 2.5654,
      "step": 3667
    },
    {
      "epoch": 0.469504,
      "grad_norm": 0.39707452058792114,
      "learning_rate": 0.0005734325242518354,
      "loss": 2.5831,
      "step": 3668
    },
    {
      "epoch": 0.469632,
      "grad_norm": 0.37447482347488403,
      "learning_rate": 0.0005732274547997655,
      "loss": 2.67,
      "step": 3669
    },
    {
      "epoch": 0.46976,
      "grad_norm": 0.38600870966911316,
      "learning_rate": 0.0005730223727590471,
      "loss": 2.6146,
      "step": 3670
    },
    {
      "epoch": 0.469888,
      "grad_norm": 0.3776249289512634,
      "learning_rate": 0.0005728172781649365,
      "loss": 2.6424,
      "step": 3671
    },
    {
      "epoch": 0.470016,
      "grad_norm": 0.4363081157207489,
      "learning_rate": 0.0005726121710526913,
      "loss": 2.6979,
      "step": 3672
    },
    {
      "epoch": 0.470144,
      "grad_norm": 0.3896949291229248,
      "learning_rate": 0.0005724070514575724,
      "loss": 2.6075,
      "step": 3673
    },
    {
      "epoch": 0.470272,
      "grad_norm": 0.39324456453323364,
      "learning_rate": 0.0005722019194148419,
      "loss": 2.6452,
      "step": 3674
    },
    {
      "epoch": 0.4704,
      "grad_norm": 0.4559200406074524,
      "learning_rate": 0.0005719967749597643,
      "loss": 2.5919,
      "step": 3675
    },
    {
      "epoch": 0.470528,
      "grad_norm": 0.40842458605766296,
      "learning_rate": 0.0005717916181276065,
      "loss": 2.6518,
      "step": 3676
    },
    {
      "epoch": 0.470656,
      "grad_norm": 0.4163628816604614,
      "learning_rate": 0.0005715864489536372,
      "loss": 2.754,
      "step": 3677
    },
    {
      "epoch": 0.470784,
      "grad_norm": 0.37108883261680603,
      "learning_rate": 0.0005713812674731276,
      "loss": 2.6084,
      "step": 3678
    },
    {
      "epoch": 0.470912,
      "grad_norm": 0.3751782774925232,
      "learning_rate": 0.0005711760737213504,
      "loss": 2.5502,
      "step": 3679
    },
    {
      "epoch": 0.47104,
      "grad_norm": 0.4051482379436493,
      "learning_rate": 0.000570970867733581,
      "loss": 2.7122,
      "step": 3680
    },
    {
      "epoch": 0.471168,
      "grad_norm": 0.42019036412239075,
      "learning_rate": 0.0005707656495450968,
      "loss": 2.5936,
      "step": 3681
    },
    {
      "epoch": 0.471296,
      "grad_norm": 0.38545817136764526,
      "learning_rate": 0.000570560419191177,
      "loss": 2.7008,
      "step": 3682
    },
    {
      "epoch": 0.471424,
      "grad_norm": 0.3744546175003052,
      "learning_rate": 0.000570355176707103,
      "loss": 2.6047,
      "step": 3683
    },
    {
      "epoch": 0.471552,
      "grad_norm": 0.39722639322280884,
      "learning_rate": 0.0005701499221281586,
      "loss": 2.6019,
      "step": 3684
    },
    {
      "epoch": 0.47168,
      "grad_norm": 0.39256271719932556,
      "learning_rate": 0.0005699446554896293,
      "loss": 2.7617,
      "step": 3685
    },
    {
      "epoch": 0.471808,
      "grad_norm": 0.41662055253982544,
      "learning_rate": 0.0005697393768268031,
      "loss": 2.6924,
      "step": 3686
    },
    {
      "epoch": 0.471936,
      "grad_norm": 0.37975960969924927,
      "learning_rate": 0.0005695340861749693,
      "loss": 2.5782,
      "step": 3687
    },
    {
      "epoch": 0.472064,
      "grad_norm": 0.3646472096443176,
      "learning_rate": 0.00056932878356942,
      "loss": 2.5383,
      "step": 3688
    },
    {
      "epoch": 0.472192,
      "grad_norm": 0.3942149877548218,
      "learning_rate": 0.0005691234690454491,
      "loss": 2.6966,
      "step": 3689
    },
    {
      "epoch": 0.47232,
      "grad_norm": 0.369044691324234,
      "learning_rate": 0.0005689181426383524,
      "loss": 2.6498,
      "step": 3690
    },
    {
      "epoch": 0.472448,
      "grad_norm": 0.3671371638774872,
      "learning_rate": 0.0005687128043834282,
      "loss": 2.5384,
      "step": 3691
    },
    {
      "epoch": 0.472576,
      "grad_norm": 0.4106040596961975,
      "learning_rate": 0.0005685074543159763,
      "loss": 2.7071,
      "step": 3692
    },
    {
      "epoch": 0.472704,
      "grad_norm": 0.40472865104675293,
      "learning_rate": 0.0005683020924712988,
      "loss": 2.626,
      "step": 3693
    },
    {
      "epoch": 0.472832,
      "grad_norm": 0.4073432981967926,
      "learning_rate": 0.0005680967188846996,
      "loss": 2.6895,
      "step": 3694
    },
    {
      "epoch": 0.47296,
      "grad_norm": 0.40610891580581665,
      "learning_rate": 0.0005678913335914851,
      "loss": 2.7329,
      "step": 3695
    },
    {
      "epoch": 0.473088,
      "grad_norm": 0.39328378438949585,
      "learning_rate": 0.0005676859366269634,
      "loss": 2.5826,
      "step": 3696
    },
    {
      "epoch": 0.473216,
      "grad_norm": 0.4029120206832886,
      "learning_rate": 0.0005674805280264445,
      "loss": 2.5817,
      "step": 3697
    },
    {
      "epoch": 0.473344,
      "grad_norm": 0.41663873195648193,
      "learning_rate": 0.0005672751078252403,
      "loss": 2.5556,
      "step": 3698
    },
    {
      "epoch": 0.473472,
      "grad_norm": 0.3965871334075928,
      "learning_rate": 0.0005670696760586653,
      "loss": 2.688,
      "step": 3699
    },
    {
      "epoch": 0.4736,
      "grad_norm": 0.3636292517185211,
      "learning_rate": 0.0005668642327620356,
      "loss": 2.513,
      "step": 3700
    },
    {
      "epoch": 0.473728,
      "grad_norm": 0.3865344524383545,
      "learning_rate": 0.000566658777970669,
      "loss": 2.5572,
      "step": 3701
    },
    {
      "epoch": 0.473856,
      "grad_norm": 0.39057186245918274,
      "learning_rate": 0.0005664533117198855,
      "loss": 2.5685,
      "step": 3702
    },
    {
      "epoch": 0.473984,
      "grad_norm": 0.4015074372291565,
      "learning_rate": 0.0005662478340450076,
      "loss": 2.4828,
      "step": 3703
    },
    {
      "epoch": 0.474112,
      "grad_norm": 0.3667350709438324,
      "learning_rate": 0.0005660423449813588,
      "loss": 2.69,
      "step": 3704
    },
    {
      "epoch": 0.47424,
      "grad_norm": 0.3807256519794464,
      "learning_rate": 0.0005658368445642654,
      "loss": 2.5634,
      "step": 3705
    },
    {
      "epoch": 0.474368,
      "grad_norm": 0.4129098653793335,
      "learning_rate": 0.0005656313328290553,
      "loss": 2.6287,
      "step": 3706
    },
    {
      "epoch": 0.474496,
      "grad_norm": 0.3785850405693054,
      "learning_rate": 0.000565425809811058,
      "loss": 2.6611,
      "step": 3707
    },
    {
      "epoch": 0.474624,
      "grad_norm": 0.4000265300273895,
      "learning_rate": 0.0005652202755456055,
      "loss": 2.7545,
      "step": 3708
    },
    {
      "epoch": 0.474752,
      "grad_norm": 0.3754281997680664,
      "learning_rate": 0.0005650147300680317,
      "loss": 2.5834,
      "step": 3709
    },
    {
      "epoch": 0.47488,
      "grad_norm": 0.36289793252944946,
      "learning_rate": 0.000564809173413672,
      "loss": 2.4896,
      "step": 3710
    },
    {
      "epoch": 0.475008,
      "grad_norm": 0.37125638127326965,
      "learning_rate": 0.000564603605617864,
      "loss": 2.6944,
      "step": 3711
    },
    {
      "epoch": 0.475136,
      "grad_norm": 0.3671199381351471,
      "learning_rate": 0.0005643980267159473,
      "loss": 2.7092,
      "step": 3712
    },
    {
      "epoch": 0.475264,
      "grad_norm": 0.4948898255825043,
      "learning_rate": 0.0005641924367432633,
      "loss": 2.7149,
      "step": 3713
    },
    {
      "epoch": 0.475392,
      "grad_norm": 0.3868890106678009,
      "learning_rate": 0.0005639868357351553,
      "loss": 2.4953,
      "step": 3714
    },
    {
      "epoch": 0.47552,
      "grad_norm": 0.39944079518318176,
      "learning_rate": 0.0005637812237269682,
      "loss": 2.7769,
      "step": 3715
    },
    {
      "epoch": 0.475648,
      "grad_norm": 0.3723052740097046,
      "learning_rate": 0.0005635756007540494,
      "loss": 2.7347,
      "step": 3716
    },
    {
      "epoch": 0.475776,
      "grad_norm": 0.3780210614204407,
      "learning_rate": 0.000563369966851748,
      "loss": 2.5888,
      "step": 3717
    },
    {
      "epoch": 0.475904,
      "grad_norm": 0.399615615606308,
      "learning_rate": 0.0005631643220554146,
      "loss": 2.6454,
      "step": 3718
    },
    {
      "epoch": 0.476032,
      "grad_norm": 0.3689610958099365,
      "learning_rate": 0.0005629586664004017,
      "loss": 2.6047,
      "step": 3719
    },
    {
      "epoch": 0.47616,
      "grad_norm": 0.40653982758522034,
      "learning_rate": 0.0005627529999220644,
      "loss": 2.5975,
      "step": 3720
    },
    {
      "epoch": 0.476288,
      "grad_norm": 0.392280250787735,
      "learning_rate": 0.0005625473226557588,
      "loss": 2.6054,
      "step": 3721
    },
    {
      "epoch": 0.476416,
      "grad_norm": 0.3740161657333374,
      "learning_rate": 0.0005623416346368434,
      "loss": 2.6006,
      "step": 3722
    },
    {
      "epoch": 0.476544,
      "grad_norm": 0.3765707015991211,
      "learning_rate": 0.0005621359359006783,
      "loss": 2.5429,
      "step": 3723
    },
    {
      "epoch": 0.476672,
      "grad_norm": 0.38604500889778137,
      "learning_rate": 0.0005619302264826255,
      "loss": 2.6159,
      "step": 3724
    },
    {
      "epoch": 0.4768,
      "grad_norm": 0.3943130075931549,
      "learning_rate": 0.0005617245064180488,
      "loss": 2.7497,
      "step": 3725
    },
    {
      "epoch": 0.476928,
      "grad_norm": 0.39410990476608276,
      "learning_rate": 0.0005615187757423137,
      "loss": 2.5592,
      "step": 3726
    },
    {
      "epoch": 0.477056,
      "grad_norm": 0.4215700328350067,
      "learning_rate": 0.0005613130344907881,
      "loss": 2.6049,
      "step": 3727
    },
    {
      "epoch": 0.477184,
      "grad_norm": 0.38488706946372986,
      "learning_rate": 0.0005611072826988409,
      "loss": 2.5787,
      "step": 3728
    },
    {
      "epoch": 0.477312,
      "grad_norm": 0.37232112884521484,
      "learning_rate": 0.0005609015204018435,
      "loss": 2.5564,
      "step": 3729
    },
    {
      "epoch": 0.47744,
      "grad_norm": 0.3664827346801758,
      "learning_rate": 0.0005606957476351687,
      "loss": 2.6801,
      "step": 3730
    },
    {
      "epoch": 0.477568,
      "grad_norm": 0.42260459065437317,
      "learning_rate": 0.0005604899644341911,
      "loss": 2.5633,
      "step": 3731
    },
    {
      "epoch": 0.477696,
      "grad_norm": 0.37085437774658203,
      "learning_rate": 0.0005602841708342876,
      "loss": 2.6101,
      "step": 3732
    },
    {
      "epoch": 0.477824,
      "grad_norm": 0.38805434107780457,
      "learning_rate": 0.000560078366870836,
      "loss": 2.7187,
      "step": 3733
    },
    {
      "epoch": 0.477952,
      "grad_norm": 0.3704133927822113,
      "learning_rate": 0.0005598725525792168,
      "loss": 2.6783,
      "step": 3734
    },
    {
      "epoch": 0.47808,
      "grad_norm": 0.3935752511024475,
      "learning_rate": 0.0005596667279948117,
      "loss": 2.7126,
      "step": 3735
    },
    {
      "epoch": 0.478208,
      "grad_norm": 0.37084993720054626,
      "learning_rate": 0.0005594608931530043,
      "loss": 2.5964,
      "step": 3736
    },
    {
      "epoch": 0.478336,
      "grad_norm": 0.3686709702014923,
      "learning_rate": 0.00055925504808918,
      "loss": 2.6288,
      "step": 3737
    },
    {
      "epoch": 0.478464,
      "grad_norm": 0.4101686477661133,
      "learning_rate": 0.0005590491928387262,
      "loss": 2.5956,
      "step": 3738
    },
    {
      "epoch": 0.478592,
      "grad_norm": 0.36282211542129517,
      "learning_rate": 0.0005588433274370313,
      "loss": 2.6275,
      "step": 3739
    },
    {
      "epoch": 0.47872,
      "grad_norm": 0.37147602438926697,
      "learning_rate": 0.0005586374519194864,
      "loss": 2.6544,
      "step": 3740
    },
    {
      "epoch": 0.478848,
      "grad_norm": 0.3950744569301605,
      "learning_rate": 0.0005584315663214836,
      "loss": 2.6672,
      "step": 3741
    },
    {
      "epoch": 0.478976,
      "grad_norm": 0.3831680715084076,
      "learning_rate": 0.0005582256706784173,
      "loss": 2.6563,
      "step": 3742
    },
    {
      "epoch": 0.479104,
      "grad_norm": 0.41393962502479553,
      "learning_rate": 0.0005580197650256832,
      "loss": 2.6104,
      "step": 3743
    },
    {
      "epoch": 0.479232,
      "grad_norm": 0.4117843508720398,
      "learning_rate": 0.0005578138493986788,
      "loss": 2.5914,
      "step": 3744
    },
    {
      "epoch": 0.47936,
      "grad_norm": 0.36824390292167664,
      "learning_rate": 0.0005576079238328034,
      "loss": 2.6666,
      "step": 3745
    },
    {
      "epoch": 0.479488,
      "grad_norm": 0.4002915620803833,
      "learning_rate": 0.0005574019883634583,
      "loss": 2.7547,
      "step": 3746
    },
    {
      "epoch": 0.479616,
      "grad_norm": 0.4778556823730469,
      "learning_rate": 0.0005571960430260457,
      "loss": 2.6008,
      "step": 3747
    },
    {
      "epoch": 0.479744,
      "grad_norm": 0.3592293858528137,
      "learning_rate": 0.0005569900878559704,
      "loss": 2.6715,
      "step": 3748
    },
    {
      "epoch": 0.479872,
      "grad_norm": 0.3998025357723236,
      "learning_rate": 0.0005567841228886381,
      "loss": 2.6234,
      "step": 3749
    },
    {
      "epoch": 0.48,
      "grad_norm": 0.3766220808029175,
      "learning_rate": 0.000556578148159457,
      "loss": 2.6309,
      "step": 3750
    },
    {
      "epoch": 0.480128,
      "grad_norm": 0.36742323637008667,
      "learning_rate": 0.0005563721637038362,
      "loss": 2.7229,
      "step": 3751
    },
    {
      "epoch": 0.480256,
      "grad_norm": 0.3873191177845001,
      "learning_rate": 0.000556166169557187,
      "loss": 2.7039,
      "step": 3752
    },
    {
      "epoch": 0.480384,
      "grad_norm": 0.37380924820899963,
      "learning_rate": 0.0005559601657549219,
      "loss": 2.6234,
      "step": 3753
    },
    {
      "epoch": 0.480512,
      "grad_norm": 0.3830651640892029,
      "learning_rate": 0.0005557541523324558,
      "loss": 2.6477,
      "step": 3754
    },
    {
      "epoch": 0.48064,
      "grad_norm": 0.4135077893733978,
      "learning_rate": 0.0005555481293252044,
      "loss": 2.6581,
      "step": 3755
    },
    {
      "epoch": 0.480768,
      "grad_norm": 0.38866037130355835,
      "learning_rate": 0.0005553420967685857,
      "loss": 2.6725,
      "step": 3756
    },
    {
      "epoch": 0.480896,
      "grad_norm": 0.4027523398399353,
      "learning_rate": 0.0005551360546980191,
      "loss": 2.6929,
      "step": 3757
    },
    {
      "epoch": 0.481024,
      "grad_norm": 0.3992672562599182,
      "learning_rate": 0.0005549300031489252,
      "loss": 2.6316,
      "step": 3758
    },
    {
      "epoch": 0.481152,
      "grad_norm": 0.3544047772884369,
      "learning_rate": 0.0005547239421567271,
      "loss": 2.6454,
      "step": 3759
    },
    {
      "epoch": 0.48128,
      "grad_norm": 0.3926546275615692,
      "learning_rate": 0.0005545178717568491,
      "loss": 2.5973,
      "step": 3760
    },
    {
      "epoch": 0.481408,
      "grad_norm": 0.36325159668922424,
      "learning_rate": 0.0005543117919847167,
      "loss": 2.6985,
      "step": 3761
    },
    {
      "epoch": 0.481536,
      "grad_norm": 0.42042669653892517,
      "learning_rate": 0.0005541057028757576,
      "loss": 2.6546,
      "step": 3762
    },
    {
      "epoch": 0.481664,
      "grad_norm": 0.3991534113883972,
      "learning_rate": 0.0005538996044654011,
      "loss": 2.638,
      "step": 3763
    },
    {
      "epoch": 0.481792,
      "grad_norm": 0.39223214983940125,
      "learning_rate": 0.0005536934967890777,
      "loss": 2.7165,
      "step": 3764
    },
    {
      "epoch": 0.48192,
      "grad_norm": 0.3919019103050232,
      "learning_rate": 0.0005534873798822196,
      "loss": 2.6503,
      "step": 3765
    },
    {
      "epoch": 0.482048,
      "grad_norm": 0.4045485258102417,
      "learning_rate": 0.0005532812537802611,
      "loss": 2.6109,
      "step": 3766
    },
    {
      "epoch": 0.482176,
      "grad_norm": 0.42712363600730896,
      "learning_rate": 0.0005530751185186372,
      "loss": 2.5959,
      "step": 3767
    },
    {
      "epoch": 0.482304,
      "grad_norm": 0.39218297600746155,
      "learning_rate": 0.000552868974132785,
      "loss": 2.6262,
      "step": 3768
    },
    {
      "epoch": 0.482432,
      "grad_norm": 0.4340432286262512,
      "learning_rate": 0.0005526628206581433,
      "loss": 2.7545,
      "step": 3769
    },
    {
      "epoch": 0.48256,
      "grad_norm": 0.3481922745704651,
      "learning_rate": 0.0005524566581301525,
      "loss": 2.565,
      "step": 3770
    },
    {
      "epoch": 0.482688,
      "grad_norm": 0.3873901069164276,
      "learning_rate": 0.0005522504865842537,
      "loss": 2.6085,
      "step": 3771
    },
    {
      "epoch": 0.482816,
      "grad_norm": 0.40691453218460083,
      "learning_rate": 0.0005520443060558906,
      "loss": 2.6497,
      "step": 3772
    },
    {
      "epoch": 0.482944,
      "grad_norm": 0.39974063634872437,
      "learning_rate": 0.000551838116580508,
      "loss": 2.7478,
      "step": 3773
    },
    {
      "epoch": 0.483072,
      "grad_norm": 0.3793131411075592,
      "learning_rate": 0.0005516319181935521,
      "loss": 2.5934,
      "step": 3774
    },
    {
      "epoch": 0.4832,
      "grad_norm": 0.3927115499973297,
      "learning_rate": 0.0005514257109304711,
      "loss": 2.5688,
      "step": 3775
    },
    {
      "epoch": 0.483328,
      "grad_norm": 0.4271009564399719,
      "learning_rate": 0.0005512194948267139,
      "loss": 2.6204,
      "step": 3776
    },
    {
      "epoch": 0.483456,
      "grad_norm": 0.5733142495155334,
      "learning_rate": 0.000551013269917732,
      "loss": 2.6728,
      "step": 3777
    },
    {
      "epoch": 0.483584,
      "grad_norm": 0.40188369154930115,
      "learning_rate": 0.0005508070362389776,
      "loss": 2.6458,
      "step": 3778
    },
    {
      "epoch": 0.483712,
      "grad_norm": 0.40659505128860474,
      "learning_rate": 0.0005506007938259045,
      "loss": 2.5724,
      "step": 3779
    },
    {
      "epoch": 0.48384,
      "grad_norm": 0.3774951100349426,
      "learning_rate": 0.0005503945427139684,
      "loss": 2.5337,
      "step": 3780
    },
    {
      "epoch": 0.483968,
      "grad_norm": 0.38287466764450073,
      "learning_rate": 0.0005501882829386263,
      "loss": 2.6035,
      "step": 3781
    },
    {
      "epoch": 0.484096,
      "grad_norm": 0.4652220606803894,
      "learning_rate": 0.0005499820145353363,
      "loss": 2.5972,
      "step": 3782
    },
    {
      "epoch": 0.484224,
      "grad_norm": 0.4164268672466278,
      "learning_rate": 0.0005497757375395588,
      "loss": 2.5874,
      "step": 3783
    },
    {
      "epoch": 0.484352,
      "grad_norm": 0.37812113761901855,
      "learning_rate": 0.0005495694519867549,
      "loss": 2.7075,
      "step": 3784
    },
    {
      "epoch": 0.48448,
      "grad_norm": 0.4142601788043976,
      "learning_rate": 0.0005493631579123876,
      "loss": 2.7174,
      "step": 3785
    },
    {
      "epoch": 0.484608,
      "grad_norm": 0.40716230869293213,
      "learning_rate": 0.000549156855351921,
      "loss": 2.6692,
      "step": 3786
    },
    {
      "epoch": 0.484736,
      "grad_norm": 0.36229580640792847,
      "learning_rate": 0.0005489505443408211,
      "loss": 2.6596,
      "step": 3787
    },
    {
      "epoch": 0.484864,
      "grad_norm": 0.3868725597858429,
      "learning_rate": 0.0005487442249145553,
      "loss": 2.6659,
      "step": 3788
    },
    {
      "epoch": 0.484992,
      "grad_norm": 0.37155458331108093,
      "learning_rate": 0.0005485378971085921,
      "loss": 2.6681,
      "step": 3789
    },
    {
      "epoch": 0.48512,
      "grad_norm": 0.4173206686973572,
      "learning_rate": 0.0005483315609584016,
      "loss": 2.4721,
      "step": 3790
    },
    {
      "epoch": 0.485248,
      "grad_norm": 0.361015647649765,
      "learning_rate": 0.0005481252164994554,
      "loss": 2.571,
      "step": 3791
    },
    {
      "epoch": 0.485376,
      "grad_norm": 0.3990127444267273,
      "learning_rate": 0.0005479188637672269,
      "loss": 2.7237,
      "step": 3792
    },
    {
      "epoch": 0.485504,
      "grad_norm": 0.40164119005203247,
      "learning_rate": 0.00054771250279719,
      "loss": 2.6762,
      "step": 3793
    },
    {
      "epoch": 0.485632,
      "grad_norm": 0.40827876329421997,
      "learning_rate": 0.0005475061336248207,
      "loss": 2.652,
      "step": 3794
    },
    {
      "epoch": 0.48576,
      "grad_norm": 0.35177069902420044,
      "learning_rate": 0.0005472997562855962,
      "loss": 2.5155,
      "step": 3795
    },
    {
      "epoch": 0.485888,
      "grad_norm": 0.36521637439727783,
      "learning_rate": 0.0005470933708149955,
      "loss": 2.6126,
      "step": 3796
    },
    {
      "epoch": 0.486016,
      "grad_norm": 0.403761625289917,
      "learning_rate": 0.0005468869772484982,
      "loss": 2.5816,
      "step": 3797
    },
    {
      "epoch": 0.486144,
      "grad_norm": 0.47385746240615845,
      "learning_rate": 0.000546680575621586,
      "loss": 2.5458,
      "step": 3798
    },
    {
      "epoch": 0.486272,
      "grad_norm": 0.41120094060897827,
      "learning_rate": 0.0005464741659697419,
      "loss": 2.6152,
      "step": 3799
    },
    {
      "epoch": 0.4864,
      "grad_norm": 0.43299609422683716,
      "learning_rate": 0.0005462677483284496,
      "loss": 2.6,
      "step": 3800
    },
    {
      "epoch": 0.486528,
      "grad_norm": 0.47687825560569763,
      "learning_rate": 0.000546061322733195,
      "loss": 2.662,
      "step": 3801
    },
    {
      "epoch": 0.486656,
      "grad_norm": 0.39109647274017334,
      "learning_rate": 0.0005458548892194651,
      "loss": 2.5897,
      "step": 3802
    },
    {
      "epoch": 0.486784,
      "grad_norm": 0.3729430139064789,
      "learning_rate": 0.0005456484478227482,
      "loss": 2.6096,
      "step": 3803
    },
    {
      "epoch": 0.486912,
      "grad_norm": 0.3624977469444275,
      "learning_rate": 0.0005454419985785339,
      "loss": 2.6163,
      "step": 3804
    },
    {
      "epoch": 0.48704,
      "grad_norm": 0.38213756680488586,
      "learning_rate": 0.0005452355415223131,
      "loss": 2.6437,
      "step": 3805
    },
    {
      "epoch": 0.487168,
      "grad_norm": 0.4243778586387634,
      "learning_rate": 0.0005450290766895786,
      "loss": 2.6783,
      "step": 3806
    },
    {
      "epoch": 0.487296,
      "grad_norm": 0.3676099479198456,
      "learning_rate": 0.0005448226041158236,
      "loss": 2.5564,
      "step": 3807
    },
    {
      "epoch": 0.487424,
      "grad_norm": 0.44796842336654663,
      "learning_rate": 0.0005446161238365433,
      "loss": 2.6553,
      "step": 3808
    },
    {
      "epoch": 0.487552,
      "grad_norm": 0.42916005849838257,
      "learning_rate": 0.0005444096358872341,
      "loss": 2.6377,
      "step": 3809
    },
    {
      "epoch": 0.48768,
      "grad_norm": 0.37067654728889465,
      "learning_rate": 0.0005442031403033937,
      "loss": 2.492,
      "step": 3810
    },
    {
      "epoch": 0.487808,
      "grad_norm": 0.37159666419029236,
      "learning_rate": 0.0005439966371205209,
      "loss": 2.4925,
      "step": 3811
    },
    {
      "epoch": 0.487936,
      "grad_norm": 0.4498804807662964,
      "learning_rate": 0.0005437901263741163,
      "loss": 2.5868,
      "step": 3812
    },
    {
      "epoch": 0.488064,
      "grad_norm": 0.44665923714637756,
      "learning_rate": 0.0005435836080996812,
      "loss": 2.5746,
      "step": 3813
    },
    {
      "epoch": 0.488192,
      "grad_norm": 0.40607401728630066,
      "learning_rate": 0.0005433770823327186,
      "loss": 2.7344,
      "step": 3814
    },
    {
      "epoch": 0.48832,
      "grad_norm": 0.37597641348838806,
      "learning_rate": 0.0005431705491087326,
      "loss": 2.6519,
      "step": 3815
    },
    {
      "epoch": 0.488448,
      "grad_norm": 0.39172112941741943,
      "learning_rate": 0.000542964008463229,
      "loss": 2.5325,
      "step": 3816
    },
    {
      "epoch": 0.488576,
      "grad_norm": 0.3664885461330414,
      "learning_rate": 0.0005427574604317142,
      "loss": 2.577,
      "step": 3817
    },
    {
      "epoch": 0.488704,
      "grad_norm": 0.3715900182723999,
      "learning_rate": 0.000542550905049696,
      "loss": 2.5695,
      "step": 3818
    },
    {
      "epoch": 0.488832,
      "grad_norm": 0.39146822690963745,
      "learning_rate": 0.0005423443423526841,
      "loss": 2.6405,
      "step": 3819
    },
    {
      "epoch": 0.48896,
      "grad_norm": 0.43332383036613464,
      "learning_rate": 0.000542137772376189,
      "loss": 2.7043,
      "step": 3820
    },
    {
      "epoch": 0.489088,
      "grad_norm": 0.41525304317474365,
      "learning_rate": 0.0005419311951557221,
      "loss": 2.6376,
      "step": 3821
    },
    {
      "epoch": 0.489216,
      "grad_norm": 0.3882737457752228,
      "learning_rate": 0.0005417246107267968,
      "loss": 2.6232,
      "step": 3822
    },
    {
      "epoch": 0.489344,
      "grad_norm": 0.4355303943157196,
      "learning_rate": 0.0005415180191249271,
      "loss": 2.6091,
      "step": 3823
    },
    {
      "epoch": 0.489472,
      "grad_norm": 0.3970772624015808,
      "learning_rate": 0.0005413114203856286,
      "loss": 2.5914,
      "step": 3824
    },
    {
      "epoch": 0.4896,
      "grad_norm": 0.5004489421844482,
      "learning_rate": 0.0005411048145444182,
      "loss": 2.6526,
      "step": 3825
    },
    {
      "epoch": 0.489728,
      "grad_norm": 0.4134780466556549,
      "learning_rate": 0.0005408982016368133,
      "loss": 2.593,
      "step": 3826
    },
    {
      "epoch": 0.489856,
      "grad_norm": 0.3894365429878235,
      "learning_rate": 0.0005406915816983336,
      "loss": 2.5992,
      "step": 3827
    },
    {
      "epoch": 0.489984,
      "grad_norm": 0.43775761127471924,
      "learning_rate": 0.0005404849547644994,
      "loss": 2.5782,
      "step": 3828
    },
    {
      "epoch": 0.490112,
      "grad_norm": 0.40331390500068665,
      "learning_rate": 0.0005402783208708319,
      "loss": 2.5687,
      "step": 3829
    },
    {
      "epoch": 0.49024,
      "grad_norm": 0.3636743426322937,
      "learning_rate": 0.0005400716800528542,
      "loss": 2.6331,
      "step": 3830
    },
    {
      "epoch": 0.490368,
      "grad_norm": 0.3519919812679291,
      "learning_rate": 0.0005398650323460903,
      "loss": 2.6636,
      "step": 3831
    },
    {
      "epoch": 0.490496,
      "grad_norm": 0.3599845767021179,
      "learning_rate": 0.000539658377786065,
      "loss": 2.6682,
      "step": 3832
    },
    {
      "epoch": 0.490624,
      "grad_norm": 0.3830300569534302,
      "learning_rate": 0.0005394517164083047,
      "loss": 2.6423,
      "step": 3833
    },
    {
      "epoch": 0.490752,
      "grad_norm": 0.35738658905029297,
      "learning_rate": 0.0005392450482483372,
      "loss": 2.6097,
      "step": 3834
    },
    {
      "epoch": 0.49088,
      "grad_norm": 0.36987724900245667,
      "learning_rate": 0.0005390383733416909,
      "loss": 2.5505,
      "step": 3835
    },
    {
      "epoch": 0.491008,
      "grad_norm": 0.3832595646381378,
      "learning_rate": 0.0005388316917238955,
      "loss": 2.6392,
      "step": 3836
    },
    {
      "epoch": 0.491136,
      "grad_norm": 0.4021003544330597,
      "learning_rate": 0.0005386250034304823,
      "loss": 2.6748,
      "step": 3837
    },
    {
      "epoch": 0.491264,
      "grad_norm": 0.3816377818584442,
      "learning_rate": 0.0005384183084969831,
      "loss": 2.699,
      "step": 3838
    },
    {
      "epoch": 0.491392,
      "grad_norm": 0.4263595938682556,
      "learning_rate": 0.0005382116069589315,
      "loss": 2.672,
      "step": 3839
    },
    {
      "epoch": 0.49152,
      "grad_norm": 0.3798646628856659,
      "learning_rate": 0.0005380048988518613,
      "loss": 2.5811,
      "step": 3840
    },
    {
      "epoch": 0.491648,
      "grad_norm": 0.4240492582321167,
      "learning_rate": 0.0005377981842113087,
      "loss": 2.6915,
      "step": 3841
    },
    {
      "epoch": 0.491776,
      "grad_norm": 0.3676740229129791,
      "learning_rate": 0.0005375914630728099,
      "loss": 2.6832,
      "step": 3842
    },
    {
      "epoch": 0.491904,
      "grad_norm": 0.3657926619052887,
      "learning_rate": 0.0005373847354719029,
      "loss": 2.6333,
      "step": 3843
    },
    {
      "epoch": 0.492032,
      "grad_norm": 0.4023323655128479,
      "learning_rate": 0.0005371780014441264,
      "loss": 2.6128,
      "step": 3844
    },
    {
      "epoch": 0.49216,
      "grad_norm": 0.40814992785453796,
      "learning_rate": 0.0005369712610250206,
      "loss": 2.5483,
      "step": 3845
    },
    {
      "epoch": 0.492288,
      "grad_norm": 0.35638460516929626,
      "learning_rate": 0.0005367645142501262,
      "loss": 2.6336,
      "step": 3846
    },
    {
      "epoch": 0.492416,
      "grad_norm": 0.3693545460700989,
      "learning_rate": 0.0005365577611549855,
      "loss": 2.5231,
      "step": 3847
    },
    {
      "epoch": 0.492544,
      "grad_norm": 0.3659234642982483,
      "learning_rate": 0.0005363510017751422,
      "loss": 2.5941,
      "step": 3848
    },
    {
      "epoch": 0.492672,
      "grad_norm": 0.35055533051490784,
      "learning_rate": 0.0005361442361461402,
      "loss": 2.6239,
      "step": 3849
    },
    {
      "epoch": 0.4928,
      "grad_norm": 0.39830997586250305,
      "learning_rate": 0.0005359374643035248,
      "loss": 2.6653,
      "step": 3850
    },
    {
      "epoch": 0.492928,
      "grad_norm": 0.3578954041004181,
      "learning_rate": 0.0005357306862828427,
      "loss": 2.6816,
      "step": 3851
    },
    {
      "epoch": 0.493056,
      "grad_norm": 0.43540871143341064,
      "learning_rate": 0.0005355239021196416,
      "loss": 2.6019,
      "step": 3852
    },
    {
      "epoch": 0.493184,
      "grad_norm": 0.38845235109329224,
      "learning_rate": 0.0005353171118494698,
      "loss": 2.5519,
      "step": 3853
    },
    {
      "epoch": 0.493312,
      "grad_norm": 0.3557966947555542,
      "learning_rate": 0.0005351103155078768,
      "loss": 2.5178,
      "step": 3854
    },
    {
      "epoch": 0.49344,
      "grad_norm": 0.3995322287082672,
      "learning_rate": 0.0005349035131304138,
      "loss": 2.4423,
      "step": 3855
    },
    {
      "epoch": 0.493568,
      "grad_norm": 0.38097476959228516,
      "learning_rate": 0.0005346967047526321,
      "loss": 2.6749,
      "step": 3856
    },
    {
      "epoch": 0.493696,
      "grad_norm": 0.3809741139411926,
      "learning_rate": 0.0005344898904100848,
      "loss": 2.6337,
      "step": 3857
    },
    {
      "epoch": 0.493824,
      "grad_norm": 0.38429608941078186,
      "learning_rate": 0.0005342830701383254,
      "loss": 2.5759,
      "step": 3858
    },
    {
      "epoch": 0.493952,
      "grad_norm": 0.44948136806488037,
      "learning_rate": 0.0005340762439729088,
      "loss": 2.6381,
      "step": 3859
    },
    {
      "epoch": 0.49408,
      "grad_norm": 0.3511051535606384,
      "learning_rate": 0.0005338694119493908,
      "loss": 2.5984,
      "step": 3860
    },
    {
      "epoch": 0.494208,
      "grad_norm": 0.38714441657066345,
      "learning_rate": 0.0005336625741033283,
      "loss": 2.568,
      "step": 3861
    },
    {
      "epoch": 0.494336,
      "grad_norm": 0.38414159417152405,
      "learning_rate": 0.0005334557304702789,
      "loss": 2.608,
      "step": 3862
    },
    {
      "epoch": 0.494464,
      "grad_norm": 0.37592190504074097,
      "learning_rate": 0.0005332488810858017,
      "loss": 2.6388,
      "step": 3863
    },
    {
      "epoch": 0.494592,
      "grad_norm": 0.3787546455860138,
      "learning_rate": 0.0005330420259854564,
      "loss": 2.6366,
      "step": 3864
    },
    {
      "epoch": 0.49472,
      "grad_norm": 0.3551507890224457,
      "learning_rate": 0.0005328351652048037,
      "loss": 2.7143,
      "step": 3865
    },
    {
      "epoch": 0.494848,
      "grad_norm": 0.39888814091682434,
      "learning_rate": 0.0005326282987794056,
      "loss": 2.646,
      "step": 3866
    },
    {
      "epoch": 0.494976,
      "grad_norm": 0.4802153408527374,
      "learning_rate": 0.0005324214267448245,
      "loss": 2.6117,
      "step": 3867
    },
    {
      "epoch": 0.495104,
      "grad_norm": 0.39556756615638733,
      "learning_rate": 0.0005322145491366243,
      "loss": 2.5409,
      "step": 3868
    },
    {
      "epoch": 0.495232,
      "grad_norm": 0.3684558868408203,
      "learning_rate": 0.0005320076659903698,
      "loss": 2.618,
      "step": 3869
    },
    {
      "epoch": 0.49536,
      "grad_norm": 0.3686126470565796,
      "learning_rate": 0.0005318007773416263,
      "loss": 2.5726,
      "step": 3870
    },
    {
      "epoch": 0.495488,
      "grad_norm": 0.3798137307167053,
      "learning_rate": 0.0005315938832259606,
      "loss": 2.5856,
      "step": 3871
    },
    {
      "epoch": 0.495616,
      "grad_norm": 0.395497590303421,
      "learning_rate": 0.00053138698367894,
      "loss": 2.5652,
      "step": 3872
    },
    {
      "epoch": 0.495744,
      "grad_norm": 0.36694249510765076,
      "learning_rate": 0.0005311800787361332,
      "loss": 2.6685,
      "step": 3873
    },
    {
      "epoch": 0.495872,
      "grad_norm": 0.3766453266143799,
      "learning_rate": 0.0005309731684331093,
      "loss": 2.6673,
      "step": 3874
    },
    {
      "epoch": 0.496,
      "grad_norm": 0.37729117274284363,
      "learning_rate": 0.0005307662528054387,
      "loss": 2.6726,
      "step": 3875
    },
    {
      "epoch": 0.496128,
      "grad_norm": 0.386329710483551,
      "learning_rate": 0.0005305593318886924,
      "loss": 2.698,
      "step": 3876
    },
    {
      "epoch": 0.496256,
      "grad_norm": 0.3825506269931793,
      "learning_rate": 0.0005303524057184429,
      "loss": 2.6334,
      "step": 3877
    },
    {
      "epoch": 0.496384,
      "grad_norm": 0.3729105591773987,
      "learning_rate": 0.0005301454743302629,
      "loss": 2.5978,
      "step": 3878
    },
    {
      "epoch": 0.496512,
      "grad_norm": 0.37100982666015625,
      "learning_rate": 0.0005299385377597265,
      "loss": 2.6125,
      "step": 3879
    },
    {
      "epoch": 0.49664,
      "grad_norm": 0.39469438791275024,
      "learning_rate": 0.0005297315960424081,
      "loss": 2.5872,
      "step": 3880
    },
    {
      "epoch": 0.496768,
      "grad_norm": 0.3960234820842743,
      "learning_rate": 0.0005295246492138839,
      "loss": 2.5719,
      "step": 3881
    },
    {
      "epoch": 0.496896,
      "grad_norm": 0.3494027256965637,
      "learning_rate": 0.0005293176973097302,
      "loss": 2.6415,
      "step": 3882
    },
    {
      "epoch": 0.497024,
      "grad_norm": 0.406648188829422,
      "learning_rate": 0.0005291107403655242,
      "loss": 2.6393,
      "step": 3883
    },
    {
      "epoch": 0.497152,
      "grad_norm": 0.3988584280014038,
      "learning_rate": 0.0005289037784168448,
      "loss": 2.6793,
      "step": 3884
    },
    {
      "epoch": 0.49728,
      "grad_norm": 0.37770017981529236,
      "learning_rate": 0.0005286968114992706,
      "loss": 2.5925,
      "step": 3885
    },
    {
      "epoch": 0.497408,
      "grad_norm": 0.40190887451171875,
      "learning_rate": 0.0005284898396483819,
      "loss": 2.6575,
      "step": 3886
    },
    {
      "epoch": 0.497536,
      "grad_norm": 0.38567307591438293,
      "learning_rate": 0.0005282828628997595,
      "loss": 2.7456,
      "step": 3887
    },
    {
      "epoch": 0.497664,
      "grad_norm": 0.387592613697052,
      "learning_rate": 0.000528075881288985,
      "loss": 2.602,
      "step": 3888
    },
    {
      "epoch": 0.497792,
      "grad_norm": 0.35809260606765747,
      "learning_rate": 0.0005278688948516412,
      "loss": 2.5179,
      "step": 3889
    },
    {
      "epoch": 0.49792,
      "grad_norm": 0.3795519471168518,
      "learning_rate": 0.0005276619036233111,
      "loss": 2.5676,
      "step": 3890
    },
    {
      "epoch": 0.498048,
      "grad_norm": 0.37056198716163635,
      "learning_rate": 0.0005274549076395792,
      "loss": 2.6068,
      "step": 3891
    },
    {
      "epoch": 0.498176,
      "grad_norm": 0.41366320848464966,
      "learning_rate": 0.0005272479069360302,
      "loss": 2.618,
      "step": 3892
    },
    {
      "epoch": 0.498304,
      "grad_norm": 0.4201876223087311,
      "learning_rate": 0.0005270409015482503,
      "loss": 2.7312,
      "step": 3893
    },
    {
      "epoch": 0.498432,
      "grad_norm": 0.3933657109737396,
      "learning_rate": 0.0005268338915118258,
      "loss": 2.7176,
      "step": 3894
    },
    {
      "epoch": 0.49856,
      "grad_norm": 0.4112618565559387,
      "learning_rate": 0.0005266268768623444,
      "loss": 2.6195,
      "step": 3895
    },
    {
      "epoch": 0.498688,
      "grad_norm": 0.3710991442203522,
      "learning_rate": 0.0005264198576353942,
      "loss": 2.662,
      "step": 3896
    },
    {
      "epoch": 0.498816,
      "grad_norm": 0.36516469717025757,
      "learning_rate": 0.0005262128338665641,
      "loss": 2.707,
      "step": 3897
    },
    {
      "epoch": 0.498944,
      "grad_norm": 0.3941717743873596,
      "learning_rate": 0.000526005805591444,
      "loss": 2.5518,
      "step": 3898
    },
    {
      "epoch": 0.499072,
      "grad_norm": 0.44091489911079407,
      "learning_rate": 0.0005257987728456244,
      "loss": 2.6548,
      "step": 3899
    },
    {
      "epoch": 0.4992,
      "grad_norm": 0.38468411564826965,
      "learning_rate": 0.0005255917356646968,
      "loss": 2.4989,
      "step": 3900
    },
    {
      "epoch": 0.499328,
      "grad_norm": 0.3803817331790924,
      "learning_rate": 0.0005253846940842528,
      "loss": 2.7062,
      "step": 3901
    },
    {
      "epoch": 0.499456,
      "grad_norm": 0.3958015441894531,
      "learning_rate": 0.000525177648139886,
      "loss": 2.6947,
      "step": 3902
    },
    {
      "epoch": 0.499584,
      "grad_norm": 0.3827761709690094,
      "learning_rate": 0.0005249705978671895,
      "loss": 2.6155,
      "step": 3903
    },
    {
      "epoch": 0.499712,
      "grad_norm": 0.3863563537597656,
      "learning_rate": 0.0005247635433017576,
      "loss": 2.6634,
      "step": 3904
    },
    {
      "epoch": 0.49984,
      "grad_norm": 0.34798020124435425,
      "learning_rate": 0.0005245564844791857,
      "loss": 2.6251,
      "step": 3905
    },
    {
      "epoch": 0.499968,
      "grad_norm": 0.357247531414032,
      "learning_rate": 0.0005243494214350693,
      "loss": 2.5071,
      "step": 3906
    },
    {
      "epoch": 0.500096,
      "grad_norm": 0.3503974974155426,
      "learning_rate": 0.0005241423542050051,
      "loss": 2.6085,
      "step": 3907
    },
    {
      "epoch": 0.500224,
      "grad_norm": 0.3867042064666748,
      "learning_rate": 0.0005239352828245904,
      "loss": 2.7067,
      "step": 3908
    },
    {
      "epoch": 0.500352,
      "grad_norm": 0.385176420211792,
      "learning_rate": 0.000523728207329423,
      "loss": 2.617,
      "step": 3909
    },
    {
      "epoch": 0.50048,
      "grad_norm": 0.4069683849811554,
      "learning_rate": 0.0005235211277551018,
      "loss": 2.6216,
      "step": 3910
    },
    {
      "epoch": 0.500608,
      "grad_norm": 0.3789367973804474,
      "learning_rate": 0.000523314044137226,
      "loss": 2.6294,
      "step": 3911
    },
    {
      "epoch": 0.500736,
      "grad_norm": 0.4033629596233368,
      "learning_rate": 0.0005231069565113957,
      "loss": 2.5708,
      "step": 3912
    },
    {
      "epoch": 0.500864,
      "grad_norm": 0.385093629360199,
      "learning_rate": 0.0005228998649132118,
      "loss": 2.6422,
      "step": 3913
    },
    {
      "epoch": 0.500992,
      "grad_norm": 0.4164850413799286,
      "learning_rate": 0.0005226927693782754,
      "loss": 2.6584,
      "step": 3914
    },
    {
      "epoch": 0.50112,
      "grad_norm": 0.404680073261261,
      "learning_rate": 0.0005224856699421889,
      "loss": 2.7742,
      "step": 3915
    },
    {
      "epoch": 0.501248,
      "grad_norm": 0.428194522857666,
      "learning_rate": 0.0005222785666405553,
      "loss": 2.5452,
      "step": 3916
    },
    {
      "epoch": 0.501376,
      "grad_norm": 0.35512056946754456,
      "learning_rate": 0.0005220714595089777,
      "loss": 2.544,
      "step": 3917
    },
    {
      "epoch": 0.501504,
      "grad_norm": 0.367166668176651,
      "learning_rate": 0.0005218643485830605,
      "loss": 2.6054,
      "step": 3918
    },
    {
      "epoch": 0.501632,
      "grad_norm": 0.41396158933639526,
      "learning_rate": 0.000521657233898408,
      "loss": 2.571,
      "step": 3919
    },
    {
      "epoch": 0.50176,
      "grad_norm": 0.40899401903152466,
      "learning_rate": 0.0005214501154906261,
      "loss": 2.5675,
      "step": 3920
    },
    {
      "epoch": 0.501888,
      "grad_norm": 0.36322021484375,
      "learning_rate": 0.0005212429933953206,
      "loss": 2.6278,
      "step": 3921
    },
    {
      "epoch": 0.502016,
      "grad_norm": 0.3903779089450836,
      "learning_rate": 0.0005210358676480983,
      "loss": 2.641,
      "step": 3922
    },
    {
      "epoch": 0.502144,
      "grad_norm": 0.37758395075798035,
      "learning_rate": 0.0005208287382845666,
      "loss": 2.5627,
      "step": 3923
    },
    {
      "epoch": 0.502272,
      "grad_norm": 0.3693563938140869,
      "learning_rate": 0.0005206216053403333,
      "loss": 2.6344,
      "step": 3924
    },
    {
      "epoch": 0.5024,
      "grad_norm": 0.3774511516094208,
      "learning_rate": 0.0005204144688510068,
      "loss": 2.5747,
      "step": 3925
    },
    {
      "epoch": 0.502528,
      "grad_norm": 0.3992452323436737,
      "learning_rate": 0.0005202073288521964,
      "loss": 2.601,
      "step": 3926
    },
    {
      "epoch": 0.502656,
      "grad_norm": 0.35878118872642517,
      "learning_rate": 0.0005200001853795123,
      "loss": 2.6642,
      "step": 3927
    },
    {
      "epoch": 0.502784,
      "grad_norm": 0.34354618191719055,
      "learning_rate": 0.0005197930384685642,
      "loss": 2.482,
      "step": 3928
    },
    {
      "epoch": 0.502912,
      "grad_norm": 0.3752889037132263,
      "learning_rate": 0.0005195858881549632,
      "loss": 2.7538,
      "step": 3929
    },
    {
      "epoch": 0.50304,
      "grad_norm": 0.395161896944046,
      "learning_rate": 0.000519378734474321,
      "loss": 2.5737,
      "step": 3930
    },
    {
      "epoch": 0.503168,
      "grad_norm": 0.3806013762950897,
      "learning_rate": 0.0005191715774622499,
      "loss": 2.7411,
      "step": 3931
    },
    {
      "epoch": 0.503296,
      "grad_norm": 0.3770640194416046,
      "learning_rate": 0.0005189644171543624,
      "loss": 2.5954,
      "step": 3932
    },
    {
      "epoch": 0.503424,
      "grad_norm": 0.3385133743286133,
      "learning_rate": 0.0005187572535862715,
      "loss": 2.6385,
      "step": 3933
    },
    {
      "epoch": 0.503552,
      "grad_norm": 0.3841993808746338,
      "learning_rate": 0.0005185500867935913,
      "loss": 2.5291,
      "step": 3934
    },
    {
      "epoch": 0.50368,
      "grad_norm": 0.3456437587738037,
      "learning_rate": 0.0005183429168119362,
      "loss": 2.6124,
      "step": 3935
    },
    {
      "epoch": 0.503808,
      "grad_norm": 0.35913586616516113,
      "learning_rate": 0.000518135743676921,
      "loss": 2.6157,
      "step": 3936
    },
    {
      "epoch": 0.503936,
      "grad_norm": 0.364360511302948,
      "learning_rate": 0.0005179285674241614,
      "loss": 2.6479,
      "step": 3937
    },
    {
      "epoch": 0.504064,
      "grad_norm": 0.3599703311920166,
      "learning_rate": 0.0005177213880892729,
      "loss": 2.653,
      "step": 3938
    },
    {
      "epoch": 0.504192,
      "grad_norm": 0.40323546528816223,
      "learning_rate": 0.0005175142057078727,
      "loss": 2.6296,
      "step": 3939
    },
    {
      "epoch": 0.50432,
      "grad_norm": 0.36175480484962463,
      "learning_rate": 0.0005173070203155772,
      "loss": 2.6419,
      "step": 3940
    },
    {
      "epoch": 0.504448,
      "grad_norm": 0.37074199318885803,
      "learning_rate": 0.0005170998319480043,
      "loss": 2.553,
      "step": 3941
    },
    {
      "epoch": 0.504576,
      "grad_norm": 0.392461359500885,
      "learning_rate": 0.0005168926406407722,
      "loss": 2.601,
      "step": 3942
    },
    {
      "epoch": 0.504704,
      "grad_norm": 0.38309821486473083,
      "learning_rate": 0.0005166854464294993,
      "loss": 2.5927,
      "step": 3943
    },
    {
      "epoch": 0.504832,
      "grad_norm": 0.3792043924331665,
      "learning_rate": 0.0005164782493498046,
      "loss": 2.6561,
      "step": 3944
    },
    {
      "epoch": 0.50496,
      "grad_norm": 0.3938274085521698,
      "learning_rate": 0.000516271049437308,
      "loss": 2.5429,
      "step": 3945
    },
    {
      "epoch": 0.505088,
      "grad_norm": 0.4129064977169037,
      "learning_rate": 0.0005160638467276293,
      "loss": 2.5204,
      "step": 3946
    },
    {
      "epoch": 0.505216,
      "grad_norm": 0.38081082701683044,
      "learning_rate": 0.000515856641256389,
      "loss": 2.6711,
      "step": 3947
    },
    {
      "epoch": 0.505344,
      "grad_norm": 0.4661124348640442,
      "learning_rate": 0.0005156494330592083,
      "loss": 2.6152,
      "step": 3948
    },
    {
      "epoch": 0.505472,
      "grad_norm": 0.4030855894088745,
      "learning_rate": 0.0005154422221717086,
      "loss": 2.7314,
      "step": 3949
    },
    {
      "epoch": 0.5056,
      "grad_norm": 0.3724774122238159,
      "learning_rate": 0.0005152350086295121,
      "loss": 2.5051,
      "step": 3950
    },
    {
      "epoch": 0.505728,
      "grad_norm": 0.3819679617881775,
      "learning_rate": 0.0005150277924682408,
      "loss": 2.6537,
      "step": 3951
    },
    {
      "epoch": 0.505856,
      "grad_norm": 0.36357352137565613,
      "learning_rate": 0.0005148205737235177,
      "loss": 2.5992,
      "step": 3952
    },
    {
      "epoch": 0.505984,
      "grad_norm": 0.3557075262069702,
      "learning_rate": 0.0005146133524309664,
      "loss": 2.6434,
      "step": 3953
    },
    {
      "epoch": 0.506112,
      "grad_norm": 0.3866260051727295,
      "learning_rate": 0.0005144061286262102,
      "loss": 2.6664,
      "step": 3954
    },
    {
      "epoch": 0.50624,
      "grad_norm": 0.39690566062927246,
      "learning_rate": 0.0005141989023448735,
      "loss": 2.5382,
      "step": 3955
    },
    {
      "epoch": 0.506368,
      "grad_norm": 0.3697262406349182,
      "learning_rate": 0.000513991673622581,
      "loss": 2.658,
      "step": 3956
    },
    {
      "epoch": 0.506496,
      "grad_norm": 0.388462096452713,
      "learning_rate": 0.0005137844424949575,
      "loss": 2.6219,
      "step": 3957
    },
    {
      "epoch": 0.506624,
      "grad_norm": 0.37011638283729553,
      "learning_rate": 0.0005135772089976285,
      "loss": 2.5259,
      "step": 3958
    },
    {
      "epoch": 0.506752,
      "grad_norm": 0.3984116017818451,
      "learning_rate": 0.00051336997316622,
      "loss": 2.6192,
      "step": 3959
    },
    {
      "epoch": 0.50688,
      "grad_norm": 0.3695357143878937,
      "learning_rate": 0.0005131627350363581,
      "loss": 2.6541,
      "step": 3960
    },
    {
      "epoch": 0.507008,
      "grad_norm": 0.38902541995048523,
      "learning_rate": 0.0005129554946436694,
      "loss": 2.5154,
      "step": 3961
    },
    {
      "epoch": 0.507136,
      "grad_norm": 0.5261781811714172,
      "learning_rate": 0.0005127482520237808,
      "loss": 2.6577,
      "step": 3962
    },
    {
      "epoch": 0.507264,
      "grad_norm": 0.39468517899513245,
      "learning_rate": 0.0005125410072123202,
      "loss": 2.7258,
      "step": 3963
    },
    {
      "epoch": 0.507392,
      "grad_norm": 0.3812108337879181,
      "learning_rate": 0.000512333760244915,
      "loss": 2.7453,
      "step": 3964
    },
    {
      "epoch": 0.50752,
      "grad_norm": 0.5728570818901062,
      "learning_rate": 0.0005121265111571933,
      "loss": 2.6748,
      "step": 3965
    },
    {
      "epoch": 0.507648,
      "grad_norm": 0.3690553307533264,
      "learning_rate": 0.0005119192599847837,
      "loss": 2.5895,
      "step": 3966
    },
    {
      "epoch": 0.507776,
      "grad_norm": 0.3695642054080963,
      "learning_rate": 0.0005117120067633153,
      "loss": 2.7894,
      "step": 3967
    },
    {
      "epoch": 0.507904,
      "grad_norm": 0.3730148375034332,
      "learning_rate": 0.0005115047515284173,
      "loss": 2.6306,
      "step": 3968
    },
    {
      "epoch": 0.508032,
      "grad_norm": 0.3844607472419739,
      "learning_rate": 0.0005112974943157189,
      "loss": 2.5138,
      "step": 3969
    },
    {
      "epoch": 0.50816,
      "grad_norm": 0.39690104126930237,
      "learning_rate": 0.0005110902351608503,
      "loss": 2.4166,
      "step": 3970
    },
    {
      "epoch": 0.508288,
      "grad_norm": 0.3870917856693268,
      "learning_rate": 0.0005108829740994417,
      "loss": 2.5623,
      "step": 3971
    },
    {
      "epoch": 0.508416,
      "grad_norm": 0.38376283645629883,
      "learning_rate": 0.0005106757111671235,
      "loss": 2.5654,
      "step": 3972
    },
    {
      "epoch": 0.508544,
      "grad_norm": 0.38450679183006287,
      "learning_rate": 0.0005104684463995271,
      "loss": 2.6384,
      "step": 3973
    },
    {
      "epoch": 0.508672,
      "grad_norm": 0.3778146505355835,
      "learning_rate": 0.0005102611798322833,
      "loss": 2.7293,
      "step": 3974
    },
    {
      "epoch": 0.5088,
      "grad_norm": 0.43120402097702026,
      "learning_rate": 0.0005100539115010236,
      "loss": 2.5314,
      "step": 3975
    },
    {
      "epoch": 0.508928,
      "grad_norm": 0.4215337634086609,
      "learning_rate": 0.00050984664144138,
      "loss": 2.5853,
      "step": 3976
    },
    {
      "epoch": 0.509056,
      "grad_norm": 0.4048457741737366,
      "learning_rate": 0.0005096393696889847,
      "loss": 2.5869,
      "step": 3977
    },
    {
      "epoch": 0.509184,
      "grad_norm": 0.42534151673316956,
      "learning_rate": 0.0005094320962794701,
      "loss": 2.5923,
      "step": 3978
    },
    {
      "epoch": 0.509312,
      "grad_norm": 0.3948453962802887,
      "learning_rate": 0.0005092248212484686,
      "loss": 2.6991,
      "step": 3979
    },
    {
      "epoch": 0.50944,
      "grad_norm": 0.3698136508464813,
      "learning_rate": 0.0005090175446316133,
      "loss": 2.6551,
      "step": 3980
    },
    {
      "epoch": 0.509568,
      "grad_norm": 0.3963873088359833,
      "learning_rate": 0.0005088102664645378,
      "loss": 2.6306,
      "step": 3981
    },
    {
      "epoch": 0.509696,
      "grad_norm": 0.35100868344306946,
      "learning_rate": 0.0005086029867828752,
      "loss": 2.6635,
      "step": 3982
    },
    {
      "epoch": 0.509824,
      "grad_norm": 0.3828917145729065,
      "learning_rate": 0.0005083957056222594,
      "loss": 2.6487,
      "step": 3983
    },
    {
      "epoch": 0.509952,
      "grad_norm": 0.3722572922706604,
      "learning_rate": 0.0005081884230183247,
      "loss": 2.5354,
      "step": 3984
    },
    {
      "epoch": 0.51008,
      "grad_norm": 0.3656022548675537,
      "learning_rate": 0.0005079811390067048,
      "loss": 2.5231,
      "step": 3985
    },
    {
      "epoch": 0.510208,
      "grad_norm": 0.3707955777645111,
      "learning_rate": 0.000507773853623035,
      "loss": 2.5586,
      "step": 3986
    },
    {
      "epoch": 0.510336,
      "grad_norm": 0.6596893668174744,
      "learning_rate": 0.0005075665669029494,
      "loss": 2.5772,
      "step": 3987
    },
    {
      "epoch": 0.510464,
      "grad_norm": 0.42974957823753357,
      "learning_rate": 0.0005073592788820832,
      "loss": 2.6284,
      "step": 3988
    },
    {
      "epoch": 0.510592,
      "grad_norm": 0.38818085193634033,
      "learning_rate": 0.0005071519895960717,
      "loss": 2.5927,
      "step": 3989
    },
    {
      "epoch": 0.51072,
      "grad_norm": 0.36321935057640076,
      "learning_rate": 0.0005069446990805501,
      "loss": 2.5594,
      "step": 3990
    },
    {
      "epoch": 0.510848,
      "grad_norm": 0.4334056079387665,
      "learning_rate": 0.0005067374073711544,
      "loss": 2.6535,
      "step": 3991
    },
    {
      "epoch": 0.510976,
      "grad_norm": 0.3865756690502167,
      "learning_rate": 0.0005065301145035204,
      "loss": 2.5833,
      "step": 3992
    },
    {
      "epoch": 0.511104,
      "grad_norm": 0.3971877098083496,
      "learning_rate": 0.0005063228205132839,
      "loss": 2.5678,
      "step": 3993
    },
    {
      "epoch": 0.511232,
      "grad_norm": 0.4031207859516144,
      "learning_rate": 0.000506115525436081,
      "loss": 2.6881,
      "step": 3994
    },
    {
      "epoch": 0.51136,
      "grad_norm": 0.36886292695999146,
      "learning_rate": 0.0005059082293075487,
      "loss": 2.5946,
      "step": 3995
    },
    {
      "epoch": 0.511488,
      "grad_norm": 0.41317200660705566,
      "learning_rate": 0.0005057009321633233,
      "loss": 2.6886,
      "step": 3996
    },
    {
      "epoch": 0.511616,
      "grad_norm": 0.375547856092453,
      "learning_rate": 0.0005054936340390414,
      "loss": 2.5731,
      "step": 3997
    },
    {
      "epoch": 0.511744,
      "grad_norm": 0.39867499470710754,
      "learning_rate": 0.0005052863349703402,
      "loss": 2.6526,
      "step": 3998
    },
    {
      "epoch": 0.511872,
      "grad_norm": 0.3878474533557892,
      "learning_rate": 0.0005050790349928566,
      "loss": 2.7397,
      "step": 3999
    },
    {
      "epoch": 0.512,
      "grad_norm": 0.3872206211090088,
      "learning_rate": 0.0005048717341422282,
      "loss": 2.7369,
      "step": 4000
    },
    {
      "epoch": 0.512128,
      "grad_norm": 0.3738488256931305,
      "learning_rate": 0.0005046644324540921,
      "loss": 2.5814,
      "step": 4001
    },
    {
      "epoch": 0.512256,
      "grad_norm": 0.3616982400417328,
      "learning_rate": 0.000504457129964086,
      "loss": 2.6251,
      "step": 4002
    },
    {
      "epoch": 0.512384,
      "grad_norm": 0.40774014592170715,
      "learning_rate": 0.0005042498267078476,
      "loss": 2.6592,
      "step": 4003
    },
    {
      "epoch": 0.512512,
      "grad_norm": 0.4366791844367981,
      "learning_rate": 0.0005040425227210148,
      "loss": 2.5637,
      "step": 4004
    },
    {
      "epoch": 0.51264,
      "grad_norm": 0.3478349447250366,
      "learning_rate": 0.0005038352180392254,
      "loss": 2.5677,
      "step": 4005
    },
    {
      "epoch": 0.512768,
      "grad_norm": 0.39349305629730225,
      "learning_rate": 0.0005036279126981176,
      "loss": 2.5556,
      "step": 4006
    },
    {
      "epoch": 0.512896,
      "grad_norm": 0.340246319770813,
      "learning_rate": 0.0005034206067333296,
      "loss": 2.5907,
      "step": 4007
    },
    {
      "epoch": 0.513024,
      "grad_norm": 0.36329975724220276,
      "learning_rate": 0.0005032133001804993,
      "loss": 2.5036,
      "step": 4008
    },
    {
      "epoch": 0.513152,
      "grad_norm": 0.34095945954322815,
      "learning_rate": 0.0005030059930752658,
      "loss": 2.4534,
      "step": 4009
    },
    {
      "epoch": 0.51328,
      "grad_norm": 1.6305534839630127,
      "learning_rate": 0.0005027986854532672,
      "loss": 2.6776,
      "step": 4010
    },
    {
      "epoch": 0.513408,
      "grad_norm": 0.3595726490020752,
      "learning_rate": 0.0005025913773501421,
      "loss": 2.6929,
      "step": 4011
    },
    {
      "epoch": 0.513536,
      "grad_norm": 0.38770681619644165,
      "learning_rate": 0.0005023840688015291,
      "loss": 2.6379,
      "step": 4012
    },
    {
      "epoch": 0.513664,
      "grad_norm": 0.3817986249923706,
      "learning_rate": 0.0005021767598430671,
      "loss": 2.7091,
      "step": 4013
    },
    {
      "epoch": 0.513792,
      "grad_norm": 0.416524201631546,
      "learning_rate": 0.0005019694505103948,
      "loss": 2.6388,
      "step": 4014
    },
    {
      "epoch": 0.51392,
      "grad_norm": 0.4243234694004059,
      "learning_rate": 0.0005017621408391513,
      "loss": 2.6567,
      "step": 4015
    },
    {
      "epoch": 0.514048,
      "grad_norm": 0.46656739711761475,
      "learning_rate": 0.0005015548308649752,
      "loss": 2.6356,
      "step": 4016
    },
    {
      "epoch": 0.514176,
      "grad_norm": 0.44765496253967285,
      "learning_rate": 0.0005013475206235056,
      "loss": 2.6411,
      "step": 4017
    },
    {
      "epoch": 0.514304,
      "grad_norm": 0.3998175263404846,
      "learning_rate": 0.0005011402101503818,
      "loss": 2.517,
      "step": 4018
    },
    {
      "epoch": 0.514432,
      "grad_norm": 0.407443106174469,
      "learning_rate": 0.0005009328994812425,
      "loss": 2.5681,
      "step": 4019
    },
    {
      "epoch": 0.51456,
      "grad_norm": 0.39033323526382446,
      "learning_rate": 0.000500725588651727,
      "loss": 2.5218,
      "step": 4020
    },
    {
      "epoch": 0.514688,
      "grad_norm": 0.38783136010169983,
      "learning_rate": 0.0005005182776974745,
      "loss": 2.6433,
      "step": 4021
    },
    {
      "epoch": 0.514816,
      "grad_norm": 0.37803664803504944,
      "learning_rate": 0.0005003109666541238,
      "loss": 2.6843,
      "step": 4022
    },
    {
      "epoch": 0.514944,
      "grad_norm": 0.3832748532295227,
      "learning_rate": 0.0005001036555573145,
      "loss": 2.5613,
      "step": 4023
    },
    {
      "epoch": 0.515072,
      "grad_norm": 0.384578675031662,
      "learning_rate": 0.0004998963444426855,
      "loss": 2.5708,
      "step": 4024
    },
    {
      "epoch": 0.5152,
      "grad_norm": 0.4052901566028595,
      "learning_rate": 0.0004996890333458762,
      "loss": 2.5545,
      "step": 4025
    },
    {
      "epoch": 0.515328,
      "grad_norm": 0.38025736808776855,
      "learning_rate": 0.0004994817223025256,
      "loss": 2.6517,
      "step": 4026
    },
    {
      "epoch": 0.515456,
      "grad_norm": 0.3743336796760559,
      "learning_rate": 0.000499274411348273,
      "loss": 2.7489,
      "step": 4027
    },
    {
      "epoch": 0.515584,
      "grad_norm": 0.35931017994880676,
      "learning_rate": 0.0004990671005187576,
      "loss": 2.6161,
      "step": 4028
    },
    {
      "epoch": 0.515712,
      "grad_norm": 0.39736297726631165,
      "learning_rate": 0.0004988597898496183,
      "loss": 2.624,
      "step": 4029
    },
    {
      "epoch": 0.51584,
      "grad_norm": 0.39002424478530884,
      "learning_rate": 0.0004986524793764945,
      "loss": 2.556,
      "step": 4030
    },
    {
      "epoch": 0.515968,
      "grad_norm": 0.35891443490982056,
      "learning_rate": 0.0004984451691350249,
      "loss": 2.6027,
      "step": 4031
    },
    {
      "epoch": 0.516096,
      "grad_norm": 0.3962620794773102,
      "learning_rate": 0.0004982378591608488,
      "loss": 2.6712,
      "step": 4032
    },
    {
      "epoch": 0.516224,
      "grad_norm": 0.39333638548851013,
      "learning_rate": 0.0004980305494896052,
      "loss": 2.6335,
      "step": 4033
    },
    {
      "epoch": 0.516352,
      "grad_norm": 0.4536483883857727,
      "learning_rate": 0.0004978232401569329,
      "loss": 2.5735,
      "step": 4034
    },
    {
      "epoch": 0.51648,
      "grad_norm": 0.3621029555797577,
      "learning_rate": 0.000497615931198471,
      "loss": 2.624,
      "step": 4035
    },
    {
      "epoch": 0.516608,
      "grad_norm": 0.43040797114372253,
      "learning_rate": 0.0004974086226498581,
      "loss": 2.6243,
      "step": 4036
    },
    {
      "epoch": 0.516736,
      "grad_norm": 0.38691139221191406,
      "learning_rate": 0.0004972013145467329,
      "loss": 2.713,
      "step": 4037
    },
    {
      "epoch": 0.516864,
      "grad_norm": 0.3747135400772095,
      "learning_rate": 0.0004969940069247343,
      "loss": 2.5806,
      "step": 4038
    },
    {
      "epoch": 0.516992,
      "grad_norm": 0.36905479431152344,
      "learning_rate": 0.0004967866998195008,
      "loss": 2.5873,
      "step": 4039
    },
    {
      "epoch": 0.51712,
      "grad_norm": 0.3742256760597229,
      "learning_rate": 0.0004965793932666707,
      "loss": 2.6035,
      "step": 4040
    },
    {
      "epoch": 0.517248,
      "grad_norm": 0.376976877450943,
      "learning_rate": 0.0004963720873018827,
      "loss": 2.7486,
      "step": 4041
    },
    {
      "epoch": 0.517376,
      "grad_norm": 0.40618202090263367,
      "learning_rate": 0.0004961647819607749,
      "loss": 2.701,
      "step": 4042
    },
    {
      "epoch": 0.517504,
      "grad_norm": 0.39848142862319946,
      "learning_rate": 0.0004959574772789853,
      "loss": 2.5977,
      "step": 4043
    },
    {
      "epoch": 0.517632,
      "grad_norm": 0.3646775186061859,
      "learning_rate": 0.0004957501732921524,
      "loss": 2.6022,
      "step": 4044
    },
    {
      "epoch": 0.51776,
      "grad_norm": 0.34691640734672546,
      "learning_rate": 0.000495542870035914,
      "loss": 2.6621,
      "step": 4045
    },
    {
      "epoch": 0.517888,
      "grad_norm": 0.3796203136444092,
      "learning_rate": 0.000495335567545908,
      "loss": 2.6359,
      "step": 4046
    },
    {
      "epoch": 0.518016,
      "grad_norm": 0.3880283832550049,
      "learning_rate": 0.0004951282658577718,
      "loss": 2.6102,
      "step": 4047
    },
    {
      "epoch": 0.518144,
      "grad_norm": 0.3828158676624298,
      "learning_rate": 0.0004949209650071435,
      "loss": 2.5802,
      "step": 4048
    },
    {
      "epoch": 0.518272,
      "grad_norm": 0.3927189111709595,
      "learning_rate": 0.0004947136650296601,
      "loss": 2.6331,
      "step": 4049
    },
    {
      "epoch": 0.5184,
      "grad_norm": 0.4051709771156311,
      "learning_rate": 0.0004945063659609587,
      "loss": 2.5851,
      "step": 4050
    },
    {
      "epoch": 0.518528,
      "grad_norm": 0.4099251329898834,
      "learning_rate": 0.0004942990678366769,
      "loss": 2.5838,
      "step": 4051
    },
    {
      "epoch": 0.518656,
      "grad_norm": 0.38665059208869934,
      "learning_rate": 0.0004940917706924513,
      "loss": 2.6571,
      "step": 4052
    },
    {
      "epoch": 0.518784,
      "grad_norm": 0.3954642713069916,
      "learning_rate": 0.000493884474563919,
      "loss": 2.6963,
      "step": 4053
    },
    {
      "epoch": 0.518912,
      "grad_norm": 0.3682214021682739,
      "learning_rate": 0.0004936771794867163,
      "loss": 2.5645,
      "step": 4054
    },
    {
      "epoch": 0.51904,
      "grad_norm": 0.37477388978004456,
      "learning_rate": 0.0004934698854964797,
      "loss": 2.6438,
      "step": 4055
    },
    {
      "epoch": 0.519168,
      "grad_norm": 0.40829119086265564,
      "learning_rate": 0.0004932625926288456,
      "loss": 2.7693,
      "step": 4056
    },
    {
      "epoch": 0.519296,
      "grad_norm": 0.3856731355190277,
      "learning_rate": 0.0004930553009194499,
      "loss": 2.6869,
      "step": 4057
    },
    {
      "epoch": 0.519424,
      "grad_norm": 0.36159226298332214,
      "learning_rate": 0.0004928480104039284,
      "loss": 2.6677,
      "step": 4058
    },
    {
      "epoch": 0.519552,
      "grad_norm": 0.37336549162864685,
      "learning_rate": 0.000492640721117917,
      "loss": 2.5549,
      "step": 4059
    },
    {
      "epoch": 0.51968,
      "grad_norm": 0.3672260642051697,
      "learning_rate": 0.0004924334330970509,
      "loss": 2.5646,
      "step": 4060
    },
    {
      "epoch": 0.519808,
      "grad_norm": 0.3918097913265228,
      "learning_rate": 0.0004922261463769651,
      "loss": 2.725,
      "step": 4061
    },
    {
      "epoch": 0.519936,
      "grad_norm": 0.35508301854133606,
      "learning_rate": 0.0004920188609932951,
      "loss": 2.4988,
      "step": 4062
    },
    {
      "epoch": 0.520064,
      "grad_norm": 0.3792642056941986,
      "learning_rate": 0.0004918115769816754,
      "loss": 2.5367,
      "step": 4063
    },
    {
      "epoch": 0.520192,
      "grad_norm": 0.3698461055755615,
      "learning_rate": 0.0004916042943777406,
      "loss": 2.6432,
      "step": 4064
    },
    {
      "epoch": 0.52032,
      "grad_norm": 0.4185471832752228,
      "learning_rate": 0.0004913970132171248,
      "loss": 2.5974,
      "step": 4065
    },
    {
      "epoch": 0.520448,
      "grad_norm": 0.39292800426483154,
      "learning_rate": 0.0004911897335354624,
      "loss": 2.6449,
      "step": 4066
    },
    {
      "epoch": 0.520576,
      "grad_norm": 0.35647886991500854,
      "learning_rate": 0.0004909824553683867,
      "loss": 2.6456,
      "step": 4067
    },
    {
      "epoch": 0.520704,
      "grad_norm": 0.3887525498867035,
      "learning_rate": 0.0004907751787515315,
      "loss": 2.5782,
      "step": 4068
    },
    {
      "epoch": 0.520832,
      "grad_norm": 0.37224310636520386,
      "learning_rate": 0.0004905679037205302,
      "loss": 2.5665,
      "step": 4069
    },
    {
      "epoch": 0.52096,
      "grad_norm": 0.38836830854415894,
      "learning_rate": 0.0004903606303110152,
      "loss": 2.6004,
      "step": 4070
    },
    {
      "epoch": 0.521088,
      "grad_norm": 0.42449167370796204,
      "learning_rate": 0.0004901533585586199,
      "loss": 2.5136,
      "step": 4071
    },
    {
      "epoch": 0.521216,
      "grad_norm": 0.3648386597633362,
      "learning_rate": 0.0004899460884989764,
      "loss": 2.6226,
      "step": 4072
    },
    {
      "epoch": 0.521344,
      "grad_norm": 0.37450143694877625,
      "learning_rate": 0.0004897388201677168,
      "loss": 2.5664,
      "step": 4073
    },
    {
      "epoch": 0.521472,
      "grad_norm": 0.3769417107105255,
      "learning_rate": 0.000489531553600473,
      "loss": 2.5911,
      "step": 4074
    },
    {
      "epoch": 0.5216,
      "grad_norm": 0.4644055962562561,
      "learning_rate": 0.0004893242888328765,
      "loss": 2.6138,
      "step": 4075
    },
    {
      "epoch": 0.521728,
      "grad_norm": 0.38829314708709717,
      "learning_rate": 0.0004891170259005585,
      "loss": 2.7231,
      "step": 4076
    },
    {
      "epoch": 0.521856,
      "grad_norm": 0.3780643343925476,
      "learning_rate": 0.00048890976483915,
      "loss": 2.595,
      "step": 4077
    },
    {
      "epoch": 0.521984,
      "grad_norm": 0.4162987768650055,
      "learning_rate": 0.0004887025056842814,
      "loss": 2.6454,
      "step": 4078
    },
    {
      "epoch": 0.522112,
      "grad_norm": 0.3846782147884369,
      "learning_rate": 0.000488495248471583,
      "loss": 2.6086,
      "step": 4079
    },
    {
      "epoch": 0.52224,
      "grad_norm": 0.3769521415233612,
      "learning_rate": 0.0004882879932366846,
      "loss": 2.5745,
      "step": 4080
    },
    {
      "epoch": 0.522368,
      "grad_norm": 0.3936512768268585,
      "learning_rate": 0.0004880807400152162,
      "loss": 2.6681,
      "step": 4081
    },
    {
      "epoch": 0.522496,
      "grad_norm": 0.36693811416625977,
      "learning_rate": 0.0004878734888428068,
      "loss": 2.6726,
      "step": 4082
    },
    {
      "epoch": 0.522624,
      "grad_norm": 0.4001966714859009,
      "learning_rate": 0.0004876662397550851,
      "loss": 2.6485,
      "step": 4083
    },
    {
      "epoch": 0.522752,
      "grad_norm": 0.3770119547843933,
      "learning_rate": 0.00048745899278767983,
      "loss": 2.6523,
      "step": 4084
    },
    {
      "epoch": 0.52288,
      "grad_norm": 0.40015098452568054,
      "learning_rate": 0.00048725174797621917,
      "loss": 2.6088,
      "step": 4085
    },
    {
      "epoch": 0.523008,
      "grad_norm": 0.3690932095050812,
      "learning_rate": 0.00048704450535633074,
      "loss": 2.5739,
      "step": 4086
    },
    {
      "epoch": 0.523136,
      "grad_norm": 0.38307949900627136,
      "learning_rate": 0.00048683726496364207,
      "loss": 2.5522,
      "step": 4087
    },
    {
      "epoch": 0.523264,
      "grad_norm": 0.36761391162872314,
      "learning_rate": 0.00048663002683378015,
      "loss": 2.5921,
      "step": 4088
    },
    {
      "epoch": 0.523392,
      "grad_norm": 0.3600754141807556,
      "learning_rate": 0.00048642279100237143,
      "loss": 2.5351,
      "step": 4089
    },
    {
      "epoch": 0.52352,
      "grad_norm": 0.36979442834854126,
      "learning_rate": 0.00048621555750504253,
      "loss": 2.5422,
      "step": 4090
    },
    {
      "epoch": 0.523648,
      "grad_norm": 0.39962705969810486,
      "learning_rate": 0.000486008326377419,
      "loss": 2.5673,
      "step": 4091
    },
    {
      "epoch": 0.523776,
      "grad_norm": 0.3728726804256439,
      "learning_rate": 0.0004858010976551265,
      "loss": 2.6105,
      "step": 4092
    },
    {
      "epoch": 0.523904,
      "grad_norm": 0.4255754053592682,
      "learning_rate": 0.0004855938713737899,
      "loss": 2.699,
      "step": 4093
    },
    {
      "epoch": 0.524032,
      "grad_norm": 0.6897592544555664,
      "learning_rate": 0.00048538664756903375,
      "loss": 2.677,
      "step": 4094
    },
    {
      "epoch": 0.52416,
      "grad_norm": 0.4194996654987335,
      "learning_rate": 0.0004851794262764823,
      "loss": 2.6247,
      "step": 4095
    },
    {
      "epoch": 0.524288,
      "grad_norm": 0.5736516118049622,
      "learning_rate": 0.00048497220753175943,
      "loss": 2.5619,
      "step": 4096
    },
    {
      "epoch": 0.524416,
      "grad_norm": 0.4167914092540741,
      "learning_rate": 0.0004847649913704881,
      "loss": 2.5677,
      "step": 4097
    },
    {
      "epoch": 0.524544,
      "grad_norm": 0.3737408220767975,
      "learning_rate": 0.00048455777782829124,
      "loss": 2.4886,
      "step": 4098
    },
    {
      "epoch": 0.524672,
      "grad_norm": 0.3959987461566925,
      "learning_rate": 0.00048435056694079166,
      "loss": 2.7206,
      "step": 4099
    },
    {
      "epoch": 0.5248,
      "grad_norm": 0.3907286524772644,
      "learning_rate": 0.000484143358743611,
      "loss": 2.5835,
      "step": 4100
    },
    {
      "epoch": 0.524928,
      "grad_norm": 0.38473573327064514,
      "learning_rate": 0.0004839361532723708,
      "loss": 2.5795,
      "step": 4101
    },
    {
      "epoch": 0.525056,
      "grad_norm": 0.4783383309841156,
      "learning_rate": 0.0004837289505626921,
      "loss": 2.657,
      "step": 4102
    },
    {
      "epoch": 0.525184,
      "grad_norm": 0.39710715413093567,
      "learning_rate": 0.0004835217506501954,
      "loss": 2.6781,
      "step": 4103
    },
    {
      "epoch": 0.525312,
      "grad_norm": 0.38275381922721863,
      "learning_rate": 0.0004833145535705008,
      "loss": 2.6623,
      "step": 4104
    },
    {
      "epoch": 0.52544,
      "grad_norm": 0.4172019958496094,
      "learning_rate": 0.0004831073593592279,
      "loss": 2.6737,
      "step": 4105
    },
    {
      "epoch": 0.525568,
      "grad_norm": 0.4056391417980194,
      "learning_rate": 0.0004829001680519958,
      "loss": 2.6202,
      "step": 4106
    },
    {
      "epoch": 0.525696,
      "grad_norm": 0.3801812529563904,
      "learning_rate": 0.0004826929796844228,
      "loss": 2.4939,
      "step": 4107
    },
    {
      "epoch": 0.525824,
      "grad_norm": 0.3885781764984131,
      "learning_rate": 0.00048248579429212735,
      "loss": 2.6236,
      "step": 4108
    },
    {
      "epoch": 0.525952,
      "grad_norm": 0.3825458586215973,
      "learning_rate": 0.00048227861191072705,
      "loss": 2.6658,
      "step": 4109
    },
    {
      "epoch": 0.52608,
      "grad_norm": 0.40174809098243713,
      "learning_rate": 0.00048207143257583874,
      "loss": 2.6183,
      "step": 4110
    },
    {
      "epoch": 0.526208,
      "grad_norm": 0.3918822109699249,
      "learning_rate": 0.00048186425632307906,
      "loss": 2.698,
      "step": 4111
    },
    {
      "epoch": 0.526336,
      "grad_norm": 0.4082584083080292,
      "learning_rate": 0.00048165708318806383,
      "loss": 2.7112,
      "step": 4112
    },
    {
      "epoch": 0.526464,
      "grad_norm": 0.3806511163711548,
      "learning_rate": 0.00048144991320640877,
      "loss": 2.6111,
      "step": 4113
    },
    {
      "epoch": 0.526592,
      "grad_norm": 0.351142019033432,
      "learning_rate": 0.00048124274641372873,
      "loss": 2.625,
      "step": 4114
    },
    {
      "epoch": 0.52672,
      "grad_norm": 0.3705303370952606,
      "learning_rate": 0.00048103558284563785,
      "loss": 2.6525,
      "step": 4115
    },
    {
      "epoch": 0.526848,
      "grad_norm": 0.5088392496109009,
      "learning_rate": 0.00048082842253775027,
      "loss": 2.5618,
      "step": 4116
    },
    {
      "epoch": 0.526976,
      "grad_norm": 0.4331810474395752,
      "learning_rate": 0.0004806212655256789,
      "loss": 2.5832,
      "step": 4117
    },
    {
      "epoch": 0.527104,
      "grad_norm": 0.37283042073249817,
      "learning_rate": 0.00048041411184503684,
      "loss": 2.5921,
      "step": 4118
    },
    {
      "epoch": 0.527232,
      "grad_norm": 0.3909160792827606,
      "learning_rate": 0.00048020696153143596,
      "loss": 2.6015,
      "step": 4119
    },
    {
      "epoch": 0.52736,
      "grad_norm": 0.389514684677124,
      "learning_rate": 0.0004799998146204879,
      "loss": 2.6202,
      "step": 4120
    },
    {
      "epoch": 0.527488,
      "grad_norm": 0.39572659134864807,
      "learning_rate": 0.0004797926711478036,
      "loss": 2.5961,
      "step": 4121
    },
    {
      "epoch": 0.527616,
      "grad_norm": 0.35998016595840454,
      "learning_rate": 0.00047958553114899326,
      "loss": 2.5317,
      "step": 4122
    },
    {
      "epoch": 0.527744,
      "grad_norm": 0.36806508898735046,
      "learning_rate": 0.0004793783946596669,
      "loss": 2.5961,
      "step": 4123
    },
    {
      "epoch": 0.527872,
      "grad_norm": 0.3792864978313446,
      "learning_rate": 0.0004791712617154336,
      "loss": 2.4815,
      "step": 4124
    },
    {
      "epoch": 0.528,
      "grad_norm": 0.38347524404525757,
      "learning_rate": 0.00047896413235190175,
      "loss": 2.4542,
      "step": 4125
    },
    {
      "epoch": 0.528128,
      "grad_norm": 0.4392949342727661,
      "learning_rate": 0.0004787570066046793,
      "loss": 2.6656,
      "step": 4126
    },
    {
      "epoch": 0.528256,
      "grad_norm": 0.3678427040576935,
      "learning_rate": 0.0004785498845093739,
      "loss": 2.6205,
      "step": 4127
    },
    {
      "epoch": 0.528384,
      "grad_norm": 0.4589618444442749,
      "learning_rate": 0.000478342766101592,
      "loss": 2.7252,
      "step": 4128
    },
    {
      "epoch": 0.528512,
      "grad_norm": 0.36297619342803955,
      "learning_rate": 0.0004781356514169396,
      "loss": 2.5849,
      "step": 4129
    },
    {
      "epoch": 0.52864,
      "grad_norm": 0.33501896262168884,
      "learning_rate": 0.0004779285404910223,
      "loss": 2.7018,
      "step": 4130
    },
    {
      "epoch": 0.528768,
      "grad_norm": 0.36762601137161255,
      "learning_rate": 0.0004777214333594448,
      "loss": 2.6351,
      "step": 4131
    },
    {
      "epoch": 0.528896,
      "grad_norm": 0.36138492822647095,
      "learning_rate": 0.0004775143300578111,
      "loss": 2.6451,
      "step": 4132
    },
    {
      "epoch": 0.529024,
      "grad_norm": 0.35792890191078186,
      "learning_rate": 0.0004773072306217247,
      "loss": 2.7225,
      "step": 4133
    },
    {
      "epoch": 0.529152,
      "grad_norm": 0.3664480447769165,
      "learning_rate": 0.0004771001350867885,
      "loss": 2.6172,
      "step": 4134
    },
    {
      "epoch": 0.52928,
      "grad_norm": 0.34565046429634094,
      "learning_rate": 0.00047689304348860436,
      "loss": 2.6782,
      "step": 4135
    },
    {
      "epoch": 0.529408,
      "grad_norm": 0.3719935715198517,
      "learning_rate": 0.00047668595586277415,
      "loss": 2.6487,
      "step": 4136
    },
    {
      "epoch": 0.529536,
      "grad_norm": 0.3777112066745758,
      "learning_rate": 0.0004764788722448983,
      "loss": 2.6408,
      "step": 4137
    },
    {
      "epoch": 0.529664,
      "grad_norm": 0.422736793756485,
      "learning_rate": 0.0004762717926705771,
      "loss": 2.5815,
      "step": 4138
    },
    {
      "epoch": 0.529792,
      "grad_norm": 0.3894038796424866,
      "learning_rate": 0.00047606471717540977,
      "loss": 2.5594,
      "step": 4139
    },
    {
      "epoch": 0.52992,
      "grad_norm": 0.42706039547920227,
      "learning_rate": 0.00047585764579499495,
      "loss": 2.6001,
      "step": 4140
    },
    {
      "epoch": 0.530048,
      "grad_norm": 0.3724936246871948,
      "learning_rate": 0.0004756505785649308,
      "loss": 2.4984,
      "step": 4141
    },
    {
      "epoch": 0.530176,
      "grad_norm": 0.4324800372123718,
      "learning_rate": 0.00047544351552081455,
      "loss": 2.7069,
      "step": 4142
    },
    {
      "epoch": 0.530304,
      "grad_norm": 0.37677815556526184,
      "learning_rate": 0.0004752364566982425,
      "loss": 2.4518,
      "step": 4143
    },
    {
      "epoch": 0.530432,
      "grad_norm": 0.427863210439682,
      "learning_rate": 0.0004750294021328105,
      "loss": 2.4885,
      "step": 4144
    },
    {
      "epoch": 0.53056,
      "grad_norm": 0.37520524859428406,
      "learning_rate": 0.00047482235186011403,
      "loss": 2.6755,
      "step": 4145
    },
    {
      "epoch": 0.530688,
      "grad_norm": 0.37225645780563354,
      "learning_rate": 0.0004746153059157471,
      "loss": 2.5137,
      "step": 4146
    },
    {
      "epoch": 0.530816,
      "grad_norm": 0.37905949354171753,
      "learning_rate": 0.0004744082643353033,
      "loss": 2.6935,
      "step": 4147
    },
    {
      "epoch": 0.530944,
      "grad_norm": 0.36103686690330505,
      "learning_rate": 0.00047420122715437565,
      "loss": 2.6514,
      "step": 4148
    },
    {
      "epoch": 0.531072,
      "grad_norm": 0.3678666353225708,
      "learning_rate": 0.00047399419440855614,
      "loss": 2.5633,
      "step": 4149
    },
    {
      "epoch": 0.5312,
      "grad_norm": 0.35198384523391724,
      "learning_rate": 0.000473787166133436,
      "loss": 2.565,
      "step": 4150
    },
    {
      "epoch": 0.531328,
      "grad_norm": 0.34047943353652954,
      "learning_rate": 0.000473580142364606,
      "loss": 2.6871,
      "step": 4151
    },
    {
      "epoch": 0.531456,
      "grad_norm": 0.37803101539611816,
      "learning_rate": 0.00047337312313765575,
      "loss": 2.6912,
      "step": 4152
    },
    {
      "epoch": 0.531584,
      "grad_norm": 0.3672434687614441,
      "learning_rate": 0.00047316610848817435,
      "loss": 2.6709,
      "step": 4153
    },
    {
      "epoch": 0.531712,
      "grad_norm": 0.37121322751045227,
      "learning_rate": 0.0004729590984517498,
      "loss": 2.6161,
      "step": 4154
    },
    {
      "epoch": 0.53184,
      "grad_norm": 0.3814735412597656,
      "learning_rate": 0.0004727520930639698,
      "loss": 2.6387,
      "step": 4155
    },
    {
      "epoch": 0.531968,
      "grad_norm": 0.3877837657928467,
      "learning_rate": 0.00047254509236042096,
      "loss": 2.6072,
      "step": 4156
    },
    {
      "epoch": 0.532096,
      "grad_norm": 0.3480522930622101,
      "learning_rate": 0.00047233809637668906,
      "loss": 2.6504,
      "step": 4157
    },
    {
      "epoch": 0.532224,
      "grad_norm": 0.3675217926502228,
      "learning_rate": 0.000472131105148359,
      "loss": 2.5893,
      "step": 4158
    },
    {
      "epoch": 0.532352,
      "grad_norm": 0.36146971583366394,
      "learning_rate": 0.0004719241187110151,
      "loss": 2.6684,
      "step": 4159
    },
    {
      "epoch": 0.53248,
      "grad_norm": 0.35627418756484985,
      "learning_rate": 0.00047171713710024074,
      "loss": 2.6521,
      "step": 4160
    },
    {
      "epoch": 0.532608,
      "grad_norm": 0.36271217465400696,
      "learning_rate": 0.0004715101603516182,
      "loss": 2.5969,
      "step": 4161
    },
    {
      "epoch": 0.532736,
      "grad_norm": 0.3533289432525635,
      "learning_rate": 0.0004713031885007296,
      "loss": 2.5043,
      "step": 4162
    },
    {
      "epoch": 0.532864,
      "grad_norm": 0.3726900517940521,
      "learning_rate": 0.00047109622158315526,
      "loss": 2.691,
      "step": 4163
    },
    {
      "epoch": 0.532992,
      "grad_norm": 0.3934394121170044,
      "learning_rate": 0.00047088925963447575,
      "loss": 2.6392,
      "step": 4164
    },
    {
      "epoch": 0.53312,
      "grad_norm": 0.38162723183631897,
      "learning_rate": 0.0004706823026902699,
      "loss": 2.6287,
      "step": 4165
    },
    {
      "epoch": 0.533248,
      "grad_norm": 0.3694075047969818,
      "learning_rate": 0.0004704753507861162,
      "loss": 2.5659,
      "step": 4166
    },
    {
      "epoch": 0.533376,
      "grad_norm": 0.3793560266494751,
      "learning_rate": 0.00047026840395759196,
      "loss": 2.4521,
      "step": 4167
    },
    {
      "epoch": 0.533504,
      "grad_norm": 0.36454468965530396,
      "learning_rate": 0.0004700614622402737,
      "loss": 2.5901,
      "step": 4168
    },
    {
      "epoch": 0.533632,
      "grad_norm": 0.4873618483543396,
      "learning_rate": 0.00046985452566973725,
      "loss": 2.7039,
      "step": 4169
    },
    {
      "epoch": 0.53376,
      "grad_norm": 0.4158566892147064,
      "learning_rate": 0.0004696475942815573,
      "loss": 2.7443,
      "step": 4170
    },
    {
      "epoch": 0.533888,
      "grad_norm": 0.4153091013431549,
      "learning_rate": 0.00046944066811130776,
      "loss": 2.5813,
      "step": 4171
    },
    {
      "epoch": 0.534016,
      "grad_norm": 0.4101463556289673,
      "learning_rate": 0.00046923374719456143,
      "loss": 2.5727,
      "step": 4172
    },
    {
      "epoch": 0.534144,
      "grad_norm": 0.6104516386985779,
      "learning_rate": 0.00046902683156689075,
      "loss": 2.6045,
      "step": 4173
    },
    {
      "epoch": 0.534272,
      "grad_norm": 0.358657568693161,
      "learning_rate": 0.0004688199212638669,
      "loss": 2.5401,
      "step": 4174
    },
    {
      "epoch": 0.5344,
      "grad_norm": 0.36836764216423035,
      "learning_rate": 0.00046861301632106,
      "loss": 2.6181,
      "step": 4175
    },
    {
      "epoch": 0.534528,
      "grad_norm": 0.37034428119659424,
      "learning_rate": 0.00046840611677403943,
      "loss": 2.7474,
      "step": 4176
    },
    {
      "epoch": 0.534656,
      "grad_norm": 0.366364449262619,
      "learning_rate": 0.00046819922265837376,
      "loss": 2.5686,
      "step": 4177
    },
    {
      "epoch": 0.534784,
      "grad_norm": 0.3586815595626831,
      "learning_rate": 0.00046799233400963037,
      "loss": 2.6788,
      "step": 4178
    },
    {
      "epoch": 0.534912,
      "grad_norm": 0.36783137917518616,
      "learning_rate": 0.0004677854508633757,
      "loss": 2.6417,
      "step": 4179
    },
    {
      "epoch": 0.53504,
      "grad_norm": 0.3666006326675415,
      "learning_rate": 0.0004675785732551756,
      "loss": 2.615,
      "step": 4180
    },
    {
      "epoch": 0.535168,
      "grad_norm": 0.34523558616638184,
      "learning_rate": 0.00046737170122059446,
      "loss": 2.6211,
      "step": 4181
    },
    {
      "epoch": 0.535296,
      "grad_norm": 0.3734123408794403,
      "learning_rate": 0.0004671648347951963,
      "loss": 2.5747,
      "step": 4182
    },
    {
      "epoch": 0.535424,
      "grad_norm": 0.39776623249053955,
      "learning_rate": 0.0004669579740145436,
      "loss": 2.6321,
      "step": 4183
    },
    {
      "epoch": 0.535552,
      "grad_norm": 0.3751847743988037,
      "learning_rate": 0.0004667511189141983,
      "loss": 2.562,
      "step": 4184
    },
    {
      "epoch": 0.53568,
      "grad_norm": 0.4085516929626465,
      "learning_rate": 0.0004665442695297212,
      "loss": 2.6612,
      "step": 4185
    },
    {
      "epoch": 0.535808,
      "grad_norm": 0.3893016576766968,
      "learning_rate": 0.0004663374258966718,
      "loss": 2.5588,
      "step": 4186
    },
    {
      "epoch": 0.535936,
      "grad_norm": 0.4158283472061157,
      "learning_rate": 0.00046613058805060933,
      "loss": 2.6238,
      "step": 4187
    },
    {
      "epoch": 0.536064,
      "grad_norm": 0.38516727089881897,
      "learning_rate": 0.0004659237560270914,
      "loss": 2.6157,
      "step": 4188
    },
    {
      "epoch": 0.536192,
      "grad_norm": 0.3704424500465393,
      "learning_rate": 0.0004657169298616747,
      "loss": 2.6312,
      "step": 4189
    },
    {
      "epoch": 0.53632,
      "grad_norm": 0.4008605182170868,
      "learning_rate": 0.00046551010958991536,
      "loss": 2.7214,
      "step": 4190
    },
    {
      "epoch": 0.536448,
      "grad_norm": 0.3723303973674774,
      "learning_rate": 0.0004653032952473678,
      "loss": 2.5682,
      "step": 4191
    },
    {
      "epoch": 0.536576,
      "grad_norm": 0.3694821000099182,
      "learning_rate": 0.0004650964868695863,
      "loss": 2.6301,
      "step": 4192
    },
    {
      "epoch": 0.536704,
      "grad_norm": 0.36994001269340515,
      "learning_rate": 0.0004648896844921232,
      "loss": 2.6857,
      "step": 4193
    },
    {
      "epoch": 0.536832,
      "grad_norm": 0.3759958744049072,
      "learning_rate": 0.0004646828881505304,
      "loss": 2.556,
      "step": 4194
    },
    {
      "epoch": 0.53696,
      "grad_norm": 0.3738136291503906,
      "learning_rate": 0.0004644760978803586,
      "loss": 2.5189,
      "step": 4195
    },
    {
      "epoch": 0.537088,
      "grad_norm": 0.3724636137485504,
      "learning_rate": 0.0004642693137171574,
      "loss": 2.5816,
      "step": 4196
    },
    {
      "epoch": 0.537216,
      "grad_norm": 0.3431013822555542,
      "learning_rate": 0.0004640625356964753,
      "loss": 2.5152,
      "step": 4197
    },
    {
      "epoch": 0.537344,
      "grad_norm": 0.37556058168411255,
      "learning_rate": 0.00046385576385386004,
      "loss": 2.6226,
      "step": 4198
    },
    {
      "epoch": 0.537472,
      "grad_norm": 0.35768547654151917,
      "learning_rate": 0.000463648998224858,
      "loss": 2.4537,
      "step": 4199
    },
    {
      "epoch": 0.5376,
      "grad_norm": 0.37634575366973877,
      "learning_rate": 0.00046344223884501435,
      "loss": 2.5247,
      "step": 4200
    },
    {
      "epoch": 0.537728,
      "grad_norm": 0.37960970401763916,
      "learning_rate": 0.0004632354857498738,
      "loss": 2.6596,
      "step": 4201
    },
    {
      "epoch": 0.537856,
      "grad_norm": 0.40742263197898865,
      "learning_rate": 0.00046302873897497956,
      "loss": 2.6301,
      "step": 4202
    },
    {
      "epoch": 0.537984,
      "grad_norm": 0.38235193490982056,
      "learning_rate": 0.00046282199855587365,
      "loss": 2.7037,
      "step": 4203
    },
    {
      "epoch": 0.538112,
      "grad_norm": 0.44573885202407837,
      "learning_rate": 0.00046261526452809717,
      "loss": 2.6766,
      "step": 4204
    },
    {
      "epoch": 0.53824,
      "grad_norm": 0.37331441044807434,
      "learning_rate": 0.00046240853692719014,
      "loss": 2.6408,
      "step": 4205
    },
    {
      "epoch": 0.538368,
      "grad_norm": 0.399924635887146,
      "learning_rate": 0.00046220181578869146,
      "loss": 2.5848,
      "step": 4206
    },
    {
      "epoch": 0.538496,
      "grad_norm": 0.40468525886535645,
      "learning_rate": 0.0004619951011481387,
      "loss": 2.6086,
      "step": 4207
    },
    {
      "epoch": 0.538624,
      "grad_norm": 0.4027526080608368,
      "learning_rate": 0.0004617883930410688,
      "loss": 2.7133,
      "step": 4208
    },
    {
      "epoch": 0.538752,
      "grad_norm": 0.3785105049610138,
      "learning_rate": 0.0004615816915030169,
      "loss": 2.5145,
      "step": 4209
    },
    {
      "epoch": 0.53888,
      "grad_norm": 0.40918204188346863,
      "learning_rate": 0.00046137499656951774,
      "loss": 2.5844,
      "step": 4210
    },
    {
      "epoch": 0.539008,
      "grad_norm": 0.3615085482597351,
      "learning_rate": 0.00046116830827610454,
      "loss": 2.7104,
      "step": 4211
    },
    {
      "epoch": 0.539136,
      "grad_norm": 0.39524662494659424,
      "learning_rate": 0.0004609616266583092,
      "loss": 2.6537,
      "step": 4212
    },
    {
      "epoch": 0.539264,
      "grad_norm": 0.36910268664360046,
      "learning_rate": 0.0004607549517516629,
      "loss": 2.6649,
      "step": 4213
    },
    {
      "epoch": 0.539392,
      "grad_norm": 0.35582536458969116,
      "learning_rate": 0.0004605482835916954,
      "loss": 2.6269,
      "step": 4214
    },
    {
      "epoch": 0.53952,
      "grad_norm": 0.3635505437850952,
      "learning_rate": 0.0004603416222139352,
      "loss": 2.6289,
      "step": 4215
    },
    {
      "epoch": 0.539648,
      "grad_norm": 0.3775601387023926,
      "learning_rate": 0.0004601349676539099,
      "loss": 2.6997,
      "step": 4216
    },
    {
      "epoch": 0.539776,
      "grad_norm": 0.39206987619400024,
      "learning_rate": 0.00045992831994714594,
      "loss": 2.587,
      "step": 4217
    },
    {
      "epoch": 0.539904,
      "grad_norm": 0.3642761707305908,
      "learning_rate": 0.00045972167912916806,
      "loss": 2.5088,
      "step": 4218
    },
    {
      "epoch": 0.540032,
      "grad_norm": 0.36452364921569824,
      "learning_rate": 0.0004595150452355006,
      "loss": 2.6226,
      "step": 4219
    },
    {
      "epoch": 0.54016,
      "grad_norm": 0.43744274973869324,
      "learning_rate": 0.0004593084183016664,
      "loss": 2.661,
      "step": 4220
    },
    {
      "epoch": 0.540288,
      "grad_norm": 0.4035269320011139,
      "learning_rate": 0.00045910179836318666,
      "loss": 2.6836,
      "step": 4221
    },
    {
      "epoch": 0.540416,
      "grad_norm": 0.4069679081439972,
      "learning_rate": 0.00045889518545558195,
      "loss": 2.6286,
      "step": 4222
    },
    {
      "epoch": 0.540544,
      "grad_norm": 0.3683531880378723,
      "learning_rate": 0.00045868857961437143,
      "loss": 2.5364,
      "step": 4223
    },
    {
      "epoch": 0.540672,
      "grad_norm": 0.38265523314476013,
      "learning_rate": 0.00045848198087507295,
      "loss": 2.747,
      "step": 4224
    },
    {
      "epoch": 0.5408,
      "grad_norm": 0.36226168274879456,
      "learning_rate": 0.00045827538927320326,
      "loss": 2.6584,
      "step": 4225
    },
    {
      "epoch": 0.540928,
      "grad_norm": 0.3786197900772095,
      "learning_rate": 0.000458068804844278,
      "loss": 2.5988,
      "step": 4226
    },
    {
      "epoch": 0.541056,
      "grad_norm": 0.36582350730895996,
      "learning_rate": 0.00045786222762381125,
      "loss": 2.5353,
      "step": 4227
    },
    {
      "epoch": 0.541184,
      "grad_norm": 0.36832544207572937,
      "learning_rate": 0.0004576556576473158,
      "loss": 2.586,
      "step": 4228
    },
    {
      "epoch": 0.541312,
      "grad_norm": 0.400774747133255,
      "learning_rate": 0.00045744909495030393,
      "loss": 2.525,
      "step": 4229
    },
    {
      "epoch": 0.54144,
      "grad_norm": 0.3972616195678711,
      "learning_rate": 0.0004572425395682859,
      "loss": 2.6735,
      "step": 4230
    },
    {
      "epoch": 0.541568,
      "grad_norm": 0.40421798825263977,
      "learning_rate": 0.00045703599153677104,
      "loss": 2.5727,
      "step": 4231
    },
    {
      "epoch": 0.541696,
      "grad_norm": 0.3567791283130646,
      "learning_rate": 0.00045682945089126737,
      "loss": 2.5303,
      "step": 4232
    },
    {
      "epoch": 0.541824,
      "grad_norm": 0.3811516761779785,
      "learning_rate": 0.0004566229176672814,
      "loss": 2.4946,
      "step": 4233
    },
    {
      "epoch": 0.541952,
      "grad_norm": 0.37149882316589355,
      "learning_rate": 0.0004564163919003189,
      "loss": 2.5515,
      "step": 4234
    },
    {
      "epoch": 0.54208,
      "grad_norm": 0.4092129170894623,
      "learning_rate": 0.00045620987362588394,
      "loss": 2.652,
      "step": 4235
    },
    {
      "epoch": 0.542208,
      "grad_norm": 0.40041714906692505,
      "learning_rate": 0.0004560033628794792,
      "loss": 2.5772,
      "step": 4236
    },
    {
      "epoch": 0.542336,
      "grad_norm": 0.3507799804210663,
      "learning_rate": 0.00045579685969660634,
      "loss": 2.5818,
      "step": 4237
    },
    {
      "epoch": 0.542464,
      "grad_norm": 0.41271206736564636,
      "learning_rate": 0.00045559036411276595,
      "loss": 2.5753,
      "step": 4238
    },
    {
      "epoch": 0.542592,
      "grad_norm": 0.583644449710846,
      "learning_rate": 0.00045538387616345685,
      "loss": 2.6578,
      "step": 4239
    },
    {
      "epoch": 0.54272,
      "grad_norm": 0.41260331869125366,
      "learning_rate": 0.0004551773958841765,
      "loss": 2.5702,
      "step": 4240
    },
    {
      "epoch": 0.542848,
      "grad_norm": 0.3895518183708191,
      "learning_rate": 0.00045497092331042157,
      "loss": 2.7504,
      "step": 4241
    },
    {
      "epoch": 0.542976,
      "grad_norm": 0.3777695894241333,
      "learning_rate": 0.00045476445847768694,
      "loss": 2.5247,
      "step": 4242
    },
    {
      "epoch": 0.543104,
      "grad_norm": 0.3884281516075134,
      "learning_rate": 0.00045455800142146617,
      "loss": 2.6312,
      "step": 4243
    },
    {
      "epoch": 0.543232,
      "grad_norm": 0.4133176803588867,
      "learning_rate": 0.0004543515521772519,
      "loss": 2.7136,
      "step": 4244
    },
    {
      "epoch": 0.54336,
      "grad_norm": 0.3821170926094055,
      "learning_rate": 0.00045414511078053506,
      "loss": 2.6378,
      "step": 4245
    },
    {
      "epoch": 0.543488,
      "grad_norm": 0.41642120480537415,
      "learning_rate": 0.000453938677266805,
      "loss": 2.6618,
      "step": 4246
    },
    {
      "epoch": 0.543616,
      "grad_norm": 0.347354531288147,
      "learning_rate": 0.0004537322516715505,
      "loss": 2.6296,
      "step": 4247
    },
    {
      "epoch": 0.543744,
      "grad_norm": 0.34419316053390503,
      "learning_rate": 0.00045352583403025825,
      "loss": 2.6289,
      "step": 4248
    },
    {
      "epoch": 0.543872,
      "grad_norm": 0.3621658682823181,
      "learning_rate": 0.000453319424378414,
      "loss": 2.5618,
      "step": 4249
    },
    {
      "epoch": 0.544,
      "grad_norm": 0.35762396454811096,
      "learning_rate": 0.0004531130227515019,
      "loss": 2.6109,
      "step": 4250
    },
    {
      "epoch": 0.544128,
      "grad_norm": 0.365257203578949,
      "learning_rate": 0.00045290662918500465,
      "loss": 2.6376,
      "step": 4251
    },
    {
      "epoch": 0.544256,
      "grad_norm": 0.4395175576210022,
      "learning_rate": 0.00045270024371440385,
      "loss": 2.6153,
      "step": 4252
    },
    {
      "epoch": 0.544384,
      "grad_norm": 0.38141974806785583,
      "learning_rate": 0.00045249386637517954,
      "loss": 2.7689,
      "step": 4253
    },
    {
      "epoch": 0.544512,
      "grad_norm": 0.3790428042411804,
      "learning_rate": 0.00045228749720281023,
      "loss": 2.6185,
      "step": 4254
    },
    {
      "epoch": 0.54464,
      "grad_norm": 0.3457563519477844,
      "learning_rate": 0.0004520811362327731,
      "loss": 2.6076,
      "step": 4255
    },
    {
      "epoch": 0.544768,
      "grad_norm": 0.40657952427864075,
      "learning_rate": 0.00045187478350054445,
      "loss": 2.6712,
      "step": 4256
    },
    {
      "epoch": 0.544896,
      "grad_norm": 0.3883192837238312,
      "learning_rate": 0.0004516684390415985,
      "loss": 2.5813,
      "step": 4257
    },
    {
      "epoch": 0.545024,
      "grad_norm": 0.3558160364627838,
      "learning_rate": 0.000451462102891408,
      "loss": 2.5857,
      "step": 4258
    },
    {
      "epoch": 0.545152,
      "grad_norm": 0.3681928813457489,
      "learning_rate": 0.0004512557750854448,
      "loss": 2.7108,
      "step": 4259
    },
    {
      "epoch": 0.54528,
      "grad_norm": 0.3960082232952118,
      "learning_rate": 0.000451049455659179,
      "loss": 2.7176,
      "step": 4260
    },
    {
      "epoch": 0.545408,
      "grad_norm": 0.36471664905548096,
      "learning_rate": 0.00045084314464807914,
      "loss": 2.6099,
      "step": 4261
    },
    {
      "epoch": 0.545536,
      "grad_norm": 0.35205158591270447,
      "learning_rate": 0.00045063684208761267,
      "loss": 2.5513,
      "step": 4262
    },
    {
      "epoch": 0.545664,
      "grad_norm": 0.3724238872528076,
      "learning_rate": 0.00045043054801324533,
      "loss": 2.6169,
      "step": 4263
    },
    {
      "epoch": 0.545792,
      "grad_norm": 0.43494513630867004,
      "learning_rate": 0.00045022426246044134,
      "loss": 2.5677,
      "step": 4264
    },
    {
      "epoch": 0.54592,
      "grad_norm": 0.34938353300094604,
      "learning_rate": 0.0004500179854646637,
      "loss": 2.6559,
      "step": 4265
    },
    {
      "epoch": 0.546048,
      "grad_norm": 0.37427330017089844,
      "learning_rate": 0.00044981171706137376,
      "loss": 2.5864,
      "step": 4266
    },
    {
      "epoch": 0.546176,
      "grad_norm": 0.35447949171066284,
      "learning_rate": 0.00044960545728603163,
      "loss": 2.5986,
      "step": 4267
    },
    {
      "epoch": 0.546304,
      "grad_norm": 0.3665326237678528,
      "learning_rate": 0.0004493992061740956,
      "loss": 2.737,
      "step": 4268
    },
    {
      "epoch": 0.546432,
      "grad_norm": 0.41755226254463196,
      "learning_rate": 0.00044919296376102254,
      "loss": 2.6268,
      "step": 4269
    },
    {
      "epoch": 0.54656,
      "grad_norm": 0.35769912600517273,
      "learning_rate": 0.0004489867300822681,
      "loss": 2.5446,
      "step": 4270
    },
    {
      "epoch": 0.546688,
      "grad_norm": 0.3708254396915436,
      "learning_rate": 0.0004487805051732862,
      "loss": 2.602,
      "step": 4271
    },
    {
      "epoch": 0.546816,
      "grad_norm": 0.4853494167327881,
      "learning_rate": 0.00044857428906952914,
      "loss": 2.6125,
      "step": 4272
    },
    {
      "epoch": 0.546944,
      "grad_norm": 0.3652001619338989,
      "learning_rate": 0.00044836808180644805,
      "loss": 2.5263,
      "step": 4273
    },
    {
      "epoch": 0.547072,
      "grad_norm": 0.4214410185813904,
      "learning_rate": 0.00044816188341949205,
      "loss": 2.6697,
      "step": 4274
    },
    {
      "epoch": 0.5472,
      "grad_norm": 0.34713220596313477,
      "learning_rate": 0.00044795569394410947,
      "loss": 2.6438,
      "step": 4275
    },
    {
      "epoch": 0.547328,
      "grad_norm": 0.3651147782802582,
      "learning_rate": 0.00044774951341574633,
      "loss": 2.4152,
      "step": 4276
    },
    {
      "epoch": 0.547456,
      "grad_norm": 0.39003074169158936,
      "learning_rate": 0.0004475433418698477,
      "loss": 2.6828,
      "step": 4277
    },
    {
      "epoch": 0.547584,
      "grad_norm": 0.36610740423202515,
      "learning_rate": 0.0004473371793418567,
      "loss": 2.6331,
      "step": 4278
    },
    {
      "epoch": 0.547712,
      "grad_norm": 0.3835926651954651,
      "learning_rate": 0.000447131025867215,
      "loss": 2.6291,
      "step": 4279
    },
    {
      "epoch": 0.54784,
      "grad_norm": 0.36980730295181274,
      "learning_rate": 0.000446924881481363,
      "loss": 2.6712,
      "step": 4280
    },
    {
      "epoch": 0.547968,
      "grad_norm": 0.3531988263130188,
      "learning_rate": 0.0004467187462197392,
      "loss": 2.4743,
      "step": 4281
    },
    {
      "epoch": 0.548096,
      "grad_norm": 0.35873591899871826,
      "learning_rate": 0.00044651262011778046,
      "loss": 2.6372,
      "step": 4282
    },
    {
      "epoch": 0.548224,
      "grad_norm": 0.3574191927909851,
      "learning_rate": 0.00044630650321092236,
      "loss": 2.5372,
      "step": 4283
    },
    {
      "epoch": 0.548352,
      "grad_norm": 0.3743700385093689,
      "learning_rate": 0.00044610039553459884,
      "loss": 2.5213,
      "step": 4284
    },
    {
      "epoch": 0.54848,
      "grad_norm": 0.3958282768726349,
      "learning_rate": 0.0004458942971242423,
      "loss": 2.6433,
      "step": 4285
    },
    {
      "epoch": 0.548608,
      "grad_norm": 0.3813181221485138,
      "learning_rate": 0.0004456882080152834,
      "loss": 2.663,
      "step": 4286
    },
    {
      "epoch": 0.548736,
      "grad_norm": 0.3631788194179535,
      "learning_rate": 0.00044548212824315104,
      "loss": 2.6651,
      "step": 4287
    },
    {
      "epoch": 0.548864,
      "grad_norm": 0.401325523853302,
      "learning_rate": 0.0004452760578432729,
      "loss": 2.6577,
      "step": 4288
    },
    {
      "epoch": 0.548992,
      "grad_norm": 0.3969651460647583,
      "learning_rate": 0.0004450699968510749,
      "loss": 2.6399,
      "step": 4289
    },
    {
      "epoch": 0.54912,
      "grad_norm": 0.3599275052547455,
      "learning_rate": 0.00044486394530198116,
      "loss": 2.621,
      "step": 4290
    },
    {
      "epoch": 0.549248,
      "grad_norm": 0.36914947628974915,
      "learning_rate": 0.00044465790323141446,
      "loss": 2.6592,
      "step": 4291
    },
    {
      "epoch": 0.549376,
      "grad_norm": 0.36121344566345215,
      "learning_rate": 0.0004444518706747956,
      "loss": 2.6198,
      "step": 4292
    },
    {
      "epoch": 0.549504,
      "grad_norm": 0.36766570806503296,
      "learning_rate": 0.0004442458476675443,
      "loss": 2.5373,
      "step": 4293
    },
    {
      "epoch": 0.549632,
      "grad_norm": 0.461791455745697,
      "learning_rate": 0.0004440398342450781,
      "loss": 2.5259,
      "step": 4294
    },
    {
      "epoch": 0.54976,
      "grad_norm": 0.38062331080436707,
      "learning_rate": 0.0004438338304428132,
      "loss": 2.5669,
      "step": 4295
    },
    {
      "epoch": 0.549888,
      "grad_norm": 0.3778991401195526,
      "learning_rate": 0.000443627836296164,
      "loss": 2.592,
      "step": 4296
    },
    {
      "epoch": 0.550016,
      "grad_norm": 0.37600746750831604,
      "learning_rate": 0.00044342185184054314,
      "loss": 2.57,
      "step": 4297
    },
    {
      "epoch": 0.550144,
      "grad_norm": 0.39566901326179504,
      "learning_rate": 0.00044321587711136195,
      "loss": 2.6968,
      "step": 4298
    },
    {
      "epoch": 0.550272,
      "grad_norm": 0.37190383672714233,
      "learning_rate": 0.00044300991214402986,
      "loss": 2.6231,
      "step": 4299
    },
    {
      "epoch": 0.5504,
      "grad_norm": 0.3820054531097412,
      "learning_rate": 0.00044280395697395437,
      "loss": 2.4862,
      "step": 4300
    },
    {
      "epoch": 0.550528,
      "grad_norm": 0.3856721520423889,
      "learning_rate": 0.0004425980116365419,
      "loss": 2.6418,
      "step": 4301
    },
    {
      "epoch": 0.550656,
      "grad_norm": 0.36494460701942444,
      "learning_rate": 0.00044239207616719647,
      "loss": 2.6193,
      "step": 4302
    },
    {
      "epoch": 0.550784,
      "grad_norm": 0.36310306191444397,
      "learning_rate": 0.00044218615060132125,
      "loss": 2.7284,
      "step": 4303
    },
    {
      "epoch": 0.550912,
      "grad_norm": 0.3739510774612427,
      "learning_rate": 0.0004419802349743169,
      "loss": 2.6193,
      "step": 4304
    },
    {
      "epoch": 0.55104,
      "grad_norm": 0.392533540725708,
      "learning_rate": 0.0004417743293215827,
      "loss": 2.681,
      "step": 4305
    },
    {
      "epoch": 0.551168,
      "grad_norm": 0.3515499532222748,
      "learning_rate": 0.0004415684336785164,
      "loss": 2.6038,
      "step": 4306
    },
    {
      "epoch": 0.551296,
      "grad_norm": 0.3728579580783844,
      "learning_rate": 0.0004413625480805138,
      "loss": 2.5638,
      "step": 4307
    },
    {
      "epoch": 0.551424,
      "grad_norm": 0.38484472036361694,
      "learning_rate": 0.0004411566725629688,
      "loss": 2.5498,
      "step": 4308
    },
    {
      "epoch": 0.551552,
      "grad_norm": 0.37176650762557983,
      "learning_rate": 0.00044095080716127414,
      "loss": 2.6022,
      "step": 4309
    },
    {
      "epoch": 0.55168,
      "grad_norm": 0.3810283839702606,
      "learning_rate": 0.0004407449519108202,
      "loss": 2.4523,
      "step": 4310
    },
    {
      "epoch": 0.551808,
      "grad_norm": 0.3712693154811859,
      "learning_rate": 0.00044053910684699576,
      "loss": 2.5746,
      "step": 4311
    },
    {
      "epoch": 0.551936,
      "grad_norm": 0.34654226899147034,
      "learning_rate": 0.00044033327200518834,
      "loss": 2.6659,
      "step": 4312
    },
    {
      "epoch": 0.552064,
      "grad_norm": 0.4401070475578308,
      "learning_rate": 0.00044012744742078327,
      "loss": 2.6199,
      "step": 4313
    },
    {
      "epoch": 0.552192,
      "grad_norm": 0.38893720507621765,
      "learning_rate": 0.0004399216331291641,
      "loss": 2.6294,
      "step": 4314
    },
    {
      "epoch": 0.55232,
      "grad_norm": 0.37042200565338135,
      "learning_rate": 0.0004397158291657125,
      "loss": 2.7138,
      "step": 4315
    },
    {
      "epoch": 0.552448,
      "grad_norm": 0.3956660032272339,
      "learning_rate": 0.0004395100355658089,
      "loss": 2.6367,
      "step": 4316
    },
    {
      "epoch": 0.552576,
      "grad_norm": 0.3927966058254242,
      "learning_rate": 0.0004393042523648315,
      "loss": 2.6006,
      "step": 4317
    },
    {
      "epoch": 0.552704,
      "grad_norm": 0.35666024684906006,
      "learning_rate": 0.0004390984795981566,
      "loss": 2.6513,
      "step": 4318
    },
    {
      "epoch": 0.552832,
      "grad_norm": 0.3465898931026459,
      "learning_rate": 0.0004388927173011592,
      "loss": 2.5483,
      "step": 4319
    },
    {
      "epoch": 0.55296,
      "grad_norm": 0.364884614944458,
      "learning_rate": 0.00043868696550921195,
      "loss": 2.603,
      "step": 4320
    },
    {
      "epoch": 0.553088,
      "grad_norm": 0.38843196630477905,
      "learning_rate": 0.00043848122425768627,
      "loss": 2.6053,
      "step": 4321
    },
    {
      "epoch": 0.553216,
      "grad_norm": 0.3642076253890991,
      "learning_rate": 0.00043827549358195137,
      "loss": 2.6234,
      "step": 4322
    },
    {
      "epoch": 0.553344,
      "grad_norm": 0.3425324857234955,
      "learning_rate": 0.0004380697735173745,
      "loss": 2.5048,
      "step": 4323
    },
    {
      "epoch": 0.553472,
      "grad_norm": 0.37907519936561584,
      "learning_rate": 0.00043786406409932176,
      "loss": 2.7044,
      "step": 4324
    },
    {
      "epoch": 0.5536,
      "grad_norm": 0.353474885225296,
      "learning_rate": 0.00043765836536315667,
      "loss": 2.6351,
      "step": 4325
    },
    {
      "epoch": 0.553728,
      "grad_norm": 0.37315452098846436,
      "learning_rate": 0.0004374526773442412,
      "loss": 2.6396,
      "step": 4326
    },
    {
      "epoch": 0.553856,
      "grad_norm": 0.37116938829421997,
      "learning_rate": 0.00043724700007793574,
      "loss": 2.5482,
      "step": 4327
    },
    {
      "epoch": 0.553984,
      "grad_norm": 0.3924390971660614,
      "learning_rate": 0.00043704133359959846,
      "loss": 2.648,
      "step": 4328
    },
    {
      "epoch": 0.554112,
      "grad_norm": 0.3545863628387451,
      "learning_rate": 0.00043683567794458556,
      "loss": 2.6034,
      "step": 4329
    },
    {
      "epoch": 0.55424,
      "grad_norm": 0.37021803855895996,
      "learning_rate": 0.000436630033148252,
      "loss": 2.587,
      "step": 4330
    },
    {
      "epoch": 0.554368,
      "grad_norm": 0.35602474212646484,
      "learning_rate": 0.00043642439924595057,
      "loss": 2.4962,
      "step": 4331
    },
    {
      "epoch": 0.554496,
      "grad_norm": 0.3962571322917938,
      "learning_rate": 0.00043621877627303185,
      "loss": 2.5882,
      "step": 4332
    },
    {
      "epoch": 0.554624,
      "grad_norm": 0.37422651052474976,
      "learning_rate": 0.00043601316426484485,
      "loss": 2.6402,
      "step": 4333
    },
    {
      "epoch": 0.554752,
      "grad_norm": 0.3586081266403198,
      "learning_rate": 0.00043580756325673674,
      "loss": 2.5996,
      "step": 4334
    },
    {
      "epoch": 0.55488,
      "grad_norm": 0.38057735562324524,
      "learning_rate": 0.0004356019732840528,
      "loss": 2.5827,
      "step": 4335
    },
    {
      "epoch": 0.555008,
      "grad_norm": 0.3648693561553955,
      "learning_rate": 0.000435396394382136,
      "loss": 2.6413,
      "step": 4336
    },
    {
      "epoch": 0.555136,
      "grad_norm": 0.35871514678001404,
      "learning_rate": 0.00043519082658632815,
      "loss": 2.6818,
      "step": 4337
    },
    {
      "epoch": 0.555264,
      "grad_norm": 0.3763923943042755,
      "learning_rate": 0.0004349852699319685,
      "loss": 2.7413,
      "step": 4338
    },
    {
      "epoch": 0.555392,
      "grad_norm": 0.34964337944984436,
      "learning_rate": 0.00043477972445439447,
      "loss": 2.5787,
      "step": 4339
    },
    {
      "epoch": 0.55552,
      "grad_norm": 0.37005814909935,
      "learning_rate": 0.00043457419018894203,
      "loss": 2.5598,
      "step": 4340
    },
    {
      "epoch": 0.555648,
      "grad_norm": 0.380397230386734,
      "learning_rate": 0.0004343686671709448,
      "loss": 2.5525,
      "step": 4341
    },
    {
      "epoch": 0.555776,
      "grad_norm": 0.3677278757095337,
      "learning_rate": 0.00043416315543573465,
      "loss": 2.6595,
      "step": 4342
    },
    {
      "epoch": 0.555904,
      "grad_norm": 0.400017648935318,
      "learning_rate": 0.0004339576550186413,
      "loss": 2.6528,
      "step": 4343
    },
    {
      "epoch": 0.556032,
      "grad_norm": 0.3301135301589966,
      "learning_rate": 0.0004337521659549925,
      "loss": 2.5261,
      "step": 4344
    },
    {
      "epoch": 0.55616,
      "grad_norm": 0.34943148493766785,
      "learning_rate": 0.0004335466882801146,
      "loss": 2.5009,
      "step": 4345
    },
    {
      "epoch": 0.556288,
      "grad_norm": 0.3558892011642456,
      "learning_rate": 0.0004333412220293313,
      "loss": 2.6779,
      "step": 4346
    },
    {
      "epoch": 0.556416,
      "grad_norm": 0.3654298186302185,
      "learning_rate": 0.0004331357672379646,
      "loss": 2.5612,
      "step": 4347
    },
    {
      "epoch": 0.556544,
      "grad_norm": 0.3724655210971832,
      "learning_rate": 0.0004329303239413346,
      "loss": 2.612,
      "step": 4348
    },
    {
      "epoch": 0.556672,
      "grad_norm": 0.3566092550754547,
      "learning_rate": 0.00043272489217475963,
      "loss": 2.5554,
      "step": 4349
    },
    {
      "epoch": 0.5568,
      "grad_norm": 0.3727513253688812,
      "learning_rate": 0.0004325194719735557,
      "loss": 2.5115,
      "step": 4350
    },
    {
      "epoch": 0.556928,
      "grad_norm": 0.3866439461708069,
      "learning_rate": 0.00043231406337303663,
      "loss": 2.7057,
      "step": 4351
    },
    {
      "epoch": 0.557056,
      "grad_norm": 0.3778090178966522,
      "learning_rate": 0.00043210866640851485,
      "loss": 2.5904,
      "step": 4352
    },
    {
      "epoch": 0.557184,
      "grad_norm": 0.3675728142261505,
      "learning_rate": 0.00043190328111530045,
      "loss": 2.5989,
      "step": 4353
    },
    {
      "epoch": 0.557312,
      "grad_norm": 0.3701641857624054,
      "learning_rate": 0.00043169790752870137,
      "loss": 2.5719,
      "step": 4354
    },
    {
      "epoch": 0.55744,
      "grad_norm": 0.4485529959201813,
      "learning_rate": 0.00043149254568402385,
      "loss": 2.5538,
      "step": 4355
    },
    {
      "epoch": 0.557568,
      "grad_norm": 0.3612162470817566,
      "learning_rate": 0.00043128719561657196,
      "loss": 2.5303,
      "step": 4356
    },
    {
      "epoch": 0.557696,
      "grad_norm": 0.37837812304496765,
      "learning_rate": 0.0004310818573616476,
      "loss": 2.6166,
      "step": 4357
    },
    {
      "epoch": 0.557824,
      "grad_norm": 0.3675958216190338,
      "learning_rate": 0.0004308765309545509,
      "loss": 2.5342,
      "step": 4358
    },
    {
      "epoch": 0.557952,
      "grad_norm": 0.4106746017932892,
      "learning_rate": 0.00043067121643058004,
      "loss": 2.5293,
      "step": 4359
    },
    {
      "epoch": 0.55808,
      "grad_norm": 0.3701256215572357,
      "learning_rate": 0.0004304659138250309,
      "loss": 2.6047,
      "step": 4360
    },
    {
      "epoch": 0.558208,
      "grad_norm": 0.3760513961315155,
      "learning_rate": 0.00043026062317319704,
      "loss": 2.6997,
      "step": 4361
    },
    {
      "epoch": 0.558336,
      "grad_norm": 0.38710689544677734,
      "learning_rate": 0.00043005534451037063,
      "loss": 2.5985,
      "step": 4362
    },
    {
      "epoch": 0.558464,
      "grad_norm": 0.3513053059577942,
      "learning_rate": 0.0004298500778718415,
      "loss": 2.5752,
      "step": 4363
    },
    {
      "epoch": 0.558592,
      "grad_norm": 0.3695189654827118,
      "learning_rate": 0.0004296448232928971,
      "loss": 2.5814,
      "step": 4364
    },
    {
      "epoch": 0.55872,
      "grad_norm": 0.3923632800579071,
      "learning_rate": 0.0004294395808088232,
      "loss": 2.5029,
      "step": 4365
    },
    {
      "epoch": 0.558848,
      "grad_norm": 0.4109650254249573,
      "learning_rate": 0.00042923435045490323,
      "loss": 2.6994,
      "step": 4366
    },
    {
      "epoch": 0.558976,
      "grad_norm": 0.37685632705688477,
      "learning_rate": 0.000429029132266419,
      "loss": 2.5595,
      "step": 4367
    },
    {
      "epoch": 0.559104,
      "grad_norm": 0.47021082043647766,
      "learning_rate": 0.0004288239262786497,
      "loss": 2.6603,
      "step": 4368
    },
    {
      "epoch": 0.559232,
      "grad_norm": 0.3695930540561676,
      "learning_rate": 0.0004286187325268725,
      "loss": 2.5528,
      "step": 4369
    },
    {
      "epoch": 0.55936,
      "grad_norm": 0.3632439076900482,
      "learning_rate": 0.00042841355104636283,
      "loss": 2.6762,
      "step": 4370
    },
    {
      "epoch": 0.559488,
      "grad_norm": 0.36653995513916016,
      "learning_rate": 0.00042820838187239364,
      "loss": 2.4886,
      "step": 4371
    },
    {
      "epoch": 0.559616,
      "grad_norm": 0.4420846700668335,
      "learning_rate": 0.00042800322504023573,
      "loss": 2.5646,
      "step": 4372
    },
    {
      "epoch": 0.559744,
      "grad_norm": 0.4522315561771393,
      "learning_rate": 0.00042779808058515824,
      "loss": 2.6151,
      "step": 4373
    },
    {
      "epoch": 0.559872,
      "grad_norm": 0.40368106961250305,
      "learning_rate": 0.00042759294854242773,
      "loss": 2.6053,
      "step": 4374
    },
    {
      "epoch": 0.56,
      "grad_norm": 0.43137311935424805,
      "learning_rate": 0.00042738782894730874,
      "loss": 2.662,
      "step": 4375
    },
    {
      "epoch": 0.560128,
      "grad_norm": 0.35794195532798767,
      "learning_rate": 0.00042718272183506353,
      "loss": 2.5659,
      "step": 4376
    },
    {
      "epoch": 0.560256,
      "grad_norm": 0.3839878737926483,
      "learning_rate": 0.00042697762724095285,
      "loss": 2.5489,
      "step": 4377
    },
    {
      "epoch": 0.560384,
      "grad_norm": 0.3500659763813019,
      "learning_rate": 0.00042677254520023463,
      "loss": 2.5541,
      "step": 4378
    },
    {
      "epoch": 0.560512,
      "grad_norm": 0.3768763840198517,
      "learning_rate": 0.0004265674757481647,
      "loss": 2.7104,
      "step": 4379
    },
    {
      "epoch": 0.56064,
      "grad_norm": 0.36418211460113525,
      "learning_rate": 0.00042636241891999706,
      "loss": 2.6023,
      "step": 4380
    },
    {
      "epoch": 0.560768,
      "grad_norm": 0.39121198654174805,
      "learning_rate": 0.0004261573747509833,
      "loss": 2.4863,
      "step": 4381
    },
    {
      "epoch": 0.560896,
      "grad_norm": 0.3899489641189575,
      "learning_rate": 0.00042595234327637277,
      "loss": 2.518,
      "step": 4382
    },
    {
      "epoch": 0.561024,
      "grad_norm": 0.3934548795223236,
      "learning_rate": 0.000425747324531413,
      "loss": 2.5652,
      "step": 4383
    },
    {
      "epoch": 0.561152,
      "grad_norm": 0.3444853723049164,
      "learning_rate": 0.0004255423185513489,
      "loss": 2.5455,
      "step": 4384
    },
    {
      "epoch": 0.56128,
      "grad_norm": 0.4047163724899292,
      "learning_rate": 0.00042533732537142335,
      "loss": 2.6199,
      "step": 4385
    },
    {
      "epoch": 0.561408,
      "grad_norm": 0.4159132242202759,
      "learning_rate": 0.00042513234502687723,
      "loss": 2.6094,
      "step": 4386
    },
    {
      "epoch": 0.561536,
      "grad_norm": 0.47965940833091736,
      "learning_rate": 0.00042492737755294883,
      "loss": 2.5502,
      "step": 4387
    },
    {
      "epoch": 0.561664,
      "grad_norm": 0.3739074766635895,
      "learning_rate": 0.00042472242298487466,
      "loss": 2.5892,
      "step": 4388
    },
    {
      "epoch": 0.561792,
      "grad_norm": 0.3952760398387909,
      "learning_rate": 0.0004245174813578887,
      "loss": 2.4849,
      "step": 4389
    },
    {
      "epoch": 0.56192,
      "grad_norm": 0.3629276156425476,
      "learning_rate": 0.0004243125527072227,
      "loss": 2.6577,
      "step": 4390
    },
    {
      "epoch": 0.562048,
      "grad_norm": 0.37697476148605347,
      "learning_rate": 0.00042410763706810634,
      "loss": 2.6998,
      "step": 4391
    },
    {
      "epoch": 0.562176,
      "grad_norm": 0.3794064223766327,
      "learning_rate": 0.000423902734475767,
      "loss": 2.559,
      "step": 4392
    },
    {
      "epoch": 0.562304,
      "grad_norm": 0.36974287033081055,
      "learning_rate": 0.00042369784496542977,
      "loss": 2.5898,
      "step": 4393
    },
    {
      "epoch": 0.562432,
      "grad_norm": 0.392873078584671,
      "learning_rate": 0.0004234929685723174,
      "loss": 2.6646,
      "step": 4394
    },
    {
      "epoch": 0.56256,
      "grad_norm": 0.40969929099082947,
      "learning_rate": 0.0004232881053316509,
      "loss": 2.679,
      "step": 4395
    },
    {
      "epoch": 0.562688,
      "grad_norm": 0.38148003816604614,
      "learning_rate": 0.0004230832552786484,
      "loss": 2.5629,
      "step": 4396
    },
    {
      "epoch": 0.562816,
      "grad_norm": 0.36784595251083374,
      "learning_rate": 0.00042287841844852595,
      "loss": 2.5656,
      "step": 4397
    },
    {
      "epoch": 0.562944,
      "grad_norm": 0.4166070520877838,
      "learning_rate": 0.00042267359487649755,
      "loss": 2.7521,
      "step": 4398
    },
    {
      "epoch": 0.563072,
      "grad_norm": 0.36790233850479126,
      "learning_rate": 0.0004224687845977746,
      "loss": 2.6339,
      "step": 4399
    },
    {
      "epoch": 0.5632,
      "grad_norm": 0.3293478190898895,
      "learning_rate": 0.00042226398764756625,
      "loss": 2.651,
      "step": 4400
    },
    {
      "epoch": 0.563328,
      "grad_norm": 0.35145676136016846,
      "learning_rate": 0.0004220592040610798,
      "loss": 2.5403,
      "step": 4401
    },
    {
      "epoch": 0.563456,
      "grad_norm": 0.33120402693748474,
      "learning_rate": 0.0004218544338735197,
      "loss": 2.5822,
      "step": 4402
    },
    {
      "epoch": 0.563584,
      "grad_norm": 0.37759000062942505,
      "learning_rate": 0.0004216496771200881,
      "loss": 2.7242,
      "step": 4403
    },
    {
      "epoch": 0.563712,
      "grad_norm": 0.4122973680496216,
      "learning_rate": 0.0004214449338359856,
      "loss": 2.6246,
      "step": 4404
    },
    {
      "epoch": 0.56384,
      "grad_norm": 0.3851413428783417,
      "learning_rate": 0.00042124020405640955,
      "loss": 2.4872,
      "step": 4405
    },
    {
      "epoch": 0.563968,
      "grad_norm": 0.3641805052757263,
      "learning_rate": 0.00042103548781655554,
      "loss": 2.4987,
      "step": 4406
    },
    {
      "epoch": 0.564096,
      "grad_norm": 0.4259517788887024,
      "learning_rate": 0.00042083078515161665,
      "loss": 2.6558,
      "step": 4407
    },
    {
      "epoch": 0.564224,
      "grad_norm": 0.38118475675582886,
      "learning_rate": 0.00042062609609678353,
      "loss": 2.6105,
      "step": 4408
    },
    {
      "epoch": 0.564352,
      "grad_norm": 0.3965677320957184,
      "learning_rate": 0.0004204214206872448,
      "loss": 2.643,
      "step": 4409
    },
    {
      "epoch": 0.56448,
      "grad_norm": 0.39671871066093445,
      "learning_rate": 0.0004202167589581863,
      "loss": 2.5105,
      "step": 4410
    },
    {
      "epoch": 0.564608,
      "grad_norm": 0.33377936482429504,
      "learning_rate": 0.0004200121109447918,
      "loss": 2.6246,
      "step": 4411
    },
    {
      "epoch": 0.564736,
      "grad_norm": 0.4638180136680603,
      "learning_rate": 0.00041980747668224285,
      "loss": 2.5351,
      "step": 4412
    },
    {
      "epoch": 0.564864,
      "grad_norm": 0.37943458557128906,
      "learning_rate": 0.00041960285620571807,
      "loss": 2.6205,
      "step": 4413
    },
    {
      "epoch": 0.564992,
      "grad_norm": 0.3440277576446533,
      "learning_rate": 0.00041939824955039464,
      "loss": 2.5967,
      "step": 4414
    },
    {
      "epoch": 0.56512,
      "grad_norm": 0.3956814706325531,
      "learning_rate": 0.00041919365675144635,
      "loss": 2.6675,
      "step": 4415
    },
    {
      "epoch": 0.565248,
      "grad_norm": 0.415652334690094,
      "learning_rate": 0.0004189890778440454,
      "loss": 2.6153,
      "step": 4416
    },
    {
      "epoch": 0.565376,
      "grad_norm": 0.37446320056915283,
      "learning_rate": 0.0004187845128633611,
      "loss": 2.5869,
      "step": 4417
    },
    {
      "epoch": 0.565504,
      "grad_norm": 0.34243935346603394,
      "learning_rate": 0.00041857996184456047,
      "loss": 2.4727,
      "step": 4418
    },
    {
      "epoch": 0.565632,
      "grad_norm": 0.34836140275001526,
      "learning_rate": 0.00041837542482280846,
      "loss": 2.6383,
      "step": 4419
    },
    {
      "epoch": 0.56576,
      "grad_norm": 0.390592485666275,
      "learning_rate": 0.0004181709018332671,
      "loss": 2.6187,
      "step": 4420
    },
    {
      "epoch": 0.565888,
      "grad_norm": 0.3585417568683624,
      "learning_rate": 0.0004179663929110963,
      "loss": 2.5309,
      "step": 4421
    },
    {
      "epoch": 0.566016,
      "grad_norm": 0.4047732651233673,
      "learning_rate": 0.0004177618980914536,
      "loss": 2.5412,
      "step": 4422
    },
    {
      "epoch": 0.566144,
      "grad_norm": 0.4643716812133789,
      "learning_rate": 0.000417557417409494,
      "loss": 2.4991,
      "step": 4423
    },
    {
      "epoch": 0.566272,
      "grad_norm": 0.3806406855583191,
      "learning_rate": 0.0004173529509003702,
      "loss": 2.6789,
      "step": 4424
    },
    {
      "epoch": 0.5664,
      "grad_norm": 0.3818201720714569,
      "learning_rate": 0.00041714849859923227,
      "loss": 2.6397,
      "step": 4425
    },
    {
      "epoch": 0.566528,
      "grad_norm": 0.3576277792453766,
      "learning_rate": 0.0004169440605412278,
      "loss": 2.625,
      "step": 4426
    },
    {
      "epoch": 0.566656,
      "grad_norm": 0.3892808258533478,
      "learning_rate": 0.00041673963676150226,
      "loss": 2.7385,
      "step": 4427
    },
    {
      "epoch": 0.566784,
      "grad_norm": 0.35954245924949646,
      "learning_rate": 0.0004165352272951985,
      "loss": 2.6191,
      "step": 4428
    },
    {
      "epoch": 0.566912,
      "grad_norm": 0.37815433740615845,
      "learning_rate": 0.0004163308321774566,
      "loss": 2.5782,
      "step": 4429
    },
    {
      "epoch": 0.56704,
      "grad_norm": 0.36250409483909607,
      "learning_rate": 0.0004161264514434148,
      "loss": 2.6349,
      "step": 4430
    },
    {
      "epoch": 0.567168,
      "grad_norm": 0.3972410261631012,
      "learning_rate": 0.000415922085128208,
      "loss": 2.6735,
      "step": 4431
    },
    {
      "epoch": 0.567296,
      "grad_norm": 0.41330432891845703,
      "learning_rate": 0.00041571773326696984,
      "loss": 2.6847,
      "step": 4432
    },
    {
      "epoch": 0.567424,
      "grad_norm": 0.38175126910209656,
      "learning_rate": 0.00041551339589483016,
      "loss": 2.6002,
      "step": 4433
    },
    {
      "epoch": 0.567552,
      "grad_norm": 0.3837224245071411,
      "learning_rate": 0.0004153090730469174,
      "loss": 2.514,
      "step": 4434
    },
    {
      "epoch": 0.56768,
      "grad_norm": 0.36794397234916687,
      "learning_rate": 0.0004151047647583568,
      "loss": 2.6118,
      "step": 4435
    },
    {
      "epoch": 0.567808,
      "grad_norm": 0.6254974007606506,
      "learning_rate": 0.00041490047106427114,
      "loss": 2.5063,
      "step": 4436
    },
    {
      "epoch": 0.567936,
      "grad_norm": 0.4131176769733429,
      "learning_rate": 0.00041469619199978124,
      "loss": 2.5651,
      "step": 4437
    },
    {
      "epoch": 0.568064,
      "grad_norm": 0.6830186247825623,
      "learning_rate": 0.0004144919276000048,
      "loss": 2.6506,
      "step": 4438
    },
    {
      "epoch": 0.568192,
      "grad_norm": 0.4251888692378998,
      "learning_rate": 0.00041428767790005727,
      "loss": 2.7103,
      "step": 4439
    },
    {
      "epoch": 0.56832,
      "grad_norm": 0.4149116575717926,
      "learning_rate": 0.0004140834429350515,
      "loss": 2.6712,
      "step": 4440
    },
    {
      "epoch": 0.568448,
      "grad_norm": 0.3953709006309509,
      "learning_rate": 0.000413879222740098,
      "loss": 2.597,
      "step": 4441
    },
    {
      "epoch": 0.568576,
      "grad_norm": 0.37383291125297546,
      "learning_rate": 0.00041367501735030453,
      "loss": 2.6229,
      "step": 4442
    },
    {
      "epoch": 0.568704,
      "grad_norm": 0.3741358518600464,
      "learning_rate": 0.0004134708268007764,
      "loss": 2.7645,
      "step": 4443
    },
    {
      "epoch": 0.568832,
      "grad_norm": 0.3737790286540985,
      "learning_rate": 0.00041326665112661614,
      "loss": 2.5196,
      "step": 4444
    },
    {
      "epoch": 0.56896,
      "grad_norm": 0.3622394800186157,
      "learning_rate": 0.0004130624903629242,
      "loss": 2.6191,
      "step": 4445
    },
    {
      "epoch": 0.569088,
      "grad_norm": 0.37319308519363403,
      "learning_rate": 0.00041285834454479796,
      "loss": 2.4966,
      "step": 4446
    },
    {
      "epoch": 0.569216,
      "grad_norm": 0.3726741373538971,
      "learning_rate": 0.00041265421370733247,
      "loss": 2.5963,
      "step": 4447
    },
    {
      "epoch": 0.569344,
      "grad_norm": 0.4598803222179413,
      "learning_rate": 0.00041245009788562037,
      "loss": 2.6863,
      "step": 4448
    },
    {
      "epoch": 0.569472,
      "grad_norm": 0.36383306980133057,
      "learning_rate": 0.0004122459971147514,
      "loss": 2.6379,
      "step": 4449
    },
    {
      "epoch": 0.5696,
      "grad_norm": 0.4093632996082306,
      "learning_rate": 0.0004120419114298126,
      "loss": 2.6041,
      "step": 4450
    },
    {
      "epoch": 0.569728,
      "grad_norm": 0.4124009609222412,
      "learning_rate": 0.00041183784086588904,
      "loss": 2.6025,
      "step": 4451
    },
    {
      "epoch": 0.569856,
      "grad_norm": 0.3860558569431305,
      "learning_rate": 0.00041163378545806286,
      "loss": 2.693,
      "step": 4452
    },
    {
      "epoch": 0.569984,
      "grad_norm": 0.4225773513317108,
      "learning_rate": 0.0004114297452414133,
      "loss": 2.5625,
      "step": 4453
    },
    {
      "epoch": 0.570112,
      "grad_norm": 0.43237701058387756,
      "learning_rate": 0.0004112257202510173,
      "loss": 2.6068,
      "step": 4454
    },
    {
      "epoch": 0.57024,
      "grad_norm": 0.3475480377674103,
      "learning_rate": 0.0004110217105219492,
      "loss": 2.5159,
      "step": 4455
    },
    {
      "epoch": 0.570368,
      "grad_norm": 0.3880118429660797,
      "learning_rate": 0.00041081771608928065,
      "loss": 2.591,
      "step": 4456
    },
    {
      "epoch": 0.570496,
      "grad_norm": 0.33851951360702515,
      "learning_rate": 0.0004106137369880804,
      "loss": 2.496,
      "step": 4457
    },
    {
      "epoch": 0.570624,
      "grad_norm": 0.4242544174194336,
      "learning_rate": 0.0004104097732534152,
      "loss": 2.6014,
      "step": 4458
    },
    {
      "epoch": 0.570752,
      "grad_norm": 0.4094797372817993,
      "learning_rate": 0.0004102058249203483,
      "loss": 2.6964,
      "step": 4459
    },
    {
      "epoch": 0.57088,
      "grad_norm": 0.36951661109924316,
      "learning_rate": 0.0004100018920239414,
      "loss": 2.6442,
      "step": 4460
    },
    {
      "epoch": 0.571008,
      "grad_norm": 0.3536529839038849,
      "learning_rate": 0.00040979797459925253,
      "loss": 2.7111,
      "step": 4461
    },
    {
      "epoch": 0.571136,
      "grad_norm": 0.35844773054122925,
      "learning_rate": 0.00040959407268133745,
      "loss": 2.5636,
      "step": 4462
    },
    {
      "epoch": 0.571264,
      "grad_norm": 0.36208420991897583,
      "learning_rate": 0.0004093901863052495,
      "loss": 2.6065,
      "step": 4463
    },
    {
      "epoch": 0.571392,
      "grad_norm": 0.412570595741272,
      "learning_rate": 0.0004091863155060389,
      "loss": 2.642,
      "step": 4464
    },
    {
      "epoch": 0.57152,
      "grad_norm": 0.3198433518409729,
      "learning_rate": 0.0004089824603187534,
      "loss": 2.6391,
      "step": 4465
    },
    {
      "epoch": 0.571648,
      "grad_norm": 0.38418516516685486,
      "learning_rate": 0.00040877862077843825,
      "loss": 2.6586,
      "step": 4466
    },
    {
      "epoch": 0.571776,
      "grad_norm": 0.3435453772544861,
      "learning_rate": 0.00040857479692013566,
      "loss": 2.6527,
      "step": 4467
    },
    {
      "epoch": 0.571904,
      "grad_norm": 0.4835376441478729,
      "learning_rate": 0.00040837098877888523,
      "loss": 2.5945,
      "step": 4468
    },
    {
      "epoch": 0.572032,
      "grad_norm": 0.3728664517402649,
      "learning_rate": 0.0004081671963897241,
      "loss": 2.6036,
      "step": 4469
    },
    {
      "epoch": 0.57216,
      "grad_norm": 0.4028136432170868,
      "learning_rate": 0.0004079634197876867,
      "loss": 2.5308,
      "step": 4470
    },
    {
      "epoch": 0.572288,
      "grad_norm": 0.369683176279068,
      "learning_rate": 0.00040775965900780443,
      "loss": 2.5752,
      "step": 4471
    },
    {
      "epoch": 0.572416,
      "grad_norm": 0.3515091836452484,
      "learning_rate": 0.000407555914085106,
      "loss": 2.4521,
      "step": 4472
    },
    {
      "epoch": 0.572544,
      "grad_norm": 0.3880325257778168,
      "learning_rate": 0.0004073521850546177,
      "loss": 2.8312,
      "step": 4473
    },
    {
      "epoch": 0.572672,
      "grad_norm": 0.3934164345264435,
      "learning_rate": 0.00040714847195136294,
      "loss": 2.6089,
      "step": 4474
    },
    {
      "epoch": 0.5728,
      "grad_norm": 0.408489853143692,
      "learning_rate": 0.00040694477481036215,
      "loss": 2.5648,
      "step": 4475
    },
    {
      "epoch": 0.572928,
      "grad_norm": 0.6248394846916199,
      "learning_rate": 0.00040674109366663344,
      "loss": 2.5459,
      "step": 4476
    },
    {
      "epoch": 0.573056,
      "grad_norm": 0.344535768032074,
      "learning_rate": 0.00040653742855519166,
      "loss": 2.5915,
      "step": 4477
    },
    {
      "epoch": 0.573184,
      "grad_norm": 0.4171091318130493,
      "learning_rate": 0.00040633377951104966,
      "loss": 2.5226,
      "step": 4478
    },
    {
      "epoch": 0.573312,
      "grad_norm": 0.35234734416007996,
      "learning_rate": 0.00040613014656921677,
      "loss": 2.5872,
      "step": 4479
    },
    {
      "epoch": 0.57344,
      "grad_norm": 0.36316585540771484,
      "learning_rate": 0.0004059265297646999,
      "loss": 2.5336,
      "step": 4480
    },
    {
      "epoch": 0.573568,
      "grad_norm": 0.41982194781303406,
      "learning_rate": 0.0004057229291325032,
      "loss": 2.6169,
      "step": 4481
    },
    {
      "epoch": 0.573696,
      "grad_norm": 0.3887256681919098,
      "learning_rate": 0.00040551934470762797,
      "loss": 2.6053,
      "step": 4482
    },
    {
      "epoch": 0.573824,
      "grad_norm": 0.38804855942726135,
      "learning_rate": 0.00040531577652507255,
      "loss": 2.6084,
      "step": 4483
    },
    {
      "epoch": 0.573952,
      "grad_norm": 0.3866615891456604,
      "learning_rate": 0.000405112224619833,
      "loss": 2.5741,
      "step": 4484
    },
    {
      "epoch": 0.57408,
      "grad_norm": 0.40421396493911743,
      "learning_rate": 0.00040490868902690204,
      "loss": 2.5274,
      "step": 4485
    },
    {
      "epoch": 0.574208,
      "grad_norm": 0.3546660840511322,
      "learning_rate": 0.0004047051697812697,
      "loss": 2.6888,
      "step": 4486
    },
    {
      "epoch": 0.574336,
      "grad_norm": 0.38236624002456665,
      "learning_rate": 0.00040450166691792327,
      "loss": 2.5679,
      "step": 4487
    },
    {
      "epoch": 0.574464,
      "grad_norm": 0.36434227228164673,
      "learning_rate": 0.00040429818047184774,
      "loss": 2.5663,
      "step": 4488
    },
    {
      "epoch": 0.574592,
      "grad_norm": 0.39813074469566345,
      "learning_rate": 0.00040409471047802436,
      "loss": 2.6443,
      "step": 4489
    },
    {
      "epoch": 0.57472,
      "grad_norm": 0.3876490294933319,
      "learning_rate": 0.000403891256971432,
      "loss": 2.6769,
      "step": 4490
    },
    {
      "epoch": 0.574848,
      "grad_norm": 0.38564333319664,
      "learning_rate": 0.0004036878199870469,
      "loss": 2.6052,
      "step": 4491
    },
    {
      "epoch": 0.574976,
      "grad_norm": 0.36297768354415894,
      "learning_rate": 0.00040348439955984204,
      "loss": 2.6676,
      "step": 4492
    },
    {
      "epoch": 0.575104,
      "grad_norm": 0.37068694829940796,
      "learning_rate": 0.0004032809957247877,
      "loss": 2.5678,
      "step": 4493
    },
    {
      "epoch": 0.575232,
      "grad_norm": 0.4338058829307556,
      "learning_rate": 0.0004030776085168516,
      "loss": 2.5129,
      "step": 4494
    },
    {
      "epoch": 0.57536,
      "grad_norm": 0.35645702481269836,
      "learning_rate": 0.0004028742379709982,
      "loss": 2.6379,
      "step": 4495
    },
    {
      "epoch": 0.575488,
      "grad_norm": 0.40865904092788696,
      "learning_rate": 0.000402670884122189,
      "loss": 2.5479,
      "step": 4496
    },
    {
      "epoch": 0.575616,
      "grad_norm": 0.413165420293808,
      "learning_rate": 0.00040246754700538353,
      "loss": 2.6824,
      "step": 4497
    },
    {
      "epoch": 0.575744,
      "grad_norm": 0.387416273355484,
      "learning_rate": 0.0004022642266555372,
      "loss": 2.694,
      "step": 4498
    },
    {
      "epoch": 0.575872,
      "grad_norm": 0.39882177114486694,
      "learning_rate": 0.00040206092310760347,
      "loss": 2.7036,
      "step": 4499
    },
    {
      "epoch": 0.576,
      "grad_norm": 0.3650991916656494,
      "learning_rate": 0.00040185763639653246,
      "loss": 2.5857,
      "step": 4500
    },
    {
      "epoch": 0.576128,
      "grad_norm": 0.39767372608184814,
      "learning_rate": 0.0004016543665572714,
      "loss": 2.5875,
      "step": 4501
    },
    {
      "epoch": 0.576256,
      "grad_norm": 0.8617181777954102,
      "learning_rate": 0.000401451113624765,
      "loss": 2.6543,
      "step": 4502
    },
    {
      "epoch": 0.576384,
      "grad_norm": 0.39325201511383057,
      "learning_rate": 0.00040124787763395463,
      "loss": 2.5855,
      "step": 4503
    },
    {
      "epoch": 0.576512,
      "grad_norm": 0.3765258193016052,
      "learning_rate": 0.0004010446586197788,
      "loss": 2.6587,
      "step": 4504
    },
    {
      "epoch": 0.57664,
      "grad_norm": 0.3971811830997467,
      "learning_rate": 0.00040084145661717325,
      "loss": 2.6218,
      "step": 4505
    },
    {
      "epoch": 0.576768,
      "grad_norm": 0.35070469975471497,
      "learning_rate": 0.000400638271661071,
      "loss": 2.6918,
      "step": 4506
    },
    {
      "epoch": 0.576896,
      "grad_norm": 0.40087008476257324,
      "learning_rate": 0.00040043510378640193,
      "loss": 2.683,
      "step": 4507
    },
    {
      "epoch": 0.577024,
      "grad_norm": 0.409682959318161,
      "learning_rate": 0.0004002319530280925,
      "loss": 2.5801,
      "step": 4508
    },
    {
      "epoch": 0.577152,
      "grad_norm": 0.41219592094421387,
      "learning_rate": 0.0004000288194210671,
      "loss": 2.5267,
      "step": 4509
    },
    {
      "epoch": 0.57728,
      "grad_norm": 0.4028174579143524,
      "learning_rate": 0.00039982570300024664,
      "loss": 2.581,
      "step": 4510
    },
    {
      "epoch": 0.577408,
      "grad_norm": 0.35693463683128357,
      "learning_rate": 0.00039962260380054903,
      "loss": 2.6734,
      "step": 4511
    },
    {
      "epoch": 0.577536,
      "grad_norm": 0.3690486252307892,
      "learning_rate": 0.0003994195218568896,
      "loss": 2.5401,
      "step": 4512
    },
    {
      "epoch": 0.577664,
      "grad_norm": 0.40553468465805054,
      "learning_rate": 0.0003992164572041804,
      "loss": 2.6042,
      "step": 4513
    },
    {
      "epoch": 0.577792,
      "grad_norm": 0.40365880727767944,
      "learning_rate": 0.00039901340987733036,
      "loss": 2.6929,
      "step": 4514
    },
    {
      "epoch": 0.57792,
      "grad_norm": 0.3619580864906311,
      "learning_rate": 0.0003988103799112461,
      "loss": 2.6427,
      "step": 4515
    },
    {
      "epoch": 0.578048,
      "grad_norm": 0.36609894037246704,
      "learning_rate": 0.0003986073673408306,
      "loss": 2.6734,
      "step": 4516
    },
    {
      "epoch": 0.578176,
      "grad_norm": 0.39195406436920166,
      "learning_rate": 0.0003984043722009841,
      "loss": 2.5567,
      "step": 4517
    },
    {
      "epoch": 0.578304,
      "grad_norm": 0.3521021008491516,
      "learning_rate": 0.0003982013945266039,
      "loss": 2.7809,
      "step": 4518
    },
    {
      "epoch": 0.578432,
      "grad_norm": 0.36226433515548706,
      "learning_rate": 0.000397998434352584,
      "loss": 2.5593,
      "step": 4519
    },
    {
      "epoch": 0.57856,
      "grad_norm": 0.3736950159072876,
      "learning_rate": 0.0003977954917138159,
      "loss": 2.5623,
      "step": 4520
    },
    {
      "epoch": 0.578688,
      "grad_norm": 0.37648189067840576,
      "learning_rate": 0.00039759256664518753,
      "loss": 2.5046,
      "step": 4521
    },
    {
      "epoch": 0.578816,
      "grad_norm": 0.41783106327056885,
      "learning_rate": 0.0003973896591815841,
      "loss": 2.6202,
      "step": 4522
    },
    {
      "epoch": 0.578944,
      "grad_norm": 0.3747117221355438,
      "learning_rate": 0.0003971867693578879,
      "loss": 2.5994,
      "step": 4523
    },
    {
      "epoch": 0.579072,
      "grad_norm": 0.3640056550502777,
      "learning_rate": 0.00039698389720897774,
      "loss": 2.5771,
      "step": 4524
    },
    {
      "epoch": 0.5792,
      "grad_norm": 0.3823833167552948,
      "learning_rate": 0.00039678104276973016,
      "loss": 2.6077,
      "step": 4525
    },
    {
      "epoch": 0.579328,
      "grad_norm": 0.40774911642074585,
      "learning_rate": 0.0003965782060750178,
      "loss": 2.5683,
      "step": 4526
    },
    {
      "epoch": 0.579456,
      "grad_norm": 0.4618995487689972,
      "learning_rate": 0.00039637538715971095,
      "loss": 2.5084,
      "step": 4527
    },
    {
      "epoch": 0.579584,
      "grad_norm": 0.3854583203792572,
      "learning_rate": 0.00039617258605867633,
      "loss": 2.637,
      "step": 4528
    },
    {
      "epoch": 0.579712,
      "grad_norm": 0.38264599442481995,
      "learning_rate": 0.00039596980280677774,
      "loss": 2.6812,
      "step": 4529
    },
    {
      "epoch": 0.57984,
      "grad_norm": 0.40637022256851196,
      "learning_rate": 0.0003957670374388762,
      "loss": 2.7105,
      "step": 4530
    },
    {
      "epoch": 0.579968,
      "grad_norm": 0.3619074821472168,
      "learning_rate": 0.00039556428998982924,
      "loss": 2.5727,
      "step": 4531
    },
    {
      "epoch": 0.580096,
      "grad_norm": 0.41168007254600525,
      "learning_rate": 0.00039536156049449153,
      "loss": 2.5011,
      "step": 4532
    },
    {
      "epoch": 0.580224,
      "grad_norm": 0.3590295910835266,
      "learning_rate": 0.0003951588489877145,
      "loss": 2.6563,
      "step": 4533
    },
    {
      "epoch": 0.580352,
      "grad_norm": 0.3804602324962616,
      "learning_rate": 0.0003949561555043469,
      "loss": 2.7138,
      "step": 4534
    },
    {
      "epoch": 0.58048,
      "grad_norm": 0.37845227122306824,
      "learning_rate": 0.000394753480079234,
      "loss": 2.6025,
      "step": 4535
    },
    {
      "epoch": 0.580608,
      "grad_norm": 0.35939648747444153,
      "learning_rate": 0.000394550822747218,
      "loss": 2.6011,
      "step": 4536
    },
    {
      "epoch": 0.580736,
      "grad_norm": 0.3779284358024597,
      "learning_rate": 0.00039434818354313787,
      "loss": 2.5475,
      "step": 4537
    },
    {
      "epoch": 0.580864,
      "grad_norm": 0.3835163116455078,
      "learning_rate": 0.00039414556250183,
      "loss": 2.5619,
      "step": 4538
    },
    {
      "epoch": 0.580992,
      "grad_norm": 0.35113099217414856,
      "learning_rate": 0.0003939429596581271,
      "loss": 2.5895,
      "step": 4539
    },
    {
      "epoch": 0.58112,
      "grad_norm": 0.3886769413948059,
      "learning_rate": 0.00039374037504685876,
      "loss": 2.4213,
      "step": 4540
    },
    {
      "epoch": 0.581248,
      "grad_norm": 0.4128984212875366,
      "learning_rate": 0.00039353780870285204,
      "loss": 2.6259,
      "step": 4541
    },
    {
      "epoch": 0.581376,
      "grad_norm": 0.3534410893917084,
      "learning_rate": 0.00039333526066092993,
      "loss": 2.6054,
      "step": 4542
    },
    {
      "epoch": 0.581504,
      "grad_norm": 0.3614514172077179,
      "learning_rate": 0.0003931327309559133,
      "loss": 2.6114,
      "step": 4543
    },
    {
      "epoch": 0.581632,
      "grad_norm": 0.38694798946380615,
      "learning_rate": 0.000392930219622619,
      "loss": 2.6081,
      "step": 4544
    },
    {
      "epoch": 0.58176,
      "grad_norm": 0.39590615034103394,
      "learning_rate": 0.0003927277266958614,
      "loss": 2.6331,
      "step": 4545
    },
    {
      "epoch": 0.581888,
      "grad_norm": 0.3489002585411072,
      "learning_rate": 0.00039252525221045116,
      "loss": 2.5503,
      "step": 4546
    },
    {
      "epoch": 0.582016,
      "grad_norm": 0.3732776939868927,
      "learning_rate": 0.00039232279620119586,
      "loss": 2.6998,
      "step": 4547
    },
    {
      "epoch": 0.582144,
      "grad_norm": 0.3831855058670044,
      "learning_rate": 0.00039212035870290037,
      "loss": 2.5412,
      "step": 4548
    },
    {
      "epoch": 0.582272,
      "grad_norm": 0.3620222508907318,
      "learning_rate": 0.00039191793975036583,
      "loss": 2.7371,
      "step": 4549
    },
    {
      "epoch": 0.5824,
      "grad_norm": 0.35736364126205444,
      "learning_rate": 0.0003917155393783903,
      "loss": 2.5351,
      "step": 4550
    },
    {
      "epoch": 0.582528,
      "grad_norm": 0.38480788469314575,
      "learning_rate": 0.0003915131576217688,
      "loss": 2.4995,
      "step": 4551
    },
    {
      "epoch": 0.582656,
      "grad_norm": 0.36746472120285034,
      "learning_rate": 0.0003913107945152934,
      "loss": 2.589,
      "step": 4552
    },
    {
      "epoch": 0.582784,
      "grad_norm": 0.3610219359397888,
      "learning_rate": 0.0003911084500937525,
      "loss": 2.5456,
      "step": 4553
    },
    {
      "epoch": 0.582912,
      "grad_norm": 0.3742302656173706,
      "learning_rate": 0.00039090612439193127,
      "loss": 2.5873,
      "step": 4554
    },
    {
      "epoch": 0.58304,
      "grad_norm": 0.3691554665565491,
      "learning_rate": 0.00039070381744461217,
      "loss": 2.5775,
      "step": 4555
    },
    {
      "epoch": 0.583168,
      "grad_norm": 0.36032333970069885,
      "learning_rate": 0.0003905015292865738,
      "loss": 2.6984,
      "step": 4556
    },
    {
      "epoch": 0.583296,
      "grad_norm": 0.3661784529685974,
      "learning_rate": 0.00039029925995259204,
      "loss": 2.5201,
      "step": 4557
    },
    {
      "epoch": 0.583424,
      "grad_norm": 0.3825531601905823,
      "learning_rate": 0.00039009700947743907,
      "loss": 2.5569,
      "step": 4558
    },
    {
      "epoch": 0.583552,
      "grad_norm": 0.3749404549598694,
      "learning_rate": 0.00038989477789588443,
      "loss": 2.614,
      "step": 4559
    },
    {
      "epoch": 0.58368,
      "grad_norm": 0.3751949369907379,
      "learning_rate": 0.00038969256524269393,
      "loss": 2.6492,
      "step": 4560
    },
    {
      "epoch": 0.583808,
      "grad_norm": 0.3713572025299072,
      "learning_rate": 0.00038949037155263007,
      "loss": 2.552,
      "step": 4561
    },
    {
      "epoch": 0.583936,
      "grad_norm": 0.3799489438533783,
      "learning_rate": 0.00038928819686045253,
      "loss": 2.6031,
      "step": 4562
    },
    {
      "epoch": 0.584064,
      "grad_norm": 0.32716768980026245,
      "learning_rate": 0.00038908604120091754,
      "loss": 2.5567,
      "step": 4563
    },
    {
      "epoch": 0.584192,
      "grad_norm": 0.34538185596466064,
      "learning_rate": 0.00038888390460877794,
      "loss": 2.6118,
      "step": 4564
    },
    {
      "epoch": 0.58432,
      "grad_norm": 0.3710014522075653,
      "learning_rate": 0.00038868178711878317,
      "loss": 2.562,
      "step": 4565
    },
    {
      "epoch": 0.584448,
      "grad_norm": 0.3795953691005707,
      "learning_rate": 0.0003884796887656798,
      "loss": 2.5956,
      "step": 4566
    },
    {
      "epoch": 0.584576,
      "grad_norm": 0.35826292634010315,
      "learning_rate": 0.00038827760958421077,
      "loss": 2.5862,
      "step": 4567
    },
    {
      "epoch": 0.584704,
      "grad_norm": 0.38947269320487976,
      "learning_rate": 0.0003880755496091158,
      "loss": 2.5811,
      "step": 4568
    },
    {
      "epoch": 0.584832,
      "grad_norm": 0.4049609303474426,
      "learning_rate": 0.00038787350887513144,
      "loss": 2.5853,
      "step": 4569
    },
    {
      "epoch": 0.58496,
      "grad_norm": 0.3717394471168518,
      "learning_rate": 0.00038767148741699063,
      "loss": 2.6102,
      "step": 4570
    },
    {
      "epoch": 0.585088,
      "grad_norm": 0.37621068954467773,
      "learning_rate": 0.00038746948526942353,
      "loss": 2.5517,
      "step": 4571
    },
    {
      "epoch": 0.585216,
      "grad_norm": 0.37593886256217957,
      "learning_rate": 0.0003872675024671564,
      "loss": 2.5648,
      "step": 4572
    },
    {
      "epoch": 0.585344,
      "grad_norm": 0.38659828901290894,
      "learning_rate": 0.00038706553904491257,
      "loss": 2.6031,
      "step": 4573
    },
    {
      "epoch": 0.585472,
      "grad_norm": 0.37053701281547546,
      "learning_rate": 0.00038686359503741185,
      "loss": 2.5372,
      "step": 4574
    },
    {
      "epoch": 0.5856,
      "grad_norm": 0.39067715406417847,
      "learning_rate": 0.0003866616704793706,
      "loss": 2.5528,
      "step": 4575
    },
    {
      "epoch": 0.585728,
      "grad_norm": 0.34919828176498413,
      "learning_rate": 0.0003864597654055023,
      "loss": 2.5346,
      "step": 4576
    },
    {
      "epoch": 0.585856,
      "grad_norm": 0.37365856766700745,
      "learning_rate": 0.00038625787985051654,
      "loss": 2.6358,
      "step": 4577
    },
    {
      "epoch": 0.585984,
      "grad_norm": 0.3805113434791565,
      "learning_rate": 0.0003860560138491199,
      "loss": 2.658,
      "step": 4578
    },
    {
      "epoch": 0.586112,
      "grad_norm": 0.531559944152832,
      "learning_rate": 0.0003858541674360151,
      "loss": 2.6232,
      "step": 4579
    },
    {
      "epoch": 0.58624,
      "grad_norm": 0.3740309476852417,
      "learning_rate": 0.00038565234064590244,
      "loss": 2.559,
      "step": 4580
    },
    {
      "epoch": 0.586368,
      "grad_norm": 0.3762752413749695,
      "learning_rate": 0.00038545053351347815,
      "loss": 2.5701,
      "step": 4581
    },
    {
      "epoch": 0.586496,
      "grad_norm": 0.37920865416526794,
      "learning_rate": 0.00038524874607343506,
      "loss": 2.5417,
      "step": 4582
    },
    {
      "epoch": 0.586624,
      "grad_norm": 0.3739124536514282,
      "learning_rate": 0.00038504697836046274,
      "loss": 2.575,
      "step": 4583
    },
    {
      "epoch": 0.586752,
      "grad_norm": 0.3688793480396271,
      "learning_rate": 0.00038484523040924765,
      "loss": 2.5425,
      "step": 4584
    },
    {
      "epoch": 0.58688,
      "grad_norm": 0.39955273270606995,
      "learning_rate": 0.0003846435022544724,
      "loss": 2.5097,
      "step": 4585
    },
    {
      "epoch": 0.587008,
      "grad_norm": 0.34339550137519836,
      "learning_rate": 0.0003844417939308163,
      "loss": 2.5633,
      "step": 4586
    },
    {
      "epoch": 0.587136,
      "grad_norm": 0.35085269808769226,
      "learning_rate": 0.0003842401054729556,
      "loss": 2.6334,
      "step": 4587
    },
    {
      "epoch": 0.587264,
      "grad_norm": 0.41146746277809143,
      "learning_rate": 0.0003840384369155626,
      "loss": 2.5315,
      "step": 4588
    },
    {
      "epoch": 0.587392,
      "grad_norm": 0.39951059222221375,
      "learning_rate": 0.0003838367882933068,
      "loss": 2.6324,
      "step": 4589
    },
    {
      "epoch": 0.58752,
      "grad_norm": 0.3916693925857544,
      "learning_rate": 0.0003836351596408537,
      "loss": 2.5719,
      "step": 4590
    },
    {
      "epoch": 0.587648,
      "grad_norm": 0.3591058552265167,
      "learning_rate": 0.00038343355099286583,
      "loss": 2.5334,
      "step": 4591
    },
    {
      "epoch": 0.587776,
      "grad_norm": 0.4024312198162079,
      "learning_rate": 0.0003832319623840018,
      "loss": 2.5687,
      "step": 4592
    },
    {
      "epoch": 0.587904,
      "grad_norm": 0.3734533190727234,
      "learning_rate": 0.00038303039384891715,
      "loss": 2.6219,
      "step": 4593
    },
    {
      "epoch": 0.588032,
      "grad_norm": 0.3709983229637146,
      "learning_rate": 0.0003828288454222638,
      "loss": 2.514,
      "step": 4594
    },
    {
      "epoch": 0.58816,
      "grad_norm": 0.39714735746383667,
      "learning_rate": 0.0003826273171386904,
      "loss": 2.5669,
      "step": 4595
    },
    {
      "epoch": 0.588288,
      "grad_norm": 0.44004514813423157,
      "learning_rate": 0.0003824258090328418,
      "loss": 2.6421,
      "step": 4596
    },
    {
      "epoch": 0.588416,
      "grad_norm": 0.3799052834510803,
      "learning_rate": 0.0003822243211393596,
      "loss": 2.562,
      "step": 4597
    },
    {
      "epoch": 0.588544,
      "grad_norm": 0.3924901485443115,
      "learning_rate": 0.0003820228534928818,
      "loss": 2.6247,
      "step": 4598
    },
    {
      "epoch": 0.588672,
      "grad_norm": 0.3685879409313202,
      "learning_rate": 0.0003818214061280435,
      "loss": 2.5723,
      "step": 4599
    },
    {
      "epoch": 0.5888,
      "grad_norm": 0.382951021194458,
      "learning_rate": 0.0003816199790794754,
      "loss": 2.609,
      "step": 4600
    },
    {
      "epoch": 0.588928,
      "grad_norm": 0.3965921998023987,
      "learning_rate": 0.0003814185723818053,
      "loss": 2.5811,
      "step": 4601
    },
    {
      "epoch": 0.589056,
      "grad_norm": 0.3758871853351593,
      "learning_rate": 0.0003812171860696574,
      "loss": 2.6357,
      "step": 4602
    },
    {
      "epoch": 0.589184,
      "grad_norm": 0.35217368602752686,
      "learning_rate": 0.00038101582017765226,
      "loss": 2.4734,
      "step": 4603
    },
    {
      "epoch": 0.589312,
      "grad_norm": 0.36914271116256714,
      "learning_rate": 0.00038081447474040686,
      "loss": 2.5236,
      "step": 4604
    },
    {
      "epoch": 0.58944,
      "grad_norm": 0.3916942775249481,
      "learning_rate": 0.00038061314979253506,
      "loss": 2.5293,
      "step": 4605
    },
    {
      "epoch": 0.589568,
      "grad_norm": 0.375792533159256,
      "learning_rate": 0.0003804118453686469,
      "loss": 2.5577,
      "step": 4606
    },
    {
      "epoch": 0.589696,
      "grad_norm": 0.3687463104724884,
      "learning_rate": 0.0003802105615033488,
      "loss": 2.7727,
      "step": 4607
    },
    {
      "epoch": 0.589824,
      "grad_norm": 0.394305944442749,
      "learning_rate": 0.00038000929823124385,
      "loss": 2.5489,
      "step": 4608
    },
    {
      "epoch": 0.589952,
      "grad_norm": 1.0140129327774048,
      "learning_rate": 0.0003798080555869318,
      "loss": 2.5258,
      "step": 4609
    },
    {
      "epoch": 0.59008,
      "grad_norm": 0.3689023554325104,
      "learning_rate": 0.00037960683360500826,
      "loss": 2.584,
      "step": 4610
    },
    {
      "epoch": 0.590208,
      "grad_norm": 0.3890399932861328,
      "learning_rate": 0.0003794056323200657,
      "loss": 2.5594,
      "step": 4611
    },
    {
      "epoch": 0.590336,
      "grad_norm": 0.39926907420158386,
      "learning_rate": 0.00037920445176669313,
      "loss": 2.5169,
      "step": 4612
    },
    {
      "epoch": 0.590464,
      "grad_norm": 0.36573758721351624,
      "learning_rate": 0.00037900329197947563,
      "loss": 2.5422,
      "step": 4613
    },
    {
      "epoch": 0.590592,
      "grad_norm": 0.4208071827888489,
      "learning_rate": 0.00037880215299299487,
      "loss": 2.5531,
      "step": 4614
    },
    {
      "epoch": 0.59072,
      "grad_norm": 0.41268280148506165,
      "learning_rate": 0.0003786010348418292,
      "loss": 2.6386,
      "step": 4615
    },
    {
      "epoch": 0.590848,
      "grad_norm": 0.3670106828212738,
      "learning_rate": 0.0003783999375605527,
      "loss": 2.5935,
      "step": 4616
    },
    {
      "epoch": 0.590976,
      "grad_norm": 0.412538081407547,
      "learning_rate": 0.0003781988611837369,
      "loss": 2.7319,
      "step": 4617
    },
    {
      "epoch": 0.591104,
      "grad_norm": 0.37457671761512756,
      "learning_rate": 0.000377997805745949,
      "loss": 2.6809,
      "step": 4618
    },
    {
      "epoch": 0.591232,
      "grad_norm": 0.3976619243621826,
      "learning_rate": 0.00037779677128175245,
      "loss": 2.6424,
      "step": 4619
    },
    {
      "epoch": 0.59136,
      "grad_norm": 0.36523503065109253,
      "learning_rate": 0.0003775957578257078,
      "loss": 2.5795,
      "step": 4620
    },
    {
      "epoch": 0.591488,
      "grad_norm": 0.3600740134716034,
      "learning_rate": 0.0003773947654123713,
      "loss": 2.6018,
      "step": 4621
    },
    {
      "epoch": 0.591616,
      "grad_norm": 0.394970178604126,
      "learning_rate": 0.00037719379407629593,
      "loss": 2.6374,
      "step": 4622
    },
    {
      "epoch": 0.591744,
      "grad_norm": 0.34070223569869995,
      "learning_rate": 0.0003769928438520312,
      "loss": 2.5898,
      "step": 4623
    },
    {
      "epoch": 0.591872,
      "grad_norm": 0.35998111963272095,
      "learning_rate": 0.0003767919147741226,
      "loss": 2.7361,
      "step": 4624
    },
    {
      "epoch": 0.592,
      "grad_norm": 0.40531307458877563,
      "learning_rate": 0.000376591006877112,
      "loss": 2.5508,
      "step": 4625
    },
    {
      "epoch": 0.592128,
      "grad_norm": 0.36004966497421265,
      "learning_rate": 0.0003763901201955381,
      "loss": 2.5925,
      "step": 4626
    },
    {
      "epoch": 0.592256,
      "grad_norm": 0.366040974855423,
      "learning_rate": 0.00037618925476393567,
      "loss": 2.6442,
      "step": 4627
    },
    {
      "epoch": 0.592384,
      "grad_norm": 0.3853508234024048,
      "learning_rate": 0.0003759884106168356,
      "loss": 2.6906,
      "step": 4628
    },
    {
      "epoch": 0.592512,
      "grad_norm": 0.3660793900489807,
      "learning_rate": 0.00037578758778876545,
      "loss": 2.5541,
      "step": 4629
    },
    {
      "epoch": 0.59264,
      "grad_norm": 0.35428377985954285,
      "learning_rate": 0.000375586786314249,
      "loss": 2.644,
      "step": 4630
    },
    {
      "epoch": 0.592768,
      "grad_norm": 0.3883195221424103,
      "learning_rate": 0.00037538600622780626,
      "loss": 2.6138,
      "step": 4631
    },
    {
      "epoch": 0.592896,
      "grad_norm": 0.419945627450943,
      "learning_rate": 0.0003751852475639536,
      "loss": 2.6179,
      "step": 4632
    },
    {
      "epoch": 0.593024,
      "grad_norm": 0.35496097803115845,
      "learning_rate": 0.000374984510357204,
      "loss": 2.6802,
      "step": 4633
    },
    {
      "epoch": 0.593152,
      "grad_norm": 0.35323086380958557,
      "learning_rate": 0.00037478379464206635,
      "loss": 2.5673,
      "step": 4634
    },
    {
      "epoch": 0.59328,
      "grad_norm": 0.40643051266670227,
      "learning_rate": 0.00037458310045304584,
      "loss": 2.6391,
      "step": 4635
    },
    {
      "epoch": 0.593408,
      "grad_norm": 0.35001340508461,
      "learning_rate": 0.0003743824278246445,
      "loss": 2.6076,
      "step": 4636
    },
    {
      "epoch": 0.593536,
      "grad_norm": 0.3765924274921417,
      "learning_rate": 0.00037418177679136,
      "loss": 2.5193,
      "step": 4637
    },
    {
      "epoch": 0.593664,
      "grad_norm": 0.3756914436817169,
      "learning_rate": 0.00037398114738768686,
      "loss": 2.4924,
      "step": 4638
    },
    {
      "epoch": 0.593792,
      "grad_norm": 0.3697049021720886,
      "learning_rate": 0.0003737805396481153,
      "loss": 2.5378,
      "step": 4639
    },
    {
      "epoch": 0.59392,
      "grad_norm": 0.4080433249473572,
      "learning_rate": 0.0003735799536071322,
      "loss": 2.5503,
      "step": 4640
    },
    {
      "epoch": 0.594048,
      "grad_norm": 0.6416842341423035,
      "learning_rate": 0.00037337938929922075,
      "loss": 2.4545,
      "step": 4641
    },
    {
      "epoch": 0.594176,
      "grad_norm": 0.3635059893131256,
      "learning_rate": 0.00037317884675886024,
      "loss": 2.5282,
      "step": 4642
    },
    {
      "epoch": 0.594304,
      "grad_norm": 0.37087687849998474,
      "learning_rate": 0.00037297832602052605,
      "loss": 2.5702,
      "step": 4643
    },
    {
      "epoch": 0.594432,
      "grad_norm": 0.36175796389579773,
      "learning_rate": 0.0003727778271186901,
      "loss": 2.5734,
      "step": 4644
    },
    {
      "epoch": 0.59456,
      "grad_norm": 0.3628566861152649,
      "learning_rate": 0.00037257735008782073,
      "loss": 2.642,
      "step": 4645
    },
    {
      "epoch": 0.594688,
      "grad_norm": 0.3709810972213745,
      "learning_rate": 0.00037237689496238214,
      "loss": 2.6461,
      "step": 4646
    },
    {
      "epoch": 0.594816,
      "grad_norm": 0.4180179238319397,
      "learning_rate": 0.00037217646177683465,
      "loss": 2.6324,
      "step": 4647
    },
    {
      "epoch": 0.594944,
      "grad_norm": 0.3853289783000946,
      "learning_rate": 0.00037197605056563544,
      "loss": 2.6934,
      "step": 4648
    },
    {
      "epoch": 0.595072,
      "grad_norm": 0.3491742014884949,
      "learning_rate": 0.00037177566136323726,
      "loss": 2.6294,
      "step": 4649
    },
    {
      "epoch": 0.5952,
      "grad_norm": 0.4024818241596222,
      "learning_rate": 0.00037157529420408933,
      "loss": 2.7277,
      "step": 4650
    },
    {
      "epoch": 0.595328,
      "grad_norm": 0.4016340970993042,
      "learning_rate": 0.0003713749491226372,
      "loss": 2.6297,
      "step": 4651
    },
    {
      "epoch": 0.595456,
      "grad_norm": 0.36363792419433594,
      "learning_rate": 0.00037117462615332254,
      "loss": 2.5927,
      "step": 4652
    },
    {
      "epoch": 0.595584,
      "grad_norm": 0.3642667233943939,
      "learning_rate": 0.00037097432533058283,
      "loss": 2.4467,
      "step": 4653
    },
    {
      "epoch": 0.595712,
      "grad_norm": 0.35065385699272156,
      "learning_rate": 0.00037077404668885264,
      "loss": 2.5763,
      "step": 4654
    },
    {
      "epoch": 0.59584,
      "grad_norm": 0.35813620686531067,
      "learning_rate": 0.00037057379026256184,
      "loss": 2.5931,
      "step": 4655
    },
    {
      "epoch": 0.595968,
      "grad_norm": 0.439832866191864,
      "learning_rate": 0.000370373556086137,
      "loss": 2.7027,
      "step": 4656
    },
    {
      "epoch": 0.596096,
      "grad_norm": 0.3579327464103699,
      "learning_rate": 0.0003701733441940007,
      "loss": 2.6016,
      "step": 4657
    },
    {
      "epoch": 0.596224,
      "grad_norm": 0.3768545985221863,
      "learning_rate": 0.00036997315462057145,
      "loss": 2.5413,
      "step": 4658
    },
    {
      "epoch": 0.596352,
      "grad_norm": 0.3598075807094574,
      "learning_rate": 0.00036977298740026445,
      "loss": 2.6591,
      "step": 4659
    },
    {
      "epoch": 0.59648,
      "grad_norm": 0.3884473741054535,
      "learning_rate": 0.0003695728425674906,
      "loss": 2.4149,
      "step": 4660
    },
    {
      "epoch": 0.596608,
      "grad_norm": 0.36476513743400574,
      "learning_rate": 0.00036937272015665705,
      "loss": 2.5445,
      "step": 4661
    },
    {
      "epoch": 0.596736,
      "grad_norm": 0.38572534918785095,
      "learning_rate": 0.00036917262020216726,
      "loss": 2.6263,
      "step": 4662
    },
    {
      "epoch": 0.596864,
      "grad_norm": 0.38344523310661316,
      "learning_rate": 0.00036897254273842085,
      "loss": 2.6271,
      "step": 4663
    },
    {
      "epoch": 0.596992,
      "grad_norm": 0.4045924246311188,
      "learning_rate": 0.0003687724877998133,
      "loss": 2.6244,
      "step": 4664
    },
    {
      "epoch": 0.59712,
      "grad_norm": 0.4011498987674713,
      "learning_rate": 0.00036857245542073645,
      "loss": 2.646,
      "step": 4665
    },
    {
      "epoch": 0.597248,
      "grad_norm": 0.3729936182498932,
      "learning_rate": 0.00036837244563557814,
      "loss": 2.5764,
      "step": 4666
    },
    {
      "epoch": 0.597376,
      "grad_norm": 0.35408908128738403,
      "learning_rate": 0.0003681724584787225,
      "loss": 2.5295,
      "step": 4667
    },
    {
      "epoch": 0.597504,
      "grad_norm": 0.445201575756073,
      "learning_rate": 0.00036797249398454933,
      "loss": 2.6382,
      "step": 4668
    },
    {
      "epoch": 0.597632,
      "grad_norm": 0.3683268427848816,
      "learning_rate": 0.00036777255218743514,
      "loss": 2.6663,
      "step": 4669
    },
    {
      "epoch": 0.59776,
      "grad_norm": 0.3930894434452057,
      "learning_rate": 0.00036757263312175217,
      "loss": 2.628,
      "step": 4670
    },
    {
      "epoch": 0.597888,
      "grad_norm": 0.3756415843963623,
      "learning_rate": 0.0003673727368218687,
      "loss": 2.6468,
      "step": 4671
    },
    {
      "epoch": 0.598016,
      "grad_norm": 0.39809316396713257,
      "learning_rate": 0.00036717286332214926,
      "loss": 2.5865,
      "step": 4672
    },
    {
      "epoch": 0.598144,
      "grad_norm": 0.3631437122821808,
      "learning_rate": 0.0003669730126569545,
      "loss": 2.5688,
      "step": 4673
    },
    {
      "epoch": 0.598272,
      "grad_norm": 0.3921051323413849,
      "learning_rate": 0.00036677318486064126,
      "loss": 2.5651,
      "step": 4674
    },
    {
      "epoch": 0.5984,
      "grad_norm": 0.37360599637031555,
      "learning_rate": 0.0003665733799675619,
      "loss": 2.5309,
      "step": 4675
    },
    {
      "epoch": 0.598528,
      "grad_norm": 0.3751834034919739,
      "learning_rate": 0.0003663735980120653,
      "loss": 2.7714,
      "step": 4676
    },
    {
      "epoch": 0.598656,
      "grad_norm": 0.38070493936538696,
      "learning_rate": 0.00036617383902849644,
      "loss": 2.5821,
      "step": 4677
    },
    {
      "epoch": 0.598784,
      "grad_norm": 0.38808518648147583,
      "learning_rate": 0.000365974103051196,
      "loss": 2.5673,
      "step": 4678
    },
    {
      "epoch": 0.598912,
      "grad_norm": 0.36764129996299744,
      "learning_rate": 0.0003657743901145011,
      "loss": 2.5901,
      "step": 4679
    },
    {
      "epoch": 0.59904,
      "grad_norm": 0.39058104157447815,
      "learning_rate": 0.00036557470025274454,
      "loss": 2.5826,
      "step": 4680
    },
    {
      "epoch": 0.599168,
      "grad_norm": 0.3750530779361725,
      "learning_rate": 0.0003653750335002552,
      "loss": 2.7135,
      "step": 4681
    },
    {
      "epoch": 0.599296,
      "grad_norm": 0.4046979546546936,
      "learning_rate": 0.00036517538989135865,
      "loss": 2.6352,
      "step": 4682
    },
    {
      "epoch": 0.599424,
      "grad_norm": 0.3776910901069641,
      "learning_rate": 0.0003649757694603754,
      "loss": 2.5913,
      "step": 4683
    },
    {
      "epoch": 0.599552,
      "grad_norm": 0.4219494163990021,
      "learning_rate": 0.00036477617224162285,
      "loss": 2.6842,
      "step": 4684
    },
    {
      "epoch": 0.59968,
      "grad_norm": 0.37819722294807434,
      "learning_rate": 0.0003645765982694139,
      "loss": 2.5404,
      "step": 4685
    },
    {
      "epoch": 0.599808,
      "grad_norm": 0.39970943331718445,
      "learning_rate": 0.0003643770475780576,
      "loss": 2.5625,
      "step": 4686
    },
    {
      "epoch": 0.599936,
      "grad_norm": 0.35525262355804443,
      "learning_rate": 0.00036417752020185916,
      "loss": 2.5926,
      "step": 4687
    },
    {
      "epoch": 0.600064,
      "grad_norm": 0.44781428575515747,
      "learning_rate": 0.0003639780161751196,
      "loss": 2.5517,
      "step": 4688
    },
    {
      "epoch": 0.600192,
      "grad_norm": 0.39152342081069946,
      "learning_rate": 0.00036377853553213593,
      "loss": 2.6452,
      "step": 4689
    },
    {
      "epoch": 0.60032,
      "grad_norm": 0.3941209018230438,
      "learning_rate": 0.00036357907830720116,
      "loss": 2.5721,
      "step": 4690
    },
    {
      "epoch": 0.600448,
      "grad_norm": 0.3550952970981598,
      "learning_rate": 0.0003633796445346044,
      "loss": 2.5402,
      "step": 4691
    },
    {
      "epoch": 0.600576,
      "grad_norm": 0.4088119864463806,
      "learning_rate": 0.00036318023424863053,
      "loss": 2.6599,
      "step": 4692
    },
    {
      "epoch": 0.600704,
      "grad_norm": 0.3729395866394043,
      "learning_rate": 0.00036298084748356076,
      "loss": 2.5939,
      "step": 4693
    },
    {
      "epoch": 0.600832,
      "grad_norm": 0.3725399374961853,
      "learning_rate": 0.0003627814842736715,
      "loss": 2.5269,
      "step": 4694
    },
    {
      "epoch": 0.60096,
      "grad_norm": 0.3692259192466736,
      "learning_rate": 0.000362582144653236,
      "loss": 2.5683,
      "step": 4695
    },
    {
      "epoch": 0.601088,
      "grad_norm": 0.3544846475124359,
      "learning_rate": 0.000362382828656523,
      "loss": 2.7452,
      "step": 4696
    },
    {
      "epoch": 0.601216,
      "grad_norm": 0.3795938789844513,
      "learning_rate": 0.000362183536317797,
      "loss": 2.6754,
      "step": 4697
    },
    {
      "epoch": 0.601344,
      "grad_norm": 0.3822256326675415,
      "learning_rate": 0.0003619842676713189,
      "loss": 2.6273,
      "step": 4698
    },
    {
      "epoch": 0.601472,
      "grad_norm": 0.3492688834667206,
      "learning_rate": 0.00036178502275134507,
      "loss": 2.5757,
      "step": 4699
    },
    {
      "epoch": 0.6016,
      "grad_norm": 0.3947451412677765,
      "learning_rate": 0.0003615858015921283,
      "loss": 2.5691,
      "step": 4700
    },
    {
      "epoch": 0.601728,
      "grad_norm": 0.3415394425392151,
      "learning_rate": 0.00036138660422791667,
      "loss": 2.5679,
      "step": 4701
    },
    {
      "epoch": 0.601856,
      "grad_norm": 0.3633101284503937,
      "learning_rate": 0.000361187430692955,
      "loss": 2.5829,
      "step": 4702
    },
    {
      "epoch": 0.601984,
      "grad_norm": 0.37007591128349304,
      "learning_rate": 0.0003609882810214832,
      "loss": 2.6119,
      "step": 4703
    },
    {
      "epoch": 0.602112,
      "grad_norm": 0.365427702665329,
      "learning_rate": 0.0003607891552477373,
      "loss": 2.6215,
      "step": 4704
    },
    {
      "epoch": 0.60224,
      "grad_norm": 0.4280610680580139,
      "learning_rate": 0.00036059005340594957,
      "loss": 2.5844,
      "step": 4705
    },
    {
      "epoch": 0.602368,
      "grad_norm": 0.37965598702430725,
      "learning_rate": 0.0003603909755303479,
      "loss": 2.5318,
      "step": 4706
    },
    {
      "epoch": 0.602496,
      "grad_norm": 0.3795085847377777,
      "learning_rate": 0.0003601919216551559,
      "loss": 2.5823,
      "step": 4707
    },
    {
      "epoch": 0.602624,
      "grad_norm": 0.39172449707984924,
      "learning_rate": 0.0003599928918145934,
      "loss": 2.5115,
      "step": 4708
    },
    {
      "epoch": 0.602752,
      "grad_norm": 0.36970624327659607,
      "learning_rate": 0.00035979388604287575,
      "loss": 2.6279,
      "step": 4709
    },
    {
      "epoch": 0.60288,
      "grad_norm": 0.5284494757652283,
      "learning_rate": 0.0003595949043742147,
      "loss": 2.5915,
      "step": 4710
    },
    {
      "epoch": 0.603008,
      "grad_norm": 0.35581234097480774,
      "learning_rate": 0.00035939594684281735,
      "loss": 2.5622,
      "step": 4711
    },
    {
      "epoch": 0.603136,
      "grad_norm": 0.39145201444625854,
      "learning_rate": 0.0003591970134828866,
      "loss": 2.613,
      "step": 4712
    },
    {
      "epoch": 0.603264,
      "grad_norm": 0.34556296467781067,
      "learning_rate": 0.00035899810432862166,
      "loss": 2.6234,
      "step": 4713
    },
    {
      "epoch": 0.603392,
      "grad_norm": 0.3760974109172821,
      "learning_rate": 0.0003587992194142173,
      "loss": 2.6108,
      "step": 4714
    },
    {
      "epoch": 0.60352,
      "grad_norm": 0.3880270719528198,
      "learning_rate": 0.00035860035877386385,
      "loss": 2.6513,
      "step": 4715
    },
    {
      "epoch": 0.603648,
      "grad_norm": 1.7737048864364624,
      "learning_rate": 0.0003584015224417482,
      "loss": 2.6494,
      "step": 4716
    },
    {
      "epoch": 0.603776,
      "grad_norm": 0.40072643756866455,
      "learning_rate": 0.0003582027104520523,
      "loss": 2.6327,
      "step": 4717
    },
    {
      "epoch": 0.603904,
      "grad_norm": 0.40296265482902527,
      "learning_rate": 0.0003580039228389541,
      "loss": 2.5816,
      "step": 4718
    },
    {
      "epoch": 0.604032,
      "grad_norm": 0.3751935660839081,
      "learning_rate": 0.00035780515963662786,
      "loss": 2.4394,
      "step": 4719
    },
    {
      "epoch": 0.60416,
      "grad_norm": 0.39392563700675964,
      "learning_rate": 0.0003576064208792433,
      "loss": 2.6071,
      "step": 4720
    },
    {
      "epoch": 0.604288,
      "grad_norm": 0.3585313856601715,
      "learning_rate": 0.0003574077066009657,
      "loss": 2.5705,
      "step": 4721
    },
    {
      "epoch": 0.604416,
      "grad_norm": 0.3662015199661255,
      "learning_rate": 0.0003572090168359563,
      "loss": 2.5274,
      "step": 4722
    },
    {
      "epoch": 0.604544,
      "grad_norm": 0.36867034435272217,
      "learning_rate": 0.0003570103516183724,
      "loss": 2.589,
      "step": 4723
    },
    {
      "epoch": 0.604672,
      "grad_norm": 0.37096643447875977,
      "learning_rate": 0.00035681171098236674,
      "loss": 2.6473,
      "step": 4724
    },
    {
      "epoch": 0.6048,
      "grad_norm": 0.37771251797676086,
      "learning_rate": 0.0003566130949620878,
      "loss": 2.4785,
      "step": 4725
    },
    {
      "epoch": 0.604928,
      "grad_norm": 0.39130324125289917,
      "learning_rate": 0.0003564145035916803,
      "loss": 2.7334,
      "step": 4726
    },
    {
      "epoch": 0.605056,
      "grad_norm": 0.360330194234848,
      "learning_rate": 0.000356215936905284,
      "loss": 2.6395,
      "step": 4727
    },
    {
      "epoch": 0.605184,
      "grad_norm": 0.3653251528739929,
      "learning_rate": 0.00035601739493703515,
      "loss": 2.6016,
      "step": 4728
    },
    {
      "epoch": 0.605312,
      "grad_norm": 0.38264182209968567,
      "learning_rate": 0.00035581887772106536,
      "loss": 2.6172,
      "step": 4729
    },
    {
      "epoch": 0.60544,
      "grad_norm": 0.39764729142189026,
      "learning_rate": 0.00035562038529150184,
      "loss": 2.6117,
      "step": 4730
    },
    {
      "epoch": 0.605568,
      "grad_norm": 0.3729860484600067,
      "learning_rate": 0.00035542191768246807,
      "loss": 2.6118,
      "step": 4731
    },
    {
      "epoch": 0.605696,
      "grad_norm": 0.37633588910102844,
      "learning_rate": 0.0003552234749280827,
      "loss": 2.4477,
      "step": 4732
    },
    {
      "epoch": 0.605824,
      "grad_norm": 0.38596200942993164,
      "learning_rate": 0.00035502505706246025,
      "loss": 2.5938,
      "step": 4733
    },
    {
      "epoch": 0.605952,
      "grad_norm": 0.37635281682014465,
      "learning_rate": 0.0003548266641197113,
      "loss": 2.5016,
      "step": 4734
    },
    {
      "epoch": 0.60608,
      "grad_norm": 0.3807317018508911,
      "learning_rate": 0.0003546282961339418,
      "loss": 2.5128,
      "step": 4735
    },
    {
      "epoch": 0.606208,
      "grad_norm": 0.37181782722473145,
      "learning_rate": 0.0003544299531392533,
      "loss": 2.5833,
      "step": 4736
    },
    {
      "epoch": 0.606336,
      "grad_norm": 0.3869670629501343,
      "learning_rate": 0.00035423163516974356,
      "loss": 2.5708,
      "step": 4737
    },
    {
      "epoch": 0.606464,
      "grad_norm": 0.3651609718799591,
      "learning_rate": 0.0003540333422595057,
      "loss": 2.5682,
      "step": 4738
    },
    {
      "epoch": 0.606592,
      "grad_norm": 0.37915152311325073,
      "learning_rate": 0.0003538350744426285,
      "loss": 2.6256,
      "step": 4739
    },
    {
      "epoch": 0.60672,
      "grad_norm": 0.3867451846599579,
      "learning_rate": 0.0003536368317531963,
      "loss": 2.6023,
      "step": 4740
    },
    {
      "epoch": 0.606848,
      "grad_norm": 0.38406604528427124,
      "learning_rate": 0.00035343861422528974,
      "loss": 2.5625,
      "step": 4741
    },
    {
      "epoch": 0.606976,
      "grad_norm": 0.3767181932926178,
      "learning_rate": 0.00035324042189298447,
      "loss": 2.5864,
      "step": 4742
    },
    {
      "epoch": 0.607104,
      "grad_norm": 0.36768290400505066,
      "learning_rate": 0.00035304225479035193,
      "loss": 2.5802,
      "step": 4743
    },
    {
      "epoch": 0.607232,
      "grad_norm": 0.3771935999393463,
      "learning_rate": 0.0003528441129514595,
      "loss": 2.5808,
      "step": 4744
    },
    {
      "epoch": 0.60736,
      "grad_norm": 0.3771112263202667,
      "learning_rate": 0.0003526459964103701,
      "loss": 2.545,
      "step": 4745
    },
    {
      "epoch": 0.607488,
      "grad_norm": 0.3758449852466583,
      "learning_rate": 0.000352447905201142,
      "loss": 2.4837,
      "step": 4746
    },
    {
      "epoch": 0.607616,
      "grad_norm": 0.4301581084728241,
      "learning_rate": 0.0003522498393578297,
      "loss": 2.746,
      "step": 4747
    },
    {
      "epoch": 0.607744,
      "grad_norm": 0.37350383400917053,
      "learning_rate": 0.0003520517989144829,
      "loss": 2.613,
      "step": 4748
    },
    {
      "epoch": 0.607872,
      "grad_norm": 0.38248950242996216,
      "learning_rate": 0.0003518537839051471,
      "loss": 2.602,
      "step": 4749
    },
    {
      "epoch": 0.608,
      "grad_norm": 0.3990026116371155,
      "learning_rate": 0.0003516557943638632,
      "loss": 2.6087,
      "step": 4750
    },
    {
      "epoch": 0.608128,
      "grad_norm": 0.432221382856369,
      "learning_rate": 0.00035145783032466797,
      "loss": 2.4824,
      "step": 4751
    },
    {
      "epoch": 0.608256,
      "grad_norm": 0.35261544585227966,
      "learning_rate": 0.00035125989182159393,
      "loss": 2.7076,
      "step": 4752
    },
    {
      "epoch": 0.608384,
      "grad_norm": 0.41084322333335876,
      "learning_rate": 0.0003510619788886687,
      "loss": 2.5618,
      "step": 4753
    },
    {
      "epoch": 0.608512,
      "grad_norm": 0.35503914952278137,
      "learning_rate": 0.0003508640915599159,
      "loss": 2.6426,
      "step": 4754
    },
    {
      "epoch": 0.60864,
      "grad_norm": 0.40777140855789185,
      "learning_rate": 0.0003506662298693546,
      "loss": 2.5281,
      "step": 4755
    },
    {
      "epoch": 0.608768,
      "grad_norm": 0.3570367693901062,
      "learning_rate": 0.00035046839385099977,
      "loss": 2.5345,
      "step": 4756
    },
    {
      "epoch": 0.608896,
      "grad_norm": 0.3970209062099457,
      "learning_rate": 0.0003502705835388616,
      "loss": 2.6307,
      "step": 4757
    },
    {
      "epoch": 0.609024,
      "grad_norm": 0.39508315920829773,
      "learning_rate": 0.00035007279896694576,
      "loss": 2.5905,
      "step": 4758
    },
    {
      "epoch": 0.609152,
      "grad_norm": 0.3815290331840515,
      "learning_rate": 0.0003498750401692541,
      "loss": 2.6258,
      "step": 4759
    },
    {
      "epoch": 0.60928,
      "grad_norm": 0.3863654136657715,
      "learning_rate": 0.00034967730717978335,
      "loss": 2.6216,
      "step": 4760
    },
    {
      "epoch": 0.609408,
      "grad_norm": 0.37449055910110474,
      "learning_rate": 0.0003494796000325261,
      "loss": 2.6512,
      "step": 4761
    },
    {
      "epoch": 0.609536,
      "grad_norm": 0.3685261309146881,
      "learning_rate": 0.0003492819187614707,
      "loss": 2.6286,
      "step": 4762
    },
    {
      "epoch": 0.609664,
      "grad_norm": 0.4208986461162567,
      "learning_rate": 0.00034908426340060075,
      "loss": 2.5282,
      "step": 4763
    },
    {
      "epoch": 0.609792,
      "grad_norm": 0.38818639516830444,
      "learning_rate": 0.00034888663398389524,
      "loss": 2.5986,
      "step": 4764
    },
    {
      "epoch": 0.60992,
      "grad_norm": 0.38919851183891296,
      "learning_rate": 0.0003486890305453293,
      "loss": 2.6744,
      "step": 4765
    },
    {
      "epoch": 0.610048,
      "grad_norm": 0.5157375931739807,
      "learning_rate": 0.0003484914531188733,
      "loss": 2.5909,
      "step": 4766
    },
    {
      "epoch": 0.610176,
      "grad_norm": 0.3623958230018616,
      "learning_rate": 0.00034829390173849297,
      "loss": 2.6259,
      "step": 4767
    },
    {
      "epoch": 0.610304,
      "grad_norm": 0.65601646900177,
      "learning_rate": 0.00034809637643814964,
      "loss": 2.4414,
      "step": 4768
    },
    {
      "epoch": 0.610432,
      "grad_norm": 0.4033774733543396,
      "learning_rate": 0.0003478988772518001,
      "loss": 2.7342,
      "step": 4769
    },
    {
      "epoch": 0.61056,
      "grad_norm": 0.3991660177707672,
      "learning_rate": 0.000347701404213397,
      "loss": 2.5601,
      "step": 4770
    },
    {
      "epoch": 0.610688,
      "grad_norm": 0.4148308336734772,
      "learning_rate": 0.00034750395735688803,
      "loss": 2.5946,
      "step": 4771
    },
    {
      "epoch": 0.610816,
      "grad_norm": 0.4325408935546875,
      "learning_rate": 0.00034730653671621663,
      "loss": 2.6092,
      "step": 4772
    },
    {
      "epoch": 0.610944,
      "grad_norm": 0.35515686869621277,
      "learning_rate": 0.0003471091423253216,
      "loss": 2.6016,
      "step": 4773
    },
    {
      "epoch": 0.611072,
      "grad_norm": 0.3596745431423187,
      "learning_rate": 0.0003469117742181378,
      "loss": 2.5618,
      "step": 4774
    },
    {
      "epoch": 0.6112,
      "grad_norm": 0.40452075004577637,
      "learning_rate": 0.00034671443242859464,
      "loss": 2.6621,
      "step": 4775
    },
    {
      "epoch": 0.611328,
      "grad_norm": 0.42669710516929626,
      "learning_rate": 0.0003465171169906175,
      "loss": 2.5289,
      "step": 4776
    },
    {
      "epoch": 0.611456,
      "grad_norm": 0.3967401385307312,
      "learning_rate": 0.00034631982793812744,
      "loss": 2.6049,
      "step": 4777
    },
    {
      "epoch": 0.611584,
      "grad_norm": 0.43823695182800293,
      "learning_rate": 0.0003461225653050405,
      "loss": 2.5844,
      "step": 4778
    },
    {
      "epoch": 0.611712,
      "grad_norm": 0.3611047565937042,
      "learning_rate": 0.0003459253291252684,
      "loss": 2.571,
      "step": 4779
    },
    {
      "epoch": 0.61184,
      "grad_norm": 0.38615527749061584,
      "learning_rate": 0.00034572811943271855,
      "loss": 2.5713,
      "step": 4780
    },
    {
      "epoch": 0.611968,
      "grad_norm": 0.3664757013320923,
      "learning_rate": 0.0003455309362612934,
      "loss": 2.5291,
      "step": 4781
    },
    {
      "epoch": 0.612096,
      "grad_norm": 0.3833634555339813,
      "learning_rate": 0.000345333779644891,
      "loss": 2.6262,
      "step": 4782
    },
    {
      "epoch": 0.612224,
      "grad_norm": 0.44132617115974426,
      "learning_rate": 0.00034513664961740475,
      "loss": 2.6277,
      "step": 4783
    },
    {
      "epoch": 0.612352,
      "grad_norm": 0.3771880567073822,
      "learning_rate": 0.00034493954621272403,
      "loss": 2.6162,
      "step": 4784
    },
    {
      "epoch": 0.61248,
      "grad_norm": 0.39591652154922485,
      "learning_rate": 0.00034474246946473286,
      "loss": 2.5754,
      "step": 4785
    },
    {
      "epoch": 0.612608,
      "grad_norm": 0.4296516478061676,
      "learning_rate": 0.0003445454194073111,
      "loss": 2.712,
      "step": 4786
    },
    {
      "epoch": 0.612736,
      "grad_norm": 0.4164738953113556,
      "learning_rate": 0.00034434839607433394,
      "loss": 2.6364,
      "step": 4787
    },
    {
      "epoch": 0.612864,
      "grad_norm": 0.3579838275909424,
      "learning_rate": 0.000344151399499672,
      "loss": 2.6511,
      "step": 4788
    },
    {
      "epoch": 0.612992,
      "grad_norm": 0.3765971064567566,
      "learning_rate": 0.00034395442971719124,
      "loss": 2.7218,
      "step": 4789
    },
    {
      "epoch": 0.61312,
      "grad_norm": 0.3560161888599396,
      "learning_rate": 0.0003437574867607529,
      "loss": 2.5783,
      "step": 4790
    },
    {
      "epoch": 0.613248,
      "grad_norm": 0.3825024664402008,
      "learning_rate": 0.0003435605706642141,
      "loss": 2.5993,
      "step": 4791
    },
    {
      "epoch": 0.613376,
      "grad_norm": 0.3570737838745117,
      "learning_rate": 0.00034336368146142647,
      "loss": 2.6184,
      "step": 4792
    },
    {
      "epoch": 0.613504,
      "grad_norm": 0.3413970470428467,
      "learning_rate": 0.0003431668191862382,
      "loss": 2.5207,
      "step": 4793
    },
    {
      "epoch": 0.613632,
      "grad_norm": 15.387075424194336,
      "learning_rate": 0.0003429699838724917,
      "loss": 2.5518,
      "step": 4794
    },
    {
      "epoch": 0.61376,
      "grad_norm": 0.40399181842803955,
      "learning_rate": 0.0003427731755540256,
      "loss": 2.5622,
      "step": 4795
    },
    {
      "epoch": 0.613888,
      "grad_norm": 0.42806264758110046,
      "learning_rate": 0.0003425763942646733,
      "loss": 2.5315,
      "step": 4796
    },
    {
      "epoch": 0.614016,
      "grad_norm": 0.39657318592071533,
      "learning_rate": 0.00034237964003826373,
      "loss": 2.5744,
      "step": 4797
    },
    {
      "epoch": 0.614144,
      "grad_norm": 0.3922046720981598,
      "learning_rate": 0.0003421829129086215,
      "loss": 2.5843,
      "step": 4798
    },
    {
      "epoch": 0.614272,
      "grad_norm": 0.3960144817829132,
      "learning_rate": 0.000341986212909566,
      "loss": 2.6831,
      "step": 4799
    },
    {
      "epoch": 0.6144,
      "grad_norm": 0.42004573345184326,
      "learning_rate": 0.00034178954007491237,
      "loss": 2.6619,
      "step": 4800
    },
    {
      "epoch": 0.614528,
      "grad_norm": 0.36709102988243103,
      "learning_rate": 0.00034159289443847076,
      "loss": 2.6394,
      "step": 4801
    },
    {
      "epoch": 0.614656,
      "grad_norm": 0.37568777799606323,
      "learning_rate": 0.00034139627603404723,
      "loss": 2.7183,
      "step": 4802
    },
    {
      "epoch": 0.614784,
      "grad_norm": 0.4034980237483978,
      "learning_rate": 0.0003411996848954425,
      "loss": 2.6205,
      "step": 4803
    },
    {
      "epoch": 0.614912,
      "grad_norm": 0.4149385988712311,
      "learning_rate": 0.0003410031210564528,
      "loss": 2.6297,
      "step": 4804
    },
    {
      "epoch": 0.61504,
      "grad_norm": 0.39177578687667847,
      "learning_rate": 0.00034080658455087,
      "loss": 2.6536,
      "step": 4805
    },
    {
      "epoch": 0.615168,
      "grad_norm": 0.3661300837993622,
      "learning_rate": 0.0003406100754124809,
      "loss": 2.6098,
      "step": 4806
    },
    {
      "epoch": 0.615296,
      "grad_norm": 0.3599049150943756,
      "learning_rate": 0.0003404135936750674,
      "loss": 2.6005,
      "step": 4807
    },
    {
      "epoch": 0.615424,
      "grad_norm": 0.39503687620162964,
      "learning_rate": 0.00034021713937240747,
      "loss": 2.6949,
      "step": 4808
    },
    {
      "epoch": 0.615552,
      "grad_norm": 0.3793966472148895,
      "learning_rate": 0.00034002071253827357,
      "loss": 2.5561,
      "step": 4809
    },
    {
      "epoch": 0.61568,
      "grad_norm": 0.44365066289901733,
      "learning_rate": 0.00033982431320643357,
      "loss": 2.7325,
      "step": 4810
    },
    {
      "epoch": 0.615808,
      "grad_norm": 0.38822993636131287,
      "learning_rate": 0.0003396279414106513,
      "loss": 2.6947,
      "step": 4811
    },
    {
      "epoch": 0.615936,
      "grad_norm": 0.3405509293079376,
      "learning_rate": 0.000339431597184685,
      "loss": 2.544,
      "step": 4812
    },
    {
      "epoch": 0.616064,
      "grad_norm": 0.39569976925849915,
      "learning_rate": 0.00033923528056228875,
      "loss": 2.655,
      "step": 4813
    },
    {
      "epoch": 0.616192,
      "grad_norm": 0.38806626200675964,
      "learning_rate": 0.0003390389915772115,
      "loss": 2.5177,
      "step": 4814
    },
    {
      "epoch": 0.61632,
      "grad_norm": 0.44138967990875244,
      "learning_rate": 0.00033884273026319747,
      "loss": 2.4472,
      "step": 4815
    },
    {
      "epoch": 0.616448,
      "grad_norm": 0.3784175217151642,
      "learning_rate": 0.0003386464966539865,
      "loss": 2.6774,
      "step": 4816
    },
    {
      "epoch": 0.616576,
      "grad_norm": 0.3930201828479767,
      "learning_rate": 0.0003384502907833134,
      "loss": 2.6221,
      "step": 4817
    },
    {
      "epoch": 0.616704,
      "grad_norm": 0.37813183665275574,
      "learning_rate": 0.000338254112684908,
      "loss": 2.6087,
      "step": 4818
    },
    {
      "epoch": 0.616832,
      "grad_norm": 0.3699032962322235,
      "learning_rate": 0.0003380579623924959,
      "loss": 2.5494,
      "step": 4819
    },
    {
      "epoch": 0.61696,
      "grad_norm": 0.36975812911987305,
      "learning_rate": 0.0003378618399397972,
      "loss": 2.4736,
      "step": 4820
    },
    {
      "epoch": 0.617088,
      "grad_norm": 0.4094511568546295,
      "learning_rate": 0.0003376657453605281,
      "loss": 2.6747,
      "step": 4821
    },
    {
      "epoch": 0.617216,
      "grad_norm": 0.37625905871391296,
      "learning_rate": 0.00033746967868839917,
      "loss": 2.6474,
      "step": 4822
    },
    {
      "epoch": 0.617344,
      "grad_norm": 0.36423689126968384,
      "learning_rate": 0.0003372736399571169,
      "loss": 2.607,
      "step": 4823
    },
    {
      "epoch": 0.617472,
      "grad_norm": 0.3859409689903259,
      "learning_rate": 0.0003370776292003823,
      "loss": 2.66,
      "step": 4824
    },
    {
      "epoch": 0.6176,
      "grad_norm": 0.3725394308567047,
      "learning_rate": 0.00033688164645189194,
      "loss": 2.6142,
      "step": 4825
    },
    {
      "epoch": 0.617728,
      "grad_norm": 0.3939465284347534,
      "learning_rate": 0.0003366856917453377,
      "loss": 2.6782,
      "step": 4826
    },
    {
      "epoch": 0.617856,
      "grad_norm": 0.39223822951316833,
      "learning_rate": 0.00033648976511440633,
      "loss": 2.5818,
      "step": 4827
    },
    {
      "epoch": 0.617984,
      "grad_norm": 0.3999355733394623,
      "learning_rate": 0.00033629386659277984,
      "loss": 2.4722,
      "step": 4828
    },
    {
      "epoch": 0.618112,
      "grad_norm": 0.3939008414745331,
      "learning_rate": 0.0003360979962141355,
      "loss": 2.5939,
      "step": 4829
    },
    {
      "epoch": 0.61824,
      "grad_norm": 0.41076838970184326,
      "learning_rate": 0.0003359021540121457,
      "loss": 2.611,
      "step": 4830
    },
    {
      "epoch": 0.618368,
      "grad_norm": 0.35867029428482056,
      "learning_rate": 0.0003357063400204781,
      "loss": 2.5336,
      "step": 4831
    },
    {
      "epoch": 0.618496,
      "grad_norm": 0.3691784739494324,
      "learning_rate": 0.0003355105542727954,
      "loss": 2.6579,
      "step": 4832
    },
    {
      "epoch": 0.618624,
      "grad_norm": 0.5234658718109131,
      "learning_rate": 0.00033531479680275515,
      "loss": 2.5122,
      "step": 4833
    },
    {
      "epoch": 0.618752,
      "grad_norm": 0.3723379969596863,
      "learning_rate": 0.00033511906764401066,
      "loss": 2.584,
      "step": 4834
    },
    {
      "epoch": 0.61888,
      "grad_norm": 0.3522754907608032,
      "learning_rate": 0.00033492336683020997,
      "loss": 2.6726,
      "step": 4835
    },
    {
      "epoch": 0.619008,
      "grad_norm": 0.38421520590782166,
      "learning_rate": 0.0003347276943949961,
      "loss": 2.6004,
      "step": 4836
    },
    {
      "epoch": 0.619136,
      "grad_norm": 0.38125109672546387,
      "learning_rate": 0.00033453205037200763,
      "loss": 2.5243,
      "step": 4837
    },
    {
      "epoch": 0.619264,
      "grad_norm": 0.3975963592529297,
      "learning_rate": 0.00033433643479487775,
      "loss": 2.7066,
      "step": 4838
    },
    {
      "epoch": 0.619392,
      "grad_norm": 0.38346612453460693,
      "learning_rate": 0.0003341408476972355,
      "loss": 2.5131,
      "step": 4839
    },
    {
      "epoch": 0.61952,
      "grad_norm": 0.371696412563324,
      "learning_rate": 0.00033394528911270425,
      "loss": 2.5209,
      "step": 4840
    },
    {
      "epoch": 0.619648,
      "grad_norm": 0.3581543266773224,
      "learning_rate": 0.000333749759074903,
      "loss": 2.5374,
      "step": 4841
    },
    {
      "epoch": 0.619776,
      "grad_norm": 0.3533743917942047,
      "learning_rate": 0.0003335542576174455,
      "loss": 2.5579,
      "step": 4842
    },
    {
      "epoch": 0.619904,
      "grad_norm": 0.33753687143325806,
      "learning_rate": 0.00033335878477394056,
      "loss": 2.6293,
      "step": 4843
    },
    {
      "epoch": 0.620032,
      "grad_norm": 0.3932976722717285,
      "learning_rate": 0.0003331633405779926,
      "loss": 2.5901,
      "step": 4844
    },
    {
      "epoch": 0.62016,
      "grad_norm": 0.5026354789733887,
      "learning_rate": 0.0003329679250632004,
      "loss": 2.5452,
      "step": 4845
    },
    {
      "epoch": 0.620288,
      "grad_norm": 0.3804008960723877,
      "learning_rate": 0.0003327725382631582,
      "loss": 2.5679,
      "step": 4846
    },
    {
      "epoch": 0.620416,
      "grad_norm": 0.3900529146194458,
      "learning_rate": 0.00033257718021145543,
      "loss": 2.5868,
      "step": 4847
    },
    {
      "epoch": 0.620544,
      "grad_norm": 0.4192289412021637,
      "learning_rate": 0.00033238185094167625,
      "loss": 2.6704,
      "step": 4848
    },
    {
      "epoch": 0.620672,
      "grad_norm": 0.4222380816936493,
      "learning_rate": 0.00033218655048740023,
      "loss": 2.5414,
      "step": 4849
    },
    {
      "epoch": 0.6208,
      "grad_norm": 0.3883921205997467,
      "learning_rate": 0.0003319912788822016,
      "loss": 2.5282,
      "step": 4850
    },
    {
      "epoch": 0.620928,
      "grad_norm": 0.3626062273979187,
      "learning_rate": 0.00033179603615964974,
      "loss": 2.597,
      "step": 4851
    },
    {
      "epoch": 0.621056,
      "grad_norm": 0.374826580286026,
      "learning_rate": 0.00033160082235330935,
      "loss": 2.6728,
      "step": 4852
    },
    {
      "epoch": 0.621184,
      "grad_norm": 0.39153802394866943,
      "learning_rate": 0.0003314056374967399,
      "loss": 2.5743,
      "step": 4853
    },
    {
      "epoch": 0.621312,
      "grad_norm": 0.3728530704975128,
      "learning_rate": 0.0003312104816234958,
      "loss": 2.6509,
      "step": 4854
    },
    {
      "epoch": 0.62144,
      "grad_norm": 0.3849143385887146,
      "learning_rate": 0.00033101535476712674,
      "loss": 2.5479,
      "step": 4855
    },
    {
      "epoch": 0.621568,
      "grad_norm": 0.38347747921943665,
      "learning_rate": 0.0003308202569611772,
      "loss": 2.483,
      "step": 4856
    },
    {
      "epoch": 0.621696,
      "grad_norm": 0.3451020419597626,
      "learning_rate": 0.00033062518823918663,
      "loss": 2.5359,
      "step": 4857
    },
    {
      "epoch": 0.621824,
      "grad_norm": 0.36423197388648987,
      "learning_rate": 0.00033043014863468983,
      "loss": 2.616,
      "step": 4858
    },
    {
      "epoch": 0.621952,
      "grad_norm": 0.3887815773487091,
      "learning_rate": 0.0003302351381812164,
      "loss": 2.5821,
      "step": 4859
    },
    {
      "epoch": 0.62208,
      "grad_norm": 0.36466655135154724,
      "learning_rate": 0.0003300401569122908,
      "loss": 2.5149,
      "step": 4860
    },
    {
      "epoch": 0.622208,
      "grad_norm": 0.372978150844574,
      "learning_rate": 0.00032984520486143256,
      "loss": 2.5846,
      "step": 4861
    },
    {
      "epoch": 0.622336,
      "grad_norm": 0.3757283687591553,
      "learning_rate": 0.00032965028206215625,
      "loss": 2.5546,
      "step": 4862
    },
    {
      "epoch": 0.622464,
      "grad_norm": 0.41203999519348145,
      "learning_rate": 0.0003294553885479713,
      "loss": 2.7817,
      "step": 4863
    },
    {
      "epoch": 0.622592,
      "grad_norm": 0.38592419028282166,
      "learning_rate": 0.0003292605243523821,
      "loss": 2.5436,
      "step": 4864
    },
    {
      "epoch": 0.62272,
      "grad_norm": 0.35999152064323425,
      "learning_rate": 0.00032906568950888827,
      "loss": 2.5423,
      "step": 4865
    },
    {
      "epoch": 0.622848,
      "grad_norm": 0.3540938198566437,
      "learning_rate": 0.00032887088405098377,
      "loss": 2.6635,
      "step": 4866
    },
    {
      "epoch": 0.622976,
      "grad_norm": 0.38762468099594116,
      "learning_rate": 0.0003286761080121585,
      "loss": 2.5379,
      "step": 4867
    },
    {
      "epoch": 0.623104,
      "grad_norm": 0.3731589913368225,
      "learning_rate": 0.00032848136142589636,
      "loss": 2.608,
      "step": 4868
    },
    {
      "epoch": 0.623232,
      "grad_norm": 0.40637362003326416,
      "learning_rate": 0.00032828664432567653,
      "loss": 2.6224,
      "step": 4869
    },
    {
      "epoch": 0.62336,
      "grad_norm": 0.3843895494937897,
      "learning_rate": 0.00032809195674497326,
      "loss": 2.6178,
      "step": 4870
    },
    {
      "epoch": 0.623488,
      "grad_norm": 0.39089611172676086,
      "learning_rate": 0.0003278972987172556,
      "loss": 2.5941,
      "step": 4871
    },
    {
      "epoch": 0.623616,
      "grad_norm": 0.38531720638275146,
      "learning_rate": 0.00032770267027598736,
      "loss": 2.5453,
      "step": 4872
    },
    {
      "epoch": 0.623744,
      "grad_norm": 0.3742234706878662,
      "learning_rate": 0.0003275080714546277,
      "loss": 2.5977,
      "step": 4873
    },
    {
      "epoch": 0.623872,
      "grad_norm": 0.41050970554351807,
      "learning_rate": 0.00032731350228663023,
      "loss": 2.7395,
      "step": 4874
    },
    {
      "epoch": 0.624,
      "grad_norm": 0.3824675381183624,
      "learning_rate": 0.0003271189628054434,
      "loss": 2.5945,
      "step": 4875
    },
    {
      "epoch": 0.624128,
      "grad_norm": 0.3860989511013031,
      "learning_rate": 0.0003269244530445112,
      "loss": 2.5627,
      "step": 4876
    },
    {
      "epoch": 0.624256,
      "grad_norm": 0.41379329562187195,
      "learning_rate": 0.00032672997303727217,
      "loss": 2.7034,
      "step": 4877
    },
    {
      "epoch": 0.624384,
      "grad_norm": 0.4851101338863373,
      "learning_rate": 0.0003265355228171594,
      "loss": 2.6275,
      "step": 4878
    },
    {
      "epoch": 0.624512,
      "grad_norm": 0.3999790847301483,
      "learning_rate": 0.00032634110241760116,
      "loss": 2.6244,
      "step": 4879
    },
    {
      "epoch": 0.62464,
      "grad_norm": 0.3745194673538208,
      "learning_rate": 0.0003261467118720207,
      "loss": 2.7172,
      "step": 4880
    },
    {
      "epoch": 0.624768,
      "grad_norm": 0.3787783682346344,
      "learning_rate": 0.000325952351213836,
      "loss": 2.7138,
      "step": 4881
    },
    {
      "epoch": 0.624896,
      "grad_norm": 0.37247177958488464,
      "learning_rate": 0.00032575802047645977,
      "loss": 2.6326,
      "step": 4882
    },
    {
      "epoch": 0.625024,
      "grad_norm": 0.39501509070396423,
      "learning_rate": 0.0003255637196932999,
      "loss": 2.6697,
      "step": 4883
    },
    {
      "epoch": 0.625152,
      "grad_norm": 0.39593327045440674,
      "learning_rate": 0.00032536944889775864,
      "loss": 2.6085,
      "step": 4884
    },
    {
      "epoch": 0.62528,
      "grad_norm": 0.3903540372848511,
      "learning_rate": 0.0003251752081232338,
      "loss": 2.6817,
      "step": 4885
    },
    {
      "epoch": 0.625408,
      "grad_norm": 0.39301586151123047,
      "learning_rate": 0.0003249809974031175,
      "loss": 2.6415,
      "step": 4886
    },
    {
      "epoch": 0.625536,
      "grad_norm": 0.5020433664321899,
      "learning_rate": 0.00032478681677079654,
      "loss": 2.5016,
      "step": 4887
    },
    {
      "epoch": 0.625664,
      "grad_norm": 0.49927473068237305,
      "learning_rate": 0.0003245926662596531,
      "loss": 2.6507,
      "step": 4888
    },
    {
      "epoch": 0.625792,
      "grad_norm": 0.3800062835216522,
      "learning_rate": 0.00032439854590306396,
      "loss": 2.5893,
      "step": 4889
    },
    {
      "epoch": 0.62592,
      "grad_norm": 0.3618539273738861,
      "learning_rate": 0.0003242044557344003,
      "loss": 2.5839,
      "step": 4890
    },
    {
      "epoch": 0.626048,
      "grad_norm": 0.41031134128570557,
      "learning_rate": 0.00032401039578702887,
      "loss": 2.6265,
      "step": 4891
    },
    {
      "epoch": 0.626176,
      "grad_norm": 0.35682207345962524,
      "learning_rate": 0.0003238163660943106,
      "loss": 2.5592,
      "step": 4892
    },
    {
      "epoch": 0.626304,
      "grad_norm": 0.39499005675315857,
      "learning_rate": 0.00032362236668960145,
      "loss": 2.6548,
      "step": 4893
    },
    {
      "epoch": 0.626432,
      "grad_norm": 0.39655256271362305,
      "learning_rate": 0.0003234283976062521,
      "loss": 2.737,
      "step": 4894
    },
    {
      "epoch": 0.62656,
      "grad_norm": 0.38046109676361084,
      "learning_rate": 0.0003232344588776083,
      "loss": 2.5681,
      "step": 4895
    },
    {
      "epoch": 0.626688,
      "grad_norm": 0.36812758445739746,
      "learning_rate": 0.00032304055053701037,
      "loss": 2.6035,
      "step": 4896
    },
    {
      "epoch": 0.626816,
      "grad_norm": 0.3795435428619385,
      "learning_rate": 0.0003228466726177932,
      "loss": 2.5541,
      "step": 4897
    },
    {
      "epoch": 0.626944,
      "grad_norm": 0.3758222460746765,
      "learning_rate": 0.0003226528251532868,
      "loss": 2.5966,
      "step": 4898
    },
    {
      "epoch": 0.627072,
      "grad_norm": 0.381789892911911,
      "learning_rate": 0.0003224590081768157,
      "loss": 2.5595,
      "step": 4899
    },
    {
      "epoch": 0.6272,
      "grad_norm": 0.3839053511619568,
      "learning_rate": 0.00032226522172169923,
      "loss": 2.6283,
      "step": 4900
    },
    {
      "epoch": 0.627328,
      "grad_norm": 0.38336557149887085,
      "learning_rate": 0.0003220714658212518,
      "loss": 2.7198,
      "step": 4901
    },
    {
      "epoch": 0.627456,
      "grad_norm": 0.3781351149082184,
      "learning_rate": 0.0003218777405087821,
      "loss": 2.6268,
      "step": 4902
    },
    {
      "epoch": 0.627584,
      "grad_norm": 0.37110579013824463,
      "learning_rate": 0.00032168404581759357,
      "loss": 2.6664,
      "step": 4903
    },
    {
      "epoch": 0.627712,
      "grad_norm": 0.3790434002876282,
      "learning_rate": 0.000321490381780985,
      "loss": 2.5171,
      "step": 4904
    },
    {
      "epoch": 0.62784,
      "grad_norm": 0.40603047609329224,
      "learning_rate": 0.0003212967484322491,
      "loss": 2.5071,
      "step": 4905
    },
    {
      "epoch": 0.627968,
      "grad_norm": 0.612093985080719,
      "learning_rate": 0.00032110314580467404,
      "loss": 2.6678,
      "step": 4906
    },
    {
      "epoch": 0.628096,
      "grad_norm": 0.3598804175853729,
      "learning_rate": 0.0003209095739315421,
      "loss": 2.6514,
      "step": 4907
    },
    {
      "epoch": 0.628224,
      "grad_norm": 0.3651445508003235,
      "learning_rate": 0.0003207160328461305,
      "loss": 2.6279,
      "step": 4908
    },
    {
      "epoch": 0.628352,
      "grad_norm": 0.3841305375099182,
      "learning_rate": 0.00032052252258171136,
      "loss": 2.5415,
      "step": 4909
    },
    {
      "epoch": 0.62848,
      "grad_norm": 0.3621577322483063,
      "learning_rate": 0.0003203290431715513,
      "loss": 2.6589,
      "step": 4910
    },
    {
      "epoch": 0.628608,
      "grad_norm": 0.401300847530365,
      "learning_rate": 0.00032013559464891164,
      "loss": 2.6074,
      "step": 4911
    },
    {
      "epoch": 0.628736,
      "grad_norm": 0.3969494700431824,
      "learning_rate": 0.0003199421770470482,
      "loss": 2.6254,
      "step": 4912
    },
    {
      "epoch": 0.628864,
      "grad_norm": 0.4074229300022125,
      "learning_rate": 0.00031974879039921213,
      "loss": 2.5853,
      "step": 4913
    },
    {
      "epoch": 0.628992,
      "grad_norm": 0.35685834288597107,
      "learning_rate": 0.0003195554347386487,
      "loss": 2.4853,
      "step": 4914
    },
    {
      "epoch": 0.62912,
      "grad_norm": 0.38411107659339905,
      "learning_rate": 0.00031936211009859784,
      "loss": 2.5906,
      "step": 4915
    },
    {
      "epoch": 0.629248,
      "grad_norm": 0.42422524094581604,
      "learning_rate": 0.00031916881651229445,
      "loss": 2.507,
      "step": 4916
    },
    {
      "epoch": 0.629376,
      "grad_norm": 0.3822861611843109,
      "learning_rate": 0.0003189755540129679,
      "loss": 2.5305,
      "step": 4917
    },
    {
      "epoch": 0.629504,
      "grad_norm": 0.4153967797756195,
      "learning_rate": 0.0003187823226338421,
      "loss": 2.4987,
      "step": 4918
    },
    {
      "epoch": 0.629632,
      "grad_norm": 0.4001978039741516,
      "learning_rate": 0.000318589122408136,
      "loss": 2.6561,
      "step": 4919
    },
    {
      "epoch": 0.62976,
      "grad_norm": 0.4207993745803833,
      "learning_rate": 0.0003183959533690629,
      "loss": 2.6337,
      "step": 4920
    },
    {
      "epoch": 0.629888,
      "grad_norm": 0.357413649559021,
      "learning_rate": 0.00031820281554983054,
      "loss": 2.6266,
      "step": 4921
    },
    {
      "epoch": 0.630016,
      "grad_norm": 0.38269785046577454,
      "learning_rate": 0.0003180097089836419,
      "loss": 2.5629,
      "step": 4922
    },
    {
      "epoch": 0.630144,
      "grad_norm": 0.4489051103591919,
      "learning_rate": 0.0003178166337036941,
      "loss": 2.6417,
      "step": 4923
    },
    {
      "epoch": 0.630272,
      "grad_norm": 0.36582255363464355,
      "learning_rate": 0.00031762358974317905,
      "loss": 2.4691,
      "step": 4924
    },
    {
      "epoch": 0.6304,
      "grad_norm": 0.3960559070110321,
      "learning_rate": 0.00031743057713528325,
      "loss": 2.659,
      "step": 4925
    },
    {
      "epoch": 0.630528,
      "grad_norm": 0.5393093228340149,
      "learning_rate": 0.00031723759591318755,
      "loss": 2.5361,
      "step": 4926
    },
    {
      "epoch": 0.630656,
      "grad_norm": 0.4005564749240875,
      "learning_rate": 0.0003170446461100681,
      "loss": 2.6495,
      "step": 4927
    },
    {
      "epoch": 0.630784,
      "grad_norm": 0.49300628900527954,
      "learning_rate": 0.000316851727759095,
      "loss": 2.58,
      "step": 4928
    },
    {
      "epoch": 0.630912,
      "grad_norm": 0.3864639699459076,
      "learning_rate": 0.00031665884089343295,
      "loss": 2.5744,
      "step": 4929
    },
    {
      "epoch": 0.63104,
      "grad_norm": 0.3841656446456909,
      "learning_rate": 0.0003164659855462417,
      "loss": 2.538,
      "step": 4930
    },
    {
      "epoch": 0.631168,
      "grad_norm": 0.388263463973999,
      "learning_rate": 0.00031627316175067514,
      "loss": 2.699,
      "step": 4931
    },
    {
      "epoch": 0.631296,
      "grad_norm": 0.38458022475242615,
      "learning_rate": 0.0003160803695398822,
      "loss": 2.6179,
      "step": 4932
    },
    {
      "epoch": 0.631424,
      "grad_norm": 0.369876891374588,
      "learning_rate": 0.00031588760894700577,
      "loss": 2.6221,
      "step": 4933
    },
    {
      "epoch": 0.631552,
      "grad_norm": 0.3927031457424164,
      "learning_rate": 0.0003156948800051839,
      "loss": 2.6399,
      "step": 4934
    },
    {
      "epoch": 0.63168,
      "grad_norm": 0.37200456857681274,
      "learning_rate": 0.0003155021827475488,
      "loss": 2.55,
      "step": 4935
    },
    {
      "epoch": 0.631808,
      "grad_norm": 0.3995676338672638,
      "learning_rate": 0.0003153095172072273,
      "loss": 2.6629,
      "step": 4936
    },
    {
      "epoch": 0.631936,
      "grad_norm": 0.3821505904197693,
      "learning_rate": 0.00031511688341734096,
      "loss": 2.5292,
      "step": 4937
    },
    {
      "epoch": 0.632064,
      "grad_norm": 0.35492461919784546,
      "learning_rate": 0.0003149242814110057,
      "loss": 2.6571,
      "step": 4938
    },
    {
      "epoch": 0.632192,
      "grad_norm": 0.36631616950035095,
      "learning_rate": 0.00031473171122133205,
      "loss": 2.5389,
      "step": 4939
    },
    {
      "epoch": 0.63232,
      "grad_norm": 0.3604235053062439,
      "learning_rate": 0.00031453917288142496,
      "loss": 2.5766,
      "step": 4940
    },
    {
      "epoch": 0.632448,
      "grad_norm": 0.4021731913089752,
      "learning_rate": 0.0003143466664243841,
      "loss": 2.6462,
      "step": 4941
    },
    {
      "epoch": 0.632576,
      "grad_norm": 0.3862910270690918,
      "learning_rate": 0.0003141541918833037,
      "loss": 2.643,
      "step": 4942
    },
    {
      "epoch": 0.632704,
      "grad_norm": 0.3871271014213562,
      "learning_rate": 0.0003139617492912722,
      "loss": 2.5,
      "step": 4943
    },
    {
      "epoch": 0.632832,
      "grad_norm": 0.44772839546203613,
      "learning_rate": 0.00031376933868137264,
      "loss": 2.5478,
      "step": 4944
    },
    {
      "epoch": 0.63296,
      "grad_norm": 0.40495678782463074,
      "learning_rate": 0.0003135769600866828,
      "loss": 2.5726,
      "step": 4945
    },
    {
      "epoch": 0.633088,
      "grad_norm": 0.3855459690093994,
      "learning_rate": 0.0003133846135402748,
      "loss": 2.5101,
      "step": 4946
    },
    {
      "epoch": 0.633216,
      "grad_norm": 0.37782740592956543,
      "learning_rate": 0.000313192299075215,
      "loss": 2.6055,
      "step": 4947
    },
    {
      "epoch": 0.633344,
      "grad_norm": 0.4068323075771332,
      "learning_rate": 0.0003130000167245648,
      "loss": 2.5563,
      "step": 4948
    },
    {
      "epoch": 0.633472,
      "grad_norm": 0.43868499994277954,
      "learning_rate": 0.00031280776652137937,
      "loss": 2.5892,
      "step": 4949
    },
    {
      "epoch": 0.6336,
      "grad_norm": 0.4478113651275635,
      "learning_rate": 0.0003126155484987092,
      "loss": 2.6761,
      "step": 4950
    },
    {
      "epoch": 0.633728,
      "grad_norm": 0.3859247863292694,
      "learning_rate": 0.0003124233626895985,
      "loss": 2.6026,
      "step": 4951
    },
    {
      "epoch": 0.633856,
      "grad_norm": 0.3766002357006073,
      "learning_rate": 0.00031223120912708647,
      "loss": 2.5314,
      "step": 4952
    },
    {
      "epoch": 0.633984,
      "grad_norm": 0.3875064253807068,
      "learning_rate": 0.0003120390878442063,
      "loss": 2.5235,
      "step": 4953
    },
    {
      "epoch": 0.634112,
      "grad_norm": 0.40632227063179016,
      "learning_rate": 0.0003118469988739859,
      "loss": 2.5445,
      "step": 4954
    },
    {
      "epoch": 0.63424,
      "grad_norm": 0.3654334545135498,
      "learning_rate": 0.0003116549422494478,
      "loss": 2.5607,
      "step": 4955
    },
    {
      "epoch": 0.634368,
      "grad_norm": 0.4145826995372772,
      "learning_rate": 0.0003114629180036086,
      "loss": 2.5153,
      "step": 4956
    },
    {
      "epoch": 0.634496,
      "grad_norm": 0.37575414776802063,
      "learning_rate": 0.0003112709261694793,
      "loss": 2.5857,
      "step": 4957
    },
    {
      "epoch": 0.634624,
      "grad_norm": 0.35435038805007935,
      "learning_rate": 0.00031107896678006573,
      "loss": 2.5691,
      "step": 4958
    },
    {
      "epoch": 0.634752,
      "grad_norm": 0.3898177742958069,
      "learning_rate": 0.0003108870398683681,
      "loss": 2.6538,
      "step": 4959
    },
    {
      "epoch": 0.63488,
      "grad_norm": 0.39028841257095337,
      "learning_rate": 0.00031069514546738076,
      "loss": 2.6038,
      "step": 4960
    },
    {
      "epoch": 0.635008,
      "grad_norm": 0.39682844281196594,
      "learning_rate": 0.00031050328361009245,
      "loss": 2.6549,
      "step": 4961
    },
    {
      "epoch": 0.635136,
      "grad_norm": 0.3733145594596863,
      "learning_rate": 0.00031031145432948643,
      "loss": 2.6069,
      "step": 4962
    },
    {
      "epoch": 0.635264,
      "grad_norm": 0.3674798309803009,
      "learning_rate": 0.00031011965765854056,
      "loss": 2.4972,
      "step": 4963
    },
    {
      "epoch": 0.635392,
      "grad_norm": 0.37271782755851746,
      "learning_rate": 0.0003099278936302269,
      "loss": 2.4636,
      "step": 4964
    },
    {
      "epoch": 0.63552,
      "grad_norm": 0.39678245782852173,
      "learning_rate": 0.00030973616227751165,
      "loss": 2.663,
      "step": 4965
    },
    {
      "epoch": 0.635648,
      "grad_norm": 0.3984593451023102,
      "learning_rate": 0.0003095444636333559,
      "loss": 2.5871,
      "step": 4966
    },
    {
      "epoch": 0.635776,
      "grad_norm": 0.3973430395126343,
      "learning_rate": 0.0003093527977307149,
      "loss": 2.5525,
      "step": 4967
    },
    {
      "epoch": 0.635904,
      "grad_norm": 0.36522147059440613,
      "learning_rate": 0.00030916116460253783,
      "loss": 2.6697,
      "step": 4968
    },
    {
      "epoch": 0.636032,
      "grad_norm": 0.36688467860221863,
      "learning_rate": 0.0003089695642817691,
      "loss": 2.7286,
      "step": 4969
    },
    {
      "epoch": 0.63616,
      "grad_norm": 0.36916688084602356,
      "learning_rate": 0.0003087779968013471,
      "loss": 2.5592,
      "step": 4970
    },
    {
      "epoch": 0.636288,
      "grad_norm": 0.37798386812210083,
      "learning_rate": 0.00030858646219420415,
      "loss": 2.5585,
      "step": 4971
    },
    {
      "epoch": 0.636416,
      "grad_norm": 0.3638828694820404,
      "learning_rate": 0.0003083949604932674,
      "loss": 2.6205,
      "step": 4972
    },
    {
      "epoch": 0.636544,
      "grad_norm": 0.35625237226486206,
      "learning_rate": 0.00030820349173145824,
      "loss": 2.527,
      "step": 4973
    },
    {
      "epoch": 0.636672,
      "grad_norm": 0.36711743474006653,
      "learning_rate": 0.0003080120559416924,
      "loss": 2.6517,
      "step": 4974
    },
    {
      "epoch": 0.6368,
      "grad_norm": 0.3773545026779175,
      "learning_rate": 0.00030782065315687975,
      "loss": 2.5309,
      "step": 4975
    },
    {
      "epoch": 0.636928,
      "grad_norm": 0.38662752509117126,
      "learning_rate": 0.0003076292834099248,
      "loss": 2.6239,
      "step": 4976
    },
    {
      "epoch": 0.637056,
      "grad_norm": 0.39682671427726746,
      "learning_rate": 0.00030743794673372606,
      "loss": 2.618,
      "step": 4977
    },
    {
      "epoch": 0.637184,
      "grad_norm": 0.3980971872806549,
      "learning_rate": 0.0003072466431611768,
      "loss": 2.5709,
      "step": 4978
    },
    {
      "epoch": 0.637312,
      "grad_norm": 0.39814215898513794,
      "learning_rate": 0.000307055372725164,
      "loss": 2.513,
      "step": 4979
    },
    {
      "epoch": 0.63744,
      "grad_norm": 0.4110698997974396,
      "learning_rate": 0.0003068641354585697,
      "loss": 2.7073,
      "step": 4980
    },
    {
      "epoch": 0.637568,
      "grad_norm": 0.39822039008140564,
      "learning_rate": 0.00030667293139426946,
      "loss": 2.5635,
      "step": 4981
    },
    {
      "epoch": 0.637696,
      "grad_norm": 0.373637318611145,
      "learning_rate": 0.00030648176056513355,
      "loss": 2.6352,
      "step": 4982
    },
    {
      "epoch": 0.637824,
      "grad_norm": 0.39216575026512146,
      "learning_rate": 0.0003062906230040263,
      "loss": 2.5813,
      "step": 4983
    },
    {
      "epoch": 0.637952,
      "grad_norm": 0.47095781564712524,
      "learning_rate": 0.0003060995187438068,
      "loss": 2.6011,
      "step": 4984
    },
    {
      "epoch": 0.63808,
      "grad_norm": 0.36385080218315125,
      "learning_rate": 0.00030590844781732795,
      "loss": 2.5282,
      "step": 4985
    },
    {
      "epoch": 0.638208,
      "grad_norm": 0.3745938241481781,
      "learning_rate": 0.0003057174102574367,
      "loss": 2.5857,
      "step": 4986
    },
    {
      "epoch": 0.638336,
      "grad_norm": 0.361802875995636,
      "learning_rate": 0.00030552640609697514,
      "loss": 2.5315,
      "step": 4987
    },
    {
      "epoch": 0.638464,
      "grad_norm": 0.3704325556755066,
      "learning_rate": 0.00030533543536877895,
      "loss": 2.6318,
      "step": 4988
    },
    {
      "epoch": 0.638592,
      "grad_norm": 0.5291056036949158,
      "learning_rate": 0.00030514449810567826,
      "loss": 2.5027,
      "step": 4989
    },
    {
      "epoch": 0.63872,
      "grad_norm": 0.35945913195610046,
      "learning_rate": 0.00030495359434049707,
      "loss": 2.57,
      "step": 4990
    },
    {
      "epoch": 0.638848,
      "grad_norm": 0.4460711181163788,
      "learning_rate": 0.0003047627241060544,
      "loss": 2.5678,
      "step": 4991
    },
    {
      "epoch": 0.638976,
      "grad_norm": 0.5005902647972107,
      "learning_rate": 0.00030457188743516274,
      "loss": 2.5464,
      "step": 4992
    },
    {
      "epoch": 0.639104,
      "grad_norm": 0.3902883529663086,
      "learning_rate": 0.00030438108436062916,
      "loss": 2.5671,
      "step": 4993
    },
    {
      "epoch": 0.639232,
      "grad_norm": 0.9781777858734131,
      "learning_rate": 0.0003041903149152552,
      "loss": 2.5532,
      "step": 4994
    },
    {
      "epoch": 0.63936,
      "grad_norm": 0.38932090997695923,
      "learning_rate": 0.0003039995791318358,
      "loss": 2.493,
      "step": 4995
    },
    {
      "epoch": 0.639488,
      "grad_norm": 0.45162153244018555,
      "learning_rate": 0.00030380887704316116,
      "loss": 2.5227,
      "step": 4996
    },
    {
      "epoch": 0.639616,
      "grad_norm": 0.4140211045742035,
      "learning_rate": 0.00030361820868201494,
      "loss": 2.5938,
      "step": 4997
    },
    {
      "epoch": 0.639744,
      "grad_norm": 0.37090635299682617,
      "learning_rate": 0.00030342757408117544,
      "loss": 2.5338,
      "step": 4998
    },
    {
      "epoch": 0.639872,
      "grad_norm": 0.5956529378890991,
      "learning_rate": 0.0003032369732734148,
      "loss": 2.5331,
      "step": 4999
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.3795706033706665,
      "learning_rate": 0.0003030464062914995,
      "loss": 2.5429,
      "step": 5000
    },
    {
      "epoch": 0.640128,
      "grad_norm": 0.3770771622657776,
      "learning_rate": 0.0003028558731681902,
      "loss": 2.5409,
      "step": 5001
    },
    {
      "epoch": 0.640256,
      "grad_norm": 0.3759077787399292,
      "learning_rate": 0.0003026653739362418,
      "loss": 2.5505,
      "step": 5002
    },
    {
      "epoch": 0.640384,
      "grad_norm": 0.36870941519737244,
      "learning_rate": 0.00030247490862840337,
      "loss": 2.6326,
      "step": 5003
    },
    {
      "epoch": 0.640512,
      "grad_norm": 0.3797926902770996,
      "learning_rate": 0.000302284477277418,
      "loss": 2.5552,
      "step": 5004
    },
    {
      "epoch": 0.64064,
      "grad_norm": 0.4412270784378052,
      "learning_rate": 0.0003020940799160229,
      "loss": 2.5459,
      "step": 5005
    },
    {
      "epoch": 0.640768,
      "grad_norm": 0.38903477787971497,
      "learning_rate": 0.00030190371657695,
      "loss": 2.6353,
      "step": 5006
    },
    {
      "epoch": 0.640896,
      "grad_norm": 0.4362492859363556,
      "learning_rate": 0.00030171338729292484,
      "loss": 2.5569,
      "step": 5007
    },
    {
      "epoch": 0.641024,
      "grad_norm": 0.4009034037590027,
      "learning_rate": 0.000301523092096667,
      "loss": 2.5057,
      "step": 5008
    },
    {
      "epoch": 0.641152,
      "grad_norm": 0.471784383058548,
      "learning_rate": 0.00030133283102089063,
      "loss": 2.5769,
      "step": 5009
    },
    {
      "epoch": 0.64128,
      "grad_norm": 0.41871654987335205,
      "learning_rate": 0.00030114260409830384,
      "loss": 2.6752,
      "step": 5010
    },
    {
      "epoch": 0.641408,
      "grad_norm": 0.5250524878501892,
      "learning_rate": 0.00030095241136160857,
      "loss": 2.5087,
      "step": 5011
    },
    {
      "epoch": 0.641536,
      "grad_norm": 0.39408981800079346,
      "learning_rate": 0.00030076225284350144,
      "loss": 2.5004,
      "step": 5012
    },
    {
      "epoch": 0.641664,
      "grad_norm": 0.38613957166671753,
      "learning_rate": 0.0003005721285766729,
      "loss": 2.6345,
      "step": 5013
    },
    {
      "epoch": 0.641792,
      "grad_norm": 0.40383610129356384,
      "learning_rate": 0.00030038203859380716,
      "loss": 2.6138,
      "step": 5014
    },
    {
      "epoch": 0.64192,
      "grad_norm": 0.3989097476005554,
      "learning_rate": 0.00030019198292758324,
      "loss": 2.6475,
      "step": 5015
    },
    {
      "epoch": 0.642048,
      "grad_norm": 0.535677433013916,
      "learning_rate": 0.00030000196161067394,
      "loss": 2.6087,
      "step": 5016
    },
    {
      "epoch": 0.642176,
      "grad_norm": 0.397195965051651,
      "learning_rate": 0.00029981197467574607,
      "loss": 2.5446,
      "step": 5017
    },
    {
      "epoch": 0.642304,
      "grad_norm": 0.4046349823474884,
      "learning_rate": 0.0002996220221554604,
      "loss": 2.4604,
      "step": 5018
    },
    {
      "epoch": 0.642432,
      "grad_norm": 0.3932815492153168,
      "learning_rate": 0.00029943210408247216,
      "loss": 2.5856,
      "step": 5019
    },
    {
      "epoch": 0.64256,
      "grad_norm": 0.3942882716655731,
      "learning_rate": 0.00029924222048943044,
      "loss": 2.6303,
      "step": 5020
    },
    {
      "epoch": 0.642688,
      "grad_norm": 0.3895758390426636,
      "learning_rate": 0.00029905237140897845,
      "loss": 2.5923,
      "step": 5021
    },
    {
      "epoch": 0.642816,
      "grad_norm": 0.41725558042526245,
      "learning_rate": 0.00029886255687375316,
      "loss": 2.5861,
      "step": 5022
    },
    {
      "epoch": 0.642944,
      "grad_norm": 0.46241164207458496,
      "learning_rate": 0.0002986727769163862,
      "loss": 2.6639,
      "step": 5023
    },
    {
      "epoch": 0.643072,
      "grad_norm": 0.448489248752594,
      "learning_rate": 0.000298483031569503,
      "loss": 2.5965,
      "step": 5024
    },
    {
      "epoch": 0.6432,
      "grad_norm": 0.36244747042655945,
      "learning_rate": 0.0002982933208657228,
      "loss": 2.5932,
      "step": 5025
    },
    {
      "epoch": 0.643328,
      "grad_norm": 0.39041656255722046,
      "learning_rate": 0.0002981036448376591,
      "loss": 2.5704,
      "step": 5026
    },
    {
      "epoch": 0.643456,
      "grad_norm": 0.3686208128929138,
      "learning_rate": 0.00029791400351791955,
      "loss": 2.5621,
      "step": 5027
    },
    {
      "epoch": 0.643584,
      "grad_norm": 0.4497438371181488,
      "learning_rate": 0.0002977243969391055,
      "loss": 2.5101,
      "step": 5028
    },
    {
      "epoch": 0.643712,
      "grad_norm": 0.36567920446395874,
      "learning_rate": 0.0002975348251338126,
      "loss": 2.6541,
      "step": 5029
    },
    {
      "epoch": 0.64384,
      "grad_norm": 0.41085973381996155,
      "learning_rate": 0.0002973452881346305,
      "loss": 2.6675,
      "step": 5030
    },
    {
      "epoch": 0.643968,
      "grad_norm": 0.4263342618942261,
      "learning_rate": 0.00029715578597414266,
      "loss": 2.5443,
      "step": 5031
    },
    {
      "epoch": 0.644096,
      "grad_norm": 0.38977453112602234,
      "learning_rate": 0.0002969663186849266,
      "loss": 2.3912,
      "step": 5032
    },
    {
      "epoch": 0.644224,
      "grad_norm": 0.39189988374710083,
      "learning_rate": 0.00029677688629955437,
      "loss": 2.7451,
      "step": 5033
    },
    {
      "epoch": 0.644352,
      "grad_norm": 0.3935774862766266,
      "learning_rate": 0.00029658748885059126,
      "loss": 2.6702,
      "step": 5034
    },
    {
      "epoch": 0.64448,
      "grad_norm": 0.3972356915473938,
      "learning_rate": 0.00029639812637059716,
      "loss": 2.657,
      "step": 5035
    },
    {
      "epoch": 0.644608,
      "grad_norm": 0.43579086661338806,
      "learning_rate": 0.00029620879889212526,
      "loss": 2.4958,
      "step": 5036
    },
    {
      "epoch": 0.644736,
      "grad_norm": 0.42612993717193604,
      "learning_rate": 0.0002960195064477235,
      "loss": 2.5528,
      "step": 5037
    },
    {
      "epoch": 0.644864,
      "grad_norm": 0.3844698369503021,
      "learning_rate": 0.00029583024906993337,
      "loss": 2.6097,
      "step": 5038
    },
    {
      "epoch": 0.644992,
      "grad_norm": 0.4657128155231476,
      "learning_rate": 0.00029564102679129024,
      "loss": 2.7031,
      "step": 5039
    },
    {
      "epoch": 0.64512,
      "grad_norm": 0.36918216943740845,
      "learning_rate": 0.00029545183964432386,
      "loss": 2.5774,
      "step": 5040
    },
    {
      "epoch": 0.645248,
      "grad_norm": 0.3819792866706848,
      "learning_rate": 0.0002952626876615575,
      "loss": 2.6143,
      "step": 5041
    },
    {
      "epoch": 0.645376,
      "grad_norm": 0.3856472373008728,
      "learning_rate": 0.00029507357087550857,
      "loss": 2.5714,
      "step": 5042
    },
    {
      "epoch": 0.645504,
      "grad_norm": 0.3912588357925415,
      "learning_rate": 0.0002948844893186886,
      "loss": 2.6834,
      "step": 5043
    },
    {
      "epoch": 0.645632,
      "grad_norm": 0.38747766613960266,
      "learning_rate": 0.0002946954430236028,
      "loss": 2.6041,
      "step": 5044
    },
    {
      "epoch": 0.64576,
      "grad_norm": 0.4384046494960785,
      "learning_rate": 0.0002945064320227505,
      "loss": 2.5858,
      "step": 5045
    },
    {
      "epoch": 0.645888,
      "grad_norm": 0.4191063940525055,
      "learning_rate": 0.00029431745634862484,
      "loss": 2.5781,
      "step": 5046
    },
    {
      "epoch": 0.646016,
      "grad_norm": 0.39606529474258423,
      "learning_rate": 0.0002941285160337128,
      "loss": 2.6368,
      "step": 5047
    },
    {
      "epoch": 0.646144,
      "grad_norm": 0.39740481972694397,
      "learning_rate": 0.0002939396111104956,
      "loss": 2.6425,
      "step": 5048
    },
    {
      "epoch": 0.646272,
      "grad_norm": 2.0383799076080322,
      "learning_rate": 0.0002937507416114481,
      "loss": 2.5283,
      "step": 5049
    },
    {
      "epoch": 0.6464,
      "grad_norm": 0.39063936471939087,
      "learning_rate": 0.0002935619075690391,
      "loss": 2.6696,
      "step": 5050
    },
    {
      "epoch": 0.646528,
      "grad_norm": 0.3579080402851105,
      "learning_rate": 0.0002933731090157313,
      "loss": 2.5929,
      "step": 5051
    },
    {
      "epoch": 0.646656,
      "grad_norm": 0.3739837408065796,
      "learning_rate": 0.0002931843459839817,
      "loss": 2.5995,
      "step": 5052
    },
    {
      "epoch": 0.646784,
      "grad_norm": 0.36254072189331055,
      "learning_rate": 0.0002929956185062407,
      "loss": 2.6622,
      "step": 5053
    },
    {
      "epoch": 0.646912,
      "grad_norm": 0.36796602606773376,
      "learning_rate": 0.00029280692661495247,
      "loss": 2.6483,
      "step": 5054
    },
    {
      "epoch": 0.64704,
      "grad_norm": 0.393079549074173,
      "learning_rate": 0.0002926182703425557,
      "loss": 2.5858,
      "step": 5055
    },
    {
      "epoch": 0.647168,
      "grad_norm": 0.425417959690094,
      "learning_rate": 0.00029242964972148243,
      "loss": 2.4537,
      "step": 5056
    },
    {
      "epoch": 0.647296,
      "grad_norm": 0.3822503983974457,
      "learning_rate": 0.00029224106478415856,
      "loss": 2.5739,
      "step": 5057
    },
    {
      "epoch": 0.647424,
      "grad_norm": 0.40663501620292664,
      "learning_rate": 0.0002920525155630044,
      "loss": 2.4703,
      "step": 5058
    },
    {
      "epoch": 0.647552,
      "grad_norm": 0.4131544828414917,
      "learning_rate": 0.0002918640020904334,
      "loss": 2.5363,
      "step": 5059
    },
    {
      "epoch": 0.64768,
      "grad_norm": 0.41653046011924744,
      "learning_rate": 0.0002916755243988533,
      "loss": 2.5854,
      "step": 5060
    },
    {
      "epoch": 0.647808,
      "grad_norm": 0.45412588119506836,
      "learning_rate": 0.00029148708252066586,
      "loss": 2.5183,
      "step": 5061
    },
    {
      "epoch": 0.647936,
      "grad_norm": 0.39114871621131897,
      "learning_rate": 0.0002912986764882662,
      "loss": 2.5325,
      "step": 5062
    },
    {
      "epoch": 0.648064,
      "grad_norm": 0.3826248049736023,
      "learning_rate": 0.0002911103063340435,
      "loss": 2.5677,
      "step": 5063
    },
    {
      "epoch": 0.648192,
      "grad_norm": 0.5161707401275635,
      "learning_rate": 0.0002909219720903808,
      "loss": 2.6302,
      "step": 5064
    },
    {
      "epoch": 0.64832,
      "grad_norm": 0.3867577314376831,
      "learning_rate": 0.000290733673789655,
      "loss": 2.4985,
      "step": 5065
    },
    {
      "epoch": 0.648448,
      "grad_norm": 0.39497119188308716,
      "learning_rate": 0.00029054541146423645,
      "loss": 2.6046,
      "step": 5066
    },
    {
      "epoch": 0.648576,
      "grad_norm": 0.3598938286304474,
      "learning_rate": 0.00029035718514649014,
      "loss": 2.5096,
      "step": 5067
    },
    {
      "epoch": 0.648704,
      "grad_norm": 0.38266822695732117,
      "learning_rate": 0.000290168994868774,
      "loss": 2.5327,
      "step": 5068
    },
    {
      "epoch": 0.648832,
      "grad_norm": 0.40439480543136597,
      "learning_rate": 0.00028998084066344,
      "loss": 2.5551,
      "step": 5069
    },
    {
      "epoch": 0.64896,
      "grad_norm": 0.36440935730934143,
      "learning_rate": 0.0002897927225628345,
      "loss": 2.5998,
      "step": 5070
    },
    {
      "epoch": 0.649088,
      "grad_norm": 0.37244853377342224,
      "learning_rate": 0.00028960464059929697,
      "loss": 2.6103,
      "step": 5071
    },
    {
      "epoch": 0.649216,
      "grad_norm": 0.3612343370914459,
      "learning_rate": 0.0002894165948051608,
      "loss": 2.5451,
      "step": 5072
    },
    {
      "epoch": 0.649344,
      "grad_norm": 0.38126978278160095,
      "learning_rate": 0.0002892285852127532,
      "loss": 2.5631,
      "step": 5073
    },
    {
      "epoch": 0.649472,
      "grad_norm": 0.38598451018333435,
      "learning_rate": 0.0002890406118543951,
      "loss": 2.5263,
      "step": 5074
    },
    {
      "epoch": 0.6496,
      "grad_norm": 0.3706856071949005,
      "learning_rate": 0.00028885267476240175,
      "loss": 2.6198,
      "step": 5075
    },
    {
      "epoch": 0.649728,
      "grad_norm": 0.3854377567768097,
      "learning_rate": 0.0002886647739690814,
      "loss": 2.6325,
      "step": 5076
    },
    {
      "epoch": 0.649856,
      "grad_norm": 0.4241771101951599,
      "learning_rate": 0.0002884769095067364,
      "loss": 2.609,
      "step": 5077
    },
    {
      "epoch": 0.649984,
      "grad_norm": 0.41017580032348633,
      "learning_rate": 0.00028828908140766284,
      "loss": 2.5392,
      "step": 5078
    },
    {
      "epoch": 0.650112,
      "grad_norm": 0.3609650433063507,
      "learning_rate": 0.00028810128970415034,
      "loss": 2.4538,
      "step": 5079
    },
    {
      "epoch": 0.65024,
      "grad_norm": 0.3894079923629761,
      "learning_rate": 0.0002879135344284829,
      "loss": 2.6665,
      "step": 5080
    },
    {
      "epoch": 0.650368,
      "grad_norm": 0.40711045265197754,
      "learning_rate": 0.00028772581561293745,
      "loss": 2.657,
      "step": 5081
    },
    {
      "epoch": 0.650496,
      "grad_norm": 0.43659037351608276,
      "learning_rate": 0.0002875381332897853,
      "loss": 2.6636,
      "step": 5082
    },
    {
      "epoch": 0.650624,
      "grad_norm": 0.38704606890678406,
      "learning_rate": 0.0002873504874912911,
      "loss": 2.5185,
      "step": 5083
    },
    {
      "epoch": 0.650752,
      "grad_norm": 0.3758753538131714,
      "learning_rate": 0.00028716287824971345,
      "loss": 2.5873,
      "step": 5084
    },
    {
      "epoch": 0.65088,
      "grad_norm": 0.3768284320831299,
      "learning_rate": 0.0002869753055973044,
      "loss": 2.5995,
      "step": 5085
    },
    {
      "epoch": 0.651008,
      "grad_norm": 0.4033184349536896,
      "learning_rate": 0.0002867877695663099,
      "loss": 2.5511,
      "step": 5086
    },
    {
      "epoch": 0.651136,
      "grad_norm": 0.3948748707771301,
      "learning_rate": 0.00028660027018896937,
      "loss": 2.6434,
      "step": 5087
    },
    {
      "epoch": 0.651264,
      "grad_norm": 0.4228450655937195,
      "learning_rate": 0.00028641280749751655,
      "loss": 2.5517,
      "step": 5088
    },
    {
      "epoch": 0.651392,
      "grad_norm": 0.3860976994037628,
      "learning_rate": 0.00028622538152417806,
      "loss": 2.6653,
      "step": 5089
    },
    {
      "epoch": 0.65152,
      "grad_norm": 0.42045554518699646,
      "learning_rate": 0.00028603799230117493,
      "loss": 2.5675,
      "step": 5090
    },
    {
      "epoch": 0.651648,
      "grad_norm": 0.46796661615371704,
      "learning_rate": 0.0002858506398607214,
      "loss": 2.6785,
      "step": 5091
    },
    {
      "epoch": 0.651776,
      "grad_norm": 0.3818785846233368,
      "learning_rate": 0.0002856633242350255,
      "loss": 2.5745,
      "step": 5092
    },
    {
      "epoch": 0.651904,
      "grad_norm": 0.3891395926475525,
      "learning_rate": 0.000285476045456289,
      "loss": 2.4469,
      "step": 5093
    },
    {
      "epoch": 0.652032,
      "grad_norm": 0.35911086201667786,
      "learning_rate": 0.00028528880355670725,
      "loss": 2.5258,
      "step": 5094
    },
    {
      "epoch": 0.65216,
      "grad_norm": 0.398673951625824,
      "learning_rate": 0.0002851015985684691,
      "loss": 2.6064,
      "step": 5095
    },
    {
      "epoch": 0.652288,
      "grad_norm": 0.3743155598640442,
      "learning_rate": 0.00028491443052375764,
      "loss": 2.6697,
      "step": 5096
    },
    {
      "epoch": 0.652416,
      "grad_norm": 0.3902626931667328,
      "learning_rate": 0.00028472729945474895,
      "loss": 2.5994,
      "step": 5097
    },
    {
      "epoch": 0.652544,
      "grad_norm": 0.39111384749412537,
      "learning_rate": 0.00028454020539361326,
      "loss": 2.5823,
      "step": 5098
    },
    {
      "epoch": 0.652672,
      "grad_norm": 0.4010305404663086,
      "learning_rate": 0.00028435314837251414,
      "loss": 2.5431,
      "step": 5099
    },
    {
      "epoch": 0.6528,
      "grad_norm": 0.3803160786628723,
      "learning_rate": 0.0002841661284236088,
      "loss": 2.6007,
      "step": 5100
    },
    {
      "epoch": 0.652928,
      "grad_norm": 0.36131924390792847,
      "learning_rate": 0.0002839791455790481,
      "loss": 2.5859,
      "step": 5101
    },
    {
      "epoch": 0.653056,
      "grad_norm": 0.37485942244529724,
      "learning_rate": 0.0002837921998709765,
      "loss": 2.5759,
      "step": 5102
    },
    {
      "epoch": 0.653184,
      "grad_norm": 0.3776492774486542,
      "learning_rate": 0.00028360529133153234,
      "loss": 2.5748,
      "step": 5103
    },
    {
      "epoch": 0.653312,
      "grad_norm": 0.4174926280975342,
      "learning_rate": 0.0002834184199928472,
      "loss": 2.6158,
      "step": 5104
    },
    {
      "epoch": 0.65344,
      "grad_norm": 0.40005725622177124,
      "learning_rate": 0.00028323158588704667,
      "loss": 2.6088,
      "step": 5105
    },
    {
      "epoch": 0.653568,
      "grad_norm": 0.4121895730495453,
      "learning_rate": 0.0002830447890462492,
      "loss": 2.6282,
      "step": 5106
    },
    {
      "epoch": 0.653696,
      "grad_norm": 0.3729471266269684,
      "learning_rate": 0.0002828580295025679,
      "loss": 2.5586,
      "step": 5107
    },
    {
      "epoch": 0.653824,
      "grad_norm": 0.3755153715610504,
      "learning_rate": 0.00028267130728810866,
      "loss": 2.6014,
      "step": 5108
    },
    {
      "epoch": 0.653952,
      "grad_norm": 0.3461160361766815,
      "learning_rate": 0.0002824846224349712,
      "loss": 2.5486,
      "step": 5109
    },
    {
      "epoch": 0.65408,
      "grad_norm": 0.378679096698761,
      "learning_rate": 0.0002822979749752486,
      "loss": 2.6436,
      "step": 5110
    },
    {
      "epoch": 0.654208,
      "grad_norm": 0.3767564296722412,
      "learning_rate": 0.00028211136494102806,
      "loss": 2.6082,
      "step": 5111
    },
    {
      "epoch": 0.654336,
      "grad_norm": 0.39278101921081543,
      "learning_rate": 0.00028192479236438983,
      "loss": 2.6656,
      "step": 5112
    },
    {
      "epoch": 0.654464,
      "grad_norm": 0.3912416100502014,
      "learning_rate": 0.00028173825727740806,
      "loss": 2.494,
      "step": 5113
    },
    {
      "epoch": 0.654592,
      "grad_norm": 0.38610681891441345,
      "learning_rate": 0.00028155175971215007,
      "loss": 2.6234,
      "step": 5114
    },
    {
      "epoch": 0.65472,
      "grad_norm": 0.3751729130744934,
      "learning_rate": 0.00028136529970067714,
      "loss": 2.6308,
      "step": 5115
    },
    {
      "epoch": 0.654848,
      "grad_norm": 0.39732876420021057,
      "learning_rate": 0.00028117887727504355,
      "loss": 2.4719,
      "step": 5116
    },
    {
      "epoch": 0.654976,
      "grad_norm": 0.39992982149124146,
      "learning_rate": 0.0002809924924672978,
      "loss": 2.5504,
      "step": 5117
    },
    {
      "epoch": 0.655104,
      "grad_norm": 0.4169537425041199,
      "learning_rate": 0.0002808061453094817,
      "loss": 2.4993,
      "step": 5118
    },
    {
      "epoch": 0.655232,
      "grad_norm": 0.4082432687282562,
      "learning_rate": 0.00028061983583363035,
      "loss": 2.6264,
      "step": 5119
    },
    {
      "epoch": 0.65536,
      "grad_norm": 0.39923515915870667,
      "learning_rate": 0.00028043356407177254,
      "loss": 2.5761,
      "step": 5120
    },
    {
      "epoch": 0.655488,
      "grad_norm": 0.36525723338127136,
      "learning_rate": 0.0002802473300559305,
      "loss": 2.5043,
      "step": 5121
    },
    {
      "epoch": 0.655616,
      "grad_norm": 0.38520896434783936,
      "learning_rate": 0.00028006113381812,
      "loss": 2.5148,
      "step": 5122
    },
    {
      "epoch": 0.655744,
      "grad_norm": 0.4212173521518707,
      "learning_rate": 0.00027987497539035014,
      "loss": 2.7128,
      "step": 5123
    },
    {
      "epoch": 0.655872,
      "grad_norm": 0.5425131916999817,
      "learning_rate": 0.00027968885480462405,
      "loss": 2.5713,
      "step": 5124
    },
    {
      "epoch": 0.656,
      "grad_norm": 0.36362046003341675,
      "learning_rate": 0.00027950277209293776,
      "loss": 2.6906,
      "step": 5125
    },
    {
      "epoch": 0.656128,
      "grad_norm": 0.4177592694759369,
      "learning_rate": 0.00027931672728728134,
      "loss": 2.5118,
      "step": 5126
    },
    {
      "epoch": 0.656256,
      "grad_norm": 0.49532651901245117,
      "learning_rate": 0.00027913072041963795,
      "loss": 2.5248,
      "step": 5127
    },
    {
      "epoch": 0.656384,
      "grad_norm": 0.3862609565258026,
      "learning_rate": 0.0002789447515219842,
      "loss": 2.7311,
      "step": 5128
    },
    {
      "epoch": 0.656512,
      "grad_norm": 0.4304206967353821,
      "learning_rate": 0.0002787588206262903,
      "loss": 2.5829,
      "step": 5129
    },
    {
      "epoch": 0.65664,
      "grad_norm": 0.4050885736942291,
      "learning_rate": 0.00027857292776452004,
      "loss": 2.5619,
      "step": 5130
    },
    {
      "epoch": 0.656768,
      "grad_norm": 0.4332694411277771,
      "learning_rate": 0.00027838707296863033,
      "loss": 2.585,
      "step": 5131
    },
    {
      "epoch": 0.656896,
      "grad_norm": 0.3712003529071808,
      "learning_rate": 0.0002782012562705721,
      "loss": 2.5597,
      "step": 5132
    },
    {
      "epoch": 0.657024,
      "grad_norm": 0.4431656301021576,
      "learning_rate": 0.0002780154777022892,
      "loss": 2.6548,
      "step": 5133
    },
    {
      "epoch": 0.657152,
      "grad_norm": 0.3611442744731903,
      "learning_rate": 0.000277829737295719,
      "loss": 2.601,
      "step": 5134
    },
    {
      "epoch": 0.65728,
      "grad_norm": 0.38259345293045044,
      "learning_rate": 0.00027764403508279275,
      "loss": 2.5911,
      "step": 5135
    },
    {
      "epoch": 0.657408,
      "grad_norm": 0.3486555814743042,
      "learning_rate": 0.0002774583710954346,
      "loss": 2.5021,
      "step": 5136
    },
    {
      "epoch": 0.657536,
      "grad_norm": 0.3693118095397949,
      "learning_rate": 0.00027727274536556247,
      "loss": 2.5328,
      "step": 5137
    },
    {
      "epoch": 0.657664,
      "grad_norm": 0.4332658648490906,
      "learning_rate": 0.0002770871579250872,
      "loss": 2.5914,
      "step": 5138
    },
    {
      "epoch": 0.657792,
      "grad_norm": 0.35905370116233826,
      "learning_rate": 0.00027690160880591396,
      "loss": 2.5868,
      "step": 5139
    },
    {
      "epoch": 0.65792,
      "grad_norm": 0.43135443329811096,
      "learning_rate": 0.00027671609803994057,
      "loss": 2.7552,
      "step": 5140
    },
    {
      "epoch": 0.658048,
      "grad_norm": 0.37403154373168945,
      "learning_rate": 0.0002765306256590584,
      "loss": 2.4773,
      "step": 5141
    },
    {
      "epoch": 0.658176,
      "grad_norm": 0.3884729743003845,
      "learning_rate": 0.00027634519169515237,
      "loss": 2.5843,
      "step": 5142
    },
    {
      "epoch": 0.658304,
      "grad_norm": 0.3764903247356415,
      "learning_rate": 0.0002761597961801006,
      "loss": 2.6397,
      "step": 5143
    },
    {
      "epoch": 0.658432,
      "grad_norm": 0.39507442712783813,
      "learning_rate": 0.00027597443914577493,
      "loss": 2.6259,
      "step": 5144
    },
    {
      "epoch": 0.65856,
      "grad_norm": 0.3764296770095825,
      "learning_rate": 0.0002757891206240404,
      "loss": 2.6122,
      "step": 5145
    },
    {
      "epoch": 0.658688,
      "grad_norm": 0.40500885248184204,
      "learning_rate": 0.00027560384064675503,
      "loss": 2.5333,
      "step": 5146
    },
    {
      "epoch": 0.658816,
      "grad_norm": 0.3487459123134613,
      "learning_rate": 0.00027541859924577104,
      "loss": 2.6004,
      "step": 5147
    },
    {
      "epoch": 0.658944,
      "grad_norm": 0.39136889576911926,
      "learning_rate": 0.0002752333964529335,
      "loss": 2.4889,
      "step": 5148
    },
    {
      "epoch": 0.659072,
      "grad_norm": 0.3682754933834076,
      "learning_rate": 0.0002750482323000808,
      "loss": 2.5179,
      "step": 5149
    },
    {
      "epoch": 0.6592,
      "grad_norm": 0.411945104598999,
      "learning_rate": 0.00027486310681904485,
      "loss": 2.5645,
      "step": 5150
    },
    {
      "epoch": 0.659328,
      "grad_norm": 0.37303394079208374,
      "learning_rate": 0.0002746780200416509,
      "loss": 2.5771,
      "step": 5151
    },
    {
      "epoch": 0.659456,
      "grad_norm": 0.4213564395904541,
      "learning_rate": 0.00027449297199971714,
      "loss": 2.6092,
      "step": 5152
    },
    {
      "epoch": 0.659584,
      "grad_norm": 0.420710027217865,
      "learning_rate": 0.00027430796272505587,
      "loss": 2.6141,
      "step": 5153
    },
    {
      "epoch": 0.659712,
      "grad_norm": 0.3722737431526184,
      "learning_rate": 0.0002741229922494724,
      "loss": 2.6466,
      "step": 5154
    },
    {
      "epoch": 0.65984,
      "grad_norm": 0.38525331020355225,
      "learning_rate": 0.00027393806060476523,
      "loss": 2.5512,
      "step": 5155
    },
    {
      "epoch": 0.659968,
      "grad_norm": 0.4228210151195526,
      "learning_rate": 0.0002737531678227261,
      "loss": 2.6764,
      "step": 5156
    },
    {
      "epoch": 0.660096,
      "grad_norm": 0.3689582347869873,
      "learning_rate": 0.00027356831393514033,
      "loss": 2.5242,
      "step": 5157
    },
    {
      "epoch": 0.660224,
      "grad_norm": 0.3700481355190277,
      "learning_rate": 0.00027338349897378637,
      "loss": 2.4946,
      "step": 5158
    },
    {
      "epoch": 0.660352,
      "grad_norm": 0.3722169101238251,
      "learning_rate": 0.000273198722970436,
      "loss": 2.6547,
      "step": 5159
    },
    {
      "epoch": 0.66048,
      "grad_norm": 0.40357106924057007,
      "learning_rate": 0.0002730139859568546,
      "loss": 2.5211,
      "step": 5160
    },
    {
      "epoch": 0.660608,
      "grad_norm": 0.361092746257782,
      "learning_rate": 0.00027282928796480043,
      "loss": 2.6068,
      "step": 5161
    },
    {
      "epoch": 0.660736,
      "grad_norm": 0.3735838532447815,
      "learning_rate": 0.0002726446290260251,
      "loss": 2.612,
      "step": 5162
    },
    {
      "epoch": 0.660864,
      "grad_norm": 0.4400281608104706,
      "learning_rate": 0.000272460009172274,
      "loss": 2.669,
      "step": 5163
    },
    {
      "epoch": 0.660992,
      "grad_norm": 0.4296903610229492,
      "learning_rate": 0.00027227542843528507,
      "loss": 2.6443,
      "step": 5164
    },
    {
      "epoch": 0.66112,
      "grad_norm": 0.37780797481536865,
      "learning_rate": 0.00027209088684679013,
      "loss": 2.5595,
      "step": 5165
    },
    {
      "epoch": 0.661248,
      "grad_norm": 0.3994367718696594,
      "learning_rate": 0.0002719063844385138,
      "loss": 2.5284,
      "step": 5166
    },
    {
      "epoch": 0.661376,
      "grad_norm": 0.35512009263038635,
      "learning_rate": 0.0002717219212421742,
      "loss": 2.6253,
      "step": 5167
    },
    {
      "epoch": 0.661504,
      "grad_norm": 0.4455907940864563,
      "learning_rate": 0.00027153749728948284,
      "loss": 2.5582,
      "step": 5168
    },
    {
      "epoch": 0.661632,
      "grad_norm": 0.41000640392303467,
      "learning_rate": 0.0002713531126121442,
      "loss": 2.6168,
      "step": 5169
    },
    {
      "epoch": 0.66176,
      "grad_norm": 0.3779001235961914,
      "learning_rate": 0.00027116876724185633,
      "loss": 2.6426,
      "step": 5170
    },
    {
      "epoch": 0.661888,
      "grad_norm": 0.4003753960132599,
      "learning_rate": 0.00027098446121031006,
      "loss": 2.5748,
      "step": 5171
    },
    {
      "epoch": 0.662016,
      "grad_norm": 0.3772992193698883,
      "learning_rate": 0.00027080019454919,
      "loss": 2.6361,
      "step": 5172
    },
    {
      "epoch": 0.662144,
      "grad_norm": 0.5130038857460022,
      "learning_rate": 0.00027061596729017356,
      "loss": 2.7115,
      "step": 5173
    },
    {
      "epoch": 0.662272,
      "grad_norm": 0.39031025767326355,
      "learning_rate": 0.00027043177946493147,
      "loss": 2.4108,
      "step": 5174
    },
    {
      "epoch": 0.6624,
      "grad_norm": 0.4356226623058319,
      "learning_rate": 0.00027024763110512805,
      "loss": 2.5412,
      "step": 5175
    },
    {
      "epoch": 0.662528,
      "grad_norm": 0.396708607673645,
      "learning_rate": 0.0002700635222424204,
      "loss": 2.5542,
      "step": 5176
    },
    {
      "epoch": 0.662656,
      "grad_norm": 0.40115904808044434,
      "learning_rate": 0.00026987945290845883,
      "loss": 2.5755,
      "step": 5177
    },
    {
      "epoch": 0.662784,
      "grad_norm": 0.46462303400039673,
      "learning_rate": 0.0002696954231348871,
      "loss": 2.6923,
      "step": 5178
    },
    {
      "epoch": 0.662912,
      "grad_norm": 0.3786289393901825,
      "learning_rate": 0.0002695114329533422,
      "loss": 2.5884,
      "step": 5179
    },
    {
      "epoch": 0.66304,
      "grad_norm": 0.3916493058204651,
      "learning_rate": 0.0002693274823954537,
      "loss": 2.5576,
      "step": 5180
    },
    {
      "epoch": 0.663168,
      "grad_norm": 0.39272594451904297,
      "learning_rate": 0.0002691435714928452,
      "loss": 2.5908,
      "step": 5181
    },
    {
      "epoch": 0.663296,
      "grad_norm": 0.37262412905693054,
      "learning_rate": 0.0002689597002771333,
      "loss": 2.6055,
      "step": 5182
    },
    {
      "epoch": 0.663424,
      "grad_norm": 0.4546196162700653,
      "learning_rate": 0.0002687758687799273,
      "loss": 2.5518,
      "step": 5183
    },
    {
      "epoch": 0.663552,
      "grad_norm": 0.42460086941719055,
      "learning_rate": 0.0002685920770328301,
      "loss": 2.6165,
      "step": 5184
    },
    {
      "epoch": 0.66368,
      "grad_norm": 0.39573854207992554,
      "learning_rate": 0.0002684083250674376,
      "loss": 2.3997,
      "step": 5185
    },
    {
      "epoch": 0.663808,
      "grad_norm": 0.3826286196708679,
      "learning_rate": 0.0002682246129153387,
      "loss": 2.4752,
      "step": 5186
    },
    {
      "epoch": 0.663936,
      "grad_norm": 0.3770892322063446,
      "learning_rate": 0.000268040940608116,
      "loss": 2.6693,
      "step": 5187
    },
    {
      "epoch": 0.664064,
      "grad_norm": 0.3870074450969696,
      "learning_rate": 0.00026785730817734446,
      "loss": 2.5625,
      "step": 5188
    },
    {
      "epoch": 0.664192,
      "grad_norm": 0.4139135777950287,
      "learning_rate": 0.000267673715654593,
      "loss": 2.5827,
      "step": 5189
    },
    {
      "epoch": 0.66432,
      "grad_norm": 0.3687962591648102,
      "learning_rate": 0.00026749016307142307,
      "loss": 2.4795,
      "step": 5190
    },
    {
      "epoch": 0.664448,
      "grad_norm": 0.37539076805114746,
      "learning_rate": 0.0002673066504593897,
      "loss": 2.6364,
      "step": 5191
    },
    {
      "epoch": 0.664576,
      "grad_norm": 0.38510650396347046,
      "learning_rate": 0.00026712317785004076,
      "loss": 2.603,
      "step": 5192
    },
    {
      "epoch": 0.664704,
      "grad_norm": 0.42494940757751465,
      "learning_rate": 0.00026693974527491725,
      "loss": 2.5215,
      "step": 5193
    },
    {
      "epoch": 0.664832,
      "grad_norm": 0.3842930495738983,
      "learning_rate": 0.00026675635276555347,
      "loss": 2.6099,
      "step": 5194
    },
    {
      "epoch": 0.66496,
      "grad_norm": 0.42509952187538147,
      "learning_rate": 0.0002665730003534764,
      "loss": 2.5778,
      "step": 5195
    },
    {
      "epoch": 0.665088,
      "grad_norm": 0.36048662662506104,
      "learning_rate": 0.0002663896880702069,
      "loss": 2.5435,
      "step": 5196
    },
    {
      "epoch": 0.665216,
      "grad_norm": 0.3498355746269226,
      "learning_rate": 0.0002662064159472583,
      "loss": 2.6294,
      "step": 5197
    },
    {
      "epoch": 0.665344,
      "grad_norm": 0.40281805396080017,
      "learning_rate": 0.0002660231840161371,
      "loss": 2.5995,
      "step": 5198
    },
    {
      "epoch": 0.665472,
      "grad_norm": 0.49533501267433167,
      "learning_rate": 0.00026583999230834294,
      "loss": 2.6427,
      "step": 5199
    },
    {
      "epoch": 0.6656,
      "grad_norm": 0.3724513649940491,
      "learning_rate": 0.0002656568408553689,
      "loss": 2.5396,
      "step": 5200
    },
    {
      "epoch": 0.665728,
      "grad_norm": 0.3794609308242798,
      "learning_rate": 0.0002654737296887006,
      "loss": 2.5794,
      "step": 5201
    },
    {
      "epoch": 0.665856,
      "grad_norm": 0.3773114085197449,
      "learning_rate": 0.00026529065883981707,
      "loss": 2.5834,
      "step": 5202
    },
    {
      "epoch": 0.665984,
      "grad_norm": 0.3633808195590973,
      "learning_rate": 0.00026510762834019004,
      "loss": 2.5174,
      "step": 5203
    },
    {
      "epoch": 0.666112,
      "grad_norm": 0.3902861177921295,
      "learning_rate": 0.000264924638221285,
      "loss": 2.4773,
      "step": 5204
    },
    {
      "epoch": 0.66624,
      "grad_norm": 0.37434545159339905,
      "learning_rate": 0.0002647416885145599,
      "loss": 2.6491,
      "step": 5205
    },
    {
      "epoch": 0.666368,
      "grad_norm": 0.37788477540016174,
      "learning_rate": 0.0002645587792514659,
      "loss": 2.5588,
      "step": 5206
    },
    {
      "epoch": 0.666496,
      "grad_norm": 0.49056658148765564,
      "learning_rate": 0.0002643759104634472,
      "loss": 2.5685,
      "step": 5207
    },
    {
      "epoch": 0.666624,
      "grad_norm": 0.40908971428871155,
      "learning_rate": 0.00026419308218194085,
      "loss": 2.6112,
      "step": 5208
    },
    {
      "epoch": 0.666752,
      "grad_norm": 0.4173640310764313,
      "learning_rate": 0.00026401029443837767,
      "loss": 2.4451,
      "step": 5209
    },
    {
      "epoch": 0.66688,
      "grad_norm": 0.41143205761909485,
      "learning_rate": 0.00026382754726418043,
      "loss": 2.5675,
      "step": 5210
    },
    {
      "epoch": 0.667008,
      "grad_norm": 0.41982823610305786,
      "learning_rate": 0.000263644840690766,
      "loss": 2.5588,
      "step": 5211
    },
    {
      "epoch": 0.667136,
      "grad_norm": 0.37093299627304077,
      "learning_rate": 0.00026346217474954346,
      "loss": 2.6289,
      "step": 5212
    },
    {
      "epoch": 0.667264,
      "grad_norm": 0.41111141443252563,
      "learning_rate": 0.00026327954947191534,
      "loss": 2.5897,
      "step": 5213
    },
    {
      "epoch": 0.667392,
      "grad_norm": 0.38849538564682007,
      "learning_rate": 0.0002630969648892769,
      "loss": 2.5926,
      "step": 5214
    },
    {
      "epoch": 0.66752,
      "grad_norm": 0.38940340280532837,
      "learning_rate": 0.00026291442103301666,
      "loss": 2.6399,
      "step": 5215
    },
    {
      "epoch": 0.667648,
      "grad_norm": 0.40610453486442566,
      "learning_rate": 0.0002627319179345157,
      "loss": 2.5634,
      "step": 5216
    },
    {
      "epoch": 0.667776,
      "grad_norm": 0.38688549399375916,
      "learning_rate": 0.00026254945562514877,
      "loss": 2.6159,
      "step": 5217
    },
    {
      "epoch": 0.667904,
      "grad_norm": 0.3670731782913208,
      "learning_rate": 0.0002623670341362834,
      "loss": 2.5732,
      "step": 5218
    },
    {
      "epoch": 0.668032,
      "grad_norm": 0.417610764503479,
      "learning_rate": 0.00026218465349927964,
      "loss": 2.6183,
      "step": 5219
    },
    {
      "epoch": 0.66816,
      "grad_norm": 0.47102704644203186,
      "learning_rate": 0.000262002313745491,
      "loss": 2.5841,
      "step": 5220
    },
    {
      "epoch": 0.668288,
      "grad_norm": 0.39731407165527344,
      "learning_rate": 0.00026182001490626373,
      "loss": 2.5316,
      "step": 5221
    },
    {
      "epoch": 0.668416,
      "grad_norm": 0.43763095140457153,
      "learning_rate": 0.00026163775701293715,
      "loss": 2.5488,
      "step": 5222
    },
    {
      "epoch": 0.668544,
      "grad_norm": 0.40380194783210754,
      "learning_rate": 0.0002614555400968434,
      "loss": 2.5598,
      "step": 5223
    },
    {
      "epoch": 0.668672,
      "grad_norm": 0.4184998571872711,
      "learning_rate": 0.0002612733641893076,
      "loss": 2.6275,
      "step": 5224
    },
    {
      "epoch": 0.6688,
      "grad_norm": 0.5543437600135803,
      "learning_rate": 0.00026109122932164823,
      "loss": 2.573,
      "step": 5225
    },
    {
      "epoch": 0.668928,
      "grad_norm": 0.3556312918663025,
      "learning_rate": 0.00026090913552517624,
      "loss": 2.7366,
      "step": 5226
    },
    {
      "epoch": 0.669056,
      "grad_norm": 0.40176355838775635,
      "learning_rate": 0.0002607270828311954,
      "loss": 2.5741,
      "step": 5227
    },
    {
      "epoch": 0.669184,
      "grad_norm": 0.39553847908973694,
      "learning_rate": 0.00026054507127100314,
      "loss": 2.636,
      "step": 5228
    },
    {
      "epoch": 0.669312,
      "grad_norm": 0.3717648386955261,
      "learning_rate": 0.0002603631008758891,
      "loss": 2.4803,
      "step": 5229
    },
    {
      "epoch": 0.66944,
      "grad_norm": 0.41483962535858154,
      "learning_rate": 0.00026018117167713617,
      "loss": 2.6133,
      "step": 5230
    },
    {
      "epoch": 0.669568,
      "grad_norm": 0.37190088629722595,
      "learning_rate": 0.0002599992837060198,
      "loss": 2.6116,
      "step": 5231
    },
    {
      "epoch": 0.669696,
      "grad_norm": 0.4034726023674011,
      "learning_rate": 0.0002598174369938091,
      "loss": 2.5517,
      "step": 5232
    },
    {
      "epoch": 0.669824,
      "grad_norm": 0.3955928385257721,
      "learning_rate": 0.0002596356315717654,
      "loss": 2.5756,
      "step": 5233
    },
    {
      "epoch": 0.669952,
      "grad_norm": 0.4108046293258667,
      "learning_rate": 0.0002594538674711432,
      "loss": 2.5406,
      "step": 5234
    },
    {
      "epoch": 0.67008,
      "grad_norm": 0.4151647388935089,
      "learning_rate": 0.0002592721447231898,
      "loss": 2.6513,
      "step": 5235
    },
    {
      "epoch": 0.670208,
      "grad_norm": 0.40715673565864563,
      "learning_rate": 0.00025909046335914534,
      "loss": 2.6845,
      "step": 5236
    },
    {
      "epoch": 0.670336,
      "grad_norm": 0.42227649688720703,
      "learning_rate": 0.0002589088234102432,
      "loss": 2.6259,
      "step": 5237
    },
    {
      "epoch": 0.670464,
      "grad_norm": 0.40486183762550354,
      "learning_rate": 0.00025872722490770915,
      "loss": 2.5352,
      "step": 5238
    },
    {
      "epoch": 0.670592,
      "grad_norm": 0.3949843645095825,
      "learning_rate": 0.00025854566788276244,
      "loss": 2.5742,
      "step": 5239
    },
    {
      "epoch": 0.67072,
      "grad_norm": 0.4013769328594208,
      "learning_rate": 0.0002583641523666146,
      "loss": 2.4804,
      "step": 5240
    },
    {
      "epoch": 0.670848,
      "grad_norm": 0.3888833224773407,
      "learning_rate": 0.0002581826783904702,
      "loss": 2.5363,
      "step": 5241
    },
    {
      "epoch": 0.670976,
      "grad_norm": 0.40100619196891785,
      "learning_rate": 0.00025800124598552676,
      "loss": 2.6253,
      "step": 5242
    },
    {
      "epoch": 0.671104,
      "grad_norm": 0.46572697162628174,
      "learning_rate": 0.0002578198551829747,
      "loss": 2.7096,
      "step": 5243
    },
    {
      "epoch": 0.671232,
      "grad_norm": 0.4086534380912781,
      "learning_rate": 0.00025763850601399706,
      "loss": 2.5851,
      "step": 5244
    },
    {
      "epoch": 0.67136,
      "grad_norm": 0.3730365037918091,
      "learning_rate": 0.00025745719850976976,
      "loss": 2.5622,
      "step": 5245
    },
    {
      "epoch": 0.671488,
      "grad_norm": 0.3740100562572479,
      "learning_rate": 0.0002572759327014618,
      "loss": 2.4911,
      "step": 5246
    },
    {
      "epoch": 0.671616,
      "grad_norm": 0.3750016391277313,
      "learning_rate": 0.00025709470862023516,
      "loss": 2.5329,
      "step": 5247
    },
    {
      "epoch": 0.671744,
      "grad_norm": 0.3614211082458496,
      "learning_rate": 0.00025691352629724406,
      "loss": 2.6657,
      "step": 5248
    },
    {
      "epoch": 0.671872,
      "grad_norm": 0.3860812187194824,
      "learning_rate": 0.0002567323857636359,
      "loss": 2.5108,
      "step": 5249
    },
    {
      "epoch": 0.672,
      "grad_norm": 0.40801340341567993,
      "learning_rate": 0.00025655128705055085,
      "loss": 2.6108,
      "step": 5250
    },
    {
      "epoch": 0.672128,
      "grad_norm": 0.383478045463562,
      "learning_rate": 0.00025637023018912185,
      "loss": 2.5666,
      "step": 5251
    },
    {
      "epoch": 0.672256,
      "grad_norm": 0.39007484912872314,
      "learning_rate": 0.0002561892152104744,
      "loss": 2.5946,
      "step": 5252
    },
    {
      "epoch": 0.672384,
      "grad_norm": 0.3887758255004883,
      "learning_rate": 0.0002560082421457277,
      "loss": 2.5764,
      "step": 5253
    },
    {
      "epoch": 0.672512,
      "grad_norm": 0.41558974981307983,
      "learning_rate": 0.0002558273110259925,
      "loss": 2.6043,
      "step": 5254
    },
    {
      "epoch": 0.67264,
      "grad_norm": 0.3987777829170227,
      "learning_rate": 0.00025564642188237344,
      "loss": 2.5939,
      "step": 5255
    },
    {
      "epoch": 0.672768,
      "grad_norm": 0.3706473410129547,
      "learning_rate": 0.0002554655747459672,
      "loss": 2.5665,
      "step": 5256
    },
    {
      "epoch": 0.672896,
      "grad_norm": 0.40700897574424744,
      "learning_rate": 0.0002552847696478636,
      "loss": 2.5747,
      "step": 5257
    },
    {
      "epoch": 0.673024,
      "grad_norm": 0.3976323902606964,
      "learning_rate": 0.000255104006619145,
      "loss": 2.5561,
      "step": 5258
    },
    {
      "epoch": 0.673152,
      "grad_norm": 0.4452526867389679,
      "learning_rate": 0.00025492328569088664,
      "loss": 2.5784,
      "step": 5259
    },
    {
      "epoch": 0.67328,
      "grad_norm": 0.3941483199596405,
      "learning_rate": 0.00025474260689415686,
      "loss": 2.6387,
      "step": 5260
    },
    {
      "epoch": 0.673408,
      "grad_norm": 0.37363436818122864,
      "learning_rate": 0.0002545619702600161,
      "loss": 2.5008,
      "step": 5261
    },
    {
      "epoch": 0.673536,
      "grad_norm": 0.3696950674057007,
      "learning_rate": 0.0002543813758195181,
      "loss": 2.6083,
      "step": 5262
    },
    {
      "epoch": 0.673664,
      "grad_norm": 0.4407186508178711,
      "learning_rate": 0.000254200823603709,
      "loss": 2.5532,
      "step": 5263
    },
    {
      "epoch": 0.673792,
      "grad_norm": 0.4229048192501068,
      "learning_rate": 0.0002540203136436277,
      "loss": 2.5763,
      "step": 5264
    },
    {
      "epoch": 0.67392,
      "grad_norm": 0.417293518781662,
      "learning_rate": 0.00025383984597030635,
      "loss": 2.5873,
      "step": 5265
    },
    {
      "epoch": 0.674048,
      "grad_norm": 0.40384677052497864,
      "learning_rate": 0.0002536594206147692,
      "loss": 2.6101,
      "step": 5266
    },
    {
      "epoch": 0.674176,
      "grad_norm": 0.3624012768268585,
      "learning_rate": 0.00025347903760803325,
      "loss": 2.6002,
      "step": 5267
    },
    {
      "epoch": 0.674304,
      "grad_norm": 0.3877285420894623,
      "learning_rate": 0.00025329869698110884,
      "loss": 2.6515,
      "step": 5268
    },
    {
      "epoch": 0.674432,
      "grad_norm": 0.39940160512924194,
      "learning_rate": 0.00025311839876499844,
      "loss": 2.4651,
      "step": 5269
    },
    {
      "epoch": 0.67456,
      "grad_norm": 0.38303908705711365,
      "learning_rate": 0.0002529381429906974,
      "loss": 2.6354,
      "step": 5270
    },
    {
      "epoch": 0.674688,
      "grad_norm": 0.3783019185066223,
      "learning_rate": 0.00025275792968919373,
      "loss": 2.5818,
      "step": 5271
    },
    {
      "epoch": 0.674816,
      "grad_norm": 0.3885507583618164,
      "learning_rate": 0.00025257775889146825,
      "loss": 2.5848,
      "step": 5272
    },
    {
      "epoch": 0.674944,
      "grad_norm": 0.43509814143180847,
      "learning_rate": 0.00025239763062849427,
      "loss": 2.5683,
      "step": 5273
    },
    {
      "epoch": 0.675072,
      "grad_norm": 0.38733628392219543,
      "learning_rate": 0.00025221754493123794,
      "loss": 2.5775,
      "step": 5274
    },
    {
      "epoch": 0.6752,
      "grad_norm": 0.36350101232528687,
      "learning_rate": 0.0002520375018306584,
      "loss": 2.4874,
      "step": 5275
    },
    {
      "epoch": 0.675328,
      "grad_norm": 0.4043944776058197,
      "learning_rate": 0.0002518575013577069,
      "loss": 2.5755,
      "step": 5276
    },
    {
      "epoch": 0.675456,
      "grad_norm": 0.4116095304489136,
      "learning_rate": 0.0002516775435433276,
      "loss": 2.5452,
      "step": 5277
    },
    {
      "epoch": 0.675584,
      "grad_norm": 0.3883419930934906,
      "learning_rate": 0.00025149762841845746,
      "loss": 2.5279,
      "step": 5278
    },
    {
      "epoch": 0.675712,
      "grad_norm": 0.37027621269226074,
      "learning_rate": 0.00025131775601402583,
      "loss": 2.5238,
      "step": 5279
    },
    {
      "epoch": 0.67584,
      "grad_norm": 0.36064785718917847,
      "learning_rate": 0.00025113792636095465,
      "loss": 2.5987,
      "step": 5280
    },
    {
      "epoch": 0.675968,
      "grad_norm": 0.3535507321357727,
      "learning_rate": 0.00025095813949015935,
      "loss": 2.6061,
      "step": 5281
    },
    {
      "epoch": 0.676096,
      "grad_norm": 0.4402579963207245,
      "learning_rate": 0.0002507783954325467,
      "loss": 2.5797,
      "step": 5282
    },
    {
      "epoch": 0.676224,
      "grad_norm": 0.3515138328075409,
      "learning_rate": 0.0002505986942190173,
      "loss": 2.5938,
      "step": 5283
    },
    {
      "epoch": 0.676352,
      "grad_norm": 0.3861841559410095,
      "learning_rate": 0.0002504190358804637,
      "loss": 2.6214,
      "step": 5284
    },
    {
      "epoch": 0.67648,
      "grad_norm": 0.3848157823085785,
      "learning_rate": 0.00025023942044777114,
      "loss": 2.5465,
      "step": 5285
    },
    {
      "epoch": 0.676608,
      "grad_norm": 0.41945305466651917,
      "learning_rate": 0.0002500598479518178,
      "loss": 2.6959,
      "step": 5286
    },
    {
      "epoch": 0.676736,
      "grad_norm": 0.3916013538837433,
      "learning_rate": 0.00024988031842347407,
      "loss": 2.5808,
      "step": 5287
    },
    {
      "epoch": 0.676864,
      "grad_norm": 0.35082191228866577,
      "learning_rate": 0.0002497008318936031,
      "loss": 2.5853,
      "step": 5288
    },
    {
      "epoch": 0.676992,
      "grad_norm": 0.37410008907318115,
      "learning_rate": 0.000249521388393061,
      "loss": 2.6782,
      "step": 5289
    },
    {
      "epoch": 0.67712,
      "grad_norm": 0.3678319454193115,
      "learning_rate": 0.00024934198795269604,
      "loss": 2.6153,
      "step": 5290
    },
    {
      "epoch": 0.677248,
      "grad_norm": 0.434708833694458,
      "learning_rate": 0.00024916263060334904,
      "loss": 2.5789,
      "step": 5291
    },
    {
      "epoch": 0.677376,
      "grad_norm": 0.3859289288520813,
      "learning_rate": 0.000248983316375854,
      "loss": 2.6037,
      "step": 5292
    },
    {
      "epoch": 0.677504,
      "grad_norm": 0.38795191049575806,
      "learning_rate": 0.0002488040453010369,
      "loss": 2.6105,
      "step": 5293
    },
    {
      "epoch": 0.677632,
      "grad_norm": 0.38231992721557617,
      "learning_rate": 0.0002486248174097165,
      "loss": 2.6011,
      "step": 5294
    },
    {
      "epoch": 0.67776,
      "grad_norm": 0.5028035640716553,
      "learning_rate": 0.00024844563273270404,
      "loss": 2.556,
      "step": 5295
    },
    {
      "epoch": 0.677888,
      "grad_norm": 0.47569677233695984,
      "learning_rate": 0.0002482664913008037,
      "loss": 2.595,
      "step": 5296
    },
    {
      "epoch": 0.678016,
      "grad_norm": 0.38743889331817627,
      "learning_rate": 0.0002480873931448119,
      "loss": 2.6635,
      "step": 5297
    },
    {
      "epoch": 0.678144,
      "grad_norm": 0.4144882559776306,
      "learning_rate": 0.0002479083382955176,
      "loss": 2.5765,
      "step": 5298
    },
    {
      "epoch": 0.678272,
      "grad_norm": 0.3822556436061859,
      "learning_rate": 0.0002477293267837025,
      "loss": 2.7153,
      "step": 5299
    },
    {
      "epoch": 0.6784,
      "grad_norm": 0.40185117721557617,
      "learning_rate": 0.00024755035864014067,
      "loss": 2.6188,
      "step": 5300
    },
    {
      "epoch": 0.678528,
      "grad_norm": 0.35746750235557556,
      "learning_rate": 0.0002473714338955987,
      "loss": 2.6398,
      "step": 5301
    },
    {
      "epoch": 0.678656,
      "grad_norm": 0.37162983417510986,
      "learning_rate": 0.0002471925525808361,
      "loss": 2.5105,
      "step": 5302
    },
    {
      "epoch": 0.678784,
      "grad_norm": 0.3882814049720764,
      "learning_rate": 0.0002470137147266043,
      "loss": 2.6103,
      "step": 5303
    },
    {
      "epoch": 0.678912,
      "grad_norm": 0.8615273237228394,
      "learning_rate": 0.000246834920363648,
      "loss": 2.5222,
      "step": 5304
    },
    {
      "epoch": 0.67904,
      "grad_norm": 0.3779507875442505,
      "learning_rate": 0.00024665616952270386,
      "loss": 2.5305,
      "step": 5305
    },
    {
      "epoch": 0.679168,
      "grad_norm": 0.42279931902885437,
      "learning_rate": 0.00024647746223450126,
      "loss": 2.6579,
      "step": 5306
    },
    {
      "epoch": 0.679296,
      "grad_norm": 0.37278565764427185,
      "learning_rate": 0.0002462987985297619,
      "loss": 2.6111,
      "step": 5307
    },
    {
      "epoch": 0.679424,
      "grad_norm": 0.4244750738143921,
      "learning_rate": 0.0002461201784392002,
      "loss": 2.6084,
      "step": 5308
    },
    {
      "epoch": 0.679552,
      "grad_norm": 0.3802829086780548,
      "learning_rate": 0.0002459416019935229,
      "loss": 2.6144,
      "step": 5309
    },
    {
      "epoch": 0.67968,
      "grad_norm": 0.40109702944755554,
      "learning_rate": 0.0002457630692234296,
      "loss": 2.5067,
      "step": 5310
    },
    {
      "epoch": 0.679808,
      "grad_norm": 0.4010506868362427,
      "learning_rate": 0.0002455845801596121,
      "loss": 2.7027,
      "step": 5311
    },
    {
      "epoch": 0.679936,
      "grad_norm": 0.38863423466682434,
      "learning_rate": 0.0002454061348327548,
      "loss": 2.5928,
      "step": 5312
    },
    {
      "epoch": 0.680064,
      "grad_norm": 0.36382633447647095,
      "learning_rate": 0.00024522773327353444,
      "loss": 2.5829,
      "step": 5313
    },
    {
      "epoch": 0.680192,
      "grad_norm": 0.3776761591434479,
      "learning_rate": 0.00024504937551262024,
      "loss": 2.5621,
      "step": 5314
    },
    {
      "epoch": 0.68032,
      "grad_norm": 0.5375989675521851,
      "learning_rate": 0.00024487106158067407,
      "loss": 2.5945,
      "step": 5315
    },
    {
      "epoch": 0.680448,
      "grad_norm": 0.432987779378891,
      "learning_rate": 0.00024469279150834993,
      "loss": 2.6551,
      "step": 5316
    },
    {
      "epoch": 0.680576,
      "grad_norm": 0.3858826458454132,
      "learning_rate": 0.00024451456532629493,
      "loss": 2.6026,
      "step": 5317
    },
    {
      "epoch": 0.680704,
      "grad_norm": 0.39081519842147827,
      "learning_rate": 0.00024433638306514796,
      "loss": 2.502,
      "step": 5318
    },
    {
      "epoch": 0.680832,
      "grad_norm": 0.4076041877269745,
      "learning_rate": 0.00024415824475554045,
      "loss": 2.6509,
      "step": 5319
    },
    {
      "epoch": 0.68096,
      "grad_norm": 0.4383372366428375,
      "learning_rate": 0.0002439801504280968,
      "loss": 2.4943,
      "step": 5320
    },
    {
      "epoch": 0.681088,
      "grad_norm": 0.35547345876693726,
      "learning_rate": 0.0002438021001134334,
      "loss": 2.5892,
      "step": 5321
    },
    {
      "epoch": 0.681216,
      "grad_norm": 0.36286845803260803,
      "learning_rate": 0.00024362409384215904,
      "loss": 2.6301,
      "step": 5322
    },
    {
      "epoch": 0.681344,
      "grad_norm": 0.37505364418029785,
      "learning_rate": 0.00024344613164487512,
      "loss": 2.5765,
      "step": 5323
    },
    {
      "epoch": 0.681472,
      "grad_norm": 0.456574022769928,
      "learning_rate": 0.0002432682135521752,
      "loss": 2.5425,
      "step": 5324
    },
    {
      "epoch": 0.6816,
      "grad_norm": 0.35393327474594116,
      "learning_rate": 0.0002430903395946459,
      "loss": 2.4544,
      "step": 5325
    },
    {
      "epoch": 0.681728,
      "grad_norm": 0.37543919682502747,
      "learning_rate": 0.0002429125098028655,
      "loss": 2.5634,
      "step": 5326
    },
    {
      "epoch": 0.681856,
      "grad_norm": 0.3939407467842102,
      "learning_rate": 0.0002427347242074051,
      "loss": 2.4775,
      "step": 5327
    },
    {
      "epoch": 0.681984,
      "grad_norm": 0.46083325147628784,
      "learning_rate": 0.00024255698283882793,
      "loss": 2.5568,
      "step": 5328
    },
    {
      "epoch": 0.682112,
      "grad_norm": 0.3795042634010315,
      "learning_rate": 0.00024237928572769013,
      "loss": 2.6127,
      "step": 5329
    },
    {
      "epoch": 0.68224,
      "grad_norm": 0.36768245697021484,
      "learning_rate": 0.00024220163290453972,
      "loss": 2.4881,
      "step": 5330
    },
    {
      "epoch": 0.682368,
      "grad_norm": 0.4040760397911072,
      "learning_rate": 0.00024202402439991706,
      "loss": 2.4963,
      "step": 5331
    },
    {
      "epoch": 0.682496,
      "grad_norm": 0.42934149503707886,
      "learning_rate": 0.00024184646024435547,
      "loss": 2.633,
      "step": 5332
    },
    {
      "epoch": 0.682624,
      "grad_norm": 0.38567742705345154,
      "learning_rate": 0.00024166894046838018,
      "loss": 2.6028,
      "step": 5333
    },
    {
      "epoch": 0.682752,
      "grad_norm": 0.4369749128818512,
      "learning_rate": 0.00024149146510250884,
      "loss": 2.501,
      "step": 5334
    },
    {
      "epoch": 0.68288,
      "grad_norm": 0.3813338279724121,
      "learning_rate": 0.00024131403417725156,
      "loss": 2.6065,
      "step": 5335
    },
    {
      "epoch": 0.683008,
      "grad_norm": 0.4410043954849243,
      "learning_rate": 0.00024113664772311072,
      "loss": 2.5504,
      "step": 5336
    },
    {
      "epoch": 0.683136,
      "grad_norm": 0.389554888010025,
      "learning_rate": 0.000240959305770581,
      "loss": 2.5692,
      "step": 5337
    },
    {
      "epoch": 0.683264,
      "grad_norm": 0.42818278074264526,
      "learning_rate": 0.0002407820083501498,
      "loss": 2.6357,
      "step": 5338
    },
    {
      "epoch": 0.683392,
      "grad_norm": 0.4268302917480469,
      "learning_rate": 0.00024060475549229633,
      "loss": 2.7023,
      "step": 5339
    },
    {
      "epoch": 0.68352,
      "grad_norm": 0.4350915551185608,
      "learning_rate": 0.0002404275472274927,
      "loss": 2.5568,
      "step": 5340
    },
    {
      "epoch": 0.683648,
      "grad_norm": 0.36845454573631287,
      "learning_rate": 0.000240250383586203,
      "loss": 2.616,
      "step": 5341
    },
    {
      "epoch": 0.683776,
      "grad_norm": 0.4161425232887268,
      "learning_rate": 0.00024007326459888357,
      "loss": 2.6312,
      "step": 5342
    },
    {
      "epoch": 0.683904,
      "grad_norm": 0.3625243604183197,
      "learning_rate": 0.0002398961902959833,
      "loss": 2.5958,
      "step": 5343
    },
    {
      "epoch": 0.684032,
      "grad_norm": 0.4274410605430603,
      "learning_rate": 0.00023971916070794337,
      "loss": 2.5267,
      "step": 5344
    },
    {
      "epoch": 0.68416,
      "grad_norm": 0.38484689593315125,
      "learning_rate": 0.0002395421758651969,
      "loss": 2.5424,
      "step": 5345
    },
    {
      "epoch": 0.684288,
      "grad_norm": 0.37804844975471497,
      "learning_rate": 0.00023936523579817003,
      "loss": 2.5304,
      "step": 5346
    },
    {
      "epoch": 0.684416,
      "grad_norm": 0.3817814290523529,
      "learning_rate": 0.0002391883405372805,
      "loss": 2.5982,
      "step": 5347
    },
    {
      "epoch": 0.684544,
      "grad_norm": 0.5036065578460693,
      "learning_rate": 0.00023901149011293905,
      "loss": 2.6733,
      "step": 5348
    },
    {
      "epoch": 0.684672,
      "grad_norm": 0.3935792148113251,
      "learning_rate": 0.00023883468455554807,
      "loss": 2.6074,
      "step": 5349
    },
    {
      "epoch": 0.6848,
      "grad_norm": 0.40925294160842896,
      "learning_rate": 0.0002386579238955025,
      "loss": 2.556,
      "step": 5350
    },
    {
      "epoch": 0.684928,
      "grad_norm": 0.3918378949165344,
      "learning_rate": 0.00023848120816318954,
      "loss": 2.7266,
      "step": 5351
    },
    {
      "epoch": 0.685056,
      "grad_norm": 0.3954385221004486,
      "learning_rate": 0.0002383045373889885,
      "loss": 2.5498,
      "step": 5352
    },
    {
      "epoch": 0.685184,
      "grad_norm": 0.49066951870918274,
      "learning_rate": 0.00023812791160327153,
      "loss": 2.5444,
      "step": 5353
    },
    {
      "epoch": 0.685312,
      "grad_norm": 0.47526130080223083,
      "learning_rate": 0.0002379513308364024,
      "loss": 2.607,
      "step": 5354
    },
    {
      "epoch": 0.68544,
      "grad_norm": 0.44912436604499817,
      "learning_rate": 0.00023777479511873746,
      "loss": 2.7036,
      "step": 5355
    },
    {
      "epoch": 0.685568,
      "grad_norm": 0.43099361658096313,
      "learning_rate": 0.00023759830448062498,
      "loss": 2.636,
      "step": 5356
    },
    {
      "epoch": 0.685696,
      "grad_norm": 0.4551956057548523,
      "learning_rate": 0.0002374218589524062,
      "loss": 2.5337,
      "step": 5357
    },
    {
      "epoch": 0.685824,
      "grad_norm": 0.48794645071029663,
      "learning_rate": 0.00023724545856441392,
      "loss": 2.5608,
      "step": 5358
    },
    {
      "epoch": 0.685952,
      "grad_norm": 0.38753223419189453,
      "learning_rate": 0.00023706910334697347,
      "loss": 2.5186,
      "step": 5359
    },
    {
      "epoch": 0.68608,
      "grad_norm": 0.4067235589027405,
      "learning_rate": 0.0002368927933304021,
      "loss": 2.589,
      "step": 5360
    },
    {
      "epoch": 0.686208,
      "grad_norm": 0.44857698678970337,
      "learning_rate": 0.0002367165285450099,
      "loss": 2.669,
      "step": 5361
    },
    {
      "epoch": 0.686336,
      "grad_norm": 0.38489195704460144,
      "learning_rate": 0.00023654030902109873,
      "loss": 2.5649,
      "step": 5362
    },
    {
      "epoch": 0.686464,
      "grad_norm": 0.3859151005744934,
      "learning_rate": 0.00023636413478896274,
      "loss": 2.5565,
      "step": 5363
    },
    {
      "epoch": 0.686592,
      "grad_norm": 0.4604381322860718,
      "learning_rate": 0.00023618800587888827,
      "loss": 2.4161,
      "step": 5364
    },
    {
      "epoch": 0.68672,
      "grad_norm": 0.3949737250804901,
      "learning_rate": 0.00023601192232115375,
      "loss": 2.4578,
      "step": 5365
    },
    {
      "epoch": 0.686848,
      "grad_norm": 0.3733516037464142,
      "learning_rate": 0.00023583588414603047,
      "loss": 2.6449,
      "step": 5366
    },
    {
      "epoch": 0.686976,
      "grad_norm": 0.37931957840919495,
      "learning_rate": 0.0002356598913837809,
      "loss": 2.5575,
      "step": 5367
    },
    {
      "epoch": 0.687104,
      "grad_norm": 0.3827206492424011,
      "learning_rate": 0.00023548394406466074,
      "loss": 2.6138,
      "step": 5368
    },
    {
      "epoch": 0.687232,
      "grad_norm": 0.39533883333206177,
      "learning_rate": 0.00023530804221891705,
      "loss": 2.5372,
      "step": 5369
    },
    {
      "epoch": 0.68736,
      "grad_norm": 0.35629597306251526,
      "learning_rate": 0.00023513218587678953,
      "loss": 2.563,
      "step": 5370
    },
    {
      "epoch": 0.687488,
      "grad_norm": 0.4389949440956116,
      "learning_rate": 0.00023495637506850987,
      "loss": 2.475,
      "step": 5371
    },
    {
      "epoch": 0.687616,
      "grad_norm": 0.3779348134994507,
      "learning_rate": 0.00023478060982430195,
      "loss": 2.5399,
      "step": 5372
    },
    {
      "epoch": 0.687744,
      "grad_norm": 0.4146178960800171,
      "learning_rate": 0.00023460489017438174,
      "loss": 2.6217,
      "step": 5373
    },
    {
      "epoch": 0.687872,
      "grad_norm": 0.3695048987865448,
      "learning_rate": 0.00023442921614895778,
      "loss": 2.5433,
      "step": 5374
    },
    {
      "epoch": 0.688,
      "grad_norm": 0.3667345643043518,
      "learning_rate": 0.0002342535877782302,
      "loss": 2.5446,
      "step": 5375
    },
    {
      "epoch": 0.688128,
      "grad_norm": 0.3853364884853363,
      "learning_rate": 0.0002340780050923918,
      "loss": 2.6439,
      "step": 5376
    },
    {
      "epoch": 0.688256,
      "grad_norm": 0.3799527585506439,
      "learning_rate": 0.00023390246812162718,
      "loss": 2.6231,
      "step": 5377
    },
    {
      "epoch": 0.688384,
      "grad_norm": 0.4057293236255646,
      "learning_rate": 0.00023372697689611317,
      "loss": 2.5984,
      "step": 5378
    },
    {
      "epoch": 0.688512,
      "grad_norm": 0.38727009296417236,
      "learning_rate": 0.0002335515314460187,
      "loss": 2.586,
      "step": 5379
    },
    {
      "epoch": 0.68864,
      "grad_norm": 0.41018009185791016,
      "learning_rate": 0.00023337613180150497,
      "loss": 2.6169,
      "step": 5380
    },
    {
      "epoch": 0.688768,
      "grad_norm": 0.37480372190475464,
      "learning_rate": 0.00023320077799272493,
      "loss": 2.6283,
      "step": 5381
    },
    {
      "epoch": 0.688896,
      "grad_norm": 0.36364224553108215,
      "learning_rate": 0.00023302547004982433,
      "loss": 2.6177,
      "step": 5382
    },
    {
      "epoch": 0.689024,
      "grad_norm": 0.39299121499061584,
      "learning_rate": 0.0002328502080029405,
      "loss": 2.5554,
      "step": 5383
    },
    {
      "epoch": 0.689152,
      "grad_norm": 0.35886383056640625,
      "learning_rate": 0.00023267499188220277,
      "loss": 2.5107,
      "step": 5384
    },
    {
      "epoch": 0.68928,
      "grad_norm": 0.3669557273387909,
      "learning_rate": 0.00023249982171773322,
      "loss": 2.5475,
      "step": 5385
    },
    {
      "epoch": 0.689408,
      "grad_norm": 0.645097553730011,
      "learning_rate": 0.0002323246975396454,
      "loss": 2.5904,
      "step": 5386
    },
    {
      "epoch": 0.689536,
      "grad_norm": 0.3648783266544342,
      "learning_rate": 0.0002321496193780453,
      "loss": 2.4989,
      "step": 5387
    },
    {
      "epoch": 0.689664,
      "grad_norm": 0.42541375756263733,
      "learning_rate": 0.0002319745872630306,
      "loss": 2.5752,
      "step": 5388
    },
    {
      "epoch": 0.689792,
      "grad_norm": 0.4387770891189575,
      "learning_rate": 0.00023179960122469173,
      "loss": 2.5011,
      "step": 5389
    },
    {
      "epoch": 0.68992,
      "grad_norm": 0.37262457609176636,
      "learning_rate": 0.00023162466129311073,
      "loss": 2.5676,
      "step": 5390
    },
    {
      "epoch": 0.690048,
      "grad_norm": 0.6969346404075623,
      "learning_rate": 0.00023144976749836166,
      "loss": 2.6205,
      "step": 5391
    },
    {
      "epoch": 0.690176,
      "grad_norm": 0.4610770642757416,
      "learning_rate": 0.00023127491987051085,
      "loss": 2.6512,
      "step": 5392
    },
    {
      "epoch": 0.690304,
      "grad_norm": 0.3984390199184418,
      "learning_rate": 0.0002311001184396165,
      "loss": 2.5716,
      "step": 5393
    },
    {
      "epoch": 0.690432,
      "grad_norm": 0.38176700472831726,
      "learning_rate": 0.00023092536323572933,
      "loss": 2.5062,
      "step": 5394
    },
    {
      "epoch": 0.69056,
      "grad_norm": 0.37703269720077515,
      "learning_rate": 0.0002307506542888916,
      "loss": 2.5897,
      "step": 5395
    },
    {
      "epoch": 0.690688,
      "grad_norm": 0.3799560070037842,
      "learning_rate": 0.00023057599162913756,
      "loss": 2.5115,
      "step": 5396
    },
    {
      "epoch": 0.690816,
      "grad_norm": 0.37348344922065735,
      "learning_rate": 0.00023040137528649424,
      "loss": 2.6555,
      "step": 5397
    },
    {
      "epoch": 0.690944,
      "grad_norm": 0.3792569041252136,
      "learning_rate": 0.00023022680529097994,
      "loss": 2.5687,
      "step": 5398
    },
    {
      "epoch": 0.691072,
      "grad_norm": 0.41613712906837463,
      "learning_rate": 0.00023005228167260528,
      "loss": 2.7578,
      "step": 5399
    },
    {
      "epoch": 0.6912,
      "grad_norm": 0.3666520416736603,
      "learning_rate": 0.00022987780446137292,
      "loss": 2.6472,
      "step": 5400
    },
    {
      "epoch": 0.691328,
      "grad_norm": 0.4462726414203644,
      "learning_rate": 0.0002297033736872775,
      "loss": 2.5722,
      "step": 5401
    },
    {
      "epoch": 0.691456,
      "grad_norm": 0.3554879128932953,
      "learning_rate": 0.00022952898938030552,
      "loss": 2.6292,
      "step": 5402
    },
    {
      "epoch": 0.691584,
      "grad_norm": 0.366536945104599,
      "learning_rate": 0.0002293546515704358,
      "loss": 2.5253,
      "step": 5403
    },
    {
      "epoch": 0.691712,
      "grad_norm": 0.3764929175376892,
      "learning_rate": 0.00022918036028763927,
      "loss": 2.6257,
      "step": 5404
    },
    {
      "epoch": 0.69184,
      "grad_norm": 0.4937027394771576,
      "learning_rate": 0.0002290061155618784,
      "loss": 2.6011,
      "step": 5405
    },
    {
      "epoch": 0.691968,
      "grad_norm": 0.37620383501052856,
      "learning_rate": 0.00022883191742310795,
      "loss": 2.5677,
      "step": 5406
    },
    {
      "epoch": 0.692096,
      "grad_norm": 0.3847039043903351,
      "learning_rate": 0.00022865776590127445,
      "loss": 2.5295,
      "step": 5407
    },
    {
      "epoch": 0.692224,
      "grad_norm": 0.39784422516822815,
      "learning_rate": 0.00022848366102631675,
      "loss": 2.5282,
      "step": 5408
    },
    {
      "epoch": 0.692352,
      "grad_norm": 0.3780325651168823,
      "learning_rate": 0.00022830960282816515,
      "loss": 2.5945,
      "step": 5409
    },
    {
      "epoch": 0.69248,
      "grad_norm": 0.44035959243774414,
      "learning_rate": 0.00022813559133674278,
      "loss": 2.5879,
      "step": 5410
    },
    {
      "epoch": 0.692608,
      "grad_norm": 0.37798652052879333,
      "learning_rate": 0.00022796162658196396,
      "loss": 2.6803,
      "step": 5411
    },
    {
      "epoch": 0.692736,
      "grad_norm": 0.39803874492645264,
      "learning_rate": 0.00022778770859373503,
      "loss": 2.4471,
      "step": 5412
    },
    {
      "epoch": 0.692864,
      "grad_norm": 0.41404902935028076,
      "learning_rate": 0.000227613837401955,
      "loss": 2.5829,
      "step": 5413
    },
    {
      "epoch": 0.692992,
      "grad_norm": 0.38937073945999146,
      "learning_rate": 0.00022744001303651407,
      "loss": 2.6222,
      "step": 5414
    },
    {
      "epoch": 0.69312,
      "grad_norm": 0.421074241399765,
      "learning_rate": 0.0002272662355272947,
      "loss": 2.5571,
      "step": 5415
    },
    {
      "epoch": 0.693248,
      "grad_norm": 0.374307245016098,
      "learning_rate": 0.0002270925049041712,
      "loss": 2.5634,
      "step": 5416
    },
    {
      "epoch": 0.693376,
      "grad_norm": 0.3825361430644989,
      "learning_rate": 0.0002269188211970098,
      "loss": 2.5702,
      "step": 5417
    },
    {
      "epoch": 0.693504,
      "grad_norm": 0.4358054995536804,
      "learning_rate": 0.00022674518443566906,
      "loss": 2.6558,
      "step": 5418
    },
    {
      "epoch": 0.693632,
      "grad_norm": 0.4572986960411072,
      "learning_rate": 0.00022657159464999888,
      "loss": 2.571,
      "step": 5419
    },
    {
      "epoch": 0.69376,
      "grad_norm": 0.3875710368156433,
      "learning_rate": 0.00022639805186984148,
      "loss": 2.6125,
      "step": 5420
    },
    {
      "epoch": 0.693888,
      "grad_norm": 0.4072064161300659,
      "learning_rate": 0.00022622455612503062,
      "loss": 2.4962,
      "step": 5421
    },
    {
      "epoch": 0.694016,
      "grad_norm": 0.37766486406326294,
      "learning_rate": 0.00022605110744539265,
      "loss": 2.5576,
      "step": 5422
    },
    {
      "epoch": 0.694144,
      "grad_norm": 0.3819868564605713,
      "learning_rate": 0.00022587770586074519,
      "loss": 2.6639,
      "step": 5423
    },
    {
      "epoch": 0.694272,
      "grad_norm": 0.36186182498931885,
      "learning_rate": 0.0002257043514008978,
      "loss": 2.5177,
      "step": 5424
    },
    {
      "epoch": 0.6944,
      "grad_norm": 0.4022638499736786,
      "learning_rate": 0.0002255310440956525,
      "loss": 2.6774,
      "step": 5425
    },
    {
      "epoch": 0.694528,
      "grad_norm": 0.36386480927467346,
      "learning_rate": 0.00022535778397480262,
      "loss": 2.5835,
      "step": 5426
    },
    {
      "epoch": 0.694656,
      "grad_norm": 0.368584007024765,
      "learning_rate": 0.0002251845710681336,
      "loss": 2.5102,
      "step": 5427
    },
    {
      "epoch": 0.694784,
      "grad_norm": 0.4061706066131592,
      "learning_rate": 0.0002250114054054228,
      "loss": 2.42,
      "step": 5428
    },
    {
      "epoch": 0.694912,
      "grad_norm": 0.40026000142097473,
      "learning_rate": 0.00022483828701643933,
      "loss": 2.6802,
      "step": 5429
    },
    {
      "epoch": 0.69504,
      "grad_norm": 0.3754793405532837,
      "learning_rate": 0.00022466521593094403,
      "loss": 2.5845,
      "step": 5430
    },
    {
      "epoch": 0.695168,
      "grad_norm": 0.3774941563606262,
      "learning_rate": 0.0002244921921786901,
      "loss": 2.5759,
      "step": 5431
    },
    {
      "epoch": 0.695296,
      "grad_norm": 0.37121468782424927,
      "learning_rate": 0.0002243192157894225,
      "loss": 2.5099,
      "step": 5432
    },
    {
      "epoch": 0.695424,
      "grad_norm": 0.5089490413665771,
      "learning_rate": 0.00022414628679287769,
      "loss": 2.7073,
      "step": 5433
    },
    {
      "epoch": 0.695552,
      "grad_norm": 0.3735921084880829,
      "learning_rate": 0.00022397340521878412,
      "loss": 2.5059,
      "step": 5434
    },
    {
      "epoch": 0.69568,
      "grad_norm": 0.3748008608818054,
      "learning_rate": 0.00022380057109686215,
      "loss": 2.4837,
      "step": 5435
    },
    {
      "epoch": 0.695808,
      "grad_norm": 0.4024873971939087,
      "learning_rate": 0.00022362778445682402,
      "loss": 2.5647,
      "step": 5436
    },
    {
      "epoch": 0.695936,
      "grad_norm": 0.3925228714942932,
      "learning_rate": 0.00022345504532837368,
      "loss": 2.6124,
      "step": 5437
    },
    {
      "epoch": 0.696064,
      "grad_norm": 0.4076455533504486,
      "learning_rate": 0.00022328235374120692,
      "loss": 2.6126,
      "step": 5438
    },
    {
      "epoch": 0.696192,
      "grad_norm": 0.3587005138397217,
      "learning_rate": 0.0002231097097250115,
      "loss": 2.5129,
      "step": 5439
    },
    {
      "epoch": 0.69632,
      "grad_norm": 0.41598454117774963,
      "learning_rate": 0.0002229371133094671,
      "loss": 2.6428,
      "step": 5440
    },
    {
      "epoch": 0.696448,
      "grad_norm": 0.38744306564331055,
      "learning_rate": 0.00022276456452424497,
      "loss": 2.6605,
      "step": 5441
    },
    {
      "epoch": 0.696576,
      "grad_norm": 0.3904310464859009,
      "learning_rate": 0.00022259206339900818,
      "loss": 2.6232,
      "step": 5442
    },
    {
      "epoch": 0.696704,
      "grad_norm": 0.38719168305397034,
      "learning_rate": 0.00022241960996341166,
      "loss": 2.5728,
      "step": 5443
    },
    {
      "epoch": 0.696832,
      "grad_norm": 0.39418599009513855,
      "learning_rate": 0.0002222472042471022,
      "loss": 2.6102,
      "step": 5444
    },
    {
      "epoch": 0.69696,
      "grad_norm": 0.3652057349681854,
      "learning_rate": 0.00022207484627971813,
      "loss": 2.6432,
      "step": 5445
    },
    {
      "epoch": 0.697088,
      "grad_norm": 0.3679053485393524,
      "learning_rate": 0.0002219025360908901,
      "loss": 2.476,
      "step": 5446
    },
    {
      "epoch": 0.697216,
      "grad_norm": 0.3720633387565613,
      "learning_rate": 0.0002217302737102402,
      "loss": 2.7217,
      "step": 5447
    },
    {
      "epoch": 0.697344,
      "grad_norm": 0.41766175627708435,
      "learning_rate": 0.00022155805916738213,
      "loss": 2.5473,
      "step": 5448
    },
    {
      "epoch": 0.697472,
      "grad_norm": 0.4359613358974457,
      "learning_rate": 0.00022138589249192154,
      "loss": 2.519,
      "step": 5449
    },
    {
      "epoch": 0.6976,
      "grad_norm": 0.39562660455703735,
      "learning_rate": 0.0002212137737134562,
      "loss": 2.5739,
      "step": 5450
    },
    {
      "epoch": 0.697728,
      "grad_norm": 0.37458810210227966,
      "learning_rate": 0.00022104170286157504,
      "loss": 2.5412,
      "step": 5451
    },
    {
      "epoch": 0.697856,
      "grad_norm": 0.43182504177093506,
      "learning_rate": 0.00022086967996585898,
      "loss": 2.5008,
      "step": 5452
    },
    {
      "epoch": 0.697984,
      "grad_norm": 0.44951504468917847,
      "learning_rate": 0.00022069770505588111,
      "loss": 2.5297,
      "step": 5453
    },
    {
      "epoch": 0.698112,
      "grad_norm": 0.4111112654209137,
      "learning_rate": 0.00022052577816120567,
      "loss": 2.5509,
      "step": 5454
    },
    {
      "epoch": 0.69824,
      "grad_norm": 0.4081323444843292,
      "learning_rate": 0.00022035389931138893,
      "loss": 2.5756,
      "step": 5455
    },
    {
      "epoch": 0.698368,
      "grad_norm": 0.3740799129009247,
      "learning_rate": 0.00022018206853597879,
      "loss": 2.614,
      "step": 5456
    },
    {
      "epoch": 0.698496,
      "grad_norm": 0.6573736071586609,
      "learning_rate": 0.000220010285864515,
      "loss": 2.5834,
      "step": 5457
    },
    {
      "epoch": 0.698624,
      "grad_norm": 0.4058140218257904,
      "learning_rate": 0.00021983855132652887,
      "loss": 2.512,
      "step": 5458
    },
    {
      "epoch": 0.698752,
      "grad_norm": 0.4047187566757202,
      "learning_rate": 0.00021966686495154375,
      "loss": 2.6041,
      "step": 5459
    },
    {
      "epoch": 0.69888,
      "grad_norm": 0.39353522658348083,
      "learning_rate": 0.00021949522676907436,
      "loss": 2.4838,
      "step": 5460
    },
    {
      "epoch": 0.699008,
      "grad_norm": 0.44613686203956604,
      "learning_rate": 0.0002193236368086275,
      "loss": 2.6391,
      "step": 5461
    },
    {
      "epoch": 0.699136,
      "grad_norm": 0.43450143933296204,
      "learning_rate": 0.0002191520950997014,
      "loss": 2.6279,
      "step": 5462
    },
    {
      "epoch": 0.699264,
      "grad_norm": 0.3829594850540161,
      "learning_rate": 0.000218980601671786,
      "loss": 2.5468,
      "step": 5463
    },
    {
      "epoch": 0.699392,
      "grad_norm": 0.39625856280326843,
      "learning_rate": 0.00021880915655436302,
      "loss": 2.5273,
      "step": 5464
    },
    {
      "epoch": 0.69952,
      "grad_norm": 0.4216071665287018,
      "learning_rate": 0.00021863775977690587,
      "loss": 2.5817,
      "step": 5465
    },
    {
      "epoch": 0.699648,
      "grad_norm": 0.3954107165336609,
      "learning_rate": 0.00021846641136887945,
      "loss": 2.5651,
      "step": 5466
    },
    {
      "epoch": 0.699776,
      "grad_norm": 0.4002794027328491,
      "learning_rate": 0.0002182951113597408,
      "loss": 2.6019,
      "step": 5467
    },
    {
      "epoch": 0.699904,
      "grad_norm": 0.4005350172519684,
      "learning_rate": 0.00021812385977893845,
      "loss": 2.5779,
      "step": 5468
    },
    {
      "epoch": 0.700032,
      "grad_norm": 0.3769548535346985,
      "learning_rate": 0.00021795265665591236,
      "loss": 2.5465,
      "step": 5469
    },
    {
      "epoch": 0.70016,
      "grad_norm": 0.40773314237594604,
      "learning_rate": 0.0002177815020200944,
      "loss": 2.5687,
      "step": 5470
    },
    {
      "epoch": 0.700288,
      "grad_norm": 0.3864328861236572,
      "learning_rate": 0.00021761039590090798,
      "loss": 2.5454,
      "step": 5471
    },
    {
      "epoch": 0.700416,
      "grad_norm": 0.37471601366996765,
      "learning_rate": 0.0002174393383277683,
      "loss": 2.561,
      "step": 5472
    },
    {
      "epoch": 0.700544,
      "grad_norm": 0.36827853322029114,
      "learning_rate": 0.00021726832933008185,
      "loss": 2.6264,
      "step": 5473
    },
    {
      "epoch": 0.700672,
      "grad_norm": 0.400667667388916,
      "learning_rate": 0.00021709736893724745,
      "loss": 2.6628,
      "step": 5474
    },
    {
      "epoch": 0.7008,
      "grad_norm": 0.37412208318710327,
      "learning_rate": 0.0002169264571786551,
      "loss": 2.4778,
      "step": 5475
    },
    {
      "epoch": 0.700928,
      "grad_norm": 0.39136290550231934,
      "learning_rate": 0.00021675559408368622,
      "loss": 2.5802,
      "step": 5476
    },
    {
      "epoch": 0.701056,
      "grad_norm": 0.4074094593524933,
      "learning_rate": 0.00021658477968171453,
      "loss": 2.5814,
      "step": 5477
    },
    {
      "epoch": 0.701184,
      "grad_norm": 0.3715480864048004,
      "learning_rate": 0.00021641401400210487,
      "loss": 2.5619,
      "step": 5478
    },
    {
      "epoch": 0.701312,
      "grad_norm": 0.38132452964782715,
      "learning_rate": 0.00021624329707421375,
      "loss": 2.495,
      "step": 5479
    },
    {
      "epoch": 0.70144,
      "grad_norm": 0.5259560942649841,
      "learning_rate": 0.00021607262892738954,
      "loss": 2.5516,
      "step": 5480
    },
    {
      "epoch": 0.701568,
      "grad_norm": 0.35830920934677124,
      "learning_rate": 0.00021590200959097173,
      "loss": 2.5619,
      "step": 5481
    },
    {
      "epoch": 0.701696,
      "grad_norm": 0.3886539041996002,
      "learning_rate": 0.00021573143909429227,
      "loss": 2.5407,
      "step": 5482
    },
    {
      "epoch": 0.701824,
      "grad_norm": 0.3554306924343109,
      "learning_rate": 0.0002155609174666739,
      "loss": 2.5466,
      "step": 5483
    },
    {
      "epoch": 0.701952,
      "grad_norm": 0.6098015904426575,
      "learning_rate": 0.00021539044473743135,
      "loss": 2.5069,
      "step": 5484
    },
    {
      "epoch": 0.70208,
      "grad_norm": 0.406096875667572,
      "learning_rate": 0.00021522002093587078,
      "loss": 2.6137,
      "step": 5485
    },
    {
      "epoch": 0.702208,
      "grad_norm": 0.7664259076118469,
      "learning_rate": 0.0002150496460912899,
      "loss": 2.5696,
      "step": 5486
    },
    {
      "epoch": 0.702336,
      "grad_norm": 0.3797452747821808,
      "learning_rate": 0.00021487932023297852,
      "loss": 2.5415,
      "step": 5487
    },
    {
      "epoch": 0.702464,
      "grad_norm": 0.3890528380870819,
      "learning_rate": 0.0002147090433902172,
      "loss": 2.5626,
      "step": 5488
    },
    {
      "epoch": 0.702592,
      "grad_norm": 0.4686455726623535,
      "learning_rate": 0.00021453881559227884,
      "loss": 2.5292,
      "step": 5489
    },
    {
      "epoch": 0.70272,
      "grad_norm": 0.4155465066432953,
      "learning_rate": 0.0002143686368684274,
      "loss": 2.6375,
      "step": 5490
    },
    {
      "epoch": 0.702848,
      "grad_norm": 0.4154284596443176,
      "learning_rate": 0.00021419850724791866,
      "loss": 2.5062,
      "step": 5491
    },
    {
      "epoch": 0.702976,
      "grad_norm": 0.41002196073532104,
      "learning_rate": 0.0002140284267599998,
      "loss": 2.5807,
      "step": 5492
    },
    {
      "epoch": 0.703104,
      "grad_norm": 0.38958457112312317,
      "learning_rate": 0.00021385839543390967,
      "loss": 2.4818,
      "step": 5493
    },
    {
      "epoch": 0.703232,
      "grad_norm": 0.7198801040649414,
      "learning_rate": 0.0002136884132988784,
      "loss": 2.6634,
      "step": 5494
    },
    {
      "epoch": 0.70336,
      "grad_norm": 0.44810032844543457,
      "learning_rate": 0.0002135184803841283,
      "loss": 2.6167,
      "step": 5495
    },
    {
      "epoch": 0.703488,
      "grad_norm": 0.36797231435775757,
      "learning_rate": 0.00021334859671887234,
      "loss": 2.6847,
      "step": 5496
    },
    {
      "epoch": 0.703616,
      "grad_norm": 0.410604864358902,
      "learning_rate": 0.00021317876233231605,
      "loss": 2.6306,
      "step": 5497
    },
    {
      "epoch": 0.703744,
      "grad_norm": 0.3814777731895447,
      "learning_rate": 0.00021300897725365554,
      "loss": 2.6574,
      "step": 5498
    },
    {
      "epoch": 0.703872,
      "grad_norm": 0.3945751488208771,
      "learning_rate": 0.00021283924151207896,
      "loss": 2.452,
      "step": 5499
    },
    {
      "epoch": 0.704,
      "grad_norm": 0.407471626996994,
      "learning_rate": 0.00021266955513676584,
      "loss": 2.5514,
      "step": 5500
    },
    {
      "epoch": 0.704128,
      "grad_norm": 0.4471227824687958,
      "learning_rate": 0.0002124999181568872,
      "loss": 2.6155,
      "step": 5501
    },
    {
      "epoch": 0.704256,
      "grad_norm": 0.38370823860168457,
      "learning_rate": 0.00021233033060160539,
      "loss": 2.5584,
      "step": 5502
    },
    {
      "epoch": 0.704384,
      "grad_norm": 0.3600289225578308,
      "learning_rate": 0.00021216079250007492,
      "loss": 2.5091,
      "step": 5503
    },
    {
      "epoch": 0.704512,
      "grad_norm": 0.3928825259208679,
      "learning_rate": 0.00021199130388144095,
      "loss": 2.6335,
      "step": 5504
    },
    {
      "epoch": 0.70464,
      "grad_norm": 0.39189085364341736,
      "learning_rate": 0.00021182186477484093,
      "loss": 2.5459,
      "step": 5505
    },
    {
      "epoch": 0.704768,
      "grad_norm": 0.35737094283103943,
      "learning_rate": 0.00021165247520940319,
      "loss": 2.6436,
      "step": 5506
    },
    {
      "epoch": 0.704896,
      "grad_norm": 0.3604540526866913,
      "learning_rate": 0.00021148313521424778,
      "loss": 2.5499,
      "step": 5507
    },
    {
      "epoch": 0.705024,
      "grad_norm": 0.3764508068561554,
      "learning_rate": 0.00021131384481848614,
      "loss": 2.5785,
      "step": 5508
    },
    {
      "epoch": 0.705152,
      "grad_norm": 0.38989415764808655,
      "learning_rate": 0.0002111446040512212,
      "loss": 2.5921,
      "step": 5509
    },
    {
      "epoch": 0.70528,
      "grad_norm": 0.3923540711402893,
      "learning_rate": 0.0002109754129415477,
      "loss": 2.5169,
      "step": 5510
    },
    {
      "epoch": 0.705408,
      "grad_norm": 0.405413419008255,
      "learning_rate": 0.00021080627151855136,
      "loss": 2.5549,
      "step": 5511
    },
    {
      "epoch": 0.705536,
      "grad_norm": 0.35728558897972107,
      "learning_rate": 0.00021063717981130954,
      "loss": 2.5304,
      "step": 5512
    },
    {
      "epoch": 0.705664,
      "grad_norm": 0.42200931906700134,
      "learning_rate": 0.00021046813784889097,
      "loss": 2.5723,
      "step": 5513
    },
    {
      "epoch": 0.705792,
      "grad_norm": 0.3807815611362457,
      "learning_rate": 0.00021029914566035617,
      "loss": 2.461,
      "step": 5514
    },
    {
      "epoch": 0.70592,
      "grad_norm": 0.36309245228767395,
      "learning_rate": 0.0002101302032747568,
      "loss": 2.566,
      "step": 5515
    },
    {
      "epoch": 0.706048,
      "grad_norm": 0.39190271496772766,
      "learning_rate": 0.00020996131072113588,
      "loss": 2.6616,
      "step": 5516
    },
    {
      "epoch": 0.706176,
      "grad_norm": 0.36721935868263245,
      "learning_rate": 0.00020979246802852792,
      "loss": 2.5537,
      "step": 5517
    },
    {
      "epoch": 0.706304,
      "grad_norm": 0.39320018887519836,
      "learning_rate": 0.00020962367522595922,
      "loss": 2.6358,
      "step": 5518
    },
    {
      "epoch": 0.706432,
      "grad_norm": 0.4152992069721222,
      "learning_rate": 0.00020945493234244712,
      "loss": 2.5693,
      "step": 5519
    },
    {
      "epoch": 0.70656,
      "grad_norm": 0.38361918926239014,
      "learning_rate": 0.00020928623940700042,
      "loss": 2.3968,
      "step": 5520
    },
    {
      "epoch": 0.706688,
      "grad_norm": 0.3739069998264313,
      "learning_rate": 0.00020911759644861937,
      "loss": 2.5692,
      "step": 5521
    },
    {
      "epoch": 0.706816,
      "grad_norm": 0.3679977059364319,
      "learning_rate": 0.00020894900349629575,
      "loss": 2.5658,
      "step": 5522
    },
    {
      "epoch": 0.706944,
      "grad_norm": 0.3760033845901489,
      "learning_rate": 0.0002087804605790124,
      "loss": 2.5032,
      "step": 5523
    },
    {
      "epoch": 0.707072,
      "grad_norm": 0.42399919033050537,
      "learning_rate": 0.00020861196772574398,
      "loss": 2.4592,
      "step": 5524
    },
    {
      "epoch": 0.7072,
      "grad_norm": 0.39640575647354126,
      "learning_rate": 0.0002084435249654565,
      "loss": 2.6024,
      "step": 5525
    },
    {
      "epoch": 0.707328,
      "grad_norm": 0.3960546851158142,
      "learning_rate": 0.00020827513232710715,
      "loss": 2.63,
      "step": 5526
    },
    {
      "epoch": 0.707456,
      "grad_norm": 0.38391125202178955,
      "learning_rate": 0.00020810678983964448,
      "loss": 2.5168,
      "step": 5527
    },
    {
      "epoch": 0.707584,
      "grad_norm": 0.35916343331336975,
      "learning_rate": 0.00020793849753200855,
      "loss": 2.6421,
      "step": 5528
    },
    {
      "epoch": 0.707712,
      "grad_norm": 0.3939257264137268,
      "learning_rate": 0.00020777025543313078,
      "loss": 2.5579,
      "step": 5529
    },
    {
      "epoch": 0.70784,
      "grad_norm": 0.3935823142528534,
      "learning_rate": 0.00020760206357193372,
      "loss": 2.6141,
      "step": 5530
    },
    {
      "epoch": 0.707968,
      "grad_norm": 0.3792262673377991,
      "learning_rate": 0.00020743392197733191,
      "loss": 2.6053,
      "step": 5531
    },
    {
      "epoch": 0.708096,
      "grad_norm": 0.3809162974357605,
      "learning_rate": 0.00020726583067823045,
      "loss": 2.5995,
      "step": 5532
    },
    {
      "epoch": 0.708224,
      "grad_norm": 0.3808831572532654,
      "learning_rate": 0.00020709778970352656,
      "loss": 2.5666,
      "step": 5533
    },
    {
      "epoch": 0.708352,
      "grad_norm": 0.41679051518440247,
      "learning_rate": 0.0002069297990821082,
      "loss": 2.5637,
      "step": 5534
    },
    {
      "epoch": 0.70848,
      "grad_norm": 0.4320109188556671,
      "learning_rate": 0.00020676185884285493,
      "loss": 2.6647,
      "step": 5535
    },
    {
      "epoch": 0.708608,
      "grad_norm": 0.3763592541217804,
      "learning_rate": 0.0002065939690146376,
      "loss": 2.551,
      "step": 5536
    },
    {
      "epoch": 0.708736,
      "grad_norm": 0.37921562790870667,
      "learning_rate": 0.00020642612962631853,
      "loss": 2.5845,
      "step": 5537
    },
    {
      "epoch": 0.708864,
      "grad_norm": 0.35910966992378235,
      "learning_rate": 0.00020625834070675091,
      "loss": 2.6093,
      "step": 5538
    },
    {
      "epoch": 0.708992,
      "grad_norm": 0.3896189332008362,
      "learning_rate": 0.00020609060228478015,
      "loss": 2.5763,
      "step": 5539
    },
    {
      "epoch": 0.70912,
      "grad_norm": 0.339505672454834,
      "learning_rate": 0.0002059229143892421,
      "loss": 2.5062,
      "step": 5540
    },
    {
      "epoch": 0.709248,
      "grad_norm": 0.38087305426597595,
      "learning_rate": 0.00020575527704896413,
      "loss": 2.5711,
      "step": 5541
    },
    {
      "epoch": 0.709376,
      "grad_norm": 0.3607824444770813,
      "learning_rate": 0.00020558769029276535,
      "loss": 2.4918,
      "step": 5542
    },
    {
      "epoch": 0.709504,
      "grad_norm": 0.3855971693992615,
      "learning_rate": 0.00020542015414945575,
      "loss": 2.6036,
      "step": 5543
    },
    {
      "epoch": 0.709632,
      "grad_norm": 0.3706310987472534,
      "learning_rate": 0.00020525266864783676,
      "loss": 2.5292,
      "step": 5544
    },
    {
      "epoch": 0.70976,
      "grad_norm": 0.35551124811172485,
      "learning_rate": 0.0002050852338167008,
      "loss": 2.5349,
      "step": 5545
    },
    {
      "epoch": 0.709888,
      "grad_norm": 0.3950617015361786,
      "learning_rate": 0.0002049178496848323,
      "loss": 2.5284,
      "step": 5546
    },
    {
      "epoch": 0.710016,
      "grad_norm": 0.5873425602912903,
      "learning_rate": 0.00020475051628100633,
      "loss": 2.5415,
      "step": 5547
    },
    {
      "epoch": 0.710144,
      "grad_norm": 0.39584216475486755,
      "learning_rate": 0.0002045832336339894,
      "loss": 2.4712,
      "step": 5548
    },
    {
      "epoch": 0.710272,
      "grad_norm": 0.4025709629058838,
      "learning_rate": 0.00020441600177253938,
      "loss": 2.5327,
      "step": 5549
    },
    {
      "epoch": 0.7104,
      "grad_norm": 0.40114322304725647,
      "learning_rate": 0.00020424882072540542,
      "loss": 2.591,
      "step": 5550
    },
    {
      "epoch": 0.710528,
      "grad_norm": 0.4045467972755432,
      "learning_rate": 0.0002040816905213276,
      "loss": 2.5213,
      "step": 5551
    },
    {
      "epoch": 0.710656,
      "grad_norm": 0.37513622641563416,
      "learning_rate": 0.00020391461118903786,
      "loss": 2.5212,
      "step": 5552
    },
    {
      "epoch": 0.710784,
      "grad_norm": 0.34891319274902344,
      "learning_rate": 0.0002037475827572589,
      "loss": 2.5259,
      "step": 5553
    },
    {
      "epoch": 0.710912,
      "grad_norm": 0.38803043961524963,
      "learning_rate": 0.00020358060525470508,
      "loss": 2.585,
      "step": 5554
    },
    {
      "epoch": 0.71104,
      "grad_norm": 0.6029424071311951,
      "learning_rate": 0.00020341367871008154,
      "loss": 2.6226,
      "step": 5555
    },
    {
      "epoch": 0.711168,
      "grad_norm": 0.39256998896598816,
      "learning_rate": 0.00020324680315208504,
      "loss": 2.5281,
      "step": 5556
    },
    {
      "epoch": 0.711296,
      "grad_norm": 0.4155750572681427,
      "learning_rate": 0.0002030799786094033,
      "loss": 2.5276,
      "step": 5557
    },
    {
      "epoch": 0.711424,
      "grad_norm": 0.3920711576938629,
      "learning_rate": 0.00020291320511071543,
      "loss": 2.5962,
      "step": 5558
    },
    {
      "epoch": 0.711552,
      "grad_norm": 0.4667079448699951,
      "learning_rate": 0.00020274648268469155,
      "loss": 2.6476,
      "step": 5559
    },
    {
      "epoch": 0.71168,
      "grad_norm": 0.3916489779949188,
      "learning_rate": 0.0002025798113599933,
      "loss": 2.5236,
      "step": 5560
    },
    {
      "epoch": 0.711808,
      "grad_norm": 0.4182675778865814,
      "learning_rate": 0.00020241319116527374,
      "loss": 2.5912,
      "step": 5561
    },
    {
      "epoch": 0.711936,
      "grad_norm": 0.3696592152118683,
      "learning_rate": 0.0002022466221291765,
      "loss": 2.5283,
      "step": 5562
    },
    {
      "epoch": 0.712064,
      "grad_norm": 0.39317604899406433,
      "learning_rate": 0.00020208010428033674,
      "loss": 2.5335,
      "step": 5563
    },
    {
      "epoch": 0.712192,
      "grad_norm": 0.37660497426986694,
      "learning_rate": 0.00020191363764738085,
      "loss": 2.7233,
      "step": 5564
    },
    {
      "epoch": 0.71232,
      "grad_norm": 0.40964245796203613,
      "learning_rate": 0.00020174722225892638,
      "loss": 2.5794,
      "step": 5565
    },
    {
      "epoch": 0.712448,
      "grad_norm": 0.3820705711841583,
      "learning_rate": 0.00020158085814358183,
      "loss": 2.5738,
      "step": 5566
    },
    {
      "epoch": 0.712576,
      "grad_norm": 0.3705699145793915,
      "learning_rate": 0.0002014145453299476,
      "loss": 2.6057,
      "step": 5567
    },
    {
      "epoch": 0.712704,
      "grad_norm": 0.42603054642677307,
      "learning_rate": 0.0002012482838466145,
      "loss": 2.5935,
      "step": 5568
    },
    {
      "epoch": 0.712832,
      "grad_norm": 0.4005798101425171,
      "learning_rate": 0.00020108207372216457,
      "loss": 2.5951,
      "step": 5569
    },
    {
      "epoch": 0.71296,
      "grad_norm": 0.38585782051086426,
      "learning_rate": 0.0002009159149851718,
      "loss": 2.5486,
      "step": 5570
    },
    {
      "epoch": 0.713088,
      "grad_norm": 0.42240315675735474,
      "learning_rate": 0.00020074980766420048,
      "loss": 2.6492,
      "step": 5571
    },
    {
      "epoch": 0.713216,
      "grad_norm": 0.40980154275894165,
      "learning_rate": 0.0002005837517878064,
      "loss": 2.6455,
      "step": 5572
    },
    {
      "epoch": 0.713344,
      "grad_norm": 0.3936883807182312,
      "learning_rate": 0.0002004177473845366,
      "loss": 2.5361,
      "step": 5573
    },
    {
      "epoch": 0.713472,
      "grad_norm": 0.44336506724357605,
      "learning_rate": 0.00020025179448292886,
      "loss": 2.5753,
      "step": 5574
    },
    {
      "epoch": 0.7136,
      "grad_norm": 0.3715365529060364,
      "learning_rate": 0.00020008589311151277,
      "loss": 2.603,
      "step": 5575
    },
    {
      "epoch": 0.713728,
      "grad_norm": 0.40501371026039124,
      "learning_rate": 0.00019992004329880857,
      "loss": 2.684,
      "step": 5576
    },
    {
      "epoch": 0.713856,
      "grad_norm": 0.3669808506965637,
      "learning_rate": 0.0001997542450733278,
      "loss": 2.6374,
      "step": 5577
    },
    {
      "epoch": 0.713984,
      "grad_norm": 0.38892272114753723,
      "learning_rate": 0.00019958849846357285,
      "loss": 2.5607,
      "step": 5578
    },
    {
      "epoch": 0.714112,
      "grad_norm": 0.3958449363708496,
      "learning_rate": 0.00019942280349803781,
      "loss": 2.5364,
      "step": 5579
    },
    {
      "epoch": 0.71424,
      "grad_norm": 0.3755984902381897,
      "learning_rate": 0.00019925716020520752,
      "loss": 2.5062,
      "step": 5580
    },
    {
      "epoch": 0.714368,
      "grad_norm": 0.41541314125061035,
      "learning_rate": 0.00019909156861355764,
      "loss": 2.5787,
      "step": 5581
    },
    {
      "epoch": 0.714496,
      "grad_norm": 0.4114040434360504,
      "learning_rate": 0.0001989260287515558,
      "loss": 2.647,
      "step": 5582
    },
    {
      "epoch": 0.714624,
      "grad_norm": 0.38883176445961,
      "learning_rate": 0.00019876054064765992,
      "loss": 2.662,
      "step": 5583
    },
    {
      "epoch": 0.714752,
      "grad_norm": 0.46705496311187744,
      "learning_rate": 0.0001985951043303194,
      "loss": 2.6354,
      "step": 5584
    },
    {
      "epoch": 0.71488,
      "grad_norm": 0.4090900719165802,
      "learning_rate": 0.0001984297198279746,
      "loss": 2.5984,
      "step": 5585
    },
    {
      "epoch": 0.715008,
      "grad_norm": 0.38352563977241516,
      "learning_rate": 0.0001982643871690571,
      "loss": 2.6164,
      "step": 5586
    },
    {
      "epoch": 0.715136,
      "grad_norm": 0.3815092444419861,
      "learning_rate": 0.00019809910638198924,
      "loss": 2.469,
      "step": 5587
    },
    {
      "epoch": 0.715264,
      "grad_norm": 0.4184579849243164,
      "learning_rate": 0.00019793387749518515,
      "loss": 2.647,
      "step": 5588
    },
    {
      "epoch": 0.715392,
      "grad_norm": 0.3967418372631073,
      "learning_rate": 0.00019776870053704915,
      "loss": 2.553,
      "step": 5589
    },
    {
      "epoch": 0.71552,
      "grad_norm": 0.3826686143875122,
      "learning_rate": 0.00019760357553597752,
      "loss": 2.5809,
      "step": 5590
    },
    {
      "epoch": 0.715648,
      "grad_norm": 0.39120927453041077,
      "learning_rate": 0.0001974385025203569,
      "loss": 2.4807,
      "step": 5591
    },
    {
      "epoch": 0.715776,
      "grad_norm": 0.39298030734062195,
      "learning_rate": 0.00019727348151856534,
      "loss": 2.4536,
      "step": 5592
    },
    {
      "epoch": 0.715904,
      "grad_norm": 0.4261404573917389,
      "learning_rate": 0.00019710851255897173,
      "loss": 2.6783,
      "step": 5593
    },
    {
      "epoch": 0.716032,
      "grad_norm": 0.3808646500110626,
      "learning_rate": 0.0001969435956699363,
      "loss": 2.5281,
      "step": 5594
    },
    {
      "epoch": 0.71616,
      "grad_norm": 0.5932359099388123,
      "learning_rate": 0.0001967787308798099,
      "loss": 2.6278,
      "step": 5595
    },
    {
      "epoch": 0.716288,
      "grad_norm": 0.3900480270385742,
      "learning_rate": 0.00019661391821693507,
      "loss": 2.5457,
      "step": 5596
    },
    {
      "epoch": 0.716416,
      "grad_norm": 0.4066978693008423,
      "learning_rate": 0.00019644915770964473,
      "loss": 2.538,
      "step": 5597
    },
    {
      "epoch": 0.716544,
      "grad_norm": 0.3940798342227936,
      "learning_rate": 0.00019628444938626333,
      "loss": 2.5108,
      "step": 5598
    },
    {
      "epoch": 0.716672,
      "grad_norm": 0.3857443630695343,
      "learning_rate": 0.00019611979327510616,
      "loss": 2.6086,
      "step": 5599
    },
    {
      "epoch": 0.7168,
      "grad_norm": 0.3822808563709259,
      "learning_rate": 0.00019595518940447931,
      "loss": 2.5834,
      "step": 5600
    },
    {
      "epoch": 0.716928,
      "grad_norm": 0.41242173314094543,
      "learning_rate": 0.00019579063780268024,
      "loss": 2.5761,
      "step": 5601
    },
    {
      "epoch": 0.717056,
      "grad_norm": 0.3722486197948456,
      "learning_rate": 0.00019562613849799705,
      "loss": 2.5921,
      "step": 5602
    },
    {
      "epoch": 0.717184,
      "grad_norm": 0.5345748066902161,
      "learning_rate": 0.00019546169151870942,
      "loss": 2.452,
      "step": 5603
    },
    {
      "epoch": 0.717312,
      "grad_norm": 0.38696372509002686,
      "learning_rate": 0.00019529729689308757,
      "loss": 2.6242,
      "step": 5604
    },
    {
      "epoch": 0.71744,
      "grad_norm": 0.42252203822135925,
      "learning_rate": 0.00019513295464939273,
      "loss": 2.4781,
      "step": 5605
    },
    {
      "epoch": 0.717568,
      "grad_norm": 0.3999144434928894,
      "learning_rate": 0.00019496866481587716,
      "loss": 2.6792,
      "step": 5606
    },
    {
      "epoch": 0.717696,
      "grad_norm": 0.39203375577926636,
      "learning_rate": 0.00019480442742078453,
      "loss": 2.5975,
      "step": 5607
    },
    {
      "epoch": 0.717824,
      "grad_norm": 0.3988472521305084,
      "learning_rate": 0.00019464024249234897,
      "loss": 2.5955,
      "step": 5608
    },
    {
      "epoch": 0.717952,
      "grad_norm": 0.39378708600997925,
      "learning_rate": 0.00019447611005879572,
      "loss": 2.6575,
      "step": 5609
    },
    {
      "epoch": 0.71808,
      "grad_norm": 0.36540502309799194,
      "learning_rate": 0.00019431203014834092,
      "loss": 2.6019,
      "step": 5610
    },
    {
      "epoch": 0.718208,
      "grad_norm": 0.3654809296131134,
      "learning_rate": 0.0001941480027891922,
      "loss": 2.4901,
      "step": 5611
    },
    {
      "epoch": 0.718336,
      "grad_norm": 0.3878370523452759,
      "learning_rate": 0.00019398402800954745,
      "loss": 2.5277,
      "step": 5612
    },
    {
      "epoch": 0.718464,
      "grad_norm": 0.38645684719085693,
      "learning_rate": 0.00019382010583759602,
      "loss": 2.5589,
      "step": 5613
    },
    {
      "epoch": 0.718592,
      "grad_norm": 0.4269978404045105,
      "learning_rate": 0.0001936562363015179,
      "loss": 2.5099,
      "step": 5614
    },
    {
      "epoch": 0.71872,
      "grad_norm": 0.43391773104667664,
      "learning_rate": 0.00019349241942948403,
      "loss": 2.4349,
      "step": 5615
    },
    {
      "epoch": 0.718848,
      "grad_norm": 0.5440255999565125,
      "learning_rate": 0.00019332865524965677,
      "loss": 2.5803,
      "step": 5616
    },
    {
      "epoch": 0.718976,
      "grad_norm": 0.36736923456192017,
      "learning_rate": 0.00019316494379018872,
      "loss": 2.4832,
      "step": 5617
    },
    {
      "epoch": 0.719104,
      "grad_norm": 0.38155874609947205,
      "learning_rate": 0.00019300128507922416,
      "loss": 2.6656,
      "step": 5618
    },
    {
      "epoch": 0.719232,
      "grad_norm": 0.39410600066185,
      "learning_rate": 0.00019283767914489775,
      "loss": 2.526,
      "step": 5619
    },
    {
      "epoch": 0.71936,
      "grad_norm": 0.37806352972984314,
      "learning_rate": 0.00019267412601533518,
      "loss": 2.6951,
      "step": 5620
    },
    {
      "epoch": 0.719488,
      "grad_norm": 0.3955732583999634,
      "learning_rate": 0.0001925106257186532,
      "loss": 2.626,
      "step": 5621
    },
    {
      "epoch": 0.719616,
      "grad_norm": 0.34796902537345886,
      "learning_rate": 0.00019234717828295938,
      "loss": 2.5237,
      "step": 5622
    },
    {
      "epoch": 0.719744,
      "grad_norm": 0.40907716751098633,
      "learning_rate": 0.0001921837837363521,
      "loss": 2.5299,
      "step": 5623
    },
    {
      "epoch": 0.719872,
      "grad_norm": 0.3670433759689331,
      "learning_rate": 0.000192020442106921,
      "loss": 2.6029,
      "step": 5624
    },
    {
      "epoch": 0.72,
      "grad_norm": 0.3623126447200775,
      "learning_rate": 0.0001918571534227462,
      "loss": 2.6689,
      "step": 5625
    },
    {
      "epoch": 0.720128,
      "grad_norm": 0.3829732835292816,
      "learning_rate": 0.00019169391771189914,
      "loss": 2.6238,
      "step": 5626
    },
    {
      "epoch": 0.720256,
      "grad_norm": 0.36494749784469604,
      "learning_rate": 0.0001915307350024419,
      "loss": 2.5256,
      "step": 5627
    },
    {
      "epoch": 0.720384,
      "grad_norm": 0.35622602701187134,
      "learning_rate": 0.00019136760532242731,
      "loss": 2.5022,
      "step": 5628
    },
    {
      "epoch": 0.720512,
      "grad_norm": 0.40020933747291565,
      "learning_rate": 0.0001912045286998994,
      "loss": 2.5313,
      "step": 5629
    },
    {
      "epoch": 0.72064,
      "grad_norm": 0.37361159920692444,
      "learning_rate": 0.0001910415051628928,
      "loss": 2.5885,
      "step": 5630
    },
    {
      "epoch": 0.720768,
      "grad_norm": 0.3707622289657593,
      "learning_rate": 0.0001908785347394331,
      "loss": 2.5256,
      "step": 5631
    },
    {
      "epoch": 0.720896,
      "grad_norm": 0.3810271918773651,
      "learning_rate": 0.00019071561745753713,
      "loss": 2.6356,
      "step": 5632
    },
    {
      "epoch": 0.721024,
      "grad_norm": 0.4389314651489258,
      "learning_rate": 0.000190552753345212,
      "loss": 2.5569,
      "step": 5633
    },
    {
      "epoch": 0.721152,
      "grad_norm": 0.37816086411476135,
      "learning_rate": 0.00019038994243045581,
      "loss": 2.5959,
      "step": 5634
    },
    {
      "epoch": 0.72128,
      "grad_norm": 0.3679470717906952,
      "learning_rate": 0.000190227184741258,
      "loss": 2.6392,
      "step": 5635
    },
    {
      "epoch": 0.721408,
      "grad_norm": 0.3910578191280365,
      "learning_rate": 0.00019006448030559831,
      "loss": 2.5531,
      "step": 5636
    },
    {
      "epoch": 0.721536,
      "grad_norm": 0.37386441230773926,
      "learning_rate": 0.0001899018291514476,
      "loss": 2.5448,
      "step": 5637
    },
    {
      "epoch": 0.721664,
      "grad_norm": 0.36794519424438477,
      "learning_rate": 0.0001897392313067672,
      "loss": 2.5719,
      "step": 5638
    },
    {
      "epoch": 0.721792,
      "grad_norm": 0.39523595571517944,
      "learning_rate": 0.00018957668679950995,
      "loss": 2.5867,
      "step": 5639
    },
    {
      "epoch": 0.72192,
      "grad_norm": 0.3834376633167267,
      "learning_rate": 0.00018941419565761904,
      "loss": 2.5394,
      "step": 5640
    },
    {
      "epoch": 0.722048,
      "grad_norm": 0.36788061261177063,
      "learning_rate": 0.0001892517579090285,
      "loss": 2.5405,
      "step": 5641
    },
    {
      "epoch": 0.722176,
      "grad_norm": 0.4096390902996063,
      "learning_rate": 0.00018908937358166322,
      "loss": 2.6394,
      "step": 5642
    },
    {
      "epoch": 0.722304,
      "grad_norm": 0.3946807086467743,
      "learning_rate": 0.00018892704270343885,
      "loss": 2.4424,
      "step": 5643
    },
    {
      "epoch": 0.722432,
      "grad_norm": 0.3854896128177643,
      "learning_rate": 0.00018876476530226233,
      "loss": 2.5358,
      "step": 5644
    },
    {
      "epoch": 0.72256,
      "grad_norm": 0.5327762961387634,
      "learning_rate": 0.0001886025414060306,
      "loss": 2.6059,
      "step": 5645
    },
    {
      "epoch": 0.722688,
      "grad_norm": 0.4164593517780304,
      "learning_rate": 0.00018844037104263223,
      "loss": 2.6606,
      "step": 5646
    },
    {
      "epoch": 0.722816,
      "grad_norm": 0.40490853786468506,
      "learning_rate": 0.00018827825423994594,
      "loss": 2.68,
      "step": 5647
    },
    {
      "epoch": 0.722944,
      "grad_norm": 0.38390088081359863,
      "learning_rate": 0.00018811619102584155,
      "loss": 2.4601,
      "step": 5648
    },
    {
      "epoch": 0.723072,
      "grad_norm": 0.41233012080192566,
      "learning_rate": 0.0001879541814281796,
      "loss": 2.6445,
      "step": 5649
    },
    {
      "epoch": 0.7232,
      "grad_norm": 0.3853791356086731,
      "learning_rate": 0.0001877922254748114,
      "loss": 2.6088,
      "step": 5650
    },
    {
      "epoch": 0.723328,
      "grad_norm": 0.4188743233680725,
      "learning_rate": 0.0001876303231935791,
      "loss": 2.5504,
      "step": 5651
    },
    {
      "epoch": 0.723456,
      "grad_norm": 0.392546147108078,
      "learning_rate": 0.0001874684746123153,
      "loss": 2.6727,
      "step": 5652
    },
    {
      "epoch": 0.723584,
      "grad_norm": 0.47776588797569275,
      "learning_rate": 0.00018730667975884398,
      "loss": 2.505,
      "step": 5653
    },
    {
      "epoch": 0.723712,
      "grad_norm": 0.39789077639579773,
      "learning_rate": 0.00018714493866097955,
      "loss": 2.7245,
      "step": 5654
    },
    {
      "epoch": 0.72384,
      "grad_norm": 0.39388054609298706,
      "learning_rate": 0.0001869832513465271,
      "loss": 2.5345,
      "step": 5655
    },
    {
      "epoch": 0.723968,
      "grad_norm": 0.492045134305954,
      "learning_rate": 0.0001868216178432826,
      "loss": 2.6286,
      "step": 5656
    },
    {
      "epoch": 0.724096,
      "grad_norm": 0.36603349447250366,
      "learning_rate": 0.00018666003817903267,
      "loss": 2.5966,
      "step": 5657
    },
    {
      "epoch": 0.724224,
      "grad_norm": 0.38081204891204834,
      "learning_rate": 0.00018649851238155464,
      "loss": 2.7284,
      "step": 5658
    },
    {
      "epoch": 0.724352,
      "grad_norm": 0.37130501866340637,
      "learning_rate": 0.00018633704047861665,
      "loss": 2.449,
      "step": 5659
    },
    {
      "epoch": 0.72448,
      "grad_norm": 0.3491054177284241,
      "learning_rate": 0.00018617562249797787,
      "loss": 2.5404,
      "step": 5660
    },
    {
      "epoch": 0.724608,
      "grad_norm": 0.37318867444992065,
      "learning_rate": 0.00018601425846738774,
      "loss": 2.5244,
      "step": 5661
    },
    {
      "epoch": 0.724736,
      "grad_norm": 0.3504739999771118,
      "learning_rate": 0.0001858529484145864,
      "loss": 2.3986,
      "step": 5662
    },
    {
      "epoch": 0.724864,
      "grad_norm": 0.4134032428264618,
      "learning_rate": 0.00018569169236730532,
      "loss": 2.6116,
      "step": 5663
    },
    {
      "epoch": 0.724992,
      "grad_norm": 0.4129474461078644,
      "learning_rate": 0.00018553049035326612,
      "loss": 2.4964,
      "step": 5664
    },
    {
      "epoch": 0.72512,
      "grad_norm": 0.3792721927165985,
      "learning_rate": 0.00018536934240018127,
      "loss": 2.5726,
      "step": 5665
    },
    {
      "epoch": 0.725248,
      "grad_norm": 0.3867962062358856,
      "learning_rate": 0.0001852082485357538,
      "loss": 2.5348,
      "step": 5666
    },
    {
      "epoch": 0.725376,
      "grad_norm": 0.38157951831817627,
      "learning_rate": 0.00018504720878767793,
      "loss": 2.5571,
      "step": 5667
    },
    {
      "epoch": 0.725504,
      "grad_norm": 0.41240039467811584,
      "learning_rate": 0.00018488622318363812,
      "loss": 2.6049,
      "step": 5668
    },
    {
      "epoch": 0.725632,
      "grad_norm": 0.35976162552833557,
      "learning_rate": 0.0001847252917513097,
      "loss": 2.6686,
      "step": 5669
    },
    {
      "epoch": 0.72576,
      "grad_norm": 0.3810296356678009,
      "learning_rate": 0.0001845644145183586,
      "loss": 2.5404,
      "step": 5670
    },
    {
      "epoch": 0.725888,
      "grad_norm": 0.3801340162754059,
      "learning_rate": 0.0001844035915124413,
      "loss": 2.6778,
      "step": 5671
    },
    {
      "epoch": 0.726016,
      "grad_norm": 0.371026873588562,
      "learning_rate": 0.00018424282276120545,
      "loss": 2.6194,
      "step": 5672
    },
    {
      "epoch": 0.726144,
      "grad_norm": 0.3561810553073883,
      "learning_rate": 0.000184082108292289,
      "loss": 2.6162,
      "step": 5673
    },
    {
      "epoch": 0.726272,
      "grad_norm": 0.3892408311367035,
      "learning_rate": 0.0001839214481333204,
      "loss": 2.5086,
      "step": 5674
    },
    {
      "epoch": 0.7264,
      "grad_norm": 0.38798582553863525,
      "learning_rate": 0.0001837608423119193,
      "loss": 2.6108,
      "step": 5675
    },
    {
      "epoch": 0.726528,
      "grad_norm": 0.3859015703201294,
      "learning_rate": 0.00018360029085569558,
      "loss": 2.5622,
      "step": 5676
    },
    {
      "epoch": 0.726656,
      "grad_norm": 0.43908509612083435,
      "learning_rate": 0.0001834397937922499,
      "loss": 2.6621,
      "step": 5677
    },
    {
      "epoch": 0.726784,
      "grad_norm": 0.3703073561191559,
      "learning_rate": 0.0001832793511491735,
      "loss": 2.4832,
      "step": 5678
    },
    {
      "epoch": 0.726912,
      "grad_norm": 0.3638242185115814,
      "learning_rate": 0.00018311896295404839,
      "loss": 2.4774,
      "step": 5679
    },
    {
      "epoch": 0.72704,
      "grad_norm": 0.3489367365837097,
      "learning_rate": 0.000182958629234447,
      "loss": 2.6507,
      "step": 5680
    },
    {
      "epoch": 0.727168,
      "grad_norm": 0.41229248046875,
      "learning_rate": 0.0001827983500179327,
      "loss": 2.5943,
      "step": 5681
    },
    {
      "epoch": 0.727296,
      "grad_norm": 0.5332744717597961,
      "learning_rate": 0.00018263812533205953,
      "loss": 2.6023,
      "step": 5682
    },
    {
      "epoch": 0.727424,
      "grad_norm": 0.45677897334098816,
      "learning_rate": 0.00018247795520437177,
      "loss": 2.6682,
      "step": 5683
    },
    {
      "epoch": 0.727552,
      "grad_norm": 0.3877023458480835,
      "learning_rate": 0.00018231783966240456,
      "loss": 2.6089,
      "step": 5684
    },
    {
      "epoch": 0.72768,
      "grad_norm": 0.3574875295162201,
      "learning_rate": 0.00018215777873368361,
      "loss": 2.6255,
      "step": 5685
    },
    {
      "epoch": 0.727808,
      "grad_norm": 0.4051784873008728,
      "learning_rate": 0.00018199777244572523,
      "loss": 2.5727,
      "step": 5686
    },
    {
      "epoch": 0.727936,
      "grad_norm": 0.3827590048313141,
      "learning_rate": 0.00018183782082603617,
      "loss": 2.5588,
      "step": 5687
    },
    {
      "epoch": 0.728064,
      "grad_norm": 0.3988345265388489,
      "learning_rate": 0.00018167792390211436,
      "loss": 2.5242,
      "step": 5688
    },
    {
      "epoch": 0.728192,
      "grad_norm": 0.4043702185153961,
      "learning_rate": 0.0001815180817014475,
      "loss": 2.59,
      "step": 5689
    },
    {
      "epoch": 0.72832,
      "grad_norm": 0.4112759232521057,
      "learning_rate": 0.0001813582942515148,
      "loss": 2.549,
      "step": 5690
    },
    {
      "epoch": 0.728448,
      "grad_norm": 0.3645472526550293,
      "learning_rate": 0.00018119856157978531,
      "loss": 2.6415,
      "step": 5691
    },
    {
      "epoch": 0.728576,
      "grad_norm": 0.3897194266319275,
      "learning_rate": 0.00018103888371371897,
      "loss": 2.5498,
      "step": 5692
    },
    {
      "epoch": 0.728704,
      "grad_norm": 0.6540431380271912,
      "learning_rate": 0.0001808792606807662,
      "loss": 2.587,
      "step": 5693
    },
    {
      "epoch": 0.728832,
      "grad_norm": 0.3943176567554474,
      "learning_rate": 0.00018071969250836812,
      "loss": 2.6543,
      "step": 5694
    },
    {
      "epoch": 0.72896,
      "grad_norm": 0.4159579575061798,
      "learning_rate": 0.00018056017922395606,
      "loss": 2.5798,
      "step": 5695
    },
    {
      "epoch": 0.729088,
      "grad_norm": 0.3902541399002075,
      "learning_rate": 0.00018040072085495274,
      "loss": 2.5799,
      "step": 5696
    },
    {
      "epoch": 0.729216,
      "grad_norm": 0.35606104135513306,
      "learning_rate": 0.00018024131742877054,
      "loss": 2.6612,
      "step": 5697
    },
    {
      "epoch": 0.729344,
      "grad_norm": 0.4189089834690094,
      "learning_rate": 0.00018008196897281286,
      "loss": 2.5269,
      "step": 5698
    },
    {
      "epoch": 0.729472,
      "grad_norm": 0.37667450308799744,
      "learning_rate": 0.00017992267551447333,
      "loss": 2.6097,
      "step": 5699
    },
    {
      "epoch": 0.7296,
      "grad_norm": 0.5396533608436584,
      "learning_rate": 0.00017976343708113674,
      "loss": 2.5922,
      "step": 5700
    },
    {
      "epoch": 0.729728,
      "grad_norm": 0.36669304966926575,
      "learning_rate": 0.0001796042537001778,
      "loss": 2.5097,
      "step": 5701
    },
    {
      "epoch": 0.729856,
      "grad_norm": 0.37935465574264526,
      "learning_rate": 0.0001794451253989618,
      "loss": 2.657,
      "step": 5702
    },
    {
      "epoch": 0.729984,
      "grad_norm": 0.3844764232635498,
      "learning_rate": 0.00017928605220484512,
      "loss": 2.5145,
      "step": 5703
    },
    {
      "epoch": 0.730112,
      "grad_norm": 0.3891553580760956,
      "learning_rate": 0.0001791270341451741,
      "loss": 2.5082,
      "step": 5704
    },
    {
      "epoch": 0.73024,
      "grad_norm": 0.39635199308395386,
      "learning_rate": 0.00017896807124728582,
      "loss": 2.6254,
      "step": 5705
    },
    {
      "epoch": 0.730368,
      "grad_norm": 0.41431188583374023,
      "learning_rate": 0.00017880916353850778,
      "loss": 2.6457,
      "step": 5706
    },
    {
      "epoch": 0.730496,
      "grad_norm": 0.3695535659790039,
      "learning_rate": 0.00017865031104615807,
      "loss": 2.5915,
      "step": 5707
    },
    {
      "epoch": 0.730624,
      "grad_norm": 0.41723474860191345,
      "learning_rate": 0.0001784915137975452,
      "loss": 2.4595,
      "step": 5708
    },
    {
      "epoch": 0.730752,
      "grad_norm": 0.49104875326156616,
      "learning_rate": 0.0001783327718199685,
      "loss": 2.5656,
      "step": 5709
    },
    {
      "epoch": 0.73088,
      "grad_norm": 0.36478662490844727,
      "learning_rate": 0.0001781740851407172,
      "loss": 2.5937,
      "step": 5710
    },
    {
      "epoch": 0.731008,
      "grad_norm": 0.41324618458747864,
      "learning_rate": 0.00017801545378707178,
      "loss": 2.5724,
      "step": 5711
    },
    {
      "epoch": 0.731136,
      "grad_norm": 0.4418485164642334,
      "learning_rate": 0.00017785687778630266,
      "loss": 2.6019,
      "step": 5712
    },
    {
      "epoch": 0.731264,
      "grad_norm": 0.4153694212436676,
      "learning_rate": 0.0001776983571656708,
      "loss": 2.6449,
      "step": 5713
    },
    {
      "epoch": 0.731392,
      "grad_norm": 0.39501872658729553,
      "learning_rate": 0.00017753989195242782,
      "loss": 2.5782,
      "step": 5714
    },
    {
      "epoch": 0.73152,
      "grad_norm": 0.36553120613098145,
      "learning_rate": 0.00017738148217381566,
      "loss": 2.6023,
      "step": 5715
    },
    {
      "epoch": 0.731648,
      "grad_norm": 0.4158306419849396,
      "learning_rate": 0.00017722312785706668,
      "loss": 2.6031,
      "step": 5716
    },
    {
      "epoch": 0.731776,
      "grad_norm": 0.477939635515213,
      "learning_rate": 0.00017706482902940396,
      "loss": 2.469,
      "step": 5717
    },
    {
      "epoch": 0.731904,
      "grad_norm": 0.3924916386604309,
      "learning_rate": 0.00017690658571804107,
      "loss": 2.4907,
      "step": 5718
    },
    {
      "epoch": 0.732032,
      "grad_norm": 0.47112762928009033,
      "learning_rate": 0.00017674839795018171,
      "loss": 2.6039,
      "step": 5719
    },
    {
      "epoch": 0.73216,
      "grad_norm": 0.40919622778892517,
      "learning_rate": 0.00017659026575302022,
      "loss": 2.6337,
      "step": 5720
    },
    {
      "epoch": 0.732288,
      "grad_norm": 0.3829159438610077,
      "learning_rate": 0.00017643218915374138,
      "loss": 2.5352,
      "step": 5721
    },
    {
      "epoch": 0.732416,
      "grad_norm": 0.38287079334259033,
      "learning_rate": 0.0001762741681795203,
      "loss": 2.724,
      "step": 5722
    },
    {
      "epoch": 0.732544,
      "grad_norm": 0.4149729311466217,
      "learning_rate": 0.00017611620285752245,
      "loss": 2.4628,
      "step": 5723
    },
    {
      "epoch": 0.732672,
      "grad_norm": 0.41671112179756165,
      "learning_rate": 0.00017595829321490435,
      "loss": 2.5747,
      "step": 5724
    },
    {
      "epoch": 0.7328,
      "grad_norm": 0.37562522292137146,
      "learning_rate": 0.00017580043927881224,
      "loss": 2.5751,
      "step": 5725
    },
    {
      "epoch": 0.732928,
      "grad_norm": 0.3771984279155731,
      "learning_rate": 0.0001756426410763829,
      "loss": 2.5607,
      "step": 5726
    },
    {
      "epoch": 0.733056,
      "grad_norm": 0.37534093856811523,
      "learning_rate": 0.00017548489863474393,
      "loss": 2.4982,
      "step": 5727
    },
    {
      "epoch": 0.733184,
      "grad_norm": 0.3864162564277649,
      "learning_rate": 0.0001753272119810131,
      "loss": 2.6945,
      "step": 5728
    },
    {
      "epoch": 0.733312,
      "grad_norm": 0.382416307926178,
      "learning_rate": 0.00017516958114229835,
      "loss": 2.5083,
      "step": 5729
    },
    {
      "epoch": 0.73344,
      "grad_norm": 0.38018128275871277,
      "learning_rate": 0.00017501200614569845,
      "loss": 2.6203,
      "step": 5730
    },
    {
      "epoch": 0.733568,
      "grad_norm": 0.3863842189311981,
      "learning_rate": 0.00017485448701830205,
      "loss": 2.6567,
      "step": 5731
    },
    {
      "epoch": 0.733696,
      "grad_norm": 0.40068280696868896,
      "learning_rate": 0.00017469702378718893,
      "loss": 2.5916,
      "step": 5732
    },
    {
      "epoch": 0.733824,
      "grad_norm": 0.3693617582321167,
      "learning_rate": 0.00017453961647942868,
      "loss": 2.5481,
      "step": 5733
    },
    {
      "epoch": 0.733952,
      "grad_norm": 0.35889068245887756,
      "learning_rate": 0.00017438226512208138,
      "loss": 2.5837,
      "step": 5734
    },
    {
      "epoch": 0.73408,
      "grad_norm": 0.48123669624328613,
      "learning_rate": 0.0001742249697421976,
      "loss": 2.5433,
      "step": 5735
    },
    {
      "epoch": 0.734208,
      "grad_norm": 0.49175846576690674,
      "learning_rate": 0.00017406773036681805,
      "loss": 2.6999,
      "step": 5736
    },
    {
      "epoch": 0.734336,
      "grad_norm": 0.3626067638397217,
      "learning_rate": 0.00017391054702297438,
      "loss": 2.6734,
      "step": 5737
    },
    {
      "epoch": 0.734464,
      "grad_norm": 0.35924819111824036,
      "learning_rate": 0.00017375341973768787,
      "loss": 2.5224,
      "step": 5738
    },
    {
      "epoch": 0.734592,
      "grad_norm": 0.37524399161338806,
      "learning_rate": 0.0001735963485379708,
      "loss": 2.6029,
      "step": 5739
    },
    {
      "epoch": 0.73472,
      "grad_norm": 0.4290114939212799,
      "learning_rate": 0.00017343933345082547,
      "loss": 2.5989,
      "step": 5740
    },
    {
      "epoch": 0.734848,
      "grad_norm": 0.3722864091396332,
      "learning_rate": 0.00017328237450324452,
      "loss": 2.6038,
      "step": 5741
    },
    {
      "epoch": 0.734976,
      "grad_norm": 0.4168016314506531,
      "learning_rate": 0.00017312547172221098,
      "loss": 2.6587,
      "step": 5742
    },
    {
      "epoch": 0.735104,
      "grad_norm": 0.37534099817276,
      "learning_rate": 0.00017296862513469836,
      "loss": 2.5393,
      "step": 5743
    },
    {
      "epoch": 0.735232,
      "grad_norm": 0.42060816287994385,
      "learning_rate": 0.00017281183476767015,
      "loss": 2.6181,
      "step": 5744
    },
    {
      "epoch": 0.73536,
      "grad_norm": 0.3688018023967743,
      "learning_rate": 0.00017265510064808082,
      "loss": 2.6047,
      "step": 5745
    },
    {
      "epoch": 0.735488,
      "grad_norm": 0.44795796275138855,
      "learning_rate": 0.00017249842280287443,
      "loss": 2.4734,
      "step": 5746
    },
    {
      "epoch": 0.735616,
      "grad_norm": 0.36927950382232666,
      "learning_rate": 0.00017234180125898606,
      "loss": 2.5708,
      "step": 5747
    },
    {
      "epoch": 0.735744,
      "grad_norm": 0.36492621898651123,
      "learning_rate": 0.00017218523604334057,
      "loss": 2.6234,
      "step": 5748
    },
    {
      "epoch": 0.735872,
      "grad_norm": 0.37578287720680237,
      "learning_rate": 0.0001720287271828534,
      "loss": 2.5787,
      "step": 5749
    },
    {
      "epoch": 0.736,
      "grad_norm": 0.396590918302536,
      "learning_rate": 0.00017187227470443013,
      "loss": 2.6636,
      "step": 5750
    },
    {
      "epoch": 0.736128,
      "grad_norm": 0.35284098982810974,
      "learning_rate": 0.00017171587863496686,
      "loss": 2.533,
      "step": 5751
    },
    {
      "epoch": 0.736256,
      "grad_norm": 0.35710373520851135,
      "learning_rate": 0.00017155953900134969,
      "loss": 2.5956,
      "step": 5752
    },
    {
      "epoch": 0.736384,
      "grad_norm": 0.3584185540676117,
      "learning_rate": 0.00017140325583045552,
      "loss": 2.7643,
      "step": 5753
    },
    {
      "epoch": 0.736512,
      "grad_norm": 0.3751879334449768,
      "learning_rate": 0.00017124702914915097,
      "loss": 2.667,
      "step": 5754
    },
    {
      "epoch": 0.73664,
      "grad_norm": 0.42859572172164917,
      "learning_rate": 0.00017109085898429343,
      "loss": 2.5443,
      "step": 5755
    },
    {
      "epoch": 0.736768,
      "grad_norm": 0.39162471890449524,
      "learning_rate": 0.00017093474536273036,
      "loss": 2.6443,
      "step": 5756
    },
    {
      "epoch": 0.736896,
      "grad_norm": 0.3782960772514343,
      "learning_rate": 0.00017077868831129933,
      "loss": 2.5871,
      "step": 5757
    },
    {
      "epoch": 0.737024,
      "grad_norm": 0.4001700282096863,
      "learning_rate": 0.00017062268785682848,
      "loss": 2.6136,
      "step": 5758
    },
    {
      "epoch": 0.737152,
      "grad_norm": 0.39755889773368835,
      "learning_rate": 0.00017046674402613593,
      "loss": 2.6026,
      "step": 5759
    },
    {
      "epoch": 0.73728,
      "grad_norm": 0.36426305770874023,
      "learning_rate": 0.00017031085684603048,
      "loss": 2.4434,
      "step": 5760
    },
    {
      "epoch": 0.737408,
      "grad_norm": 0.37669476866722107,
      "learning_rate": 0.00017015502634331082,
      "loss": 2.6441,
      "step": 5761
    },
    {
      "epoch": 0.737536,
      "grad_norm": 0.3759683668613434,
      "learning_rate": 0.00016999925254476605,
      "loss": 2.5382,
      "step": 5762
    },
    {
      "epoch": 0.737664,
      "grad_norm": 0.3978852927684784,
      "learning_rate": 0.0001698435354771753,
      "loss": 2.5862,
      "step": 5763
    },
    {
      "epoch": 0.737792,
      "grad_norm": 0.38070181012153625,
      "learning_rate": 0.00016968787516730843,
      "loss": 2.6341,
      "step": 5764
    },
    {
      "epoch": 0.73792,
      "grad_norm": 0.4062575697898865,
      "learning_rate": 0.00016953227164192514,
      "loss": 2.5733,
      "step": 5765
    },
    {
      "epoch": 0.738048,
      "grad_norm": 0.3620470464229584,
      "learning_rate": 0.00016937672492777544,
      "loss": 2.6596,
      "step": 5766
    },
    {
      "epoch": 0.738176,
      "grad_norm": 0.35886529088020325,
      "learning_rate": 0.00016922123505159952,
      "loss": 2.5724,
      "step": 5767
    },
    {
      "epoch": 0.738304,
      "grad_norm": 0.4077983796596527,
      "learning_rate": 0.00016906580204012817,
      "loss": 2.4887,
      "step": 5768
    },
    {
      "epoch": 0.738432,
      "grad_norm": 0.393533319234848,
      "learning_rate": 0.00016891042592008198,
      "loss": 2.5445,
      "step": 5769
    },
    {
      "epoch": 0.73856,
      "grad_norm": 0.3926578760147095,
      "learning_rate": 0.00016875510671817185,
      "loss": 2.5342,
      "step": 5770
    },
    {
      "epoch": 0.738688,
      "grad_norm": 0.38501110672950745,
      "learning_rate": 0.00016859984446109905,
      "loss": 2.6336,
      "step": 5771
    },
    {
      "epoch": 0.738816,
      "grad_norm": 0.36691075563430786,
      "learning_rate": 0.00016844463917555487,
      "loss": 2.621,
      "step": 5772
    },
    {
      "epoch": 0.738944,
      "grad_norm": 0.37002381682395935,
      "learning_rate": 0.00016828949088822077,
      "loss": 2.6124,
      "step": 5773
    },
    {
      "epoch": 0.739072,
      "grad_norm": 0.4297873079776764,
      "learning_rate": 0.00016813439962576872,
      "loss": 2.5857,
      "step": 5774
    },
    {
      "epoch": 0.7392,
      "grad_norm": 0.36385631561279297,
      "learning_rate": 0.00016797936541486082,
      "loss": 2.6077,
      "step": 5775
    },
    {
      "epoch": 0.739328,
      "grad_norm": 0.4754582941532135,
      "learning_rate": 0.00016782438828214912,
      "loss": 2.5998,
      "step": 5776
    },
    {
      "epoch": 0.739456,
      "grad_norm": 0.37594813108444214,
      "learning_rate": 0.00016766946825427605,
      "loss": 2.5981,
      "step": 5777
    },
    {
      "epoch": 0.739584,
      "grad_norm": 0.39339742064476013,
      "learning_rate": 0.00016751460535787405,
      "loss": 2.4457,
      "step": 5778
    },
    {
      "epoch": 0.739712,
      "grad_norm": 0.4034469425678253,
      "learning_rate": 0.00016735979961956588,
      "loss": 2.6538,
      "step": 5779
    },
    {
      "epoch": 0.73984,
      "grad_norm": 0.3744640648365021,
      "learning_rate": 0.00016720505106596428,
      "loss": 2.5417,
      "step": 5780
    },
    {
      "epoch": 0.739968,
      "grad_norm": 0.3698941469192505,
      "learning_rate": 0.00016705035972367272,
      "loss": 2.6337,
      "step": 5781
    },
    {
      "epoch": 0.740096,
      "grad_norm": 0.4029183089733124,
      "learning_rate": 0.00016689572561928395,
      "loss": 2.5742,
      "step": 5782
    },
    {
      "epoch": 0.740224,
      "grad_norm": 0.3918929398059845,
      "learning_rate": 0.00016674114877938183,
      "loss": 2.5544,
      "step": 5783
    },
    {
      "epoch": 0.740352,
      "grad_norm": 0.3851012587547302,
      "learning_rate": 0.00016658662923053975,
      "loss": 2.6381,
      "step": 5784
    },
    {
      "epoch": 0.74048,
      "grad_norm": 0.4391336143016815,
      "learning_rate": 0.0001664321669993213,
      "loss": 2.5733,
      "step": 5785
    },
    {
      "epoch": 0.740608,
      "grad_norm": 0.3667888045310974,
      "learning_rate": 0.0001662777621122804,
      "loss": 2.4905,
      "step": 5786
    },
    {
      "epoch": 0.740736,
      "grad_norm": 0.5077494382858276,
      "learning_rate": 0.0001661234145959611,
      "loss": 2.5905,
      "step": 5787
    },
    {
      "epoch": 0.740864,
      "grad_norm": 0.39072975516319275,
      "learning_rate": 0.0001659691244768972,
      "loss": 2.4791,
      "step": 5788
    },
    {
      "epoch": 0.740992,
      "grad_norm": 0.37073028087615967,
      "learning_rate": 0.00016581489178161347,
      "loss": 2.6644,
      "step": 5789
    },
    {
      "epoch": 0.74112,
      "grad_norm": 0.3935372829437256,
      "learning_rate": 0.00016566071653662402,
      "loss": 2.5491,
      "step": 5790
    },
    {
      "epoch": 0.741248,
      "grad_norm": 0.40052270889282227,
      "learning_rate": 0.00016550659876843316,
      "loss": 2.6169,
      "step": 5791
    },
    {
      "epoch": 0.741376,
      "grad_norm": 0.40945497155189514,
      "learning_rate": 0.000165352538503536,
      "loss": 2.576,
      "step": 5792
    },
    {
      "epoch": 0.741504,
      "grad_norm": 0.3494848310947418,
      "learning_rate": 0.000165198535768417,
      "loss": 2.4804,
      "step": 5793
    },
    {
      "epoch": 0.741632,
      "grad_norm": 0.3600470721721649,
      "learning_rate": 0.00016504459058955107,
      "loss": 2.4744,
      "step": 5794
    },
    {
      "epoch": 0.74176,
      "grad_norm": 0.371679425239563,
      "learning_rate": 0.00016489070299340297,
      "loss": 2.4997,
      "step": 5795
    },
    {
      "epoch": 0.741888,
      "grad_norm": 0.3983789384365082,
      "learning_rate": 0.00016473687300642815,
      "loss": 2.5396,
      "step": 5796
    },
    {
      "epoch": 0.742016,
      "grad_norm": 0.4031775891780853,
      "learning_rate": 0.00016458310065507154,
      "loss": 2.5682,
      "step": 5797
    },
    {
      "epoch": 0.742144,
      "grad_norm": 0.40476781129837036,
      "learning_rate": 0.00016442938596576839,
      "loss": 2.6302,
      "step": 5798
    },
    {
      "epoch": 0.742272,
      "grad_norm": 0.38509365916252136,
      "learning_rate": 0.0001642757289649441,
      "loss": 2.5895,
      "step": 5799
    },
    {
      "epoch": 0.7424,
      "grad_norm": 0.40343254804611206,
      "learning_rate": 0.00016412212967901386,
      "loss": 2.65,
      "step": 5800
    },
    {
      "epoch": 0.742528,
      "grad_norm": 0.41788071393966675,
      "learning_rate": 0.00016396858813438355,
      "loss": 2.5029,
      "step": 5801
    },
    {
      "epoch": 0.742656,
      "grad_norm": 0.39451494812965393,
      "learning_rate": 0.0001638151043574485,
      "loss": 2.7383,
      "step": 5802
    },
    {
      "epoch": 0.742784,
      "grad_norm": 0.3672029376029968,
      "learning_rate": 0.00016366167837459427,
      "loss": 2.6386,
      "step": 5803
    },
    {
      "epoch": 0.742912,
      "grad_norm": 0.4296369254589081,
      "learning_rate": 0.00016350831021219687,
      "loss": 2.5557,
      "step": 5804
    },
    {
      "epoch": 0.74304,
      "grad_norm": 0.38866233825683594,
      "learning_rate": 0.00016335499989662185,
      "loss": 2.5047,
      "step": 5805
    },
    {
      "epoch": 0.743168,
      "grad_norm": 0.37242767214775085,
      "learning_rate": 0.0001632017474542251,
      "loss": 2.5861,
      "step": 5806
    },
    {
      "epoch": 0.743296,
      "grad_norm": 0.9211692214012146,
      "learning_rate": 0.00016304855291135245,
      "loss": 2.5754,
      "step": 5807
    },
    {
      "epoch": 0.743424,
      "grad_norm": 0.3690222203731537,
      "learning_rate": 0.00016289541629433985,
      "loss": 2.4706,
      "step": 5808
    },
    {
      "epoch": 0.743552,
      "grad_norm": 0.42763322591781616,
      "learning_rate": 0.00016274233762951306,
      "loss": 2.6298,
      "step": 5809
    },
    {
      "epoch": 0.74368,
      "grad_norm": 0.388496071100235,
      "learning_rate": 0.00016258931694318829,
      "loss": 2.5155,
      "step": 5810
    },
    {
      "epoch": 0.743808,
      "grad_norm": 0.396479070186615,
      "learning_rate": 0.0001624363542616717,
      "loss": 2.5307,
      "step": 5811
    },
    {
      "epoch": 0.743936,
      "grad_norm": 0.3828664720058441,
      "learning_rate": 0.00016228344961125913,
      "loss": 2.6113,
      "step": 5812
    },
    {
      "epoch": 0.744064,
      "grad_norm": 0.3722330629825592,
      "learning_rate": 0.00016213060301823674,
      "loss": 2.5999,
      "step": 5813
    },
    {
      "epoch": 0.744192,
      "grad_norm": 0.37512364983558655,
      "learning_rate": 0.00016197781450888067,
      "loss": 2.606,
      "step": 5814
    },
    {
      "epoch": 0.74432,
      "grad_norm": 0.44019970297813416,
      "learning_rate": 0.0001618250841094569,
      "loss": 2.4888,
      "step": 5815
    },
    {
      "epoch": 0.744448,
      "grad_norm": 0.3902483880519867,
      "learning_rate": 0.0001616724118462215,
      "loss": 2.5471,
      "step": 5816
    },
    {
      "epoch": 0.744576,
      "grad_norm": 0.45334768295288086,
      "learning_rate": 0.00016151979774542085,
      "loss": 2.5967,
      "step": 5817
    },
    {
      "epoch": 0.744704,
      "grad_norm": 0.38739192485809326,
      "learning_rate": 0.00016136724183329104,
      "loss": 2.532,
      "step": 5818
    },
    {
      "epoch": 0.744832,
      "grad_norm": 0.3541216552257538,
      "learning_rate": 0.0001612147441360579,
      "loss": 2.5477,
      "step": 5819
    },
    {
      "epoch": 0.74496,
      "grad_norm": 0.38319385051727295,
      "learning_rate": 0.000161062304679938,
      "loss": 2.5909,
      "step": 5820
    },
    {
      "epoch": 0.745088,
      "grad_norm": 0.36323612928390503,
      "learning_rate": 0.0001609099234911372,
      "loss": 2.5457,
      "step": 5821
    },
    {
      "epoch": 0.745216,
      "grad_norm": 0.3649512231349945,
      "learning_rate": 0.00016075760059585165,
      "loss": 2.589,
      "step": 5822
    },
    {
      "epoch": 0.745344,
      "grad_norm": 0.3501090407371521,
      "learning_rate": 0.00016060533602026733,
      "loss": 2.6118,
      "step": 5823
    },
    {
      "epoch": 0.745472,
      "grad_norm": 0.3755245804786682,
      "learning_rate": 0.00016045312979056026,
      "loss": 2.6722,
      "step": 5824
    },
    {
      "epoch": 0.7456,
      "grad_norm": 0.5281704664230347,
      "learning_rate": 0.00016030098193289667,
      "loss": 2.6446,
      "step": 5825
    },
    {
      "epoch": 0.745728,
      "grad_norm": 0.3727833926677704,
      "learning_rate": 0.00016014889247343238,
      "loss": 2.621,
      "step": 5826
    },
    {
      "epoch": 0.745856,
      "grad_norm": 0.37858590483665466,
      "learning_rate": 0.00015999686143831343,
      "loss": 2.5182,
      "step": 5827
    },
    {
      "epoch": 0.745984,
      "grad_norm": 0.3606089949607849,
      "learning_rate": 0.00015984488885367542,
      "loss": 2.5869,
      "step": 5828
    },
    {
      "epoch": 0.746112,
      "grad_norm": 0.3942967355251312,
      "learning_rate": 0.00015969297474564465,
      "loss": 2.6293,
      "step": 5829
    },
    {
      "epoch": 0.74624,
      "grad_norm": 0.44817638397216797,
      "learning_rate": 0.0001595411191403367,
      "loss": 2.5632,
      "step": 5830
    },
    {
      "epoch": 0.746368,
      "grad_norm": 0.3555065393447876,
      "learning_rate": 0.00015938932206385715,
      "loss": 2.5175,
      "step": 5831
    },
    {
      "epoch": 0.746496,
      "grad_norm": 0.3736865222454071,
      "learning_rate": 0.00015923758354230194,
      "loss": 2.5134,
      "step": 5832
    },
    {
      "epoch": 0.746624,
      "grad_norm": 0.3546949028968811,
      "learning_rate": 0.00015908590360175662,
      "loss": 2.5361,
      "step": 5833
    },
    {
      "epoch": 0.746752,
      "grad_norm": 0.3763006329536438,
      "learning_rate": 0.00015893428226829671,
      "loss": 2.5606,
      "step": 5834
    },
    {
      "epoch": 0.74688,
      "grad_norm": 0.3826586604118347,
      "learning_rate": 0.00015878271956798763,
      "loss": 2.6049,
      "step": 5835
    },
    {
      "epoch": 0.747008,
      "grad_norm": 0.39622122049331665,
      "learning_rate": 0.00015863121552688476,
      "loss": 2.6042,
      "step": 5836
    },
    {
      "epoch": 0.747136,
      "grad_norm": 0.43635573983192444,
      "learning_rate": 0.00015847977017103326,
      "loss": 2.6023,
      "step": 5837
    },
    {
      "epoch": 0.747264,
      "grad_norm": 0.388677716255188,
      "learning_rate": 0.00015832838352646856,
      "loss": 2.6233,
      "step": 5838
    },
    {
      "epoch": 0.747392,
      "grad_norm": 0.35198402404785156,
      "learning_rate": 0.00015817705561921587,
      "loss": 2.5965,
      "step": 5839
    },
    {
      "epoch": 0.74752,
      "grad_norm": 0.5079004168510437,
      "learning_rate": 0.00015802578647529004,
      "loss": 2.5584,
      "step": 5840
    },
    {
      "epoch": 0.747648,
      "grad_norm": 0.4000575542449951,
      "learning_rate": 0.00015787457612069606,
      "loss": 2.422,
      "step": 5841
    },
    {
      "epoch": 0.747776,
      "grad_norm": 0.39844831824302673,
      "learning_rate": 0.00015772342458142868,
      "loss": 2.5717,
      "step": 5842
    },
    {
      "epoch": 0.747904,
      "grad_norm": 0.34059804677963257,
      "learning_rate": 0.00015757233188347264,
      "loss": 2.567,
      "step": 5843
    },
    {
      "epoch": 0.748032,
      "grad_norm": 0.4049786627292633,
      "learning_rate": 0.00015742129805280247,
      "loss": 2.4862,
      "step": 5844
    },
    {
      "epoch": 0.74816,
      "grad_norm": 0.3767930269241333,
      "learning_rate": 0.00015727032311538258,
      "loss": 2.4907,
      "step": 5845
    },
    {
      "epoch": 0.748288,
      "grad_norm": 0.3972570300102234,
      "learning_rate": 0.00015711940709716755,
      "loss": 2.5535,
      "step": 5846
    },
    {
      "epoch": 0.748416,
      "grad_norm": 0.38093796372413635,
      "learning_rate": 0.00015696855002410128,
      "loss": 2.5364,
      "step": 5847
    },
    {
      "epoch": 0.748544,
      "grad_norm": 0.3750676214694977,
      "learning_rate": 0.00015681775192211817,
      "loss": 2.5219,
      "step": 5848
    },
    {
      "epoch": 0.748672,
      "grad_norm": 0.37311071157455444,
      "learning_rate": 0.00015666701281714202,
      "loss": 2.6403,
      "step": 5849
    },
    {
      "epoch": 0.7488,
      "grad_norm": 0.4074719548225403,
      "learning_rate": 0.00015651633273508665,
      "loss": 2.6196,
      "step": 5850
    },
    {
      "epoch": 0.748928,
      "grad_norm": 0.3932502567768097,
      "learning_rate": 0.00015636571170185565,
      "loss": 2.4729,
      "step": 5851
    },
    {
      "epoch": 0.749056,
      "grad_norm": 0.44140923023223877,
      "learning_rate": 0.00015621514974334245,
      "loss": 2.5077,
      "step": 5852
    },
    {
      "epoch": 0.749184,
      "grad_norm": 0.37450432777404785,
      "learning_rate": 0.00015606464688543064,
      "loss": 2.5879,
      "step": 5853
    },
    {
      "epoch": 0.749312,
      "grad_norm": 0.3934987783432007,
      "learning_rate": 0.00015591420315399325,
      "loss": 2.5095,
      "step": 5854
    },
    {
      "epoch": 0.74944,
      "grad_norm": 0.3863743245601654,
      "learning_rate": 0.00015576381857489337,
      "loss": 2.6114,
      "step": 5855
    },
    {
      "epoch": 0.749568,
      "grad_norm": 0.3724518418312073,
      "learning_rate": 0.0001556134931739836,
      "loss": 2.6912,
      "step": 5856
    },
    {
      "epoch": 0.749696,
      "grad_norm": 0.39588308334350586,
      "learning_rate": 0.00015546322697710698,
      "loss": 2.5642,
      "step": 5857
    },
    {
      "epoch": 0.749824,
      "grad_norm": 0.3953354060649872,
      "learning_rate": 0.0001553130200100959,
      "loss": 2.5334,
      "step": 5858
    },
    {
      "epoch": 0.749952,
      "grad_norm": 0.40909597277641296,
      "learning_rate": 0.00015516287229877242,
      "loss": 2.6626,
      "step": 5859
    },
    {
      "epoch": 0.75008,
      "grad_norm": 0.3716667890548706,
      "learning_rate": 0.00015501278386894908,
      "loss": 2.7179,
      "step": 5860
    },
    {
      "epoch": 0.750208,
      "grad_norm": 0.35586079955101013,
      "learning_rate": 0.00015486275474642762,
      "loss": 2.4858,
      "step": 5861
    },
    {
      "epoch": 0.750336,
      "grad_norm": 0.40922811627388,
      "learning_rate": 0.0001547127849569998,
      "loss": 2.5211,
      "step": 5862
    },
    {
      "epoch": 0.750464,
      "grad_norm": 0.3924872577190399,
      "learning_rate": 0.00015456287452644718,
      "loss": 2.5997,
      "step": 5863
    },
    {
      "epoch": 0.750592,
      "grad_norm": 0.36018693447113037,
      "learning_rate": 0.00015441302348054103,
      "loss": 2.5302,
      "step": 5864
    },
    {
      "epoch": 0.75072,
      "grad_norm": 0.3958527445793152,
      "learning_rate": 0.00015426323184504243,
      "loss": 2.5537,
      "step": 5865
    },
    {
      "epoch": 0.750848,
      "grad_norm": 0.39189237356185913,
      "learning_rate": 0.00015411349964570254,
      "loss": 2.5345,
      "step": 5866
    },
    {
      "epoch": 0.750976,
      "grad_norm": 0.37934035062789917,
      "learning_rate": 0.00015396382690826172,
      "loss": 2.4833,
      "step": 5867
    },
    {
      "epoch": 0.751104,
      "grad_norm": 0.39306777715682983,
      "learning_rate": 0.00015381421365845082,
      "loss": 2.6956,
      "step": 5868
    },
    {
      "epoch": 0.751232,
      "grad_norm": 0.40740063786506653,
      "learning_rate": 0.00015366465992198996,
      "loss": 2.5054,
      "step": 5869
    },
    {
      "epoch": 0.75136,
      "grad_norm": 0.38613781332969666,
      "learning_rate": 0.00015351516572458912,
      "loss": 2.5647,
      "step": 5870
    },
    {
      "epoch": 0.751488,
      "grad_norm": 0.3824569582939148,
      "learning_rate": 0.00015336573109194808,
      "loss": 2.5241,
      "step": 5871
    },
    {
      "epoch": 0.751616,
      "grad_norm": 0.44788217544555664,
      "learning_rate": 0.00015321635604975637,
      "loss": 2.6681,
      "step": 5872
    },
    {
      "epoch": 0.751744,
      "grad_norm": 0.3851722180843353,
      "learning_rate": 0.0001530670406236932,
      "loss": 2.6201,
      "step": 5873
    },
    {
      "epoch": 0.751872,
      "grad_norm": 0.35195544362068176,
      "learning_rate": 0.0001529177848394277,
      "loss": 2.4665,
      "step": 5874
    },
    {
      "epoch": 0.752,
      "grad_norm": 1.0364412069320679,
      "learning_rate": 0.0001527685887226189,
      "loss": 2.5003,
      "step": 5875
    },
    {
      "epoch": 0.752128,
      "grad_norm": 0.416665643453598,
      "learning_rate": 0.00015261945229891511,
      "loss": 2.6405,
      "step": 5876
    },
    {
      "epoch": 0.752256,
      "grad_norm": 0.44598308205604553,
      "learning_rate": 0.00015247037559395466,
      "loss": 2.7003,
      "step": 5877
    },
    {
      "epoch": 0.752384,
      "grad_norm": 0.3990732729434967,
      "learning_rate": 0.00015232135863336554,
      "loss": 2.5384,
      "step": 5878
    },
    {
      "epoch": 0.752512,
      "grad_norm": 0.43254947662353516,
      "learning_rate": 0.00015217240144276556,
      "loss": 2.5995,
      "step": 5879
    },
    {
      "epoch": 0.75264,
      "grad_norm": 0.3990974426269531,
      "learning_rate": 0.00015202350404776193,
      "loss": 2.6006,
      "step": 5880
    },
    {
      "epoch": 0.752768,
      "grad_norm": 0.4418835937976837,
      "learning_rate": 0.00015187466647395226,
      "loss": 2.5762,
      "step": 5881
    },
    {
      "epoch": 0.752896,
      "grad_norm": 0.40545541048049927,
      "learning_rate": 0.00015172588874692316,
      "loss": 2.5501,
      "step": 5882
    },
    {
      "epoch": 0.753024,
      "grad_norm": 0.4185130298137665,
      "learning_rate": 0.00015157717089225143,
      "loss": 2.4795,
      "step": 5883
    },
    {
      "epoch": 0.753152,
      "grad_norm": 0.3887719511985779,
      "learning_rate": 0.00015142851293550302,
      "loss": 2.6009,
      "step": 5884
    },
    {
      "epoch": 0.75328,
      "grad_norm": 0.4104699194431305,
      "learning_rate": 0.00015127991490223447,
      "loss": 2.5793,
      "step": 5885
    },
    {
      "epoch": 0.753408,
      "grad_norm": 0.38659071922302246,
      "learning_rate": 0.0001511313768179912,
      "loss": 2.5294,
      "step": 5886
    },
    {
      "epoch": 0.753536,
      "grad_norm": 0.3923282325267792,
      "learning_rate": 0.00015098289870830867,
      "loss": 2.5858,
      "step": 5887
    },
    {
      "epoch": 0.753664,
      "grad_norm": 0.41004103422164917,
      "learning_rate": 0.00015083448059871192,
      "loss": 2.5314,
      "step": 5888
    },
    {
      "epoch": 0.753792,
      "grad_norm": 0.3870014250278473,
      "learning_rate": 0.00015068612251471593,
      "loss": 2.527,
      "step": 5889
    },
    {
      "epoch": 0.75392,
      "grad_norm": 0.4212277829647064,
      "learning_rate": 0.00015053782448182508,
      "loss": 2.5686,
      "step": 5890
    },
    {
      "epoch": 0.754048,
      "grad_norm": 0.4152842164039612,
      "learning_rate": 0.00015038958652553353,
      "loss": 2.6453,
      "step": 5891
    },
    {
      "epoch": 0.754176,
      "grad_norm": 0.3719070851802826,
      "learning_rate": 0.00015024140867132507,
      "loss": 2.6278,
      "step": 5892
    },
    {
      "epoch": 0.754304,
      "grad_norm": 0.3844994902610779,
      "learning_rate": 0.0001500932909446731,
      "loss": 2.5428,
      "step": 5893
    },
    {
      "epoch": 0.754432,
      "grad_norm": 0.4211556017398834,
      "learning_rate": 0.00014994523337104099,
      "loss": 2.5468,
      "step": 5894
    },
    {
      "epoch": 0.75456,
      "grad_norm": 0.35601806640625,
      "learning_rate": 0.0001497972359758813,
      "loss": 2.6164,
      "step": 5895
    },
    {
      "epoch": 0.754688,
      "grad_norm": 0.4090130627155304,
      "learning_rate": 0.00014964929878463683,
      "loss": 2.6072,
      "step": 5896
    },
    {
      "epoch": 0.754816,
      "grad_norm": 0.37015873193740845,
      "learning_rate": 0.00014950142182273946,
      "loss": 2.5781,
      "step": 5897
    },
    {
      "epoch": 0.754944,
      "grad_norm": 0.4054064154624939,
      "learning_rate": 0.0001493536051156111,
      "loss": 2.4633,
      "step": 5898
    },
    {
      "epoch": 0.755072,
      "grad_norm": 0.3896200656890869,
      "learning_rate": 0.00014920584868866293,
      "loss": 2.5954,
      "step": 5899
    },
    {
      "epoch": 0.7552,
      "grad_norm": 0.38862526416778564,
      "learning_rate": 0.0001490581525672962,
      "loss": 2.5855,
      "step": 5900
    },
    {
      "epoch": 0.755328,
      "grad_norm": 0.4198058843612671,
      "learning_rate": 0.00014891051677690153,
      "loss": 2.5135,
      "step": 5901
    },
    {
      "epoch": 0.755456,
      "grad_norm": 0.39630046486854553,
      "learning_rate": 0.000148762941342859,
      "loss": 2.4923,
      "step": 5902
    },
    {
      "epoch": 0.755584,
      "grad_norm": 0.39161017537117004,
      "learning_rate": 0.0001486154262905388,
      "loss": 2.6348,
      "step": 5903
    },
    {
      "epoch": 0.755712,
      "grad_norm": 0.43755823373794556,
      "learning_rate": 0.00014846797164530051,
      "loss": 2.57,
      "step": 5904
    },
    {
      "epoch": 0.75584,
      "grad_norm": 0.395314484834671,
      "learning_rate": 0.00014832057743249328,
      "loss": 2.5681,
      "step": 5905
    },
    {
      "epoch": 0.755968,
      "grad_norm": 0.3851300776004791,
      "learning_rate": 0.00014817324367745572,
      "loss": 2.6355,
      "step": 5906
    },
    {
      "epoch": 0.756096,
      "grad_norm": 0.39976775646209717,
      "learning_rate": 0.00014802597040551634,
      "loss": 2.5548,
      "step": 5907
    },
    {
      "epoch": 0.756224,
      "grad_norm": 0.38226157426834106,
      "learning_rate": 0.0001478787576419931,
      "loss": 2.6215,
      "step": 5908
    },
    {
      "epoch": 0.756352,
      "grad_norm": 0.3888605833053589,
      "learning_rate": 0.00014773160541219337,
      "loss": 2.4776,
      "step": 5909
    },
    {
      "epoch": 0.75648,
      "grad_norm": 0.39880576729774475,
      "learning_rate": 0.00014758451374141467,
      "loss": 2.5835,
      "step": 5910
    },
    {
      "epoch": 0.756608,
      "grad_norm": 0.3970416486263275,
      "learning_rate": 0.0001474374826549435,
      "loss": 2.613,
      "step": 5911
    },
    {
      "epoch": 0.756736,
      "grad_norm": 0.4660632610321045,
      "learning_rate": 0.00014729051217805646,
      "loss": 2.5227,
      "step": 5912
    },
    {
      "epoch": 0.756864,
      "grad_norm": 0.39034682512283325,
      "learning_rate": 0.0001471436023360193,
      "loss": 2.5574,
      "step": 5913
    },
    {
      "epoch": 0.756992,
      "grad_norm": 0.3476261794567108,
      "learning_rate": 0.00014699675315408756,
      "loss": 2.5919,
      "step": 5914
    },
    {
      "epoch": 0.75712,
      "grad_norm": 0.4026513695716858,
      "learning_rate": 0.00014684996465750638,
      "loss": 2.6343,
      "step": 5915
    },
    {
      "epoch": 0.757248,
      "grad_norm": 0.4822966158390045,
      "learning_rate": 0.0001467032368715101,
      "loss": 2.557,
      "step": 5916
    },
    {
      "epoch": 0.757376,
      "grad_norm": 0.37813255190849304,
      "learning_rate": 0.00014655656982132337,
      "loss": 2.5986,
      "step": 5917
    },
    {
      "epoch": 0.757504,
      "grad_norm": 0.37924304604530334,
      "learning_rate": 0.0001464099635321598,
      "loss": 2.5621,
      "step": 5918
    },
    {
      "epoch": 0.757632,
      "grad_norm": 0.35767078399658203,
      "learning_rate": 0.0001462634180292226,
      "loss": 2.5133,
      "step": 5919
    },
    {
      "epoch": 0.75776,
      "grad_norm": 0.42208629846572876,
      "learning_rate": 0.0001461169333377047,
      "loss": 2.5971,
      "step": 5920
    },
    {
      "epoch": 0.757888,
      "grad_norm": 0.37359780073165894,
      "learning_rate": 0.00014597050948278838,
      "loss": 2.5973,
      "step": 5921
    },
    {
      "epoch": 0.758016,
      "grad_norm": 0.3916313350200653,
      "learning_rate": 0.00014582414648964593,
      "loss": 2.5862,
      "step": 5922
    },
    {
      "epoch": 0.758144,
      "grad_norm": 0.42152148485183716,
      "learning_rate": 0.00014567784438343867,
      "loss": 2.5483,
      "step": 5923
    },
    {
      "epoch": 0.758272,
      "grad_norm": 0.37694618105888367,
      "learning_rate": 0.0001455316031893174,
      "loss": 2.4705,
      "step": 5924
    },
    {
      "epoch": 0.7584,
      "grad_norm": 0.3617798388004303,
      "learning_rate": 0.00014538542293242307,
      "loss": 2.5429,
      "step": 5925
    },
    {
      "epoch": 0.758528,
      "grad_norm": 0.6100470423698425,
      "learning_rate": 0.0001452393036378856,
      "loss": 2.592,
      "step": 5926
    },
    {
      "epoch": 0.758656,
      "grad_norm": 0.37471458315849304,
      "learning_rate": 0.00014509324533082459,
      "loss": 2.5136,
      "step": 5927
    },
    {
      "epoch": 0.758784,
      "grad_norm": 0.39765623211860657,
      "learning_rate": 0.00014494724803634912,
      "loss": 2.7032,
      "step": 5928
    },
    {
      "epoch": 0.758912,
      "grad_norm": 0.3894270956516266,
      "learning_rate": 0.0001448013117795578,
      "loss": 2.5854,
      "step": 5929
    },
    {
      "epoch": 0.75904,
      "grad_norm": 0.363824725151062,
      "learning_rate": 0.0001446554365855387,
      "loss": 2.5498,
      "step": 5930
    },
    {
      "epoch": 0.759168,
      "grad_norm": 0.4115039110183716,
      "learning_rate": 0.0001445096224793695,
      "loss": 2.616,
      "step": 5931
    },
    {
      "epoch": 0.759296,
      "grad_norm": 0.3635890781879425,
      "learning_rate": 0.00014436386948611763,
      "loss": 2.5934,
      "step": 5932
    },
    {
      "epoch": 0.759424,
      "grad_norm": 0.39472824335098267,
      "learning_rate": 0.0001442181776308394,
      "loss": 2.6332,
      "step": 5933
    },
    {
      "epoch": 0.759552,
      "grad_norm": 0.38437822461128235,
      "learning_rate": 0.00014407254693858107,
      "loss": 2.5707,
      "step": 5934
    },
    {
      "epoch": 0.75968,
      "grad_norm": 0.37379586696624756,
      "learning_rate": 0.00014392697743437815,
      "loss": 2.6218,
      "step": 5935
    },
    {
      "epoch": 0.759808,
      "grad_norm": 0.40513238310813904,
      "learning_rate": 0.0001437814691432558,
      "loss": 2.519,
      "step": 5936
    },
    {
      "epoch": 0.759936,
      "grad_norm": 0.39489614963531494,
      "learning_rate": 0.00014363602209022835,
      "loss": 2.6497,
      "step": 5937
    },
    {
      "epoch": 0.760064,
      "grad_norm": 0.35688409209251404,
      "learning_rate": 0.00014349063630030018,
      "loss": 2.5122,
      "step": 5938
    },
    {
      "epoch": 0.760192,
      "grad_norm": 0.3884473443031311,
      "learning_rate": 0.00014334531179846456,
      "loss": 2.4847,
      "step": 5939
    },
    {
      "epoch": 0.76032,
      "grad_norm": 0.35925745964050293,
      "learning_rate": 0.0001432000486097046,
      "loss": 2.5568,
      "step": 5940
    },
    {
      "epoch": 0.760448,
      "grad_norm": 0.4031486511230469,
      "learning_rate": 0.00014305484675899272,
      "loss": 2.5672,
      "step": 5941
    },
    {
      "epoch": 0.760576,
      "grad_norm": 0.461896687746048,
      "learning_rate": 0.00014290970627129073,
      "loss": 2.579,
      "step": 5942
    },
    {
      "epoch": 0.760704,
      "grad_norm": 0.3662528991699219,
      "learning_rate": 0.00014276462717154997,
      "loss": 2.4733,
      "step": 5943
    },
    {
      "epoch": 0.760832,
      "grad_norm": 0.3809269070625305,
      "learning_rate": 0.0001426196094847112,
      "loss": 2.5661,
      "step": 5944
    },
    {
      "epoch": 0.76096,
      "grad_norm": 0.41304001212120056,
      "learning_rate": 0.0001424746532357046,
      "loss": 2.61,
      "step": 5945
    },
    {
      "epoch": 0.761088,
      "grad_norm": 0.35322850942611694,
      "learning_rate": 0.00014232975844944996,
      "loss": 2.5059,
      "step": 5946
    },
    {
      "epoch": 0.761216,
      "grad_norm": 0.4330732524394989,
      "learning_rate": 0.00014218492515085635,
      "loss": 2.6074,
      "step": 5947
    },
    {
      "epoch": 0.761344,
      "grad_norm": 0.3868308961391449,
      "learning_rate": 0.00014204015336482213,
      "loss": 2.7274,
      "step": 5948
    },
    {
      "epoch": 0.761472,
      "grad_norm": 0.3741895854473114,
      "learning_rate": 0.00014189544311623547,
      "loss": 2.6043,
      "step": 5949
    },
    {
      "epoch": 0.7616,
      "grad_norm": 0.35261642932891846,
      "learning_rate": 0.00014175079442997369,
      "loss": 2.504,
      "step": 5950
    },
    {
      "epoch": 0.761728,
      "grad_norm": 0.44894471764564514,
      "learning_rate": 0.00014160620733090352,
      "loss": 2.5037,
      "step": 5951
    },
    {
      "epoch": 0.761856,
      "grad_norm": 0.37903252243995667,
      "learning_rate": 0.00014146168184388098,
      "loss": 2.5832,
      "step": 5952
    },
    {
      "epoch": 0.761984,
      "grad_norm": 0.46355313062667847,
      "learning_rate": 0.00014131721799375208,
      "loss": 2.6206,
      "step": 5953
    },
    {
      "epoch": 0.762112,
      "grad_norm": 0.3556012809276581,
      "learning_rate": 0.0001411728158053516,
      "loss": 2.5471,
      "step": 5954
    },
    {
      "epoch": 0.76224,
      "grad_norm": 0.35940057039260864,
      "learning_rate": 0.00014102847530350388,
      "loss": 2.556,
      "step": 5955
    },
    {
      "epoch": 0.762368,
      "grad_norm": 0.4090523421764374,
      "learning_rate": 0.00014088419651302287,
      "loss": 2.5721,
      "step": 5956
    },
    {
      "epoch": 0.762496,
      "grad_norm": 0.3592469096183777,
      "learning_rate": 0.0001407399794587117,
      "loss": 2.5712,
      "step": 5957
    },
    {
      "epoch": 0.762624,
      "grad_norm": 0.40601566433906555,
      "learning_rate": 0.0001405958241653628,
      "loss": 2.5812,
      "step": 5958
    },
    {
      "epoch": 0.762752,
      "grad_norm": 0.41257256269454956,
      "learning_rate": 0.0001404517306577585,
      "loss": 2.6819,
      "step": 5959
    },
    {
      "epoch": 0.76288,
      "grad_norm": 0.3714396059513092,
      "learning_rate": 0.00014030769896066975,
      "loss": 2.5266,
      "step": 5960
    },
    {
      "epoch": 0.763008,
      "grad_norm": 0.3897630572319031,
      "learning_rate": 0.0001401637290988576,
      "loss": 2.593,
      "step": 5961
    },
    {
      "epoch": 0.763136,
      "grad_norm": 0.3695904016494751,
      "learning_rate": 0.000140019821097072,
      "loss": 2.4058,
      "step": 5962
    },
    {
      "epoch": 0.763264,
      "grad_norm": 0.3893331289291382,
      "learning_rate": 0.00013987597498005245,
      "loss": 2.6586,
      "step": 5963
    },
    {
      "epoch": 0.763392,
      "grad_norm": 0.3680562376976013,
      "learning_rate": 0.00013973219077252768,
      "loss": 2.5757,
      "step": 5964
    },
    {
      "epoch": 0.76352,
      "grad_norm": 0.36765289306640625,
      "learning_rate": 0.0001395884684992159,
      "loss": 2.5491,
      "step": 5965
    },
    {
      "epoch": 0.763648,
      "grad_norm": 0.39961889386177063,
      "learning_rate": 0.00013944480818482447,
      "loss": 2.5111,
      "step": 5966
    },
    {
      "epoch": 0.763776,
      "grad_norm": 0.4385739862918854,
      "learning_rate": 0.0001393012098540505,
      "loss": 2.5989,
      "step": 5967
    },
    {
      "epoch": 0.763904,
      "grad_norm": 0.38087695837020874,
      "learning_rate": 0.0001391576735315802,
      "loss": 2.5807,
      "step": 5968
    },
    {
      "epoch": 0.764032,
      "grad_norm": 0.3922392725944519,
      "learning_rate": 0.00013901419924208908,
      "loss": 2.5696,
      "step": 5969
    },
    {
      "epoch": 0.76416,
      "grad_norm": 0.3719038665294647,
      "learning_rate": 0.00013887078701024203,
      "loss": 2.545,
      "step": 5970
    },
    {
      "epoch": 0.764288,
      "grad_norm": 0.3992011547088623,
      "learning_rate": 0.00013872743686069327,
      "loss": 2.5836,
      "step": 5971
    },
    {
      "epoch": 0.764416,
      "grad_norm": 0.4352779984474182,
      "learning_rate": 0.00013858414881808635,
      "loss": 2.5681,
      "step": 5972
    },
    {
      "epoch": 0.764544,
      "grad_norm": 0.38164791464805603,
      "learning_rate": 0.00013844092290705396,
      "loss": 2.5221,
      "step": 5973
    },
    {
      "epoch": 0.764672,
      "grad_norm": 0.4026937782764435,
      "learning_rate": 0.0001382977591522186,
      "loss": 2.553,
      "step": 5974
    },
    {
      "epoch": 0.7648,
      "grad_norm": 0.4345134496688843,
      "learning_rate": 0.00013815465757819175,
      "loss": 2.6672,
      "step": 5975
    },
    {
      "epoch": 0.764928,
      "grad_norm": 0.48009973764419556,
      "learning_rate": 0.00013801161820957387,
      "loss": 2.5525,
      "step": 5976
    },
    {
      "epoch": 0.765056,
      "grad_norm": 0.4114907383918762,
      "learning_rate": 0.0001378686410709556,
      "loss": 2.476,
      "step": 5977
    },
    {
      "epoch": 0.765184,
      "grad_norm": 0.3901645541191101,
      "learning_rate": 0.00013772572618691602,
      "loss": 2.538,
      "step": 5978
    },
    {
      "epoch": 0.765312,
      "grad_norm": 0.4092673659324646,
      "learning_rate": 0.00013758287358202405,
      "loss": 2.7081,
      "step": 5979
    },
    {
      "epoch": 0.76544,
      "grad_norm": 0.3823741376399994,
      "learning_rate": 0.00013744008328083756,
      "loss": 2.5206,
      "step": 5980
    },
    {
      "epoch": 0.765568,
      "grad_norm": 0.4009667634963989,
      "learning_rate": 0.00013729735530790377,
      "loss": 2.6347,
      "step": 5981
    },
    {
      "epoch": 0.765696,
      "grad_norm": 0.5330597758293152,
      "learning_rate": 0.00013715468968775952,
      "loss": 2.5942,
      "step": 5982
    },
    {
      "epoch": 0.765824,
      "grad_norm": 0.4559655785560608,
      "learning_rate": 0.00013701208644493064,
      "loss": 2.4841,
      "step": 5983
    },
    {
      "epoch": 0.765952,
      "grad_norm": 0.4197412431240082,
      "learning_rate": 0.00013686954560393217,
      "loss": 2.5327,
      "step": 5984
    },
    {
      "epoch": 0.76608,
      "grad_norm": 0.4021061956882477,
      "learning_rate": 0.00013672706718926848,
      "loss": 2.597,
      "step": 5985
    },
    {
      "epoch": 0.766208,
      "grad_norm": 0.3688011169433594,
      "learning_rate": 0.00013658465122543345,
      "loss": 2.5823,
      "step": 5986
    },
    {
      "epoch": 0.766336,
      "grad_norm": 0.38605597615242004,
      "learning_rate": 0.00013644229773690996,
      "loss": 2.4675,
      "step": 5987
    },
    {
      "epoch": 0.766464,
      "grad_norm": 0.40334653854370117,
      "learning_rate": 0.00013630000674817012,
      "loss": 2.6149,
      "step": 5988
    },
    {
      "epoch": 0.766592,
      "grad_norm": 0.4040535092353821,
      "learning_rate": 0.0001361577782836756,
      "loss": 2.6993,
      "step": 5989
    },
    {
      "epoch": 0.76672,
      "grad_norm": 0.37640181183815,
      "learning_rate": 0.00013601561236787702,
      "loss": 2.6128,
      "step": 5990
    },
    {
      "epoch": 0.766848,
      "grad_norm": 0.4093310236930847,
      "learning_rate": 0.00013587350902521435,
      "loss": 2.5093,
      "step": 5991
    },
    {
      "epoch": 0.766976,
      "grad_norm": 0.5727297067642212,
      "learning_rate": 0.0001357314682801168,
      "loss": 2.5766,
      "step": 5992
    },
    {
      "epoch": 0.767104,
      "grad_norm": 0.396048903465271,
      "learning_rate": 0.00013558949015700277,
      "loss": 2.5962,
      "step": 5993
    },
    {
      "epoch": 0.767232,
      "grad_norm": 0.3844795823097229,
      "learning_rate": 0.00013544757468027984,
      "loss": 2.514,
      "step": 5994
    },
    {
      "epoch": 0.76736,
      "grad_norm": 0.3910764455795288,
      "learning_rate": 0.0001353057218743453,
      "loss": 2.6334,
      "step": 5995
    },
    {
      "epoch": 0.767488,
      "grad_norm": 0.38868850469589233,
      "learning_rate": 0.00013516393176358487,
      "loss": 2.6042,
      "step": 5996
    },
    {
      "epoch": 0.767616,
      "grad_norm": 0.344957560300827,
      "learning_rate": 0.00013502220437237427,
      "loss": 2.493,
      "step": 5997
    },
    {
      "epoch": 0.767744,
      "grad_norm": 0.4138890504837036,
      "learning_rate": 0.0001348805397250779,
      "loss": 2.5961,
      "step": 5998
    },
    {
      "epoch": 0.767872,
      "grad_norm": 0.3519899547100067,
      "learning_rate": 0.00013473893784604962,
      "loss": 2.5285,
      "step": 5999
    },
    {
      "epoch": 0.768,
      "grad_norm": 0.35588568449020386,
      "learning_rate": 0.00013459739875963238,
      "loss": 2.5916,
      "step": 6000
    },
    {
      "epoch": 0.768128,
      "grad_norm": 0.4541827142238617,
      "learning_rate": 0.0001344559224901584,
      "loss": 2.498,
      "step": 6001
    },
    {
      "epoch": 0.768256,
      "grad_norm": 0.3659261167049408,
      "learning_rate": 0.00013431450906194891,
      "loss": 2.5479,
      "step": 6002
    },
    {
      "epoch": 0.768384,
      "grad_norm": 0.4027335047721863,
      "learning_rate": 0.00013417315849931493,
      "loss": 2.5512,
      "step": 6003
    },
    {
      "epoch": 0.768512,
      "grad_norm": 0.3896023631095886,
      "learning_rate": 0.00013403187082655584,
      "loss": 2.5153,
      "step": 6004
    },
    {
      "epoch": 0.76864,
      "grad_norm": 0.46970734000205994,
      "learning_rate": 0.00013389064606796096,
      "loss": 2.6228,
      "step": 6005
    },
    {
      "epoch": 0.768768,
      "grad_norm": 0.4305589497089386,
      "learning_rate": 0.00013374948424780837,
      "loss": 2.5634,
      "step": 6006
    },
    {
      "epoch": 0.768896,
      "grad_norm": 0.4110504686832428,
      "learning_rate": 0.0001336083853903653,
      "loss": 2.6218,
      "step": 6007
    },
    {
      "epoch": 0.769024,
      "grad_norm": 0.3816154897212982,
      "learning_rate": 0.00013346734951988842,
      "loss": 2.5666,
      "step": 6008
    },
    {
      "epoch": 0.769152,
      "grad_norm": 0.3676801025867462,
      "learning_rate": 0.0001333263766606232,
      "loss": 2.7032,
      "step": 6009
    },
    {
      "epoch": 0.76928,
      "grad_norm": 0.41384783387184143,
      "learning_rate": 0.00013318546683680483,
      "loss": 2.57,
      "step": 6010
    },
    {
      "epoch": 0.769408,
      "grad_norm": 0.383266419172287,
      "learning_rate": 0.00013304462007265717,
      "loss": 2.6858,
      "step": 6011
    },
    {
      "epoch": 0.769536,
      "grad_norm": 0.36057019233703613,
      "learning_rate": 0.00013290383639239344,
      "loss": 2.5459,
      "step": 6012
    },
    {
      "epoch": 0.769664,
      "grad_norm": 0.40207165479660034,
      "learning_rate": 0.00013276311582021582,
      "loss": 2.5013,
      "step": 6013
    },
    {
      "epoch": 0.769792,
      "grad_norm": 0.530052125453949,
      "learning_rate": 0.00013262245838031617,
      "loss": 2.5175,
      "step": 6014
    },
    {
      "epoch": 0.76992,
      "grad_norm": 0.43533092737197876,
      "learning_rate": 0.0001324818640968749,
      "loss": 2.4947,
      "step": 6015
    },
    {
      "epoch": 0.770048,
      "grad_norm": 0.38294684886932373,
      "learning_rate": 0.0001323413329940618,
      "loss": 2.6126,
      "step": 6016
    },
    {
      "epoch": 0.770176,
      "grad_norm": 0.37411707639694214,
      "learning_rate": 0.00013220086509603567,
      "loss": 2.5931,
      "step": 6017
    },
    {
      "epoch": 0.770304,
      "grad_norm": 0.4023134410381317,
      "learning_rate": 0.00013206046042694492,
      "loss": 2.4764,
      "step": 6018
    },
    {
      "epoch": 0.770432,
      "grad_norm": 0.45757201313972473,
      "learning_rate": 0.00013192011901092655,
      "loss": 2.5442,
      "step": 6019
    },
    {
      "epoch": 0.77056,
      "grad_norm": 0.3918333947658539,
      "learning_rate": 0.0001317798408721068,
      "loss": 2.4542,
      "step": 6020
    },
    {
      "epoch": 0.770688,
      "grad_norm": 0.41753119230270386,
      "learning_rate": 0.0001316396260346012,
      "loss": 2.6336,
      "step": 6021
    },
    {
      "epoch": 0.770816,
      "grad_norm": 0.4040674865245819,
      "learning_rate": 0.0001314994745225142,
      "loss": 2.5712,
      "step": 6022
    },
    {
      "epoch": 0.770944,
      "grad_norm": 0.3630923926830292,
      "learning_rate": 0.00013135938635993965,
      "loss": 2.4316,
      "step": 6023
    },
    {
      "epoch": 0.771072,
      "grad_norm": 0.386423796415329,
      "learning_rate": 0.0001312193615709601,
      "loss": 2.6178,
      "step": 6024
    },
    {
      "epoch": 0.7712,
      "grad_norm": 0.4564683735370636,
      "learning_rate": 0.0001310794001796477,
      "loss": 2.4786,
      "step": 6025
    },
    {
      "epoch": 0.771328,
      "grad_norm": 0.3935375511646271,
      "learning_rate": 0.00013093950221006328,
      "loss": 2.444,
      "step": 6026
    },
    {
      "epoch": 0.771456,
      "grad_norm": 0.3940345048904419,
      "learning_rate": 0.000130799667686257,
      "loss": 2.6374,
      "step": 6027
    },
    {
      "epoch": 0.771584,
      "grad_norm": 0.404269278049469,
      "learning_rate": 0.00013065989663226795,
      "loss": 2.6888,
      "step": 6028
    },
    {
      "epoch": 0.771712,
      "grad_norm": 0.4115760326385498,
      "learning_rate": 0.00013052018907212448,
      "loss": 2.5728,
      "step": 6029
    },
    {
      "epoch": 0.77184,
      "grad_norm": 0.46923521161079407,
      "learning_rate": 0.0001303805450298437,
      "loss": 2.6757,
      "step": 6030
    },
    {
      "epoch": 0.771968,
      "grad_norm": 0.4073568880558014,
      "learning_rate": 0.00013024096452943234,
      "loss": 2.5616,
      "step": 6031
    },
    {
      "epoch": 0.772096,
      "grad_norm": 0.40284258127212524,
      "learning_rate": 0.00013010144759488567,
      "loss": 2.5565,
      "step": 6032
    },
    {
      "epoch": 0.772224,
      "grad_norm": 0.4070758819580078,
      "learning_rate": 0.00012996199425018855,
      "loss": 2.5358,
      "step": 6033
    },
    {
      "epoch": 0.772352,
      "grad_norm": 0.397273451089859,
      "learning_rate": 0.00012982260451931444,
      "loss": 2.5736,
      "step": 6034
    },
    {
      "epoch": 0.77248,
      "grad_norm": 0.3853439688682556,
      "learning_rate": 0.00012968327842622612,
      "loss": 2.5559,
      "step": 6035
    },
    {
      "epoch": 0.772608,
      "grad_norm": 0.5188420414924622,
      "learning_rate": 0.0001295440159948753,
      "loss": 2.5295,
      "step": 6036
    },
    {
      "epoch": 0.772736,
      "grad_norm": 0.3548922538757324,
      "learning_rate": 0.00012940481724920284,
      "loss": 2.5234,
      "step": 6037
    },
    {
      "epoch": 0.772864,
      "grad_norm": 0.3795716166496277,
      "learning_rate": 0.0001292656822131384,
      "loss": 2.6132,
      "step": 6038
    },
    {
      "epoch": 0.772992,
      "grad_norm": 0.3835372030735016,
      "learning_rate": 0.0001291266109106013,
      "loss": 2.6897,
      "step": 6039
    },
    {
      "epoch": 0.77312,
      "grad_norm": 0.3878740072250366,
      "learning_rate": 0.0001289876033654993,
      "loss": 2.5207,
      "step": 6040
    },
    {
      "epoch": 0.773248,
      "grad_norm": 0.3832116425037384,
      "learning_rate": 0.0001288486596017293,
      "loss": 2.5986,
      "step": 6041
    },
    {
      "epoch": 0.773376,
      "grad_norm": 0.3848583996295929,
      "learning_rate": 0.0001287097796431776,
      "loss": 2.4942,
      "step": 6042
    },
    {
      "epoch": 0.773504,
      "grad_norm": 0.4092686176300049,
      "learning_rate": 0.00012857096351371917,
      "loss": 2.6199,
      "step": 6043
    },
    {
      "epoch": 0.773632,
      "grad_norm": 0.3956158459186554,
      "learning_rate": 0.00012843221123721803,
      "loss": 2.5772,
      "step": 6044
    },
    {
      "epoch": 0.77376,
      "grad_norm": 0.37319809198379517,
      "learning_rate": 0.00012829352283752726,
      "loss": 2.5821,
      "step": 6045
    },
    {
      "epoch": 0.773888,
      "grad_norm": 0.43290576338768005,
      "learning_rate": 0.00012815489833848927,
      "loss": 2.6147,
      "step": 6046
    },
    {
      "epoch": 0.774016,
      "grad_norm": 0.386669784784317,
      "learning_rate": 0.00012801633776393501,
      "loss": 2.4303,
      "step": 6047
    },
    {
      "epoch": 0.774144,
      "grad_norm": 0.3655071258544922,
      "learning_rate": 0.0001278778411376847,
      "loss": 2.5182,
      "step": 6048
    },
    {
      "epoch": 0.774272,
      "grad_norm": 0.43429720401763916,
      "learning_rate": 0.00012773940848354753,
      "loss": 2.5711,
      "step": 6049
    },
    {
      "epoch": 0.7744,
      "grad_norm": 0.41674765944480896,
      "learning_rate": 0.0001276010398253215,
      "loss": 2.6461,
      "step": 6050
    },
    {
      "epoch": 0.774528,
      "grad_norm": 0.3589322865009308,
      "learning_rate": 0.00012746273518679407,
      "loss": 2.5966,
      "step": 6051
    },
    {
      "epoch": 0.774656,
      "grad_norm": 0.3760698139667511,
      "learning_rate": 0.00012732449459174134,
      "loss": 2.4469,
      "step": 6052
    },
    {
      "epoch": 0.774784,
      "grad_norm": 0.35922783613204956,
      "learning_rate": 0.00012718631806392822,
      "loss": 2.513,
      "step": 6053
    },
    {
      "epoch": 0.774912,
      "grad_norm": 0.43005096912384033,
      "learning_rate": 0.00012704820562710922,
      "loss": 2.5504,
      "step": 6054
    },
    {
      "epoch": 0.77504,
      "grad_norm": 0.41293758153915405,
      "learning_rate": 0.0001269101573050273,
      "loss": 2.5768,
      "step": 6055
    },
    {
      "epoch": 0.775168,
      "grad_norm": 0.4242746829986572,
      "learning_rate": 0.00012677217312141454,
      "loss": 2.5079,
      "step": 6056
    },
    {
      "epoch": 0.775296,
      "grad_norm": 0.39414238929748535,
      "learning_rate": 0.00012663425309999204,
      "loss": 2.56,
      "step": 6057
    },
    {
      "epoch": 0.775424,
      "grad_norm": 0.4209970235824585,
      "learning_rate": 0.00012649639726446994,
      "loss": 2.5994,
      "step": 6058
    },
    {
      "epoch": 0.775552,
      "grad_norm": 0.3857630491256714,
      "learning_rate": 0.00012635860563854696,
      "loss": 2.6045,
      "step": 6059
    },
    {
      "epoch": 0.77568,
      "grad_norm": 1.1807438135147095,
      "learning_rate": 0.00012622087824591127,
      "loss": 2.5395,
      "step": 6060
    },
    {
      "epoch": 0.775808,
      "grad_norm": 0.5643937587738037,
      "learning_rate": 0.00012608321511024006,
      "loss": 2.5952,
      "step": 6061
    },
    {
      "epoch": 0.775936,
      "grad_norm": 0.3829951286315918,
      "learning_rate": 0.0001259456162551989,
      "loss": 2.5418,
      "step": 6062
    },
    {
      "epoch": 0.776064,
      "grad_norm": 0.4034256339073181,
      "learning_rate": 0.0001258080817044428,
      "loss": 2.578,
      "step": 6063
    },
    {
      "epoch": 0.776192,
      "grad_norm": 0.36060699820518494,
      "learning_rate": 0.0001256706114816154,
      "loss": 2.6043,
      "step": 6064
    },
    {
      "epoch": 0.77632,
      "grad_norm": 0.3643082082271576,
      "learning_rate": 0.00012553320561034954,
      "loss": 2.4954,
      "step": 6065
    },
    {
      "epoch": 0.776448,
      "grad_norm": 0.4764716625213623,
      "learning_rate": 0.00012539586411426662,
      "loss": 2.5498,
      "step": 6066
    },
    {
      "epoch": 0.776576,
      "grad_norm": 0.3672603666782379,
      "learning_rate": 0.00012525858701697761,
      "loss": 2.4691,
      "step": 6067
    },
    {
      "epoch": 0.776704,
      "grad_norm": 0.3812865912914276,
      "learning_rate": 0.00012512137434208187,
      "loss": 2.5715,
      "step": 6068
    },
    {
      "epoch": 0.776832,
      "grad_norm": 0.4002835154533386,
      "learning_rate": 0.00012498422611316768,
      "loss": 2.4614,
      "step": 6069
    },
    {
      "epoch": 0.77696,
      "grad_norm": 0.3819577395915985,
      "learning_rate": 0.00012484714235381277,
      "loss": 2.4638,
      "step": 6070
    },
    {
      "epoch": 0.777088,
      "grad_norm": 0.3790323734283447,
      "learning_rate": 0.00012471012308758322,
      "loss": 2.5359,
      "step": 6071
    },
    {
      "epoch": 0.777216,
      "grad_norm": 0.4065829813480377,
      "learning_rate": 0.00012457316833803421,
      "loss": 2.4911,
      "step": 6072
    },
    {
      "epoch": 0.777344,
      "grad_norm": 0.40710803866386414,
      "learning_rate": 0.00012443627812870988,
      "loss": 2.5263,
      "step": 6073
    },
    {
      "epoch": 0.777472,
      "grad_norm": 0.38431984186172485,
      "learning_rate": 0.00012429945248314318,
      "loss": 2.6568,
      "step": 6074
    },
    {
      "epoch": 0.7776,
      "grad_norm": 0.3851949870586395,
      "learning_rate": 0.00012416269142485615,
      "loss": 2.4596,
      "step": 6075
    },
    {
      "epoch": 0.777728,
      "grad_norm": 0.37249282002449036,
      "learning_rate": 0.0001240259949773596,
      "loss": 2.4921,
      "step": 6076
    },
    {
      "epoch": 0.777856,
      "grad_norm": 0.3883640766143799,
      "learning_rate": 0.00012388936316415317,
      "loss": 2.5523,
      "step": 6077
    },
    {
      "epoch": 0.777984,
      "grad_norm": 0.41476428508758545,
      "learning_rate": 0.0001237527960087253,
      "loss": 2.5232,
      "step": 6078
    },
    {
      "epoch": 0.778112,
      "grad_norm": 0.3662227988243103,
      "learning_rate": 0.0001236162935345538,
      "loss": 2.5564,
      "step": 6079
    },
    {
      "epoch": 0.77824,
      "grad_norm": 0.36931341886520386,
      "learning_rate": 0.0001234798557651048,
      "loss": 2.6481,
      "step": 6080
    },
    {
      "epoch": 0.778368,
      "grad_norm": 0.38967812061309814,
      "learning_rate": 0.0001233434827238335,
      "loss": 2.5907,
      "step": 6081
    },
    {
      "epoch": 0.778496,
      "grad_norm": 0.37608495354652405,
      "learning_rate": 0.00012320717443418423,
      "loss": 2.5145,
      "step": 6082
    },
    {
      "epoch": 0.778624,
      "grad_norm": 0.3811129629611969,
      "learning_rate": 0.0001230709309195898,
      "loss": 2.6009,
      "step": 6083
    },
    {
      "epoch": 0.778752,
      "grad_norm": 0.4005518853664398,
      "learning_rate": 0.00012293475220347212,
      "loss": 2.55,
      "step": 6084
    },
    {
      "epoch": 0.77888,
      "grad_norm": 0.378368616104126,
      "learning_rate": 0.0001227986383092418,
      "loss": 2.4706,
      "step": 6085
    },
    {
      "epoch": 0.779008,
      "grad_norm": 0.3783133029937744,
      "learning_rate": 0.0001226625892602985,
      "loss": 2.5639,
      "step": 6086
    },
    {
      "epoch": 0.779136,
      "grad_norm": 0.41036680340766907,
      "learning_rate": 0.00012252660508003043,
      "loss": 2.5552,
      "step": 6087
    },
    {
      "epoch": 0.779264,
      "grad_norm": 0.3852646052837372,
      "learning_rate": 0.00012239068579181494,
      "loss": 2.4184,
      "step": 6088
    },
    {
      "epoch": 0.779392,
      "grad_norm": 0.39167889952659607,
      "learning_rate": 0.00012225483141901837,
      "loss": 2.585,
      "step": 6089
    },
    {
      "epoch": 0.77952,
      "grad_norm": 0.39166319370269775,
      "learning_rate": 0.00012211904198499552,
      "loss": 2.5261,
      "step": 6090
    },
    {
      "epoch": 0.779648,
      "grad_norm": 0.4232954680919647,
      "learning_rate": 0.00012198331751309005,
      "loss": 2.5951,
      "step": 6091
    },
    {
      "epoch": 0.779776,
      "grad_norm": 0.37544625997543335,
      "learning_rate": 0.00012184765802663466,
      "loss": 2.5051,
      "step": 6092
    },
    {
      "epoch": 0.779904,
      "grad_norm": 0.4067922532558441,
      "learning_rate": 0.00012171206354895081,
      "loss": 2.6277,
      "step": 6093
    },
    {
      "epoch": 0.780032,
      "grad_norm": 0.35690686106681824,
      "learning_rate": 0.00012157653410334874,
      "loss": 2.5204,
      "step": 6094
    },
    {
      "epoch": 0.78016,
      "grad_norm": 0.39915892481803894,
      "learning_rate": 0.0001214410697131273,
      "loss": 2.5687,
      "step": 6095
    },
    {
      "epoch": 0.780288,
      "grad_norm": 0.4070458710193634,
      "learning_rate": 0.00012130567040157465,
      "loss": 2.5729,
      "step": 6096
    },
    {
      "epoch": 0.780416,
      "grad_norm": 0.4026239514350891,
      "learning_rate": 0.0001211703361919676,
      "loss": 2.6253,
      "step": 6097
    },
    {
      "epoch": 0.780544,
      "grad_norm": 0.43790921568870544,
      "learning_rate": 0.00012103506710757156,
      "loss": 2.4753,
      "step": 6098
    },
    {
      "epoch": 0.780672,
      "grad_norm": 0.35745319724082947,
      "learning_rate": 0.00012089986317164075,
      "loss": 2.4863,
      "step": 6099
    },
    {
      "epoch": 0.7808,
      "grad_norm": 0.4704607129096985,
      "learning_rate": 0.00012076472440741842,
      "loss": 2.6289,
      "step": 6100
    },
    {
      "epoch": 0.780928,
      "grad_norm": 0.3602895140647888,
      "learning_rate": 0.00012062965083813642,
      "loss": 2.6664,
      "step": 6101
    },
    {
      "epoch": 0.781056,
      "grad_norm": 0.35945990681648254,
      "learning_rate": 0.00012049464248701536,
      "loss": 2.6134,
      "step": 6102
    },
    {
      "epoch": 0.781184,
      "grad_norm": 0.4024569094181061,
      "learning_rate": 0.00012035969937726498,
      "loss": 2.6157,
      "step": 6103
    },
    {
      "epoch": 0.781312,
      "grad_norm": 0.4070088565349579,
      "learning_rate": 0.00012022482153208347,
      "loss": 2.494,
      "step": 6104
    },
    {
      "epoch": 0.78144,
      "grad_norm": 0.3883853554725647,
      "learning_rate": 0.00012009000897465783,
      "loss": 2.4988,
      "step": 6105
    },
    {
      "epoch": 0.781568,
      "grad_norm": 0.3884938359260559,
      "learning_rate": 0.00011995526172816384,
      "loss": 2.5595,
      "step": 6106
    },
    {
      "epoch": 0.781696,
      "grad_norm": 0.40346473455429077,
      "learning_rate": 0.00011982057981576632,
      "loss": 2.5558,
      "step": 6107
    },
    {
      "epoch": 0.781824,
      "grad_norm": 0.38168540596961975,
      "learning_rate": 0.00011968596326061858,
      "loss": 2.5217,
      "step": 6108
    },
    {
      "epoch": 0.781952,
      "grad_norm": 0.3701375126838684,
      "learning_rate": 0.00011955141208586257,
      "loss": 2.5513,
      "step": 6109
    },
    {
      "epoch": 0.78208,
      "grad_norm": 0.37135130167007446,
      "learning_rate": 0.00011941692631462953,
      "loss": 2.6126,
      "step": 6110
    },
    {
      "epoch": 0.782208,
      "grad_norm": 0.37783265113830566,
      "learning_rate": 0.00011928250597003892,
      "loss": 2.5372,
      "step": 6111
    },
    {
      "epoch": 0.782336,
      "grad_norm": 0.4136459231376648,
      "learning_rate": 0.00011914815107519922,
      "loss": 2.5353,
      "step": 6112
    },
    {
      "epoch": 0.782464,
      "grad_norm": 0.4194638431072235,
      "learning_rate": 0.00011901386165320755,
      "loss": 2.5729,
      "step": 6113
    },
    {
      "epoch": 0.782592,
      "grad_norm": 0.4075257480144501,
      "learning_rate": 0.00011887963772714983,
      "loss": 2.4746,
      "step": 6114
    },
    {
      "epoch": 0.78272,
      "grad_norm": 0.6210603713989258,
      "learning_rate": 0.00011874547932010055,
      "loss": 2.6006,
      "step": 6115
    },
    {
      "epoch": 0.782848,
      "grad_norm": 0.41393277049064636,
      "learning_rate": 0.00011861138645512343,
      "loss": 2.5146,
      "step": 6116
    },
    {
      "epoch": 0.782976,
      "grad_norm": 0.46034887433052063,
      "learning_rate": 0.00011847735915527025,
      "loss": 2.5477,
      "step": 6117
    },
    {
      "epoch": 0.783104,
      "grad_norm": 0.3881188631057739,
      "learning_rate": 0.00011834339744358218,
      "loss": 2.5817,
      "step": 6118
    },
    {
      "epoch": 0.783232,
      "grad_norm": 0.4969775378704071,
      "learning_rate": 0.0001182095013430886,
      "loss": 2.5626,
      "step": 6119
    },
    {
      "epoch": 0.78336,
      "grad_norm": 0.37804463505744934,
      "learning_rate": 0.00011807567087680787,
      "loss": 2.5155,
      "step": 6120
    },
    {
      "epoch": 0.783488,
      "grad_norm": 0.3606826663017273,
      "learning_rate": 0.00011794190606774697,
      "loss": 2.4345,
      "step": 6121
    },
    {
      "epoch": 0.783616,
      "grad_norm": 0.4617844223976135,
      "learning_rate": 0.0001178082069389016,
      "loss": 2.588,
      "step": 6122
    },
    {
      "epoch": 0.783744,
      "grad_norm": 0.4718688428401947,
      "learning_rate": 0.00011767457351325605,
      "loss": 2.4912,
      "step": 6123
    },
    {
      "epoch": 0.783872,
      "grad_norm": 0.4331742823123932,
      "learning_rate": 0.00011754100581378364,
      "loss": 2.4859,
      "step": 6124
    },
    {
      "epoch": 0.784,
      "grad_norm": 0.37864014506340027,
      "learning_rate": 0.00011740750386344628,
      "loss": 2.5878,
      "step": 6125
    },
    {
      "epoch": 0.784128,
      "grad_norm": 0.43994614481925964,
      "learning_rate": 0.00011727406768519445,
      "loss": 2.5522,
      "step": 6126
    },
    {
      "epoch": 0.784256,
      "grad_norm": 0.3804623484611511,
      "learning_rate": 0.0001171406973019673,
      "loss": 2.5154,
      "step": 6127
    },
    {
      "epoch": 0.784384,
      "grad_norm": 0.3877091407775879,
      "learning_rate": 0.00011700739273669275,
      "loss": 2.4894,
      "step": 6128
    },
    {
      "epoch": 0.784512,
      "grad_norm": 0.4015587866306305,
      "learning_rate": 0.0001168741540122874,
      "loss": 2.5509,
      "step": 6129
    },
    {
      "epoch": 0.78464,
      "grad_norm": 0.42557841539382935,
      "learning_rate": 0.00011674098115165643,
      "loss": 2.5014,
      "step": 6130
    },
    {
      "epoch": 0.784768,
      "grad_norm": 0.7022963762283325,
      "learning_rate": 0.00011660787417769409,
      "loss": 2.5545,
      "step": 6131
    },
    {
      "epoch": 0.784896,
      "grad_norm": 0.39778393507003784,
      "learning_rate": 0.00011647483311328283,
      "loss": 2.6527,
      "step": 6132
    },
    {
      "epoch": 0.785024,
      "grad_norm": 0.38467708230018616,
      "learning_rate": 0.00011634185798129382,
      "loss": 2.6518,
      "step": 6133
    },
    {
      "epoch": 0.785152,
      "grad_norm": 0.5362988710403442,
      "learning_rate": 0.00011620894880458732,
      "loss": 2.5739,
      "step": 6134
    },
    {
      "epoch": 0.78528,
      "grad_norm": 0.4430537521839142,
      "learning_rate": 0.00011607610560601179,
      "loss": 2.5548,
      "step": 6135
    },
    {
      "epoch": 0.785408,
      "grad_norm": 0.40094631910324097,
      "learning_rate": 0.00011594332840840455,
      "loss": 2.5893,
      "step": 6136
    },
    {
      "epoch": 0.785536,
      "grad_norm": 0.3874968886375427,
      "learning_rate": 0.00011581061723459153,
      "loss": 2.4462,
      "step": 6137
    },
    {
      "epoch": 0.785664,
      "grad_norm": 0.38015756011009216,
      "learning_rate": 0.00011567797210738712,
      "loss": 2.5868,
      "step": 6138
    },
    {
      "epoch": 0.785792,
      "grad_norm": 0.4113015830516815,
      "learning_rate": 0.00011554539304959494,
      "loss": 2.5051,
      "step": 6139
    },
    {
      "epoch": 0.78592,
      "grad_norm": 0.3841034173965454,
      "learning_rate": 0.00011541288008400663,
      "loss": 2.5034,
      "step": 6140
    },
    {
      "epoch": 0.786048,
      "grad_norm": 0.43116000294685364,
      "learning_rate": 0.00011528043323340281,
      "loss": 2.5332,
      "step": 6141
    },
    {
      "epoch": 0.786176,
      "grad_norm": 0.3931441605091095,
      "learning_rate": 0.0001151480525205525,
      "loss": 2.5452,
      "step": 6142
    },
    {
      "epoch": 0.786304,
      "grad_norm": 0.4240909814834595,
      "learning_rate": 0.00011501573796821346,
      "loss": 2.5629,
      "step": 6143
    },
    {
      "epoch": 0.786432,
      "grad_norm": 0.4341389536857605,
      "learning_rate": 0.0001148834895991323,
      "loss": 2.624,
      "step": 6144
    },
    {
      "epoch": 0.78656,
      "grad_norm": 0.3914916217327118,
      "learning_rate": 0.00011475130743604379,
      "loss": 2.5093,
      "step": 6145
    },
    {
      "epoch": 0.786688,
      "grad_norm": 0.44802188873291016,
      "learning_rate": 0.00011461919150167188,
      "loss": 2.5655,
      "step": 6146
    },
    {
      "epoch": 0.786816,
      "grad_norm": 0.42198067903518677,
      "learning_rate": 0.00011448714181872865,
      "loss": 2.461,
      "step": 6147
    },
    {
      "epoch": 0.786944,
      "grad_norm": 0.39986106753349304,
      "learning_rate": 0.000114355158409915,
      "loss": 2.4549,
      "step": 6148
    },
    {
      "epoch": 0.787072,
      "grad_norm": 0.3722696006298065,
      "learning_rate": 0.00011422324129792039,
      "loss": 2.5736,
      "step": 6149
    },
    {
      "epoch": 0.7872,
      "grad_norm": 0.4295211732387543,
      "learning_rate": 0.00011409139050542295,
      "loss": 2.4888,
      "step": 6150
    },
    {
      "epoch": 0.787328,
      "grad_norm": 0.3862858712673187,
      "learning_rate": 0.00011395960605508915,
      "loss": 2.5807,
      "step": 6151
    },
    {
      "epoch": 0.787456,
      "grad_norm": 0.4454406201839447,
      "learning_rate": 0.00011382788796957454,
      "loss": 2.5607,
      "step": 6152
    },
    {
      "epoch": 0.787584,
      "grad_norm": 0.41793400049209595,
      "learning_rate": 0.00011369623627152276,
      "loss": 2.6276,
      "step": 6153
    },
    {
      "epoch": 0.787712,
      "grad_norm": 0.46482667326927185,
      "learning_rate": 0.00011356465098356656,
      "loss": 2.6924,
      "step": 6154
    },
    {
      "epoch": 0.78784,
      "grad_norm": 0.3885037899017334,
      "learning_rate": 0.00011343313212832674,
      "loss": 2.4814,
      "step": 6155
    },
    {
      "epoch": 0.787968,
      "grad_norm": 0.4069281816482544,
      "learning_rate": 0.00011330167972841299,
      "loss": 2.5727,
      "step": 6156
    },
    {
      "epoch": 0.788096,
      "grad_norm": 0.4861367642879486,
      "learning_rate": 0.00011317029380642352,
      "loss": 2.5645,
      "step": 6157
    },
    {
      "epoch": 0.788224,
      "grad_norm": 0.39232805371284485,
      "learning_rate": 0.00011303897438494504,
      "loss": 2.3756,
      "step": 6158
    },
    {
      "epoch": 0.788352,
      "grad_norm": 0.4355083405971527,
      "learning_rate": 0.00011290772148655276,
      "loss": 2.53,
      "step": 6159
    },
    {
      "epoch": 0.78848,
      "grad_norm": 0.4378872513771057,
      "learning_rate": 0.0001127765351338108,
      "loss": 2.5914,
      "step": 6160
    },
    {
      "epoch": 0.788608,
      "grad_norm": 0.390003502368927,
      "learning_rate": 0.00011264541534927147,
      "loss": 2.6428,
      "step": 6161
    },
    {
      "epoch": 0.788736,
      "grad_norm": 0.4102701246738434,
      "learning_rate": 0.00011251436215547595,
      "loss": 2.5053,
      "step": 6162
    },
    {
      "epoch": 0.788864,
      "grad_norm": 0.4150329530239105,
      "learning_rate": 0.0001123833755749537,
      "loss": 2.5629,
      "step": 6163
    },
    {
      "epoch": 0.788992,
      "grad_norm": 0.3856368660926819,
      "learning_rate": 0.00011225245563022285,
      "loss": 2.6285,
      "step": 6164
    },
    {
      "epoch": 0.78912,
      "grad_norm": 0.38301417231559753,
      "learning_rate": 0.00011212160234378999,
      "loss": 2.5024,
      "step": 6165
    },
    {
      "epoch": 0.789248,
      "grad_norm": 0.37372350692749023,
      "learning_rate": 0.00011199081573815024,
      "loss": 2.6365,
      "step": 6166
    },
    {
      "epoch": 0.789376,
      "grad_norm": 0.39092716574668884,
      "learning_rate": 0.0001118600958357876,
      "loss": 2.562,
      "step": 6167
    },
    {
      "epoch": 0.789504,
      "grad_norm": 0.4435305893421173,
      "learning_rate": 0.00011172944265917417,
      "loss": 2.4753,
      "step": 6168
    },
    {
      "epoch": 0.789632,
      "grad_norm": 0.4368470013141632,
      "learning_rate": 0.00011159885623077076,
      "loss": 2.5882,
      "step": 6169
    },
    {
      "epoch": 0.78976,
      "grad_norm": 0.40669864416122437,
      "learning_rate": 0.00011146833657302658,
      "loss": 2.649,
      "step": 6170
    },
    {
      "epoch": 0.789888,
      "grad_norm": 0.3865031898021698,
      "learning_rate": 0.00011133788370837972,
      "loss": 2.6523,
      "step": 6171
    },
    {
      "epoch": 0.790016,
      "grad_norm": 0.3963950574398041,
      "learning_rate": 0.00011120749765925642,
      "loss": 2.5443,
      "step": 6172
    },
    {
      "epoch": 0.790144,
      "grad_norm": 0.40158018469810486,
      "learning_rate": 0.00011107717844807153,
      "loss": 2.5109,
      "step": 6173
    },
    {
      "epoch": 0.790272,
      "grad_norm": 0.38913512229919434,
      "learning_rate": 0.00011094692609722829,
      "loss": 2.6274,
      "step": 6174
    },
    {
      "epoch": 0.7904,
      "grad_norm": 0.4031769037246704,
      "learning_rate": 0.0001108167406291189,
      "loss": 2.5987,
      "step": 6175
    },
    {
      "epoch": 0.790528,
      "grad_norm": 0.4339746832847595,
      "learning_rate": 0.00011068662206612362,
      "loss": 2.5611,
      "step": 6176
    },
    {
      "epoch": 0.790656,
      "grad_norm": 0.40426549315452576,
      "learning_rate": 0.00011055657043061124,
      "loss": 2.6497,
      "step": 6177
    },
    {
      "epoch": 0.790784,
      "grad_norm": 0.4182133376598358,
      "learning_rate": 0.0001104265857449393,
      "loss": 2.4799,
      "step": 6178
    },
    {
      "epoch": 0.790912,
      "grad_norm": 0.37527963519096375,
      "learning_rate": 0.00011029666803145355,
      "loss": 2.5043,
      "step": 6179
    },
    {
      "epoch": 0.79104,
      "grad_norm": 0.36829671263694763,
      "learning_rate": 0.00011016681731248829,
      "loss": 2.4671,
      "step": 6180
    },
    {
      "epoch": 0.791168,
      "grad_norm": 0.45306697487831116,
      "learning_rate": 0.00011003703361036643,
      "loss": 2.6494,
      "step": 6181
    },
    {
      "epoch": 0.791296,
      "grad_norm": 0.3723890483379364,
      "learning_rate": 0.00010990731694739947,
      "loss": 2.6165,
      "step": 6182
    },
    {
      "epoch": 0.791424,
      "grad_norm": 0.5214135646820068,
      "learning_rate": 0.00010977766734588706,
      "loss": 2.5741,
      "step": 6183
    },
    {
      "epoch": 0.791552,
      "grad_norm": 0.3900038003921509,
      "learning_rate": 0.0001096480848281175,
      "loss": 2.5407,
      "step": 6184
    },
    {
      "epoch": 0.79168,
      "grad_norm": 0.38404446840286255,
      "learning_rate": 0.00010951856941636751,
      "loss": 2.5287,
      "step": 6185
    },
    {
      "epoch": 0.791808,
      "grad_norm": 0.3873548209667206,
      "learning_rate": 0.00010938912113290229,
      "loss": 2.5613,
      "step": 6186
    },
    {
      "epoch": 0.791936,
      "grad_norm": 0.3512948155403137,
      "learning_rate": 0.00010925973999997535,
      "loss": 2.5339,
      "step": 6187
    },
    {
      "epoch": 0.792064,
      "grad_norm": 0.3871018886566162,
      "learning_rate": 0.00010913042603982909,
      "loss": 2.591,
      "step": 6188
    },
    {
      "epoch": 0.792192,
      "grad_norm": 0.3653264343738556,
      "learning_rate": 0.00010900117927469383,
      "loss": 2.6469,
      "step": 6189
    },
    {
      "epoch": 0.79232,
      "grad_norm": 0.37787774205207825,
      "learning_rate": 0.0001088719997267888,
      "loss": 2.6587,
      "step": 6190
    },
    {
      "epoch": 0.792448,
      "grad_norm": 0.42456507682800293,
      "learning_rate": 0.00010874288741832139,
      "loss": 2.6069,
      "step": 6191
    },
    {
      "epoch": 0.792576,
      "grad_norm": 0.377775639295578,
      "learning_rate": 0.00010861384237148748,
      "loss": 2.6135,
      "step": 6192
    },
    {
      "epoch": 0.792704,
      "grad_norm": 0.4163018465042114,
      "learning_rate": 0.00010848486460847134,
      "loss": 2.542,
      "step": 6193
    },
    {
      "epoch": 0.792832,
      "grad_norm": 0.40302225947380066,
      "learning_rate": 0.00010835595415144588,
      "loss": 2.4626,
      "step": 6194
    },
    {
      "epoch": 0.79296,
      "grad_norm": 0.5263718366622925,
      "learning_rate": 0.00010822711102257204,
      "loss": 2.51,
      "step": 6195
    },
    {
      "epoch": 0.793088,
      "grad_norm": 0.40811407566070557,
      "learning_rate": 0.00010809833524399982,
      "loss": 2.645,
      "step": 6196
    },
    {
      "epoch": 0.793216,
      "grad_norm": 0.549271285533905,
      "learning_rate": 0.00010796962683786709,
      "loss": 2.6248,
      "step": 6197
    },
    {
      "epoch": 0.793344,
      "grad_norm": 0.48362356424331665,
      "learning_rate": 0.00010784098582630015,
      "loss": 2.463,
      "step": 6198
    },
    {
      "epoch": 0.793472,
      "grad_norm": 0.4000210762023926,
      "learning_rate": 0.00010771241223141415,
      "loss": 2.5012,
      "step": 6199
    },
    {
      "epoch": 0.7936,
      "grad_norm": 0.4017757475376129,
      "learning_rate": 0.00010758390607531232,
      "loss": 2.5161,
      "step": 6200
    },
    {
      "epoch": 0.793728,
      "grad_norm": 0.3748077154159546,
      "learning_rate": 0.00010745546738008627,
      "loss": 2.4613,
      "step": 6201
    },
    {
      "epoch": 0.793856,
      "grad_norm": 0.4432038366794586,
      "learning_rate": 0.00010732709616781606,
      "loss": 2.5402,
      "step": 6202
    },
    {
      "epoch": 0.793984,
      "grad_norm": 0.4035208821296692,
      "learning_rate": 0.0001071987924605704,
      "loss": 2.4789,
      "step": 6203
    },
    {
      "epoch": 0.794112,
      "grad_norm": 0.40360426902770996,
      "learning_rate": 0.00010707055628040602,
      "loss": 2.5641,
      "step": 6204
    },
    {
      "epoch": 0.79424,
      "grad_norm": 0.5791475176811218,
      "learning_rate": 0.00010694238764936826,
      "loss": 2.5201,
      "step": 6205
    },
    {
      "epoch": 0.794368,
      "grad_norm": 0.3975268304347992,
      "learning_rate": 0.00010681428658949082,
      "loss": 2.4842,
      "step": 6206
    },
    {
      "epoch": 0.794496,
      "grad_norm": 0.4052010178565979,
      "learning_rate": 0.00010668625312279551,
      "loss": 2.5381,
      "step": 6207
    },
    {
      "epoch": 0.794624,
      "grad_norm": 0.38151147961616516,
      "learning_rate": 0.00010655828727129318,
      "loss": 2.6644,
      "step": 6208
    },
    {
      "epoch": 0.794752,
      "grad_norm": 0.36168771982192993,
      "learning_rate": 0.00010643038905698237,
      "loss": 2.5102,
      "step": 6209
    },
    {
      "epoch": 0.79488,
      "grad_norm": 0.43358269333839417,
      "learning_rate": 0.00010630255850185022,
      "loss": 2.5939,
      "step": 6210
    },
    {
      "epoch": 0.795008,
      "grad_norm": 0.6847739815711975,
      "learning_rate": 0.00010617479562787258,
      "loss": 2.4446,
      "step": 6211
    },
    {
      "epoch": 0.795136,
      "grad_norm": 0.634709358215332,
      "learning_rate": 0.0001060471004570131,
      "loss": 2.5514,
      "step": 6212
    },
    {
      "epoch": 0.795264,
      "grad_norm": 0.43967095017433167,
      "learning_rate": 0.00010591947301122424,
      "loss": 2.6127,
      "step": 6213
    },
    {
      "epoch": 0.795392,
      "grad_norm": 0.460482120513916,
      "learning_rate": 0.00010579191331244648,
      "loss": 2.6091,
      "step": 6214
    },
    {
      "epoch": 0.79552,
      "grad_norm": 0.39954015612602234,
      "learning_rate": 0.00010566442138260884,
      "loss": 2.6235,
      "step": 6215
    },
    {
      "epoch": 0.795648,
      "grad_norm": 0.5084320306777954,
      "learning_rate": 0.00010553699724362865,
      "loss": 2.6548,
      "step": 6216
    },
    {
      "epoch": 0.795776,
      "grad_norm": 0.3845512270927429,
      "learning_rate": 0.00010540964091741157,
      "loss": 2.4875,
      "step": 6217
    },
    {
      "epoch": 0.795904,
      "grad_norm": 0.4153643250465393,
      "learning_rate": 0.00010528235242585187,
      "loss": 2.447,
      "step": 6218
    },
    {
      "epoch": 0.796032,
      "grad_norm": 0.38484424352645874,
      "learning_rate": 0.00010515513179083175,
      "loss": 2.5578,
      "step": 6219
    },
    {
      "epoch": 0.79616,
      "grad_norm": 0.4114299714565277,
      "learning_rate": 0.0001050279790342219,
      "loss": 2.6986,
      "step": 6220
    },
    {
      "epoch": 0.796288,
      "grad_norm": 0.40169304609298706,
      "learning_rate": 0.00010490089417788134,
      "loss": 2.5675,
      "step": 6221
    },
    {
      "epoch": 0.796416,
      "grad_norm": 0.4035503566265106,
      "learning_rate": 0.0001047738772436575,
      "loss": 2.4644,
      "step": 6222
    },
    {
      "epoch": 0.796544,
      "grad_norm": 0.36941593885421753,
      "learning_rate": 0.00010464692825338585,
      "loss": 2.6585,
      "step": 6223
    },
    {
      "epoch": 0.796672,
      "grad_norm": 0.37460967898368835,
      "learning_rate": 0.00010452004722889069,
      "loss": 2.6699,
      "step": 6224
    },
    {
      "epoch": 0.7968,
      "grad_norm": 0.40685027837753296,
      "learning_rate": 0.00010439323419198421,
      "loss": 2.5465,
      "step": 6225
    },
    {
      "epoch": 0.796928,
      "grad_norm": 0.43590909242630005,
      "learning_rate": 0.0001042664891644669,
      "loss": 2.5428,
      "step": 6226
    },
    {
      "epoch": 0.797056,
      "grad_norm": 0.38280388712882996,
      "learning_rate": 0.00010413981216812801,
      "loss": 2.6404,
      "step": 6227
    },
    {
      "epoch": 0.797184,
      "grad_norm": 0.3954419493675232,
      "learning_rate": 0.00010401320322474456,
      "loss": 2.5058,
      "step": 6228
    },
    {
      "epoch": 0.797312,
      "grad_norm": 0.37866508960723877,
      "learning_rate": 0.00010388666235608219,
      "loss": 2.5576,
      "step": 6229
    },
    {
      "epoch": 0.79744,
      "grad_norm": 0.3794862926006317,
      "learning_rate": 0.00010376018958389472,
      "loss": 2.5741,
      "step": 6230
    },
    {
      "epoch": 0.797568,
      "grad_norm": 0.3831784725189209,
      "learning_rate": 0.00010363378492992409,
      "loss": 2.5847,
      "step": 6231
    },
    {
      "epoch": 0.797696,
      "grad_norm": 0.38842764496803284,
      "learning_rate": 0.00010350744841590103,
      "loss": 2.5418,
      "step": 6232
    },
    {
      "epoch": 0.797824,
      "grad_norm": 0.4085799753665924,
      "learning_rate": 0.00010338118006354413,
      "loss": 2.584,
      "step": 6233
    },
    {
      "epoch": 0.797952,
      "grad_norm": 0.4901517927646637,
      "learning_rate": 0.0001032549798945604,
      "loss": 2.6082,
      "step": 6234
    },
    {
      "epoch": 0.79808,
      "grad_norm": 0.38814499974250793,
      "learning_rate": 0.00010312884793064492,
      "loss": 2.5646,
      "step": 6235
    },
    {
      "epoch": 0.798208,
      "grad_norm": 0.406539648771286,
      "learning_rate": 0.00010300278419348158,
      "loss": 2.6226,
      "step": 6236
    },
    {
      "epoch": 0.798336,
      "grad_norm": 0.4094150960445404,
      "learning_rate": 0.00010287678870474199,
      "loss": 2.6432,
      "step": 6237
    },
    {
      "epoch": 0.798464,
      "grad_norm": 0.3855496346950531,
      "learning_rate": 0.00010275086148608614,
      "loss": 2.688,
      "step": 6238
    },
    {
      "epoch": 0.798592,
      "grad_norm": 0.3895672559738159,
      "learning_rate": 0.00010262500255916268,
      "loss": 2.4836,
      "step": 6239
    },
    {
      "epoch": 0.79872,
      "grad_norm": 0.42413321137428284,
      "learning_rate": 0.00010249921194560802,
      "loss": 2.5746,
      "step": 6240
    },
    {
      "epoch": 0.798848,
      "grad_norm": 0.39275190234184265,
      "learning_rate": 0.00010237348966704707,
      "loss": 2.6111,
      "step": 6241
    },
    {
      "epoch": 0.798976,
      "grad_norm": 0.3878564238548279,
      "learning_rate": 0.0001022478357450929,
      "loss": 2.5803,
      "step": 6242
    },
    {
      "epoch": 0.799104,
      "grad_norm": 0.3868741989135742,
      "learning_rate": 0.00010212225020134691,
      "loss": 2.5341,
      "step": 6243
    },
    {
      "epoch": 0.799232,
      "grad_norm": 0.4016956686973572,
      "learning_rate": 0.00010199673305739853,
      "loss": 2.5634,
      "step": 6244
    },
    {
      "epoch": 0.79936,
      "grad_norm": 0.428667277097702,
      "learning_rate": 0.000101871284334826,
      "loss": 2.6923,
      "step": 6245
    },
    {
      "epoch": 0.799488,
      "grad_norm": 0.3650006353855133,
      "learning_rate": 0.00010174590405519501,
      "loss": 2.6391,
      "step": 6246
    },
    {
      "epoch": 0.799616,
      "grad_norm": 0.39936789870262146,
      "learning_rate": 0.00010162059224006026,
      "loss": 2.544,
      "step": 6247
    },
    {
      "epoch": 0.799744,
      "grad_norm": 0.3925209641456604,
      "learning_rate": 0.00010149534891096408,
      "loss": 2.641,
      "step": 6248
    },
    {
      "epoch": 0.799872,
      "grad_norm": 0.3680185377597809,
      "learning_rate": 0.00010137017408943727,
      "loss": 2.5773,
      "step": 6249
    },
    {
      "epoch": 0.8,
      "grad_norm": 0.4085367023944855,
      "learning_rate": 0.00010124506779699882,
      "loss": 2.5112,
      "step": 6250
    },
    {
      "epoch": 0.800128,
      "grad_norm": 0.39865854382514954,
      "learning_rate": 0.00010112003005515602,
      "loss": 2.5732,
      "step": 6251
    },
    {
      "epoch": 0.800256,
      "grad_norm": 0.39608728885650635,
      "learning_rate": 0.00010099506088540417,
      "loss": 2.597,
      "step": 6252
    },
    {
      "epoch": 0.800384,
      "grad_norm": 0.4119396209716797,
      "learning_rate": 0.00010087016030922708,
      "loss": 2.548,
      "step": 6253
    },
    {
      "epoch": 0.800512,
      "grad_norm": 0.4505084753036499,
      "learning_rate": 0.00010074532834809646,
      "loss": 2.4615,
      "step": 6254
    },
    {
      "epoch": 0.80064,
      "grad_norm": 0.39694884419441223,
      "learning_rate": 0.00010062056502347256,
      "loss": 2.4368,
      "step": 6255
    },
    {
      "epoch": 0.800768,
      "grad_norm": 0.40424779057502747,
      "learning_rate": 0.00010049587035680352,
      "loss": 2.5515,
      "step": 6256
    },
    {
      "epoch": 0.800896,
      "grad_norm": 0.3842284083366394,
      "learning_rate": 0.00010037124436952588,
      "loss": 2.5349,
      "step": 6257
    },
    {
      "epoch": 0.801024,
      "grad_norm": 0.41189044713974,
      "learning_rate": 0.00010024668708306417,
      "loss": 2.5084,
      "step": 6258
    },
    {
      "epoch": 0.801152,
      "grad_norm": 0.3950992226600647,
      "learning_rate": 0.0001001221985188312,
      "loss": 2.6524,
      "step": 6259
    },
    {
      "epoch": 0.80128,
      "grad_norm": 0.47002071142196655,
      "learning_rate": 9.999777869822818e-05,
      "loss": 2.5027,
      "step": 6260
    },
    {
      "epoch": 0.801408,
      "grad_norm": 0.39630550146102905,
      "learning_rate": 9.987342764264423e-05,
      "loss": 2.5255,
      "step": 6261
    },
    {
      "epoch": 0.801536,
      "grad_norm": 0.4877803325653076,
      "learning_rate": 9.974914537345675e-05,
      "loss": 2.6278,
      "step": 6262
    },
    {
      "epoch": 0.801664,
      "grad_norm": 0.4001651704311371,
      "learning_rate": 9.96249319120311e-05,
      "loss": 2.5518,
      "step": 6263
    },
    {
      "epoch": 0.801792,
      "grad_norm": 0.3801552355289459,
      "learning_rate": 9.950078727972139e-05,
      "loss": 2.5712,
      "step": 6264
    },
    {
      "epoch": 0.80192,
      "grad_norm": 0.40551725029945374,
      "learning_rate": 9.937671149786931e-05,
      "loss": 2.5596,
      "step": 6265
    },
    {
      "epoch": 0.802048,
      "grad_norm": 0.39892300963401794,
      "learning_rate": 9.925270458780495e-05,
      "loss": 2.7147,
      "step": 6266
    },
    {
      "epoch": 0.802176,
      "grad_norm": 0.37875697016716003,
      "learning_rate": 9.912876657084641e-05,
      "loss": 2.6092,
      "step": 6267
    },
    {
      "epoch": 0.802304,
      "grad_norm": 0.3925507068634033,
      "learning_rate": 9.900489746830032e-05,
      "loss": 2.5242,
      "step": 6268
    },
    {
      "epoch": 0.802432,
      "grad_norm": 0.6346306204795837,
      "learning_rate": 9.888109730146111e-05,
      "loss": 2.5541,
      "step": 6269
    },
    {
      "epoch": 0.80256,
      "grad_norm": 0.39477238059043884,
      "learning_rate": 9.87573660916114e-05,
      "loss": 2.5716,
      "step": 6270
    },
    {
      "epoch": 0.802688,
      "grad_norm": 0.4085586965084076,
      "learning_rate": 9.863370386002212e-05,
      "loss": 2.5452,
      "step": 6271
    },
    {
      "epoch": 0.802816,
      "grad_norm": 0.3922334313392639,
      "learning_rate": 9.851011062795201e-05,
      "loss": 2.6369,
      "step": 6272
    },
    {
      "epoch": 0.802944,
      "grad_norm": 0.4612291157245636,
      "learning_rate": 9.838658641664849e-05,
      "loss": 2.6573,
      "step": 6273
    },
    {
      "epoch": 0.803072,
      "grad_norm": 0.48755547404289246,
      "learning_rate": 9.826313124734653e-05,
      "loss": 2.6397,
      "step": 6274
    },
    {
      "epoch": 0.8032,
      "grad_norm": 0.4194433093070984,
      "learning_rate": 9.813974514126978e-05,
      "loss": 2.5901,
      "step": 6275
    },
    {
      "epoch": 0.803328,
      "grad_norm": 0.35901737213134766,
      "learning_rate": 9.801642811962964e-05,
      "loss": 2.573,
      "step": 6276
    },
    {
      "epoch": 0.803456,
      "grad_norm": 0.39578285813331604,
      "learning_rate": 9.789318020362564e-05,
      "loss": 2.479,
      "step": 6277
    },
    {
      "epoch": 0.803584,
      "grad_norm": 1.1056567430496216,
      "learning_rate": 9.777000141444564e-05,
      "loss": 2.5473,
      "step": 6278
    },
    {
      "epoch": 0.803712,
      "grad_norm": 0.3808409869670868,
      "learning_rate": 9.764689177326541e-05,
      "loss": 2.5325,
      "step": 6279
    },
    {
      "epoch": 0.80384,
      "grad_norm": 0.3891819715499878,
      "learning_rate": 9.75238513012488e-05,
      "loss": 2.5175,
      "step": 6280
    },
    {
      "epoch": 0.803968,
      "grad_norm": 0.36956146359443665,
      "learning_rate": 9.740088001954811e-05,
      "loss": 2.4737,
      "step": 6281
    },
    {
      "epoch": 0.804096,
      "grad_norm": 0.37530097365379333,
      "learning_rate": 9.72779779493036e-05,
      "loss": 2.4038,
      "step": 6282
    },
    {
      "epoch": 0.804224,
      "grad_norm": 0.4075949192047119,
      "learning_rate": 9.715514511164342e-05,
      "loss": 2.4731,
      "step": 6283
    },
    {
      "epoch": 0.804352,
      "grad_norm": 0.3944627046585083,
      "learning_rate": 9.703238152768401e-05,
      "loss": 2.586,
      "step": 6284
    },
    {
      "epoch": 0.80448,
      "grad_norm": 0.3832690417766571,
      "learning_rate": 9.690968721852978e-05,
      "loss": 2.5467,
      "step": 6285
    },
    {
      "epoch": 0.804608,
      "grad_norm": 0.39176511764526367,
      "learning_rate": 9.678706220527333e-05,
      "loss": 2.5999,
      "step": 6286
    },
    {
      "epoch": 0.804736,
      "grad_norm": 0.4265025556087494,
      "learning_rate": 9.666450650899533e-05,
      "loss": 2.568,
      "step": 6287
    },
    {
      "epoch": 0.804864,
      "grad_norm": 0.4080192744731903,
      "learning_rate": 9.654202015076441e-05,
      "loss": 2.4443,
      "step": 6288
    },
    {
      "epoch": 0.804992,
      "grad_norm": 0.4362420439720154,
      "learning_rate": 9.641960315163767e-05,
      "loss": 2.4955,
      "step": 6289
    },
    {
      "epoch": 0.80512,
      "grad_norm": 0.453792005777359,
      "learning_rate": 9.629725553265983e-05,
      "loss": 2.7229,
      "step": 6290
    },
    {
      "epoch": 0.805248,
      "grad_norm": 0.3896945118904114,
      "learning_rate": 9.617497731486374e-05,
      "loss": 2.5892,
      "step": 6291
    },
    {
      "epoch": 0.805376,
      "grad_norm": 0.4190901517868042,
      "learning_rate": 9.605276851927075e-05,
      "loss": 2.5573,
      "step": 6292
    },
    {
      "epoch": 0.805504,
      "grad_norm": 0.39081844687461853,
      "learning_rate": 9.593062916688982e-05,
      "loss": 2.5601,
      "step": 6293
    },
    {
      "epoch": 0.805632,
      "grad_norm": 0.39836248755455017,
      "learning_rate": 9.580855927871807e-05,
      "loss": 2.5451,
      "step": 6294
    },
    {
      "epoch": 0.80576,
      "grad_norm": 0.4333342909812927,
      "learning_rate": 9.568655887574068e-05,
      "loss": 2.5568,
      "step": 6295
    },
    {
      "epoch": 0.805888,
      "grad_norm": 0.4042402505874634,
      "learning_rate": 9.556462797893111e-05,
      "loss": 2.5539,
      "step": 6296
    },
    {
      "epoch": 0.806016,
      "grad_norm": 0.3755236268043518,
      "learning_rate": 9.544276660925066e-05,
      "loss": 2.4013,
      "step": 6297
    },
    {
      "epoch": 0.806144,
      "grad_norm": 0.36913952231407166,
      "learning_rate": 9.532097478764862e-05,
      "loss": 2.5901,
      "step": 6298
    },
    {
      "epoch": 0.806272,
      "grad_norm": 0.40492841601371765,
      "learning_rate": 9.519925253506245e-05,
      "loss": 2.5843,
      "step": 6299
    },
    {
      "epoch": 0.8064,
      "grad_norm": 0.4565476179122925,
      "learning_rate": 9.507759987241754e-05,
      "loss": 2.5058,
      "step": 6300
    },
    {
      "epoch": 0.806528,
      "grad_norm": 0.40643230080604553,
      "learning_rate": 9.495601682062755e-05,
      "loss": 2.4254,
      "step": 6301
    },
    {
      "epoch": 0.806656,
      "grad_norm": 0.4157933294773102,
      "learning_rate": 9.483450340059385e-05,
      "loss": 2.5829,
      "step": 6302
    },
    {
      "epoch": 0.806784,
      "grad_norm": 0.3887494206428528,
      "learning_rate": 9.47130596332062e-05,
      "loss": 2.6079,
      "step": 6303
    },
    {
      "epoch": 0.806912,
      "grad_norm": 0.43598610162734985,
      "learning_rate": 9.459168553934211e-05,
      "loss": 2.5372,
      "step": 6304
    },
    {
      "epoch": 0.80704,
      "grad_norm": 0.37272441387176514,
      "learning_rate": 9.447038113986717e-05,
      "loss": 2.5584,
      "step": 6305
    },
    {
      "epoch": 0.807168,
      "grad_norm": 0.3733181655406952,
      "learning_rate": 9.434914645563497e-05,
      "loss": 2.5476,
      "step": 6306
    },
    {
      "epoch": 0.807296,
      "grad_norm": 0.44270163774490356,
      "learning_rate": 9.422798150748724e-05,
      "loss": 2.4856,
      "step": 6307
    },
    {
      "epoch": 0.807424,
      "grad_norm": 0.39583271741867065,
      "learning_rate": 9.410688631625364e-05,
      "loss": 2.5287,
      "step": 6308
    },
    {
      "epoch": 0.807552,
      "grad_norm": 0.3998943269252777,
      "learning_rate": 9.398586090275164e-05,
      "loss": 2.6022,
      "step": 6309
    },
    {
      "epoch": 0.80768,
      "grad_norm": 0.5322986245155334,
      "learning_rate": 9.386490528778702e-05,
      "loss": 2.6466,
      "step": 6310
    },
    {
      "epoch": 0.807808,
      "grad_norm": 0.460499107837677,
      "learning_rate": 9.374401949215366e-05,
      "loss": 2.6085,
      "step": 6311
    },
    {
      "epoch": 0.807936,
      "grad_norm": 0.3908778429031372,
      "learning_rate": 9.362320353663311e-05,
      "loss": 2.7117,
      "step": 6312
    },
    {
      "epoch": 0.808064,
      "grad_norm": 0.3851899802684784,
      "learning_rate": 9.350245744199498e-05,
      "loss": 2.586,
      "step": 6313
    },
    {
      "epoch": 0.808192,
      "grad_norm": 0.3927711844444275,
      "learning_rate": 9.338178122899693e-05,
      "loss": 2.4915,
      "step": 6314
    },
    {
      "epoch": 0.80832,
      "grad_norm": 0.3874776065349579,
      "learning_rate": 9.32611749183846e-05,
      "loss": 2.5962,
      "step": 6315
    },
    {
      "epoch": 0.808448,
      "grad_norm": 0.38888412714004517,
      "learning_rate": 9.31406385308915e-05,
      "loss": 2.5738,
      "step": 6316
    },
    {
      "epoch": 0.808576,
      "grad_norm": 0.3984018862247467,
      "learning_rate": 9.30201720872395e-05,
      "loss": 2.5646,
      "step": 6317
    },
    {
      "epoch": 0.808704,
      "grad_norm": 0.39250972867012024,
      "learning_rate": 9.289977560813789e-05,
      "loss": 2.604,
      "step": 6318
    },
    {
      "epoch": 0.808832,
      "grad_norm": 0.4066731631755829,
      "learning_rate": 9.277944911428449e-05,
      "loss": 2.5294,
      "step": 6319
    },
    {
      "epoch": 0.80896,
      "grad_norm": 0.8747950196266174,
      "learning_rate": 9.265919262636468e-05,
      "loss": 2.4993,
      "step": 6320
    },
    {
      "epoch": 0.809088,
      "grad_norm": 0.38246819376945496,
      "learning_rate": 9.2539006165052e-05,
      "loss": 2.4984,
      "step": 6321
    },
    {
      "epoch": 0.809216,
      "grad_norm": 0.3808809816837311,
      "learning_rate": 9.241888975100782e-05,
      "loss": 2.6334,
      "step": 6322
    },
    {
      "epoch": 0.809344,
      "grad_norm": 0.5595786571502686,
      "learning_rate": 9.229884340488149e-05,
      "loss": 2.5074,
      "step": 6323
    },
    {
      "epoch": 0.809472,
      "grad_norm": 0.37665536999702454,
      "learning_rate": 9.217886714731055e-05,
      "loss": 2.5083,
      "step": 6324
    },
    {
      "epoch": 0.8096,
      "grad_norm": 0.3714749813079834,
      "learning_rate": 9.205896099892019e-05,
      "loss": 2.5715,
      "step": 6325
    },
    {
      "epoch": 0.809728,
      "grad_norm": 0.36657723784446716,
      "learning_rate": 9.193912498032375e-05,
      "loss": 2.4993,
      "step": 6326
    },
    {
      "epoch": 0.809856,
      "grad_norm": 0.36716580390930176,
      "learning_rate": 9.18193591121223e-05,
      "loss": 2.4645,
      "step": 6327
    },
    {
      "epoch": 0.809984,
      "grad_norm": 0.5298700928688049,
      "learning_rate": 9.169966341490499e-05,
      "loss": 2.4752,
      "step": 6328
    },
    {
      "epoch": 0.810112,
      "grad_norm": 0.38663768768310547,
      "learning_rate": 9.158003790924906e-05,
      "loss": 2.5416,
      "step": 6329
    },
    {
      "epoch": 0.81024,
      "grad_norm": 0.38594484329223633,
      "learning_rate": 9.146048261571944e-05,
      "loss": 2.4736,
      "step": 6330
    },
    {
      "epoch": 0.810368,
      "grad_norm": 0.4380229711532593,
      "learning_rate": 9.134099755486891e-05,
      "loss": 2.4895,
      "step": 6331
    },
    {
      "epoch": 0.810496,
      "grad_norm": 0.36818376183509827,
      "learning_rate": 9.122158274723863e-05,
      "loss": 2.5369,
      "step": 6332
    },
    {
      "epoch": 0.810624,
      "grad_norm": 0.43283993005752563,
      "learning_rate": 9.110223821335723e-05,
      "loss": 2.7278,
      "step": 6333
    },
    {
      "epoch": 0.810752,
      "grad_norm": 0.3563145101070404,
      "learning_rate": 9.098296397374145e-05,
      "loss": 2.405,
      "step": 6334
    },
    {
      "epoch": 0.81088,
      "grad_norm": 0.41253861784935,
      "learning_rate": 9.08637600488959e-05,
      "loss": 2.5778,
      "step": 6335
    },
    {
      "epoch": 0.811008,
      "grad_norm": 0.3958798348903656,
      "learning_rate": 9.074462645931308e-05,
      "loss": 2.6149,
      "step": 6336
    },
    {
      "epoch": 0.811136,
      "grad_norm": 0.39410683512687683,
      "learning_rate": 9.062556322547333e-05,
      "loss": 2.5341,
      "step": 6337
    },
    {
      "epoch": 0.811264,
      "grad_norm": 0.3917441666126251,
      "learning_rate": 9.050657036784515e-05,
      "loss": 2.6799,
      "step": 6338
    },
    {
      "epoch": 0.811392,
      "grad_norm": 0.38141143321990967,
      "learning_rate": 9.038764790688492e-05,
      "loss": 2.5334,
      "step": 6339
    },
    {
      "epoch": 0.81152,
      "grad_norm": 0.8087455630302429,
      "learning_rate": 9.026879586303666e-05,
      "loss": 2.6025,
      "step": 6340
    },
    {
      "epoch": 0.811648,
      "grad_norm": 0.3854726254940033,
      "learning_rate": 9.015001425673241e-05,
      "loss": 2.5472,
      "step": 6341
    },
    {
      "epoch": 0.811776,
      "grad_norm": 0.4656709134578705,
      "learning_rate": 9.003130310839203e-05,
      "loss": 2.5965,
      "step": 6342
    },
    {
      "epoch": 0.811904,
      "grad_norm": 0.3847145140171051,
      "learning_rate": 8.99126624384235e-05,
      "loss": 2.5734,
      "step": 6343
    },
    {
      "epoch": 0.812032,
      "grad_norm": 0.4125174582004547,
      "learning_rate": 8.979409226722224e-05,
      "loss": 2.6399,
      "step": 6344
    },
    {
      "epoch": 0.81216,
      "grad_norm": 0.44061318039894104,
      "learning_rate": 8.967559261517217e-05,
      "loss": 2.6649,
      "step": 6345
    },
    {
      "epoch": 0.812288,
      "grad_norm": 0.3889697194099426,
      "learning_rate": 8.955716350264454e-05,
      "loss": 2.4562,
      "step": 6346
    },
    {
      "epoch": 0.812416,
      "grad_norm": 0.4210643768310547,
      "learning_rate": 8.943880494999885e-05,
      "loss": 2.5094,
      "step": 6347
    },
    {
      "epoch": 0.812544,
      "grad_norm": 0.38959869742393494,
      "learning_rate": 8.932051697758225e-05,
      "loss": 2.5869,
      "step": 6348
    },
    {
      "epoch": 0.812672,
      "grad_norm": 0.4337475895881653,
      "learning_rate": 8.920229960572973e-05,
      "loss": 2.6103,
      "step": 6349
    },
    {
      "epoch": 0.8128,
      "grad_norm": 0.4164142310619354,
      "learning_rate": 8.908415285476434e-05,
      "loss": 2.5059,
      "step": 6350
    },
    {
      "epoch": 0.812928,
      "grad_norm": 0.39127102494239807,
      "learning_rate": 8.896607674499679e-05,
      "loss": 2.6113,
      "step": 6351
    },
    {
      "epoch": 0.813056,
      "grad_norm": 0.42339831590652466,
      "learning_rate": 8.884807129672567e-05,
      "loss": 2.5645,
      "step": 6352
    },
    {
      "epoch": 0.813184,
      "grad_norm": 0.3728557825088501,
      "learning_rate": 8.873013653023765e-05,
      "loss": 2.5783,
      "step": 6353
    },
    {
      "epoch": 0.813312,
      "grad_norm": 0.3896535336971283,
      "learning_rate": 8.861227246580705e-05,
      "loss": 2.5461,
      "step": 6354
    },
    {
      "epoch": 0.81344,
      "grad_norm": 0.41025179624557495,
      "learning_rate": 8.84944791236959e-05,
      "loss": 2.5305,
      "step": 6355
    },
    {
      "epoch": 0.813568,
      "grad_norm": 0.38025808334350586,
      "learning_rate": 8.83767565241545e-05,
      "loss": 2.5869,
      "step": 6356
    },
    {
      "epoch": 0.813696,
      "grad_norm": 0.40759626030921936,
      "learning_rate": 8.82591046874206e-05,
      "loss": 2.6002,
      "step": 6357
    },
    {
      "epoch": 0.813824,
      "grad_norm": 0.4038481116294861,
      "learning_rate": 8.814152363371992e-05,
      "loss": 2.4807,
      "step": 6358
    },
    {
      "epoch": 0.813952,
      "grad_norm": 0.3973208963871002,
      "learning_rate": 8.802401338326582e-05,
      "loss": 2.6416,
      "step": 6359
    },
    {
      "epoch": 0.81408,
      "grad_norm": 0.38109710812568665,
      "learning_rate": 8.790657395626001e-05,
      "loss": 2.5122,
      "step": 6360
    },
    {
      "epoch": 0.814208,
      "grad_norm": 0.4106035530567169,
      "learning_rate": 8.778920537289154e-05,
      "loss": 2.5566,
      "step": 6361
    },
    {
      "epoch": 0.814336,
      "grad_norm": 0.42399492859840393,
      "learning_rate": 8.767190765333744e-05,
      "loss": 2.4903,
      "step": 6362
    },
    {
      "epoch": 0.814464,
      "grad_norm": 0.38566872477531433,
      "learning_rate": 8.755468081776253e-05,
      "loss": 2.5884,
      "step": 6363
    },
    {
      "epoch": 0.814592,
      "grad_norm": 0.4337179362773895,
      "learning_rate": 8.743752488631945e-05,
      "loss": 2.6251,
      "step": 6364
    },
    {
      "epoch": 0.81472,
      "grad_norm": 0.38233616948127747,
      "learning_rate": 8.732043987914857e-05,
      "loss": 2.5513,
      "step": 6365
    },
    {
      "epoch": 0.814848,
      "grad_norm": 0.38738593459129333,
      "learning_rate": 8.720342581637836e-05,
      "loss": 2.5939,
      "step": 6366
    },
    {
      "epoch": 0.814976,
      "grad_norm": 0.3987913727760315,
      "learning_rate": 8.70864827181247e-05,
      "loss": 2.5498,
      "step": 6367
    },
    {
      "epoch": 0.815104,
      "grad_norm": 0.37919825315475464,
      "learning_rate": 8.696961060449165e-05,
      "loss": 2.5734,
      "step": 6368
    },
    {
      "epoch": 0.815232,
      "grad_norm": 0.3750073313713074,
      "learning_rate": 8.685280949557084e-05,
      "loss": 2.5333,
      "step": 6369
    },
    {
      "epoch": 0.81536,
      "grad_norm": 0.3660694658756256,
      "learning_rate": 8.673607941144169e-05,
      "loss": 2.5839,
      "step": 6370
    },
    {
      "epoch": 0.815488,
      "grad_norm": 0.37814101576805115,
      "learning_rate": 8.66194203721714e-05,
      "loss": 2.56,
      "step": 6371
    },
    {
      "epoch": 0.815616,
      "grad_norm": 0.41365471482276917,
      "learning_rate": 8.650283239781515e-05,
      "loss": 2.5826,
      "step": 6372
    },
    {
      "epoch": 0.815744,
      "grad_norm": 0.3970610201358795,
      "learning_rate": 8.638631550841552e-05,
      "loss": 2.5147,
      "step": 6373
    },
    {
      "epoch": 0.815872,
      "grad_norm": 0.4100024104118347,
      "learning_rate": 8.626986972400325e-05,
      "loss": 2.5053,
      "step": 6374
    },
    {
      "epoch": 0.816,
      "grad_norm": 0.4000881314277649,
      "learning_rate": 8.615349506459692e-05,
      "loss": 2.6779,
      "step": 6375
    },
    {
      "epoch": 0.816128,
      "grad_norm": 0.3912695348262787,
      "learning_rate": 8.603719155020246e-05,
      "loss": 2.4826,
      "step": 6376
    },
    {
      "epoch": 0.816256,
      "grad_norm": 0.3868168890476227,
      "learning_rate": 8.592095920081383e-05,
      "loss": 2.6079,
      "step": 6377
    },
    {
      "epoch": 0.816384,
      "grad_norm": 0.3918824791908264,
      "learning_rate": 8.580479803641278e-05,
      "loss": 2.5766,
      "step": 6378
    },
    {
      "epoch": 0.816512,
      "grad_norm": 0.4857405722141266,
      "learning_rate": 8.568870807696872e-05,
      "loss": 2.5395,
      "step": 6379
    },
    {
      "epoch": 0.81664,
      "grad_norm": 0.37095901370048523,
      "learning_rate": 8.557268934243867e-05,
      "loss": 2.4975,
      "step": 6380
    },
    {
      "epoch": 0.816768,
      "grad_norm": 0.4404434263706207,
      "learning_rate": 8.545674185276791e-05,
      "loss": 2.524,
      "step": 6381
    },
    {
      "epoch": 0.816896,
      "grad_norm": 0.39639341831207275,
      "learning_rate": 8.534086562788906e-05,
      "loss": 2.6048,
      "step": 6382
    },
    {
      "epoch": 0.817024,
      "grad_norm": 0.421059250831604,
      "learning_rate": 8.52250606877224e-05,
      "loss": 2.6198,
      "step": 6383
    },
    {
      "epoch": 0.817152,
      "grad_norm": 0.38708823919296265,
      "learning_rate": 8.510932705217644e-05,
      "loss": 2.5849,
      "step": 6384
    },
    {
      "epoch": 0.81728,
      "grad_norm": 0.4283663034439087,
      "learning_rate": 8.499366474114695e-05,
      "loss": 2.5846,
      "step": 6385
    },
    {
      "epoch": 0.817408,
      "grad_norm": 0.40814995765686035,
      "learning_rate": 8.487807377451767e-05,
      "loss": 2.4727,
      "step": 6386
    },
    {
      "epoch": 0.817536,
      "grad_norm": 0.39768463373184204,
      "learning_rate": 8.476255417216005e-05,
      "loss": 2.5043,
      "step": 6387
    },
    {
      "epoch": 0.817664,
      "grad_norm": 0.3902084529399872,
      "learning_rate": 8.464710595393305e-05,
      "loss": 2.6285,
      "step": 6388
    },
    {
      "epoch": 0.817792,
      "grad_norm": 0.3884124159812927,
      "learning_rate": 8.453172913968382e-05,
      "loss": 2.4962,
      "step": 6389
    },
    {
      "epoch": 0.81792,
      "grad_norm": 0.4201620817184448,
      "learning_rate": 8.44164237492469e-05,
      "loss": 2.4449,
      "step": 6390
    },
    {
      "epoch": 0.818048,
      "grad_norm": 0.40589195489883423,
      "learning_rate": 8.430118980244461e-05,
      "loss": 2.5551,
      "step": 6391
    },
    {
      "epoch": 0.818176,
      "grad_norm": 0.357145756483078,
      "learning_rate": 8.418602731908686e-05,
      "loss": 2.4744,
      "step": 6392
    },
    {
      "epoch": 0.818304,
      "grad_norm": 0.3870585858821869,
      "learning_rate": 8.407093631897167e-05,
      "loss": 2.5806,
      "step": 6393
    },
    {
      "epoch": 0.818432,
      "grad_norm": 0.40104496479034424,
      "learning_rate": 8.395591682188442e-05,
      "loss": 2.5192,
      "step": 6394
    },
    {
      "epoch": 0.81856,
      "grad_norm": 0.42577239871025085,
      "learning_rate": 8.384096884759807e-05,
      "loss": 2.624,
      "step": 6395
    },
    {
      "epoch": 0.818688,
      "grad_norm": 0.5543811321258545,
      "learning_rate": 8.372609241587387e-05,
      "loss": 2.6016,
      "step": 6396
    },
    {
      "epoch": 0.818816,
      "grad_norm": 0.4260064959526062,
      "learning_rate": 8.361128754646024e-05,
      "loss": 2.4895,
      "step": 6397
    },
    {
      "epoch": 0.818944,
      "grad_norm": 0.3990871012210846,
      "learning_rate": 8.349655425909347e-05,
      "loss": 2.6658,
      "step": 6398
    },
    {
      "epoch": 0.819072,
      "grad_norm": 0.3942708969116211,
      "learning_rate": 8.338189257349754e-05,
      "loss": 2.5178,
      "step": 6399
    },
    {
      "epoch": 0.8192,
      "grad_norm": 0.5614782571792603,
      "learning_rate": 8.326730250938413e-05,
      "loss": 2.4768,
      "step": 6400
    },
    {
      "epoch": 0.819328,
      "grad_norm": 0.4374313950538635,
      "learning_rate": 8.31527840864525e-05,
      "loss": 2.6227,
      "step": 6401
    },
    {
      "epoch": 0.819456,
      "grad_norm": 0.4233798384666443,
      "learning_rate": 8.303833732438987e-05,
      "loss": 2.56,
      "step": 6402
    },
    {
      "epoch": 0.819584,
      "grad_norm": 0.3693216145038605,
      "learning_rate": 8.29239622428708e-05,
      "loss": 2.5842,
      "step": 6403
    },
    {
      "epoch": 0.819712,
      "grad_norm": 0.44926050305366516,
      "learning_rate": 8.28096588615579e-05,
      "loss": 2.6235,
      "step": 6404
    },
    {
      "epoch": 0.81984,
      "grad_norm": 0.6171140074729919,
      "learning_rate": 8.269542720010109e-05,
      "loss": 2.4496,
      "step": 6405
    },
    {
      "epoch": 0.819968,
      "grad_norm": 0.37956327199935913,
      "learning_rate": 8.25812672781382e-05,
      "loss": 2.5566,
      "step": 6406
    },
    {
      "epoch": 0.820096,
      "grad_norm": 0.41007199883461,
      "learning_rate": 8.246717911529456e-05,
      "loss": 2.6215,
      "step": 6407
    },
    {
      "epoch": 0.820224,
      "grad_norm": 0.43121451139450073,
      "learning_rate": 8.235316273118332e-05,
      "loss": 2.5385,
      "step": 6408
    },
    {
      "epoch": 0.820352,
      "grad_norm": 0.39916619658470154,
      "learning_rate": 8.223921814540503e-05,
      "loss": 2.5078,
      "step": 6409
    },
    {
      "epoch": 0.82048,
      "grad_norm": 0.3868831694126129,
      "learning_rate": 8.21253453775484e-05,
      "loss": 2.4869,
      "step": 6410
    },
    {
      "epoch": 0.820608,
      "grad_norm": 0.3920459747314453,
      "learning_rate": 8.201154444718917e-05,
      "loss": 2.5771,
      "step": 6411
    },
    {
      "epoch": 0.820736,
      "grad_norm": 0.4410586655139923,
      "learning_rate": 8.189781537389135e-05,
      "loss": 2.6103,
      "step": 6412
    },
    {
      "epoch": 0.820864,
      "grad_norm": 0.391093373298645,
      "learning_rate": 8.178415817720608e-05,
      "loss": 2.5525,
      "step": 6413
    },
    {
      "epoch": 0.820992,
      "grad_norm": 0.36809760332107544,
      "learning_rate": 8.16705728766724e-05,
      "loss": 2.6056,
      "step": 6414
    },
    {
      "epoch": 0.82112,
      "grad_norm": 0.44771328568458557,
      "learning_rate": 8.155705949181691e-05,
      "loss": 2.5779,
      "step": 6415
    },
    {
      "epoch": 0.821248,
      "grad_norm": 0.39404842257499695,
      "learning_rate": 8.144361804215383e-05,
      "loss": 2.6007,
      "step": 6416
    },
    {
      "epoch": 0.821376,
      "grad_norm": 0.3982692360877991,
      "learning_rate": 8.133024854718524e-05,
      "loss": 2.5357,
      "step": 6417
    },
    {
      "epoch": 0.821504,
      "grad_norm": 0.4293438792228699,
      "learning_rate": 8.121695102640054e-05,
      "loss": 2.5624,
      "step": 6418
    },
    {
      "epoch": 0.821632,
      "grad_norm": 0.3919726610183716,
      "learning_rate": 8.110372549927692e-05,
      "loss": 2.4823,
      "step": 6419
    },
    {
      "epoch": 0.82176,
      "grad_norm": 0.38315728306770325,
      "learning_rate": 8.099057198527899e-05,
      "loss": 2.6274,
      "step": 6420
    },
    {
      "epoch": 0.821888,
      "grad_norm": 0.3941376507282257,
      "learning_rate": 8.087749050385951e-05,
      "loss": 2.5453,
      "step": 6421
    },
    {
      "epoch": 0.822016,
      "grad_norm": 0.4126894772052765,
      "learning_rate": 8.076448107445822e-05,
      "loss": 2.5729,
      "step": 6422
    },
    {
      "epoch": 0.822144,
      "grad_norm": 0.39744898676872253,
      "learning_rate": 8.065154371650285e-05,
      "loss": 2.52,
      "step": 6423
    },
    {
      "epoch": 0.822272,
      "grad_norm": 0.5529690384864807,
      "learning_rate": 8.053867844940854e-05,
      "loss": 2.555,
      "step": 6424
    },
    {
      "epoch": 0.8224,
      "grad_norm": 0.409487247467041,
      "learning_rate": 8.042588529257828e-05,
      "loss": 2.6055,
      "step": 6425
    },
    {
      "epoch": 0.822528,
      "grad_norm": 0.4095659554004669,
      "learning_rate": 8.031316426540252e-05,
      "loss": 2.5809,
      "step": 6426
    },
    {
      "epoch": 0.822656,
      "grad_norm": 0.3962004780769348,
      "learning_rate": 8.02005153872592e-05,
      "loss": 2.5147,
      "step": 6427
    },
    {
      "epoch": 0.822784,
      "grad_norm": 0.38238149881362915,
      "learning_rate": 8.008793867751402e-05,
      "loss": 2.4391,
      "step": 6428
    },
    {
      "epoch": 0.822912,
      "grad_norm": 0.4191874861717224,
      "learning_rate": 7.997543415552011e-05,
      "loss": 2.5978,
      "step": 6429
    },
    {
      "epoch": 0.82304,
      "grad_norm": 0.38780078291893005,
      "learning_rate": 7.986300184061856e-05,
      "loss": 2.5658,
      "step": 6430
    },
    {
      "epoch": 0.823168,
      "grad_norm": 0.37620246410369873,
      "learning_rate": 7.975064175213748e-05,
      "loss": 2.614,
      "step": 6431
    },
    {
      "epoch": 0.823296,
      "grad_norm": 0.3876698613166809,
      "learning_rate": 7.963835390939316e-05,
      "loss": 2.5124,
      "step": 6432
    },
    {
      "epoch": 0.823424,
      "grad_norm": 0.3818567395210266,
      "learning_rate": 7.952613833168909e-05,
      "loss": 2.6108,
      "step": 6433
    },
    {
      "epoch": 0.823552,
      "grad_norm": 0.3770030438899994,
      "learning_rate": 7.941399503831637e-05,
      "loss": 2.5237,
      "step": 6434
    },
    {
      "epoch": 0.82368,
      "grad_norm": 0.4434705972671509,
      "learning_rate": 7.930192404855374e-05,
      "loss": 2.4623,
      "step": 6435
    },
    {
      "epoch": 0.823808,
      "grad_norm": 0.40496382117271423,
      "learning_rate": 7.918992538166752e-05,
      "loss": 2.7004,
      "step": 6436
    },
    {
      "epoch": 0.823936,
      "grad_norm": 0.3841484785079956,
      "learning_rate": 7.907799905691143e-05,
      "loss": 2.535,
      "step": 6437
    },
    {
      "epoch": 0.824064,
      "grad_norm": 0.4242137670516968,
      "learning_rate": 7.896614509352723e-05,
      "loss": 2.4899,
      "step": 6438
    },
    {
      "epoch": 0.824192,
      "grad_norm": 0.42379435896873474,
      "learning_rate": 7.885436351074355e-05,
      "loss": 2.5069,
      "step": 6439
    },
    {
      "epoch": 0.82432,
      "grad_norm": 0.406148761510849,
      "learning_rate": 7.874265432777728e-05,
      "loss": 2.5513,
      "step": 6440
    },
    {
      "epoch": 0.824448,
      "grad_norm": 0.37754321098327637,
      "learning_rate": 7.863101756383235e-05,
      "loss": 2.5069,
      "step": 6441
    },
    {
      "epoch": 0.824576,
      "grad_norm": 0.40894815325737,
      "learning_rate": 7.851945323810045e-05,
      "loss": 2.5656,
      "step": 6442
    },
    {
      "epoch": 0.824704,
      "grad_norm": 0.36560171842575073,
      "learning_rate": 7.840796136976075e-05,
      "loss": 2.5145,
      "step": 6443
    },
    {
      "epoch": 0.824832,
      "grad_norm": 0.7399691939353943,
      "learning_rate": 7.829654197797998e-05,
      "loss": 2.5914,
      "step": 6444
    },
    {
      "epoch": 0.82496,
      "grad_norm": 0.38561755418777466,
      "learning_rate": 7.818519508191235e-05,
      "loss": 2.6059,
      "step": 6445
    },
    {
      "epoch": 0.825088,
      "grad_norm": 0.3845807611942291,
      "learning_rate": 7.807392070069991e-05,
      "loss": 2.6303,
      "step": 6446
    },
    {
      "epoch": 0.825216,
      "grad_norm": 0.3862657845020294,
      "learning_rate": 7.796271885347189e-05,
      "loss": 2.5461,
      "step": 6447
    },
    {
      "epoch": 0.825344,
      "grad_norm": 0.3992651104927063,
      "learning_rate": 7.785158955934507e-05,
      "loss": 2.5992,
      "step": 6448
    },
    {
      "epoch": 0.825472,
      "grad_norm": 0.40276798605918884,
      "learning_rate": 7.774053283742406e-05,
      "loss": 2.5314,
      "step": 6449
    },
    {
      "epoch": 0.8256,
      "grad_norm": 0.4120226800441742,
      "learning_rate": 7.762954870680067e-05,
      "loss": 2.6779,
      "step": 6450
    },
    {
      "epoch": 0.825728,
      "grad_norm": 0.36360475420951843,
      "learning_rate": 7.751863718655444e-05,
      "loss": 2.6059,
      "step": 6451
    },
    {
      "epoch": 0.825856,
      "grad_norm": 0.4075411260128021,
      "learning_rate": 7.740779829575217e-05,
      "loss": 2.5959,
      "step": 6452
    },
    {
      "epoch": 0.825984,
      "grad_norm": 0.40567997097969055,
      "learning_rate": 7.729703205344863e-05,
      "loss": 2.6147,
      "step": 6453
    },
    {
      "epoch": 0.826112,
      "grad_norm": 0.3919304311275482,
      "learning_rate": 7.718633847868567e-05,
      "loss": 2.5813,
      "step": 6454
    },
    {
      "epoch": 0.82624,
      "grad_norm": 0.41625896096229553,
      "learning_rate": 7.707571759049281e-05,
      "loss": 2.4979,
      "step": 6455
    },
    {
      "epoch": 0.826368,
      "grad_norm": 0.3780204653739929,
      "learning_rate": 7.6965169407887e-05,
      "loss": 2.5429,
      "step": 6456
    },
    {
      "epoch": 0.826496,
      "grad_norm": 0.3950689435005188,
      "learning_rate": 7.685469394987271e-05,
      "loss": 2.5691,
      "step": 6457
    },
    {
      "epoch": 0.826624,
      "grad_norm": 0.40700504183769226,
      "learning_rate": 7.674429123544218e-05,
      "loss": 2.6381,
      "step": 6458
    },
    {
      "epoch": 0.826752,
      "grad_norm": 0.4085601568222046,
      "learning_rate": 7.66339612835748e-05,
      "loss": 2.5826,
      "step": 6459
    },
    {
      "epoch": 0.82688,
      "grad_norm": 0.39784473180770874,
      "learning_rate": 7.652370411323744e-05,
      "loss": 2.5625,
      "step": 6460
    },
    {
      "epoch": 0.827008,
      "grad_norm": 0.3546987771987915,
      "learning_rate": 7.641351974338478e-05,
      "loss": 2.446,
      "step": 6461
    },
    {
      "epoch": 0.827136,
      "grad_norm": 0.3772108852863312,
      "learning_rate": 7.630340819295878e-05,
      "loss": 2.5606,
      "step": 6462
    },
    {
      "epoch": 0.827264,
      "grad_norm": 0.38751673698425293,
      "learning_rate": 7.619336948088879e-05,
      "loss": 2.5499,
      "step": 6463
    },
    {
      "epoch": 0.827392,
      "grad_norm": 0.37850695848464966,
      "learning_rate": 7.608340362609173e-05,
      "loss": 2.576,
      "step": 6464
    },
    {
      "epoch": 0.82752,
      "grad_norm": 0.4903457462787628,
      "learning_rate": 7.59735106474721e-05,
      "loss": 2.5864,
      "step": 6465
    },
    {
      "epoch": 0.827648,
      "grad_norm": 0.3940274119377136,
      "learning_rate": 7.586369056392161e-05,
      "loss": 2.5133,
      "step": 6466
    },
    {
      "epoch": 0.827776,
      "grad_norm": 0.49830707907676697,
      "learning_rate": 7.575394339431969e-05,
      "loss": 2.6418,
      "step": 6467
    },
    {
      "epoch": 0.827904,
      "grad_norm": 0.41168633103370667,
      "learning_rate": 7.564426915753331e-05,
      "loss": 2.5583,
      "step": 6468
    },
    {
      "epoch": 0.828032,
      "grad_norm": 0.4284299910068512,
      "learning_rate": 7.553466787241664e-05,
      "loss": 2.4881,
      "step": 6469
    },
    {
      "epoch": 0.82816,
      "grad_norm": 0.3796568512916565,
      "learning_rate": 7.542513955781138e-05,
      "loss": 2.5383,
      "step": 6470
    },
    {
      "epoch": 0.828288,
      "grad_norm": 0.45531389117240906,
      "learning_rate": 7.53156842325467e-05,
      "loss": 2.5468,
      "step": 6471
    },
    {
      "epoch": 0.828416,
      "grad_norm": 0.3940180838108063,
      "learning_rate": 7.520630191543932e-05,
      "loss": 2.5646,
      "step": 6472
    },
    {
      "epoch": 0.828544,
      "grad_norm": 0.5592710375785828,
      "learning_rate": 7.509699262529307e-05,
      "loss": 2.6036,
      "step": 6473
    },
    {
      "epoch": 0.828672,
      "grad_norm": 0.4243967533111572,
      "learning_rate": 7.498775638089988e-05,
      "loss": 2.6603,
      "step": 6474
    },
    {
      "epoch": 0.8288,
      "grad_norm": 0.3783019483089447,
      "learning_rate": 7.487859320103846e-05,
      "loss": 2.5157,
      "step": 6475
    },
    {
      "epoch": 0.828928,
      "grad_norm": 0.5181514024734497,
      "learning_rate": 7.476950310447522e-05,
      "loss": 2.5282,
      "step": 6476
    },
    {
      "epoch": 0.829056,
      "grad_norm": 0.3757632076740265,
      "learning_rate": 7.466048610996423e-05,
      "loss": 2.5961,
      "step": 6477
    },
    {
      "epoch": 0.829184,
      "grad_norm": 0.3684888780117035,
      "learning_rate": 7.455154223624661e-05,
      "loss": 2.4924,
      "step": 6478
    },
    {
      "epoch": 0.829312,
      "grad_norm": 0.3991667330265045,
      "learning_rate": 7.444267150205108e-05,
      "loss": 2.5903,
      "step": 6479
    },
    {
      "epoch": 0.82944,
      "grad_norm": 0.3830116391181946,
      "learning_rate": 7.433387392609387e-05,
      "loss": 2.5332,
      "step": 6480
    },
    {
      "epoch": 0.829568,
      "grad_norm": 0.36891311407089233,
      "learning_rate": 7.422514952707832e-05,
      "loss": 2.5892,
      "step": 6481
    },
    {
      "epoch": 0.829696,
      "grad_norm": 0.3888322710990906,
      "learning_rate": 7.411649832369566e-05,
      "loss": 2.5279,
      "step": 6482
    },
    {
      "epoch": 0.829824,
      "grad_norm": 0.3716881275177002,
      "learning_rate": 7.400792033462428e-05,
      "loss": 2.481,
      "step": 6483
    },
    {
      "epoch": 0.829952,
      "grad_norm": 0.4104984402656555,
      "learning_rate": 7.389941557852986e-05,
      "loss": 2.5245,
      "step": 6484
    },
    {
      "epoch": 0.83008,
      "grad_norm": 0.3646942675113678,
      "learning_rate": 7.379098407406553e-05,
      "loss": 2.4747,
      "step": 6485
    },
    {
      "epoch": 0.830208,
      "grad_norm": 0.3563441038131714,
      "learning_rate": 7.368262583987228e-05,
      "loss": 2.5626,
      "step": 6486
    },
    {
      "epoch": 0.830336,
      "grad_norm": 0.40002885460853577,
      "learning_rate": 7.357434089457788e-05,
      "loss": 2.5458,
      "step": 6487
    },
    {
      "epoch": 0.830464,
      "grad_norm": 0.3964262902736664,
      "learning_rate": 7.346612925679775e-05,
      "loss": 2.5078,
      "step": 6488
    },
    {
      "epoch": 0.830592,
      "grad_norm": 0.38285526633262634,
      "learning_rate": 7.33579909451349e-05,
      "loss": 2.6292,
      "step": 6489
    },
    {
      "epoch": 0.83072,
      "grad_norm": 0.39384475350379944,
      "learning_rate": 7.324992597817947e-05,
      "loss": 2.6585,
      "step": 6490
    },
    {
      "epoch": 0.830848,
      "grad_norm": 0.5216955542564392,
      "learning_rate": 7.314193437450912e-05,
      "loss": 2.5512,
      "step": 6491
    },
    {
      "epoch": 0.830976,
      "grad_norm": 0.38770583271980286,
      "learning_rate": 7.303401615268878e-05,
      "loss": 2.5959,
      "step": 6492
    },
    {
      "epoch": 0.831104,
      "grad_norm": 0.3856274485588074,
      "learning_rate": 7.292617133127083e-05,
      "loss": 2.5703,
      "step": 6493
    },
    {
      "epoch": 0.831232,
      "grad_norm": 0.41713955998420715,
      "learning_rate": 7.281839992879502e-05,
      "loss": 2.6658,
      "step": 6494
    },
    {
      "epoch": 0.83136,
      "grad_norm": 0.3875558078289032,
      "learning_rate": 7.27107019637886e-05,
      "loss": 2.4688,
      "step": 6495
    },
    {
      "epoch": 0.831488,
      "grad_norm": 0.38339361548423767,
      "learning_rate": 7.260307745476619e-05,
      "loss": 2.6632,
      "step": 6496
    },
    {
      "epoch": 0.831616,
      "grad_norm": 0.3968004286289215,
      "learning_rate": 7.249552642022955e-05,
      "loss": 2.5595,
      "step": 6497
    },
    {
      "epoch": 0.831744,
      "grad_norm": 0.37057724595069885,
      "learning_rate": 7.238804887866796e-05,
      "loss": 2.419,
      "step": 6498
    },
    {
      "epoch": 0.831872,
      "grad_norm": 0.36614710092544556,
      "learning_rate": 7.228064484855806e-05,
      "loss": 2.5856,
      "step": 6499
    },
    {
      "epoch": 0.832,
      "grad_norm": 0.3684178590774536,
      "learning_rate": 7.217331434836394e-05,
      "loss": 2.5876,
      "step": 6500
    },
    {
      "epoch": 0.832128,
      "grad_norm": 0.3503122627735138,
      "learning_rate": 7.206605739653682e-05,
      "loss": 2.5624,
      "step": 6501
    },
    {
      "epoch": 0.832256,
      "grad_norm": 0.5945630669593811,
      "learning_rate": 7.195887401151535e-05,
      "loss": 2.4598,
      "step": 6502
    },
    {
      "epoch": 0.832384,
      "grad_norm": 0.49748262763023376,
      "learning_rate": 7.185176421172573e-05,
      "loss": 2.5826,
      "step": 6503
    },
    {
      "epoch": 0.832512,
      "grad_norm": 0.3810468316078186,
      "learning_rate": 7.174472801558146e-05,
      "loss": 2.4545,
      "step": 6504
    },
    {
      "epoch": 0.83264,
      "grad_norm": 0.41872382164001465,
      "learning_rate": 7.16377654414832e-05,
      "loss": 2.5464,
      "step": 6505
    },
    {
      "epoch": 0.832768,
      "grad_norm": 0.38761040568351746,
      "learning_rate": 7.153087650781909e-05,
      "loss": 2.5912,
      "step": 6506
    },
    {
      "epoch": 0.832896,
      "grad_norm": 0.40330424904823303,
      "learning_rate": 7.142406123296453e-05,
      "loss": 2.6037,
      "step": 6507
    },
    {
      "epoch": 0.833024,
      "grad_norm": 0.391944944858551,
      "learning_rate": 7.131731963528232e-05,
      "loss": 2.5263,
      "step": 6508
    },
    {
      "epoch": 0.833152,
      "grad_norm": 0.3813668489456177,
      "learning_rate": 7.121065173312253e-05,
      "loss": 2.6219,
      "step": 6509
    },
    {
      "epoch": 0.83328,
      "grad_norm": 0.4047585129737854,
      "learning_rate": 7.110405754482268e-05,
      "loss": 2.4652,
      "step": 6510
    },
    {
      "epoch": 0.833408,
      "grad_norm": 0.391324520111084,
      "learning_rate": 7.09975370887076e-05,
      "loss": 2.586,
      "step": 6511
    },
    {
      "epoch": 0.833536,
      "grad_norm": 0.40646904706954956,
      "learning_rate": 7.089109038308927e-05,
      "loss": 2.5208,
      "step": 6512
    },
    {
      "epoch": 0.833664,
      "grad_norm": 0.40097877383232117,
      "learning_rate": 7.078471744626707e-05,
      "loss": 2.6161,
      "step": 6513
    },
    {
      "epoch": 0.833792,
      "grad_norm": 0.46592196822166443,
      "learning_rate": 7.067841829652794e-05,
      "loss": 2.5563,
      "step": 6514
    },
    {
      "epoch": 0.83392,
      "grad_norm": 0.49323931336402893,
      "learning_rate": 7.057219295214579e-05,
      "loss": 2.5213,
      "step": 6515
    },
    {
      "epoch": 0.834048,
      "grad_norm": 0.38901326060295105,
      "learning_rate": 7.046604143138197e-05,
      "loss": 2.5046,
      "step": 6516
    },
    {
      "epoch": 0.834176,
      "grad_norm": 0.3893970251083374,
      "learning_rate": 7.035996375248527e-05,
      "loss": 2.5895,
      "step": 6517
    },
    {
      "epoch": 0.834304,
      "grad_norm": 0.4094073474407196,
      "learning_rate": 7.025395993369165e-05,
      "loss": 2.5817,
      "step": 6518
    },
    {
      "epoch": 0.834432,
      "grad_norm": 0.551521897315979,
      "learning_rate": 7.01480299932244e-05,
      "loss": 2.5987,
      "step": 6519
    },
    {
      "epoch": 0.83456,
      "grad_norm": 0.4173826277256012,
      "learning_rate": 7.004217394929402e-05,
      "loss": 2.5003,
      "step": 6520
    },
    {
      "epoch": 0.834688,
      "grad_norm": 0.3760872185230255,
      "learning_rate": 6.993639182009842e-05,
      "loss": 2.5843,
      "step": 6521
    },
    {
      "epoch": 0.834816,
      "grad_norm": 0.3959459960460663,
      "learning_rate": 6.983068362382273e-05,
      "loss": 2.5335,
      "step": 6522
    },
    {
      "epoch": 0.834944,
      "grad_norm": 0.4199186861515045,
      "learning_rate": 6.972504937863955e-05,
      "loss": 2.5772,
      "step": 6523
    },
    {
      "epoch": 0.835072,
      "grad_norm": 0.4116417467594147,
      "learning_rate": 6.961948910270843e-05,
      "loss": 2.4766,
      "step": 6524
    },
    {
      "epoch": 0.8352,
      "grad_norm": 0.38055306673049927,
      "learning_rate": 6.951400281417669e-05,
      "loss": 2.5115,
      "step": 6525
    },
    {
      "epoch": 0.835328,
      "grad_norm": 0.447316974401474,
      "learning_rate": 6.940859053117842e-05,
      "loss": 2.5263,
      "step": 6526
    },
    {
      "epoch": 0.835456,
      "grad_norm": 0.3477637469768524,
      "learning_rate": 6.930325227183538e-05,
      "loss": 2.6079,
      "step": 6527
    },
    {
      "epoch": 0.835584,
      "grad_norm": 0.38118311762809753,
      "learning_rate": 6.919798805425626e-05,
      "loss": 2.4813,
      "step": 6528
    },
    {
      "epoch": 0.835712,
      "grad_norm": 0.3848101496696472,
      "learning_rate": 6.909279789653733e-05,
      "loss": 2.5689,
      "step": 6529
    },
    {
      "epoch": 0.83584,
      "grad_norm": 0.5746450424194336,
      "learning_rate": 6.898768181676179e-05,
      "loss": 2.5407,
      "step": 6530
    },
    {
      "epoch": 0.835968,
      "grad_norm": 0.3813726305961609,
      "learning_rate": 6.888263983300047e-05,
      "loss": 2.4934,
      "step": 6531
    },
    {
      "epoch": 0.836096,
      "grad_norm": 0.5163565874099731,
      "learning_rate": 6.877767196331147e-05,
      "loss": 2.5305,
      "step": 6532
    },
    {
      "epoch": 0.836224,
      "grad_norm": 0.38217881321907043,
      "learning_rate": 6.867277822573975e-05,
      "loss": 2.5183,
      "step": 6533
    },
    {
      "epoch": 0.836352,
      "grad_norm": 0.3773062229156494,
      "learning_rate": 6.856795863831788e-05,
      "loss": 2.507,
      "step": 6534
    },
    {
      "epoch": 0.83648,
      "grad_norm": 0.3733845055103302,
      "learning_rate": 6.846321321906552e-05,
      "loss": 2.4969,
      "step": 6535
    },
    {
      "epoch": 0.836608,
      "grad_norm": 0.44439759850502014,
      "learning_rate": 6.835854198598956e-05,
      "loss": 2.4909,
      "step": 6536
    },
    {
      "epoch": 0.836736,
      "grad_norm": 0.5496644377708435,
      "learning_rate": 6.825394495708415e-05,
      "loss": 2.6607,
      "step": 6537
    },
    {
      "epoch": 0.836864,
      "grad_norm": 0.49643415212631226,
      "learning_rate": 6.814942215033098e-05,
      "loss": 2.5462,
      "step": 6538
    },
    {
      "epoch": 0.836992,
      "grad_norm": 0.36820557713508606,
      "learning_rate": 6.804497358369854e-05,
      "loss": 2.4852,
      "step": 6539
    },
    {
      "epoch": 0.83712,
      "grad_norm": 0.5572680830955505,
      "learning_rate": 6.794059927514268e-05,
      "loss": 2.5691,
      "step": 6540
    },
    {
      "epoch": 0.837248,
      "grad_norm": 0.36993634700775146,
      "learning_rate": 6.783629924260681e-05,
      "loss": 2.4136,
      "step": 6541
    },
    {
      "epoch": 0.837376,
      "grad_norm": 0.38308680057525635,
      "learning_rate": 6.773207350402117e-05,
      "loss": 2.5651,
      "step": 6542
    },
    {
      "epoch": 0.837504,
      "grad_norm": 0.3745572566986084,
      "learning_rate": 6.762792207730334e-05,
      "loss": 2.4709,
      "step": 6543
    },
    {
      "epoch": 0.837632,
      "grad_norm": 0.5354244112968445,
      "learning_rate": 6.752384498035824e-05,
      "loss": 2.6407,
      "step": 6544
    },
    {
      "epoch": 0.83776,
      "grad_norm": 0.3640431761741638,
      "learning_rate": 6.741984223107773e-05,
      "loss": 2.4791,
      "step": 6545
    },
    {
      "epoch": 0.837888,
      "grad_norm": 0.39275652170181274,
      "learning_rate": 6.731591384734137e-05,
      "loss": 2.4265,
      "step": 6546
    },
    {
      "epoch": 0.838016,
      "grad_norm": 0.5110971927642822,
      "learning_rate": 6.72120598470155e-05,
      "loss": 2.5808,
      "step": 6547
    },
    {
      "epoch": 0.838144,
      "grad_norm": 0.398028165102005,
      "learning_rate": 6.710828024795391e-05,
      "loss": 2.6014,
      "step": 6548
    },
    {
      "epoch": 0.838272,
      "grad_norm": 0.4098295569419861,
      "learning_rate": 6.70045750679974e-05,
      "loss": 2.5476,
      "step": 6549
    },
    {
      "epoch": 0.8384,
      "grad_norm": 0.3939518928527832,
      "learning_rate": 6.690094432497407e-05,
      "loss": 2.5331,
      "step": 6550
    },
    {
      "epoch": 0.838528,
      "grad_norm": 0.4567298889160156,
      "learning_rate": 6.679738803669943e-05,
      "loss": 2.5353,
      "step": 6551
    },
    {
      "epoch": 0.838656,
      "grad_norm": 0.3592272400856018,
      "learning_rate": 6.669390622097576e-05,
      "loss": 2.6084,
      "step": 6552
    },
    {
      "epoch": 0.838784,
      "grad_norm": 0.3913957476615906,
      "learning_rate": 6.65904988955931e-05,
      "loss": 2.5944,
      "step": 6553
    },
    {
      "epoch": 0.838912,
      "grad_norm": 0.41958072781562805,
      "learning_rate": 6.648716607832811e-05,
      "loss": 2.6206,
      "step": 6554
    },
    {
      "epoch": 0.83904,
      "grad_norm": 0.40342697501182556,
      "learning_rate": 6.638390778694503e-05,
      "loss": 2.53,
      "step": 6555
    },
    {
      "epoch": 0.839168,
      "grad_norm": 0.4053029417991638,
      "learning_rate": 6.62807240391951e-05,
      "loss": 2.5728,
      "step": 6556
    },
    {
      "epoch": 0.839296,
      "grad_norm": 0.3963201344013214,
      "learning_rate": 6.617761485281687e-05,
      "loss": 2.4308,
      "step": 6557
    },
    {
      "epoch": 0.839424,
      "grad_norm": 0.42137837409973145,
      "learning_rate": 6.607458024553575e-05,
      "loss": 2.5504,
      "step": 6558
    },
    {
      "epoch": 0.839552,
      "grad_norm": 0.4237023591995239,
      "learning_rate": 6.597162023506492e-05,
      "loss": 2.6462,
      "step": 6559
    },
    {
      "epoch": 0.83968,
      "grad_norm": 0.3796111047267914,
      "learning_rate": 6.586873483910416e-05,
      "loss": 2.5216,
      "step": 6560
    },
    {
      "epoch": 0.839808,
      "grad_norm": 0.40424323081970215,
      "learning_rate": 6.576592407534088e-05,
      "loss": 2.5611,
      "step": 6561
    },
    {
      "epoch": 0.839936,
      "grad_norm": 0.41074734926223755,
      "learning_rate": 6.566318796144933e-05,
      "loss": 2.7091,
      "step": 6562
    },
    {
      "epoch": 0.840064,
      "grad_norm": 0.43403133749961853,
      "learning_rate": 6.556052651509104e-05,
      "loss": 2.5218,
      "step": 6563
    },
    {
      "epoch": 0.840192,
      "grad_norm": 0.43625563383102417,
      "learning_rate": 6.545793975391468e-05,
      "loss": 2.6461,
      "step": 6564
    },
    {
      "epoch": 0.84032,
      "grad_norm": 0.4071100652217865,
      "learning_rate": 6.535542769555608e-05,
      "loss": 2.6865,
      "step": 6565
    },
    {
      "epoch": 0.840448,
      "grad_norm": 0.3982883393764496,
      "learning_rate": 6.525299035763827e-05,
      "loss": 2.4833,
      "step": 6566
    },
    {
      "epoch": 0.840576,
      "grad_norm": 0.40831950306892395,
      "learning_rate": 6.515062775777148e-05,
      "loss": 2.59,
      "step": 6567
    },
    {
      "epoch": 0.840704,
      "grad_norm": 0.388224333524704,
      "learning_rate": 6.504833991355292e-05,
      "loss": 2.5407,
      "step": 6568
    },
    {
      "epoch": 0.840832,
      "grad_norm": 0.37360119819641113,
      "learning_rate": 6.494612684256718e-05,
      "loss": 2.5015,
      "step": 6569
    },
    {
      "epoch": 0.84096,
      "grad_norm": 0.36800116300582886,
      "learning_rate": 6.484398856238583e-05,
      "loss": 2.6454,
      "step": 6570
    },
    {
      "epoch": 0.841088,
      "grad_norm": 0.39305588603019714,
      "learning_rate": 6.47419250905676e-05,
      "loss": 2.5027,
      "step": 6571
    },
    {
      "epoch": 0.841216,
      "grad_norm": 0.3963109850883484,
      "learning_rate": 6.463993644465843e-05,
      "loss": 2.4549,
      "step": 6572
    },
    {
      "epoch": 0.841344,
      "grad_norm": 0.4374944567680359,
      "learning_rate": 6.453802264219117e-05,
      "loss": 2.5384,
      "step": 6573
    },
    {
      "epoch": 0.841472,
      "grad_norm": 0.4036242961883545,
      "learning_rate": 6.443618370068622e-05,
      "loss": 2.6027,
      "step": 6574
    },
    {
      "epoch": 0.8416,
      "grad_norm": 0.43316811323165894,
      "learning_rate": 6.43344196376508e-05,
      "loss": 2.5643,
      "step": 6575
    },
    {
      "epoch": 0.841728,
      "grad_norm": 0.4834679067134857,
      "learning_rate": 6.423273047057932e-05,
      "loss": 2.4818,
      "step": 6576
    },
    {
      "epoch": 0.841856,
      "grad_norm": 0.36766403913497925,
      "learning_rate": 6.413111621695323e-05,
      "loss": 2.6191,
      "step": 6577
    },
    {
      "epoch": 0.841984,
      "grad_norm": 0.3732016384601593,
      "learning_rate": 6.402957689424138e-05,
      "loss": 2.6212,
      "step": 6578
    },
    {
      "epoch": 0.842112,
      "grad_norm": 0.40816324949264526,
      "learning_rate": 6.392811251989945e-05,
      "loss": 2.5381,
      "step": 6579
    },
    {
      "epoch": 0.84224,
      "grad_norm": 0.39707720279693604,
      "learning_rate": 6.382672311137039e-05,
      "loss": 2.5239,
      "step": 6580
    },
    {
      "epoch": 0.842368,
      "grad_norm": 0.43227505683898926,
      "learning_rate": 6.3725408686084e-05,
      "loss": 2.5563,
      "step": 6581
    },
    {
      "epoch": 0.842496,
      "grad_norm": 0.3518167734146118,
      "learning_rate": 6.362416926145775e-05,
      "loss": 2.6136,
      "step": 6582
    },
    {
      "epoch": 0.842624,
      "grad_norm": 0.40065905451774597,
      "learning_rate": 6.352300485489571e-05,
      "loss": 2.6164,
      "step": 6583
    },
    {
      "epoch": 0.842752,
      "grad_norm": 0.4149249196052551,
      "learning_rate": 6.342191548378923e-05,
      "loss": 2.5062,
      "step": 6584
    },
    {
      "epoch": 0.84288,
      "grad_norm": 0.3914150595664978,
      "learning_rate": 6.33209011655167e-05,
      "loss": 2.5283,
      "step": 6585
    },
    {
      "epoch": 0.843008,
      "grad_norm": 0.43014416098594666,
      "learning_rate": 6.321996191744367e-05,
      "loss": 2.6007,
      "step": 6586
    },
    {
      "epoch": 0.843136,
      "grad_norm": 0.46506062150001526,
      "learning_rate": 6.311909775692265e-05,
      "loss": 2.4009,
      "step": 6587
    },
    {
      "epoch": 0.843264,
      "grad_norm": 0.49322035908699036,
      "learning_rate": 6.301830870129349e-05,
      "loss": 2.5932,
      "step": 6588
    },
    {
      "epoch": 0.843392,
      "grad_norm": 0.967269778251648,
      "learning_rate": 6.291759476788312e-05,
      "loss": 2.553,
      "step": 6589
    },
    {
      "epoch": 0.84352,
      "grad_norm": 0.3820359408855438,
      "learning_rate": 6.281695597400534e-05,
      "loss": 2.3809,
      "step": 6590
    },
    {
      "epoch": 0.843648,
      "grad_norm": 0.3938983976840973,
      "learning_rate": 6.271639233696103e-05,
      "loss": 2.5855,
      "step": 6591
    },
    {
      "epoch": 0.843776,
      "grad_norm": 0.8432590365409851,
      "learning_rate": 6.261590387403832e-05,
      "loss": 2.5136,
      "step": 6592
    },
    {
      "epoch": 0.843904,
      "grad_norm": 0.3909205198287964,
      "learning_rate": 6.251549060251233e-05,
      "loss": 2.5916,
      "step": 6593
    },
    {
      "epoch": 0.844032,
      "grad_norm": 0.3788852393627167,
      "learning_rate": 6.241515253964513e-05,
      "loss": 2.5501,
      "step": 6594
    },
    {
      "epoch": 0.84416,
      "grad_norm": 0.38440433144569397,
      "learning_rate": 6.231488970268628e-05,
      "loss": 2.4571,
      "step": 6595
    },
    {
      "epoch": 0.844288,
      "grad_norm": 0.4041432738304138,
      "learning_rate": 6.221470210887181e-05,
      "loss": 2.6374,
      "step": 6596
    },
    {
      "epoch": 0.844416,
      "grad_norm": 0.37694135308265686,
      "learning_rate": 6.211458977542545e-05,
      "loss": 2.7299,
      "step": 6597
    },
    {
      "epoch": 0.844544,
      "grad_norm": 0.38869673013687134,
      "learning_rate": 6.201455271955747e-05,
      "loss": 2.6507,
      "step": 6598
    },
    {
      "epoch": 0.844672,
      "grad_norm": 0.4706669747829437,
      "learning_rate": 6.191459095846546e-05,
      "loss": 2.5081,
      "step": 6599
    },
    {
      "epoch": 0.8448,
      "grad_norm": 0.4087425172328949,
      "learning_rate": 6.181470450933397e-05,
      "loss": 2.5761,
      "step": 6600
    },
    {
      "epoch": 0.844928,
      "grad_norm": 0.42210596799850464,
      "learning_rate": 6.171489338933466e-05,
      "loss": 2.4476,
      "step": 6601
    },
    {
      "epoch": 0.845056,
      "grad_norm": 0.3834494650363922,
      "learning_rate": 6.161515761562614e-05,
      "loss": 2.5903,
      "step": 6602
    },
    {
      "epoch": 0.845184,
      "grad_norm": 0.3676433265209198,
      "learning_rate": 6.151549720535432e-05,
      "loss": 2.5481,
      "step": 6603
    },
    {
      "epoch": 0.845312,
      "grad_norm": 0.38501283526420593,
      "learning_rate": 6.141591217565185e-05,
      "loss": 2.5049,
      "step": 6604
    },
    {
      "epoch": 0.84544,
      "grad_norm": 0.3886493146419525,
      "learning_rate": 6.131640254363846e-05,
      "loss": 2.5258,
      "step": 6605
    },
    {
      "epoch": 0.845568,
      "grad_norm": 0.40877765417099,
      "learning_rate": 6.121696832642126e-05,
      "loss": 2.5787,
      "step": 6606
    },
    {
      "epoch": 0.845696,
      "grad_norm": 0.3993425965309143,
      "learning_rate": 6.111760954109402e-05,
      "loss": 2.5619,
      "step": 6607
    },
    {
      "epoch": 0.845824,
      "grad_norm": 0.38819828629493713,
      "learning_rate": 6.101832620473763e-05,
      "loss": 2.6368,
      "step": 6608
    },
    {
      "epoch": 0.845952,
      "grad_norm": 0.4275882840156555,
      "learning_rate": 6.0919118334419985e-05,
      "loss": 2.6536,
      "step": 6609
    },
    {
      "epoch": 0.84608,
      "grad_norm": 0.393502801656723,
      "learning_rate": 6.081998594719629e-05,
      "loss": 2.542,
      "step": 6610
    },
    {
      "epoch": 0.846208,
      "grad_norm": 0.39470338821411133,
      "learning_rate": 6.07209290601084e-05,
      "loss": 2.6227,
      "step": 6611
    },
    {
      "epoch": 0.846336,
      "grad_norm": 0.38083603978157043,
      "learning_rate": 6.062194769018542e-05,
      "loss": 2.647,
      "step": 6612
    },
    {
      "epoch": 0.846464,
      "grad_norm": 0.4008105993270874,
      "learning_rate": 6.0523041854443295e-05,
      "loss": 2.5954,
      "step": 6613
    },
    {
      "epoch": 0.846592,
      "grad_norm": 0.36755916476249695,
      "learning_rate": 6.042421156988498e-05,
      "loss": 2.5804,
      "step": 6614
    },
    {
      "epoch": 0.84672,
      "grad_norm": 1.0403685569763184,
      "learning_rate": 6.032545685350088e-05,
      "loss": 2.5536,
      "step": 6615
    },
    {
      "epoch": 0.846848,
      "grad_norm": 0.40383535623550415,
      "learning_rate": 6.0226777722267814e-05,
      "loss": 2.6101,
      "step": 6616
    },
    {
      "epoch": 0.846976,
      "grad_norm": 0.38529759645462036,
      "learning_rate": 6.012817419314992e-05,
      "loss": 2.443,
      "step": 6617
    },
    {
      "epoch": 0.847104,
      "grad_norm": 0.4031061828136444,
      "learning_rate": 6.002964628309837e-05,
      "loss": 2.5366,
      "step": 6618
    },
    {
      "epoch": 0.847232,
      "grad_norm": 0.4185578525066376,
      "learning_rate": 5.993119400905123e-05,
      "loss": 2.5284,
      "step": 6619
    },
    {
      "epoch": 0.84736,
      "grad_norm": 0.37218448519706726,
      "learning_rate": 5.98328173879335e-05,
      "loss": 2.58,
      "step": 6620
    },
    {
      "epoch": 0.847488,
      "grad_norm": 0.3911735713481903,
      "learning_rate": 5.9734516436657335e-05,
      "loss": 2.5898,
      "step": 6621
    },
    {
      "epoch": 0.847616,
      "grad_norm": 0.3775801956653595,
      "learning_rate": 5.9636291172121824e-05,
      "loss": 2.6131,
      "step": 6622
    },
    {
      "epoch": 0.847744,
      "grad_norm": 0.4017188847064972,
      "learning_rate": 5.95381416112129e-05,
      "loss": 2.3862,
      "step": 6623
    },
    {
      "epoch": 0.847872,
      "grad_norm": 0.3921184837818146,
      "learning_rate": 5.944006777080363e-05,
      "loss": 2.5635,
      "step": 6624
    },
    {
      "epoch": 0.848,
      "grad_norm": 0.41707512736320496,
      "learning_rate": 5.9342069667754295e-05,
      "loss": 2.4849,
      "step": 6625
    },
    {
      "epoch": 0.848128,
      "grad_norm": 0.38076359033584595,
      "learning_rate": 5.92441473189117e-05,
      "loss": 2.5624,
      "step": 6626
    },
    {
      "epoch": 0.848256,
      "grad_norm": 0.3881305754184723,
      "learning_rate": 5.9146300741109885e-05,
      "loss": 2.5269,
      "step": 6627
    },
    {
      "epoch": 0.848384,
      "grad_norm": 0.3808872401714325,
      "learning_rate": 5.9048529951169775e-05,
      "loss": 2.5397,
      "step": 6628
    },
    {
      "epoch": 0.848512,
      "grad_norm": 0.4079568386077881,
      "learning_rate": 5.8950834965899315e-05,
      "loss": 2.5327,
      "step": 6629
    },
    {
      "epoch": 0.84864,
      "grad_norm": 0.4793010950088501,
      "learning_rate": 5.8853215802093244e-05,
      "loss": 2.6752,
      "step": 6630
    },
    {
      "epoch": 0.848768,
      "grad_norm": 0.43331268429756165,
      "learning_rate": 5.875567247653374e-05,
      "loss": 2.4754,
      "step": 6631
    },
    {
      "epoch": 0.848896,
      "grad_norm": 0.40602150559425354,
      "learning_rate": 5.8658205005989506e-05,
      "loss": 2.6065,
      "step": 6632
    },
    {
      "epoch": 0.849024,
      "grad_norm": 0.3866192400455475,
      "learning_rate": 5.85608134072162e-05,
      "loss": 2.6442,
      "step": 6633
    },
    {
      "epoch": 0.849152,
      "grad_norm": 0.37457722425460815,
      "learning_rate": 5.8463497696956746e-05,
      "loss": 2.4823,
      "step": 6634
    },
    {
      "epoch": 0.84928,
      "grad_norm": 0.43522971868515015,
      "learning_rate": 5.836625789194078e-05,
      "loss": 2.5536,
      "step": 6635
    },
    {
      "epoch": 0.849408,
      "grad_norm": 0.5638330578804016,
      "learning_rate": 5.826909400888491e-05,
      "loss": 2.5568,
      "step": 6636
    },
    {
      "epoch": 0.849536,
      "grad_norm": 0.39072489738464355,
      "learning_rate": 5.81720060644928e-05,
      "loss": 2.6043,
      "step": 6637
    },
    {
      "epoch": 0.849664,
      "grad_norm": 0.3586130738258362,
      "learning_rate": 5.807499407545486e-05,
      "loss": 2.53,
      "step": 6638
    },
    {
      "epoch": 0.849792,
      "grad_norm": 0.37625744938850403,
      "learning_rate": 5.797805805844875e-05,
      "loss": 2.6224,
      "step": 6639
    },
    {
      "epoch": 0.84992,
      "grad_norm": 0.4176786541938782,
      "learning_rate": 5.7881198030138806e-05,
      "loss": 2.4613,
      "step": 6640
    },
    {
      "epoch": 0.850048,
      "grad_norm": 0.39692962169647217,
      "learning_rate": 5.7784414007176436e-05,
      "loss": 2.4399,
      "step": 6641
    },
    {
      "epoch": 0.850176,
      "grad_norm": 0.39562928676605225,
      "learning_rate": 5.768770600619977e-05,
      "loss": 2.586,
      "step": 6642
    },
    {
      "epoch": 0.850304,
      "grad_norm": 0.36371609568595886,
      "learning_rate": 5.759107404383429e-05,
      "loss": 2.4981,
      "step": 6643
    },
    {
      "epoch": 0.850432,
      "grad_norm": 0.3932785987854004,
      "learning_rate": 5.749451813669204e-05,
      "loss": 2.5071,
      "step": 6644
    },
    {
      "epoch": 0.85056,
      "grad_norm": 0.45135003328323364,
      "learning_rate": 5.7398038301371916e-05,
      "loss": 2.5284,
      "step": 6645
    },
    {
      "epoch": 0.850688,
      "grad_norm": 0.3930249810218811,
      "learning_rate": 5.7301634554460246e-05,
      "loss": 2.578,
      "step": 6646
    },
    {
      "epoch": 0.850816,
      "grad_norm": 1.1592861413955688,
      "learning_rate": 5.7205306912529786e-05,
      "loss": 2.5009,
      "step": 6647
    },
    {
      "epoch": 0.850944,
      "grad_norm": 0.3581673502922058,
      "learning_rate": 5.71090553921404e-05,
      "loss": 2.5486,
      "step": 6648
    },
    {
      "epoch": 0.851072,
      "grad_norm": 0.39338651299476624,
      "learning_rate": 5.701288000983884e-05,
      "loss": 2.5203,
      "step": 6649
    },
    {
      "epoch": 0.8512,
      "grad_norm": 0.42595502734184265,
      "learning_rate": 5.691678078215873e-05,
      "loss": 2.5707,
      "step": 6650
    },
    {
      "epoch": 0.851328,
      "grad_norm": 0.45225250720977783,
      "learning_rate": 5.682075772562051e-05,
      "loss": 2.524,
      "step": 6651
    },
    {
      "epoch": 0.851456,
      "grad_norm": 0.44458630681037903,
      "learning_rate": 5.672481085673198e-05,
      "loss": 2.6541,
      "step": 6652
    },
    {
      "epoch": 0.851584,
      "grad_norm": 0.4608287811279297,
      "learning_rate": 5.662894019198722e-05,
      "loss": 2.4617,
      "step": 6653
    },
    {
      "epoch": 0.851712,
      "grad_norm": 0.39886724948883057,
      "learning_rate": 5.653314574786778e-05,
      "loss": 2.5447,
      "step": 6654
    },
    {
      "epoch": 0.85184,
      "grad_norm": 0.39831656217575073,
      "learning_rate": 5.643742754084163e-05,
      "loss": 2.5922,
      "step": 6655
    },
    {
      "epoch": 0.851968,
      "grad_norm": 0.37662604451179504,
      "learning_rate": 5.634178558736397e-05,
      "loss": 2.5609,
      "step": 6656
    },
    {
      "epoch": 0.852096,
      "grad_norm": 0.3967392146587372,
      "learning_rate": 5.624621990387668e-05,
      "loss": 2.5314,
      "step": 6657
    },
    {
      "epoch": 0.852224,
      "grad_norm": 0.3845575153827667,
      "learning_rate": 5.615073050680858e-05,
      "loss": 2.5042,
      "step": 6658
    },
    {
      "epoch": 0.852352,
      "grad_norm": 0.4033854305744171,
      "learning_rate": 5.6055317412575354e-05,
      "loss": 2.6563,
      "step": 6659
    },
    {
      "epoch": 0.85248,
      "grad_norm": 0.4250585436820984,
      "learning_rate": 5.5959980637579844e-05,
      "loss": 2.4044,
      "step": 6660
    },
    {
      "epoch": 0.852608,
      "grad_norm": 0.3859996199607849,
      "learning_rate": 5.5864720198211316e-05,
      "loss": 2.5611,
      "step": 6661
    },
    {
      "epoch": 0.852736,
      "grad_norm": 0.4175710082054138,
      "learning_rate": 5.5769536110846344e-05,
      "loss": 2.5551,
      "step": 6662
    },
    {
      "epoch": 0.852864,
      "grad_norm": 0.48466071486473083,
      "learning_rate": 5.567442839184805e-05,
      "loss": 2.5144,
      "step": 6663
    },
    {
      "epoch": 0.852992,
      "grad_norm": 0.3889496624469757,
      "learning_rate": 5.5579397057566646e-05,
      "loss": 2.5362,
      "step": 6664
    },
    {
      "epoch": 0.85312,
      "grad_norm": 0.3916057050228119,
      "learning_rate": 5.548444212433901e-05,
      "loss": 2.5893,
      "step": 6665
    },
    {
      "epoch": 0.853248,
      "grad_norm": 0.3997647166252136,
      "learning_rate": 5.53895636084889e-05,
      "loss": 2.5573,
      "step": 6666
    },
    {
      "epoch": 0.853376,
      "grad_norm": 0.35702040791511536,
      "learning_rate": 5.5294761526327345e-05,
      "loss": 2.5152,
      "step": 6667
    },
    {
      "epoch": 0.853504,
      "grad_norm": 0.4464001953601837,
      "learning_rate": 5.520003589415168e-05,
      "loss": 2.4351,
      "step": 6668
    },
    {
      "epoch": 0.853632,
      "grad_norm": 0.464205265045166,
      "learning_rate": 5.510538672824644e-05,
      "loss": 2.4787,
      "step": 6669
    },
    {
      "epoch": 0.85376,
      "grad_norm": 0.38719236850738525,
      "learning_rate": 5.501081404488278e-05,
      "loss": 2.4831,
      "step": 6670
    },
    {
      "epoch": 0.853888,
      "grad_norm": 0.39934322237968445,
      "learning_rate": 5.491631786031903e-05,
      "loss": 2.5372,
      "step": 6671
    },
    {
      "epoch": 0.854016,
      "grad_norm": 0.39214444160461426,
      "learning_rate": 5.482189819080013e-05,
      "loss": 2.4397,
      "step": 6672
    },
    {
      "epoch": 0.854144,
      "grad_norm": 0.3715808093547821,
      "learning_rate": 5.472755505255783e-05,
      "loss": 2.5726,
      "step": 6673
    },
    {
      "epoch": 0.854272,
      "grad_norm": 0.3960489332675934,
      "learning_rate": 5.463328846181082e-05,
      "loss": 2.5516,
      "step": 6674
    },
    {
      "epoch": 0.8544,
      "grad_norm": 0.4914077818393707,
      "learning_rate": 5.453909843476468e-05,
      "loss": 2.5758,
      "step": 6675
    },
    {
      "epoch": 0.854528,
      "grad_norm": 0.380424827337265,
      "learning_rate": 5.44449849876118e-05,
      "loss": 2.5269,
      "step": 6676
    },
    {
      "epoch": 0.854656,
      "grad_norm": 0.4186412990093231,
      "learning_rate": 5.4350948136531296e-05,
      "loss": 2.5555,
      "step": 6677
    },
    {
      "epoch": 0.854784,
      "grad_norm": 0.448546439409256,
      "learning_rate": 5.4256987897689234e-05,
      "loss": 2.7192,
      "step": 6678
    },
    {
      "epoch": 0.854912,
      "grad_norm": 0.4199671745300293,
      "learning_rate": 5.416310428723836e-05,
      "loss": 2.4185,
      "step": 6679
    },
    {
      "epoch": 0.85504,
      "grad_norm": 0.39871326088905334,
      "learning_rate": 5.406929732131849e-05,
      "loss": 2.6308,
      "step": 6680
    },
    {
      "epoch": 0.855168,
      "grad_norm": 0.40640926361083984,
      "learning_rate": 5.397556701605605e-05,
      "loss": 2.4937,
      "step": 6681
    },
    {
      "epoch": 0.855296,
      "grad_norm": 0.40242257714271545,
      "learning_rate": 5.388191338756443e-05,
      "loss": 2.5832,
      "step": 6682
    },
    {
      "epoch": 0.855424,
      "grad_norm": 0.3961141109466553,
      "learning_rate": 5.378833645194375e-05,
      "loss": 2.5289,
      "step": 6683
    },
    {
      "epoch": 0.855552,
      "grad_norm": 0.38554349541664124,
      "learning_rate": 5.369483622528104e-05,
      "loss": 2.4668,
      "step": 6684
    },
    {
      "epoch": 0.85568,
      "grad_norm": 0.40219396352767944,
      "learning_rate": 5.360141272364993e-05,
      "loss": 2.5071,
      "step": 6685
    },
    {
      "epoch": 0.855808,
      "grad_norm": 0.3949962258338928,
      "learning_rate": 5.350806596311109e-05,
      "loss": 2.4747,
      "step": 6686
    },
    {
      "epoch": 0.855936,
      "grad_norm": 0.3729568421840668,
      "learning_rate": 5.341479595971177e-05,
      "loss": 2.5342,
      "step": 6687
    },
    {
      "epoch": 0.856064,
      "grad_norm": 0.38801664113998413,
      "learning_rate": 5.3321602729486275e-05,
      "loss": 2.6395,
      "step": 6688
    },
    {
      "epoch": 0.856192,
      "grad_norm": 0.3821982443332672,
      "learning_rate": 5.322848628845578e-05,
      "loss": 2.5107,
      "step": 6689
    },
    {
      "epoch": 0.85632,
      "grad_norm": 0.4013977348804474,
      "learning_rate": 5.313544665262782e-05,
      "loss": 2.6405,
      "step": 6690
    },
    {
      "epoch": 0.856448,
      "grad_norm": 0.4039961099624634,
      "learning_rate": 5.3042483837997145e-05,
      "loss": 2.483,
      "step": 6691
    },
    {
      "epoch": 0.856576,
      "grad_norm": 0.47918519377708435,
      "learning_rate": 5.294959786054504e-05,
      "loss": 2.453,
      "step": 6692
    },
    {
      "epoch": 0.856704,
      "grad_norm": 0.4060160219669342,
      "learning_rate": 5.285678873623972e-05,
      "loss": 2.4265,
      "step": 6693
    },
    {
      "epoch": 0.856832,
      "grad_norm": 0.3690482974052429,
      "learning_rate": 5.276405648103616e-05,
      "loss": 2.6379,
      "step": 6694
    },
    {
      "epoch": 0.85696,
      "grad_norm": 0.4004025161266327,
      "learning_rate": 5.267140111087604e-05,
      "loss": 2.5696,
      "step": 6695
    },
    {
      "epoch": 0.857088,
      "grad_norm": 0.4192047417163849,
      "learning_rate": 5.257882264168795e-05,
      "loss": 2.4869,
      "step": 6696
    },
    {
      "epoch": 0.857216,
      "grad_norm": 0.38111865520477295,
      "learning_rate": 5.248632108938728e-05,
      "loss": 2.4948,
      "step": 6697
    },
    {
      "epoch": 0.857344,
      "grad_norm": 0.40475285053253174,
      "learning_rate": 5.239389646987591e-05,
      "loss": 2.5475,
      "step": 6698
    },
    {
      "epoch": 0.857472,
      "grad_norm": 0.4086788594722748,
      "learning_rate": 5.230154879904292e-05,
      "loss": 2.5114,
      "step": 6699
    },
    {
      "epoch": 0.8576,
      "grad_norm": 0.38179996609687805,
      "learning_rate": 5.2209278092763824e-05,
      "loss": 2.5627,
      "step": 6700
    },
    {
      "epoch": 0.857728,
      "grad_norm": 0.4184339642524719,
      "learning_rate": 5.21170843669011e-05,
      "loss": 2.5062,
      "step": 6701
    },
    {
      "epoch": 0.857856,
      "grad_norm": 0.4032774567604065,
      "learning_rate": 5.20249676373038e-05,
      "loss": 2.5062,
      "step": 6702
    },
    {
      "epoch": 0.857984,
      "grad_norm": 0.4728062152862549,
      "learning_rate": 5.1932927919808025e-05,
      "loss": 2.6452,
      "step": 6703
    },
    {
      "epoch": 0.858112,
      "grad_norm": 0.4105486571788788,
      "learning_rate": 5.184096523023635e-05,
      "loss": 2.6065,
      "step": 6704
    },
    {
      "epoch": 0.85824,
      "grad_norm": 0.42130032181739807,
      "learning_rate": 5.1749079584398284e-05,
      "loss": 2.5335,
      "step": 6705
    },
    {
      "epoch": 0.858368,
      "grad_norm": 0.38598406314849854,
      "learning_rate": 5.165727099808998e-05,
      "loss": 2.4815,
      "step": 6706
    },
    {
      "epoch": 0.858496,
      "grad_norm": 0.3725007176399231,
      "learning_rate": 5.156553948709436e-05,
      "loss": 2.4996,
      "step": 6707
    },
    {
      "epoch": 0.858624,
      "grad_norm": 0.3941945433616638,
      "learning_rate": 5.147388506718126e-05,
      "loss": 2.4095,
      "step": 6708
    },
    {
      "epoch": 0.858752,
      "grad_norm": 0.44182088971138,
      "learning_rate": 5.138230775410713e-05,
      "loss": 2.5021,
      "step": 6709
    },
    {
      "epoch": 0.85888,
      "grad_norm": 0.4001845121383667,
      "learning_rate": 5.1290807563614984e-05,
      "loss": 2.5722,
      "step": 6710
    },
    {
      "epoch": 0.859008,
      "grad_norm": 0.4041539132595062,
      "learning_rate": 5.1199384511435023e-05,
      "loss": 2.4727,
      "step": 6711
    },
    {
      "epoch": 0.859136,
      "grad_norm": 0.38706058263778687,
      "learning_rate": 5.110803861328378e-05,
      "loss": 2.5962,
      "step": 6712
    },
    {
      "epoch": 0.859264,
      "grad_norm": 0.39597728848457336,
      "learning_rate": 5.10167698848647e-05,
      "loss": 2.5844,
      "step": 6713
    },
    {
      "epoch": 0.859392,
      "grad_norm": 0.40267544984817505,
      "learning_rate": 5.092557834186795e-05,
      "loss": 2.4982,
      "step": 6714
    },
    {
      "epoch": 0.85952,
      "grad_norm": 0.4293825328350067,
      "learning_rate": 5.083446399997044e-05,
      "loss": 2.6703,
      "step": 6715
    },
    {
      "epoch": 0.859648,
      "grad_norm": 0.39600780606269836,
      "learning_rate": 5.0743426874835574e-05,
      "loss": 2.4949,
      "step": 6716
    },
    {
      "epoch": 0.859776,
      "grad_norm": 0.5429458618164062,
      "learning_rate": 5.0652466982113896e-05,
      "loss": 2.5435,
      "step": 6717
    },
    {
      "epoch": 0.859904,
      "grad_norm": 0.4171392023563385,
      "learning_rate": 5.0561584337442514e-05,
      "loss": 2.5403,
      "step": 6718
    },
    {
      "epoch": 0.860032,
      "grad_norm": 0.44313767552375793,
      "learning_rate": 5.047077895644514e-05,
      "loss": 2.6284,
      "step": 6719
    },
    {
      "epoch": 0.86016,
      "grad_norm": 0.44321832060813904,
      "learning_rate": 5.038005085473224e-05,
      "loss": 2.4418,
      "step": 6720
    },
    {
      "epoch": 0.860288,
      "grad_norm": 0.4219118654727936,
      "learning_rate": 5.0289400047901055e-05,
      "loss": 2.4899,
      "step": 6721
    },
    {
      "epoch": 0.860416,
      "grad_norm": 0.37124544382095337,
      "learning_rate": 5.019882655153546e-05,
      "loss": 2.5358,
      "step": 6722
    },
    {
      "epoch": 0.860544,
      "grad_norm": 0.42526212334632874,
      "learning_rate": 5.0108330381206044e-05,
      "loss": 2.5078,
      "step": 6723
    },
    {
      "epoch": 0.860672,
      "grad_norm": 0.3686537742614746,
      "learning_rate": 5.001791155247032e-05,
      "loss": 2.4379,
      "step": 6724
    },
    {
      "epoch": 0.8608,
      "grad_norm": 0.4147375822067261,
      "learning_rate": 4.9927570080872176e-05,
      "loss": 2.6606,
      "step": 6725
    },
    {
      "epoch": 0.860928,
      "grad_norm": 0.44289302825927734,
      "learning_rate": 4.983730598194247e-05,
      "loss": 2.4645,
      "step": 6726
    },
    {
      "epoch": 0.861056,
      "grad_norm": 0.4080563187599182,
      "learning_rate": 4.974711927119863e-05,
      "loss": 2.5207,
      "step": 6727
    },
    {
      "epoch": 0.861184,
      "grad_norm": 0.4416368007659912,
      "learning_rate": 4.9657009964144794e-05,
      "loss": 2.5151,
      "step": 6728
    },
    {
      "epoch": 0.861312,
      "grad_norm": 0.3984086513519287,
      "learning_rate": 4.956697807627169e-05,
      "loss": 2.5439,
      "step": 6729
    },
    {
      "epoch": 0.86144,
      "grad_norm": 0.3725745677947998,
      "learning_rate": 4.9477023623057e-05,
      "loss": 2.5749,
      "step": 6730
    },
    {
      "epoch": 0.861568,
      "grad_norm": 0.3655281662940979,
      "learning_rate": 4.9387146619964684e-05,
      "loss": 2.6131,
      "step": 6731
    },
    {
      "epoch": 0.861696,
      "grad_norm": 0.39638787508010864,
      "learning_rate": 4.929734708244599e-05,
      "loss": 2.6078,
      "step": 6732
    },
    {
      "epoch": 0.861824,
      "grad_norm": 0.4088100492954254,
      "learning_rate": 4.9207625025938285e-05,
      "loss": 2.6084,
      "step": 6733
    },
    {
      "epoch": 0.861952,
      "grad_norm": 0.42103078961372375,
      "learning_rate": 4.911798046586591e-05,
      "loss": 2.5282,
      "step": 6734
    },
    {
      "epoch": 0.86208,
      "grad_norm": 0.4387829601764679,
      "learning_rate": 4.902841341763964e-05,
      "loss": 2.5929,
      "step": 6735
    },
    {
      "epoch": 0.862208,
      "grad_norm": 0.3635803759098053,
      "learning_rate": 4.893892389665727e-05,
      "loss": 2.491,
      "step": 6736
    },
    {
      "epoch": 0.862336,
      "grad_norm": 0.4201701879501343,
      "learning_rate": 4.8849511918303117e-05,
      "loss": 2.5369,
      "step": 6737
    },
    {
      "epoch": 0.862464,
      "grad_norm": 0.3979921340942383,
      "learning_rate": 4.8760177497947866e-05,
      "loss": 2.5795,
      "step": 6738
    },
    {
      "epoch": 0.862592,
      "grad_norm": 0.38921621441841125,
      "learning_rate": 4.867092065094947e-05,
      "loss": 2.5542,
      "step": 6739
    },
    {
      "epoch": 0.86272,
      "grad_norm": 0.46926555037498474,
      "learning_rate": 4.858174139265209e-05,
      "loss": 2.6822,
      "step": 6740
    },
    {
      "epoch": 0.862848,
      "grad_norm": 0.39523184299468994,
      "learning_rate": 4.849263973838664e-05,
      "loss": 2.6876,
      "step": 6741
    },
    {
      "epoch": 0.862976,
      "grad_norm": 0.4446616768836975,
      "learning_rate": 4.840361570347068e-05,
      "loss": 2.628,
      "step": 6742
    },
    {
      "epoch": 0.863104,
      "grad_norm": 0.4076453745365143,
      "learning_rate": 4.8314669303208605e-05,
      "loss": 2.5722,
      "step": 6743
    },
    {
      "epoch": 0.863232,
      "grad_norm": 0.35504451394081116,
      "learning_rate": 4.822580055289116e-05,
      "loss": 2.5759,
      "step": 6744
    },
    {
      "epoch": 0.86336,
      "grad_norm": 0.3838103711605072,
      "learning_rate": 4.8137009467795976e-05,
      "loss": 2.5587,
      "step": 6745
    },
    {
      "epoch": 0.863488,
      "grad_norm": 0.39105024933815,
      "learning_rate": 4.8048296063187446e-05,
      "loss": 2.5085,
      "step": 6746
    },
    {
      "epoch": 0.863616,
      "grad_norm": 0.3548234701156616,
      "learning_rate": 4.795966035431626e-05,
      "loss": 2.4903,
      "step": 6747
    },
    {
      "epoch": 0.863744,
      "grad_norm": 0.3644562363624573,
      "learning_rate": 4.787110235642001e-05,
      "loss": 2.4964,
      "step": 6748
    },
    {
      "epoch": 0.863872,
      "grad_norm": 0.43952828645706177,
      "learning_rate": 4.778262208472273e-05,
      "loss": 2.5486,
      "step": 6749
    },
    {
      "epoch": 0.864,
      "grad_norm": 0.4406319260597229,
      "learning_rate": 4.7694219554435316e-05,
      "loss": 2.6124,
      "step": 6750
    },
    {
      "epoch": 0.864128,
      "grad_norm": 0.36002635955810547,
      "learning_rate": 4.760589478075511e-05,
      "loss": 2.4123,
      "step": 6751
    },
    {
      "epoch": 0.864256,
      "grad_norm": 0.4151601493358612,
      "learning_rate": 4.751764777886614e-05,
      "loss": 2.5342,
      "step": 6752
    },
    {
      "epoch": 0.864384,
      "grad_norm": 0.37366995215415955,
      "learning_rate": 4.742947856393909e-05,
      "loss": 2.6274,
      "step": 6753
    },
    {
      "epoch": 0.864512,
      "grad_norm": 0.38326263427734375,
      "learning_rate": 4.734138715113145e-05,
      "loss": 2.5532,
      "step": 6754
    },
    {
      "epoch": 0.86464,
      "grad_norm": 0.38565748929977417,
      "learning_rate": 4.7253373555587006e-05,
      "loss": 2.4994,
      "step": 6755
    },
    {
      "epoch": 0.864768,
      "grad_norm": 0.3984532952308655,
      "learning_rate": 4.716543779243637e-05,
      "loss": 2.5342,
      "step": 6756
    },
    {
      "epoch": 0.864896,
      "grad_norm": 0.3893856108188629,
      "learning_rate": 4.707757987679667e-05,
      "loss": 2.6903,
      "step": 6757
    },
    {
      "epoch": 0.865024,
      "grad_norm": 0.4236610531806946,
      "learning_rate": 4.6989799823771714e-05,
      "loss": 2.5422,
      "step": 6758
    },
    {
      "epoch": 0.865152,
      "grad_norm": 0.3659559190273285,
      "learning_rate": 4.6902097648451824e-05,
      "loss": 2.5385,
      "step": 6759
    },
    {
      "epoch": 0.86528,
      "grad_norm": 0.44835272431373596,
      "learning_rate": 4.681447336591421e-05,
      "loss": 2.476,
      "step": 6760
    },
    {
      "epoch": 0.865408,
      "grad_norm": 0.3530517816543579,
      "learning_rate": 4.672692699122238e-05,
      "loss": 2.4645,
      "step": 6761
    },
    {
      "epoch": 0.865536,
      "grad_norm": 0.39951229095458984,
      "learning_rate": 4.663945853942653e-05,
      "loss": 2.4849,
      "step": 6762
    },
    {
      "epoch": 0.865664,
      "grad_norm": 0.39914292097091675,
      "learning_rate": 4.655206802556361e-05,
      "loss": 2.5162,
      "step": 6763
    },
    {
      "epoch": 0.865792,
      "grad_norm": 0.4214671552181244,
      "learning_rate": 4.646475546465706e-05,
      "loss": 2.5563,
      "step": 6764
    },
    {
      "epoch": 0.86592,
      "grad_norm": 0.40468940138816833,
      "learning_rate": 4.637752087171687e-05,
      "loss": 2.6722,
      "step": 6765
    },
    {
      "epoch": 0.866048,
      "grad_norm": 0.5077967643737793,
      "learning_rate": 4.6290364261739545e-05,
      "loss": 2.6779,
      "step": 6766
    },
    {
      "epoch": 0.866176,
      "grad_norm": 0.39594849944114685,
      "learning_rate": 4.6203285649708603e-05,
      "loss": 2.5999,
      "step": 6767
    },
    {
      "epoch": 0.866304,
      "grad_norm": 0.4869372546672821,
      "learning_rate": 4.611628505059373e-05,
      "loss": 2.4514,
      "step": 6768
    },
    {
      "epoch": 0.866432,
      "grad_norm": 0.3720493018627167,
      "learning_rate": 4.60293624793513e-05,
      "loss": 2.5412,
      "step": 6769
    },
    {
      "epoch": 0.86656,
      "grad_norm": 0.38168975710868835,
      "learning_rate": 4.59425179509243e-05,
      "loss": 2.5376,
      "step": 6770
    },
    {
      "epoch": 0.866688,
      "grad_norm": 0.3708952069282532,
      "learning_rate": 4.58557514802424e-05,
      "loss": 2.4905,
      "step": 6771
    },
    {
      "epoch": 0.866816,
      "grad_norm": 0.36109060049057007,
      "learning_rate": 4.576906308222162e-05,
      "loss": 2.5562,
      "step": 6772
    },
    {
      "epoch": 0.866944,
      "grad_norm": 0.3920747637748718,
      "learning_rate": 4.568245277176486e-05,
      "loss": 2.6938,
      "step": 6773
    },
    {
      "epoch": 0.867072,
      "grad_norm": 0.4027537405490875,
      "learning_rate": 4.559592056376133e-05,
      "loss": 2.5781,
      "step": 6774
    },
    {
      "epoch": 0.8672,
      "grad_norm": 0.4080447256565094,
      "learning_rate": 4.550946647308701e-05,
      "loss": 2.5556,
      "step": 6775
    },
    {
      "epoch": 0.867328,
      "grad_norm": 0.39594778418540955,
      "learning_rate": 4.5423090514604304e-05,
      "loss": 2.4711,
      "step": 6776
    },
    {
      "epoch": 0.867456,
      "grad_norm": 0.445812851190567,
      "learning_rate": 4.533679270316227e-05,
      "loss": 2.5999,
      "step": 6777
    },
    {
      "epoch": 0.867584,
      "grad_norm": 0.8164249062538147,
      "learning_rate": 4.525057305359648e-05,
      "loss": 2.5336,
      "step": 6778
    },
    {
      "epoch": 0.867712,
      "grad_norm": 0.3855951130390167,
      "learning_rate": 4.5164431580729084e-05,
      "loss": 2.7021,
      "step": 6779
    },
    {
      "epoch": 0.86784,
      "grad_norm": 0.3970947563648224,
      "learning_rate": 4.5078368299368675e-05,
      "loss": 2.5249,
      "step": 6780
    },
    {
      "epoch": 0.867968,
      "grad_norm": 0.39241161942481995,
      "learning_rate": 4.499238322431071e-05,
      "loss": 2.5953,
      "step": 6781
    },
    {
      "epoch": 0.868096,
      "grad_norm": 0.38207560777664185,
      "learning_rate": 4.490647637033701e-05,
      "loss": 2.6136,
      "step": 6782
    },
    {
      "epoch": 0.868224,
      "grad_norm": 0.37567010521888733,
      "learning_rate": 4.482064775221595e-05,
      "loss": 2.5695,
      "step": 6783
    },
    {
      "epoch": 0.868352,
      "grad_norm": 0.3575384020805359,
      "learning_rate": 4.473489738470243e-05,
      "loss": 2.5093,
      "step": 6784
    },
    {
      "epoch": 0.86848,
      "grad_norm": 0.37133821845054626,
      "learning_rate": 4.464922528253795e-05,
      "loss": 2.5138,
      "step": 6785
    },
    {
      "epoch": 0.868608,
      "grad_norm": 0.42856019735336304,
      "learning_rate": 4.4563631460450505e-05,
      "loss": 2.6197,
      "step": 6786
    },
    {
      "epoch": 0.868736,
      "grad_norm": 0.3572629988193512,
      "learning_rate": 4.447811593315459e-05,
      "loss": 2.4858,
      "step": 6787
    },
    {
      "epoch": 0.868864,
      "grad_norm": 0.4071826636791229,
      "learning_rate": 4.439267871535152e-05,
      "loss": 2.5453,
      "step": 6788
    },
    {
      "epoch": 0.868992,
      "grad_norm": 0.37340617179870605,
      "learning_rate": 4.430731982172886e-05,
      "loss": 2.4871,
      "step": 6789
    },
    {
      "epoch": 0.86912,
      "grad_norm": 0.4093112647533417,
      "learning_rate": 4.422203926696061e-05,
      "loss": 2.6264,
      "step": 6790
    },
    {
      "epoch": 0.869248,
      "grad_norm": 0.43739673495292664,
      "learning_rate": 4.4136837065707756e-05,
      "loss": 2.5262,
      "step": 6791
    },
    {
      "epoch": 0.869376,
      "grad_norm": 0.5449649095535278,
      "learning_rate": 4.405171323261742e-05,
      "loss": 2.414,
      "step": 6792
    },
    {
      "epoch": 0.869504,
      "grad_norm": 0.4971013367176056,
      "learning_rate": 4.396666778232344e-05,
      "loss": 2.5519,
      "step": 6793
    },
    {
      "epoch": 0.869632,
      "grad_norm": 0.4174698293209076,
      "learning_rate": 4.388170072944603e-05,
      "loss": 2.5378,
      "step": 6794
    },
    {
      "epoch": 0.86976,
      "grad_norm": 0.40317729115486145,
      "learning_rate": 4.379681208859193e-05,
      "loss": 2.4819,
      "step": 6795
    },
    {
      "epoch": 0.869888,
      "grad_norm": 0.4159654676914215,
      "learning_rate": 4.37120018743547e-05,
      "loss": 2.6005,
      "step": 6796
    },
    {
      "epoch": 0.870016,
      "grad_norm": 0.5166518688201904,
      "learning_rate": 4.3627270101314064e-05,
      "loss": 2.4706,
      "step": 6797
    },
    {
      "epoch": 0.870144,
      "grad_norm": 0.411979615688324,
      "learning_rate": 4.3542616784036426e-05,
      "loss": 2.5582,
      "step": 6798
    },
    {
      "epoch": 0.870272,
      "grad_norm": 0.40963518619537354,
      "learning_rate": 4.345804193707459e-05,
      "loss": 2.5446,
      "step": 6799
    },
    {
      "epoch": 0.8704,
      "grad_norm": 0.41315802931785583,
      "learning_rate": 4.3373545574968144e-05,
      "loss": 2.5462,
      "step": 6800
    },
    {
      "epoch": 0.870528,
      "grad_norm": 0.4357455372810364,
      "learning_rate": 4.328912771224286e-05,
      "loss": 2.4892,
      "step": 6801
    },
    {
      "epoch": 0.870656,
      "grad_norm": 0.5151784420013428,
      "learning_rate": 4.320478836341113e-05,
      "loss": 2.5749,
      "step": 6802
    },
    {
      "epoch": 0.870784,
      "grad_norm": 0.3721333146095276,
      "learning_rate": 4.312052754297197e-05,
      "loss": 2.5791,
      "step": 6803
    },
    {
      "epoch": 0.870912,
      "grad_norm": 0.6319684386253357,
      "learning_rate": 4.303634526541067e-05,
      "loss": 2.5778,
      "step": 6804
    },
    {
      "epoch": 0.87104,
      "grad_norm": 0.42519038915634155,
      "learning_rate": 4.2952241545199225e-05,
      "loss": 2.5498,
      "step": 6805
    },
    {
      "epoch": 0.871168,
      "grad_norm": 0.39332374930381775,
      "learning_rate": 4.2868216396796055e-05,
      "loss": 2.6076,
      "step": 6806
    },
    {
      "epoch": 0.871296,
      "grad_norm": 0.694046676158905,
      "learning_rate": 4.278426983464595e-05,
      "loss": 2.4968,
      "step": 6807
    },
    {
      "epoch": 0.871424,
      "grad_norm": 0.41863006353378296,
      "learning_rate": 4.2700401873180303e-05,
      "loss": 2.5378,
      "step": 6808
    },
    {
      "epoch": 0.871552,
      "grad_norm": 0.3990999162197113,
      "learning_rate": 4.261661252681714e-05,
      "loss": 2.5255,
      "step": 6809
    },
    {
      "epoch": 0.87168,
      "grad_norm": 0.3845188021659851,
      "learning_rate": 4.253290180996067e-05,
      "loss": 2.5359,
      "step": 6810
    },
    {
      "epoch": 0.871808,
      "grad_norm": 0.3820955157279968,
      "learning_rate": 4.2449269737001804e-05,
      "loss": 2.572,
      "step": 6811
    },
    {
      "epoch": 0.871936,
      "grad_norm": 0.41512808203697205,
      "learning_rate": 4.2365716322317894e-05,
      "loss": 2.6308,
      "step": 6812
    },
    {
      "epoch": 0.872064,
      "grad_norm": 0.4150039851665497,
      "learning_rate": 4.228224158027272e-05,
      "loss": 2.5932,
      "step": 6813
    },
    {
      "epoch": 0.872192,
      "grad_norm": 0.5204280018806458,
      "learning_rate": 4.2198845525216524e-05,
      "loss": 2.5431,
      "step": 6814
    },
    {
      "epoch": 0.87232,
      "grad_norm": 0.41832467913627625,
      "learning_rate": 4.211552817148606e-05,
      "loss": 2.5054,
      "step": 6815
    },
    {
      "epoch": 0.872448,
      "grad_norm": 0.3869180381298065,
      "learning_rate": 4.2032289533404434e-05,
      "loss": 2.5539,
      "step": 6816
    },
    {
      "epoch": 0.872576,
      "grad_norm": 0.4220111072063446,
      "learning_rate": 4.194912962528158e-05,
      "loss": 2.5242,
      "step": 6817
    },
    {
      "epoch": 0.872704,
      "grad_norm": 0.5796799659729004,
      "learning_rate": 4.186604846141345e-05,
      "loss": 2.5042,
      "step": 6818
    },
    {
      "epoch": 0.872832,
      "grad_norm": 0.4966306686401367,
      "learning_rate": 4.17830460560828e-05,
      "loss": 2.609,
      "step": 6819
    },
    {
      "epoch": 0.87296,
      "grad_norm": 0.399292528629303,
      "learning_rate": 4.170012242355864e-05,
      "loss": 2.5531,
      "step": 6820
    },
    {
      "epoch": 0.873088,
      "grad_norm": 0.4238283932209015,
      "learning_rate": 4.1617277578096526e-05,
      "loss": 2.4761,
      "step": 6821
    },
    {
      "epoch": 0.873216,
      "grad_norm": 0.4010559022426605,
      "learning_rate": 4.153451153393839e-05,
      "loss": 2.5734,
      "step": 6822
    },
    {
      "epoch": 0.873344,
      "grad_norm": 0.40226149559020996,
      "learning_rate": 4.1451824305312634e-05,
      "loss": 2.5305,
      "step": 6823
    },
    {
      "epoch": 0.873472,
      "grad_norm": 0.4291606545448303,
      "learning_rate": 4.136921590643433e-05,
      "loss": 2.651,
      "step": 6824
    },
    {
      "epoch": 0.8736,
      "grad_norm": 0.40890735387802124,
      "learning_rate": 4.1286686351504735e-05,
      "loss": 2.561,
      "step": 6825
    },
    {
      "epoch": 0.873728,
      "grad_norm": 0.43540072441101074,
      "learning_rate": 4.120423565471154e-05,
      "loss": 2.5934,
      "step": 6826
    },
    {
      "epoch": 0.873856,
      "grad_norm": 0.384799987077713,
      "learning_rate": 4.1121863830229036e-05,
      "loss": 2.657,
      "step": 6827
    },
    {
      "epoch": 0.873984,
      "grad_norm": 0.4445400536060333,
      "learning_rate": 4.103957089221799e-05,
      "loss": 2.5492,
      "step": 6828
    },
    {
      "epoch": 0.874112,
      "grad_norm": 0.3939746022224426,
      "learning_rate": 4.0957356854825435e-05,
      "loss": 2.5866,
      "step": 6829
    },
    {
      "epoch": 0.87424,
      "grad_norm": 0.443759024143219,
      "learning_rate": 4.0875221732184884e-05,
      "loss": 2.5931,
      "step": 6830
    },
    {
      "epoch": 0.874368,
      "grad_norm": 0.46242472529411316,
      "learning_rate": 4.0793165538416275e-05,
      "loss": 2.5597,
      "step": 6831
    },
    {
      "epoch": 0.874496,
      "grad_norm": 0.4162463843822479,
      "learning_rate": 4.0711188287626156e-05,
      "loss": 2.5031,
      "step": 6832
    },
    {
      "epoch": 0.874624,
      "grad_norm": 0.5255382061004639,
      "learning_rate": 4.062928999390736e-05,
      "loss": 2.5108,
      "step": 6833
    },
    {
      "epoch": 0.874752,
      "grad_norm": 0.3816017806529999,
      "learning_rate": 4.054747067133907e-05,
      "loss": 2.6007,
      "step": 6834
    },
    {
      "epoch": 0.87488,
      "grad_norm": 0.43256068229675293,
      "learning_rate": 4.0465730333986985e-05,
      "loss": 2.5012,
      "step": 6835
    },
    {
      "epoch": 0.875008,
      "grad_norm": 0.48998191952705383,
      "learning_rate": 4.038406899590313e-05,
      "loss": 2.5486,
      "step": 6836
    },
    {
      "epoch": 0.875136,
      "grad_norm": 0.4194808304309845,
      "learning_rate": 4.030248667112629e-05,
      "loss": 2.5815,
      "step": 6837
    },
    {
      "epoch": 0.875264,
      "grad_norm": 0.4104169011116028,
      "learning_rate": 4.022098337368113e-05,
      "loss": 2.6003,
      "step": 6838
    },
    {
      "epoch": 0.875392,
      "grad_norm": 0.40747448801994324,
      "learning_rate": 4.013955911757922e-05,
      "loss": 2.5015,
      "step": 6839
    },
    {
      "epoch": 0.87552,
      "grad_norm": 0.3955376446247101,
      "learning_rate": 4.0058213916818295e-05,
      "loss": 2.5027,
      "step": 6840
    },
    {
      "epoch": 0.875648,
      "grad_norm": 0.5334546566009521,
      "learning_rate": 3.997694778538247e-05,
      "loss": 2.5489,
      "step": 6841
    },
    {
      "epoch": 0.875776,
      "grad_norm": 0.4197193682193756,
      "learning_rate": 3.989576073724238e-05,
      "loss": 2.5385,
      "step": 6842
    },
    {
      "epoch": 0.875904,
      "grad_norm": 0.3787165880203247,
      "learning_rate": 3.981465278635504e-05,
      "loss": 2.5185,
      "step": 6843
    },
    {
      "epoch": 0.876032,
      "grad_norm": 0.4033668041229248,
      "learning_rate": 3.973362394666369e-05,
      "loss": 2.5628,
      "step": 6844
    },
    {
      "epoch": 0.87616,
      "grad_norm": 0.38490086793899536,
      "learning_rate": 3.965267423209834e-05,
      "loss": 2.6543,
      "step": 6845
    },
    {
      "epoch": 0.876288,
      "grad_norm": 0.3812134265899658,
      "learning_rate": 3.957180365657498e-05,
      "loss": 2.6745,
      "step": 6846
    },
    {
      "epoch": 0.876416,
      "grad_norm": 0.34589675068855286,
      "learning_rate": 3.949101223399643e-05,
      "loss": 2.4859,
      "step": 6847
    },
    {
      "epoch": 0.876544,
      "grad_norm": 0.3644798696041107,
      "learning_rate": 3.941029997825152e-05,
      "loss": 2.4853,
      "step": 6848
    },
    {
      "epoch": 0.876672,
      "grad_norm": 0.38480785489082336,
      "learning_rate": 3.932966690321571e-05,
      "loss": 2.4868,
      "step": 6849
    },
    {
      "epoch": 0.8768,
      "grad_norm": 0.38560864329338074,
      "learning_rate": 3.9249113022750694e-05,
      "loss": 2.5198,
      "step": 6850
    },
    {
      "epoch": 0.876928,
      "grad_norm": 0.37852051854133606,
      "learning_rate": 3.9168638350704614e-05,
      "loss": 2.5088,
      "step": 6851
    },
    {
      "epoch": 0.877056,
      "grad_norm": 0.45149776339530945,
      "learning_rate": 3.908824290091195e-05,
      "loss": 2.4402,
      "step": 6852
    },
    {
      "epoch": 0.877184,
      "grad_norm": 0.38537198305130005,
      "learning_rate": 3.900792668719372e-05,
      "loss": 2.5765,
      "step": 6853
    },
    {
      "epoch": 0.877312,
      "grad_norm": 0.4047991931438446,
      "learning_rate": 3.892768972335725e-05,
      "loss": 2.542,
      "step": 6854
    },
    {
      "epoch": 0.87744,
      "grad_norm": 0.40087905526161194,
      "learning_rate": 3.884753202319596e-05,
      "loss": 2.4946,
      "step": 6855
    },
    {
      "epoch": 0.877568,
      "grad_norm": 0.3984604775905609,
      "learning_rate": 3.8767453600490167e-05,
      "loss": 2.5252,
      "step": 6856
    },
    {
      "epoch": 0.877696,
      "grad_norm": 0.4556647539138794,
      "learning_rate": 3.868745446900618e-05,
      "loss": 2.6539,
      "step": 6857
    },
    {
      "epoch": 0.877824,
      "grad_norm": 0.4180775284767151,
      "learning_rate": 3.8607534642496777e-05,
      "loss": 2.4867,
      "step": 6858
    },
    {
      "epoch": 0.877952,
      "grad_norm": 0.4232282340526581,
      "learning_rate": 3.852769413470098e-05,
      "loss": 2.6114,
      "step": 6859
    },
    {
      "epoch": 0.87808,
      "grad_norm": 0.3738333582878113,
      "learning_rate": 3.844793295934451e-05,
      "loss": 2.6183,
      "step": 6860
    },
    {
      "epoch": 0.878208,
      "grad_norm": 0.3861904442310333,
      "learning_rate": 3.8368251130139086e-05,
      "loss": 2.4705,
      "step": 6861
    },
    {
      "epoch": 0.878336,
      "grad_norm": 0.37101706862449646,
      "learning_rate": 3.828864866078302e-05,
      "loss": 2.5173,
      "step": 6862
    },
    {
      "epoch": 0.878464,
      "grad_norm": 0.43431559205055237,
      "learning_rate": 3.820912556496087e-05,
      "loss": 2.5259,
      "step": 6863
    },
    {
      "epoch": 0.878592,
      "grad_norm": 0.4824012815952301,
      "learning_rate": 3.812968185634352e-05,
      "loss": 2.5312,
      "step": 6864
    },
    {
      "epoch": 0.87872,
      "grad_norm": 0.4210544228553772,
      "learning_rate": 3.805031754858834e-05,
      "loss": 2.4819,
      "step": 6865
    },
    {
      "epoch": 0.878848,
      "grad_norm": 0.489970326423645,
      "learning_rate": 3.7971032655339024e-05,
      "loss": 2.5798,
      "step": 6866
    },
    {
      "epoch": 0.878976,
      "grad_norm": 0.37466567754745483,
      "learning_rate": 3.789182719022538e-05,
      "loss": 2.4761,
      "step": 6867
    },
    {
      "epoch": 0.879104,
      "grad_norm": 0.3825138211250305,
      "learning_rate": 3.781270116686392e-05,
      "loss": 2.4265,
      "step": 6868
    },
    {
      "epoch": 0.879232,
      "grad_norm": 0.6112686991691589,
      "learning_rate": 3.77336545988573e-05,
      "loss": 2.5927,
      "step": 6869
    },
    {
      "epoch": 0.87936,
      "grad_norm": 0.480929434299469,
      "learning_rate": 3.765468749979445e-05,
      "loss": 2.592,
      "step": 6870
    },
    {
      "epoch": 0.879488,
      "grad_norm": 0.3895202875137329,
      "learning_rate": 3.757579988325083e-05,
      "loss": 2.5232,
      "step": 6871
    },
    {
      "epoch": 0.879616,
      "grad_norm": 0.4129922389984131,
      "learning_rate": 3.749699176278809e-05,
      "loss": 2.467,
      "step": 6872
    },
    {
      "epoch": 0.879744,
      "grad_norm": 0.39964109659194946,
      "learning_rate": 3.741826315195418e-05,
      "loss": 2.5091,
      "step": 6873
    },
    {
      "epoch": 0.879872,
      "grad_norm": 0.4699111580848694,
      "learning_rate": 3.733961406428354e-05,
      "loss": 2.5488,
      "step": 6874
    },
    {
      "epoch": 0.88,
      "grad_norm": 0.4278479516506195,
      "learning_rate": 3.7261044513296926e-05,
      "loss": 2.4668,
      "step": 6875
    },
    {
      "epoch": 0.880128,
      "grad_norm": 0.4036252200603485,
      "learning_rate": 3.7182554512501296e-05,
      "loss": 2.457,
      "step": 6876
    },
    {
      "epoch": 0.880256,
      "grad_norm": 0.37955281138420105,
      "learning_rate": 3.710414407538998e-05,
      "loss": 2.5432,
      "step": 6877
    },
    {
      "epoch": 0.880384,
      "grad_norm": 0.4146021902561188,
      "learning_rate": 3.7025813215442684e-05,
      "loss": 2.6028,
      "step": 6878
    },
    {
      "epoch": 0.880512,
      "grad_norm": 0.42882466316223145,
      "learning_rate": 3.694756194612531e-05,
      "loss": 2.4839,
      "step": 6879
    },
    {
      "epoch": 0.88064,
      "grad_norm": 0.3868921995162964,
      "learning_rate": 3.686939028089015e-05,
      "loss": 2.4673,
      "step": 6880
    },
    {
      "epoch": 0.880768,
      "grad_norm": 0.3858382999897003,
      "learning_rate": 3.679129823317595e-05,
      "loss": 2.5975,
      "step": 6881
    },
    {
      "epoch": 0.880896,
      "grad_norm": 0.42113953828811646,
      "learning_rate": 3.6713285816407535e-05,
      "loss": 2.5049,
      "step": 6882
    },
    {
      "epoch": 0.881024,
      "grad_norm": 0.44236698746681213,
      "learning_rate": 3.663535304399607e-05,
      "loss": 2.5888,
      "step": 6883
    },
    {
      "epoch": 0.881152,
      "grad_norm": 0.3916594088077545,
      "learning_rate": 3.655749992933932e-05,
      "loss": 2.657,
      "step": 6884
    },
    {
      "epoch": 0.88128,
      "grad_norm": 0.4259975850582123,
      "learning_rate": 3.647972648582104e-05,
      "loss": 2.5965,
      "step": 6885
    },
    {
      "epoch": 0.881408,
      "grad_norm": 0.3939697742462158,
      "learning_rate": 3.640203272681131e-05,
      "loss": 2.6198,
      "step": 6886
    },
    {
      "epoch": 0.881536,
      "grad_norm": 0.4011141061782837,
      "learning_rate": 3.632441866566672e-05,
      "loss": 2.5663,
      "step": 6887
    },
    {
      "epoch": 0.881664,
      "grad_norm": 0.44773876667022705,
      "learning_rate": 3.624688431572981e-05,
      "loss": 2.4773,
      "step": 6888
    },
    {
      "epoch": 0.881792,
      "grad_norm": 0.3986753523349762,
      "learning_rate": 3.6169429690329825e-05,
      "loss": 2.5407,
      "step": 6889
    },
    {
      "epoch": 0.88192,
      "grad_norm": 0.3919762969017029,
      "learning_rate": 3.60920548027821e-05,
      "loss": 2.5684,
      "step": 6890
    },
    {
      "epoch": 0.882048,
      "grad_norm": 0.47003409266471863,
      "learning_rate": 3.6014759666388284e-05,
      "loss": 2.442,
      "step": 6891
    },
    {
      "epoch": 0.882176,
      "grad_norm": 0.47195732593536377,
      "learning_rate": 3.593754429443613e-05,
      "loss": 2.5634,
      "step": 6892
    },
    {
      "epoch": 0.882304,
      "grad_norm": 0.47808825969696045,
      "learning_rate": 3.586040870020008e-05,
      "loss": 2.6791,
      "step": 6893
    },
    {
      "epoch": 0.882432,
      "grad_norm": 0.39777618646621704,
      "learning_rate": 3.578335289694051e-05,
      "loss": 2.5459,
      "step": 6894
    },
    {
      "epoch": 0.88256,
      "grad_norm": 0.7625621557235718,
      "learning_rate": 3.570637689790418e-05,
      "loss": 2.5234,
      "step": 6895
    },
    {
      "epoch": 0.882688,
      "grad_norm": 0.40458136796951294,
      "learning_rate": 3.562948071632427e-05,
      "loss": 2.6089,
      "step": 6896
    },
    {
      "epoch": 0.882816,
      "grad_norm": 0.42350855469703674,
      "learning_rate": 3.5552664365420094e-05,
      "loss": 2.6271,
      "step": 6897
    },
    {
      "epoch": 0.882944,
      "grad_norm": 0.405846506357193,
      "learning_rate": 3.547592785839726e-05,
      "loss": 2.5418,
      "step": 6898
    },
    {
      "epoch": 0.883072,
      "grad_norm": 0.39689770340919495,
      "learning_rate": 3.539927120844766e-05,
      "loss": 2.6579,
      "step": 6899
    },
    {
      "epoch": 0.8832,
      "grad_norm": 0.4284901022911072,
      "learning_rate": 3.532269442874941e-05,
      "loss": 2.5981,
      "step": 6900
    },
    {
      "epoch": 0.883328,
      "grad_norm": 0.4278789162635803,
      "learning_rate": 3.524619753246694e-05,
      "loss": 2.4688,
      "step": 6901
    },
    {
      "epoch": 0.883456,
      "grad_norm": 0.3981359004974365,
      "learning_rate": 3.5169780532751105e-05,
      "loss": 2.5985,
      "step": 6902
    },
    {
      "epoch": 0.883584,
      "grad_norm": 0.4162338972091675,
      "learning_rate": 3.509344344273863e-05,
      "loss": 2.6896,
      "step": 6903
    },
    {
      "epoch": 0.883712,
      "grad_norm": 0.4262995719909668,
      "learning_rate": 3.501718627555301e-05,
      "loss": 2.5908,
      "step": 6904
    },
    {
      "epoch": 0.88384,
      "grad_norm": 0.3806411325931549,
      "learning_rate": 3.4941009044303585e-05,
      "loss": 2.6313,
      "step": 6905
    },
    {
      "epoch": 0.883968,
      "grad_norm": 0.44790709018707275,
      "learning_rate": 3.486491176208617e-05,
      "loss": 2.562,
      "step": 6906
    },
    {
      "epoch": 0.884096,
      "grad_norm": 0.668709397315979,
      "learning_rate": 3.4788894441982685e-05,
      "loss": 2.6782,
      "step": 6907
    },
    {
      "epoch": 0.884224,
      "grad_norm": 0.3658719062805176,
      "learning_rate": 3.471295709706146e-05,
      "loss": 2.533,
      "step": 6908
    },
    {
      "epoch": 0.884352,
      "grad_norm": 0.3714739978313446,
      "learning_rate": 3.4637099740376935e-05,
      "loss": 2.5539,
      "step": 6909
    },
    {
      "epoch": 0.88448,
      "grad_norm": 0.4040547013282776,
      "learning_rate": 3.456132238496984e-05,
      "loss": 2.5756,
      "step": 6910
    },
    {
      "epoch": 0.884608,
      "grad_norm": 0.3938012421131134,
      "learning_rate": 3.448562504386738e-05,
      "loss": 2.5225,
      "step": 6911
    },
    {
      "epoch": 0.884736,
      "grad_norm": 0.42736756801605225,
      "learning_rate": 3.4410007730082685e-05,
      "loss": 2.4815,
      "step": 6912
    },
    {
      "epoch": 0.884864,
      "grad_norm": 0.38190653920173645,
      "learning_rate": 3.4334470456615254e-05,
      "loss": 2.446,
      "step": 6913
    },
    {
      "epoch": 0.884992,
      "grad_norm": 0.40191033482551575,
      "learning_rate": 3.425901323645075e-05,
      "loss": 2.6015,
      "step": 6914
    },
    {
      "epoch": 0.88512,
      "grad_norm": 0.44602686166763306,
      "learning_rate": 3.418363608256125e-05,
      "loss": 2.615,
      "step": 6915
    },
    {
      "epoch": 0.885248,
      "grad_norm": 0.40869078040122986,
      "learning_rate": 3.410833900790483e-05,
      "loss": 2.5905,
      "step": 6916
    },
    {
      "epoch": 0.885376,
      "grad_norm": 0.4678955674171448,
      "learning_rate": 3.403312202542608e-05,
      "loss": 2.6054,
      "step": 6917
    },
    {
      "epoch": 0.885504,
      "grad_norm": 0.38358086347579956,
      "learning_rate": 3.395798514805565e-05,
      "loss": 2.602,
      "step": 6918
    },
    {
      "epoch": 0.885632,
      "grad_norm": 0.41462066769599915,
      "learning_rate": 3.3882928388710376e-05,
      "loss": 2.6452,
      "step": 6919
    },
    {
      "epoch": 0.88576,
      "grad_norm": 0.38073986768722534,
      "learning_rate": 3.3807951760293275e-05,
      "loss": 2.5663,
      "step": 6920
    },
    {
      "epoch": 0.885888,
      "grad_norm": 0.41716626286506653,
      "learning_rate": 3.373305527569398e-05,
      "loss": 2.4568,
      "step": 6921
    },
    {
      "epoch": 0.886016,
      "grad_norm": 0.40745973587036133,
      "learning_rate": 3.3658238947787855e-05,
      "loss": 2.6143,
      "step": 6922
    },
    {
      "epoch": 0.886144,
      "grad_norm": 0.37778639793395996,
      "learning_rate": 3.358350278943678e-05,
      "loss": 2.4945,
      "step": 6923
    },
    {
      "epoch": 0.886272,
      "grad_norm": 0.37882891297340393,
      "learning_rate": 3.3508846813488646e-05,
      "loss": 2.6532,
      "step": 6924
    },
    {
      "epoch": 0.8864,
      "grad_norm": 0.3941549062728882,
      "learning_rate": 3.343427103277785e-05,
      "loss": 2.5631,
      "step": 6925
    },
    {
      "epoch": 0.886528,
      "grad_norm": 0.4594677984714508,
      "learning_rate": 3.335977546012481e-05,
      "loss": 2.4744,
      "step": 6926
    },
    {
      "epoch": 0.886656,
      "grad_norm": 0.5306779146194458,
      "learning_rate": 3.328536010833605e-05,
      "loss": 2.5983,
      "step": 6927
    },
    {
      "epoch": 0.886784,
      "grad_norm": 0.3590940833091736,
      "learning_rate": 3.3211024990204565e-05,
      "loss": 2.5155,
      "step": 6928
    },
    {
      "epoch": 0.886912,
      "grad_norm": 0.4290226995944977,
      "learning_rate": 3.313677011850924e-05,
      "loss": 2.5502,
      "step": 6929
    },
    {
      "epoch": 0.88704,
      "grad_norm": 0.4060227572917938,
      "learning_rate": 3.306259550601559e-05,
      "loss": 2.504,
      "step": 6930
    },
    {
      "epoch": 0.887168,
      "grad_norm": 0.4040232300758362,
      "learning_rate": 3.298850116547486e-05,
      "loss": 2.522,
      "step": 6931
    },
    {
      "epoch": 0.887296,
      "grad_norm": 0.5273978114128113,
      "learning_rate": 3.291448710962497e-05,
      "loss": 2.5024,
      "step": 6932
    },
    {
      "epoch": 0.887424,
      "grad_norm": 4.8547773361206055,
      "learning_rate": 3.284055335118963e-05,
      "loss": 2.6615,
      "step": 6933
    },
    {
      "epoch": 0.887552,
      "grad_norm": 0.4193885922431946,
      "learning_rate": 3.276669990287895e-05,
      "loss": 2.5629,
      "step": 6934
    },
    {
      "epoch": 0.88768,
      "grad_norm": 0.4208255112171173,
      "learning_rate": 3.269292677738922e-05,
      "loss": 2.5,
      "step": 6935
    },
    {
      "epoch": 0.887808,
      "grad_norm": 0.3900461792945862,
      "learning_rate": 3.261923398740285e-05,
      "loss": 2.6263,
      "step": 6936
    },
    {
      "epoch": 0.887936,
      "grad_norm": 1.8014962673187256,
      "learning_rate": 3.2545621545588436e-05,
      "loss": 2.5192,
      "step": 6937
    },
    {
      "epoch": 0.888064,
      "grad_norm": 0.37246134877204895,
      "learning_rate": 3.247208946460084e-05,
      "loss": 2.5697,
      "step": 6938
    },
    {
      "epoch": 0.888192,
      "grad_norm": 0.3880597651004791,
      "learning_rate": 3.2398637757081185e-05,
      "loss": 2.5695,
      "step": 6939
    },
    {
      "epoch": 0.88832,
      "grad_norm": 0.3800252079963684,
      "learning_rate": 3.232526643565664e-05,
      "loss": 2.5911,
      "step": 6940
    },
    {
      "epoch": 0.888448,
      "grad_norm": 0.39515888690948486,
      "learning_rate": 3.2251975512940514e-05,
      "loss": 2.4782,
      "step": 6941
    },
    {
      "epoch": 0.888576,
      "grad_norm": 1.0553561449050903,
      "learning_rate": 3.2178765001532386e-05,
      "loss": 2.5662,
      "step": 6942
    },
    {
      "epoch": 0.888704,
      "grad_norm": 0.3743085563182831,
      "learning_rate": 3.210563491401808e-05,
      "loss": 2.5065,
      "step": 6943
    },
    {
      "epoch": 0.888832,
      "grad_norm": 0.44203245639801025,
      "learning_rate": 3.203258526296937e-05,
      "loss": 2.5615,
      "step": 6944
    },
    {
      "epoch": 0.88896,
      "grad_norm": 0.5773858428001404,
      "learning_rate": 3.195961606094433e-05,
      "loss": 2.4388,
      "step": 6945
    },
    {
      "epoch": 0.889088,
      "grad_norm": 0.41106587648391724,
      "learning_rate": 3.188672732048731e-05,
      "loss": 2.5489,
      "step": 6946
    },
    {
      "epoch": 0.889216,
      "grad_norm": 0.3760760426521301,
      "learning_rate": 3.181391905412867e-05,
      "loss": 2.5424,
      "step": 6947
    },
    {
      "epoch": 0.889344,
      "grad_norm": 0.3906872272491455,
      "learning_rate": 3.174119127438507e-05,
      "loss": 2.5177,
      "step": 6948
    },
    {
      "epoch": 0.889472,
      "grad_norm": 0.46871358156204224,
      "learning_rate": 3.166854399375929e-05,
      "loss": 2.3995,
      "step": 6949
    },
    {
      "epoch": 0.8896,
      "grad_norm": 0.3900514543056488,
      "learning_rate": 3.159597722474006e-05,
      "loss": 2.5002,
      "step": 6950
    },
    {
      "epoch": 0.889728,
      "grad_norm": 0.41767430305480957,
      "learning_rate": 3.1523490979802614e-05,
      "loss": 2.5637,
      "step": 6951
    },
    {
      "epoch": 0.889856,
      "grad_norm": 0.4032588601112366,
      "learning_rate": 3.145108527140805e-05,
      "loss": 2.4727,
      "step": 6952
    },
    {
      "epoch": 0.889984,
      "grad_norm": 0.42247462272644043,
      "learning_rate": 3.1378760112003853e-05,
      "loss": 2.5944,
      "step": 6953
    },
    {
      "epoch": 0.890112,
      "grad_norm": 0.45262792706489563,
      "learning_rate": 3.1306515514023527e-05,
      "loss": 2.6448,
      "step": 6954
    },
    {
      "epoch": 0.89024,
      "grad_norm": 0.4228261113166809,
      "learning_rate": 3.1234351489886736e-05,
      "loss": 2.5869,
      "step": 6955
    },
    {
      "epoch": 0.890368,
      "grad_norm": 0.363243967294693,
      "learning_rate": 3.116226805199929e-05,
      "loss": 2.5719,
      "step": 6956
    },
    {
      "epoch": 0.890496,
      "grad_norm": 0.41498079895973206,
      "learning_rate": 3.109026521275321e-05,
      "loss": 2.5954,
      "step": 6957
    },
    {
      "epoch": 0.890624,
      "grad_norm": 0.3819213807582855,
      "learning_rate": 3.1018342984526604e-05,
      "loss": 2.517,
      "step": 6958
    },
    {
      "epoch": 0.890752,
      "grad_norm": 0.4034174680709839,
      "learning_rate": 3.0946501379683686e-05,
      "loss": 2.593,
      "step": 6959
    },
    {
      "epoch": 0.89088,
      "grad_norm": 0.3912549614906311,
      "learning_rate": 3.087474041057503e-05,
      "loss": 2.6023,
      "step": 6960
    },
    {
      "epoch": 0.891008,
      "grad_norm": 0.42600521445274353,
      "learning_rate": 3.080306008953704e-05,
      "loss": 2.4507,
      "step": 6961
    },
    {
      "epoch": 0.891136,
      "grad_norm": 0.4019264280796051,
      "learning_rate": 3.073146042889241e-05,
      "loss": 2.4898,
      "step": 6962
    },
    {
      "epoch": 0.891264,
      "grad_norm": 0.39399972558021545,
      "learning_rate": 3.065994144094997e-05,
      "loss": 2.6186,
      "step": 6963
    },
    {
      "epoch": 0.891392,
      "grad_norm": 0.40433675050735474,
      "learning_rate": 3.05885031380046e-05,
      "loss": 2.5734,
      "step": 6964
    },
    {
      "epoch": 0.89152,
      "grad_norm": 0.4081965684890747,
      "learning_rate": 3.0517145532337476e-05,
      "loss": 2.654,
      "step": 6965
    },
    {
      "epoch": 0.891648,
      "grad_norm": 0.39734819531440735,
      "learning_rate": 3.0445868636215678e-05,
      "loss": 2.6639,
      "step": 6966
    },
    {
      "epoch": 0.891776,
      "grad_norm": 0.5856980681419373,
      "learning_rate": 3.037467246189257e-05,
      "loss": 2.5669,
      "step": 6967
    },
    {
      "epoch": 0.891904,
      "grad_norm": 0.37776046991348267,
      "learning_rate": 3.0303557021607754e-05,
      "loss": 2.5541,
      "step": 6968
    },
    {
      "epoch": 0.892032,
      "grad_norm": 0.3982454538345337,
      "learning_rate": 3.0232522327586664e-05,
      "loss": 2.4331,
      "step": 6969
    },
    {
      "epoch": 0.89216,
      "grad_norm": 0.3718547821044922,
      "learning_rate": 3.0161568392040982e-05,
      "loss": 2.5105,
      "step": 6970
    },
    {
      "epoch": 0.892288,
      "grad_norm": 0.39989471435546875,
      "learning_rate": 3.0090695227168507e-05,
      "loss": 2.6354,
      "step": 6971
    },
    {
      "epoch": 0.892416,
      "grad_norm": 0.5187191367149353,
      "learning_rate": 3.0019902845153214e-05,
      "loss": 2.5333,
      "step": 6972
    },
    {
      "epoch": 0.892544,
      "grad_norm": 0.42629891633987427,
      "learning_rate": 2.9949191258164976e-05,
      "loss": 2.5607,
      "step": 6973
    },
    {
      "epoch": 0.892672,
      "grad_norm": 0.43240490555763245,
      "learning_rate": 2.9878560478360183e-05,
      "loss": 2.5626,
      "step": 6974
    },
    {
      "epoch": 0.8928,
      "grad_norm": 0.3886364996433258,
      "learning_rate": 2.9808010517880847e-05,
      "loss": 2.5933,
      "step": 6975
    },
    {
      "epoch": 0.892928,
      "grad_norm": 0.38965606689453125,
      "learning_rate": 2.9737541388855536e-05,
      "loss": 2.5297,
      "step": 6976
    },
    {
      "epoch": 0.893056,
      "grad_norm": 0.3980575203895569,
      "learning_rate": 2.966715310339857e-05,
      "loss": 2.5662,
      "step": 6977
    },
    {
      "epoch": 0.893184,
      "grad_norm": 0.4087965786457062,
      "learning_rate": 2.9596845673610596e-05,
      "loss": 2.5892,
      "step": 6978
    },
    {
      "epoch": 0.893312,
      "grad_norm": 1.4800803661346436,
      "learning_rate": 2.9526619111578222e-05,
      "loss": 2.5323,
      "step": 6979
    },
    {
      "epoch": 0.89344,
      "grad_norm": 0.41515299677848816,
      "learning_rate": 2.945647342937413e-05,
      "loss": 2.7021,
      "step": 6980
    },
    {
      "epoch": 0.893568,
      "grad_norm": 0.40641364455223083,
      "learning_rate": 2.9386408639057392e-05,
      "loss": 2.4395,
      "step": 6981
    },
    {
      "epoch": 0.893696,
      "grad_norm": 0.7636841535568237,
      "learning_rate": 2.9316424752672767e-05,
      "loss": 2.5352,
      "step": 6982
    },
    {
      "epoch": 0.893824,
      "grad_norm": 0.3977803885936737,
      "learning_rate": 2.92465217822514e-05,
      "loss": 2.6537,
      "step": 6983
    },
    {
      "epoch": 0.893952,
      "grad_norm": 0.5198826193809509,
      "learning_rate": 2.9176699739810298e-05,
      "loss": 2.6008,
      "step": 6984
    },
    {
      "epoch": 0.89408,
      "grad_norm": 0.48805364966392517,
      "learning_rate": 2.9106958637352797e-05,
      "loss": 2.617,
      "step": 6985
    },
    {
      "epoch": 0.894208,
      "grad_norm": 0.3893606960773468,
      "learning_rate": 2.90372984868682e-05,
      "loss": 2.6233,
      "step": 6986
    },
    {
      "epoch": 0.894336,
      "grad_norm": 0.4184815585613251,
      "learning_rate": 2.8967719300331875e-05,
      "loss": 2.6401,
      "step": 6987
    },
    {
      "epoch": 0.894464,
      "grad_norm": 0.3820917308330536,
      "learning_rate": 2.889822108970519e-05,
      "loss": 2.5374,
      "step": 6988
    },
    {
      "epoch": 0.894592,
      "grad_norm": 0.3836948573589325,
      "learning_rate": 2.8828803866935815e-05,
      "loss": 2.6271,
      "step": 6989
    },
    {
      "epoch": 0.89472,
      "grad_norm": 0.3735942542552948,
      "learning_rate": 2.8759467643957372e-05,
      "loss": 2.6251,
      "step": 6990
    },
    {
      "epoch": 0.894848,
      "grad_norm": 0.3848627507686615,
      "learning_rate": 2.8690212432689544e-05,
      "loss": 2.52,
      "step": 6991
    },
    {
      "epoch": 0.894976,
      "grad_norm": 0.4496254324913025,
      "learning_rate": 2.862103824503809e-05,
      "loss": 2.589,
      "step": 6992
    },
    {
      "epoch": 0.895104,
      "grad_norm": 0.4037528932094574,
      "learning_rate": 2.8551945092894825e-05,
      "loss": 2.6105,
      "step": 6993
    },
    {
      "epoch": 0.895232,
      "grad_norm": 0.39703506231307983,
      "learning_rate": 2.8482932988137644e-05,
      "loss": 2.4592,
      "step": 6994
    },
    {
      "epoch": 0.89536,
      "grad_norm": 0.4866028130054474,
      "learning_rate": 2.841400194263055e-05,
      "loss": 2.5244,
      "step": 6995
    },
    {
      "epoch": 0.895488,
      "grad_norm": 0.5620657205581665,
      "learning_rate": 2.8345151968223738e-05,
      "loss": 2.5678,
      "step": 6996
    },
    {
      "epoch": 0.895616,
      "grad_norm": 0.39668068289756775,
      "learning_rate": 2.8276383076753175e-05,
      "loss": 2.5873,
      "step": 6997
    },
    {
      "epoch": 0.895744,
      "grad_norm": 0.3916270136833191,
      "learning_rate": 2.8207695280041023e-05,
      "loss": 2.4758,
      "step": 6998
    },
    {
      "epoch": 0.895872,
      "grad_norm": 0.46674829721450806,
      "learning_rate": 2.8139088589895557e-05,
      "loss": 2.4833,
      "step": 6999
    },
    {
      "epoch": 0.896,
      "grad_norm": 0.4763088822364807,
      "learning_rate": 2.8070563018111063e-05,
      "loss": 2.5421,
      "step": 7000
    },
    {
      "epoch": 0.896128,
      "grad_norm": 0.37957391142845154,
      "learning_rate": 2.8002118576467785e-05,
      "loss": 2.527,
      "step": 7001
    },
    {
      "epoch": 0.896256,
      "grad_norm": 0.47831547260284424,
      "learning_rate": 2.7933755276732254e-05,
      "loss": 2.6668,
      "step": 7002
    },
    {
      "epoch": 0.896384,
      "grad_norm": 0.5800050497055054,
      "learning_rate": 2.7865473130656793e-05,
      "loss": 2.4602,
      "step": 7003
    },
    {
      "epoch": 0.896512,
      "grad_norm": 0.43679559230804443,
      "learning_rate": 2.779727214997996e-05,
      "loss": 2.6351,
      "step": 7004
    },
    {
      "epoch": 0.89664,
      "grad_norm": 0.4054349958896637,
      "learning_rate": 2.7729152346426366e-05,
      "loss": 2.5488,
      "step": 7005
    },
    {
      "epoch": 0.896768,
      "grad_norm": 0.46474990248680115,
      "learning_rate": 2.7661113731706488e-05,
      "loss": 2.5314,
      "step": 7006
    },
    {
      "epoch": 0.896896,
      "grad_norm": 0.3710007965564728,
      "learning_rate": 2.7593156317516966e-05,
      "loss": 2.4948,
      "step": 7007
    },
    {
      "epoch": 0.897024,
      "grad_norm": 0.3801284432411194,
      "learning_rate": 2.7525280115540506e-05,
      "loss": 2.5886,
      "step": 7008
    },
    {
      "epoch": 0.897152,
      "grad_norm": 0.37651526927948,
      "learning_rate": 2.7457485137445727e-05,
      "loss": 2.4575,
      "step": 7009
    },
    {
      "epoch": 0.89728,
      "grad_norm": 0.3977590799331665,
      "learning_rate": 2.738977139488752e-05,
      "loss": 2.4926,
      "step": 7010
    },
    {
      "epoch": 0.897408,
      "grad_norm": 0.4100763201713562,
      "learning_rate": 2.732213889950652e-05,
      "loss": 2.5635,
      "step": 7011
    },
    {
      "epoch": 0.897536,
      "grad_norm": 0.45233187079429626,
      "learning_rate": 2.7254587662929543e-05,
      "loss": 2.5604,
      "step": 7012
    },
    {
      "epoch": 0.897664,
      "grad_norm": 0.38780978322029114,
      "learning_rate": 2.718711769676957e-05,
      "loss": 2.5856,
      "step": 7013
    },
    {
      "epoch": 0.897792,
      "grad_norm": 0.38426345586776733,
      "learning_rate": 2.7119729012625382e-05,
      "loss": 2.415,
      "step": 7014
    },
    {
      "epoch": 0.89792,
      "grad_norm": 0.4015691578388214,
      "learning_rate": 2.705242162208188e-05,
      "loss": 2.5165,
      "step": 7015
    },
    {
      "epoch": 0.898048,
      "grad_norm": 0.40651512145996094,
      "learning_rate": 2.6985195536709918e-05,
      "loss": 2.6382,
      "step": 7016
    },
    {
      "epoch": 0.898176,
      "grad_norm": 0.5102665424346924,
      "learning_rate": 2.6918050768066528e-05,
      "loss": 2.4263,
      "step": 7017
    },
    {
      "epoch": 0.898304,
      "grad_norm": 0.3771026134490967,
      "learning_rate": 2.6850987327694698e-05,
      "loss": 2.4225,
      "step": 7018
    },
    {
      "epoch": 0.898432,
      "grad_norm": 0.5662016272544861,
      "learning_rate": 2.678400522712332e-05,
      "loss": 2.5155,
      "step": 7019
    },
    {
      "epoch": 0.89856,
      "grad_norm": 0.3788052201271057,
      "learning_rate": 2.671710447786746e-05,
      "loss": 2.514,
      "step": 7020
    },
    {
      "epoch": 0.898688,
      "grad_norm": 0.5273160934448242,
      "learning_rate": 2.665028509142803e-05,
      "loss": 2.5082,
      "step": 7021
    },
    {
      "epoch": 0.898816,
      "grad_norm": 0.38291677832603455,
      "learning_rate": 2.6583547079292224e-05,
      "loss": 2.4754,
      "step": 7022
    },
    {
      "epoch": 0.898944,
      "grad_norm": 0.41950803995132446,
      "learning_rate": 2.6516890452932928e-05,
      "loss": 2.4455,
      "step": 7023
    },
    {
      "epoch": 0.899072,
      "grad_norm": 0.4287150502204895,
      "learning_rate": 2.645031522380925e-05,
      "loss": 2.6617,
      "step": 7024
    },
    {
      "epoch": 0.8992,
      "grad_norm": 0.4059261679649353,
      "learning_rate": 2.6383821403366258e-05,
      "loss": 2.5958,
      "step": 7025
    },
    {
      "epoch": 0.899328,
      "grad_norm": 0.44104650616645813,
      "learning_rate": 2.6317409003035032e-05,
      "loss": 2.5469,
      "step": 7026
    },
    {
      "epoch": 0.899456,
      "grad_norm": 0.4140510857105255,
      "learning_rate": 2.62510780342326e-05,
      "loss": 2.5733,
      "step": 7027
    },
    {
      "epoch": 0.899584,
      "grad_norm": 0.5469658374786377,
      "learning_rate": 2.6184828508362013e-05,
      "loss": 2.5589,
      "step": 7028
    },
    {
      "epoch": 0.899712,
      "grad_norm": 0.4057256579399109,
      "learning_rate": 2.6118660436812324e-05,
      "loss": 2.5459,
      "step": 7029
    },
    {
      "epoch": 0.89984,
      "grad_norm": 0.4466590881347656,
      "learning_rate": 2.6052573830958547e-05,
      "loss": 2.6217,
      "step": 7030
    },
    {
      "epoch": 0.899968,
      "grad_norm": 0.3873100280761719,
      "learning_rate": 2.5986568702161818e-05,
      "loss": 2.5382,
      "step": 7031
    },
    {
      "epoch": 0.900096,
      "grad_norm": 0.39974504709243774,
      "learning_rate": 2.592064506176922e-05,
      "loss": 2.5689,
      "step": 7032
    },
    {
      "epoch": 0.900224,
      "grad_norm": 0.520546555519104,
      "learning_rate": 2.585480292111375e-05,
      "loss": 2.5344,
      "step": 7033
    },
    {
      "epoch": 0.900352,
      "grad_norm": 0.44903433322906494,
      "learning_rate": 2.578904229151441e-05,
      "loss": 2.5811,
      "step": 7034
    },
    {
      "epoch": 0.90048,
      "grad_norm": 0.3811618387699127,
      "learning_rate": 2.5723363184276206e-05,
      "loss": 2.4496,
      "step": 7035
    },
    {
      "epoch": 0.900608,
      "grad_norm": 0.3813537061214447,
      "learning_rate": 2.565776561069022e-05,
      "loss": 2.5842,
      "step": 7036
    },
    {
      "epoch": 0.900736,
      "grad_norm": 0.3598117530345917,
      "learning_rate": 2.559224958203321e-05,
      "loss": 2.4749,
      "step": 7037
    },
    {
      "epoch": 0.900864,
      "grad_norm": 0.6021553874015808,
      "learning_rate": 2.5526815109568447e-05,
      "loss": 2.529,
      "step": 7038
    },
    {
      "epoch": 0.900992,
      "grad_norm": 0.41332632303237915,
      "learning_rate": 2.5461462204544704e-05,
      "loss": 2.589,
      "step": 7039
    },
    {
      "epoch": 0.90112,
      "grad_norm": 0.3991141617298126,
      "learning_rate": 2.539619087819689e-05,
      "loss": 2.4966,
      "step": 7040
    },
    {
      "epoch": 0.901248,
      "grad_norm": 0.4566437005996704,
      "learning_rate": 2.5331001141745968e-05,
      "loss": 2.5352,
      "step": 7041
    },
    {
      "epoch": 0.901376,
      "grad_norm": 0.40321213006973267,
      "learning_rate": 2.526589300639881e-05,
      "loss": 2.6134,
      "step": 7042
    },
    {
      "epoch": 0.901504,
      "grad_norm": 0.43016842007637024,
      "learning_rate": 2.520086648334824e-05,
      "loss": 2.5658,
      "step": 7043
    },
    {
      "epoch": 0.901632,
      "grad_norm": 0.390984445810318,
      "learning_rate": 2.5135921583773036e-05,
      "loss": 2.6449,
      "step": 7044
    },
    {
      "epoch": 0.90176,
      "grad_norm": 0.38217777013778687,
      "learning_rate": 2.5071058318837936e-05,
      "loss": 2.5811,
      "step": 7045
    },
    {
      "epoch": 0.901888,
      "grad_norm": 0.4312221109867096,
      "learning_rate": 2.5006276699693852e-05,
      "loss": 2.5896,
      "step": 7046
    },
    {
      "epoch": 0.902016,
      "grad_norm": 0.3968701958656311,
      "learning_rate": 2.4941576737477434e-05,
      "loss": 2.4264,
      "step": 7047
    },
    {
      "epoch": 0.902144,
      "grad_norm": 0.4078670144081116,
      "learning_rate": 2.4876958443311282e-05,
      "loss": 2.554,
      "step": 7048
    },
    {
      "epoch": 0.902272,
      "grad_norm": 0.466442346572876,
      "learning_rate": 2.481242182830401e-05,
      "loss": 2.4007,
      "step": 7049
    },
    {
      "epoch": 0.9024,
      "grad_norm": 0.4158256947994232,
      "learning_rate": 2.4747966903550358e-05,
      "loss": 2.4411,
      "step": 7050
    },
    {
      "epoch": 0.902528,
      "grad_norm": 0.41598567366600037,
      "learning_rate": 2.4683593680130732e-05,
      "loss": 2.5357,
      "step": 7051
    },
    {
      "epoch": 0.902656,
      "grad_norm": 0.4437486529350281,
      "learning_rate": 2.461930216911168e-05,
      "loss": 2.5427,
      "step": 7052
    },
    {
      "epoch": 0.902784,
      "grad_norm": 0.42250728607177734,
      "learning_rate": 2.455509238154574e-05,
      "loss": 2.5982,
      "step": 7053
    },
    {
      "epoch": 0.902912,
      "grad_norm": 0.36164841055870056,
      "learning_rate": 2.4490964328471254e-05,
      "loss": 2.5537,
      "step": 7054
    },
    {
      "epoch": 0.90304,
      "grad_norm": 0.4974616765975952,
      "learning_rate": 2.442691802091257e-05,
      "loss": 2.4519,
      "step": 7055
    },
    {
      "epoch": 0.903168,
      "grad_norm": 0.4488294720649719,
      "learning_rate": 2.4362953469879935e-05,
      "loss": 2.558,
      "step": 7056
    },
    {
      "epoch": 0.903296,
      "grad_norm": 0.43661314249038696,
      "learning_rate": 2.4299070686369717e-05,
      "loss": 2.5352,
      "step": 7057
    },
    {
      "epoch": 0.903424,
      "grad_norm": 0.43907424807548523,
      "learning_rate": 2.423526968136397e-05,
      "loss": 2.4951,
      "step": 7058
    },
    {
      "epoch": 0.903552,
      "grad_norm": 0.45690080523490906,
      "learning_rate": 2.417155046583097e-05,
      "loss": 2.633,
      "step": 7059
    },
    {
      "epoch": 0.90368,
      "grad_norm": 0.3868029713630676,
      "learning_rate": 2.4107913050724628e-05,
      "loss": 2.6113,
      "step": 7060
    },
    {
      "epoch": 0.903808,
      "grad_norm": 0.3875255286693573,
      "learning_rate": 2.4044357446985133e-05,
      "loss": 2.6258,
      "step": 7061
    },
    {
      "epoch": 0.903936,
      "grad_norm": 0.3812315762042999,
      "learning_rate": 2.3980883665538357e-05,
      "loss": 2.5971,
      "step": 7062
    },
    {
      "epoch": 0.904064,
      "grad_norm": 0.3790191113948822,
      "learning_rate": 2.391749171729618e-05,
      "loss": 2.5027,
      "step": 7063
    },
    {
      "epoch": 0.904192,
      "grad_norm": 0.4639434516429901,
      "learning_rate": 2.385418161315639e-05,
      "loss": 2.5441,
      "step": 7064
    },
    {
      "epoch": 0.90432,
      "grad_norm": 0.3973119556903839,
      "learning_rate": 2.379095336400272e-05,
      "loss": 2.5137,
      "step": 7065
    },
    {
      "epoch": 0.904448,
      "grad_norm": 0.4370156526565552,
      "learning_rate": 2.3727806980704758e-05,
      "loss": 2.6517,
      "step": 7066
    },
    {
      "epoch": 0.904576,
      "grad_norm": 0.3851068317890167,
      "learning_rate": 2.3664742474118316e-05,
      "loss": 2.5331,
      "step": 7067
    },
    {
      "epoch": 0.904704,
      "grad_norm": 0.43596819043159485,
      "learning_rate": 2.360175985508467e-05,
      "loss": 2.5396,
      "step": 7068
    },
    {
      "epoch": 0.904832,
      "grad_norm": 0.39627304673194885,
      "learning_rate": 2.3538859134431546e-05,
      "loss": 2.4473,
      "step": 7069
    },
    {
      "epoch": 0.90496,
      "grad_norm": 0.40051761269569397,
      "learning_rate": 2.347604032297207e-05,
      "loss": 2.4549,
      "step": 7070
    },
    {
      "epoch": 0.905088,
      "grad_norm": 0.37519657611846924,
      "learning_rate": 2.3413303431505607e-05,
      "loss": 2.5335,
      "step": 7071
    },
    {
      "epoch": 0.905216,
      "grad_norm": 0.4014164209365845,
      "learning_rate": 2.3350648470817413e-05,
      "loss": 2.5938,
      "step": 7072
    },
    {
      "epoch": 0.905344,
      "grad_norm": 0.41381895542144775,
      "learning_rate": 2.328807545167838e-05,
      "loss": 2.5742,
      "step": 7073
    },
    {
      "epoch": 0.905472,
      "grad_norm": 0.36829668283462524,
      "learning_rate": 2.3225584384845845e-05,
      "loss": 2.579,
      "step": 7074
    },
    {
      "epoch": 0.9056,
      "grad_norm": 0.3761177361011505,
      "learning_rate": 2.3163175281062544e-05,
      "loss": 2.5258,
      "step": 7075
    },
    {
      "epoch": 0.905728,
      "grad_norm": 0.4172303378582001,
      "learning_rate": 2.3100848151057395e-05,
      "loss": 2.5253,
      "step": 7076
    },
    {
      "epoch": 0.905856,
      "grad_norm": 0.40109723806381226,
      "learning_rate": 2.3038603005545113e-05,
      "loss": 2.5807,
      "step": 7077
    },
    {
      "epoch": 0.905984,
      "grad_norm": 0.41486236453056335,
      "learning_rate": 2.2976439855226404e-05,
      "loss": 2.5331,
      "step": 7078
    },
    {
      "epoch": 0.906112,
      "grad_norm": 0.39113765954971313,
      "learning_rate": 2.291435871078784e-05,
      "loss": 2.6255,
      "step": 7079
    },
    {
      "epoch": 0.90624,
      "grad_norm": 0.3716196119785309,
      "learning_rate": 2.2852359582901826e-05,
      "loss": 2.5803,
      "step": 7080
    },
    {
      "epoch": 0.906368,
      "grad_norm": 0.4122413396835327,
      "learning_rate": 2.2790442482226725e-05,
      "loss": 2.529,
      "step": 7081
    },
    {
      "epoch": 0.906496,
      "grad_norm": 0.6999507546424866,
      "learning_rate": 2.2728607419406965e-05,
      "loss": 2.6036,
      "step": 7082
    },
    {
      "epoch": 0.906624,
      "grad_norm": 0.3879443407058716,
      "learning_rate": 2.2666854405072547e-05,
      "loss": 2.4847,
      "step": 7083
    },
    {
      "epoch": 0.906752,
      "grad_norm": 0.3927616477012634,
      "learning_rate": 2.2605183449839583e-05,
      "loss": 2.6219,
      "step": 7084
    },
    {
      "epoch": 0.90688,
      "grad_norm": 0.4219987690448761,
      "learning_rate": 2.2543594564309988e-05,
      "loss": 2.5516,
      "step": 7085
    },
    {
      "epoch": 0.907008,
      "grad_norm": 0.43565985560417175,
      "learning_rate": 2.2482087759071622e-05,
      "loss": 2.4517,
      "step": 7086
    },
    {
      "epoch": 0.907136,
      "grad_norm": 0.47281745076179504,
      "learning_rate": 2.2420663044698253e-05,
      "loss": 2.5501,
      "step": 7087
    },
    {
      "epoch": 0.907264,
      "grad_norm": 0.3889014720916748,
      "learning_rate": 2.235932043174943e-05,
      "loss": 2.5157,
      "step": 7088
    },
    {
      "epoch": 0.907392,
      "grad_norm": 0.37899166345596313,
      "learning_rate": 2.229805993077083e-05,
      "loss": 2.4693,
      "step": 7089
    },
    {
      "epoch": 0.90752,
      "grad_norm": 0.4668527841567993,
      "learning_rate": 2.2236881552293642e-05,
      "loss": 2.4749,
      "step": 7090
    },
    {
      "epoch": 0.907648,
      "grad_norm": 0.42074984312057495,
      "learning_rate": 2.2175785306835284e-05,
      "loss": 2.529,
      "step": 7091
    },
    {
      "epoch": 0.907776,
      "grad_norm": 0.3985849916934967,
      "learning_rate": 2.21147712048988e-05,
      "loss": 2.4719,
      "step": 7092
    },
    {
      "epoch": 0.907904,
      "grad_norm": 0.5518969297409058,
      "learning_rate": 2.2053839256973295e-05,
      "loss": 2.5507,
      "step": 7093
    },
    {
      "epoch": 0.908032,
      "grad_norm": 0.4022423028945923,
      "learning_rate": 2.1992989473533563e-05,
      "loss": 2.5326,
      "step": 7094
    },
    {
      "epoch": 0.90816,
      "grad_norm": 0.4190008044242859,
      "learning_rate": 2.193222186504057e-05,
      "loss": 2.449,
      "step": 7095
    },
    {
      "epoch": 0.908288,
      "grad_norm": 0.3747434616088867,
      "learning_rate": 2.1871536441940786e-05,
      "loss": 2.4845,
      "step": 7096
    },
    {
      "epoch": 0.908416,
      "grad_norm": 0.43290871381759644,
      "learning_rate": 2.181093321466693e-05,
      "loss": 2.5343,
      "step": 7097
    },
    {
      "epoch": 0.908544,
      "grad_norm": 0.39467746019363403,
      "learning_rate": 2.1750412193637214e-05,
      "loss": 2.4424,
      "step": 7098
    },
    {
      "epoch": 0.908672,
      "grad_norm": 0.5765636563301086,
      "learning_rate": 2.1689973389256044e-05,
      "loss": 2.5755,
      "step": 7099
    },
    {
      "epoch": 0.9088,
      "grad_norm": 0.3999990224838257,
      "learning_rate": 2.16296168119135e-05,
      "loss": 2.5725,
      "step": 7100
    },
    {
      "epoch": 0.908928,
      "grad_norm": 0.4080747365951538,
      "learning_rate": 2.1569342471985554e-05,
      "loss": 2.566,
      "step": 7101
    },
    {
      "epoch": 0.909056,
      "grad_norm": 0.40665560960769653,
      "learning_rate": 2.150915037983403e-05,
      "loss": 2.5139,
      "step": 7102
    },
    {
      "epoch": 0.909184,
      "grad_norm": 0.38244614005088806,
      "learning_rate": 2.1449040545806764e-05,
      "loss": 2.5975,
      "step": 7103
    },
    {
      "epoch": 0.909312,
      "grad_norm": 0.45362070202827454,
      "learning_rate": 2.1389012980237265e-05,
      "loss": 2.4815,
      "step": 7104
    },
    {
      "epoch": 0.90944,
      "grad_norm": 0.4032966196537018,
      "learning_rate": 2.1329067693444893e-05,
      "loss": 2.517,
      "step": 7105
    },
    {
      "epoch": 0.909568,
      "grad_norm": 0.43375855684280396,
      "learning_rate": 2.1269204695735066e-05,
      "loss": 2.4941,
      "step": 7106
    },
    {
      "epoch": 0.909696,
      "grad_norm": 0.45389944314956665,
      "learning_rate": 2.120942399739889e-05,
      "loss": 2.437,
      "step": 7107
    },
    {
      "epoch": 0.909824,
      "grad_norm": 0.41102921962738037,
      "learning_rate": 2.1149725608713367e-05,
      "loss": 2.6122,
      "step": 7108
    },
    {
      "epoch": 0.909952,
      "grad_norm": 0.394301176071167,
      "learning_rate": 2.1090109539941228e-05,
      "loss": 2.6893,
      "step": 7109
    },
    {
      "epoch": 0.91008,
      "grad_norm": 0.4002150297164917,
      "learning_rate": 2.1030575801331332e-05,
      "loss": 2.4865,
      "step": 7110
    },
    {
      "epoch": 0.910208,
      "grad_norm": 0.4106501340866089,
      "learning_rate": 2.0971124403118157e-05,
      "loss": 2.5774,
      "step": 7111
    },
    {
      "epoch": 0.910336,
      "grad_norm": 0.4113328158855438,
      "learning_rate": 2.091175535552209e-05,
      "loss": 2.5434,
      "step": 7112
    },
    {
      "epoch": 0.910464,
      "grad_norm": 0.4125996530056,
      "learning_rate": 2.0852468668749293e-05,
      "loss": 2.5308,
      "step": 7113
    },
    {
      "epoch": 0.910592,
      "grad_norm": 0.4182286262512207,
      "learning_rate": 2.079326435299189e-05,
      "loss": 2.5275,
      "step": 7114
    },
    {
      "epoch": 0.91072,
      "grad_norm": 0.4010070264339447,
      "learning_rate": 2.0734142418427805e-05,
      "loss": 2.6496,
      "step": 7115
    },
    {
      "epoch": 0.910848,
      "grad_norm": 0.37834784388542175,
      "learning_rate": 2.067510287522073e-05,
      "loss": 2.5778,
      "step": 7116
    },
    {
      "epoch": 0.910976,
      "grad_norm": 0.4740290939807892,
      "learning_rate": 2.0616145733520274e-05,
      "loss": 2.5173,
      "step": 7117
    },
    {
      "epoch": 0.911104,
      "grad_norm": 0.4339499771595001,
      "learning_rate": 2.055727100346194e-05,
      "loss": 2.6041,
      "step": 7118
    },
    {
      "epoch": 0.911232,
      "grad_norm": 0.41357702016830444,
      "learning_rate": 2.0498478695166855e-05,
      "loss": 2.5372,
      "step": 7119
    },
    {
      "epoch": 0.91136,
      "grad_norm": 0.4029534161090851,
      "learning_rate": 2.0439768818742155e-05,
      "loss": 2.5368,
      "step": 7120
    },
    {
      "epoch": 0.911488,
      "grad_norm": 0.4164685308933258,
      "learning_rate": 2.038114138428071e-05,
      "loss": 2.5258,
      "step": 7121
    },
    {
      "epoch": 0.911616,
      "grad_norm": 0.4428764879703522,
      "learning_rate": 2.0322596401861294e-05,
      "loss": 2.6324,
      "step": 7122
    },
    {
      "epoch": 0.911744,
      "grad_norm": 0.372616171836853,
      "learning_rate": 2.0264133881548406e-05,
      "loss": 2.5502,
      "step": 7123
    },
    {
      "epoch": 0.911872,
      "grad_norm": 0.4106166362762451,
      "learning_rate": 2.020575383339246e-05,
      "loss": 2.5482,
      "step": 7124
    },
    {
      "epoch": 0.912,
      "grad_norm": 0.3963046371936798,
      "learning_rate": 2.0147456267429755e-05,
      "loss": 2.5083,
      "step": 7125
    },
    {
      "epoch": 0.912128,
      "grad_norm": 0.3528328537940979,
      "learning_rate": 2.0089241193682272e-05,
      "loss": 2.4437,
      "step": 7126
    },
    {
      "epoch": 0.912256,
      "grad_norm": 0.440773606300354,
      "learning_rate": 2.003110862215779e-05,
      "loss": 2.6226,
      "step": 7127
    },
    {
      "epoch": 0.912384,
      "grad_norm": 0.3931245803833008,
      "learning_rate": 1.997305856285003e-05,
      "loss": 2.5971,
      "step": 7128
    },
    {
      "epoch": 0.912512,
      "grad_norm": 0.438401460647583,
      "learning_rate": 1.9915091025738462e-05,
      "loss": 2.5257,
      "step": 7129
    },
    {
      "epoch": 0.91264,
      "grad_norm": 0.3880467414855957,
      "learning_rate": 1.9857206020788276e-05,
      "loss": 2.5068,
      "step": 7130
    },
    {
      "epoch": 0.912768,
      "grad_norm": 0.4356355369091034,
      "learning_rate": 1.979940355795079e-05,
      "loss": 2.425,
      "step": 7131
    },
    {
      "epoch": 0.912896,
      "grad_norm": 0.36806192994117737,
      "learning_rate": 1.9741683647162724e-05,
      "loss": 2.467,
      "step": 7132
    },
    {
      "epoch": 0.913024,
      "grad_norm": 0.4040548503398895,
      "learning_rate": 1.9684046298346857e-05,
      "loss": 2.6005,
      "step": 7133
    },
    {
      "epoch": 0.913152,
      "grad_norm": 0.6333982944488525,
      "learning_rate": 1.9626491521411772e-05,
      "loss": 2.5826,
      "step": 7134
    },
    {
      "epoch": 0.91328,
      "grad_norm": 0.38047173619270325,
      "learning_rate": 1.956901932625177e-05,
      "loss": 2.5635,
      "step": 7135
    },
    {
      "epoch": 0.913408,
      "grad_norm": 0.3993748128414154,
      "learning_rate": 1.9511629722747004e-05,
      "loss": 2.4256,
      "step": 7136
    },
    {
      "epoch": 0.913536,
      "grad_norm": 0.37951019406318665,
      "learning_rate": 1.9454322720763362e-05,
      "loss": 2.6001,
      "step": 7137
    },
    {
      "epoch": 0.913664,
      "grad_norm": 0.4208434522151947,
      "learning_rate": 1.939709833015252e-05,
      "loss": 2.5247,
      "step": 7138
    },
    {
      "epoch": 0.913792,
      "grad_norm": 0.449665904045105,
      "learning_rate": 1.9339956560752214e-05,
      "loss": 2.5164,
      "step": 7139
    },
    {
      "epoch": 0.91392,
      "grad_norm": 0.39331841468811035,
      "learning_rate": 1.9282897422385593e-05,
      "loss": 2.4489,
      "step": 7140
    },
    {
      "epoch": 0.914048,
      "grad_norm": 0.35664045810699463,
      "learning_rate": 1.922592092486192e-05,
      "loss": 2.4653,
      "step": 7141
    },
    {
      "epoch": 0.914176,
      "grad_norm": 0.4005209505558014,
      "learning_rate": 1.9169027077975965e-05,
      "loss": 2.5353,
      "step": 7142
    },
    {
      "epoch": 0.914304,
      "grad_norm": 0.43161147832870483,
      "learning_rate": 1.9112215891508632e-05,
      "loss": 2.5552,
      "step": 7143
    },
    {
      "epoch": 0.914432,
      "grad_norm": 0.3892328143119812,
      "learning_rate": 1.9055487375226277e-05,
      "loss": 2.5198,
      "step": 7144
    },
    {
      "epoch": 0.91456,
      "grad_norm": 0.42483246326446533,
      "learning_rate": 1.8998841538881152e-05,
      "loss": 2.5221,
      "step": 7145
    },
    {
      "epoch": 0.914688,
      "grad_norm": 0.4375413954257965,
      "learning_rate": 1.8942278392211464e-05,
      "loss": 2.5812,
      "step": 7146
    },
    {
      "epoch": 0.914816,
      "grad_norm": 0.43377384543418884,
      "learning_rate": 1.8885797944941052e-05,
      "loss": 2.561,
      "step": 7147
    },
    {
      "epoch": 0.914944,
      "grad_norm": 0.4016433358192444,
      "learning_rate": 1.8829400206779536e-05,
      "loss": 2.4886,
      "step": 7148
    },
    {
      "epoch": 0.915072,
      "grad_norm": 0.5315863490104675,
      "learning_rate": 1.8773085187422323e-05,
      "loss": 2.6172,
      "step": 7149
    },
    {
      "epoch": 0.9152,
      "grad_norm": 0.38883936405181885,
      "learning_rate": 1.8716852896550618e-05,
      "loss": 2.4735,
      "step": 7150
    },
    {
      "epoch": 0.915328,
      "grad_norm": 0.39477401971817017,
      "learning_rate": 1.866070334383135e-05,
      "loss": 2.5651,
      "step": 7151
    },
    {
      "epoch": 0.915456,
      "grad_norm": 0.420454740524292,
      "learning_rate": 1.8604636538917364e-05,
      "loss": 2.4649,
      "step": 7152
    },
    {
      "epoch": 0.915584,
      "grad_norm": 0.35827481746673584,
      "learning_rate": 1.8548652491447214e-05,
      "loss": 2.4517,
      "step": 7153
    },
    {
      "epoch": 0.915712,
      "grad_norm": 0.3805118501186371,
      "learning_rate": 1.8492751211045157e-05,
      "loss": 2.6466,
      "step": 7154
    },
    {
      "epoch": 0.91584,
      "grad_norm": 0.39862263202667236,
      "learning_rate": 1.8436932707321273e-05,
      "loss": 2.5569,
      "step": 7155
    },
    {
      "epoch": 0.915968,
      "grad_norm": 0.372840017080307,
      "learning_rate": 1.8381196989871452e-05,
      "loss": 2.4318,
      "step": 7156
    },
    {
      "epoch": 0.916096,
      "grad_norm": 0.4454040229320526,
      "learning_rate": 1.8325544068277245e-05,
      "loss": 2.6099,
      "step": 7157
    },
    {
      "epoch": 0.916224,
      "grad_norm": 0.36068809032440186,
      "learning_rate": 1.8269973952106055e-05,
      "loss": 2.4501,
      "step": 7158
    },
    {
      "epoch": 0.916352,
      "grad_norm": 0.39111626148223877,
      "learning_rate": 1.821448665091102e-05,
      "loss": 2.5578,
      "step": 7159
    },
    {
      "epoch": 0.91648,
      "grad_norm": 0.4146680235862732,
      "learning_rate": 1.8159082174231012e-05,
      "loss": 2.575,
      "step": 7160
    },
    {
      "epoch": 0.916608,
      "grad_norm": 0.38956257700920105,
      "learning_rate": 1.8103760531590852e-05,
      "loss": 2.5522,
      "step": 7161
    },
    {
      "epoch": 0.916736,
      "grad_norm": 0.4149935245513916,
      "learning_rate": 1.8048521732500878e-05,
      "loss": 2.4889,
      "step": 7162
    },
    {
      "epoch": 0.916864,
      "grad_norm": 0.40208345651626587,
      "learning_rate": 1.7993365786457217e-05,
      "loss": 2.4042,
      "step": 7163
    },
    {
      "epoch": 0.916992,
      "grad_norm": 0.45670273900032043,
      "learning_rate": 1.793829270294195e-05,
      "loss": 2.5995,
      "step": 7164
    },
    {
      "epoch": 0.91712,
      "grad_norm": 0.4625878632068634,
      "learning_rate": 1.7883302491422672e-05,
      "loss": 2.4691,
      "step": 7165
    },
    {
      "epoch": 0.917248,
      "grad_norm": 0.5267159342765808,
      "learning_rate": 1.7828395161352817e-05,
      "loss": 2.5861,
      "step": 7166
    },
    {
      "epoch": 0.917376,
      "grad_norm": 0.4177336096763611,
      "learning_rate": 1.777357072217173e-05,
      "loss": 2.5387,
      "step": 7167
    },
    {
      "epoch": 0.917504,
      "grad_norm": 0.3964742422103882,
      "learning_rate": 1.7718829183304252e-05,
      "loss": 2.4837,
      "step": 7168
    },
    {
      "epoch": 0.917632,
      "grad_norm": 0.4309026300907135,
      "learning_rate": 1.7664170554161142e-05,
      "loss": 2.5197,
      "step": 7169
    },
    {
      "epoch": 0.91776,
      "grad_norm": 0.3937095105648041,
      "learning_rate": 1.7609594844138766e-05,
      "loss": 2.545,
      "step": 7170
    },
    {
      "epoch": 0.917888,
      "grad_norm": 0.37366220355033875,
      "learning_rate": 1.7555102062619455e-05,
      "loss": 2.4822,
      "step": 7171
    },
    {
      "epoch": 0.918016,
      "grad_norm": 0.3604840636253357,
      "learning_rate": 1.750069221897105e-05,
      "loss": 2.5051,
      "step": 7172
    },
    {
      "epoch": 0.918144,
      "grad_norm": 0.4897017478942871,
      "learning_rate": 1.744636532254723e-05,
      "loss": 2.6238,
      "step": 7173
    },
    {
      "epoch": 0.918272,
      "grad_norm": 0.39668014645576477,
      "learning_rate": 1.739212138268753e-05,
      "loss": 2.4673,
      "step": 7174
    },
    {
      "epoch": 0.9184,
      "grad_norm": 0.4329794645309448,
      "learning_rate": 1.733796040871699e-05,
      "loss": 2.6559,
      "step": 7175
    },
    {
      "epoch": 0.918528,
      "grad_norm": 0.37081941962242126,
      "learning_rate": 1.7283882409946548e-05,
      "loss": 2.5761,
      "step": 7176
    },
    {
      "epoch": 0.918656,
      "grad_norm": 0.4028823971748352,
      "learning_rate": 1.722988739567288e-05,
      "loss": 2.6166,
      "step": 7177
    },
    {
      "epoch": 0.918784,
      "grad_norm": 0.4829353392124176,
      "learning_rate": 1.7175975375178344e-05,
      "loss": 2.5634,
      "step": 7178
    },
    {
      "epoch": 0.918912,
      "grad_norm": 0.4423564374446869,
      "learning_rate": 1.7122146357730907e-05,
      "loss": 2.6345,
      "step": 7179
    },
    {
      "epoch": 0.91904,
      "grad_norm": 0.39943039417266846,
      "learning_rate": 1.706840035258461e-05,
      "loss": 2.5957,
      "step": 7180
    },
    {
      "epoch": 0.919168,
      "grad_norm": 0.4296601116657257,
      "learning_rate": 1.7014737368978793e-05,
      "loss": 2.4809,
      "step": 7181
    },
    {
      "epoch": 0.919296,
      "grad_norm": 0.41836637258529663,
      "learning_rate": 1.696115741613902e-05,
      "loss": 2.5553,
      "step": 7182
    },
    {
      "epoch": 0.919424,
      "grad_norm": 0.42071256041526794,
      "learning_rate": 1.690766050327608e-05,
      "loss": 2.6159,
      "step": 7183
    },
    {
      "epoch": 0.919552,
      "grad_norm": 0.4284645617008209,
      "learning_rate": 1.685424663958679e-05,
      "loss": 2.6287,
      "step": 7184
    },
    {
      "epoch": 0.91968,
      "grad_norm": 0.41209742426872253,
      "learning_rate": 1.6800915834253637e-05,
      "loss": 2.4482,
      "step": 7185
    },
    {
      "epoch": 0.919808,
      "grad_norm": 0.3841080665588379,
      "learning_rate": 1.674766809644479e-05,
      "loss": 2.5688,
      "step": 7186
    },
    {
      "epoch": 0.919936,
      "grad_norm": 0.40184709429740906,
      "learning_rate": 1.6694503435314036e-05,
      "loss": 2.57,
      "step": 7187
    },
    {
      "epoch": 0.920064,
      "grad_norm": 0.37135010957717896,
      "learning_rate": 1.664142186000117e-05,
      "loss": 2.5223,
      "step": 7188
    },
    {
      "epoch": 0.920192,
      "grad_norm": 0.37063485383987427,
      "learning_rate": 1.6588423379631458e-05,
      "loss": 2.6012,
      "step": 7189
    },
    {
      "epoch": 0.92032,
      "grad_norm": 0.4120670258998871,
      "learning_rate": 1.6535508003315937e-05,
      "loss": 2.5356,
      "step": 7190
    },
    {
      "epoch": 0.920448,
      "grad_norm": 0.3766012191772461,
      "learning_rate": 1.6482675740151442e-05,
      "loss": 2.5455,
      "step": 7191
    },
    {
      "epoch": 0.920576,
      "grad_norm": 0.3803761303424835,
      "learning_rate": 1.6429926599220378e-05,
      "loss": 2.6596,
      "step": 7192
    },
    {
      "epoch": 0.920704,
      "grad_norm": 0.40437495708465576,
      "learning_rate": 1.6377260589590938e-05,
      "loss": 2.4498,
      "step": 7193
    },
    {
      "epoch": 0.920832,
      "grad_norm": 0.3950762152671814,
      "learning_rate": 1.632467772031704e-05,
      "loss": 2.5554,
      "step": 7194
    },
    {
      "epoch": 0.92096,
      "grad_norm": 0.37570300698280334,
      "learning_rate": 1.627217800043829e-05,
      "loss": 2.5206,
      "step": 7195
    },
    {
      "epoch": 0.921088,
      "grad_norm": 0.3940392732620239,
      "learning_rate": 1.621976143898002e-05,
      "loss": 2.4887,
      "step": 7196
    },
    {
      "epoch": 0.921216,
      "grad_norm": 0.39091959595680237,
      "learning_rate": 1.6167428044953137e-05,
      "loss": 2.5325,
      "step": 7197
    },
    {
      "epoch": 0.921344,
      "grad_norm": 0.4274977743625641,
      "learning_rate": 1.6115177827354554e-05,
      "loss": 2.4047,
      "step": 7198
    },
    {
      "epoch": 0.921472,
      "grad_norm": 0.5101342797279358,
      "learning_rate": 1.6063010795166534e-05,
      "loss": 2.5139,
      "step": 7199
    },
    {
      "epoch": 0.9216,
      "grad_norm": 0.3654787838459015,
      "learning_rate": 1.601092695735723e-05,
      "loss": 2.6071,
      "step": 7200
    },
    {
      "epoch": 0.921728,
      "grad_norm": 0.41568124294281006,
      "learning_rate": 1.5958926322880484e-05,
      "loss": 2.4035,
      "step": 7201
    },
    {
      "epoch": 0.921856,
      "grad_norm": 0.4134041368961334,
      "learning_rate": 1.5907008900675758e-05,
      "loss": 2.5427,
      "step": 7202
    },
    {
      "epoch": 0.921984,
      "grad_norm": 0.43848830461502075,
      "learning_rate": 1.5855174699668296e-05,
      "loss": 2.57,
      "step": 7203
    },
    {
      "epoch": 0.922112,
      "grad_norm": 0.34089693427085876,
      "learning_rate": 1.580342372876903e-05,
      "loss": 2.523,
      "step": 7204
    },
    {
      "epoch": 0.92224,
      "grad_norm": 0.3804914355278015,
      "learning_rate": 1.5751755996874452e-05,
      "loss": 2.4677,
      "step": 7205
    },
    {
      "epoch": 0.922368,
      "grad_norm": 0.40824875235557556,
      "learning_rate": 1.5700171512866957e-05,
      "loss": 2.5429,
      "step": 7206
    },
    {
      "epoch": 0.922496,
      "grad_norm": 0.41110122203826904,
      "learning_rate": 1.5648670285614396e-05,
      "loss": 2.5463,
      "step": 7207
    },
    {
      "epoch": 0.922624,
      "grad_norm": 0.39173755049705505,
      "learning_rate": 1.559725232397058e-05,
      "loss": 2.5211,
      "step": 7208
    },
    {
      "epoch": 0.922752,
      "grad_norm": 0.3758792579174042,
      "learning_rate": 1.5545917636774653e-05,
      "loss": 2.6835,
      "step": 7209
    },
    {
      "epoch": 0.92288,
      "grad_norm": 0.39765438437461853,
      "learning_rate": 1.5494666232851894e-05,
      "loss": 2.6403,
      "step": 7210
    },
    {
      "epoch": 0.923008,
      "grad_norm": 0.3755968511104584,
      "learning_rate": 1.5443498121012812e-05,
      "loss": 2.3996,
      "step": 7211
    },
    {
      "epoch": 0.923136,
      "grad_norm": 0.5597078800201416,
      "learning_rate": 1.5392413310053867e-05,
      "loss": 2.6092,
      "step": 7212
    },
    {
      "epoch": 0.923264,
      "grad_norm": 0.3880082070827484,
      "learning_rate": 1.5341411808757143e-05,
      "loss": 2.4825,
      "step": 7213
    },
    {
      "epoch": 0.923392,
      "grad_norm": 0.39846497774124146,
      "learning_rate": 1.529049362589041e-05,
      "loss": 2.5602,
      "step": 7214
    },
    {
      "epoch": 0.92352,
      "grad_norm": 0.41122448444366455,
      "learning_rate": 1.5239658770206943e-05,
      "loss": 2.3459,
      "step": 7215
    },
    {
      "epoch": 0.923648,
      "grad_norm": 0.4152904450893402,
      "learning_rate": 1.5188907250446027e-05,
      "loss": 2.4657,
      "step": 7216
    },
    {
      "epoch": 0.923776,
      "grad_norm": 0.4024841785430908,
      "learning_rate": 1.513823907533235e-05,
      "loss": 2.5438,
      "step": 7217
    },
    {
      "epoch": 0.923904,
      "grad_norm": 0.40399760007858276,
      "learning_rate": 1.5087654253576388e-05,
      "loss": 2.5447,
      "step": 7218
    },
    {
      "epoch": 0.924032,
      "grad_norm": 0.3848254680633545,
      "learning_rate": 1.5037152793874243e-05,
      "loss": 2.4263,
      "step": 7219
    },
    {
      "epoch": 0.92416,
      "grad_norm": 0.44079652428627014,
      "learning_rate": 1.4986734704907745e-05,
      "loss": 2.575,
      "step": 7220
    },
    {
      "epoch": 0.924288,
      "grad_norm": 0.4147700369358063,
      "learning_rate": 1.4936399995344297e-05,
      "loss": 2.4916,
      "step": 7221
    },
    {
      "epoch": 0.924416,
      "grad_norm": 0.40092602372169495,
      "learning_rate": 1.4886148673836974e-05,
      "loss": 2.5083,
      "step": 7222
    },
    {
      "epoch": 0.924544,
      "grad_norm": 0.3786357343196869,
      "learning_rate": 1.4835980749024591e-05,
      "loss": 2.5395,
      "step": 7223
    },
    {
      "epoch": 0.924672,
      "grad_norm": 0.40269187092781067,
      "learning_rate": 1.4785896229531693e-05,
      "loss": 2.5442,
      "step": 7224
    },
    {
      "epoch": 0.9248,
      "grad_norm": 0.4011213481426239,
      "learning_rate": 1.473589512396828e-05,
      "loss": 2.5808,
      "step": 7225
    },
    {
      "epoch": 0.924928,
      "grad_norm": 0.41292887926101685,
      "learning_rate": 1.4685977440930199e-05,
      "loss": 2.552,
      "step": 7226
    },
    {
      "epoch": 0.925056,
      "grad_norm": 0.40670502185821533,
      "learning_rate": 1.4636143188998807e-05,
      "loss": 2.586,
      "step": 7227
    },
    {
      "epoch": 0.925184,
      "grad_norm": 0.3659036457538605,
      "learning_rate": 1.4586392376741254e-05,
      "loss": 2.5418,
      "step": 7228
    },
    {
      "epoch": 0.925312,
      "grad_norm": 0.418129563331604,
      "learning_rate": 1.453672501271025e-05,
      "loss": 2.5851,
      "step": 7229
    },
    {
      "epoch": 0.92544,
      "grad_norm": 0.5469132661819458,
      "learning_rate": 1.4487141105444134e-05,
      "loss": 2.4711,
      "step": 7230
    },
    {
      "epoch": 0.925568,
      "grad_norm": 0.42204412817955017,
      "learning_rate": 1.4437640663467033e-05,
      "loss": 2.5808,
      "step": 7231
    },
    {
      "epoch": 0.925696,
      "grad_norm": 0.3911668658256531,
      "learning_rate": 1.4388223695288694e-05,
      "loss": 2.4552,
      "step": 7232
    },
    {
      "epoch": 0.925824,
      "grad_norm": 0.38530513644218445,
      "learning_rate": 1.433889020940432e-05,
      "loss": 2.5073,
      "step": 7233
    },
    {
      "epoch": 0.925952,
      "grad_norm": 0.42177915573120117,
      "learning_rate": 1.4289640214294964e-05,
      "loss": 2.5631,
      "step": 7234
    },
    {
      "epoch": 0.92608,
      "grad_norm": 0.4147261083126068,
      "learning_rate": 1.4240473718427348e-05,
      "loss": 2.6532,
      "step": 7235
    },
    {
      "epoch": 0.926208,
      "grad_norm": 0.3742435574531555,
      "learning_rate": 1.4191390730253716e-05,
      "loss": 2.4543,
      "step": 7236
    },
    {
      "epoch": 0.926336,
      "grad_norm": 0.3765755891799927,
      "learning_rate": 1.4142391258211984e-05,
      "loss": 2.4831,
      "step": 7237
    },
    {
      "epoch": 0.926464,
      "grad_norm": 0.43722784519195557,
      "learning_rate": 1.409347531072569e-05,
      "loss": 2.6157,
      "step": 7238
    },
    {
      "epoch": 0.926592,
      "grad_norm": 0.377189576625824,
      "learning_rate": 1.4044642896204107e-05,
      "loss": 2.5524,
      "step": 7239
    },
    {
      "epoch": 0.92672,
      "grad_norm": 0.5132120847702026,
      "learning_rate": 1.3995894023042133e-05,
      "loss": 2.5451,
      "step": 7240
    },
    {
      "epoch": 0.926848,
      "grad_norm": 0.3863900601863861,
      "learning_rate": 1.394722869962023e-05,
      "loss": 2.4862,
      "step": 7241
    },
    {
      "epoch": 0.926976,
      "grad_norm": 0.3536570370197296,
      "learning_rate": 1.3898646934304538e-05,
      "loss": 2.5118,
      "step": 7242
    },
    {
      "epoch": 0.927104,
      "grad_norm": 0.4416857063770294,
      "learning_rate": 1.3850148735446766e-05,
      "loss": 2.5319,
      "step": 7243
    },
    {
      "epoch": 0.927232,
      "grad_norm": 0.4209212064743042,
      "learning_rate": 1.38017341113843e-05,
      "loss": 2.5256,
      "step": 7244
    },
    {
      "epoch": 0.92736,
      "grad_norm": 0.40261849761009216,
      "learning_rate": 1.3753403070440262e-05,
      "loss": 2.4664,
      "step": 7245
    },
    {
      "epoch": 0.927488,
      "grad_norm": 0.37832123041152954,
      "learning_rate": 1.3705155620923337e-05,
      "loss": 2.6767,
      "step": 7246
    },
    {
      "epoch": 0.927616,
      "grad_norm": 0.4415815472602844,
      "learning_rate": 1.365699177112778e-05,
      "loss": 2.4686,
      "step": 7247
    },
    {
      "epoch": 0.927744,
      "grad_norm": 0.4005354940891266,
      "learning_rate": 1.3608911529333467e-05,
      "loss": 2.6511,
      "step": 7248
    },
    {
      "epoch": 0.927872,
      "grad_norm": 0.39091789722442627,
      "learning_rate": 1.3560914903806065e-05,
      "loss": 2.5328,
      "step": 7249
    },
    {
      "epoch": 0.928,
      "grad_norm": 0.3879057466983795,
      "learning_rate": 1.351300190279664e-05,
      "loss": 2.5935,
      "step": 7250
    },
    {
      "epoch": 0.928128,
      "grad_norm": 0.4574470818042755,
      "learning_rate": 1.3465172534541937e-05,
      "loss": 2.5766,
      "step": 7251
    },
    {
      "epoch": 0.928256,
      "grad_norm": 0.44715720415115356,
      "learning_rate": 1.3417426807264599e-05,
      "loss": 2.5531,
      "step": 7252
    },
    {
      "epoch": 0.928384,
      "grad_norm": 0.3737991154193878,
      "learning_rate": 1.3369764729172451e-05,
      "loss": 2.5638,
      "step": 7253
    },
    {
      "epoch": 0.928512,
      "grad_norm": 0.4056745767593384,
      "learning_rate": 1.3322186308459271e-05,
      "loss": 2.5185,
      "step": 7254
    },
    {
      "epoch": 0.92864,
      "grad_norm": 0.4083181917667389,
      "learning_rate": 1.3274691553304353e-05,
      "loss": 2.587,
      "step": 7255
    },
    {
      "epoch": 0.928768,
      "grad_norm": 0.42912229895591736,
      "learning_rate": 1.322728047187255e-05,
      "loss": 2.6796,
      "step": 7256
    },
    {
      "epoch": 0.928896,
      "grad_norm": 0.41270682215690613,
      "learning_rate": 1.3179953072314398e-05,
      "loss": 2.483,
      "step": 7257
    },
    {
      "epoch": 0.929024,
      "grad_norm": 0.37189921736717224,
      "learning_rate": 1.3132709362766004e-05,
      "loss": 2.5642,
      "step": 7258
    },
    {
      "epoch": 0.929152,
      "grad_norm": 0.43386462330818176,
      "learning_rate": 1.3085549351349091e-05,
      "loss": 2.4512,
      "step": 7259
    },
    {
      "epoch": 0.92928,
      "grad_norm": 0.40310341119766235,
      "learning_rate": 1.3038473046171061e-05,
      "loss": 2.5522,
      "step": 7260
    },
    {
      "epoch": 0.929408,
      "grad_norm": 0.3746207356452942,
      "learning_rate": 1.299148045532489e-05,
      "loss": 2.6175,
      "step": 7261
    },
    {
      "epoch": 0.929536,
      "grad_norm": 0.4280315339565277,
      "learning_rate": 1.2944571586888997e-05,
      "loss": 2.5124,
      "step": 7262
    },
    {
      "epoch": 0.929664,
      "grad_norm": 0.37756186723709106,
      "learning_rate": 1.2897746448927827e-05,
      "loss": 2.4762,
      "step": 7263
    },
    {
      "epoch": 0.929792,
      "grad_norm": 0.39599210023880005,
      "learning_rate": 1.2851005049490939e-05,
      "loss": 2.4801,
      "step": 7264
    },
    {
      "epoch": 0.92992,
      "grad_norm": 0.4352822005748749,
      "learning_rate": 1.2804347396613847e-05,
      "loss": 2.64,
      "step": 7265
    },
    {
      "epoch": 0.930048,
      "grad_norm": 0.4245277941226959,
      "learning_rate": 1.2757773498317416e-05,
      "loss": 2.5154,
      "step": 7266
    },
    {
      "epoch": 0.930176,
      "grad_norm": 0.4144197404384613,
      "learning_rate": 1.271128336260835e-05,
      "loss": 2.6116,
      "step": 7267
    },
    {
      "epoch": 0.930304,
      "grad_norm": 0.398202121257782,
      "learning_rate": 1.266487699747887e-05,
      "loss": 2.5878,
      "step": 7268
    },
    {
      "epoch": 0.930432,
      "grad_norm": 0.42924022674560547,
      "learning_rate": 1.2618554410906646e-05,
      "loss": 2.4869,
      "step": 7269
    },
    {
      "epoch": 0.93056,
      "grad_norm": 0.37748968601226807,
      "learning_rate": 1.25723156108552e-05,
      "loss": 2.5858,
      "step": 7270
    },
    {
      "epoch": 0.930688,
      "grad_norm": 0.4741515815258026,
      "learning_rate": 1.252616060527334e-05,
      "loss": 2.5089,
      "step": 7271
    },
    {
      "epoch": 0.930816,
      "grad_norm": 0.39014628529548645,
      "learning_rate": 1.248008940209583e-05,
      "loss": 2.5497,
      "step": 7272
    },
    {
      "epoch": 0.930944,
      "grad_norm": 0.4264070689678192,
      "learning_rate": 1.243410200924272e-05,
      "loss": 2.6521,
      "step": 7273
    },
    {
      "epoch": 0.931072,
      "grad_norm": 0.40915200114250183,
      "learning_rate": 1.2388198434619802e-05,
      "loss": 2.5036,
      "step": 7274
    },
    {
      "epoch": 0.9312,
      "grad_norm": 0.41048550605773926,
      "learning_rate": 1.2342378686118538e-05,
      "loss": 2.5799,
      "step": 7275
    },
    {
      "epoch": 0.931328,
      "grad_norm": 0.4015927016735077,
      "learning_rate": 1.229664277161574e-05,
      "loss": 2.6401,
      "step": 7276
    },
    {
      "epoch": 0.931456,
      "grad_norm": 0.41004571318626404,
      "learning_rate": 1.2250990698974007e-05,
      "loss": 2.6001,
      "step": 7277
    },
    {
      "epoch": 0.931584,
      "grad_norm": 0.4181000888347626,
      "learning_rate": 1.220542247604145e-05,
      "loss": 2.4342,
      "step": 7278
    },
    {
      "epoch": 0.931712,
      "grad_norm": 0.4450555741786957,
      "learning_rate": 1.2159938110651803e-05,
      "loss": 2.497,
      "step": 7279
    },
    {
      "epoch": 0.93184,
      "grad_norm": 0.41203048825263977,
      "learning_rate": 1.2114537610624254e-05,
      "loss": 2.3761,
      "step": 7280
    },
    {
      "epoch": 0.931968,
      "grad_norm": 0.4761495888233185,
      "learning_rate": 1.2069220983763729e-05,
      "loss": 2.5805,
      "step": 7281
    },
    {
      "epoch": 0.932096,
      "grad_norm": 0.36895158886909485,
      "learning_rate": 1.2023988237860717e-05,
      "loss": 2.549,
      "step": 7282
    },
    {
      "epoch": 0.932224,
      "grad_norm": 0.4365732669830322,
      "learning_rate": 1.1978839380691275e-05,
      "loss": 2.5484,
      "step": 7283
    },
    {
      "epoch": 0.932352,
      "grad_norm": 0.4367634356021881,
      "learning_rate": 1.1933774420016974e-05,
      "loss": 2.5524,
      "step": 7284
    },
    {
      "epoch": 0.93248,
      "grad_norm": 0.36498957872390747,
      "learning_rate": 1.1888793363584948e-05,
      "loss": 2.5952,
      "step": 7285
    },
    {
      "epoch": 0.932608,
      "grad_norm": 0.4716377258300781,
      "learning_rate": 1.184389621912807e-05,
      "loss": 2.6135,
      "step": 7286
    },
    {
      "epoch": 0.932736,
      "grad_norm": 0.41158193349838257,
      "learning_rate": 1.1799082994364551e-05,
      "loss": 2.4655,
      "step": 7287
    },
    {
      "epoch": 0.932864,
      "grad_norm": 0.44590047001838684,
      "learning_rate": 1.17543536969984e-05,
      "loss": 2.5446,
      "step": 7288
    },
    {
      "epoch": 0.932992,
      "grad_norm": 0.4692421555519104,
      "learning_rate": 1.1709708334719127e-05,
      "loss": 2.5057,
      "step": 7289
    },
    {
      "epoch": 0.93312,
      "grad_norm": 0.4028247892856598,
      "learning_rate": 1.1665146915201653e-05,
      "loss": 2.521,
      "step": 7290
    },
    {
      "epoch": 0.933248,
      "grad_norm": 0.47547560930252075,
      "learning_rate": 1.1620669446106735e-05,
      "loss": 2.6755,
      "step": 7291
    },
    {
      "epoch": 0.933376,
      "grad_norm": 0.47374746203422546,
      "learning_rate": 1.1576275935080538e-05,
      "loss": 2.4547,
      "step": 7292
    },
    {
      "epoch": 0.933504,
      "grad_norm": 0.3897894024848938,
      "learning_rate": 1.1531966389754788e-05,
      "loss": 2.4927,
      "step": 7293
    },
    {
      "epoch": 0.933632,
      "grad_norm": 0.423629492521286,
      "learning_rate": 1.1487740817746839e-05,
      "loss": 2.5107,
      "step": 7294
    },
    {
      "epoch": 0.93376,
      "grad_norm": 0.41035377979278564,
      "learning_rate": 1.1443599226659495e-05,
      "loss": 2.4468,
      "step": 7295
    },
    {
      "epoch": 0.933888,
      "grad_norm": 0.6328031420707703,
      "learning_rate": 1.1399541624081355e-05,
      "loss": 2.5288,
      "step": 7296
    },
    {
      "epoch": 0.934016,
      "grad_norm": 0.40691640973091125,
      "learning_rate": 1.1355568017586304e-05,
      "loss": 2.536,
      "step": 7297
    },
    {
      "epoch": 0.934144,
      "grad_norm": 0.42499491572380066,
      "learning_rate": 1.1311678414734016e-05,
      "loss": 2.5896,
      "step": 7298
    },
    {
      "epoch": 0.934272,
      "grad_norm": 0.39197105169296265,
      "learning_rate": 1.1267872823069458e-05,
      "loss": 2.4868,
      "step": 7299
    },
    {
      "epoch": 0.9344,
      "grad_norm": 0.40077608823776245,
      "learning_rate": 1.1224151250123548e-05,
      "loss": 2.4278,
      "step": 7300
    },
    {
      "epoch": 0.934528,
      "grad_norm": 0.4095199406147003,
      "learning_rate": 1.1180513703412387e-05,
      "loss": 2.575,
      "step": 7301
    },
    {
      "epoch": 0.934656,
      "grad_norm": 0.4503977596759796,
      "learning_rate": 1.1136960190437751e-05,
      "loss": 2.557,
      "step": 7302
    },
    {
      "epoch": 0.934784,
      "grad_norm": 0.48548635840415955,
      "learning_rate": 1.1093490718687094e-05,
      "loss": 2.4089,
      "step": 7303
    },
    {
      "epoch": 0.934912,
      "grad_norm": 0.3860355615615845,
      "learning_rate": 1.1050105295633272e-05,
      "loss": 2.6758,
      "step": 7304
    },
    {
      "epoch": 0.93504,
      "grad_norm": 0.4150124192237854,
      "learning_rate": 1.100680392873471e-05,
      "loss": 2.6312,
      "step": 7305
    },
    {
      "epoch": 0.935168,
      "grad_norm": 0.4021223485469818,
      "learning_rate": 1.0963586625435506e-05,
      "loss": 2.5939,
      "step": 7306
    },
    {
      "epoch": 0.935296,
      "grad_norm": 0.3806888163089752,
      "learning_rate": 1.092045339316511e-05,
      "loss": 2.5514,
      "step": 7307
    },
    {
      "epoch": 0.935424,
      "grad_norm": 0.3707142770290375,
      "learning_rate": 1.087740423933864e-05,
      "loss": 2.5313,
      "step": 7308
    },
    {
      "epoch": 0.935552,
      "grad_norm": 0.4628816246986389,
      "learning_rate": 1.0834439171356846e-05,
      "loss": 2.6202,
      "step": 7309
    },
    {
      "epoch": 0.93568,
      "grad_norm": 0.3705817759037018,
      "learning_rate": 1.0791558196605822e-05,
      "loss": 2.6195,
      "step": 7310
    },
    {
      "epoch": 0.935808,
      "grad_norm": 0.5750004053115845,
      "learning_rate": 1.0748761322457335e-05,
      "loss": 2.4782,
      "step": 7311
    },
    {
      "epoch": 0.935936,
      "grad_norm": 0.4110642373561859,
      "learning_rate": 1.0706048556268666e-05,
      "loss": 2.5664,
      "step": 7312
    },
    {
      "epoch": 0.936064,
      "grad_norm": 0.41663917899131775,
      "learning_rate": 1.0663419905382666e-05,
      "loss": 2.4802,
      "step": 7313
    },
    {
      "epoch": 0.936192,
      "grad_norm": 0.3727778196334839,
      "learning_rate": 1.0620875377127637e-05,
      "loss": 2.6256,
      "step": 7314
    },
    {
      "epoch": 0.93632,
      "grad_norm": 0.4048221707344055,
      "learning_rate": 1.0578414978817508e-05,
      "loss": 2.4979,
      "step": 7315
    },
    {
      "epoch": 0.936448,
      "grad_norm": 0.3959999084472656,
      "learning_rate": 1.0536038717751606e-05,
      "loss": 2.6327,
      "step": 7316
    },
    {
      "epoch": 0.936576,
      "grad_norm": 0.410523384809494,
      "learning_rate": 1.0493746601215104e-05,
      "loss": 2.5503,
      "step": 7317
    },
    {
      "epoch": 0.936704,
      "grad_norm": 0.47097042202949524,
      "learning_rate": 1.0451538636478353e-05,
      "loss": 2.5814,
      "step": 7318
    },
    {
      "epoch": 0.936832,
      "grad_norm": 0.4135637581348419,
      "learning_rate": 1.0409414830797493e-05,
      "loss": 2.4642,
      "step": 7319
    },
    {
      "epoch": 0.93696,
      "grad_norm": 0.39522555470466614,
      "learning_rate": 1.0367375191414064e-05,
      "loss": 2.4854,
      "step": 7320
    },
    {
      "epoch": 0.937088,
      "grad_norm": 0.3916282057762146,
      "learning_rate": 1.0325419725555119e-05,
      "loss": 2.5661,
      "step": 7321
    },
    {
      "epoch": 0.937216,
      "grad_norm": 0.4482945203781128,
      "learning_rate": 1.0283548440433333e-05,
      "loss": 2.6571,
      "step": 7322
    },
    {
      "epoch": 0.937344,
      "grad_norm": 0.3923947513103485,
      "learning_rate": 1.024176134324678e-05,
      "loss": 2.4818,
      "step": 7323
    },
    {
      "epoch": 0.937472,
      "grad_norm": 0.48454612493515015,
      "learning_rate": 1.0200058441179271e-05,
      "loss": 2.5782,
      "step": 7324
    },
    {
      "epoch": 0.9376,
      "grad_norm": 0.439527690410614,
      "learning_rate": 1.015843974139996e-05,
      "loss": 2.5475,
      "step": 7325
    },
    {
      "epoch": 0.937728,
      "grad_norm": 0.40399566292762756,
      "learning_rate": 1.0116905251063623e-05,
      "loss": 2.5401,
      "step": 7326
    },
    {
      "epoch": 0.937856,
      "grad_norm": 0.4068516194820404,
      "learning_rate": 1.0075454977310383e-05,
      "loss": 2.6414,
      "step": 7327
    },
    {
      "epoch": 0.937984,
      "grad_norm": 0.36989229917526245,
      "learning_rate": 1.0034088927266205e-05,
      "loss": 2.565,
      "step": 7328
    },
    {
      "epoch": 0.938112,
      "grad_norm": 0.41636621952056885,
      "learning_rate": 9.99280710804229e-06,
      "loss": 2.5218,
      "step": 7329
    },
    {
      "epoch": 0.93824,
      "grad_norm": 0.4148828089237213,
      "learning_rate": 9.951609526735517e-06,
      "loss": 2.5895,
      "step": 7330
    },
    {
      "epoch": 0.938368,
      "grad_norm": 0.4078975319862366,
      "learning_rate": 9.910496190428163e-06,
      "loss": 2.4838,
      "step": 7331
    },
    {
      "epoch": 0.938496,
      "grad_norm": 0.4655889868736267,
      "learning_rate": 9.869467106188135e-06,
      "loss": 2.6085,
      "step": 7332
    },
    {
      "epoch": 0.938624,
      "grad_norm": 0.42094600200653076,
      "learning_rate": 9.828522281068786e-06,
      "loss": 2.59,
      "step": 7333
    },
    {
      "epoch": 0.938752,
      "grad_norm": 0.42334386706352234,
      "learning_rate": 9.787661722108987e-06,
      "loss": 2.5872,
      "step": 7334
    },
    {
      "epoch": 0.93888,
      "grad_norm": 0.38881999254226685,
      "learning_rate": 9.746885436333231e-06,
      "loss": 2.438,
      "step": 7335
    },
    {
      "epoch": 0.939008,
      "grad_norm": 0.38696742057800293,
      "learning_rate": 9.706193430751298e-06,
      "loss": 2.5605,
      "step": 7336
    },
    {
      "epoch": 0.939136,
      "grad_norm": 0.46545860171318054,
      "learning_rate": 9.665585712358705e-06,
      "loss": 2.7049,
      "step": 7337
    },
    {
      "epoch": 0.939264,
      "grad_norm": 0.399066686630249,
      "learning_rate": 9.625062288136366e-06,
      "loss": 2.4277,
      "step": 7338
    },
    {
      "epoch": 0.939392,
      "grad_norm": 0.4072745740413666,
      "learning_rate": 9.584623165050766e-06,
      "loss": 2.5038,
      "step": 7339
    },
    {
      "epoch": 0.93952,
      "grad_norm": 0.39349621534347534,
      "learning_rate": 9.544268350053842e-06,
      "loss": 2.5588,
      "step": 7340
    },
    {
      "epoch": 0.939648,
      "grad_norm": 0.4892217218875885,
      "learning_rate": 9.50399785008299e-06,
      "loss": 2.5245,
      "step": 7341
    },
    {
      "epoch": 0.939776,
      "grad_norm": 0.3864208161830902,
      "learning_rate": 9.463811672061284e-06,
      "loss": 2.5231,
      "step": 7342
    },
    {
      "epoch": 0.939904,
      "grad_norm": 0.3851924240589142,
      "learning_rate": 9.423709822897086e-06,
      "loss": 2.6043,
      "step": 7343
    },
    {
      "epoch": 0.940032,
      "grad_norm": 1.7579609155654907,
      "learning_rate": 9.383692309484381e-06,
      "loss": 2.6358,
      "step": 7344
    },
    {
      "epoch": 0.94016,
      "grad_norm": 0.42436838150024414,
      "learning_rate": 9.343759138702724e-06,
      "loss": 2.4479,
      "step": 7345
    },
    {
      "epoch": 0.940288,
      "grad_norm": 0.38338956236839294,
      "learning_rate": 9.303910317417064e-06,
      "loss": 2.4388,
      "step": 7346
    },
    {
      "epoch": 0.940416,
      "grad_norm": 0.3745313286781311,
      "learning_rate": 9.264145852477868e-06,
      "loss": 2.5285,
      "step": 7347
    },
    {
      "epoch": 0.940544,
      "grad_norm": 0.41772809624671936,
      "learning_rate": 9.224465750721056e-06,
      "loss": 2.5323,
      "step": 7348
    },
    {
      "epoch": 0.940672,
      "grad_norm": 0.40956076979637146,
      "learning_rate": 9.184870018968172e-06,
      "loss": 2.6931,
      "step": 7349
    },
    {
      "epoch": 0.9408,
      "grad_norm": 0.4069949686527252,
      "learning_rate": 9.14535866402616e-06,
      "loss": 2.6822,
      "step": 7350
    },
    {
      "epoch": 0.940928,
      "grad_norm": 0.3754890263080597,
      "learning_rate": 9.105931692687419e-06,
      "loss": 2.6005,
      "step": 7351
    },
    {
      "epoch": 0.941056,
      "grad_norm": 0.464795857667923,
      "learning_rate": 9.066589111729972e-06,
      "loss": 2.6523,
      "step": 7352
    },
    {
      "epoch": 0.941184,
      "grad_norm": 0.5186794400215149,
      "learning_rate": 9.027330927917243e-06,
      "loss": 2.5232,
      "step": 7353
    },
    {
      "epoch": 0.941312,
      "grad_norm": 0.43262577056884766,
      "learning_rate": 8.988157147998222e-06,
      "loss": 2.5601,
      "step": 7354
    },
    {
      "epoch": 0.94144,
      "grad_norm": 0.4019632339477539,
      "learning_rate": 8.949067778707187e-06,
      "loss": 2.5247,
      "step": 7355
    },
    {
      "epoch": 0.941568,
      "grad_norm": 0.3738078474998474,
      "learning_rate": 8.910062826764208e-06,
      "loss": 2.5341,
      "step": 7356
    },
    {
      "epoch": 0.941696,
      "grad_norm": 0.38888609409332275,
      "learning_rate": 8.871142298874646e-06,
      "loss": 2.5891,
      "step": 7357
    },
    {
      "epoch": 0.941824,
      "grad_norm": 0.3985212743282318,
      "learning_rate": 8.832306201729368e-06,
      "loss": 2.5172,
      "step": 7358
    },
    {
      "epoch": 0.941952,
      "grad_norm": 0.6466679573059082,
      "learning_rate": 8.793554542004756e-06,
      "loss": 2.5125,
      "step": 7359
    },
    {
      "epoch": 0.94208,
      "grad_norm": 0.408551424741745,
      "learning_rate": 8.754887326362648e-06,
      "loss": 2.6269,
      "step": 7360
    },
    {
      "epoch": 0.942208,
      "grad_norm": 0.5199094414710999,
      "learning_rate": 8.71630456145045e-06,
      "loss": 2.5388,
      "step": 7361
    },
    {
      "epoch": 0.942336,
      "grad_norm": 0.3933047950267792,
      "learning_rate": 8.677806253900967e-06,
      "loss": 2.5132,
      "step": 7362
    },
    {
      "epoch": 0.942464,
      "grad_norm": 0.3930022418498993,
      "learning_rate": 8.639392410332403e-06,
      "loss": 2.4116,
      "step": 7363
    },
    {
      "epoch": 0.942592,
      "grad_norm": 0.4441189467906952,
      "learning_rate": 8.601063037348644e-06,
      "loss": 2.4949,
      "step": 7364
    },
    {
      "epoch": 0.94272,
      "grad_norm": 0.40136194229125977,
      "learning_rate": 8.562818141538975e-06,
      "loss": 2.6166,
      "step": 7365
    },
    {
      "epoch": 0.942848,
      "grad_norm": 0.3815940022468567,
      "learning_rate": 8.52465772947808e-06,
      "loss": 2.5564,
      "step": 7366
    },
    {
      "epoch": 0.942976,
      "grad_norm": 0.38854753971099854,
      "learning_rate": 8.486581807726157e-06,
      "loss": 2.4742,
      "step": 7367
    },
    {
      "epoch": 0.943104,
      "grad_norm": 0.3552760183811188,
      "learning_rate": 8.448590382829024e-06,
      "loss": 2.4969,
      "step": 7368
    },
    {
      "epoch": 0.943232,
      "grad_norm": 0.4277523159980774,
      "learning_rate": 8.410683461317681e-06,
      "loss": 2.5821,
      "step": 7369
    },
    {
      "epoch": 0.94336,
      "grad_norm": 0.42142054438591003,
      "learning_rate": 8.372861049708858e-06,
      "loss": 2.5125,
      "step": 7370
    },
    {
      "epoch": 0.943488,
      "grad_norm": 0.4189782440662384,
      "learning_rate": 8.335123154504687e-06,
      "loss": 2.5867,
      "step": 7371
    },
    {
      "epoch": 0.943616,
      "grad_norm": 0.41562217473983765,
      "learning_rate": 8.297469782192702e-06,
      "loss": 2.5546,
      "step": 7372
    },
    {
      "epoch": 0.943744,
      "grad_norm": 0.43106815218925476,
      "learning_rate": 8.25990093924589e-06,
      "loss": 2.6792,
      "step": 7373
    },
    {
      "epoch": 0.943872,
      "grad_norm": 0.3946970999240875,
      "learning_rate": 8.222416632122865e-06,
      "loss": 2.4648,
      "step": 7374
    },
    {
      "epoch": 0.944,
      "grad_norm": 0.40860942006111145,
      "learning_rate": 8.185016867267691e-06,
      "loss": 2.4542,
      "step": 7375
    },
    {
      "epoch": 0.944128,
      "grad_norm": 0.43024757504463196,
      "learning_rate": 8.147701651109674e-06,
      "loss": 2.6254,
      "step": 7376
    },
    {
      "epoch": 0.944256,
      "grad_norm": 0.40483856201171875,
      "learning_rate": 8.110470990063789e-06,
      "loss": 2.4377,
      "step": 7377
    },
    {
      "epoch": 0.944384,
      "grad_norm": 0.4043320417404175,
      "learning_rate": 8.07332489053042e-06,
      "loss": 2.5827,
      "step": 7378
    },
    {
      "epoch": 0.944512,
      "grad_norm": 0.39314770698547363,
      "learning_rate": 8.036263358895402e-06,
      "loss": 2.5131,
      "step": 7379
    },
    {
      "epoch": 0.94464,
      "grad_norm": 0.4086010456085205,
      "learning_rate": 7.99928640152997e-06,
      "loss": 2.6154,
      "step": 7380
    },
    {
      "epoch": 0.944768,
      "grad_norm": 0.4119200110435486,
      "learning_rate": 7.962394024791042e-06,
      "loss": 2.558,
      "step": 7381
    },
    {
      "epoch": 0.944896,
      "grad_norm": 0.3992772400379181,
      "learning_rate": 7.925586235020766e-06,
      "loss": 2.5676,
      "step": 7382
    },
    {
      "epoch": 0.945024,
      "grad_norm": 0.44534140825271606,
      "learning_rate": 7.888863038546801e-06,
      "loss": 2.6236,
      "step": 7383
    },
    {
      "epoch": 0.945152,
      "grad_norm": 0.40615329146385193,
      "learning_rate": 7.852224441682376e-06,
      "loss": 2.5476,
      "step": 7384
    },
    {
      "epoch": 0.94528,
      "grad_norm": 0.5093135833740234,
      "learning_rate": 7.81567045072601e-06,
      "loss": 2.3895,
      "step": 7385
    },
    {
      "epoch": 0.945408,
      "grad_norm": 0.3771669566631317,
      "learning_rate": 7.779201071961784e-06,
      "loss": 2.5825,
      "step": 7386
    },
    {
      "epoch": 0.945536,
      "grad_norm": 0.37848198413848877,
      "learning_rate": 7.742816311659185e-06,
      "loss": 2.5613,
      "step": 7387
    },
    {
      "epoch": 0.945664,
      "grad_norm": 0.40607044100761414,
      "learning_rate": 7.706516176073208e-06,
      "loss": 2.5496,
      "step": 7388
    },
    {
      "epoch": 0.945792,
      "grad_norm": 0.3812390863895416,
      "learning_rate": 7.670300671444308e-06,
      "loss": 2.4463,
      "step": 7389
    },
    {
      "epoch": 0.94592,
      "grad_norm": 0.4011857807636261,
      "learning_rate": 7.634169803998226e-06,
      "loss": 2.565,
      "step": 7390
    },
    {
      "epoch": 0.946048,
      "grad_norm": 0.4180678725242615,
      "learning_rate": 7.598123579946381e-06,
      "loss": 2.5029,
      "step": 7391
    },
    {
      "epoch": 0.946176,
      "grad_norm": 0.39695221185684204,
      "learning_rate": 7.562162005485485e-06,
      "loss": 2.6915,
      "step": 7392
    },
    {
      "epoch": 0.946304,
      "grad_norm": 0.3935239017009735,
      "learning_rate": 7.5262850867978124e-06,
      "loss": 2.6394,
      "step": 7393
    },
    {
      "epoch": 0.946432,
      "grad_norm": 0.4153563976287842,
      "learning_rate": 7.490492830050932e-06,
      "loss": 2.6457,
      "step": 7394
    },
    {
      "epoch": 0.94656,
      "grad_norm": 0.5432813763618469,
      "learning_rate": 7.454785241398032e-06,
      "loss": 2.518,
      "step": 7395
    },
    {
      "epoch": 0.946688,
      "grad_norm": 0.41089504957199097,
      "learning_rate": 7.419162326977591e-06,
      "loss": 2.4595,
      "step": 7396
    },
    {
      "epoch": 0.946816,
      "grad_norm": 0.380291610956192,
      "learning_rate": 7.383624092913654e-06,
      "loss": 2.5335,
      "step": 7397
    },
    {
      "epoch": 0.946944,
      "grad_norm": 0.3738453984260559,
      "learning_rate": 7.348170545315613e-06,
      "loss": 2.5182,
      "step": 7398
    },
    {
      "epoch": 0.947072,
      "grad_norm": 0.39838650822639465,
      "learning_rate": 7.312801690278425e-06,
      "loss": 2.5281,
      "step": 7399
    },
    {
      "epoch": 0.9472,
      "grad_norm": 0.4092147946357727,
      "learning_rate": 7.277517533882283e-06,
      "loss": 2.5168,
      "step": 7400
    },
    {
      "epoch": 0.947328,
      "grad_norm": 0.4129449725151062,
      "learning_rate": 7.242318082193e-06,
      "loss": 2.5831,
      "step": 7401
    },
    {
      "epoch": 0.947456,
      "grad_norm": 0.41284793615341187,
      "learning_rate": 7.207203341261792e-06,
      "loss": 2.6108,
      "step": 7402
    },
    {
      "epoch": 0.947584,
      "grad_norm": 0.5474962592124939,
      "learning_rate": 7.172173317125275e-06,
      "loss": 2.5897,
      "step": 7403
    },
    {
      "epoch": 0.947712,
      "grad_norm": 0.40524283051490784,
      "learning_rate": 7.1372280158055196e-06,
      "loss": 2.5258,
      "step": 7404
    },
    {
      "epoch": 0.94784,
      "grad_norm": 0.37645959854125977,
      "learning_rate": 7.102367443310054e-06,
      "loss": 2.5629,
      "step": 7405
    },
    {
      "epoch": 0.947968,
      "grad_norm": 0.38148167729377747,
      "learning_rate": 7.067591605631751e-06,
      "loss": 2.4993,
      "step": 7406
    },
    {
      "epoch": 0.948096,
      "grad_norm": 0.3463965952396393,
      "learning_rate": 7.032900508749051e-06,
      "loss": 2.4401,
      "step": 7407
    },
    {
      "epoch": 0.948224,
      "grad_norm": 0.38254088163375854,
      "learning_rate": 6.998294158625684e-06,
      "loss": 2.5919,
      "step": 7408
    },
    {
      "epoch": 0.948352,
      "grad_norm": 0.4322081506252289,
      "learning_rate": 6.96377256121089e-06,
      "loss": 2.5949,
      "step": 7409
    },
    {
      "epoch": 0.94848,
      "grad_norm": 0.4849248230457306,
      "learning_rate": 6.9293357224393675e-06,
      "loss": 2.5614,
      "step": 7410
    },
    {
      "epoch": 0.948608,
      "grad_norm": 0.4005214273929596,
      "learning_rate": 6.894983648231212e-06,
      "loss": 2.6084,
      "step": 7411
    },
    {
      "epoch": 0.948736,
      "grad_norm": 0.3955133259296417,
      "learning_rate": 6.86071634449198e-06,
      "loss": 2.5855,
      "step": 7412
    },
    {
      "epoch": 0.948864,
      "grad_norm": 0.3761402666568756,
      "learning_rate": 6.826533817112512e-06,
      "loss": 2.5857,
      "step": 7413
    },
    {
      "epoch": 0.948992,
      "grad_norm": 0.3943365812301636,
      "learning_rate": 6.792436071969277e-06,
      "loss": 2.5869,
      "step": 7414
    },
    {
      "epoch": 0.94912,
      "grad_norm": 0.3955804407596588,
      "learning_rate": 6.758423114924028e-06,
      "loss": 2.5596,
      "step": 7415
    },
    {
      "epoch": 0.949248,
      "grad_norm": 0.41303133964538574,
      "learning_rate": 6.724494951823978e-06,
      "loss": 2.4526,
      "step": 7416
    },
    {
      "epoch": 0.949376,
      "grad_norm": 0.390420526266098,
      "learning_rate": 6.6906515885017945e-06,
      "loss": 2.5678,
      "step": 7417
    },
    {
      "epoch": 0.949504,
      "grad_norm": 0.4302577078342438,
      "learning_rate": 6.656893030775546e-06,
      "loss": 2.5627,
      "step": 7418
    },
    {
      "epoch": 0.949632,
      "grad_norm": 0.44810932874679565,
      "learning_rate": 6.623219284448645e-06,
      "loss": 2.4805,
      "step": 7419
    },
    {
      "epoch": 0.94976,
      "grad_norm": 0.393136590719223,
      "learning_rate": 6.589630355310128e-06,
      "loss": 2.4428,
      "step": 7420
    },
    {
      "epoch": 0.949888,
      "grad_norm": 0.39722612500190735,
      "learning_rate": 6.556126249134209e-06,
      "loss": 2.4901,
      "step": 7421
    },
    {
      "epoch": 0.950016,
      "grad_norm": 0.4074259102344513,
      "learning_rate": 6.522706971680725e-06,
      "loss": 2.5784,
      "step": 7422
    },
    {
      "epoch": 0.950144,
      "grad_norm": 0.5249220132827759,
      "learning_rate": 6.489372528694748e-06,
      "loss": 2.6191,
      "step": 7423
    },
    {
      "epoch": 0.950272,
      "grad_norm": 0.41756153106689453,
      "learning_rate": 6.456122925906971e-06,
      "loss": 2.6575,
      "step": 7424
    },
    {
      "epoch": 0.9504,
      "grad_norm": 0.38096779584884644,
      "learning_rate": 6.422958169033266e-06,
      "loss": 2.5789,
      "step": 7425
    },
    {
      "epoch": 0.950528,
      "grad_norm": 0.46118709444999695,
      "learning_rate": 6.389878263775128e-06,
      "loss": 2.4733,
      "step": 7426
    },
    {
      "epoch": 0.950656,
      "grad_norm": 0.39249226450920105,
      "learning_rate": 6.3568832158192865e-06,
      "loss": 2.5367,
      "step": 7427
    },
    {
      "epoch": 0.950784,
      "grad_norm": 0.3884456753730774,
      "learning_rate": 6.323973030838037e-06,
      "loss": 2.5671,
      "step": 7428
    },
    {
      "epoch": 0.950912,
      "grad_norm": 0.4018014669418335,
      "learning_rate": 6.291147714488965e-06,
      "loss": 2.6476,
      "step": 7429
    },
    {
      "epoch": 0.95104,
      "grad_norm": 0.39516010880470276,
      "learning_rate": 6.258407272415223e-06,
      "loss": 2.5445,
      "step": 7430
    },
    {
      "epoch": 0.951168,
      "grad_norm": 0.38802945613861084,
      "learning_rate": 6.2257517102451975e-06,
      "loss": 2.48,
      "step": 7431
    },
    {
      "epoch": 0.951296,
      "grad_norm": 0.37490934133529663,
      "learning_rate": 6.193181033592787e-06,
      "loss": 2.5549,
      "step": 7432
    },
    {
      "epoch": 0.951424,
      "grad_norm": 0.40583276748657227,
      "learning_rate": 6.1606952480572356e-06,
      "loss": 2.4831,
      "step": 7433
    },
    {
      "epoch": 0.951552,
      "grad_norm": 0.3973783254623413,
      "learning_rate": 6.128294359223296e-06,
      "loss": 2.4788,
      "step": 7434
    },
    {
      "epoch": 0.95168,
      "grad_norm": 0.3817771375179291,
      "learning_rate": 6.09597837266096e-06,
      "loss": 2.5683,
      "step": 7435
    },
    {
      "epoch": 0.951808,
      "grad_norm": 0.3962419033050537,
      "learning_rate": 6.063747293925781e-06,
      "loss": 2.4793,
      "step": 7436
    },
    {
      "epoch": 0.951936,
      "grad_norm": 0.3839482069015503,
      "learning_rate": 6.031601128558606e-06,
      "loss": 2.5092,
      "step": 7437
    },
    {
      "epoch": 0.952064,
      "grad_norm": 0.3889106512069702,
      "learning_rate": 5.999539882085791e-06,
      "loss": 2.5154,
      "step": 7438
    },
    {
      "epoch": 0.952192,
      "grad_norm": 0.47010481357574463,
      "learning_rate": 5.967563560019041e-06,
      "loss": 2.7759,
      "step": 7439
    },
    {
      "epoch": 0.95232,
      "grad_norm": 0.4046565890312195,
      "learning_rate": 5.935672167855455e-06,
      "loss": 2.4866,
      "step": 7440
    },
    {
      "epoch": 0.952448,
      "grad_norm": 0.3799560070037842,
      "learning_rate": 5.903865711077483e-06,
      "loss": 2.6149,
      "step": 7441
    },
    {
      "epoch": 0.952576,
      "grad_norm": 0.4362328350543976,
      "learning_rate": 5.872144195153029e-06,
      "loss": 2.5587,
      "step": 7442
    },
    {
      "epoch": 0.952704,
      "grad_norm": 0.43644970655441284,
      "learning_rate": 5.840507625535396e-06,
      "loss": 2.6387,
      "step": 7443
    },
    {
      "epoch": 0.952832,
      "grad_norm": 0.38118433952331543,
      "learning_rate": 5.808956007663291e-06,
      "loss": 2.55,
      "step": 7444
    },
    {
      "epoch": 0.95296,
      "grad_norm": 0.3900214433670044,
      "learning_rate": 5.777489346960874e-06,
      "loss": 2.5204,
      "step": 7445
    },
    {
      "epoch": 0.953088,
      "grad_norm": 0.3767102062702179,
      "learning_rate": 5.746107648837484e-06,
      "loss": 2.5944,
      "step": 7446
    },
    {
      "epoch": 0.953216,
      "grad_norm": 0.38589128851890564,
      "learning_rate": 5.714810918688085e-06,
      "loss": 2.4908,
      "step": 7447
    },
    {
      "epoch": 0.953344,
      "grad_norm": 0.42349788546562195,
      "learning_rate": 5.683599161892928e-06,
      "loss": 2.5167,
      "step": 7448
    },
    {
      "epoch": 0.953472,
      "grad_norm": 0.3678247630596161,
      "learning_rate": 5.65247238381772e-06,
      "loss": 2.4753,
      "step": 7449
    },
    {
      "epoch": 0.9536,
      "grad_norm": 0.39643165469169617,
      "learning_rate": 5.621430589813459e-06,
      "loss": 2.6721,
      "step": 7450
    },
    {
      "epoch": 0.953728,
      "grad_norm": 0.4030715823173523,
      "learning_rate": 5.590473785216654e-06,
      "loss": 2.4944,
      "step": 7451
    },
    {
      "epoch": 0.953856,
      "grad_norm": 0.37390607595443726,
      "learning_rate": 5.559601975348994e-06,
      "loss": 2.5444,
      "step": 7452
    },
    {
      "epoch": 0.953984,
      "grad_norm": 0.3763301372528076,
      "learning_rate": 5.528815165517842e-06,
      "loss": 2.5457,
      "step": 7453
    },
    {
      "epoch": 0.954112,
      "grad_norm": 0.44395458698272705,
      "learning_rate": 5.498113361015799e-06,
      "loss": 2.5385,
      "step": 7454
    },
    {
      "epoch": 0.95424,
      "grad_norm": 0.3921402394771576,
      "learning_rate": 5.467496567120811e-06,
      "loss": 2.6017,
      "step": 7455
    },
    {
      "epoch": 0.954368,
      "grad_norm": 0.41783595085144043,
      "learning_rate": 5.436964789096221e-06,
      "loss": 2.5045,
      "step": 7456
    },
    {
      "epoch": 0.954496,
      "grad_norm": 0.49160075187683105,
      "learning_rate": 5.406518032190943e-06,
      "loss": 2.5342,
      "step": 7457
    },
    {
      "epoch": 0.954624,
      "grad_norm": 0.37904077768325806,
      "learning_rate": 5.376156301638957e-06,
      "loss": 2.5231,
      "step": 7458
    },
    {
      "epoch": 0.954752,
      "grad_norm": 0.3910113275051117,
      "learning_rate": 5.34587960265992e-06,
      "loss": 2.5364,
      "step": 7459
    },
    {
      "epoch": 0.95488,
      "grad_norm": 0.5150136947631836,
      "learning_rate": 5.315687940458669e-06,
      "loss": 2.4829,
      "step": 7460
    },
    {
      "epoch": 0.955008,
      "grad_norm": 0.3883393406867981,
      "learning_rate": 5.285581320225552e-06,
      "loss": 2.4742,
      "step": 7461
    },
    {
      "epoch": 0.955136,
      "grad_norm": 0.4067671597003937,
      "learning_rate": 5.255559747136263e-06,
      "loss": 2.4985,
      "step": 7462
    },
    {
      "epoch": 0.955264,
      "grad_norm": 0.4669678211212158,
      "learning_rate": 5.2256232263517835e-06,
      "loss": 2.5297,
      "step": 7463
    },
    {
      "epoch": 0.955392,
      "grad_norm": 0.38624870777130127,
      "learning_rate": 5.195771763018609e-06,
      "loss": 2.5489,
      "step": 7464
    },
    {
      "epoch": 0.95552,
      "grad_norm": 0.4049331247806549,
      "learning_rate": 5.166005362268467e-06,
      "loss": 2.484,
      "step": 7465
    },
    {
      "epoch": 0.955648,
      "grad_norm": 0.38014981150627136,
      "learning_rate": 5.136324029218653e-06,
      "loss": 2.6083,
      "step": 7466
    },
    {
      "epoch": 0.955776,
      "grad_norm": 0.4638063609600067,
      "learning_rate": 5.106727768971697e-06,
      "loss": 2.4557,
      "step": 7467
    },
    {
      "epoch": 0.955904,
      "grad_norm": 0.4197923541069031,
      "learning_rate": 5.07721658661553e-06,
      "loss": 2.5538,
      "step": 7468
    },
    {
      "epoch": 0.956032,
      "grad_norm": 0.39376723766326904,
      "learning_rate": 5.04779048722348e-06,
      "loss": 2.637,
      "step": 7469
    },
    {
      "epoch": 0.95616,
      "grad_norm": 0.4043189585208893,
      "learning_rate": 5.018449475854225e-06,
      "loss": 2.5547,
      "step": 7470
    },
    {
      "epoch": 0.956288,
      "grad_norm": 0.508512556552887,
      "learning_rate": 4.989193557551786e-06,
      "loss": 2.562,
      "step": 7471
    },
    {
      "epoch": 0.956416,
      "grad_norm": 0.40565574169158936,
      "learning_rate": 4.960022737345693e-06,
      "loss": 2.6328,
      "step": 7472
    },
    {
      "epoch": 0.956544,
      "grad_norm": 0.47219228744506836,
      "learning_rate": 4.930937020250603e-06,
      "loss": 2.5803,
      "step": 7473
    },
    {
      "epoch": 0.956672,
      "grad_norm": 0.41848161816596985,
      "learning_rate": 4.90193641126685e-06,
      "loss": 2.5966,
      "step": 7474
    },
    {
      "epoch": 0.9568,
      "grad_norm": 0.4272618889808655,
      "learning_rate": 4.873020915379834e-06,
      "loss": 2.541,
      "step": 7475
    },
    {
      "epoch": 0.956928,
      "grad_norm": 0.3840634822845459,
      "learning_rate": 4.8441905375605774e-06,
      "loss": 2.6219,
      "step": 7476
    },
    {
      "epoch": 0.957056,
      "grad_norm": 0.39685842394828796,
      "learning_rate": 4.815445282765285e-06,
      "loss": 2.5122,
      "step": 7477
    },
    {
      "epoch": 0.957184,
      "grad_norm": 0.45799848437309265,
      "learning_rate": 4.786785155935669e-06,
      "loss": 2.5761,
      "step": 7478
    },
    {
      "epoch": 0.957312,
      "grad_norm": 0.4020695686340332,
      "learning_rate": 4.758210161998622e-06,
      "loss": 2.5319,
      "step": 7479
    },
    {
      "epoch": 0.95744,
      "grad_norm": 0.3944324254989624,
      "learning_rate": 4.729720305866603e-06,
      "loss": 2.4942,
      "step": 7480
    },
    {
      "epoch": 0.957568,
      "grad_norm": 0.40732285380363464,
      "learning_rate": 4.70131559243736e-06,
      "loss": 2.5946,
      "step": 7481
    },
    {
      "epoch": 0.957696,
      "grad_norm": 0.4679645001888275,
      "learning_rate": 4.672996026593934e-06,
      "loss": 2.5025,
      "step": 7482
    },
    {
      "epoch": 0.957824,
      "grad_norm": 0.4031465947628021,
      "learning_rate": 4.644761613204817e-06,
      "loss": 2.4841,
      "step": 7483
    },
    {
      "epoch": 0.957952,
      "grad_norm": 0.35730984807014465,
      "learning_rate": 4.616612357123795e-06,
      "loss": 2.5785,
      "step": 7484
    },
    {
      "epoch": 0.95808,
      "grad_norm": 0.3776013255119324,
      "learning_rate": 4.588548263190107e-06,
      "loss": 2.5786,
      "step": 7485
    },
    {
      "epoch": 0.958208,
      "grad_norm": 0.8401246666908264,
      "learning_rate": 4.560569336228337e-06,
      "loss": 2.4924,
      "step": 7486
    },
    {
      "epoch": 0.958336,
      "grad_norm": 0.4274037480354309,
      "learning_rate": 4.532675581048251e-06,
      "loss": 2.531,
      "step": 7487
    },
    {
      "epoch": 0.958464,
      "grad_norm": 0.3788529634475708,
      "learning_rate": 4.504867002445179e-06,
      "loss": 2.4751,
      "step": 7488
    },
    {
      "epoch": 0.958592,
      "grad_norm": 0.39420315623283386,
      "learning_rate": 4.477143605199796e-06,
      "loss": 2.5991,
      "step": 7489
    },
    {
      "epoch": 0.95872,
      "grad_norm": 0.40467798709869385,
      "learning_rate": 4.449505394078013e-06,
      "loss": 2.5158,
      "step": 7490
    },
    {
      "epoch": 0.958848,
      "grad_norm": 0.41446396708488464,
      "learning_rate": 4.421952373831139e-06,
      "loss": 2.4644,
      "step": 7491
    },
    {
      "epoch": 0.958976,
      "grad_norm": 0.4005981981754303,
      "learning_rate": 4.394484549195887e-06,
      "loss": 2.5717,
      "step": 7492
    },
    {
      "epoch": 0.959104,
      "grad_norm": 0.38558948040008545,
      "learning_rate": 4.3671019248943125e-06,
      "loss": 2.6835,
      "step": 7493
    },
    {
      "epoch": 0.959232,
      "grad_norm": 0.3707866668701172,
      "learning_rate": 4.3398045056337594e-06,
      "loss": 2.4521,
      "step": 7494
    },
    {
      "epoch": 0.95936,
      "grad_norm": 0.38945555686950684,
      "learning_rate": 4.312592296106976e-06,
      "loss": 2.5841,
      "step": 7495
    },
    {
      "epoch": 0.959488,
      "grad_norm": 0.38387733697891235,
      "learning_rate": 4.285465300992164e-06,
      "loss": 2.48,
      "step": 7496
    },
    {
      "epoch": 0.959616,
      "grad_norm": 0.38525959849357605,
      "learning_rate": 4.258423524952649e-06,
      "loss": 2.5225,
      "step": 7497
    },
    {
      "epoch": 0.959744,
      "grad_norm": 0.40214142203330994,
      "learning_rate": 4.23146697263721e-06,
      "loss": 2.4461,
      "step": 7498
    },
    {
      "epoch": 0.959872,
      "grad_norm": 0.40700486302375793,
      "learning_rate": 4.204595648680088e-06,
      "loss": 2.5015,
      "step": 7499
    },
    {
      "epoch": 0.96,
      "grad_norm": 0.4009625315666199,
      "learning_rate": 4.177809557700751e-06,
      "loss": 2.5395,
      "step": 7500
    },
    {
      "epoch": 0.960128,
      "grad_norm": 0.425852507352829,
      "learning_rate": 4.151108704303963e-06,
      "loss": 2.5684,
      "step": 7501
    },
    {
      "epoch": 0.960256,
      "grad_norm": 0.4036748707294464,
      "learning_rate": 4.12449309307994e-06,
      "loss": 2.6015,
      "step": 7502
    },
    {
      "epoch": 0.960384,
      "grad_norm": 0.5472224354743958,
      "learning_rate": 4.097962728604299e-06,
      "loss": 2.5154,
      "step": 7503
    },
    {
      "epoch": 0.960512,
      "grad_norm": 0.3996160328388214,
      "learning_rate": 4.071517615437836e-06,
      "loss": 2.5843,
      "step": 7504
    },
    {
      "epoch": 0.96064,
      "grad_norm": 0.38535162806510925,
      "learning_rate": 4.045157758126749e-06,
      "loss": 2.5193,
      "step": 7505
    },
    {
      "epoch": 0.960768,
      "grad_norm": 0.43112385272979736,
      "learning_rate": 4.018883161202691e-06,
      "loss": 2.7325,
      "step": 7506
    },
    {
      "epoch": 0.960896,
      "grad_norm": 0.4018908143043518,
      "learning_rate": 3.992693829182548e-06,
      "loss": 2.5081,
      "step": 7507
    },
    {
      "epoch": 0.961024,
      "grad_norm": 0.4005553126335144,
      "learning_rate": 3.966589766568496e-06,
      "loss": 2.5847,
      "step": 7508
    },
    {
      "epoch": 0.961152,
      "grad_norm": 0.42514973878860474,
      "learning_rate": 3.940570977848168e-06,
      "loss": 2.7316,
      "step": 7509
    },
    {
      "epoch": 0.96128,
      "grad_norm": 0.4185897409915924,
      "learning_rate": 3.914637467494542e-06,
      "loss": 2.5529,
      "step": 7510
    },
    {
      "epoch": 0.961408,
      "grad_norm": 0.42581623792648315,
      "learning_rate": 3.888789239965884e-06,
      "loss": 2.4867,
      "step": 7511
    },
    {
      "epoch": 0.961536,
      "grad_norm": 0.3930181562900543,
      "learning_rate": 3.863026299705696e-06,
      "loss": 2.4292,
      "step": 7512
    },
    {
      "epoch": 0.961664,
      "grad_norm": 0.40144774317741394,
      "learning_rate": 3.837348651142991e-06,
      "loss": 2.4929,
      "step": 7513
    },
    {
      "epoch": 0.961792,
      "grad_norm": 0.4122353196144104,
      "learning_rate": 3.811756298692126e-06,
      "loss": 2.5426,
      "step": 7514
    },
    {
      "epoch": 0.96192,
      "grad_norm": 0.5143232941627502,
      "learning_rate": 3.786249246752638e-06,
      "loss": 2.5402,
      "step": 7515
    },
    {
      "epoch": 0.962048,
      "grad_norm": 0.3907642662525177,
      "learning_rate": 3.7608274997095184e-06,
      "loss": 2.5097,
      "step": 7516
    },
    {
      "epoch": 0.962176,
      "grad_norm": 0.4458221197128296,
      "learning_rate": 3.7354910619329942e-06,
      "loss": 2.5541,
      "step": 7517
    },
    {
      "epoch": 0.962304,
      "grad_norm": 0.41851383447647095,
      "learning_rate": 3.710239937778803e-06,
      "loss": 2.6015,
      "step": 7518
    },
    {
      "epoch": 0.962432,
      "grad_norm": 0.39508411288261414,
      "learning_rate": 3.685074131587862e-06,
      "loss": 2.4824,
      "step": 7519
    },
    {
      "epoch": 0.96256,
      "grad_norm": 0.3792754113674164,
      "learning_rate": 3.6599936476864326e-06,
      "loss": 2.5739,
      "step": 7520
    },
    {
      "epoch": 0.962688,
      "grad_norm": 0.3972724676132202,
      "learning_rate": 3.634998490386121e-06,
      "loss": 2.5686,
      "step": 7521
    },
    {
      "epoch": 0.962816,
      "grad_norm": 0.3852479159832001,
      "learning_rate": 3.61008866398399e-06,
      "loss": 2.5947,
      "step": 7522
    },
    {
      "epoch": 0.962944,
      "grad_norm": 0.3942587971687317,
      "learning_rate": 3.5852641727622257e-06,
      "loss": 2.4766,
      "step": 7523
    },
    {
      "epoch": 0.963072,
      "grad_norm": 0.3888276219367981,
      "learning_rate": 3.5605250209885253e-06,
      "loss": 2.5028,
      "step": 7524
    },
    {
      "epoch": 0.9632,
      "grad_norm": 0.4106733500957489,
      "learning_rate": 3.5358712129157642e-06,
      "loss": 2.5177,
      "step": 7525
    },
    {
      "epoch": 0.963328,
      "grad_norm": 0.415594220161438,
      "learning_rate": 3.5113027527822192e-06,
      "loss": 2.4938,
      "step": 7526
    },
    {
      "epoch": 0.963456,
      "grad_norm": 0.4307495653629303,
      "learning_rate": 3.4868196448115676e-06,
      "loss": 2.522,
      "step": 7527
    },
    {
      "epoch": 0.963584,
      "grad_norm": 0.3964212238788605,
      "learning_rate": 3.4624218932127194e-06,
      "loss": 2.461,
      "step": 7528
    },
    {
      "epoch": 0.963712,
      "grad_norm": 0.39501678943634033,
      "learning_rate": 3.43810950217982e-06,
      "loss": 2.645,
      "step": 7529
    },
    {
      "epoch": 0.96384,
      "grad_norm": 0.3662487268447876,
      "learning_rate": 3.4138824758925822e-06,
      "loss": 2.4858,
      "step": 7530
    },
    {
      "epoch": 0.963968,
      "grad_norm": 0.431302547454834,
      "learning_rate": 3.389740818515841e-06,
      "loss": 2.536,
      "step": 7531
    },
    {
      "epoch": 0.964096,
      "grad_norm": 0.4361743628978729,
      "learning_rate": 3.3656845341998865e-06,
      "loss": 2.5059,
      "step": 7532
    },
    {
      "epoch": 0.964224,
      "grad_norm": 0.4075688123703003,
      "learning_rate": 3.341713627080245e-06,
      "loss": 2.521,
      "step": 7533
    },
    {
      "epoch": 0.964352,
      "grad_norm": 0.5702763795852661,
      "learning_rate": 3.3178281012777866e-06,
      "loss": 2.576,
      "step": 7534
    },
    {
      "epoch": 0.96448,
      "grad_norm": 0.4331338107585907,
      "learning_rate": 3.2940279608986714e-06,
      "loss": 2.6561,
      "step": 7535
    },
    {
      "epoch": 0.964608,
      "grad_norm": 0.39936670660972595,
      "learning_rate": 3.2703132100345146e-06,
      "loss": 2.5036,
      "step": 7536
    },
    {
      "epoch": 0.964736,
      "grad_norm": 0.39763638377189636,
      "learning_rate": 3.2466838527620557e-06,
      "loss": 2.4922,
      "step": 7537
    },
    {
      "epoch": 0.964864,
      "grad_norm": 0.3830123245716095,
      "learning_rate": 3.22313989314349e-06,
      "loss": 2.5571,
      "step": 7538
    },
    {
      "epoch": 0.964992,
      "grad_norm": 0.4228527843952179,
      "learning_rate": 3.1996813352263566e-06,
      "loss": 2.5833,
      "step": 7539
    },
    {
      "epoch": 0.96512,
      "grad_norm": 0.37884941697120667,
      "learning_rate": 3.176308183043375e-06,
      "loss": 2.3594,
      "step": 7540
    },
    {
      "epoch": 0.965248,
      "grad_norm": 0.43110188841819763,
      "learning_rate": 3.1530204406127192e-06,
      "loss": 2.5211,
      "step": 7541
    },
    {
      "epoch": 0.965376,
      "grad_norm": 0.37223878502845764,
      "learning_rate": 3.1298181119377432e-06,
      "loss": 2.5106,
      "step": 7542
    },
    {
      "epoch": 0.965504,
      "grad_norm": 0.39530080556869507,
      "learning_rate": 3.1067012010073114e-06,
      "loss": 2.6357,
      "step": 7543
    },
    {
      "epoch": 0.965632,
      "grad_norm": 0.4289855360984802,
      "learning_rate": 3.0836697117954115e-06,
      "loss": 2.5256,
      "step": 7544
    },
    {
      "epoch": 0.96576,
      "grad_norm": 0.41330641508102417,
      "learning_rate": 3.0607236482613766e-06,
      "loss": 2.5007,
      "step": 7545
    },
    {
      "epoch": 0.965888,
      "grad_norm": 0.4390212297439575,
      "learning_rate": 3.0378630143499953e-06,
      "loss": 2.4973,
      "step": 7546
    },
    {
      "epoch": 0.966016,
      "grad_norm": 0.36964547634124756,
      "learning_rate": 3.0150878139912906e-06,
      "loss": 2.4443,
      "step": 7547
    },
    {
      "epoch": 0.966144,
      "grad_norm": 0.416239857673645,
      "learning_rate": 2.9923980511004646e-06,
      "loss": 2.5489,
      "step": 7548
    },
    {
      "epoch": 0.966272,
      "grad_norm": 0.4764421880245209,
      "learning_rate": 2.9697937295782295e-06,
      "loss": 2.5762,
      "step": 7549
    },
    {
      "epoch": 0.9664,
      "grad_norm": 0.44713959097862244,
      "learning_rate": 2.9472748533105886e-06,
      "loss": 2.4808,
      "step": 7550
    },
    {
      "epoch": 0.966528,
      "grad_norm": 0.4573196768760681,
      "learning_rate": 2.924841426168667e-06,
      "loss": 2.5219,
      "step": 7551
    },
    {
      "epoch": 0.966656,
      "grad_norm": 0.36931395530700684,
      "learning_rate": 2.9024934520091028e-06,
      "loss": 2.5659,
      "step": 7552
    },
    {
      "epoch": 0.966784,
      "grad_norm": 0.4233837127685547,
      "learning_rate": 2.8802309346737666e-06,
      "loss": 2.6495,
      "step": 7553
    },
    {
      "epoch": 0.966912,
      "grad_norm": 0.40966686606407166,
      "learning_rate": 2.858053877989819e-06,
      "loss": 2.5157,
      "step": 7554
    },
    {
      "epoch": 0.96704,
      "grad_norm": 0.401532918214798,
      "learning_rate": 2.835962285769822e-06,
      "loss": 2.5592,
      "step": 7555
    },
    {
      "epoch": 0.967168,
      "grad_norm": 0.5024864077568054,
      "learning_rate": 2.813956161811515e-06,
      "loss": 2.531,
      "step": 7556
    },
    {
      "epoch": 0.967296,
      "grad_norm": 0.3792775571346283,
      "learning_rate": 2.7920355098979833e-06,
      "loss": 2.6405,
      "step": 7557
    },
    {
      "epoch": 0.967424,
      "grad_norm": 0.38244161009788513,
      "learning_rate": 2.7702003337977123e-06,
      "loss": 2.5923,
      "step": 7558
    },
    {
      "epoch": 0.967552,
      "grad_norm": 0.40891218185424805,
      "learning_rate": 2.7484506372643658e-06,
      "loss": 2.5368,
      "step": 7559
    },
    {
      "epoch": 0.96768,
      "grad_norm": 0.4097501337528229,
      "learning_rate": 2.7267864240369533e-06,
      "loss": 2.624,
      "step": 7560
    },
    {
      "epoch": 0.967808,
      "grad_norm": 0.3868831992149353,
      "learning_rate": 2.7052076978398842e-06,
      "loss": 2.5775,
      "step": 7561
    },
    {
      "epoch": 0.967936,
      "grad_norm": 0.7274198532104492,
      "learning_rate": 2.683714462382747e-06,
      "loss": 2.5733,
      "step": 7562
    },
    {
      "epoch": 0.968064,
      "grad_norm": 0.35892361402511597,
      "learning_rate": 2.6623067213605303e-06,
      "loss": 2.5748,
      "step": 7563
    },
    {
      "epoch": 0.968192,
      "grad_norm": 0.4802189767360687,
      "learning_rate": 2.6409844784533456e-06,
      "loss": 2.532,
      "step": 7564
    },
    {
      "epoch": 0.96832,
      "grad_norm": 0.38802510499954224,
      "learning_rate": 2.619747737326872e-06,
      "loss": 2.574,
      "step": 7565
    },
    {
      "epoch": 0.968448,
      "grad_norm": 0.3965337872505188,
      "learning_rate": 2.5985965016318e-06,
      "loss": 2.5604,
      "step": 7566
    },
    {
      "epoch": 0.968576,
      "grad_norm": 0.38926395773887634,
      "learning_rate": 2.5775307750043887e-06,
      "loss": 2.6351,
      "step": 7567
    },
    {
      "epoch": 0.968704,
      "grad_norm": 0.37529411911964417,
      "learning_rate": 2.556550561066073e-06,
      "loss": 2.5007,
      "step": 7568
    },
    {
      "epoch": 0.968832,
      "grad_norm": 0.3933860659599304,
      "learning_rate": 2.5356558634235806e-06,
      "loss": 2.4716,
      "step": 7569
    },
    {
      "epoch": 0.96896,
      "grad_norm": 0.3877672851085663,
      "learning_rate": 2.514846685668981e-06,
      "loss": 2.6492,
      "step": 7570
    },
    {
      "epoch": 0.969088,
      "grad_norm": 0.4002442955970764,
      "learning_rate": 2.4941230313795247e-06,
      "loss": 2.5724,
      "step": 7571
    },
    {
      "epoch": 0.969216,
      "grad_norm": 0.3810475170612335,
      "learning_rate": 2.4734849041179176e-06,
      "loss": 2.6162,
      "step": 7572
    },
    {
      "epoch": 0.969344,
      "grad_norm": 0.4283725619316101,
      "learning_rate": 2.4529323074320984e-06,
      "loss": 2.5303,
      "step": 7573
    },
    {
      "epoch": 0.969472,
      "grad_norm": 0.503498375415802,
      "learning_rate": 2.432465244855242e-06,
      "loss": 2.5838,
      "step": 7574
    },
    {
      "epoch": 0.9696,
      "grad_norm": 0.40628549456596375,
      "learning_rate": 2.412083719905922e-06,
      "loss": 2.5781,
      "step": 7575
    },
    {
      "epoch": 0.969728,
      "grad_norm": 0.5413168668746948,
      "learning_rate": 2.391787736087947e-06,
      "loss": 2.4436,
      "step": 7576
    },
    {
      "epoch": 0.969856,
      "grad_norm": 0.3710251450538635,
      "learning_rate": 2.3715772968904147e-06,
      "loss": 2.5254,
      "step": 7577
    },
    {
      "epoch": 0.969984,
      "grad_norm": 0.3949751853942871,
      "learning_rate": 2.3514524057877685e-06,
      "loss": 2.5675,
      "step": 7578
    },
    {
      "epoch": 0.970112,
      "grad_norm": 0.37286704778671265,
      "learning_rate": 2.331413066239685e-06,
      "loss": 2.4399,
      "step": 7579
    },
    {
      "epoch": 0.97024,
      "grad_norm": 0.40174204111099243,
      "learning_rate": 2.3114592816911863e-06,
      "loss": 2.5476,
      "step": 7580
    },
    {
      "epoch": 0.970368,
      "grad_norm": 0.4156284034252167,
      "learning_rate": 2.2915910555725283e-06,
      "loss": 2.5816,
      "step": 7581
    },
    {
      "epoch": 0.970496,
      "grad_norm": 0.4071078300476074,
      "learning_rate": 2.2718083912992572e-06,
      "loss": 2.4915,
      "step": 7582
    },
    {
      "epoch": 0.970624,
      "grad_norm": 0.40928930044174194,
      "learning_rate": 2.2521112922723184e-06,
      "loss": 2.5492,
      "step": 7583
    },
    {
      "epoch": 0.970752,
      "grad_norm": 0.41139861941337585,
      "learning_rate": 2.2324997618778375e-06,
      "loss": 2.5276,
      "step": 7584
    },
    {
      "epoch": 0.97088,
      "grad_norm": 0.4787498414516449,
      "learning_rate": 2.212973803487284e-06,
      "loss": 2.5502,
      "step": 7585
    },
    {
      "epoch": 0.971008,
      "grad_norm": 0.40560123324394226,
      "learning_rate": 2.1935334204573054e-06,
      "loss": 2.5151,
      "step": 7586
    },
    {
      "epoch": 0.971136,
      "grad_norm": 0.3741009831428528,
      "learning_rate": 2.1741786161300626e-06,
      "loss": 2.4424,
      "step": 7587
    },
    {
      "epoch": 0.971264,
      "grad_norm": 0.40990743041038513,
      "learning_rate": 2.1549093938327825e-06,
      "loss": 2.5364,
      "step": 7588
    },
    {
      "epoch": 0.971392,
      "grad_norm": 0.39171841740608215,
      "learning_rate": 2.135725756878093e-06,
      "loss": 2.5997,
      "step": 7589
    },
    {
      "epoch": 0.97152,
      "grad_norm": 0.3636226952075958,
      "learning_rate": 2.1166277085639117e-06,
      "loss": 2.5899,
      "step": 7590
    },
    {
      "epoch": 0.971648,
      "grad_norm": 0.411096453666687,
      "learning_rate": 2.0976152521733905e-06,
      "loss": 2.5823,
      "step": 7591
    },
    {
      "epoch": 0.971776,
      "grad_norm": 0.37737226486206055,
      "learning_rate": 2.0786883909749698e-06,
      "loss": 2.6019,
      "step": 7592
    },
    {
      "epoch": 0.971904,
      "grad_norm": 0.3886047303676605,
      "learning_rate": 2.059847128222381e-06,
      "loss": 2.535,
      "step": 7593
    },
    {
      "epoch": 0.972032,
      "grad_norm": 0.3856019079685211,
      "learning_rate": 2.0410914671546986e-06,
      "loss": 2.5993,
      "step": 7594
    },
    {
      "epoch": 0.97216,
      "grad_norm": 0.631290853023529,
      "learning_rate": 2.0224214109962334e-06,
      "loss": 2.5409,
      "step": 7595
    },
    {
      "epoch": 0.972288,
      "grad_norm": 0.39515677094459534,
      "learning_rate": 2.0038369629565846e-06,
      "loss": 2.5774,
      "step": 7596
    },
    {
      "epoch": 0.972416,
      "grad_norm": 0.3937796354293823,
      "learning_rate": 1.98533812623064e-06,
      "loss": 2.6343,
      "step": 7597
    },
    {
      "epoch": 0.972544,
      "grad_norm": 0.40871211886405945,
      "learning_rate": 1.9669249039985794e-06,
      "loss": 2.5207,
      "step": 7598
    },
    {
      "epoch": 0.972672,
      "grad_norm": 0.3781040906906128,
      "learning_rate": 1.9485972994257585e-06,
      "loss": 2.5342,
      "step": 7599
    },
    {
      "epoch": 0.9728,
      "grad_norm": 0.4189378321170807,
      "learning_rate": 1.930355315663046e-06,
      "loss": 2.428,
      "step": 7600
    },
    {
      "epoch": 0.972928,
      "grad_norm": 0.6905355453491211,
      "learning_rate": 1.9121989558463225e-06,
      "loss": 2.5405,
      "step": 7601
    },
    {
      "epoch": 0.973056,
      "grad_norm": 0.4802360236644745,
      "learning_rate": 1.8941282230969247e-06,
      "loss": 2.56,
      "step": 7602
    },
    {
      "epoch": 0.973184,
      "grad_norm": 0.3914889395236969,
      "learning_rate": 1.876143120521423e-06,
      "loss": 2.5404,
      "step": 7603
    },
    {
      "epoch": 0.973312,
      "grad_norm": 0.42115285992622375,
      "learning_rate": 1.8582436512116775e-06,
      "loss": 2.6598,
      "step": 7604
    },
    {
      "epoch": 0.97344,
      "grad_norm": 0.41021743416786194,
      "learning_rate": 1.840429818244782e-06,
      "loss": 2.3896,
      "step": 7605
    },
    {
      "epoch": 0.973568,
      "grad_norm": 0.3865814507007599,
      "learning_rate": 1.8227016246831762e-06,
      "loss": 2.457,
      "step": 7606
    },
    {
      "epoch": 0.973696,
      "grad_norm": 0.5012204647064209,
      "learning_rate": 1.805059073574533e-06,
      "loss": 2.5864,
      "step": 7607
    },
    {
      "epoch": 0.973824,
      "grad_norm": 0.4043458104133606,
      "learning_rate": 1.7875021679518155e-06,
      "loss": 2.4876,
      "step": 7608
    },
    {
      "epoch": 0.973952,
      "grad_norm": 0.41220617294311523,
      "learning_rate": 1.7700309108332203e-06,
      "loss": 2.5177,
      "step": 7609
    },
    {
      "epoch": 0.97408,
      "grad_norm": 0.5359971523284912,
      "learning_rate": 1.7526453052223445e-06,
      "loss": 2.5062,
      "step": 7610
    },
    {
      "epoch": 0.974208,
      "grad_norm": 0.4195706248283386,
      "learning_rate": 1.7353453541078535e-06,
      "loss": 2.5742,
      "step": 7611
    },
    {
      "epoch": 0.974336,
      "grad_norm": 0.43675148487091064,
      "learning_rate": 1.7181310604639233e-06,
      "loss": 2.5185,
      "step": 7612
    },
    {
      "epoch": 0.974464,
      "grad_norm": 0.36818087100982666,
      "learning_rate": 1.7010024272498537e-06,
      "loss": 2.5392,
      "step": 7613
    },
    {
      "epoch": 0.974592,
      "grad_norm": 0.5736851096153259,
      "learning_rate": 1.683959457410178e-06,
      "loss": 2.4916,
      "step": 7614
    },
    {
      "epoch": 0.97472,
      "grad_norm": 0.46170178055763245,
      "learning_rate": 1.6670021538748859e-06,
      "loss": 2.5686,
      "step": 7615
    },
    {
      "epoch": 0.974848,
      "grad_norm": 0.4113304913043976,
      "learning_rate": 1.65013051955909e-06,
      "loss": 2.5281,
      "step": 7616
    },
    {
      "epoch": 0.974976,
      "grad_norm": 0.43089964985847473,
      "learning_rate": 1.6333445573632478e-06,
      "loss": 2.566,
      "step": 7617
    },
    {
      "epoch": 0.975104,
      "grad_norm": 0.42668861150741577,
      "learning_rate": 1.6166442701730511e-06,
      "loss": 2.4916,
      "step": 7618
    },
    {
      "epoch": 0.975232,
      "grad_norm": 0.3752072751522064,
      "learning_rate": 1.6000296608594256e-06,
      "loss": 2.5701,
      "step": 7619
    },
    {
      "epoch": 0.97536,
      "grad_norm": 0.39785006642341614,
      "learning_rate": 1.5835007322786421e-06,
      "loss": 2.509,
      "step": 7620
    },
    {
      "epoch": 0.975488,
      "grad_norm": 0.47968170046806335,
      "learning_rate": 1.567057487272261e-06,
      "loss": 2.5726,
      "step": 7621
    },
    {
      "epoch": 0.975616,
      "grad_norm": 0.3948916792869568,
      "learning_rate": 1.5506999286669654e-06,
      "loss": 2.5259,
      "step": 7622
    },
    {
      "epoch": 0.975744,
      "grad_norm": 0.6734492778778076,
      "learning_rate": 1.534428059274895e-06,
      "loss": 2.4431,
      "step": 7623
    },
    {
      "epoch": 0.975872,
      "grad_norm": 0.4394957423210144,
      "learning_rate": 1.5182418818933675e-06,
      "loss": 2.524,
      "step": 7624
    },
    {
      "epoch": 0.976,
      "grad_norm": 0.38481131196022034,
      "learning_rate": 1.502141399304935e-06,
      "loss": 2.5441,
      "step": 7625
    },
    {
      "epoch": 0.976128,
      "grad_norm": 0.4490790069103241,
      "learning_rate": 1.4861266142775499e-06,
      "loss": 2.6307,
      "step": 7626
    },
    {
      "epoch": 0.976256,
      "grad_norm": 0.6693777441978455,
      "learning_rate": 1.4701975295641768e-06,
      "loss": 2.5775,
      "step": 7627
    },
    {
      "epoch": 0.976384,
      "grad_norm": 0.4760434329509735,
      "learning_rate": 1.4543541479033473e-06,
      "loss": 2.4776,
      "step": 7628
    },
    {
      "epoch": 0.976512,
      "grad_norm": 0.38776594400405884,
      "learning_rate": 1.438596472018716e-06,
      "loss": 2.5832,
      "step": 7629
    },
    {
      "epoch": 0.97664,
      "grad_norm": 0.4078769087791443,
      "learning_rate": 1.422924504619061e-06,
      "loss": 2.3774,
      "step": 7630
    },
    {
      "epoch": 0.976768,
      "grad_norm": 0.40516793727874756,
      "learning_rate": 1.4073382483987817e-06,
      "loss": 2.5608,
      "step": 7631
    },
    {
      "epoch": 0.976896,
      "grad_norm": 0.4283594787120819,
      "learning_rate": 1.39183770603718e-06,
      "loss": 2.5874,
      "step": 7632
    },
    {
      "epoch": 0.977024,
      "grad_norm": 0.4544871151447296,
      "learning_rate": 1.3764228801990687e-06,
      "loss": 2.544,
      "step": 7633
    },
    {
      "epoch": 0.977152,
      "grad_norm": 0.377031147480011,
      "learning_rate": 1.3610937735344386e-06,
      "loss": 2.4589,
      "step": 7634
    },
    {
      "epoch": 0.97728,
      "grad_norm": 0.40160879492759705,
      "learning_rate": 1.3458503886784602e-06,
      "loss": 2.5549,
      "step": 7635
    },
    {
      "epoch": 0.977408,
      "grad_norm": 0.4246821403503418,
      "learning_rate": 1.3306927282517034e-06,
      "loss": 2.5219,
      "step": 7636
    },
    {
      "epoch": 0.977536,
      "grad_norm": 0.3792744576931,
      "learning_rate": 1.3156207948599176e-06,
      "loss": 2.5031,
      "step": 7637
    },
    {
      "epoch": 0.977664,
      "grad_norm": 0.3979688882827759,
      "learning_rate": 1.3006345910941963e-06,
      "loss": 2.5888,
      "step": 7638
    },
    {
      "epoch": 0.977792,
      "grad_norm": 0.3887440860271454,
      "learning_rate": 1.2857341195308125e-06,
      "loss": 2.5286,
      "step": 7639
    },
    {
      "epoch": 0.97792,
      "grad_norm": 0.44344714283943176,
      "learning_rate": 1.2709193827312725e-06,
      "loss": 2.5076,
      "step": 7640
    },
    {
      "epoch": 0.978048,
      "grad_norm": 0.5378706455230713,
      "learning_rate": 1.2561903832424836e-06,
      "loss": 2.5329,
      "step": 7641
    },
    {
      "epoch": 0.978176,
      "grad_norm": 0.4107047915458679,
      "learning_rate": 1.2415471235965315e-06,
      "loss": 2.6352,
      "step": 7642
    },
    {
      "epoch": 0.978304,
      "grad_norm": 0.43030524253845215,
      "learning_rate": 1.2269896063107356e-06,
      "loss": 2.4791,
      "step": 7643
    },
    {
      "epoch": 0.978432,
      "grad_norm": 0.39904317259788513,
      "learning_rate": 1.2125178338876497e-06,
      "loss": 2.6002,
      "step": 7644
    },
    {
      "epoch": 0.97856,
      "grad_norm": 0.3674660921096802,
      "learning_rate": 1.1981318088152281e-06,
      "loss": 2.4827,
      "step": 7645
    },
    {
      "epoch": 0.978688,
      "grad_norm": 0.4250570237636566,
      "learning_rate": 1.1838315335664928e-06,
      "loss": 2.5363,
      "step": 7646
    },
    {
      "epoch": 0.978816,
      "grad_norm": 0.38756904006004333,
      "learning_rate": 1.169617010599977e-06,
      "loss": 2.5541,
      "step": 7647
    },
    {
      "epoch": 0.978944,
      "grad_norm": 0.4173007011413574,
      "learning_rate": 1.1554882423591707e-06,
      "loss": 2.5921,
      "step": 7648
    },
    {
      "epoch": 0.979072,
      "grad_norm": 0.4838573634624481,
      "learning_rate": 1.141445231273075e-06,
      "loss": 2.5622,
      "step": 7649
    },
    {
      "epoch": 0.9792,
      "grad_norm": 0.43084922432899475,
      "learning_rate": 1.1274879797558146e-06,
      "loss": 2.537,
      "step": 7650
    },
    {
      "epoch": 0.979328,
      "grad_norm": 0.42255160212516785,
      "learning_rate": 1.113616490206748e-06,
      "loss": 2.6044,
      "step": 7651
    },
    {
      "epoch": 0.979456,
      "grad_norm": 1.0206046104431152,
      "learning_rate": 1.0998307650106342e-06,
      "loss": 2.5994,
      "step": 7652
    },
    {
      "epoch": 0.979584,
      "grad_norm": 0.6394309401512146,
      "learning_rate": 1.0861308065373554e-06,
      "loss": 2.4697,
      "step": 7653
    },
    {
      "epoch": 0.979712,
      "grad_norm": 0.40206098556518555,
      "learning_rate": 1.0725166171420831e-06,
      "loss": 2.4761,
      "step": 7654
    },
    {
      "epoch": 0.97984,
      "grad_norm": 0.3862707316875458,
      "learning_rate": 1.0589881991652784e-06,
      "loss": 2.6034,
      "step": 7655
    },
    {
      "epoch": 0.979968,
      "grad_norm": 0.4235157370567322,
      "learning_rate": 1.0455455549326365e-06,
      "loss": 2.4396,
      "step": 7656
    },
    {
      "epoch": 0.980096,
      "grad_norm": 0.5181897282600403,
      "learning_rate": 1.0321886867550868e-06,
      "loss": 2.5753,
      "step": 7657
    },
    {
      "epoch": 0.980224,
      "grad_norm": 0.41658398509025574,
      "learning_rate": 1.0189175969287924e-06,
      "loss": 2.5381,
      "step": 7658
    },
    {
      "epoch": 0.980352,
      "grad_norm": 0.37459123134613037,
      "learning_rate": 1.0057322877352615e-06,
      "loss": 2.6528,
      "step": 7659
    },
    {
      "epoch": 0.98048,
      "grad_norm": 0.624533474445343,
      "learning_rate": 9.926327614411811e-07,
      "loss": 2.549,
      "step": 7660
    },
    {
      "epoch": 0.980608,
      "grad_norm": 0.3814007341861725,
      "learning_rate": 9.796190202985832e-07,
      "loss": 2.5358,
      "step": 7661
    },
    {
      "epoch": 0.980736,
      "grad_norm": 0.3740766942501068,
      "learning_rate": 9.666910665445672e-07,
      "loss": 2.6193,
      "step": 7662
    },
    {
      "epoch": 0.980864,
      "grad_norm": 0.4050978720188141,
      "learning_rate": 9.538489024016328e-07,
      "loss": 2.5366,
      "step": 7663
    },
    {
      "epoch": 0.980992,
      "grad_norm": 0.4217661917209625,
      "learning_rate": 9.410925300775697e-07,
      "loss": 2.6926,
      "step": 7664
    },
    {
      "epoch": 0.98112,
      "grad_norm": 0.41899943351745605,
      "learning_rate": 9.284219517652349e-07,
      "loss": 2.5956,
      "step": 7665
    },
    {
      "epoch": 0.981248,
      "grad_norm": 0.3739323616027832,
      "learning_rate": 9.158371696428858e-07,
      "loss": 2.5219,
      "step": 7666
    },
    {
      "epoch": 0.981376,
      "grad_norm": 0.4125218689441681,
      "learning_rate": 9.033381858740697e-07,
      "loss": 2.5651,
      "step": 7667
    },
    {
      "epoch": 0.981504,
      "grad_norm": 0.39683622121810913,
      "learning_rate": 8.909250026074012e-07,
      "loss": 2.3887,
      "step": 7668
    },
    {
      "epoch": 0.981632,
      "grad_norm": 0.43390804529190063,
      "learning_rate": 8.785976219768954e-07,
      "loss": 2.6725,
      "step": 7669
    },
    {
      "epoch": 0.98176,
      "grad_norm": 0.43366146087646484,
      "learning_rate": 8.663560461018016e-07,
      "loss": 2.564,
      "step": 7670
    },
    {
      "epoch": 0.981888,
      "grad_norm": 0.3927151560783386,
      "learning_rate": 8.542002770865476e-07,
      "loss": 2.6234,
      "step": 7671
    },
    {
      "epoch": 0.982016,
      "grad_norm": 0.406890869140625,
      "learning_rate": 8.421303170208505e-07,
      "loss": 2.4035,
      "step": 7672
    },
    {
      "epoch": 0.982144,
      "grad_norm": 0.4165654480457306,
      "learning_rate": 8.301461679796618e-07,
      "loss": 2.5439,
      "step": 7673
    },
    {
      "epoch": 0.982272,
      "grad_norm": 0.5048285126686096,
      "learning_rate": 8.182478320232223e-07,
      "loss": 2.549,
      "step": 7674
    },
    {
      "epoch": 0.9824,
      "grad_norm": 0.39792460203170776,
      "learning_rate": 8.064353111970068e-07,
      "loss": 2.4896,
      "step": 7675
    },
    {
      "epoch": 0.982528,
      "grad_norm": 0.39537501335144043,
      "learning_rate": 7.947086075317245e-07,
      "loss": 2.5074,
      "step": 7676
    },
    {
      "epoch": 0.982656,
      "grad_norm": 0.3735116422176361,
      "learning_rate": 7.830677230433181e-07,
      "loss": 2.4144,
      "step": 7677
    },
    {
      "epoch": 0.982784,
      "grad_norm": 0.3995078504085541,
      "learning_rate": 7.715126597329647e-07,
      "loss": 2.503,
      "step": 7678
    },
    {
      "epoch": 0.982912,
      "grad_norm": 0.4182349443435669,
      "learning_rate": 7.600434195871864e-07,
      "loss": 2.5158,
      "step": 7679
    },
    {
      "epoch": 0.98304,
      "grad_norm": 0.38122764229774475,
      "learning_rate": 7.486600045775727e-07,
      "loss": 2.5351,
      "step": 7680
    },
    {
      "epoch": 0.983168,
      "grad_norm": 0.5827014446258545,
      "learning_rate": 7.373624166611137e-07,
      "loss": 2.5137,
      "step": 7681
    },
    {
      "epoch": 0.983296,
      "grad_norm": 0.5884272456169128,
      "learning_rate": 7.261506577800892e-07,
      "loss": 2.6011,
      "step": 7682
    },
    {
      "epoch": 0.983424,
      "grad_norm": 0.44929569959640503,
      "learning_rate": 7.150247298617907e-07,
      "loss": 2.6503,
      "step": 7683
    },
    {
      "epoch": 0.983552,
      "grad_norm": 0.38334351778030396,
      "learning_rate": 7.039846348189105e-07,
      "loss": 2.5806,
      "step": 7684
    },
    {
      "epoch": 0.98368,
      "grad_norm": 0.3709335923194885,
      "learning_rate": 6.930303745494859e-07,
      "loss": 2.5532,
      "step": 7685
    },
    {
      "epoch": 0.983808,
      "grad_norm": 0.4069279730319977,
      "learning_rate": 6.821619509365662e-07,
      "loss": 2.5283,
      "step": 7686
    },
    {
      "epoch": 0.983936,
      "grad_norm": 0.4235685169696808,
      "learning_rate": 6.713793658486012e-07,
      "loss": 2.4535,
      "step": 7687
    },
    {
      "epoch": 0.984064,
      "grad_norm": 0.44259265065193176,
      "learning_rate": 6.606826211392192e-07,
      "loss": 2.5367,
      "step": 7688
    },
    {
      "epoch": 0.984192,
      "grad_norm": 0.41128644347190857,
      "learning_rate": 6.500717186473382e-07,
      "loss": 2.5546,
      "step": 7689
    },
    {
      "epoch": 0.98432,
      "grad_norm": 0.43843990564346313,
      "learning_rate": 6.3954666019711e-07,
      "loss": 2.5327,
      "step": 7690
    },
    {
      "epoch": 0.984448,
      "grad_norm": 0.43396639823913574,
      "learning_rate": 6.291074475978653e-07,
      "loss": 2.3846,
      "step": 7691
    },
    {
      "epoch": 0.984576,
      "grad_norm": 0.3683392405509949,
      "learning_rate": 6.187540826442795e-07,
      "loss": 2.4663,
      "step": 7692
    },
    {
      "epoch": 0.984704,
      "grad_norm": 0.39410147070884705,
      "learning_rate": 6.084865671162065e-07,
      "loss": 2.5662,
      "step": 7693
    },
    {
      "epoch": 0.984832,
      "grad_norm": 0.49522459506988525,
      "learning_rate": 5.983049027786791e-07,
      "loss": 2.6228,
      "step": 7694
    },
    {
      "epoch": 0.98496,
      "grad_norm": 0.37813135981559753,
      "learning_rate": 5.882090913821303e-07,
      "loss": 2.567,
      "step": 7695
    },
    {
      "epoch": 0.985088,
      "grad_norm": 0.3945297300815582,
      "learning_rate": 5.781991346621163e-07,
      "loss": 2.5511,
      "step": 7696
    },
    {
      "epoch": 0.985216,
      "grad_norm": 0.5492852926254272,
      "learning_rate": 5.682750343394826e-07,
      "loss": 2.5732,
      "step": 7697
    },
    {
      "epoch": 0.985344,
      "grad_norm": 0.38700005412101746,
      "learning_rate": 5.584367921202538e-07,
      "loss": 2.4275,
      "step": 7698
    },
    {
      "epoch": 0.985472,
      "grad_norm": 0.4627643823623657,
      "learning_rate": 5.486844096957988e-07,
      "loss": 2.6245,
      "step": 7699
    },
    {
      "epoch": 0.9856,
      "grad_norm": 0.3874427378177643,
      "learning_rate": 5.3901788874261e-07,
      "loss": 2.5463,
      "step": 7700
    },
    {
      "epoch": 0.985728,
      "grad_norm": 0.41838181018829346,
      "learning_rate": 5.294372309224693e-07,
      "loss": 2.4407,
      "step": 7701
    },
    {
      "epoch": 0.985856,
      "grad_norm": 0.4022243022918701,
      "learning_rate": 5.19942437882448e-07,
      "loss": 2.5506,
      "step": 7702
    },
    {
      "epoch": 0.985984,
      "grad_norm": 0.3827742040157318,
      "learning_rate": 5.10533511254796e-07,
      "loss": 2.5233,
      "step": 7703
    },
    {
      "epoch": 0.986112,
      "grad_norm": 0.367891788482666,
      "learning_rate": 5.012104526569972e-07,
      "loss": 2.638,
      "step": 7704
    },
    {
      "epoch": 0.98624,
      "grad_norm": 0.42596760392189026,
      "learning_rate": 4.919732636918251e-07,
      "loss": 2.5784,
      "step": 7705
    },
    {
      "epoch": 0.986368,
      "grad_norm": 0.40067753195762634,
      "learning_rate": 4.828219459472316e-07,
      "loss": 2.6685,
      "step": 7706
    },
    {
      "epoch": 0.986496,
      "grad_norm": 0.4366532862186432,
      "learning_rate": 4.737565009964584e-07,
      "loss": 2.6148,
      "step": 7707
    },
    {
      "epoch": 0.986624,
      "grad_norm": 0.43767476081848145,
      "learning_rate": 4.647769303979255e-07,
      "loss": 2.5589,
      "step": 7708
    },
    {
      "epoch": 0.986752,
      "grad_norm": 0.3986170291900635,
      "learning_rate": 4.558832356953979e-07,
      "loss": 2.465,
      "step": 7709
    },
    {
      "epoch": 0.98688,
      "grad_norm": 0.4358423352241516,
      "learning_rate": 4.470754184177084e-07,
      "loss": 2.6286,
      "step": 7710
    },
    {
      "epoch": 0.987008,
      "grad_norm": 0.43584051728248596,
      "learning_rate": 4.3835348007909004e-07,
      "loss": 2.5972,
      "step": 7711
    },
    {
      "epoch": 0.987136,
      "grad_norm": 0.4084719717502594,
      "learning_rate": 4.297174221788991e-07,
      "loss": 2.4798,
      "step": 7712
    },
    {
      "epoch": 0.987264,
      "grad_norm": 0.3902498483657837,
      "learning_rate": 4.2116724620183675e-07,
      "loss": 2.5042,
      "step": 7713
    },
    {
      "epoch": 0.987392,
      "grad_norm": 0.5656541585922241,
      "learning_rate": 4.1270295361772737e-07,
      "loss": 2.4874,
      "step": 7714
    },
    {
      "epoch": 0.98752,
      "grad_norm": 0.4045076370239258,
      "learning_rate": 4.043245458816847e-07,
      "loss": 2.5653,
      "step": 7715
    },
    {
      "epoch": 0.987648,
      "grad_norm": 0.3733912408351898,
      "learning_rate": 3.960320244340565e-07,
      "loss": 2.5178,
      "step": 7716
    },
    {
      "epoch": 0.987776,
      "grad_norm": 0.40768373012542725,
      "learning_rate": 3.878253907004248e-07,
      "loss": 2.5228,
      "step": 7717
    },
    {
      "epoch": 0.987904,
      "grad_norm": 0.387229323387146,
      "learning_rate": 3.7970464609160535e-07,
      "loss": 2.5829,
      "step": 7718
    },
    {
      "epoch": 0.988032,
      "grad_norm": 0.4322192072868347,
      "learning_rate": 3.7166979200364826e-07,
      "loss": 2.5291,
      "step": 7719
    },
    {
      "epoch": 0.98816,
      "grad_norm": 0.41435137391090393,
      "learning_rate": 3.637208298178929e-07,
      "loss": 2.5273,
      "step": 7720
    },
    {
      "epoch": 0.988288,
      "grad_norm": 0.39290928840637207,
      "learning_rate": 3.558577609007463e-07,
      "loss": 2.6562,
      "step": 7721
    },
    {
      "epoch": 0.988416,
      "grad_norm": 0.39299437403678894,
      "learning_rate": 3.480805866040715e-07,
      "loss": 2.4706,
      "step": 7722
    },
    {
      "epoch": 0.988544,
      "grad_norm": 0.43407681584358215,
      "learning_rate": 3.403893082647991e-07,
      "loss": 2.6116,
      "step": 7723
    },
    {
      "epoch": 0.988672,
      "grad_norm": 0.4258802533149719,
      "learning_rate": 3.3278392720514915e-07,
      "loss": 2.5963,
      "step": 7724
    },
    {
      "epoch": 0.9888,
      "grad_norm": 0.4706558585166931,
      "learning_rate": 3.252644447325759e-07,
      "loss": 2.5379,
      "step": 7725
    },
    {
      "epoch": 0.988928,
      "grad_norm": 0.3911517262458801,
      "learning_rate": 3.178308621397674e-07,
      "loss": 2.5852,
      "step": 7726
    },
    {
      "epoch": 0.989056,
      "grad_norm": 0.41394200921058655,
      "learning_rate": 3.10483180704646e-07,
      "loss": 2.528,
      "step": 7727
    },
    {
      "epoch": 0.989184,
      "grad_norm": 0.7925117015838623,
      "learning_rate": 3.0322140169036784e-07,
      "loss": 2.5832,
      "step": 7728
    },
    {
      "epoch": 0.989312,
      "grad_norm": 0.3886985182762146,
      "learning_rate": 2.9604552634532324e-07,
      "loss": 2.5763,
      "step": 7729
    },
    {
      "epoch": 0.98944,
      "grad_norm": 0.37926408648490906,
      "learning_rate": 2.88955555903081e-07,
      "loss": 2.5309,
      "step": 7730
    },
    {
      "epoch": 0.989568,
      "grad_norm": 0.6196855902671814,
      "learning_rate": 2.8195149158255497e-07,
      "loss": 2.5147,
      "step": 7731
    },
    {
      "epoch": 0.989696,
      "grad_norm": 0.456990122795105,
      "learning_rate": 2.75033334587782e-07,
      "loss": 2.5151,
      "step": 7732
    },
    {
      "epoch": 0.989824,
      "grad_norm": 0.47597306966781616,
      "learning_rate": 2.6820108610808855e-07,
      "loss": 2.5917,
      "step": 7733
    },
    {
      "epoch": 0.989952,
      "grad_norm": 0.3988759517669678,
      "learning_rate": 2.614547473180351e-07,
      "loss": 2.5738,
      "step": 7734
    },
    {
      "epoch": 0.99008,
      "grad_norm": 0.42059624195098877,
      "learning_rate": 2.5479431937736055e-07,
      "loss": 2.5134,
      "step": 7735
    },
    {
      "epoch": 0.990208,
      "grad_norm": 0.39755693078041077,
      "learning_rate": 2.482198034310934e-07,
      "loss": 2.5374,
      "step": 7736
    },
    {
      "epoch": 0.990336,
      "grad_norm": 0.437374472618103,
      "learning_rate": 2.4173120060949626e-07,
      "loss": 2.5554,
      "step": 7737
    },
    {
      "epoch": 0.990464,
      "grad_norm": 0.38235655426979065,
      "learning_rate": 2.353285120279547e-07,
      "loss": 2.5314,
      "step": 7738
    },
    {
      "epoch": 0.990592,
      "grad_norm": 0.4055206775665283,
      "learning_rate": 2.2901173878725478e-07,
      "loss": 2.5484,
      "step": 7739
    },
    {
      "epoch": 0.99072,
      "grad_norm": 0.4820309281349182,
      "learning_rate": 2.2278088197325018e-07,
      "loss": 2.5374,
      "step": 7740
    },
    {
      "epoch": 0.990848,
      "grad_norm": 0.4886195659637451,
      "learning_rate": 2.1663594265708407e-07,
      "loss": 2.6127,
      "step": 7741
    },
    {
      "epoch": 0.990976,
      "grad_norm": 0.39925408363342285,
      "learning_rate": 2.1057692189524468e-07,
      "loss": 2.5477,
      "step": 7742
    },
    {
      "epoch": 0.991104,
      "grad_norm": 0.37635812163352966,
      "learning_rate": 2.0460382072928775e-07,
      "loss": 2.4919,
      "step": 7743
    },
    {
      "epoch": 0.991232,
      "grad_norm": 0.46352913975715637,
      "learning_rate": 1.98716640186003e-07,
      "loss": 2.5623,
      "step": 7744
    },
    {
      "epoch": 0.99136,
      "grad_norm": 0.3924682140350342,
      "learning_rate": 1.9291538127758078e-07,
      "loss": 2.5552,
      "step": 7745
    },
    {
      "epoch": 0.991488,
      "grad_norm": 0.3827461898326874,
      "learning_rate": 1.8720004500122345e-07,
      "loss": 2.5652,
      "step": 7746
    },
    {
      "epoch": 0.991616,
      "grad_norm": 0.3964586555957794,
      "learning_rate": 1.8157063233953387e-07,
      "loss": 2.5725,
      "step": 7747
    },
    {
      "epoch": 0.991744,
      "grad_norm": 0.44627317786216736,
      "learning_rate": 1.7602714426023791e-07,
      "loss": 2.5127,
      "step": 7748
    },
    {
      "epoch": 0.991872,
      "grad_norm": 0.40882202982902527,
      "learning_rate": 1.7056958171635108e-07,
      "loss": 2.4711,
      "step": 7749
    },
    {
      "epoch": 0.992,
      "grad_norm": 0.43815478682518005,
      "learning_rate": 1.6519794564606727e-07,
      "loss": 2.5961,
      "step": 7750
    },
    {
      "epoch": 0.992128,
      "grad_norm": 0.39906051754951477,
      "learning_rate": 1.5991223697281455e-07,
      "loss": 2.5339,
      "step": 7751
    },
    {
      "epoch": 0.992256,
      "grad_norm": 0.38486146926879883,
      "learning_rate": 1.5471245660531042e-07,
      "loss": 2.4823,
      "step": 7752
    },
    {
      "epoch": 0.992384,
      "grad_norm": 0.36808961629867554,
      "learning_rate": 1.4959860543739546e-07,
      "loss": 2.4796,
      "step": 7753
    },
    {
      "epoch": 0.992512,
      "grad_norm": 0.38214242458343506,
      "learning_rate": 1.4457068434831077e-07,
      "loss": 2.5506,
      "step": 7754
    },
    {
      "epoch": 0.99264,
      "grad_norm": 0.44588351249694824,
      "learning_rate": 1.396286942023095e-07,
      "loss": 2.5088,
      "step": 7755
    },
    {
      "epoch": 0.992768,
      "grad_norm": 0.40552714467048645,
      "learning_rate": 1.3477263584904532e-07,
      "loss": 2.4654,
      "step": 7756
    },
    {
      "epoch": 0.992896,
      "grad_norm": 0.38770607113838196,
      "learning_rate": 1.3000251012323938e-07,
      "loss": 2.5939,
      "step": 7757
    },
    {
      "epoch": 0.993024,
      "grad_norm": 0.3881751000881195,
      "learning_rate": 1.2531831784506897e-07,
      "loss": 2.4283,
      "step": 7758
    },
    {
      "epoch": 0.993152,
      "grad_norm": 0.3970048129558563,
      "learning_rate": 1.2072005981966781e-07,
      "loss": 2.455,
      "step": 7759
    },
    {
      "epoch": 0.99328,
      "grad_norm": 0.40786412358283997,
      "learning_rate": 1.1620773683757024e-07,
      "loss": 2.5374,
      "step": 7760
    },
    {
      "epoch": 0.993408,
      "grad_norm": 0.4239314794540405,
      "learning_rate": 1.1178134967454457e-07,
      "loss": 2.6137,
      "step": 7761
    },
    {
      "epoch": 0.993536,
      "grad_norm": 0.42853012681007385,
      "learning_rate": 1.0744089909153765e-07,
      "loss": 2.5864,
      "step": 7762
    },
    {
      "epoch": 0.993664,
      "grad_norm": 0.41098499298095703,
      "learning_rate": 1.0318638583467488e-07,
      "loss": 2.4908,
      "step": 7763
    },
    {
      "epoch": 0.993792,
      "grad_norm": 0.3994683027267456,
      "learning_rate": 9.901781063531568e-08,
      "loss": 2.5428,
      "step": 7764
    },
    {
      "epoch": 0.99392,
      "grad_norm": 0.40401750802993774,
      "learning_rate": 9.493517421022002e-08,
      "loss": 2.6083,
      "step": 7765
    },
    {
      "epoch": 0.994048,
      "grad_norm": 0.43016794323921204,
      "learning_rate": 9.093847726110438e-08,
      "loss": 2.5575,
      "step": 7766
    },
    {
      "epoch": 0.994176,
      "grad_norm": 0.4376972019672394,
      "learning_rate": 8.702772047514129e-08,
      "loss": 2.6101,
      "step": 7767
    },
    {
      "epoch": 0.994304,
      "grad_norm": 0.7912472486495972,
      "learning_rate": 8.320290452462631e-08,
      "loss": 2.5584,
      "step": 7768
    },
    {
      "epoch": 0.994432,
      "grad_norm": 0.3825039863586426,
      "learning_rate": 7.94640300670335e-08,
      "loss": 2.6439,
      "step": 7769
    },
    {
      "epoch": 0.99456,
      "grad_norm": 0.4593973755836487,
      "learning_rate": 7.581109774512652e-08,
      "loss": 2.5511,
      "step": 7770
    },
    {
      "epoch": 0.994688,
      "grad_norm": 0.40600496530532837,
      "learning_rate": 7.224410818695848e-08,
      "loss": 2.537,
      "step": 7771
    },
    {
      "epoch": 0.994816,
      "grad_norm": 0.4226858913898468,
      "learning_rate": 6.876306200565009e-08,
      "loss": 2.5877,
      "step": 7772
    },
    {
      "epoch": 0.994944,
      "grad_norm": 0.3953983783721924,
      "learning_rate": 6.536795979966703e-08,
      "loss": 2.4913,
      "step": 7773
    },
    {
      "epoch": 0.995072,
      "grad_norm": 0.3836612105369568,
      "learning_rate": 6.205880215270909e-08,
      "loss": 2.508,
      "step": 7774
    },
    {
      "epoch": 0.9952,
      "grad_norm": 0.39023053646087646,
      "learning_rate": 5.883558963359903e-08,
      "loss": 2.4905,
      "step": 7775
    },
    {
      "epoch": 0.995328,
      "grad_norm": 0.39626190066337585,
      "learning_rate": 5.569832279644915e-08,
      "loss": 2.4783,
      "step": 7776
    },
    {
      "epoch": 0.995456,
      "grad_norm": 0.5738682746887207,
      "learning_rate": 5.264700218066132e-08,
      "loss": 2.5032,
      "step": 7777
    },
    {
      "epoch": 0.995584,
      "grad_norm": 0.3614925742149353,
      "learning_rate": 4.968162831070488e-08,
      "loss": 2.4893,
      "step": 7778
    },
    {
      "epoch": 0.995712,
      "grad_norm": 0.3826560974121094,
      "learning_rate": 4.6802201696394264e-08,
      "loss": 2.5089,
      "step": 7779
    },
    {
      "epoch": 0.99584,
      "grad_norm": 0.3988460302352905,
      "learning_rate": 4.400872283272239e-08,
      "loss": 2.5195,
      "step": 7780
    },
    {
      "epoch": 0.995968,
      "grad_norm": 0.3957073986530304,
      "learning_rate": 4.130119219997175e-08,
      "loss": 2.5616,
      "step": 7781
    },
    {
      "epoch": 0.996096,
      "grad_norm": 0.4160917401313782,
      "learning_rate": 3.8679610263547824e-08,
      "loss": 2.6038,
      "step": 7782
    },
    {
      "epoch": 0.996224,
      "grad_norm": 0.4017372727394104,
      "learning_rate": 3.614397747420117e-08,
      "loss": 2.5135,
      "step": 7783
    },
    {
      "epoch": 0.996352,
      "grad_norm": 0.39895787835121155,
      "learning_rate": 3.3694294267694326e-08,
      "loss": 2.4974,
      "step": 7784
    },
    {
      "epoch": 0.99648,
      "grad_norm": 0.3845301568508148,
      "learning_rate": 3.133056106530141e-08,
      "loss": 2.5474,
      "step": 7785
    },
    {
      "epoch": 0.996608,
      "grad_norm": 0.3894720673561096,
      "learning_rate": 2.9052778273308545e-08,
      "loss": 2.5068,
      "step": 7786
    },
    {
      "epoch": 0.996736,
      "grad_norm": 0.40621092915534973,
      "learning_rate": 2.6860946283291388e-08,
      "loss": 2.4667,
      "step": 7787
    },
    {
      "epoch": 0.996864,
      "grad_norm": 1.0759209394454956,
      "learning_rate": 2.4755065472115144e-08,
      "loss": 2.5588,
      "step": 7788
    },
    {
      "epoch": 0.996992,
      "grad_norm": 0.3805418014526367,
      "learning_rate": 2.2735136201712524e-08,
      "loss": 2.5153,
      "step": 7789
    },
    {
      "epoch": 0.99712,
      "grad_norm": 0.384342759847641,
      "learning_rate": 2.0801158819361287e-08,
      "loss": 2.5101,
      "step": 7790
    },
    {
      "epoch": 0.997248,
      "grad_norm": 0.36235007643699646,
      "learning_rate": 1.895313365757323e-08,
      "loss": 2.5946,
      "step": 7791
    },
    {
      "epoch": 0.997376,
      "grad_norm": 0.46929603815078735,
      "learning_rate": 1.7191061033983158e-08,
      "loss": 2.4577,
      "step": 7792
    },
    {
      "epoch": 0.997504,
      "grad_norm": 0.4055483043193817,
      "learning_rate": 1.5514941251570934e-08,
      "loss": 2.5359,
      "step": 7793
    },
    {
      "epoch": 0.997632,
      "grad_norm": 0.4095160663127899,
      "learning_rate": 1.3924774598439438e-08,
      "loss": 2.5499,
      "step": 7794
    },
    {
      "epoch": 0.99776,
      "grad_norm": 0.40185773372650146,
      "learning_rate": 1.2420561348036597e-08,
      "loss": 2.463,
      "step": 7795
    },
    {
      "epoch": 0.997888,
      "grad_norm": 0.3844188451766968,
      "learning_rate": 1.100230175882233e-08,
      "loss": 2.5981,
      "step": 7796
    },
    {
      "epoch": 0.998016,
      "grad_norm": 0.3971194326877594,
      "learning_rate": 9.669996074712639e-09,
      "loss": 2.5496,
      "step": 7797
    },
    {
      "epoch": 0.998144,
      "grad_norm": 0.3993886709213257,
      "learning_rate": 8.423644524691021e-09,
      "loss": 2.4587,
      "step": 7798
    },
    {
      "epoch": 0.998272,
      "grad_norm": 0.4118766486644745,
      "learning_rate": 7.263247323086031e-09,
      "loss": 2.5375,
      "step": 7799
    },
    {
      "epoch": 0.9984,
      "grad_norm": 0.3766399323940277,
      "learning_rate": 6.188804669349235e-09,
      "loss": 2.4592,
      "step": 7800
    },
    {
      "epoch": 0.998528,
      "grad_norm": 0.5069100856781006,
      "learning_rate": 5.200316748110723e-09,
      "loss": 2.5946,
      "step": 7801
    },
    {
      "epoch": 0.998656,
      "grad_norm": 0.3839954733848572,
      "learning_rate": 4.297783729456661e-09,
      "loss": 2.5846,
      "step": 7802
    },
    {
      "epoch": 0.998784,
      "grad_norm": 0.41344010829925537,
      "learning_rate": 3.4812057684296962e-09,
      "loss": 2.6118,
      "step": 7803
    },
    {
      "epoch": 0.998912,
      "grad_norm": 0.3834405243396759,
      "learning_rate": 2.7505830054175284e-09,
      "loss": 2.5431,
      "step": 7804
    },
    {
      "epoch": 0.99904,
      "grad_norm": 0.4299496114253998,
      "learning_rate": 2.1059155660418936e-09,
      "loss": 2.5114,
      "step": 7805
    },
    {
      "epoch": 0.999168,
      "grad_norm": 0.425087034702301,
      "learning_rate": 1.547203561158561e-09,
      "loss": 2.5365,
      "step": 7806
    },
    {
      "epoch": 0.999296,
      "grad_norm": 0.404438316822052,
      "learning_rate": 1.074447086801822e-09,
      "loss": 2.4853,
      "step": 7807
    },
    {
      "epoch": 0.999424,
      "grad_norm": 0.39136025309562683,
      "learning_rate": 6.876462241844905e-10,
      "loss": 2.6403,
      "step": 7808
    },
    {
      "epoch": 0.999552,
      "grad_norm": 0.4040890634059906,
      "learning_rate": 3.8680103991994844e-10,
      "loss": 2.4616,
      "step": 7809
    },
    {
      "epoch": 0.99968,
      "grad_norm": 0.43514925241470337,
      "learning_rate": 1.7191158563356623e-10,
      "loss": 2.5574,
      "step": 7810
    },
    {
      "epoch": 0.999808,
      "grad_norm": 0.42627325654029846,
      "learning_rate": 4.297789824025955e-11,
      "loss": 2.4897,
      "step": 7811
    },
    {
      "epoch": 0.999936,
      "grad_norm": 0.41354042291641235,
      "learning_rate": 0.0,
      "loss": 2.6318,
      "step": 7812
    },
    {
      "epoch": 0.999936,
      "step": 7812,
      "total_flos": 2.644939702519464e+18,
      "train_loss": 2.6723272024944262,
      "train_runtime": 52942.8085,
      "train_samples_per_second": 37.777,
      "train_steps_per_second": 0.148
    }
  ],
  "logging_steps": 1.0,
  "max_steps": 7812,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 24000,
  "total_flos": 2.644939702519464e+18,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}