{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.8578536501672814,
  "eval_steps": 100,
  "global_step": 2500,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0,
      "learning_rate": 3.4090909090909087e-06,
      "loss": 1.0629,
      "step": 1
    },
    {
      "epoch": 0.0,
      "learning_rate": 6.8181818181818174e-06,
      "loss": 0.9676,
      "step": 2
    },
    {
      "epoch": 0.0,
      "learning_rate": 1.0227272727272725e-05,
      "loss": 1.0413,
      "step": 3
    },
    {
      "epoch": 0.0,
      "learning_rate": 1.3636363636363635e-05,
      "loss": 0.914,
      "step": 4
    },
    {
      "epoch": 0.0,
      "learning_rate": 1.7045454545454543e-05,
      "loss": 0.9609,
      "step": 5
    },
    {
      "epoch": 0.0,
      "learning_rate": 2.045454545454545e-05,
      "loss": 1.0167,
      "step": 6
    },
    {
      "epoch": 0.0,
      "learning_rate": 2.3863636363636362e-05,
      "loss": 1.2509,
      "step": 7
    },
    {
      "epoch": 0.0,
      "learning_rate": 2.727272727272727e-05,
      "loss": 0.8612,
      "step": 8
    },
    {
      "epoch": 0.0,
      "learning_rate": 3.068181818181818e-05,
      "loss": 0.9012,
      "step": 9
    },
    {
      "epoch": 0.0,
      "learning_rate": 3.4090909090909085e-05,
      "loss": 1.1893,
      "step": 10
    },
    {
      "epoch": 0.0,
      "learning_rate": 3.75e-05,
      "loss": 1.1676,
      "step": 11
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.09090909090909e-05,
      "loss": 1.0783,
      "step": 12
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.431818181818182e-05,
      "loss": 0.903,
      "step": 13
    },
    {
      "epoch": 0.0,
      "learning_rate": 4.7727272727272724e-05,
      "loss": 0.9488,
      "step": 14
    },
    {
      "epoch": 0.01,
      "learning_rate": 5.113636363636363e-05,
      "loss": 1.0779,
      "step": 15
    },
    {
      "epoch": 0.01,
      "learning_rate": 5.454545454545454e-05,
      "loss": 1.0189,
      "step": 16
    },
    {
      "epoch": 0.01,
      "learning_rate": 5.795454545454545e-05,
      "loss": 1.0414,
      "step": 17
    },
    {
      "epoch": 0.01,
      "learning_rate": 6.136363636363636e-05,
      "loss": 0.9624,
      "step": 18
    },
    {
      "epoch": 0.01,
      "learning_rate": 6.477272727272727e-05,
      "loss": 0.9942,
      "step": 19
    },
    {
      "epoch": 0.01,
      "learning_rate": 6.818181818181817e-05,
      "loss": 0.947,
      "step": 20
    },
    {
      "epoch": 0.01,
      "learning_rate": 7.159090909090909e-05,
      "loss": 1.1092,
      "step": 21
    },
    {
      "epoch": 0.01,
      "learning_rate": 7.5e-05,
      "loss": 1.0277,
      "step": 22
    },
    {
      "epoch": 0.01,
      "learning_rate": 7.84090909090909e-05,
      "loss": 0.8569,
      "step": 23
    },
    {
      "epoch": 0.01,
      "learning_rate": 8.18181818181818e-05,
      "loss": 0.9649,
      "step": 24
    },
    {
      "epoch": 0.01,
      "learning_rate": 8.522727272727273e-05,
      "loss": 0.9521,
      "step": 25
    },
    {
      "epoch": 0.01,
      "learning_rate": 8.863636363636364e-05,
      "loss": 1.0285,
      "step": 26
    },
    {
      "epoch": 0.01,
      "learning_rate": 9.204545454545454e-05,
      "loss": 1.1932,
      "step": 27
    },
    {
      "epoch": 0.01,
      "learning_rate": 9.545454545454545e-05,
      "loss": 0.9007,
      "step": 28
    },
    {
      "epoch": 0.01,
      "learning_rate": 9.886363636363635e-05,
      "loss": 1.0065,
      "step": 29
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.00010227272727272726,
      "loss": 0.9652,
      "step": 30
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.00010568181818181817,
      "loss": 0.944,
      "step": 31
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.00010909090909090908,
      "loss": 1.0099,
      "step": 32
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.0001125,
      "loss": 0.8466,
      "step": 33
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.0001159090909090909,
      "loss": 0.7416,
      "step": 34
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.0001193181818181818,
      "loss": 0.9895,
      "step": 35
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.00012272727272727272,
      "loss": 0.9972,
      "step": 36
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.00012613636363636364,
      "loss": 0.8279,
      "step": 37
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.00012954545454545453,
      "loss": 0.7412,
      "step": 38
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.00013295454545454545,
      "loss": 0.9472,
      "step": 39
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.00013636363636363634,
      "loss": 0.9966,
      "step": 40
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.00013977272727272726,
      "loss": 0.8068,
      "step": 41
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.00014318181818181818,
      "loss": 0.7068,
      "step": 42
    },
    {
      "epoch": 0.01,
      "learning_rate": 0.00014659090909090907,
      "loss": 0.9058,
      "step": 43
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.00015,
      "loss": 0.9758,
      "step": 44
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0001534090909090909,
      "loss": 0.8501,
      "step": 45
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0001568181818181818,
      "loss": 0.8202,
      "step": 46
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.00016022727272727271,
      "loss": 0.9104,
      "step": 47
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0001636363636363636,
      "loss": 0.8008,
      "step": 48
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.00016704545454545452,
      "loss": 0.9106,
      "step": 49
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.00017045454545454547,
      "loss": 0.5995,
      "step": 50
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.00017386363636363636,
      "loss": 0.9593,
      "step": 51
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.00017727272727272728,
      "loss": 0.8281,
      "step": 52
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.00018068181818181817,
      "loss": 0.8997,
      "step": 53
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.00018409090909090909,
      "loss": 0.9379,
      "step": 54
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.00018749999999999998,
      "loss": 0.7386,
      "step": 55
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0001909090909090909,
      "loss": 0.8021,
      "step": 56
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.00019431818181818179,
      "loss": 0.7621,
      "step": 57
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0001977272727272727,
      "loss": 0.8014,
      "step": 58
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0002011363636363636,
      "loss": 0.8087,
      "step": 59
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0002045454545454545,
      "loss": 0.6866,
      "step": 60
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.00020795454545454546,
      "loss": 0.7984,
      "step": 61
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.00021136363636363635,
      "loss": 0.9077,
      "step": 62
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.00021477272727272727,
      "loss": 0.5281,
      "step": 63
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.00021818181818181816,
      "loss": 0.7893,
      "step": 64
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.00022159090909090908,
      "loss": 1.0208,
      "step": 65
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.000225,
      "loss": 0.7437,
      "step": 66
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.00022840909090909088,
      "loss": 0.8221,
      "step": 67
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0002318181818181818,
      "loss": 0.7736,
      "step": 68
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0002352272727272727,
      "loss": 0.579,
      "step": 69
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0002386363636363636,
      "loss": 0.8936,
      "step": 70
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.0002420454545454545,
      "loss": 0.7478,
      "step": 71
    },
    {
      "epoch": 0.02,
      "learning_rate": 0.00024545454545454545,
      "loss": 0.6937,
      "step": 72
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.00024886363636363637,
      "loss": 0.7461,
      "step": 73
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.0002522727272727273,
      "loss": 0.9042,
      "step": 74
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.00025568181818181815,
      "loss": 0.818,
      "step": 75
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.00025909090909090907,
      "loss": 0.7721,
      "step": 76
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.0002625,
      "loss": 0.7633,
      "step": 77
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.0002659090909090909,
      "loss": 0.9019,
      "step": 78
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.00026931818181818177,
      "loss": 0.5904,
      "step": 79
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.0002727272727272727,
      "loss": 0.7602,
      "step": 80
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.0002761363636363636,
      "loss": 0.8622,
      "step": 81
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.0002795454545454545,
      "loss": 0.654,
      "step": 82
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.00028295454545454544,
      "loss": 0.7117,
      "step": 83
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.00028636363636363636,
      "loss": 0.8488,
      "step": 84
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.0002897727272727273,
      "loss": 0.5692,
      "step": 85
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.00029318181818181814,
      "loss": 0.801,
      "step": 86
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.00029659090909090906,
      "loss": 0.9426,
      "step": 87
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.0003,
      "loss": 0.6379,
      "step": 88
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.0002999999073134645,
      "loss": 0.7452,
      "step": 89
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.00029999962925397256,
      "loss": 0.8635,
      "step": 90
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.00029999916582186786,
      "loss": 0.7224,
      "step": 91
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.0002999985170177231,
      "loss": 0.732,
      "step": 92
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.0002999976828423401,
      "loss": 0.7161,
      "step": 93
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.0002999966632967497,
      "loss": 0.66,
      "step": 94
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.00029999545838221186,
      "loss": 0.8393,
      "step": 95
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.0002999940681002157,
      "loss": 0.8313,
      "step": 96
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.00029999249245247936,
      "loss": 0.7162,
      "step": 97
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.00029999073144095005,
      "loss": 0.625,
      "step": 98
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.000299988785067804,
      "loss": 0.6043,
      "step": 99
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.0002999866533354467,
      "loss": 0.8074,
      "step": 100
    },
    {
      "epoch": 0.03,
      "eval_loss": 0.8433317542076111,
      "eval_runtime": 40.9625,
      "eval_samples_per_second": 2.295,
      "eval_steps_per_second": 0.293,
      "step": 100
    },
    {
      "epoch": 0.03,
      "learning_rate": 0.00029998433624651245,
      "loss": 0.7221,
      "step": 101
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0002999818338038648,
      "loss": 0.7204,
      "step": 102
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0002999791460105964,
      "loss": 0.7805,
      "step": 103
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0002999762728700288,
      "loss": 0.6744,
      "step": 104
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0002999732143857127,
      "loss": 0.8478,
      "step": 105
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.00029996997056142786,
      "loss": 0.7324,
      "step": 106
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.00029996654140118303,
      "loss": 0.6529,
      "step": 107
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.00029996292690921613,
      "loss": 0.6343,
      "step": 108
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.00029995912708999384,
      "loss": 0.6236,
      "step": 109
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0002999551419482122,
      "loss": 0.7317,
      "step": 110
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.00029995097148879615,
      "loss": 0.5996,
      "step": 111
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0002999466157168995,
      "loss": 0.6047,
      "step": 112
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.00029994207463790527,
      "loss": 0.7308,
      "step": 113
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.00029993734825742546,
      "loss": 0.6656,
      "step": 114
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.000299932436581301,
      "loss": 0.5753,
      "step": 115
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0002999273396156018,
      "loss": 0.7097,
      "step": 116
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.00029992205736662685,
      "loss": 0.6155,
      "step": 117
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.000299916589840904,
      "loss": 0.6696,
      "step": 118
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0002999109370451902,
      "loss": 0.5876,
      "step": 119
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.00029990509898647125,
      "loss": 0.6396,
      "step": 120
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0002998990756719619,
      "loss": 0.7933,
      "step": 121
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.00029989286710910604,
      "loss": 0.7155,
      "step": 122
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0002998864733055762,
      "loss": 0.648,
      "step": 123
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.00029987989426927394,
      "loss": 0.5614,
      "step": 124
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0002998731300083299,
      "loss": 0.6321,
      "step": 125
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.00029986618053110334,
      "loss": 0.6489,
      "step": 126
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0002998590458461828,
      "loss": 0.7534,
      "step": 127
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0002998517259623852,
      "loss": 0.7522,
      "step": 128
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0002998442208887568,
      "loss": 0.7973,
      "step": 129
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.00029983653063457235,
      "loss": 0.6764,
      "step": 130
    },
    {
      "epoch": 0.04,
      "learning_rate": 0.0002998286552093358,
      "loss": 0.6875,
      "step": 131
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0002998205946227797,
      "loss": 0.7626,
      "step": 132
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0002998123488848655,
      "loss": 0.7907,
      "step": 133
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.00029980391800578333,
      "loss": 0.6421,
      "step": 134
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0002997953019959524,
      "loss": 0.8021,
      "step": 135
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.00029978650086602044,
      "loss": 0.7421,
      "step": 136
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.00029977751462686417,
      "loss": 0.547,
      "step": 137
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0002997683432895889,
      "loss": 0.8199,
      "step": 138
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0002997589868655287,
      "loss": 0.6624,
      "step": 139
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0002997494453662466,
      "loss": 0.8379,
      "step": 140
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.00029973971880353404,
      "loss": 0.6834,
      "step": 141
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.00029972980718941133,
      "loss": 0.6055,
      "step": 142
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0002997197105361275,
      "loss": 0.707,
      "step": 143
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.00029970942885616006,
      "loss": 0.6649,
      "step": 144
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0002996989621622155,
      "loss": 0.6699,
      "step": 145
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.00029968831046722874,
      "loss": 0.7151,
      "step": 146
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0002996774737843633,
      "loss": 0.6967,
      "step": 147
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0002996664521270113,
      "loss": 0.7741,
      "step": 148
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0002996552455087937,
      "loss": 0.5384,
      "step": 149
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0002996438539435598,
      "loss": 0.7332,
      "step": 150
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0002996322774453875,
      "loss": 0.5667,
      "step": 151
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0002996205160285833,
      "loss": 0.6395,
      "step": 152
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0002996085697076822,
      "loss": 0.8139,
      "step": 153
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0002995964384974477,
      "loss": 0.5219,
      "step": 154
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0002995841224128718,
      "loss": 0.8709,
      "step": 155
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.000299571621469175,
      "loss": 0.7436,
      "step": 156
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.00029955893568180613,
      "loss": 0.5792,
      "step": 157
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.00029954606506644267,
      "loss": 0.5191,
      "step": 158
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.00029953300963899034,
      "loss": 0.6272,
      "step": 159
    },
    {
      "epoch": 0.05,
      "learning_rate": 0.0002995197694155832,
      "loss": 0.6984,
      "step": 160
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.00029950634441258396,
      "loss": 0.7402,
      "step": 161
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0002994927346465834,
      "loss": 0.8618,
      "step": 162
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0002994789401344008,
      "loss": 0.7322,
      "step": 163
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0002994649608930837,
      "loss": 0.5755,
      "step": 164
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0002994507969399079,
      "loss": 0.591,
      "step": 165
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0002994364482923775,
      "loss": 0.7327,
      "step": 166
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0002994219149682249,
      "loss": 0.7065,
      "step": 167
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0002994071969854107,
      "loss": 0.6218,
      "step": 168
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.00029939229436212354,
      "loss": 0.6617,
      "step": 169
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0002993772071167805,
      "loss": 0.9584,
      "step": 170
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.00029936193526802676,
      "loss": 0.6472,
      "step": 171
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0002993464788347354,
      "loss": 0.542,
      "step": 172
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.00029933083783600803,
      "loss": 0.7284,
      "step": 173
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0002993150122911739,
      "loss": 0.6351,
      "step": 174
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0002992990022197907,
      "loss": 0.6101,
      "step": 175
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0002992828076416439,
      "loss": 0.5108,
      "step": 176
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0002992664285767472,
      "loss": 0.6517,
      "step": 177
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0002992498650453421,
      "loss": 0.7015,
      "step": 178
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0002992331170678981,
      "loss": 0.5933,
      "step": 179
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0002992161846651128,
      "loss": 0.5317,
      "step": 180
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.00029919906785791156,
      "loss": 0.7665,
      "step": 181
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0002991817666674477,
      "loss": 0.7968,
      "step": 182
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0002991642811151024,
      "loss": 0.7811,
      "step": 183
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.00029914661122248465,
      "loss": 0.6873,
      "step": 184
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.00029912875701143126,
      "loss": 0.6152,
      "step": 185
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0002991107185040068,
      "loss": 0.7336,
      "step": 186
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0002990924957225036,
      "loss": 0.644,
      "step": 187
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.0002990740886894419,
      "loss": 0.5668,
      "step": 188
    },
    {
      "epoch": 0.06,
      "learning_rate": 0.00029905549742756935,
      "loss": 0.6855,
      "step": 189
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0002990367219598614,
      "loss": 0.5414,
      "step": 190
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0002990177623095213,
      "loss": 0.7703,
      "step": 191
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0002989986184999796,
      "loss": 0.5603,
      "step": 192
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.00029897929055489476,
      "loss": 0.5217,
      "step": 193
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.00029895977849815256,
      "loss": 0.6398,
      "step": 194
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.00029894008235386644,
      "loss": 0.5021,
      "step": 195
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0002989202021463772,
      "loss": 0.5535,
      "step": 196
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0002989001379002534,
      "loss": 0.5142,
      "step": 197
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0002988798896402907,
      "loss": 0.6097,
      "step": 198
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.00029885945739151226,
      "loss": 0.7164,
      "step": 199
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0002988388411791688,
      "loss": 0.7017,
      "step": 200
    },
    {
      "epoch": 0.07,
      "eval_loss": 0.7833312153816223,
      "eval_runtime": 44.7325,
      "eval_samples_per_second": 2.101,
      "eval_steps_per_second": 0.268,
      "step": 200
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0002988180410287383,
      "loss": 0.6558,
      "step": 201
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.00029879705696592585,
      "loss": 0.687,
      "step": 202
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0002987758890166641,
      "loss": 0.6006,
      "step": 203
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0002987545372071128,
      "loss": 0.6221,
      "step": 204
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.00029873300156365895,
      "loss": 0.6621,
      "step": 205
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0002987112821129167,
      "loss": 0.7125,
      "step": 206
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.00029868937888172746,
      "loss": 0.8607,
      "step": 207
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0002986672918971597,
      "loss": 0.6238,
      "step": 208
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.00029864502118650887,
      "loss": 0.6104,
      "step": 209
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0002986225667772977,
      "loss": 0.7321,
      "step": 210
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0002985999286972757,
      "loss": 0.7081,
      "step": 211
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0002985771069744195,
      "loss": 0.4749,
      "step": 212
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0002985541016369327,
      "loss": 0.8112,
      "step": 213
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0002985309127132457,
      "loss": 0.6588,
      "step": 214
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0002985075402320159,
      "loss": 0.54,
      "step": 215
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.00029848398422212746,
      "loss": 0.6482,
      "step": 216
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.00029846024471269137,
      "loss": 0.5662,
      "step": 217
    },
    {
      "epoch": 0.07,
      "learning_rate": 0.0002984363217330455,
      "loss": 0.5564,
      "step": 218
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.00029841221531275424,
      "loss": 0.6062,
      "step": 219
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.00029838792548160883,
      "loss": 0.5456,
      "step": 220
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.00029836345226962713,
      "loss": 0.3756,
      "step": 221
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.0002983387957070537,
      "loss": 0.6242,
      "step": 222
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.0002983139558243595,
      "loss": 0.7218,
      "step": 223
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.00029828893265224234,
      "loss": 0.6647,
      "step": 224
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.00029826372622162624,
      "loss": 0.4787,
      "step": 225
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.00029823833656366185,
      "loss": 0.7358,
      "step": 226
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.00029821276370972617,
      "loss": 0.6369,
      "step": 227
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.0002981870076914228,
      "loss": 0.6671,
      "step": 228
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.00029816106854058143,
      "loss": 0.5848,
      "step": 229
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.0002981349462892583,
      "loss": 0.6152,
      "step": 230
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.00029810864096973573,
      "loss": 0.6952,
      "step": 231
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.00029808215261452244,
      "loss": 0.6423,
      "step": 232
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.0002980554812563532,
      "loss": 0.5505,
      "step": 233
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.0002980286269281891,
      "loss": 0.5026,
      "step": 234
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.0002980015896632172,
      "loss": 0.6628,
      "step": 235
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.0002979743694948508,
      "loss": 0.5654,
      "step": 236
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.00029794696645672904,
      "loss": 0.733,
      "step": 237
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.0002979193805827172,
      "loss": 0.444,
      "step": 238
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.00029789161190690644,
      "loss": 0.6721,
      "step": 239
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.0002978636604636139,
      "loss": 0.7126,
      "step": 240
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.0002978355262873826,
      "loss": 0.505,
      "step": 241
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.00029780720941298124,
      "loss": 0.5536,
      "step": 242
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.00029777870987540434,
      "loss": 0.706,
      "step": 243
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.0002977500277098724,
      "loss": 0.7402,
      "step": 244
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.0002977211629518312,
      "loss": 0.6011,
      "step": 245
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.0002976921156369525,
      "loss": 0.6495,
      "step": 246
    },
    {
      "epoch": 0.08,
      "learning_rate": 0.0002976628858011337,
      "loss": 0.8345,
      "step": 247
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.00029763347348049743,
      "loss": 0.7083,
      "step": 248
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.00029760387871139213,
      "loss": 0.4573,
      "step": 249
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.0002975741015303916,
      "loss": 0.6146,
      "step": 250
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.0002975441419742951,
      "loss": 0.7,
      "step": 251
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.00029751400008012734,
      "loss": 0.6075,
      "step": 252
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.00029748367588513814,
      "loss": 0.8193,
      "step": 253
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.0002974531694268028,
      "loss": 0.6355,
      "step": 254
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.00029742248074282195,
      "loss": 0.5753,
      "step": 255
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.00029739160987112115,
      "loss": 0.462,
      "step": 256
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.0002973605568498513,
      "loss": 0.8088,
      "step": 257
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.00029732932171738834,
      "loss": 0.7087,
      "step": 258
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.00029729790451233333,
      "loss": 0.7433,
      "step": 259
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.00029726630527351233,
      "loss": 0.5919,
      "step": 260
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.00029723452403997624,
      "loss": 0.6883,
      "step": 261
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.000297202560851001,
      "loss": 0.6833,
      "step": 262
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.0002971704157460873,
      "loss": 0.583,
      "step": 263
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.0002971380887649609,
      "loss": 0.5774,
      "step": 264
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.00029710557994757194,
      "loss": 0.6323,
      "step": 265
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.00029707288933409563,
      "loss": 0.6351,
      "step": 266
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.0002970400169649316,
      "loss": 0.7036,
      "step": 267
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.00029700696288070426,
      "loss": 0.6125,
      "step": 268
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.00029697372712226254,
      "loss": 0.9819,
      "step": 269
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.0002969403097306798,
      "loss": 0.571,
      "step": 270
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.00029690671074725396,
      "loss": 0.7669,
      "step": 271
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.00029687293021350735,
      "loss": 0.6549,
      "step": 272
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.0002968389681711866,
      "loss": 0.5976,
      "step": 273
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.0002968048246622628,
      "loss": 0.7746,
      "step": 274
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.0002967704997289311,
      "loss": 0.7721,
      "step": 275
    },
    {
      "epoch": 0.09,
      "learning_rate": 0.000296735993413611,
      "loss": 0.6079,
      "step": 276
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.00029670130575894607,
      "loss": 0.5588,
      "step": 277
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.0002966664368078041,
      "loss": 0.7485,
      "step": 278
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.00029663138660327674,
      "loss": 0.6443,
      "step": 279
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.0002965961551886798,
      "loss": 0.6708,
      "step": 280
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.0002965607426075531,
      "loss": 0.6746,
      "step": 281
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.0002965251489036601,
      "loss": 0.8135,
      "step": 282
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.0002964893741209882,
      "loss": 0.5968,
      "step": 283
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.00029645341830374875,
      "loss": 0.7019,
      "step": 284
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.00029641728149637655,
      "loss": 0.8463,
      "step": 285
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.0002963809637435303,
      "loss": 0.8567,
      "step": 286
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.0002963444650900921,
      "loss": 0.6923,
      "step": 287
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.00029630778558116793,
      "loss": 0.6852,
      "step": 288
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.0002962709252620869,
      "loss": 0.539,
      "step": 289
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.00029623388417840185,
      "loss": 0.5469,
      "step": 290
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.0002961966623758888,
      "loss": 0.4541,
      "step": 291
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.00029615925990054737,
      "loss": 0.6487,
      "step": 292
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.0002961216767986001,
      "loss": 0.5386,
      "step": 293
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.00029608391311649316,
      "loss": 0.5249,
      "step": 294
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.00029604596890089565,
      "loss": 0.5403,
      "step": 295
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.00029600784419869965,
      "loss": 0.7453,
      "step": 296
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.00029596953905702063,
      "loss": 0.5651,
      "step": 297
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.00029593105352319676,
      "loss": 0.46,
      "step": 298
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.00029589238764478933,
      "loss": 0.735,
      "step": 299
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.00029585354146958233,
      "loss": 0.5136,
      "step": 300
    },
    {
      "epoch": 0.1,
      "eval_loss": 0.7512789964675903,
      "eval_runtime": 43.469,
      "eval_samples_per_second": 2.162,
      "eval_steps_per_second": 0.276,
      "step": 300
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.0002958145150455827,
      "loss": 0.5905,
      "step": 301
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.00029577530842102013,
      "loss": 0.6995,
      "step": 302
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.00029573592164434693,
      "loss": 0.5891,
      "step": 303
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.0002956963547642381,
      "loss": 0.6545,
      "step": 304
    },
    {
      "epoch": 0.1,
      "learning_rate": 0.00029565660782959123,
      "loss": 0.6221,
      "step": 305
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0002956166808895263,
      "loss": 0.8241,
      "step": 306
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.00029557657399338595,
      "loss": 0.6703,
      "step": 307
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.000295536287190735,
      "loss": 0.5954,
      "step": 308
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0002954958205313608,
      "loss": 0.6804,
      "step": 309
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.00029545517406527285,
      "loss": 0.7108,
      "step": 310
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0002954143478427028,
      "loss": 0.7997,
      "step": 311
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.00029537334191410465,
      "loss": 0.6437,
      "step": 312
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0002953321563301543,
      "loss": 0.5494,
      "step": 313
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0002952907911417498,
      "loss": 0.5713,
      "step": 314
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.000295249246400011,
      "loss": 0.6223,
      "step": 315
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0002952075221562799,
      "loss": 0.5889,
      "step": 316
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.00029516561846211996,
      "loss": 0.6312,
      "step": 317
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.00029512353536931675,
      "loss": 0.5418,
      "step": 318
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0002950812729298774,
      "loss": 0.7367,
      "step": 319
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.00029503883119603075,
      "loss": 0.6198,
      "step": 320
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0002949962102202271,
      "loss": 0.6197,
      "step": 321
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0002949534100551383,
      "loss": 0.6015,
      "step": 322
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.00029491043075365774,
      "loss": 0.537,
      "step": 323
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0002948672723689001,
      "loss": 0.6337,
      "step": 324
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.00029482393495420135,
      "loss": 0.7326,
      "step": 325
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.00029478041856311876,
      "loss": 0.699,
      "step": 326
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.00029473672324943086,
      "loss": 0.6887,
      "step": 327
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0002946928490671371,
      "loss": 0.5903,
      "step": 328
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.00029464879607045825,
      "loss": 0.6539,
      "step": 329
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.00029460456431383575,
      "loss": 0.7503,
      "step": 330
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0002945601538519321,
      "loss": 0.5151,
      "step": 331
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0002945155647396308,
      "loss": 0.6659,
      "step": 332
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0002944707970320359,
      "loss": 0.675,
      "step": 333
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0002944258507844723,
      "loss": 0.532,
      "step": 334
    },
    {
      "epoch": 0.11,
      "learning_rate": 0.0002943807260524854,
      "loss": 0.6109,
      "step": 335
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.0002943354228918413,
      "loss": 0.636,
      "step": 336
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.00029428994135852665,
      "loss": 0.6506,
      "step": 337
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.0002942442815087484,
      "loss": 0.6298,
      "step": 338
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.0002941984433989339,
      "loss": 0.6357,
      "step": 339
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.00029415242708573093,
      "loss": 0.5656,
      "step": 340
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.00029410623262600725,
      "loss": 0.5866,
      "step": 341
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.00029405986007685105,
      "loss": 0.5193,
      "step": 342
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.00029401330949557037,
      "loss": 0.6326,
      "step": 343
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.0002939665809396934,
      "loss": 0.5473,
      "step": 344
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.00029391967446696824,
      "loss": 0.8171,
      "step": 345
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.000293872590135363,
      "loss": 0.5445,
      "step": 346
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.00029382532800306525,
      "loss": 0.5621,
      "step": 347
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.00029377788812848265,
      "loss": 0.7109,
      "step": 348
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.0002937302705702423,
      "loss": 0.6226,
      "step": 349
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.00029368247538719095,
      "loss": 0.7502,
      "step": 350
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.00029363450263839496,
      "loss": 0.4467,
      "step": 351
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.0002935863523831399,
      "loss": 0.4534,
      "step": 352
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.000293538024680931,
      "loss": 0.4914,
      "step": 353
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.0002934895195914924,
      "loss": 0.5733,
      "step": 354
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.0002934408371747679,
      "loss": 0.6697,
      "step": 355
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.0002933919774909201,
      "loss": 0.6672,
      "step": 356
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.0002933429406003309,
      "loss": 0.5203,
      "step": 357
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.000293293726563601,
      "loss": 0.4811,
      "step": 358
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.0002932443354415501,
      "loss": 0.6565,
      "step": 359
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.0002931947672952168,
      "loss": 0.5267,
      "step": 360
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.00029314502218585854,
      "loss": 0.6988,
      "step": 361
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.0002930951001749511,
      "loss": 0.6787,
      "step": 362
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.00029304500132418937,
      "loss": 0.6187,
      "step": 363
    },
    {
      "epoch": 0.12,
      "learning_rate": 0.00029299472569548643,
      "loss": 0.5489,
      "step": 364
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.00029294427335097386,
      "loss": 0.6986,
      "step": 365
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.0002928936443530018,
      "loss": 0.7033,
      "step": 366
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.0002928428387641386,
      "loss": 0.5708,
      "step": 367
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.00029279185664717077,
      "loss": 0.5907,
      "step": 368
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.0002927406980651031,
      "loss": 0.5052,
      "step": 369
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.00029268936308115846,
      "loss": 0.705,
      "step": 370
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.0002926378517587776,
      "loss": 0.6812,
      "step": 371
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.0002925861641616193,
      "loss": 0.5405,
      "step": 372
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.00029253430035356017,
      "loss": 0.7447,
      "step": 373
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.0002924822603986945,
      "loss": 0.5661,
      "step": 374
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.0002924300443613344,
      "loss": 0.7729,
      "step": 375
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.0002923776523060095,
      "loss": 0.6035,
      "step": 376
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.000292325084297467,
      "loss": 0.5466,
      "step": 377
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.00029227234040067146,
      "loss": 0.7243,
      "step": 378
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.0002922194206808049,
      "loss": 0.7512,
      "step": 379
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.00029216632520326656,
      "loss": 0.7762,
      "step": 380
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.000292113054033673,
      "loss": 0.5459,
      "step": 381
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.0002920596072378577,
      "loss": 0.6685,
      "step": 382
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.0002920059848818714,
      "loss": 0.6475,
      "step": 383
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.0002919521870319817,
      "loss": 0.5364,
      "step": 384
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.0002918982137546731,
      "loss": 0.7207,
      "step": 385
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.00029184406511664675,
      "loss": 0.8281,
      "step": 386
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.0002917897411848208,
      "loss": 0.4612,
      "step": 387
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.0002917352420263298,
      "loss": 0.7333,
      "step": 388
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.00029168056770852494,
      "loss": 0.8313,
      "step": 389
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.0002916257182989739,
      "loss": 0.6066,
      "step": 390
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.00029157069386546064,
      "loss": 0.4513,
      "step": 391
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.0002915154944759855,
      "loss": 0.5233,
      "step": 392
    },
    {
      "epoch": 0.13,
      "learning_rate": 0.00029146012019876506,
      "loss": 0.6195,
      "step": 393
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.0002914045711022319,
      "loss": 0.6116,
      "step": 394
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.0002913488472550348,
      "loss": 0.5169,
      "step": 395
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.00029129294872603845,
      "loss": 0.5092,
      "step": 396
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.0002912368755843233,
      "loss": 0.4329,
      "step": 397
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.0002911806278991858,
      "loss": 0.5309,
      "step": 398
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.0002911242057401379,
      "loss": 0.7812,
      "step": 399
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.0002910676091769073,
      "loss": 0.7059,
      "step": 400
    },
    {
      "epoch": 0.14,
      "eval_loss": 0.726530134677887,
      "eval_runtime": 44.5334,
      "eval_samples_per_second": 2.111,
      "eval_steps_per_second": 0.269,
      "step": 400
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.0002910108382794372,
      "loss": 0.4755,
      "step": 401
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.0002909538931178862,
      "loss": 0.7075,
      "step": 402
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.00029089677376262837,
      "loss": 0.5036,
      "step": 403
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.0002908394802842529,
      "loss": 0.5308,
      "step": 404
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.00029078201275356427,
      "loss": 0.5893,
      "step": 405
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.00029072437124158203,
      "loss": 0.7744,
      "step": 406
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.00029066655581954075,
      "loss": 0.4459,
      "step": 407
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.00029060856655888995,
      "loss": 0.4547,
      "step": 408
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.00029055040353129387,
      "loss": 0.5742,
      "step": 409
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.00029049206680863154,
      "loss": 0.6884,
      "step": 410
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.0002904335564629968,
      "loss": 0.6456,
      "step": 411
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.0002903748725666979,
      "loss": 0.5803,
      "step": 412
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.00029031601519225754,
      "loss": 0.6767,
      "step": 413
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.0002902569844124129,
      "loss": 0.526,
      "step": 414
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.00029019778030011544,
      "loss": 0.5447,
      "step": 415
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.00029013840292853077,
      "loss": 0.8591,
      "step": 416
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.0002900788523710387,
      "loss": 0.556,
      "step": 417
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.000290019128701233,
      "loss": 0.4034,
      "step": 418
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.00028995923199292146,
      "loss": 0.6147,
      "step": 419
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.00028989916232012564,
      "loss": 0.5482,
      "step": 420
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.0002898389197570808,
      "loss": 0.4872,
      "step": 421
    },
    {
      "epoch": 0.14,
      "learning_rate": 0.00028977850437823604,
      "loss": 0.603,
      "step": 422
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.0002897179162582539,
      "loss": 0.6346,
      "step": 423
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.0002896571554720103,
      "loss": 0.6082,
      "step": 424
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.0002895962220945948,
      "loss": 0.7158,
      "step": 425
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.0002895351162013101,
      "loss": 0.5794,
      "step": 426
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.000289473837867672,
      "loss": 0.6805,
      "step": 427
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.0002894123871694096,
      "loss": 0.6166,
      "step": 428
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.000289350764182465,
      "loss": 0.5481,
      "step": 429
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.00028928896898299303,
      "loss": 0.4743,
      "step": 430
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.0002892270016473616,
      "loss": 0.7646,
      "step": 431
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.000289164862252151,
      "loss": 0.7784,
      "step": 432
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.00028910255087415457,
      "loss": 0.6713,
      "step": 433
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.0002890400675903779,
      "loss": 0.5488,
      "step": 434
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.0002889774124780391,
      "loss": 0.632,
      "step": 435
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.0002889145856145687,
      "loss": 0.5307,
      "step": 436
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.00028885158707760936,
      "loss": 0.6631,
      "step": 437
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.000288788416945016,
      "loss": 0.5182,
      "step": 438
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.0002887250752948555,
      "loss": 0.6062,
      "step": 439
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.00028866156220540686,
      "loss": 0.659,
      "step": 440
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.0002885978777551608,
      "loss": 0.7696,
      "step": 441
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.0002885340220228199,
      "loss": 0.4383,
      "step": 442
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.00028846999508729833,
      "loss": 0.817,
      "step": 443
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.00028840579702772197,
      "loss": 0.5134,
      "step": 444
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.000288341427923428,
      "loss": 0.5943,
      "step": 445
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.0002882768878539651,
      "loss": 0.5619,
      "step": 446
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.0002882121768990933,
      "loss": 0.6119,
      "step": 447
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.00028814729513878363,
      "loss": 0.6748,
      "step": 448
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.00028808224265321826,
      "loss": 0.4696,
      "step": 449
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.00028801701952279056,
      "loss": 0.9589,
      "step": 450
    },
    {
      "epoch": 0.15,
      "learning_rate": 0.00028795162582810445,
      "loss": 0.5918,
      "step": 451
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.0002878860616499748,
      "loss": 0.5704,
      "step": 452
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.00028782032706942725,
      "loss": 0.6251,
      "step": 453
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.00028775442216769786,
      "loss": 0.5042,
      "step": 454
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.00028768834702623335,
      "loss": 0.3849,
      "step": 455
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.0002876221017266907,
      "loss": 0.5854,
      "step": 456
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.0002875556863509371,
      "loss": 0.6186,
      "step": 457
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.00028748910098105017,
      "loss": 0.5449,
      "step": 458
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.00028742234569931744,
      "loss": 0.5439,
      "step": 459
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.0002873554205882364,
      "loss": 0.5602,
      "step": 460
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.00028728832573051447,
      "loss": 0.555,
      "step": 461
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.0002872210612090689,
      "loss": 0.5589,
      "step": 462
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.0002871536271070265,
      "loss": 0.4887,
      "step": 463
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.00028708602350772385,
      "loss": 0.7587,
      "step": 464
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.0002870182504947068,
      "loss": 0.7122,
      "step": 465
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.0002869503081517305,
      "loss": 0.633,
      "step": 466
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.00028688219656275964,
      "loss": 0.537,
      "step": 467
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.00028681391581196784,
      "loss": 0.6902,
      "step": 468
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.00028674546598373796,
      "loss": 0.7004,
      "step": 469
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.0002866768471626615,
      "loss": 0.6059,
      "step": 470
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.00028660805943353914,
      "loss": 0.6559,
      "step": 471
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.00028653910288138016,
      "loss": 0.6297,
      "step": 472
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.0002864699775914025,
      "loss": 0.5281,
      "step": 473
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.00028640068364903254,
      "loss": 0.7052,
      "step": 474
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.00028633122113990513,
      "loss": 0.5258,
      "step": 475
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.00028626159014986355,
      "loss": 0.52,
      "step": 476
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.00028619179076495914,
      "loss": 0.5724,
      "step": 477
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.0002861218230714515,
      "loss": 0.58,
      "step": 478
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.00028605168715580806,
      "loss": 0.5504,
      "step": 479
    },
    {
      "epoch": 0.16,
      "learning_rate": 0.00028598138310470414,
      "loss": 0.6542,
      "step": 480
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.0002859109110050231,
      "loss": 0.6056,
      "step": 481
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.00028584027094385566,
      "loss": 0.65,
      "step": 482
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.0002857694630085004,
      "loss": 0.7925,
      "step": 483
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.0002856984872864631,
      "loss": 0.4674,
      "step": 484
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.00028562734386545705,
      "loss": 0.7493,
      "step": 485
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.0002855560328334027,
      "loss": 0.6832,
      "step": 486
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.00028548455427842775,
      "loss": 0.5285,
      "step": 487
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.00028541290828886683,
      "loss": 0.5177,
      "step": 488
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.0002853410949532615,
      "loss": 0.8537,
      "step": 489
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.0002852691143603602,
      "loss": 0.4814,
      "step": 490
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.000285196966599118,
      "loss": 0.5025,
      "step": 491
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.00028512465175869654,
      "loss": 0.6319,
      "step": 492
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.0002850521699284641,
      "loss": 0.4671,
      "step": 493
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.000284979521197995,
      "loss": 0.6842,
      "step": 494
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.00028490670565707024,
      "loss": 0.4827,
      "step": 495
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.0002848337233956766,
      "loss": 0.5881,
      "step": 496
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.0002847605745040072,
      "loss": 0.7599,
      "step": 497
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.00028468725907246085,
      "loss": 0.7476,
      "step": 498
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.0002846137771916423,
      "loss": 0.5216,
      "step": 499
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.0002845401289523618,
      "loss": 0.436,
      "step": 500
    },
    {
      "epoch": 0.17,
      "eval_loss": 0.7007405161857605,
      "eval_runtime": 43.6631,
      "eval_samples_per_second": 2.153,
      "eval_steps_per_second": 0.275,
      "step": 500
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.0002844663144456356,
      "loss": 0.5165,
      "step": 501
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.0002843923337626851,
      "loss": 0.6511,
      "step": 502
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.000284318186994937,
      "loss": 0.3859,
      "step": 503
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.00028424387423402355,
      "loss": 0.5864,
      "step": 504
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.0002841693955717819,
      "loss": 0.5733,
      "step": 505
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.0002840947511002544,
      "loss": 0.4143,
      "step": 506
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.0002840199409116881,
      "loss": 0.6687,
      "step": 507
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.00028394496509853506,
      "loss": 0.6373,
      "step": 508
    },
    {
      "epoch": 0.17,
      "learning_rate": 0.00028386982375345186,
      "loss": 0.6304,
      "step": 509
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.0002837945169692997,
      "loss": 0.5699,
      "step": 510
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.00028371904483914437,
      "loss": 0.6065,
      "step": 511
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.00028364340745625573,
      "loss": 0.5281,
      "step": 512
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.00028356760491410804,
      "loss": 0.7027,
      "step": 513
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.0002834916373063797,
      "loss": 0.6153,
      "step": 514
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.0002834155047269529,
      "loss": 0.6681,
      "step": 515
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.00028333920726991403,
      "loss": 0.4115,
      "step": 516
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.00028326274502955286,
      "loss": 0.5174,
      "step": 517
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.00028318611810036314,
      "loss": 0.6156,
      "step": 518
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.00028310932657704197,
      "loss": 0.5984,
      "step": 519
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.0002830323705544898,
      "loss": 0.6459,
      "step": 520
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.00028295525012781054,
      "loss": 0.5361,
      "step": 521
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.00028287796539231113,
      "loss": 0.4608,
      "step": 522
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.0002828005164435017,
      "loss": 0.4719,
      "step": 523
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.0002827229033770952,
      "loss": 0.7119,
      "step": 524
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.00028264512628900745,
      "loss": 0.6503,
      "step": 525
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.00028256718527535697,
      "loss": 0.4706,
      "step": 526
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.00028248908043246486,
      "loss": 0.5908,
      "step": 527
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.0002824108118568547,
      "loss": 0.5177,
      "step": 528
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.0002823323796452524,
      "loss": 0.4624,
      "step": 529
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.00028225378389458607,
      "loss": 0.7009,
      "step": 530
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.00028217502470198597,
      "loss": 0.5972,
      "step": 531
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.0002820961021647843,
      "loss": 0.5599,
      "step": 532
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.00028201701638051513,
      "loss": 0.3998,
      "step": 533
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.00028193776744691435,
      "loss": 0.4876,
      "step": 534
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.00028185835546191935,
      "loss": 0.5161,
      "step": 535
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.00028177878052366913,
      "loss": 0.3317,
      "step": 536
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.00028169904273050403,
      "loss": 0.635,
      "step": 537
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.00028161914218096567,
      "loss": 0.6577,
      "step": 538
    },
    {
      "epoch": 0.18,
      "learning_rate": 0.0002815390789737967,
      "loss": 0.5913,
      "step": 539
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.00028145885320794093,
      "loss": 0.5292,
      "step": 540
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.000281378464982543,
      "loss": 0.7185,
      "step": 541
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.00028129791439694836,
      "loss": 0.5821,
      "step": 542
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.00028121720155070294,
      "loss": 0.5003,
      "step": 543
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.0002811363265435535,
      "loss": 0.5291,
      "step": 544
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.0002810552894754469,
      "loss": 0.7296,
      "step": 545
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.0002809740904465305,
      "loss": 0.6796,
      "step": 546
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.00028089272955715165,
      "loss": 0.6706,
      "step": 547
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.0002808112069078579,
      "loss": 0.6179,
      "step": 548
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.00028072952259939644,
      "loss": 0.6827,
      "step": 549
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.00028064767673271454,
      "loss": 0.7509,
      "step": 550
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.000280565669408959,
      "loss": 0.5978,
      "step": 551
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.0002804835007294761,
      "loss": 0.6503,
      "step": 552
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.00028040117079581163,
      "loss": 0.5529,
      "step": 553
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.00028031867970971055,
      "loss": 0.5404,
      "step": 554
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.000280236027573117,
      "loss": 0.556,
      "step": 555
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.00028015321448817435,
      "loss": 0.439,
      "step": 556
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.0002800702405572245,
      "loss": 0.4955,
      "step": 557
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.0002799871058828085,
      "loss": 0.4905,
      "step": 558
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.0002799038105676658,
      "loss": 0.6141,
      "step": 559
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.00027982035471473443,
      "loss": 0.5969,
      "step": 560
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.00027973673842715085,
      "loss": 0.4643,
      "step": 561
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.0002796529618082499,
      "loss": 0.6396,
      "step": 562
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.00027956902496156425,
      "loss": 0.6783,
      "step": 563
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.0002794849279908249,
      "loss": 0.6318,
      "step": 564
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.00027940067099996063,
      "loss": 0.6527,
      "step": 565
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.0002793162540930979,
      "loss": 0.516,
      "step": 566
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.0002792316773745608,
      "loss": 0.5367,
      "step": 567
    },
    {
      "epoch": 0.19,
      "learning_rate": 0.0002791469409488711,
      "loss": 0.4718,
      "step": 568
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.0002790620449207477,
      "loss": 0.5567,
      "step": 569
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.00027897698939510687,
      "loss": 0.5464,
      "step": 570
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.000278891774477062,
      "loss": 0.6728,
      "step": 571
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.0002788064002719234,
      "loss": 0.4609,
      "step": 572
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.00027872086688519827,
      "loss": 0.6898,
      "step": 573
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.0002786351744225905,
      "loss": 0.4166,
      "step": 574
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.00027854932299000074,
      "loss": 0.6911,
      "step": 575
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.0002784633126935257,
      "loss": 0.655,
      "step": 576
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.00027837714363945884,
      "loss": 0.558,
      "step": 577
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.00027829081593428964,
      "loss": 0.5291,
      "step": 578
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.0002782043296847035,
      "loss": 0.5987,
      "step": 579
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.0002781176849975821,
      "loss": 0.4552,
      "step": 580
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.0002780308819800025,
      "loss": 0.5389,
      "step": 581
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.00027794392073923784,
      "loss": 0.4703,
      "step": 582
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.00027785680138275653,
      "loss": 0.5462,
      "step": 583
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.00027776952401822234,
      "loss": 0.6905,
      "step": 584
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.00027768208875349464,
      "loss": 0.5581,
      "step": 585
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.0002775944956966276,
      "loss": 0.5206,
      "step": 586
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.0002775067449558705,
      "loss": 0.5793,
      "step": 587
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.00027741883663966746,
      "loss": 0.5632,
      "step": 588
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.00027733077085665753,
      "loss": 0.6048,
      "step": 589
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.0002772425477156741,
      "loss": 0.6038,
      "step": 590
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.0002771541673257451,
      "loss": 0.7458,
      "step": 591
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.00027706562979609294,
      "loss": 0.5523,
      "step": 592
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.00027697693523613405,
      "loss": 0.611,
      "step": 593
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.00027688808375547893,
      "loss": 0.6392,
      "step": 594
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.0002767990754639322,
      "loss": 0.5425,
      "step": 595
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.00027670991047149196,
      "loss": 0.4768,
      "step": 596
    },
    {
      "epoch": 0.2,
      "learning_rate": 0.00027662058888835024,
      "loss": 0.4481,
      "step": 597
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.00027653111082489245,
      "loss": 0.6124,
      "step": 598
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.00027644147639169746,
      "loss": 0.4493,
      "step": 599
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.00027635168569953723,
      "loss": 0.532,
      "step": 600
    },
    {
      "epoch": 0.21,
      "eval_loss": 0.6868894100189209,
      "eval_runtime": 44.6802,
      "eval_samples_per_second": 2.104,
      "eval_steps_per_second": 0.269,
      "step": 600
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.00027626173885937703,
      "loss": 0.6641,
      "step": 601
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.00027617163598237497,
      "loss": 0.7141,
      "step": 602
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.00027608137717988207,
      "loss": 0.6486,
      "step": 603
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.0002759909625634419,
      "loss": 0.633,
      "step": 604
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.00027590039224479083,
      "loss": 0.6793,
      "step": 605
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.00027580966633585744,
      "loss": 0.5522,
      "step": 606
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.0002757187849487627,
      "loss": 0.592,
      "step": 607
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.00027562774819581967,
      "loss": 0.5207,
      "step": 608
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.00027553655618953334,
      "loss": 0.5364,
      "step": 609
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.00027544520904260086,
      "loss": 0.3935,
      "step": 610
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.0002753537068679107,
      "loss": 0.5215,
      "step": 611
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.0002752620497785433,
      "loss": 0.4668,
      "step": 612
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.00027517023788777023,
      "loss": 0.5707,
      "step": 613
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.00027507827130905454,
      "loss": 0.5311,
      "step": 614
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.0002749861501560504,
      "loss": 0.6259,
      "step": 615
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.00027489387454260317,
      "loss": 0.6495,
      "step": 616
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.00027480144458274874,
      "loss": 0.5611,
      "step": 617
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.00027470886039071394,
      "loss": 0.5922,
      "step": 618
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.0002746161220809164,
      "loss": 0.5405,
      "step": 619
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.0002745232297679639,
      "loss": 0.4052,
      "step": 620
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.00027443018356665465,
      "loss": 0.5708,
      "step": 621
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.0002743369835919771,
      "loss": 0.5436,
      "step": 622
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.00027424362995910964,
      "loss": 0.5233,
      "step": 623
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.0002741501227834206,
      "loss": 0.5993,
      "step": 624
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.0002740564621804681,
      "loss": 0.5061,
      "step": 625
    },
    {
      "epoch": 0.21,
      "learning_rate": 0.0002739626482659999,
      "loss": 0.7676,
      "step": 626
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.00027386868115595296,
      "loss": 0.4836,
      "step": 627
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.0002737745609664539,
      "loss": 0.3735,
      "step": 628
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.0002736802878138184,
      "loss": 0.4277,
      "step": 629
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.00027358586181455106,
      "loss": 0.5841,
      "step": 630
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.0002734912830853455,
      "loss": 0.5549,
      "step": 631
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.000273396551743084,
      "loss": 0.5193,
      "step": 632
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.00027330166790483766,
      "loss": 0.5517,
      "step": 633
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.0002732066316878657,
      "loss": 0.6287,
      "step": 634
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.0002731114432096159,
      "loss": 0.5654,
      "step": 635
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.000273016102587724,
      "loss": 0.5695,
      "step": 636
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.00027292060994001414,
      "loss": 0.4897,
      "step": 637
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.0002728249653844979,
      "loss": 0.523,
      "step": 638
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.0002727291690393748,
      "loss": 0.5052,
      "step": 639
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.000272633221023032,
      "loss": 0.5866,
      "step": 640
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.0002725371214540439,
      "loss": 0.6193,
      "step": 641
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.0002724408704511725,
      "loss": 0.5823,
      "step": 642
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.0002723444681333666,
      "loss": 0.6474,
      "step": 643
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.00027224791461976223,
      "loss": 0.5991,
      "step": 644
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.00027215121002968217,
      "loss": 0.3236,
      "step": 645
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.00027205435448263593,
      "loss": 0.7225,
      "step": 646
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.00027195734809831956,
      "loss": 0.5658,
      "step": 647
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.0002718601909966156,
      "loss": 0.6858,
      "step": 648
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.0002717628832975927,
      "loss": 0.4384,
      "step": 649
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.00027166542512150585,
      "loss": 0.7348,
      "step": 650
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.00027156781658879567,
      "loss": 0.4548,
      "step": 651
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.000271470057820089,
      "loss": 0.5529,
      "step": 652
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.0002713721489361979,
      "loss": 0.6307,
      "step": 653
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.0002712740900581203,
      "loss": 0.575,
      "step": 654
    },
    {
      "epoch": 0.22,
      "learning_rate": 0.00027117588130703936,
      "loss": 0.5629,
      "step": 655
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.0002710775228043234,
      "loss": 0.5549,
      "step": 656
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.000270979014671526,
      "loss": 0.7239,
      "step": 657
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.00027088035703038544,
      "loss": 0.5871,
      "step": 658
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.0002707815500028249,
      "loss": 0.5934,
      "step": 659
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.00027068259371095205,
      "loss": 0.4006,
      "step": 660
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.0002705834882770591,
      "loss": 0.6372,
      "step": 661
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.00027048423382362266,
      "loss": 0.5988,
      "step": 662
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.0002703848304733034,
      "loss": 0.5908,
      "step": 663
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.000270285278348946,
      "loss": 0.3884,
      "step": 664
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.0002701855775735789,
      "loss": 0.5588,
      "step": 665
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.00027008572827041456,
      "loss": 0.4874,
      "step": 666
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.00026998573056284864,
      "loss": 0.5122,
      "step": 667
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.0002698855845744605,
      "loss": 0.4742,
      "step": 668
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.0002697852904290124,
      "loss": 0.4509,
      "step": 669
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.0002696848482504501,
      "loss": 0.565,
      "step": 670
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.00026958425816290193,
      "loss": 0.5326,
      "step": 671
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.00026948352029067935,
      "loss": 0.402,
      "step": 672
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.00026938263475827614,
      "loss": 0.4905,
      "step": 673
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.00026928160169036877,
      "loss": 0.5588,
      "step": 674
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.00026918042121181596,
      "loss": 0.4833,
      "step": 675
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.00026907909344765866,
      "loss": 0.5835,
      "step": 676
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.0002689776185231197,
      "loss": 0.5608,
      "step": 677
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.00026887599656360395,
      "loss": 0.5884,
      "step": 678
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.00026877422769469795,
      "loss": 0.5881,
      "step": 679
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.00026867231204216963,
      "loss": 0.6358,
      "step": 680
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.0002685702497319685,
      "loss": 0.4215,
      "step": 681
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.00026846804089022524,
      "loss": 0.6599,
      "step": 682
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.00026836568564325166,
      "loss": 0.5247,
      "step": 683
    },
    {
      "epoch": 0.23,
      "learning_rate": 0.0002682631841175404,
      "loss": 0.5388,
      "step": 684
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.00026816053643976504,
      "loss": 0.6012,
      "step": 685
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.0002680577427367796,
      "loss": 0.7612,
      "step": 686
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.00026795480313561876,
      "loss": 0.5664,
      "step": 687
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.00026785171776349723,
      "loss": 0.55,
      "step": 688
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.00026774848674781013,
      "loss": 0.4693,
      "step": 689
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.0002676451102161324,
      "loss": 0.4824,
      "step": 690
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.0002675415882962189,
      "loss": 0.5209,
      "step": 691
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.0002674379211160042,
      "loss": 0.5672,
      "step": 692
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.0002673341088036022,
      "loss": 0.3924,
      "step": 693
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.00026723015148730634,
      "loss": 0.567,
      "step": 694
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.0002671260492955893,
      "loss": 0.5999,
      "step": 695
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.0002670218023571025,
      "loss": 0.3473,
      "step": 696
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.0002669174108006766,
      "loss": 0.551,
      "step": 697
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.0002668128747553208,
      "loss": 0.462,
      "step": 698
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.0002667081943502228,
      "loss": 0.4992,
      "step": 699
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.0002666033697147489,
      "loss": 0.4975,
      "step": 700
    },
    {
      "epoch": 0.24,
      "eval_loss": 0.6668596863746643,
      "eval_runtime": 42.3263,
      "eval_samples_per_second": 2.221,
      "eval_steps_per_second": 0.284,
      "step": 700
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.0002664984009784434,
      "loss": 0.4693,
      "step": 701
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.0002663932882710289,
      "loss": 0.5883,
      "step": 702
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.0002662880317224059,
      "loss": 0.4571,
      "step": 703
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.00026618263146265247,
      "loss": 0.5908,
      "step": 704
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.0002660770876220244,
      "loss": 0.4752,
      "step": 705
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.00026597140033095506,
      "loss": 0.55,
      "step": 706
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.0002658655697200549,
      "loss": 0.55,
      "step": 707
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.00026575959592011156,
      "loss": 0.5534,
      "step": 708
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.00026565347906208956,
      "loss": 0.6045,
      "step": 709
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.0002655472192771304,
      "loss": 0.4267,
      "step": 710
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.00026544081669655205,
      "loss": 0.3952,
      "step": 711
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.00026533427145184895,
      "loss": 0.6138,
      "step": 712
    },
    {
      "epoch": 0.24,
      "learning_rate": 0.00026522758367469195,
      "loss": 0.6228,
      "step": 713
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.00026512075349692803,
      "loss": 0.497,
      "step": 714
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.00026501378105058,
      "loss": 0.5886,
      "step": 715
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.00026490666646784665,
      "loss": 0.55,
      "step": 716
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.00026479940988110244,
      "loss": 0.6066,
      "step": 717
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.00026469201142289715,
      "loss": 0.5106,
      "step": 718
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.0002645844712259561,
      "loss": 0.5213,
      "step": 719
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.0002644767894231796,
      "loss": 0.4542,
      "step": 720
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.00026436896614764297,
      "loss": 0.4803,
      "step": 721
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.00026426100153259654,
      "loss": 0.526,
      "step": 722
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.00026415289571146515,
      "loss": 0.3703,
      "step": 723
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.00026404464881784814,
      "loss": 0.5715,
      "step": 724
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.00026393626098551926,
      "loss": 0.629,
      "step": 725
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.00026382773234842643,
      "loss": 0.5466,
      "step": 726
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.0002637190630406916,
      "loss": 0.6112,
      "step": 727
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.00026361025319661044,
      "loss": 0.615,
      "step": 728
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.0002635013029506525,
      "loss": 0.561,
      "step": 729
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.00026339221243746057,
      "loss": 0.7823,
      "step": 730
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.00026328298179185104,
      "loss": 0.7131,
      "step": 731
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.00026317361114881337,
      "loss": 0.4746,
      "step": 732
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.00026306410064351,
      "loss": 0.3293,
      "step": 733
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.0002629544504112763,
      "loss": 0.5129,
      "step": 734
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.00026284466058762023,
      "loss": 0.4449,
      "step": 735
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.00026273473130822235,
      "loss": 0.7548,
      "step": 736
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.00026262466270893546,
      "loss": 0.6836,
      "step": 737
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.00026251445492578464,
      "loss": 0.6621,
      "step": 738
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.00026240410809496694,
      "loss": 0.6962,
      "step": 739
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.00026229362235285114,
      "loss": 0.5504,
      "step": 740
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.00026218299783597787,
      "loss": 0.6917,
      "step": 741
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.0002620722346810591,
      "loss": 0.4413,
      "step": 742
    },
    {
      "epoch": 0.25,
      "learning_rate": 0.0002619613330249783,
      "loss": 0.4564,
      "step": 743
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.00026185029300478997,
      "loss": 0.3865,
      "step": 744
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.00026173911475771953,
      "loss": 0.5786,
      "step": 745
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.00026162779842116345,
      "loss": 0.6369,
      "step": 746
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.00026151634413268876,
      "loss": 0.5102,
      "step": 747
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.0002614047520300329,
      "loss": 0.5069,
      "step": 748
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.00026129302225110364,
      "loss": 0.4705,
      "step": 749
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.000261181154933979,
      "loss": 0.4511,
      "step": 750
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.00026106915021690684,
      "loss": 0.4667,
      "step": 751
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.0002609570082383049,
      "loss": 0.6933,
      "step": 752
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.0002608447291367606,
      "loss": 0.6097,
      "step": 753
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.0002607323130510307,
      "loss": 0.556,
      "step": 754
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.0002606197601200412,
      "loss": 0.5162,
      "step": 755
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.00026050707048288753,
      "loss": 0.5503,
      "step": 756
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.00026039424427883365,
      "loss": 0.5179,
      "step": 757
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.00026028128164731263,
      "loss": 0.6571,
      "step": 758
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.00026016818272792596,
      "loss": 0.3793,
      "step": 759
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.0002600549476604435,
      "loss": 0.5968,
      "step": 760
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.00025994157658480363,
      "loss": 0.5716,
      "step": 761
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.0002598280696411126,
      "loss": 0.516,
      "step": 762
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.00025971442696964456,
      "loss": 0.4079,
      "step": 763
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.0002596006487108414,
      "loss": 0.4658,
      "step": 764
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.0002594867350053128,
      "loss": 0.6498,
      "step": 765
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.00025937268599383553,
      "loss": 0.5398,
      "step": 766
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.0002592585018173537,
      "loss": 0.5193,
      "step": 767
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.0002591441826169784,
      "loss": 0.6556,
      "step": 768
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.0002590297285339878,
      "loss": 0.5229,
      "step": 769
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.00025891513970982636,
      "loss": 0.4272,
      "step": 770
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.0002588004162861056,
      "loss": 0.5747,
      "step": 771
    },
    {
      "epoch": 0.26,
      "learning_rate": 0.0002586855584046028,
      "loss": 0.3826,
      "step": 772
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.0002585705662072618,
      "loss": 0.5151,
      "step": 773
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.0002584554398361924,
      "loss": 0.6202,
      "step": 774
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.00025834017943366993,
      "loss": 0.5645,
      "step": 775
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.0002582247851421357,
      "loss": 0.5845,
      "step": 776
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.0002581092571041963,
      "loss": 0.5051,
      "step": 777
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.0002579935954626236,
      "loss": 0.4289,
      "step": 778
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.0002578778003603547,
      "loss": 0.6507,
      "step": 779
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.0002577618719404915,
      "loss": 0.5731,
      "step": 780
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.0002576458103463007,
      "loss": 0.61,
      "step": 781
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.00025752961572121375,
      "loss": 0.5279,
      "step": 782
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.0002574132882088261,
      "loss": 0.5979,
      "step": 783
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.0002572968279528979,
      "loss": 0.4757,
      "step": 784
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.00025718023509735296,
      "loss": 0.5104,
      "step": 785
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.00025706350978627914,
      "loss": 0.546,
      "step": 786
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.00025694665216392803,
      "loss": 0.7921,
      "step": 787
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.0002568296623747147,
      "loss": 0.6902,
      "step": 788
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.00025671254056321743,
      "loss": 0.6041,
      "step": 789
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.0002565952868741778,
      "loss": 0.4697,
      "step": 790
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.0002564779014525003,
      "loss": 0.4997,
      "step": 791
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.00025636038444325226,
      "loss": 0.6074,
      "step": 792
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.0002562427359916636,
      "loss": 0.5684,
      "step": 793
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.00025612495624312666,
      "loss": 0.5339,
      "step": 794
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.00025600704534319615,
      "loss": 0.4631,
      "step": 795
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.0002558890034375886,
      "loss": 0.4524,
      "step": 796
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.00025577083067218284,
      "loss": 0.6545,
      "step": 797
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.00025565252719301904,
      "loss": 0.5694,
      "step": 798
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.00025553409314629913,
      "loss": 0.4688,
      "step": 799
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.00025541552867838627,
      "loss": 0.6062,
      "step": 800
    },
    {
      "epoch": 0.27,
      "eval_loss": 0.6534347534179688,
      "eval_runtime": 44.5141,
      "eval_samples_per_second": 2.112,
      "eval_steps_per_second": 0.27,
      "step": 800
    },
    {
      "epoch": 0.27,
      "learning_rate": 0.0002552968339358048,
      "loss": 0.4097,
      "step": 801
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.0002551780090652403,
      "loss": 0.4665,
      "step": 802
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.0002550590542135389,
      "loss": 0.7089,
      "step": 803
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.00025493996952770734,
      "loss": 0.5669,
      "step": 804
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.00025482075515491305,
      "loss": 0.6604,
      "step": 805
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.0002547014112424835,
      "loss": 0.4793,
      "step": 806
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.00025458193793790636,
      "loss": 0.3705,
      "step": 807
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.00025446233538882923,
      "loss": 0.5013,
      "step": 808
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.00025434260374305936,
      "loss": 0.5512,
      "step": 809
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.00025422274314856354,
      "loss": 0.6188,
      "step": 810
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.000254102753753468,
      "loss": 0.6335,
      "step": 811
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.00025398263570605803,
      "loss": 0.4381,
      "step": 812
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.00025386238915477805,
      "loss": 0.6121,
      "step": 813
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.0002537420142482312,
      "loss": 0.5712,
      "step": 814
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.00025362151113517915,
      "loss": 0.5273,
      "step": 815
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.0002535008799645422,
      "loss": 0.3935,
      "step": 816
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.0002533801208853988,
      "loss": 0.6875,
      "step": 817
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.0002532592340469855,
      "loss": 0.5226,
      "step": 818
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.00025313821959869673,
      "loss": 0.4564,
      "step": 819
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.00025301707769008464,
      "loss": 0.3762,
      "step": 820
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.00025289580847085883,
      "loss": 0.4134,
      "step": 821
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.0002527744120908863,
      "loss": 0.5769,
      "step": 822
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.00025265288870019126,
      "loss": 0.3951,
      "step": 823
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.0002525312384489547,
      "loss": 0.4566,
      "step": 824
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.00025240946148751453,
      "loss": 0.4408,
      "step": 825
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.00025228755796636524,
      "loss": 0.594,
      "step": 826
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.0002521655280361577,
      "loss": 0.4671,
      "step": 827
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.00025204337184769887,
      "loss": 0.711,
      "step": 828
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.000251921089551952,
      "loss": 0.6316,
      "step": 829
    },
    {
      "epoch": 0.28,
      "learning_rate": 0.00025179868130003604,
      "loss": 0.5877,
      "step": 830
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.00025167614724322564,
      "loss": 0.5443,
      "step": 831
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.00025155348753295076,
      "loss": 0.3706,
      "step": 832
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.000251430702320797,
      "loss": 0.5269,
      "step": 833
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.00025130779175850456,
      "loss": 0.5857,
      "step": 834
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.0002511847559979691,
      "loss": 0.6631,
      "step": 835
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.00025106159519124055,
      "loss": 0.6083,
      "step": 836
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.00025093830949052357,
      "loss": 0.6096,
      "step": 837
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.00025081489904817724,
      "loss": 0.4291,
      "step": 838
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.0002506913640167147,
      "loss": 0.7759,
      "step": 839
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.000250567704548803,
      "loss": 0.5531,
      "step": 840
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.0002504439207972632,
      "loss": 0.5823,
      "step": 841
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.0002503200129150696,
      "loss": 0.4973,
      "step": 842
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.0002501959810553501,
      "loss": 0.4744,
      "step": 843
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.00025007182537138597,
      "loss": 0.6575,
      "step": 844
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.00024994754601661136,
      "loss": 0.5179,
      "step": 845
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.000249823143144613,
      "loss": 0.4673,
      "step": 846
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.0002496986169091307,
      "loss": 0.5511,
      "step": 847
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.0002495739674640565,
      "loss": 0.6356,
      "step": 848
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.00024944919496343467,
      "loss": 0.5365,
      "step": 849
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.00024932429956146167,
      "loss": 0.6262,
      "step": 850
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.0002491992814124859,
      "loss": 0.6196,
      "step": 851
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.00024907414067100713,
      "loss": 0.6224,
      "step": 852
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.00024894887749167695,
      "loss": 0.3615,
      "step": 853
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.0002488234920292983,
      "loss": 0.4654,
      "step": 854
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.00024869798443882487,
      "loss": 0.6376,
      "step": 855
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.00024857235487536165,
      "loss": 0.5654,
      "step": 856
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.0002484466034941642,
      "loss": 0.489,
      "step": 857
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.0002483207304506387,
      "loss": 0.5881,
      "step": 858
    },
    {
      "epoch": 0.29,
      "learning_rate": 0.00024819473590034145,
      "loss": 0.4674,
      "step": 859
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.0002480686199989793,
      "loss": 0.5317,
      "step": 860
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.0002479423829024088,
      "loss": 0.4775,
      "step": 861
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.00024781602476663627,
      "loss": 0.5939,
      "step": 862
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.00024768954574781775,
      "loss": 0.4441,
      "step": 863
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.0002475629460022586,
      "loss": 0.5434,
      "step": 864
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.00024743622568641337,
      "loss": 0.4374,
      "step": 865
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.0002473093849568856,
      "loss": 0.4524,
      "step": 866
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.0002471824239704277,
      "loss": 0.5127,
      "step": 867
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.0002470553428839406,
      "loss": 0.539,
      "step": 868
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.0002469281418544738,
      "loss": 0.439,
      "step": 869
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.0002468008210392248,
      "loss": 0.4688,
      "step": 870
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.0002466733805955394,
      "loss": 0.6105,
      "step": 871
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.00024654582068091107,
      "loss": 0.5208,
      "step": 872
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.0002464181414529809,
      "loss": 0.7259,
      "step": 873
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.00024629034306953754,
      "loss": 0.4752,
      "step": 874
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.0002461624256885169,
      "loss": 0.4249,
      "step": 875
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.0002460343894680018,
      "loss": 0.5025,
      "step": 876
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.0002459062345662221,
      "loss": 0.5126,
      "step": 877
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.00024577796114155423,
      "loss": 0.4609,
      "step": 878
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.0002456495693525211,
      "loss": 0.4142,
      "step": 879
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.00024552105935779186,
      "loss": 0.5881,
      "step": 880
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.000245392431316182,
      "loss": 0.5157,
      "step": 881
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.0002452636853866524,
      "loss": 0.4304,
      "step": 882
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.0002451348217283101,
      "loss": 0.462,
      "step": 883
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.0002450058405004074,
      "loss": 0.5659,
      "step": 884
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.000244876741862342,
      "loss": 0.4945,
      "step": 885
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.0002447475259736565,
      "loss": 0.4019,
      "step": 886
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.00024461819299403866,
      "loss": 0.3631,
      "step": 887
    },
    {
      "epoch": 0.3,
      "learning_rate": 0.00024448874308332085,
      "loss": 0.4449,
      "step": 888
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.0002443591764014798,
      "loss": 0.624,
      "step": 889
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.0002442294931086367,
      "loss": 0.6332,
      "step": 890
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.0002440996933650569,
      "loss": 0.3929,
      "step": 891
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.0002439697773311495,
      "loss": 0.663,
      "step": 892
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.00024383974516746743,
      "loss": 0.6299,
      "step": 893
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.0002437095970347071,
      "loss": 0.5572,
      "step": 894
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.0002435793330937082,
      "loss": 0.6122,
      "step": 895
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.00024344895350545363,
      "loss": 0.3712,
      "step": 896
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.0002433184584310691,
      "loss": 0.4889,
      "step": 897
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.00024318784803182316,
      "loss": 0.6401,
      "step": 898
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.00024305712246912675,
      "loss": 0.5349,
      "step": 899
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.00024292628190453322,
      "loss": 0.501,
      "step": 900
    },
    {
      "epoch": 0.31,
      "eval_loss": 0.6406918168067932,
      "eval_runtime": 40.749,
      "eval_samples_per_second": 2.307,
      "eval_steps_per_second": 0.294,
      "step": 900
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.00024279532649973802,
      "loss": 0.4751,
      "step": 901
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.00024266425641657856,
      "loss": 0.4807,
      "step": 902
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.00024253307181703386,
      "loss": 0.4145,
      "step": 903
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.0002424017728632246,
      "loss": 0.5004,
      "step": 904
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.00024227035971741267,
      "loss": 0.5968,
      "step": 905
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.00024213883254200114,
      "loss": 0.5168,
      "step": 906
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.00024200719149953398,
      "loss": 0.6293,
      "step": 907
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.0002418754367526959,
      "loss": 0.4712,
      "step": 908
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.0002417435684643121,
      "loss": 0.5363,
      "step": 909
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.0002416115867973481,
      "loss": 0.4671,
      "step": 910
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.0002414794919149096,
      "loss": 0.4961,
      "step": 911
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.0002413472839802421,
      "loss": 0.7247,
      "step": 912
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.0002412149631567309,
      "loss": 0.5193,
      "step": 913
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.00024108252960790074,
      "loss": 0.4204,
      "step": 914
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.0002409499834974158,
      "loss": 0.5553,
      "step": 915
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.0002408173249890792,
      "loss": 0.4905,
      "step": 916
    },
    {
      "epoch": 0.31,
      "learning_rate": 0.00024068455424683307,
      "loss": 0.5566,
      "step": 917
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.00024055167143475822,
      "loss": 0.4556,
      "step": 918
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.0002404186767170739,
      "loss": 0.6515,
      "step": 919
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.00024028557025813777,
      "loss": 0.4928,
      "step": 920
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.00024015235222244553,
      "loss": 0.4645,
      "step": 921
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.00024001902277463066,
      "loss": 0.516,
      "step": 922
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.00023988558207946447,
      "loss": 0.6248,
      "step": 923
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.00023975203030185576,
      "loss": 0.5048,
      "step": 924
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.00023961836760685046,
      "loss": 0.5235,
      "step": 925
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.0002394845941596317,
      "loss": 0.4938,
      "step": 926
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.0002393507101255195,
      "loss": 0.6704,
      "step": 927
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.0002392167156699704,
      "loss": 0.6514,
      "step": 928
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.0002390826109585775,
      "loss": 0.6189,
      "step": 929
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.00023894839615707023,
      "loss": 0.4129,
      "step": 930
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.00023881407143131394,
      "loss": 0.5695,
      "step": 931
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.00023867963694730983,
      "loss": 0.5112,
      "step": 932
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.00023854509287119492,
      "loss": 0.5334,
      "step": 933
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.00023841043936924136,
      "loss": 0.5604,
      "step": 934
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.00023827567660785682,
      "loss": 0.4526,
      "step": 935
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.00023814080475358386,
      "loss": 0.3915,
      "step": 936
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.00023800582397309986,
      "loss": 0.5111,
      "step": 937
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.00023787073443321685,
      "loss": 0.446,
      "step": 938
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.00023773553630088124,
      "loss": 0.4048,
      "step": 939
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.00023760022974317365,
      "loss": 0.5717,
      "step": 940
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.00023746481492730866,
      "loss": 0.5077,
      "step": 941
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.00023732929202063474,
      "loss": 0.7605,
      "step": 942
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.00023719366119063384,
      "loss": 0.4531,
      "step": 943
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.0002370579226049213,
      "loss": 0.4061,
      "step": 944
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.00023692207643124567,
      "loss": 0.4807,
      "step": 945
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.00023678612283748842,
      "loss": 0.5049,
      "step": 946
    },
    {
      "epoch": 0.32,
      "learning_rate": 0.0002366500619916638,
      "loss": 0.4082,
      "step": 947
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.00023651389406191857,
      "loss": 0.6367,
      "step": 948
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.00023637761921653185,
      "loss": 0.613,
      "step": 949
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.00023624123762391487,
      "loss": 0.4657,
      "step": 950
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.0002361047494526108,
      "loss": 0.4291,
      "step": 951
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.00023596815487129456,
      "loss": 0.3886,
      "step": 952
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.00023583145404877247,
      "loss": 0.3862,
      "step": 953
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.00023569464715398223,
      "loss": 0.6992,
      "step": 954
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.0002355577343559926,
      "loss": 0.3939,
      "step": 955
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.00023542071582400323,
      "loss": 0.4393,
      "step": 956
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.00023528359172734445,
      "loss": 0.323,
      "step": 957
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.00023514636223547695,
      "loss": 0.551,
      "step": 958
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.00023500902751799176,
      "loss": 0.7705,
      "step": 959
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.00023487158774461,
      "loss": 0.4451,
      "step": 960
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.00023473404308518256,
      "loss": 0.6623,
      "step": 961
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.00023459639370968985,
      "loss": 0.4672,
      "step": 962
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.00023445863978824189,
      "loss": 0.6349,
      "step": 963
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.0002343207814910777,
      "loss": 0.5237,
      "step": 964
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.00023418281898856546,
      "loss": 0.3942,
      "step": 965
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.00023404475245120202,
      "loss": 0.3776,
      "step": 966
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.0002339065820496129,
      "loss": 0.4517,
      "step": 967
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.00023376830795455173,
      "loss": 0.5631,
      "step": 968
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.00023362993033690068,
      "loss": 0.3822,
      "step": 969
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.00023349144936766957,
      "loss": 0.5243,
      "step": 970
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.00023335286521799595,
      "loss": 0.6056,
      "step": 971
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.00023321417805914502,
      "loss": 0.5557,
      "step": 972
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.00023307538806250922,
      "loss": 0.6767,
      "step": 973
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.00023293649539960802,
      "loss": 0.5599,
      "step": 974
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.00023279750024208783,
      "loss": 0.4995,
      "step": 975
    },
    {
      "epoch": 0.33,
      "learning_rate": 0.00023265840276172174,
      "loss": 0.5563,
      "step": 976
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.0002325192031304092,
      "loss": 0.5616,
      "step": 977
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.00023237990152017604,
      "loss": 0.5617,
      "step": 978
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.00023224049810317404,
      "loss": 0.5514,
      "step": 979
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.00023210099305168069,
      "loss": 0.4942,
      "step": 980
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.0002319613865380993,
      "loss": 0.4067,
      "step": 981
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.00023182167873495848,
      "loss": 0.324,
      "step": 982
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.00023168186981491182,
      "loss": 0.4298,
      "step": 983
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.00023154195995073824,
      "loss": 0.5104,
      "step": 984
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.00023140194931534116,
      "loss": 0.7501,
      "step": 985
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.0002312618380817485,
      "loss": 0.7107,
      "step": 986
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.00023112162642311267,
      "loss": 0.43,
      "step": 987
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.00023098131451271015,
      "loss": 0.6411,
      "step": 988
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.0002308409025239411,
      "loss": 0.4738,
      "step": 989
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.00023070039063032976,
      "loss": 0.4379,
      "step": 990
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.00023055977900552344,
      "loss": 0.5664,
      "step": 991
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.0002304190678232929,
      "loss": 0.416,
      "step": 992
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.00023027825725753197,
      "loss": 0.4742,
      "step": 993
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.00023013734748225716,
      "loss": 0.4752,
      "step": 994
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.00022999633867160763,
      "loss": 0.5944,
      "step": 995
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.00022985523099984507,
      "loss": 0.4652,
      "step": 996
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.0002297140246413531,
      "loss": 0.592,
      "step": 997
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.00022957271977063745,
      "loss": 0.5373,
      "step": 998
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.00022943131656232566,
      "loss": 0.4653,
      "step": 999
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.00022928981519116667,
      "loss": 0.556,
      "step": 1000
    },
    {
      "epoch": 0.34,
      "eval_loss": 0.6352096796035767,
      "eval_runtime": 44.4405,
      "eval_samples_per_second": 2.115,
      "eval_steps_per_second": 0.27,
      "step": 1000
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.00022914821583203072,
      "loss": 0.3998,
      "step": 1001
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.00022900651865990926,
      "loss": 0.3163,
      "step": 1002
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.00022886472384991453,
      "loss": 0.5616,
      "step": 1003
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.00022872283157727942,
      "loss": 0.5354,
      "step": 1004
    },
    {
      "epoch": 0.34,
      "learning_rate": 0.00022858084201735743,
      "loss": 0.4844,
      "step": 1005
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.00022843875534562204,
      "loss": 0.5141,
      "step": 1006
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.00022829657173766688,
      "loss": 0.5559,
      "step": 1007
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.00022815429136920543,
      "loss": 0.5266,
      "step": 1008
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.00022801191441607058,
      "loss": 0.4795,
      "step": 1009
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.0002278694410542148,
      "loss": 0.5282,
      "step": 1010
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.00022772687145970955,
      "loss": 0.5033,
      "step": 1011
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.00022758420580874523,
      "loss": 0.6193,
      "step": 1012
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.00022744144427763098,
      "loss": 0.6188,
      "step": 1013
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.0002272985870427944,
      "loss": 0.5274,
      "step": 1014
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.00022715563428078145,
      "loss": 0.5781,
      "step": 1015
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.00022701258616825598,
      "loss": 0.5671,
      "step": 1016
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.0002268694428819999,
      "loss": 0.5264,
      "step": 1017
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.00022672620459891253,
      "loss": 0.5636,
      "step": 1018
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.0002265828714960107,
      "loss": 0.5414,
      "step": 1019
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.00022643944375042838,
      "loss": 0.5009,
      "step": 1020
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.0002262959215394165,
      "loss": 0.4659,
      "step": 1021
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.00022615230504034278,
      "loss": 0.5001,
      "step": 1022
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.00022600859443069142,
      "loss": 0.4948,
      "step": 1023
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.00022586478988806293,
      "loss": 0.4344,
      "step": 1024
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.00022572089159017392,
      "loss": 0.606,
      "step": 1025
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.00022557689971485685,
      "loss": 0.5905,
      "step": 1026
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.00022543281444005976,
      "loss": 0.5177,
      "step": 1027
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.00022528863594384628,
      "loss": 0.5379,
      "step": 1028
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.00022514436440439513,
      "loss": 0.4659,
      "step": 1029
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.000225,
      "loss": 0.6228,
      "step": 1030
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.00022485554290906936,
      "loss": 0.6434,
      "step": 1031
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.0002247109933101263,
      "loss": 0.528,
      "step": 1032
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.0002245663513818081,
      "loss": 0.4894,
      "step": 1033
    },
    {
      "epoch": 0.35,
      "learning_rate": 0.00022442161730286628,
      "loss": 0.592,
      "step": 1034
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.00022427679125216614,
      "loss": 0.5058,
      "step": 1035
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.00022413187340868676,
      "loss": 0.3607,
      "step": 1036
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.00022398686395152045,
      "loss": 0.5277,
      "step": 1037
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.00022384176305987292,
      "loss": 0.6148,
      "step": 1038
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.00022369657091306285,
      "loss": 0.3767,
      "step": 1039
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.00022355128769052166,
      "loss": 0.6689,
      "step": 1040
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.0002234059135717933,
      "loss": 0.4549,
      "step": 1041
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.00022326044873653412,
      "loss": 0.5179,
      "step": 1042
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.00022311489336451253,
      "loss": 0.4709,
      "step": 1043
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.00022296924763560882,
      "loss": 0.3845,
      "step": 1044
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.00022282351172981497,
      "loss": 0.6707,
      "step": 1045
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.00022267768582723434,
      "loss": 0.4093,
      "step": 1046
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.00022253177010808173,
      "loss": 0.3797,
      "step": 1047
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.00022238576475268264,
      "loss": 0.466,
      "step": 1048
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.00022223966994147347,
      "loss": 0.5342,
      "step": 1049
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.00022209348585500125,
      "loss": 0.6514,
      "step": 1050
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.00022194721267392324,
      "loss": 0.4488,
      "step": 1051
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.00022180085057900675,
      "loss": 0.4613,
      "step": 1052
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.00022165439975112923,
      "loss": 0.4397,
      "step": 1053
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.00022150786037127747,
      "loss": 0.5195,
      "step": 1054
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.00022136123262054788,
      "loss": 0.4549,
      "step": 1055
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.00022121451668014603,
      "loss": 0.5378,
      "step": 1056
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.00022106771273138645,
      "loss": 0.5578,
      "step": 1057
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.00022092082095569252,
      "loss": 0.509,
      "step": 1058
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.00022077384153459609,
      "loss": 0.5766,
      "step": 1059
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.00022062677464973737,
      "loss": 0.5709,
      "step": 1060
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.00022047962048286448,
      "loss": 0.465,
      "step": 1061
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.0002203323792158338,
      "loss": 0.2971,
      "step": 1062
    },
    {
      "epoch": 0.36,
      "learning_rate": 0.00022018505103060885,
      "loss": 0.4416,
      "step": 1063
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.00022003763610926096,
      "loss": 0.4868,
      "step": 1064
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.0002198901346339685,
      "loss": 0.386,
      "step": 1065
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.0002197425467870168,
      "loss": 0.4152,
      "step": 1066
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.0002195948727507979,
      "loss": 0.42,
      "step": 1067
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.00021944711270781045,
      "loss": 0.539,
      "step": 1068
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.0002192992668406593,
      "loss": 0.4234,
      "step": 1069
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.00021915133533205542,
      "loss": 0.7339,
      "step": 1070
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.00021900331836481563,
      "loss": 0.4869,
      "step": 1071
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.0002188552161218623,
      "loss": 0.4328,
      "step": 1072
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.00021870702878622317,
      "loss": 0.4235,
      "step": 1073
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.00021855875654103123,
      "loss": 0.4845,
      "step": 1074
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.0002184103995695243,
      "loss": 0.5183,
      "step": 1075
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.00021826195805504505,
      "loss": 0.338,
      "step": 1076
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.00021811343218104052,
      "loss": 0.4362,
      "step": 1077
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.000217964822131062,
      "loss": 0.49,
      "step": 1078
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.00021781612808876482,
      "loss": 0.4623,
      "step": 1079
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.00021766735023790818,
      "loss": 0.51,
      "step": 1080
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.0002175184887623547,
      "loss": 0.5532,
      "step": 1081
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.0002173695438460705,
      "loss": 0.3731,
      "step": 1082
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.00021722051567312476,
      "loss": 0.4414,
      "step": 1083
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.0002170714044276896,
      "loss": 0.4259,
      "step": 1084
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.0002169222102940396,
      "loss": 0.6014,
      "step": 1085
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.00021677293345655208,
      "loss": 0.4412,
      "step": 1086
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.0002166235740997063,
      "loss": 0.3505,
      "step": 1087
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.00021647413240808366,
      "loss": 0.5813,
      "step": 1088
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.00021632460856636727,
      "loss": 0.5176,
      "step": 1089
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.00021617500275934178,
      "loss": 0.5938,
      "step": 1090
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.000216025315171893,
      "loss": 0.5453,
      "step": 1091
    },
    {
      "epoch": 0.37,
      "learning_rate": 0.00021587554598900805,
      "loss": 0.4912,
      "step": 1092
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.00021572569539577465,
      "loss": 0.5508,
      "step": 1093
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.00021557576357738128,
      "loss": 0.4623,
      "step": 1094
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.00021542575071911675,
      "loss": 0.4305,
      "step": 1095
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.00021527565700637003,
      "loss": 0.5199,
      "step": 1096
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.00021512548262462994,
      "loss": 0.4403,
      "step": 1097
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.00021497522775948513,
      "loss": 0.5123,
      "step": 1098
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.0002148248925966236,
      "loss": 0.4743,
      "step": 1099
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.0002146744773218326,
      "loss": 0.4726,
      "step": 1100
    },
    {
      "epoch": 0.38,
      "eval_loss": 0.6175949573516846,
      "eval_runtime": 42.7179,
      "eval_samples_per_second": 2.2,
      "eval_steps_per_second": 0.281,
      "step": 1100
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.0002145239821209985,
      "loss": 0.4083,
      "step": 1101
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.0002143734071801063,
      "loss": 0.4598,
      "step": 1102
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.00021422275268523952,
      "loss": 0.6842,
      "step": 1103
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.0002140720188225802,
      "loss": 0.4723,
      "step": 1104
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.00021392120577840818,
      "loss": 0.4374,
      "step": 1105
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.00021377031373910144,
      "loss": 0.3273,
      "step": 1106
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.00021361934289113542,
      "loss": 0.4748,
      "step": 1107
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.00021346829342108297,
      "loss": 0.3957,
      "step": 1108
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.0002133171655156141,
      "loss": 0.5435,
      "step": 1109
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.00021316595936149579,
      "loss": 0.6057,
      "step": 1110
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.0002130146751455917,
      "loss": 0.5963,
      "step": 1111
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.0002128633130548619,
      "loss": 0.4037,
      "step": 1112
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.0002127118732763629,
      "loss": 0.6471,
      "step": 1113
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.000212560355997247,
      "loss": 0.4424,
      "step": 1114
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.00021240876140476232,
      "loss": 0.6079,
      "step": 1115
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.0002122570896862526,
      "loss": 0.7619,
      "step": 1116
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.00021210534102915685,
      "loss": 0.466,
      "step": 1117
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.00021195351562100913,
      "loss": 0.4667,
      "step": 1118
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.00021180161364943851,
      "loss": 0.5287,
      "step": 1119
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.0002116496353021684,
      "loss": 0.5268,
      "step": 1120
    },
    {
      "epoch": 0.38,
      "learning_rate": 0.00021149758076701686,
      "loss": 0.3487,
      "step": 1121
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.00021134545023189594,
      "loss": 0.4494,
      "step": 1122
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.00021119324388481171,
      "loss": 0.4725,
      "step": 1123
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.00021104096191386384,
      "loss": 0.4399,
      "step": 1124
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.0002108886045072456,
      "loss": 0.4262,
      "step": 1125
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.0002107361718532433,
      "loss": 0.3885,
      "step": 1126
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.00021058366414023632,
      "loss": 0.3975,
      "step": 1127
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.00021043108155669693,
      "loss": 0.622,
      "step": 1128
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.00021027842429118972,
      "loss": 0.511,
      "step": 1129
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.00021012569253237164,
      "loss": 0.4162,
      "step": 1130
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.0002099728864689918,
      "loss": 0.5986,
      "step": 1131
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.00020982000628989107,
      "loss": 0.6124,
      "step": 1132
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.0002096670521840018,
      "loss": 0.3517,
      "step": 1133
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.0002095140243403479,
      "loss": 0.4382,
      "step": 1134
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.00020936092294804429,
      "loss": 0.5546,
      "step": 1135
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.0002092077481962968,
      "loss": 0.4811,
      "step": 1136
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.0002090545002744019,
      "loss": 0.5917,
      "step": 1137
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.00020890117937174654,
      "loss": 0.49,
      "step": 1138
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.00020874778567780785,
      "loss": 0.6523,
      "step": 1139
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.00020859431938215285,
      "loss": 0.5634,
      "step": 1140
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.00020844078067443835,
      "loss": 0.5388,
      "step": 1141
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.0002082871697444106,
      "loss": 0.454,
      "step": 1142
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.00020813348678190517,
      "loss": 0.5181,
      "step": 1143
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.00020797973197684666,
      "loss": 0.4951,
      "step": 1144
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.00020782590551924829,
      "loss": 0.5983,
      "step": 1145
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.00020767200759921203,
      "loss": 0.5261,
      "step": 1146
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.00020751803840692804,
      "loss": 0.3641,
      "step": 1147
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.0002073639981326746,
      "loss": 0.458,
      "step": 1148
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.00020720988696681786,
      "loss": 0.4035,
      "step": 1149
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.00020705570509981156,
      "loss": 0.5517,
      "step": 1150
    },
    {
      "epoch": 0.39,
      "learning_rate": 0.00020690145272219678,
      "loss": 0.4101,
      "step": 1151
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.00020674713002460178,
      "loss": 0.361,
      "step": 1152
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.00020659273719774167,
      "loss": 0.4652,
      "step": 1153
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.00020643827443241834,
      "loss": 0.35,
      "step": 1154
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.00020628374191952002,
      "loss": 0.4432,
      "step": 1155
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.0002061291398500211,
      "loss": 0.4285,
      "step": 1156
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.00020597446841498203,
      "loss": 0.5788,
      "step": 1157
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.0002058197278055489,
      "loss": 0.4904,
      "step": 1158
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.00020566491821295333,
      "loss": 0.5057,
      "step": 1159
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.00020551003982851226,
      "loss": 0.4318,
      "step": 1160
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.00020535509284362745,
      "loss": 0.4897,
      "step": 1161
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.00020520007744978565,
      "loss": 0.4268,
      "step": 1162
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.00020504499383855804,
      "loss": 0.5233,
      "step": 1163
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.00020488984220160005,
      "loss": 0.6569,
      "step": 1164
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.0002047346227306513,
      "loss": 0.4497,
      "step": 1165
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.00020457933561753524,
      "loss": 0.4438,
      "step": 1166
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.00020442398105415877,
      "loss": 0.5246,
      "step": 1167
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.00020426855923251228,
      "loss": 0.365,
      "step": 1168
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.0002041130703446693,
      "loss": 0.4598,
      "step": 1169
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.00020395751458278608,
      "loss": 0.4549,
      "step": 1170
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.00020380189213910164,
      "loss": 0.397,
      "step": 1171
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.0002036462032059375,
      "loss": 0.4586,
      "step": 1172
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.00020349044797569706,
      "loss": 0.5066,
      "step": 1173
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.00020333462664086588,
      "loss": 0.5636,
      "step": 1174
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.00020317873939401123,
      "loss": 0.5366,
      "step": 1175
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.00020302278642778164,
      "loss": 0.5457,
      "step": 1176
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.00020286676793490705,
      "loss": 0.4301,
      "step": 1177
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.00020271068410819836,
      "loss": 0.5679,
      "step": 1178
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.00020255453514054708,
      "loss": 0.5534,
      "step": 1179
    },
    {
      "epoch": 0.4,
      "learning_rate": 0.00020239832122492528,
      "loss": 0.5258,
      "step": 1180
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.00020224204255438538,
      "loss": 0.4654,
      "step": 1181
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.00020208569932205975,
      "loss": 0.7126,
      "step": 1182
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.0002019292917211605,
      "loss": 0.4666,
      "step": 1183
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.0002017728199449794,
      "loss": 0.5872,
      "step": 1184
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.00020161628418688749,
      "loss": 0.5354,
      "step": 1185
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.0002014596846403348,
      "loss": 0.5653,
      "step": 1186
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.00020130302149885031,
      "loss": 0.4915,
      "step": 1187
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.0002011462949560415,
      "loss": 0.3603,
      "step": 1188
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.00020098950520559426,
      "loss": 0.4112,
      "step": 1189
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.0002008326524412726,
      "loss": 0.356,
      "step": 1190
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.00020067573685691835,
      "loss": 0.346,
      "step": 1191
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.000200518758646451,
      "loss": 0.581,
      "step": 1192
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.00020036171800386744,
      "loss": 0.4067,
      "step": 1193
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.00020020461512324167,
      "loss": 0.4006,
      "step": 1194
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.00020004745019872473,
      "loss": 0.3602,
      "step": 1195
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.00019989022342454418,
      "loss": 0.4136,
      "step": 1196
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.00019973293499500413,
      "loss": 0.3702,
      "step": 1197
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.00019957558510448481,
      "loss": 0.5184,
      "step": 1198
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.0001994181739474425,
      "loss": 0.6588,
      "step": 1199
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.00019926070171840903,
      "loss": 0.4828,
      "step": 1200
    },
    {
      "epoch": 0.41,
      "eval_loss": 0.6046939492225647,
      "eval_runtime": 44.1922,
      "eval_samples_per_second": 2.127,
      "eval_steps_per_second": 0.272,
      "step": 1200
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.00019910316861199186,
      "loss": 0.3922,
      "step": 1201
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.00019894557482287367,
      "loss": 0.635,
      "step": 1202
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.00019878792054581204,
      "loss": 0.4022,
      "step": 1203
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.0001986302059756393,
      "loss": 0.4749,
      "step": 1204
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.00019847243130726247,
      "loss": 0.4881,
      "step": 1205
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.0001983145967356626,
      "loss": 0.5317,
      "step": 1206
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.00019815670245589494,
      "loss": 0.3978,
      "step": 1207
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.00019799874866308846,
      "loss": 0.5104,
      "step": 1208
    },
    {
      "epoch": 0.41,
      "learning_rate": 0.00019784073555244576,
      "loss": 0.6507,
      "step": 1209
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.00019768266331924257,
      "loss": 0.5614,
      "step": 1210
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.00019752453215882783,
      "loss": 0.4327,
      "step": 1211
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.0001973663422666233,
      "loss": 0.5064,
      "step": 1212
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.00019720809383812324,
      "loss": 0.3636,
      "step": 1213
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.00019704978706889433,
      "loss": 0.3383,
      "step": 1214
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.00019689142215457533,
      "loss": 0.4807,
      "step": 1215
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.00019673299929087677,
      "loss": 0.4033,
      "step": 1216
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.00019657451867358095,
      "loss": 0.6409,
      "step": 1217
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.0001964159804985414,
      "loss": 0.6076,
      "step": 1218
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.00019625738496168287,
      "loss": 0.4365,
      "step": 1219
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.00019609873225900099,
      "loss": 0.4629,
      "step": 1220
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.000195940022586562,
      "loss": 0.3701,
      "step": 1221
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.00019578125614050254,
      "loss": 0.4493,
      "step": 1222
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.0001956224331170295,
      "loss": 0.5841,
      "step": 1223
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.00019546355371241958,
      "loss": 0.4919,
      "step": 1224
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.00019530461812301914,
      "loss": 0.3903,
      "step": 1225
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.00019514562654524416,
      "loss": 0.4566,
      "step": 1226
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.00019498657917557964,
      "loss": 0.6623,
      "step": 1227
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.0001948274762105795,
      "loss": 0.3983,
      "step": 1228
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.00019466831784686653,
      "loss": 0.3905,
      "step": 1229
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.00019450910428113184,
      "loss": 0.3696,
      "step": 1230
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.00019434983571013485,
      "loss": 0.598,
      "step": 1231
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.0001941905123307029,
      "loss": 0.6128,
      "step": 1232
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.00019403113433973115,
      "loss": 0.3763,
      "step": 1233
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.00019387170193418206,
      "loss": 0.5008,
      "step": 1234
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.0001937122153110856,
      "loss": 0.3716,
      "step": 1235
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.0001935526746675385,
      "loss": 0.4757,
      "step": 1236
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.00019339308020070438,
      "loss": 0.4425,
      "step": 1237
    },
    {
      "epoch": 0.42,
      "learning_rate": 0.00019323343210781333,
      "loss": 0.5561,
      "step": 1238
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.0001930737305861618,
      "loss": 0.5258,
      "step": 1239
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.00019291397583311217,
      "loss": 0.359,
      "step": 1240
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.00019275416804609262,
      "loss": 0.4594,
      "step": 1241
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.00019259430742259683,
      "loss": 0.5084,
      "step": 1242
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.00019243439416018394,
      "loss": 0.4148,
      "step": 1243
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.000192274428456478,
      "loss": 0.5984,
      "step": 1244
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.00019211441050916782,
      "loss": 0.4113,
      "step": 1245
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.00019195434051600698,
      "loss": 0.3938,
      "step": 1246
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.00019179421867481316,
      "loss": 0.4744,
      "step": 1247
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.00019163404518346826,
      "loss": 0.4946,
      "step": 1248
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.00019147382023991793,
      "loss": 0.4145,
      "step": 1249
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.00019131354404217145,
      "loss": 0.4331,
      "step": 1250
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.00019115321678830145,
      "loss": 0.4463,
      "step": 1251
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.00019099283867644358,
      "loss": 0.4364,
      "step": 1252
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.00019083240990479646,
      "loss": 0.4395,
      "step": 1253
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.00019067193067162118,
      "loss": 0.4297,
      "step": 1254
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.00019051140117524128,
      "loss": 0.3547,
      "step": 1255
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.00019035082161404247,
      "loss": 0.6283,
      "step": 1256
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.00019019019218647216,
      "loss": 0.5627,
      "step": 1257
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.00019002951309103955,
      "loss": 0.5576,
      "step": 1258
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.00018986878452631513,
      "loss": 0.3725,
      "step": 1259
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.00018970800669093055,
      "loss": 0.5089,
      "step": 1260
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.0001895471797835783,
      "loss": 0.6293,
      "step": 1261
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.00018938630400301172,
      "loss": 0.6583,
      "step": 1262
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.00018922537954804426,
      "loss": 0.4718,
      "step": 1263
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.00018906440661754963,
      "loss": 0.369,
      "step": 1264
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.0001889033854104616,
      "loss": 0.3842,
      "step": 1265
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.0001887423161257734,
      "loss": 0.5641,
      "step": 1266
    },
    {
      "epoch": 0.43,
      "learning_rate": 0.00018858119896253772,
      "loss": 0.5492,
      "step": 1267
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.0001884200341198665,
      "loss": 0.4719,
      "step": 1268
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.00018825882179693057,
      "loss": 0.3937,
      "step": 1269
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.00018809756219295934,
      "loss": 0.3319,
      "step": 1270
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.0001879362555072408,
      "loss": 0.4886,
      "step": 1271
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.00018777490193912103,
      "loss": 0.3247,
      "step": 1272
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.00018761350168800407,
      "loss": 0.4634,
      "step": 1273
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.00018745205495335166,
      "loss": 0.4714,
      "step": 1274
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.00018729056193468298,
      "loss": 0.4833,
      "step": 1275
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.00018712902283157438,
      "loss": 0.3982,
      "step": 1276
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.0001869674378436593,
      "loss": 0.4703,
      "step": 1277
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.0001868058071706276,
      "loss": 0.5472,
      "step": 1278
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.0001866441310122259,
      "loss": 0.4247,
      "step": 1279
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.00018648240956825688,
      "loss": 0.6644,
      "step": 1280
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.00018632064303857924,
      "loss": 0.5111,
      "step": 1281
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.0001861588316231073,
      "loss": 0.334,
      "step": 1282
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.000185996975521811,
      "loss": 0.5448,
      "step": 1283
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.0001858350749347153,
      "loss": 0.4408,
      "step": 1284
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.0001856731300619004,
      "loss": 0.5509,
      "step": 1285
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.00018551114110350103,
      "loss": 0.4733,
      "step": 1286
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.00018534910825970645,
      "loss": 0.4445,
      "step": 1287
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.00018518703173076018,
      "loss": 0.5829,
      "step": 1288
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.00018502491171695968,
      "loss": 0.592,
      "step": 1289
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.00018486274841865622,
      "loss": 0.4245,
      "step": 1290
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.0001847005420362545,
      "loss": 0.5914,
      "step": 1291
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.00018453829277021257,
      "loss": 0.399,
      "step": 1292
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.0001843760008210413,
      "loss": 0.4049,
      "step": 1293
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.00018421366638930443,
      "loss": 0.4161,
      "step": 1294
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.00018405128967561817,
      "loss": 0.5219,
      "step": 1295
    },
    {
      "epoch": 0.44,
      "learning_rate": 0.00018388887088065099,
      "loss": 0.6465,
      "step": 1296
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.00018372641020512334,
      "loss": 0.4565,
      "step": 1297
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.00018356390784980754,
      "loss": 0.5067,
      "step": 1298
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.00018340136401552722,
      "loss": 0.3885,
      "step": 1299
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.00018323877890315742,
      "loss": 0.7378,
      "step": 1300
    },
    {
      "epoch": 0.45,
      "eval_loss": 0.5925070643424988,
      "eval_runtime": 40.8353,
      "eval_samples_per_second": 2.302,
      "eval_steps_per_second": 0.294,
      "step": 1300
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.00018307615271362417,
      "loss": 0.489,
      "step": 1301
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.0001829134856479042,
      "loss": 0.4898,
      "step": 1302
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.0001827507779070248,
      "loss": 0.4285,
      "step": 1303
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.0001825880296920636,
      "loss": 0.4186,
      "step": 1304
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.00018242524120414813,
      "loss": 0.4622,
      "step": 1305
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.00018226241264445573,
      "loss": 0.427,
      "step": 1306
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.00018209954421421326,
      "loss": 0.4338,
      "step": 1307
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.00018193663611469686,
      "loss": 0.3652,
      "step": 1308
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.0001817736885472317,
      "loss": 0.5128,
      "step": 1309
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.00018161070171319178,
      "loss": 0.5057,
      "step": 1310
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.0001814476758139995,
      "loss": 0.4519,
      "step": 1311
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.00018128461105112559,
      "loss": 0.4633,
      "step": 1312
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.00018112150762608886,
      "loss": 0.5325,
      "step": 1313
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.00018095836574045585,
      "loss": 0.3774,
      "step": 1314
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.00018079518559584062,
      "loss": 0.4805,
      "step": 1315
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.0001806319673939046,
      "loss": 0.378,
      "step": 1316
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.00018046871133635617,
      "loss": 0.6753,
      "step": 1317
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.0001803054176249504,
      "loss": 0.569,
      "step": 1318
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.00018014208646148914,
      "loss": 0.3185,
      "step": 1319
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.0001799787180478203,
      "loss": 0.5207,
      "step": 1320
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.00017981531258583794,
      "loss": 0.6344,
      "step": 1321
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.0001796518702774819,
      "loss": 0.3634,
      "step": 1322
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.0001794883913247375,
      "loss": 0.3569,
      "step": 1323
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.00017932487592963535,
      "loss": 0.4938,
      "step": 1324
    },
    {
      "epoch": 0.45,
      "learning_rate": 0.0001791613242942512,
      "loss": 0.6755,
      "step": 1325
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.0001789977366207054,
      "loss": 0.4402,
      "step": 1326
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.00017883411311116307,
      "loss": 0.4585,
      "step": 1327
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.00017867045396783343,
      "loss": 0.4511,
      "step": 1328
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.0001785067593929698,
      "loss": 0.3164,
      "step": 1329
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.00017834302958886925,
      "loss": 0.5077,
      "step": 1330
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.00017817926475787246,
      "loss": 0.5775,
      "step": 1331
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.00017801546510236342,
      "loss": 0.5173,
      "step": 1332
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.000177851630824769,
      "loss": 0.4467,
      "step": 1333
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.00017768776212755905,
      "loss": 0.3486,
      "step": 1334
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.0001775238592132458,
      "loss": 0.4262,
      "step": 1335
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.0001773599222843838,
      "loss": 0.4132,
      "step": 1336
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.0001771959515435697,
      "loss": 0.3423,
      "step": 1337
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.0001770319471934419,
      "loss": 0.4687,
      "step": 1338
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.00017686790943668033,
      "loss": 0.371,
      "step": 1339
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.00017670383847600622,
      "loss": 0.5693,
      "step": 1340
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.00017653973451418184,
      "loss": 0.5949,
      "step": 1341
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.00017637559775401013,
      "loss": 0.4593,
      "step": 1342
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.00017621142839833475,
      "loss": 0.5069,
      "step": 1343
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.00017604722665003956,
      "loss": 0.7185,
      "step": 1344
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.00017588299271204834,
      "loss": 0.6085,
      "step": 1345
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.0001757187267873249,
      "loss": 0.3973,
      "step": 1346
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.00017555442907887233,
      "loss": 0.2736,
      "step": 1347
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.0001753900997897331,
      "loss": 0.4717,
      "step": 1348
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.00017522573912298871,
      "loss": 0.2901,
      "step": 1349
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.00017506134728175954,
      "loss": 0.2871,
      "step": 1350
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.00017489692446920427,
      "loss": 0.4158,
      "step": 1351
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.00017473247088852005,
      "loss": 0.557,
      "step": 1352
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.00017456798674294195,
      "loss": 0.6454,
      "step": 1353
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.00017440347223574284,
      "loss": 0.3402,
      "step": 1354
    },
    {
      "epoch": 0.46,
      "learning_rate": 0.0001742389275702331,
      "loss": 0.5204,
      "step": 1355
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.00017407435294976046,
      "loss": 0.4848,
      "step": 1356
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.00017390974857770954,
      "loss": 0.3038,
      "step": 1357
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.00017374511465750183,
      "loss": 0.4549,
      "step": 1358
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.00017358045139259531,
      "loss": 0.6338,
      "step": 1359
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.00017341575898648415,
      "loss": 0.5428,
      "step": 1360
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.00017325103764269866,
      "loss": 0.4792,
      "step": 1361
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.00017308628756480484,
      "loss": 0.3916,
      "step": 1362
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.0001729215089564042,
      "loss": 0.3981,
      "step": 1363
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.00017275670202113354,
      "loss": 0.4197,
      "step": 1364
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.00017259186696266462,
      "loss": 0.5907,
      "step": 1365
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.00017242700398470393,
      "loss": 0.6453,
      "step": 1366
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.0001722621132909926,
      "loss": 0.5438,
      "step": 1367
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.00017209719508530592,
      "loss": 0.52,
      "step": 1368
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.0001719322495714531,
      "loss": 0.4846,
      "step": 1369
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.00017176727695327726,
      "loss": 0.5877,
      "step": 1370
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.00017160227743465492,
      "loss": 0.5786,
      "step": 1371
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.00017143725121949584,
      "loss": 0.5297,
      "step": 1372
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.00017127219851174283,
      "loss": 0.4883,
      "step": 1373
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.0001711071195153714,
      "loss": 0.4387,
      "step": 1374
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.00017094201443438955,
      "loss": 0.3458,
      "step": 1375
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.00017077688347283748,
      "loss": 0.5543,
      "step": 1376
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.00017061172683478752,
      "loss": 0.4456,
      "step": 1377
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.00017044654472434347,
      "loss": 0.398,
      "step": 1378
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.00017028133734564083,
      "loss": 0.5029,
      "step": 1379
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.0001701161049028464,
      "loss": 0.442,
      "step": 1380
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.00016995084760015758,
      "loss": 0.5208,
      "step": 1381
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.00016978556564180286,
      "loss": 0.5778,
      "step": 1382
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.0001696202592320411,
      "loss": 0.556,
      "step": 1383
    },
    {
      "epoch": 0.47,
      "learning_rate": 0.00016945492857516124,
      "loss": 0.2568,
      "step": 1384
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.00016928957387548236,
      "loss": 0.3445,
      "step": 1385
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.00016912419533735313,
      "loss": 0.2393,
      "step": 1386
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.00016895879316515183,
      "loss": 0.3628,
      "step": 1387
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.00016879336756328578,
      "loss": 0.6508,
      "step": 1388
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.00016862791873619131,
      "loss": 0.3833,
      "step": 1389
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.00016846244688833352,
      "loss": 0.5163,
      "step": 1390
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.00016829695222420586,
      "loss": 0.5595,
      "step": 1391
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.00016813143494833006,
      "loss": 0.3669,
      "step": 1392
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.00016796589526525576,
      "loss": 0.3665,
      "step": 1393
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.00016780033337956024,
      "loss": 0.4014,
      "step": 1394
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.0001676347494958483,
      "loss": 0.3488,
      "step": 1395
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.00016746914381875197,
      "loss": 0.5459,
      "step": 1396
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.00016730351655292995,
      "loss": 0.2921,
      "step": 1397
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.000167137867903068,
      "loss": 0.4013,
      "step": 1398
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.000166972198073878,
      "loss": 0.4862,
      "step": 1399
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.00016680650727009816,
      "loss": 0.4011,
      "step": 1400
    },
    {
      "epoch": 0.48,
      "eval_loss": 0.5781244039535522,
      "eval_runtime": 44.1346,
      "eval_samples_per_second": 2.13,
      "eval_steps_per_second": 0.272,
      "step": 1400
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.00016664079569649252,
      "loss": 0.4767,
      "step": 1401
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.00016647506355785093,
      "loss": 0.234,
      "step": 1402
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.00016630931105898842,
      "loss": 0.3913,
      "step": 1403
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.0001661435384047454,
      "loss": 0.3018,
      "step": 1404
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.0001659777457999872,
      "loss": 0.4769,
      "step": 1405
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.00016581193344960358,
      "loss": 0.5222,
      "step": 1406
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.00016564610155850887,
      "loss": 0.8064,
      "step": 1407
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.00016548025033164156,
      "loss": 0.3039,
      "step": 1408
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.00016531437997396395,
      "loss": 0.3813,
      "step": 1409
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.000165148490690462,
      "loss": 0.487,
      "step": 1410
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.00016498258268614514,
      "loss": 0.426,
      "step": 1411
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.0001648166561660459,
      "loss": 0.4284,
      "step": 1412
    },
    {
      "epoch": 0.48,
      "learning_rate": 0.00016465071133521956,
      "loss": 0.4463,
      "step": 1413
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.00016448474839874427,
      "loss": 0.3602,
      "step": 1414
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.0001643187675617203,
      "loss": 0.4251,
      "step": 1415
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.00016415276902927023,
      "loss": 0.5123,
      "step": 1416
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.0001639867530065385,
      "loss": 0.4008,
      "step": 1417
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.00016382071969869104,
      "loss": 0.5171,
      "step": 1418
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.0001636546693109152,
      "loss": 0.522,
      "step": 1419
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.00016348860204841946,
      "loss": 0.6818,
      "step": 1420
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.0001633225181164332,
      "loss": 0.5744,
      "step": 1421
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.00016315641772020624,
      "loss": 0.5936,
      "step": 1422
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.00016299030106500895,
      "loss": 0.4221,
      "step": 1423
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.00016282416835613166,
      "loss": 0.503,
      "step": 1424
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.0001626580197988845,
      "loss": 0.3853,
      "step": 1425
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.0001624918555985974,
      "loss": 0.3614,
      "step": 1426
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.00016232567596061938,
      "loss": 0.3695,
      "step": 1427
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.00016215948109031861,
      "loss": 0.3247,
      "step": 1428
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.00016199327119308224,
      "loss": 0.4267,
      "step": 1429
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.0001618270464743158,
      "loss": 0.3649,
      "step": 1430
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.0001616608071394431,
      "loss": 0.3879,
      "step": 1431
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.00016149455339390628,
      "loss": 0.5355,
      "step": 1432
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.00016132828544316503,
      "loss": 0.529,
      "step": 1433
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.00016116200349269668,
      "loss": 0.4489,
      "step": 1434
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.0001609957077479959,
      "loss": 0.3879,
      "step": 1435
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.00016082939841457442,
      "loss": 0.6091,
      "step": 1436
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.00016066307569796058,
      "loss": 0.502,
      "step": 1437
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.00016049673980369957,
      "loss": 0.4611,
      "step": 1438
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.00016033039093735256,
      "loss": 0.3895,
      "step": 1439
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.00016016402930449692,
      "loss": 0.5718,
      "step": 1440
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.00015999765511072583,
      "loss": 0.593,
      "step": 1441
    },
    {
      "epoch": 0.49,
      "learning_rate": 0.00015983126856164786,
      "loss": 0.4533,
      "step": 1442
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.0001596648698628869,
      "loss": 0.5625,
      "step": 1443
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.00015949845922008193,
      "loss": 0.5293,
      "step": 1444
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.00015933203683888655,
      "loss": 0.4429,
      "step": 1445
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.00015916560292496897,
      "loss": 0.6511,
      "step": 1446
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.0001589991576840117,
      "loss": 0.4789,
      "step": 1447
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.00015883270132171113,
      "loss": 0.4096,
      "step": 1448
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.0001586662340437774,
      "loss": 0.5858,
      "step": 1449
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.00015849975605593424,
      "loss": 0.4285,
      "step": 1450
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.00015833326756391848,
      "loss": 0.4923,
      "step": 1451
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.00015816676877348007,
      "loss": 0.5171,
      "step": 1452
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.00015800025989038164,
      "loss": 0.4806,
      "step": 1453
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.00015783374112039825,
      "loss": 0.4074,
      "step": 1454
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.00015766721266931717,
      "loss": 0.4718,
      "step": 1455
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.00015750067474293774,
      "loss": 0.4898,
      "step": 1456
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.00015733412754707088,
      "loss": 0.4816,
      "step": 1457
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.00015716757128753903,
      "loss": 0.4769,
      "step": 1458
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.00015700100617017587,
      "loss": 0.442,
      "step": 1459
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.00015683443240082598,
      "loss": 0.5347,
      "step": 1460
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.00015666785018534453,
      "loss": 0.349,
      "step": 1461
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.00015650125972959737,
      "loss": 0.424,
      "step": 1462
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.0001563346612394603,
      "loss": 0.5739,
      "step": 1463
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.00015616805492081915,
      "loss": 0.4856,
      "step": 1464
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.00015600144097956952,
      "loss": 0.4305,
      "step": 1465
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.00015583481962161625,
      "loss": 0.3032,
      "step": 1466
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.0001556681910528734,
      "loss": 0.4085,
      "step": 1467
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.00015550155547926404,
      "loss": 0.4391,
      "step": 1468
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.00015533491310671974,
      "loss": 0.4209,
      "step": 1469
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.0001551682641411806,
      "loss": 0.3099,
      "step": 1470
    },
    {
      "epoch": 0.5,
      "learning_rate": 0.00015500160878859488,
      "loss": 0.4646,
      "step": 1471
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.0001548349472549186,
      "loss": 0.5262,
      "step": 1472
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.00015466827974611546,
      "loss": 0.3068,
      "step": 1473
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.0001545016064681567,
      "loss": 0.3909,
      "step": 1474
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.00015433492762702048,
      "loss": 0.3435,
      "step": 1475
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.0001541682434286919,
      "loss": 0.3882,
      "step": 1476
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.00015400155407916283,
      "loss": 0.6733,
      "step": 1477
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.0001538348597844313,
      "loss": 0.4164,
      "step": 1478
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.0001536681607505015,
      "loss": 0.3965,
      "step": 1479
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.00015350145718338358,
      "loss": 0.424,
      "step": 1480
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.00015333474928909318,
      "loss": 0.2654,
      "step": 1481
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.00015316803727365128,
      "loss": 0.3097,
      "step": 1482
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.00015300132134308413,
      "loss": 0.4852,
      "step": 1483
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.00015283460170342262,
      "loss": 0.4558,
      "step": 1484
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.00015266787856070226,
      "loss": 0.364,
      "step": 1485
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.00015250115212096294,
      "loss": 0.5877,
      "step": 1486
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.00015233442259024864,
      "loss": 0.4278,
      "step": 1487
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.0001521676901746071,
      "loss": 0.3075,
      "step": 1488
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.00015200095508008968,
      "loss": 0.4777,
      "step": 1489
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.00015183421751275103,
      "loss": 0.4187,
      "step": 1490
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.00015166747767864878,
      "loss": 0.4746,
      "step": 1491
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.00015150073578384352,
      "loss": 0.2741,
      "step": 1492
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.0001513339920343982,
      "loss": 0.4837,
      "step": 1493
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.00015116724663637822,
      "loss": 0.3492,
      "step": 1494
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.00015100049979585098,
      "loss": 0.3666,
      "step": 1495
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.0001508337517188856,
      "loss": 0.5939,
      "step": 1496
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.00015066700261155276,
      "loss": 0.4521,
      "step": 1497
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.00015050025267992448,
      "loss": 0.3984,
      "step": 1498
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.00015033350213007366,
      "loss": 0.4296,
      "step": 1499
    },
    {
      "epoch": 0.51,
      "learning_rate": 0.00015016675116807406,
      "loss": 0.4249,
      "step": 1500
    },
    {
      "epoch": 0.51,
      "eval_loss": 0.5731541514396667,
      "eval_runtime": 42.5604,
      "eval_samples_per_second": 2.209,
      "eval_steps_per_second": 0.282,
      "step": 1500
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.00015,
      "loss": 0.5508,
      "step": 1501
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.00014983324883192592,
      "loss": 0.6388,
      "step": 1502
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.00014966649786992637,
      "loss": 0.4196,
      "step": 1503
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.00014949974732007552,
      "loss": 0.3831,
      "step": 1504
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.00014933299738844718,
      "loss": 0.5383,
      "step": 1505
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.0001491662482811144,
      "loss": 0.7318,
      "step": 1506
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.00014899950020414902,
      "loss": 0.5009,
      "step": 1507
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.00014883275336362176,
      "loss": 0.4672,
      "step": 1508
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.00014866600796560183,
      "loss": 0.43,
      "step": 1509
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.00014849926421615648,
      "loss": 0.3017,
      "step": 1510
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.0001483325223213512,
      "loss": 0.5689,
      "step": 1511
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.000148165782487249,
      "loss": 0.3416,
      "step": 1512
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.0001479990449199103,
      "loss": 0.4645,
      "step": 1513
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.00014783230982539286,
      "loss": 0.5418,
      "step": 1514
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.00014766557740975136,
      "loss": 0.3637,
      "step": 1515
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.00014749884787903703,
      "loss": 0.6357,
      "step": 1516
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.0001473321214392977,
      "loss": 0.4283,
      "step": 1517
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.0001471653982965774,
      "loss": 0.4144,
      "step": 1518
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.00014699867865691587,
      "loss": 0.4741,
      "step": 1519
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.00014683196272634866,
      "loss": 0.3596,
      "step": 1520
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.00014666525071090682,
      "loss": 0.4691,
      "step": 1521
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.0001464985428166164,
      "loss": 0.3523,
      "step": 1522
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.00014633183924949843,
      "loss": 0.4222,
      "step": 1523
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.00014616514021556872,
      "loss": 0.5764,
      "step": 1524
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.00014599844592083714,
      "loss": 0.5802,
      "step": 1525
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.00014583175657130804,
      "loss": 0.4971,
      "step": 1526
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.00014566507237297953,
      "loss": 0.3704,
      "step": 1527
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.00014549839353184327,
      "loss": 0.3907,
      "step": 1528
    },
    {
      "epoch": 0.52,
      "learning_rate": 0.00014533172025388448,
      "loss": 0.4357,
      "step": 1529
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.00014516505274508144,
      "loss": 0.3982,
      "step": 1530
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.00014499839121140512,
      "loss": 0.4627,
      "step": 1531
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.00014483173585881935,
      "loss": 0.5102,
      "step": 1532
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.00014466508689328026,
      "loss": 0.5099,
      "step": 1533
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.00014449844452073596,
      "loss": 0.5613,
      "step": 1534
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.00014433180894712658,
      "loss": 0.4886,
      "step": 1535
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.00014416518037838378,
      "loss": 0.3541,
      "step": 1536
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.00014399855902043048,
      "loss": 0.4182,
      "step": 1537
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.0001438319450791808,
      "loss": 0.2952,
      "step": 1538
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.0001436653387605397,
      "loss": 0.3435,
      "step": 1539
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.00014349874027040264,
      "loss": 0.4614,
      "step": 1540
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.00014333214981465542,
      "loss": 0.4223,
      "step": 1541
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.00014316556759917407,
      "loss": 0.4979,
      "step": 1542
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.0001429989938298241,
      "loss": 0.5056,
      "step": 1543
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.00014283242871246092,
      "loss": 0.3807,
      "step": 1544
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.00014266587245292912,
      "loss": 0.3682,
      "step": 1545
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.00014249932525706223,
      "loss": 0.4216,
      "step": 1546
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.00014233278733068278,
      "loss": 0.3893,
      "step": 1547
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.00014216625887960175,
      "loss": 0.4885,
      "step": 1548
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.00014199974010961833,
      "loss": 0.4885,
      "step": 1549
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.0001418332312265199,
      "loss": 0.4155,
      "step": 1550
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.00014166673243608152,
      "loss": 0.5119,
      "step": 1551
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.00014150024394406576,
      "loss": 0.4486,
      "step": 1552
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.00014133376595622257,
      "loss": 0.2808,
      "step": 1553
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.0001411672986782889,
      "loss": 0.5685,
      "step": 1554
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.0001410008423159883,
      "loss": 0.3346,
      "step": 1555
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.00014083439707503098,
      "loss": 0.4051,
      "step": 1556
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.00014066796316111347,
      "loss": 0.5489,
      "step": 1557
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.0001405015407799181,
      "loss": 0.5423,
      "step": 1558
    },
    {
      "epoch": 0.53,
      "learning_rate": 0.00014033513013711309,
      "loss": 0.5364,
      "step": 1559
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.00014016873143835216,
      "loss": 0.5531,
      "step": 1560
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.00014000234488927417,
      "loss": 0.4472,
      "step": 1561
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.00013983597069550303,
      "loss": 0.4227,
      "step": 1562
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.00013966960906264744,
      "loss": 0.2913,
      "step": 1563
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.00013950326019630043,
      "loss": 0.3994,
      "step": 1564
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.00013933692430203936,
      "loss": 0.3916,
      "step": 1565
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.0001391706015854256,
      "loss": 0.3418,
      "step": 1566
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.00013900429225200406,
      "loss": 0.4389,
      "step": 1567
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.0001388379965073033,
      "loss": 0.4604,
      "step": 1568
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.00013867171455683497,
      "loss": 0.4554,
      "step": 1569
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.0001385054466060937,
      "loss": 0.5747,
      "step": 1570
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.00013833919286055683,
      "loss": 0.3472,
      "step": 1571
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.00013817295352568424,
      "loss": 0.4248,
      "step": 1572
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.00013800672880691774,
      "loss": 0.3337,
      "step": 1573
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.00013784051890968133,
      "loss": 0.4086,
      "step": 1574
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.00013767432403938062,
      "loss": 0.5777,
      "step": 1575
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.0001375081444014026,
      "loss": 0.5148,
      "step": 1576
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.00013734198020111542,
      "loss": 0.3039,
      "step": 1577
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.00013717583164386837,
      "loss": 0.4506,
      "step": 1578
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.00013700969893499105,
      "loss": 0.428,
      "step": 1579
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.00013684358227979374,
      "loss": 0.5519,
      "step": 1580
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.00013667748188356683,
      "loss": 0.4485,
      "step": 1581
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.0001365113979515805,
      "loss": 0.4485,
      "step": 1582
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.00013634533068908477,
      "loss": 0.552,
      "step": 1583
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.000136179280301309,
      "loss": 0.2752,
      "step": 1584
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.00013601324699346148,
      "loss": 0.6073,
      "step": 1585
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.0001358472309707297,
      "loss": 0.3374,
      "step": 1586
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.0001356812324382797,
      "loss": 0.5058,
      "step": 1587
    },
    {
      "epoch": 0.54,
      "learning_rate": 0.0001355152516012557,
      "loss": 0.613,
      "step": 1588
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.0001353492886647804,
      "loss": 0.4631,
      "step": 1589
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.00013518334383395413,
      "loss": 0.3587,
      "step": 1590
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.00013501741731385483,
      "loss": 0.4609,
      "step": 1591
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.00013485150930953797,
      "loss": 0.5323,
      "step": 1592
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.00013468562002603605,
      "loss": 0.4028,
      "step": 1593
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.00013451974966835844,
      "loss": 0.4828,
      "step": 1594
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.00013435389844149108,
      "loss": 0.3825,
      "step": 1595
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.00013418806655039642,
      "loss": 0.3428,
      "step": 1596
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.0001340222542000128,
      "loss": 0.4902,
      "step": 1597
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.00013385646159525452,
      "loss": 0.3663,
      "step": 1598
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.00013369068894101156,
      "loss": 0.3674,
      "step": 1599
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.00013352493644214908,
      "loss": 0.419,
      "step": 1600
    },
    {
      "epoch": 0.55,
      "eval_loss": 0.5594149827957153,
      "eval_runtime": 41.1339,
      "eval_samples_per_second": 2.285,
      "eval_steps_per_second": 0.292,
      "step": 1600
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.00013335920430350743,
      "loss": 0.3936,
      "step": 1601
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.00013319349272990187,
      "loss": 0.4117,
      "step": 1602
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.000133027801926122,
      "loss": 0.421,
      "step": 1603
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.00013286213209693197,
      "loss": 0.4184,
      "step": 1604
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.00013269648344707002,
      "loss": 0.3541,
      "step": 1605
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.00013253085618124806,
      "loss": 0.3324,
      "step": 1606
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.00013236525050415164,
      "loss": 0.5047,
      "step": 1607
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.00013219966662043976,
      "loss": 0.2855,
      "step": 1608
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.00013203410473474424,
      "loss": 0.4222,
      "step": 1609
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.00013186856505166992,
      "loss": 0.4854,
      "step": 1610
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.0001317030477757941,
      "loss": 0.6431,
      "step": 1611
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.00013153755311166645,
      "loss": 0.3602,
      "step": 1612
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.00013137208126380863,
      "loss": 0.4315,
      "step": 1613
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.00013120663243671422,
      "loss": 0.5401,
      "step": 1614
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.00013104120683484817,
      "loss": 0.5599,
      "step": 1615
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.00013087580466264684,
      "loss": 0.3919,
      "step": 1616
    },
    {
      "epoch": 0.55,
      "learning_rate": 0.00013071042612451764,
      "loss": 0.3148,
      "step": 1617
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.00013054507142483873,
      "loss": 0.3737,
      "step": 1618
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.00013037974076795887,
      "loss": 0.5114,
      "step": 1619
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.00013021443435819714,
      "loss": 0.5492,
      "step": 1620
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.00013004915239984242,
      "loss": 0.4504,
      "step": 1621
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.0001298838950971536,
      "loss": 0.3798,
      "step": 1622
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.00012971866265435914,
      "loss": 0.4598,
      "step": 1623
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.00012955345527565653,
      "loss": 0.4771,
      "step": 1624
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.00012938827316521248,
      "loss": 0.5097,
      "step": 1625
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.00012922311652716252,
      "loss": 0.4887,
      "step": 1626
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.00012905798556561045,
      "loss": 0.336,
      "step": 1627
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.0001288928804846286,
      "loss": 0.4535,
      "step": 1628
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.00012872780148825717,
      "loss": 0.4428,
      "step": 1629
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.00012856274878050416,
      "loss": 0.4184,
      "step": 1630
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.00012839772256534508,
      "loss": 0.3044,
      "step": 1631
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.00012823272304672277,
      "loss": 0.5907,
      "step": 1632
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.00012806775042854693,
      "loss": 0.5426,
      "step": 1633
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.0001279028049146941,
      "loss": 0.4605,
      "step": 1634
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.0001277378867090074,
      "loss": 0.503,
      "step": 1635
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.00012757299601529604,
      "loss": 0.4566,
      "step": 1636
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.00012740813303733538,
      "loss": 0.4098,
      "step": 1637
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.0001272432979788665,
      "loss": 0.4013,
      "step": 1638
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.0001270784910435958,
      "loss": 0.3566,
      "step": 1639
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.00012691371243519513,
      "loss": 0.3446,
      "step": 1640
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.0001267489623573013,
      "loss": 0.4368,
      "step": 1641
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.00012658424101351582,
      "loss": 0.3772,
      "step": 1642
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.0001264195486074047,
      "loss": 0.4197,
      "step": 1643
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.0001262548853424982,
      "loss": 0.2388,
      "step": 1644
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.00012609025142229047,
      "loss": 0.4467,
      "step": 1645
    },
    {
      "epoch": 0.56,
      "learning_rate": 0.00012592564705023954,
      "loss": 0.5184,
      "step": 1646
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.00012576107242976691,
      "loss": 0.4104,
      "step": 1647
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.0001255965277642572,
      "loss": 0.4689,
      "step": 1648
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.00012543201325705805,
      "loss": 0.4406,
      "step": 1649
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.00012526752911148,
      "loss": 0.4428,
      "step": 1650
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.00012510307553079573,
      "loss": 0.4007,
      "step": 1651
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.00012493865271824046,
      "loss": 0.3591,
      "step": 1652
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.00012477426087701126,
      "loss": 0.3743,
      "step": 1653
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.0001246099002102669,
      "loss": 0.442,
      "step": 1654
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.00012444557092112767,
      "loss": 0.3433,
      "step": 1655
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.00012428127321267512,
      "loss": 0.3624,
      "step": 1656
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.00012411700728795163,
      "loss": 0.436,
      "step": 1657
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.00012395277334996044,
      "loss": 0.6102,
      "step": 1658
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.00012378857160166525,
      "loss": 0.3218,
      "step": 1659
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.00012362440224598985,
      "loss": 0.5875,
      "step": 1660
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.00012346026548581816,
      "loss": 0.38,
      "step": 1661
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.0001232961615239938,
      "loss": 0.4566,
      "step": 1662
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.00012313209056331967,
      "loss": 0.4648,
      "step": 1663
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.00012296805280655808,
      "loss": 0.4481,
      "step": 1664
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.00012280404845643031,
      "loss": 0.3506,
      "step": 1665
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.0001226400777156162,
      "loss": 0.5479,
      "step": 1666
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.00012247614078675421,
      "loss": 0.3699,
      "step": 1667
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.00012231223787244097,
      "loss": 0.4458,
      "step": 1668
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.00012214836917523098,
      "loss": 0.5038,
      "step": 1669
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.00012198453489763655,
      "loss": 0.267,
      "step": 1670
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.00012182073524212751,
      "loss": 0.2604,
      "step": 1671
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.00012165697041113074,
      "loss": 0.3206,
      "step": 1672
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.0001214932406070302,
      "loss": 0.3514,
      "step": 1673
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.0001213295460321666,
      "loss": 0.4482,
      "step": 1674
    },
    {
      "epoch": 0.57,
      "learning_rate": 0.00012116588688883694,
      "loss": 0.353,
      "step": 1675
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.00012100226337929457,
      "loss": 0.4794,
      "step": 1676
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.00012083867570574882,
      "loss": 0.258,
      "step": 1677
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.00012067512407036464,
      "loss": 0.4099,
      "step": 1678
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.0001205116086752625,
      "loss": 0.5591,
      "step": 1679
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.00012034812972251813,
      "loss": 0.386,
      "step": 1680
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.00012018468741416206,
      "loss": 0.3978,
      "step": 1681
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.0001200212819521797,
      "loss": 0.3742,
      "step": 1682
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.00011985791353851088,
      "loss": 0.5838,
      "step": 1683
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.00011969458237504959,
      "loss": 0.424,
      "step": 1684
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.00011953128866364384,
      "loss": 0.5038,
      "step": 1685
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.00011936803260609541,
      "loss": 0.5623,
      "step": 1686
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.00011920481440415935,
      "loss": 0.5051,
      "step": 1687
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.00011904163425954414,
      "loss": 0.4436,
      "step": 1688
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.00011887849237391114,
      "loss": 0.523,
      "step": 1689
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.00011871538894887441,
      "loss": 0.388,
      "step": 1690
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.0001185523241860005,
      "loss": 0.5356,
      "step": 1691
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.00011838929828680825,
      "loss": 0.6201,
      "step": 1692
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.00011822631145276827,
      "loss": 0.4317,
      "step": 1693
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.00011806336388530311,
      "loss": 0.5542,
      "step": 1694
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.00011790045578578676,
      "loss": 0.4322,
      "step": 1695
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.00011773758735554428,
      "loss": 0.5318,
      "step": 1696
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.00011757475879585185,
      "loss": 0.3518,
      "step": 1697
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.00011741197030793642,
      "loss": 0.3157,
      "step": 1698
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.00011724922209297518,
      "loss": 0.3755,
      "step": 1699
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.00011708651435209581,
      "loss": 0.5274,
      "step": 1700
    },
    {
      "epoch": 0.58,
      "eval_loss": 0.5442139506340027,
      "eval_runtime": 40.7053,
      "eval_samples_per_second": 2.309,
      "eval_steps_per_second": 0.295,
      "step": 1700
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.00011692384728637584,
      "loss": 0.5368,
      "step": 1701
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.00011676122109684258,
      "loss": 0.3253,
      "step": 1702
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.00011659863598447277,
      "loss": 0.3422,
      "step": 1703
    },
    {
      "epoch": 0.58,
      "learning_rate": 0.0001164360921501925,
      "loss": 0.4645,
      "step": 1704
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.00011627358979487665,
      "loss": 0.4882,
      "step": 1705
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.00011611112911934902,
      "loss": 0.5611,
      "step": 1706
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.00011594871032438184,
      "loss": 0.5513,
      "step": 1707
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.00011578633361069557,
      "loss": 0.5349,
      "step": 1708
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.00011562399917895868,
      "loss": 0.4183,
      "step": 1709
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.00011546170722978745,
      "loss": 0.3701,
      "step": 1710
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.00011529945796374547,
      "loss": 0.4819,
      "step": 1711
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.00011513725158134378,
      "loss": 0.4886,
      "step": 1712
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.00011497508828304033,
      "loss": 0.4367,
      "step": 1713
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.00011481296826923984,
      "loss": 0.2661,
      "step": 1714
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.00011465089174029354,
      "loss": 0.4878,
      "step": 1715
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.00011448885889649901,
      "loss": 0.3205,
      "step": 1716
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.00011432686993809961,
      "loss": 0.4916,
      "step": 1717
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.00011416492506528467,
      "loss": 0.4158,
      "step": 1718
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.00011400302447818903,
      "loss": 0.5335,
      "step": 1719
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.00011384116837689269,
      "loss": 0.4429,
      "step": 1720
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.00011367935696142074,
      "loss": 0.363,
      "step": 1721
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.00011351759043174312,
      "loss": 0.3717,
      "step": 1722
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.0001133558689877741,
      "loss": 0.3544,
      "step": 1723
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.00011319419282937237,
      "loss": 0.4965,
      "step": 1724
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.00011303256215634074,
      "loss": 0.406,
      "step": 1725
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.0001128709771684256,
      "loss": 0.3575,
      "step": 1726
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.000112709438065317,
      "loss": 0.3633,
      "step": 1727
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.00011254794504664836,
      "loss": 0.3637,
      "step": 1728
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.00011238649831199595,
      "loss": 0.5539,
      "step": 1729
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.00011222509806087897,
      "loss": 0.4199,
      "step": 1730
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.0001120637444927592,
      "loss": 0.4724,
      "step": 1731
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.00011190243780704066,
      "loss": 0.5034,
      "step": 1732
    },
    {
      "epoch": 0.59,
      "learning_rate": 0.00011174117820306942,
      "loss": 0.4493,
      "step": 1733
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.00011157996588013352,
      "loss": 0.389,
      "step": 1734
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.0001114188010374623,
      "loss": 0.5219,
      "step": 1735
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.00011125768387422663,
      "loss": 0.4755,
      "step": 1736
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.00011109661458953838,
      "loss": 0.5384,
      "step": 1737
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.00011093559338245033,
      "loss": 0.5186,
      "step": 1738
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.00011077462045195576,
      "loss": 0.5765,
      "step": 1739
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.00011061369599698827,
      "loss": 0.3957,
      "step": 1740
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.00011045282021642168,
      "loss": 0.3677,
      "step": 1741
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.00011029199330906947,
      "loss": 0.4249,
      "step": 1742
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.00011013121547368485,
      "loss": 0.5172,
      "step": 1743
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.00010997048690896045,
      "loss": 0.5029,
      "step": 1744
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.00010980980781352781,
      "loss": 0.443,
      "step": 1745
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.0001096491783859575,
      "loss": 0.4412,
      "step": 1746
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.00010948859882475872,
      "loss": 0.5008,
      "step": 1747
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.00010932806932837883,
      "loss": 0.4413,
      "step": 1748
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.00010916759009520354,
      "loss": 0.5399,
      "step": 1749
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.0001090071613235564,
      "loss": 0.4863,
      "step": 1750
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.00010884678321169853,
      "loss": 0.4218,
      "step": 1751
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.00010868645595782851,
      "loss": 0.5564,
      "step": 1752
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.00010852617976008209,
      "loss": 0.4584,
      "step": 1753
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.00010836595481653176,
      "loss": 0.3803,
      "step": 1754
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.00010820578132518683,
      "loss": 0.408,
      "step": 1755
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.00010804565948399304,
      "loss": 0.5216,
      "step": 1756
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.00010788558949083215,
      "loss": 0.3368,
      "step": 1757
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.000107725571543522,
      "loss": 0.5808,
      "step": 1758
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.00010756560583981608,
      "loss": 0.4592,
      "step": 1759
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.00010740569257740315,
      "loss": 0.4382,
      "step": 1760
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.0001072458319539074,
      "loss": 0.4876,
      "step": 1761
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.00010708602416688784,
      "loss": 0.2909,
      "step": 1762
    },
    {
      "epoch": 0.6,
      "learning_rate": 0.00010692626941383816,
      "loss": 0.458,
      "step": 1763
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.0001067665678921866,
      "loss": 0.3293,
      "step": 1764
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.00010660691979929564,
      "loss": 0.2538,
      "step": 1765
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.00010644732533246151,
      "loss": 0.4031,
      "step": 1766
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.0001062877846889144,
      "loss": 0.5683,
      "step": 1767
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.0001061282980658179,
      "loss": 0.3976,
      "step": 1768
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.00010596886566026884,
      "loss": 0.4684,
      "step": 1769
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.00010580948766929704,
      "loss": 0.3313,
      "step": 1770
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.00010565016428986515,
      "loss": 0.2864,
      "step": 1771
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.00010549089571886816,
      "loss": 0.3531,
      "step": 1772
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.00010533168215313347,
      "loss": 0.2513,
      "step": 1773
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.00010517252378942052,
      "loss": 0.4231,
      "step": 1774
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.00010501342082442037,
      "loss": 0.3476,
      "step": 1775
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.00010485437345475579,
      "loss": 0.539,
      "step": 1776
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.00010469538187698086,
      "loss": 0.4034,
      "step": 1777
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.00010453644628758044,
      "loss": 0.4925,
      "step": 1778
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.00010437756688297046,
      "loss": 0.4757,
      "step": 1779
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.00010421874385949742,
      "loss": 0.3638,
      "step": 1780
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.00010405997741343796,
      "loss": 0.5485,
      "step": 1781
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.00010390126774099895,
      "loss": 0.462,
      "step": 1782
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.00010374261503831713,
      "loss": 0.3738,
      "step": 1783
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.0001035840195014586,
      "loss": 0.3819,
      "step": 1784
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.00010342548132641905,
      "loss": 0.7369,
      "step": 1785
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.00010326700070912323,
      "loss": 0.4819,
      "step": 1786
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.00010310857784542467,
      "loss": 0.4272,
      "step": 1787
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.00010295021293110563,
      "loss": 0.5243,
      "step": 1788
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.00010279190616187678,
      "loss": 0.4247,
      "step": 1789
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.00010263365773337669,
      "loss": 0.4689,
      "step": 1790
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.00010247546784117213,
      "loss": 0.3305,
      "step": 1791
    },
    {
      "epoch": 0.61,
      "learning_rate": 0.00010231733668075743,
      "loss": 0.3804,
      "step": 1792
    },
    {
      "epoch": 0.62,
      "learning_rate": 0.00010215926444755422,
      "loss": 0.404,
      "step": 1793
    },
    {
      "epoch": 0.62,
      "learning_rate": 0.00010200125133691148,
      "loss": 0.4544,
      "step": 1794
    },
    {
      "epoch": 0.62,
      "learning_rate": 0.00010184329754410506,
      "loss": 0.2986,
      "step": 1795
    },
    {
      "epoch": 0.62,
      "learning_rate": 0.00010168540326433741,
      "loss": 0.5312,
      "step": 1796
    },
    {
      "epoch": 0.62,
      "learning_rate": 0.00010152756869273753,
      "loss": 0.431,
      "step": 1797
    },
    {
      "epoch": 0.62,
      "learning_rate": 0.00010136979402436068,
      "loss": 0.5174,
      "step": 1798
    },
    {
      "epoch": 0.62,
      "learning_rate": 0.00010121207945418797,
      "loss": 0.4233,
      "step": 1799
    },
    {
      "epoch": 0.62,
      "learning_rate": 0.00010105442517712628,
      "loss": 0.4974,
      "step": 1800
    },
    {
      "epoch": 0.62,
      "eval_loss": 0.5371314287185669,
      "eval_runtime": 41.0621,
      "eval_samples_per_second": 2.289,
      "eval_steps_per_second": 0.292,
      "step": 1800
    },
    {
      "epoch": 0.62,
      "learning_rate": 0.00010089683138800811,
      "loss": 0.571,
      "step": 1801
    },
    {
      "epoch": 0.62,
      "learning_rate": 0.00010073929828159095,
      "loss": 0.4324,
      "step": 1802
    },
    {
      "epoch": 0.62,
      "learning_rate": 0.00010058182605255748,
      "loss": 0.4932,
      "step": 1803
    },
    {
      "epoch": 0.62,
      "learning_rate": 0.00010042441489551516,
      "loss": 0.2968,
      "step": 1804
    },
    {
      "epoch": 0.62,
      "learning_rate": 0.00010026706500499583,
      "loss": 0.3899,
      "step": 1805
    },
    {
      "epoch": 0.62,
      "learning_rate": 0.00010010977657545577,
      "loss": 0.2888,
      "step": 1806
    },
    {
      "epoch": 0.62,
      "learning_rate": 9.995254980127529e-05,
      "loss": 0.4054,
      "step": 1807
    },
    {
      "epoch": 0.62,
      "learning_rate": 9.979538487675833e-05,
      "loss": 0.4976,
      "step": 1808
    },
    {
      "epoch": 0.62,
      "learning_rate": 9.963828199613258e-05,
      "loss": 0.5153,
      "step": 1809
    },
    {
      "epoch": 0.62,
      "learning_rate": 9.948124135354901e-05,
      "loss": 0.3715,
      "step": 1810
    },
    {
      "epoch": 0.62,
      "learning_rate": 9.932426314308162e-05,
      "loss": 0.501,
      "step": 1811
    },
    {
      "epoch": 0.62,
      "learning_rate": 9.916734755872736e-05,
      "loss": 0.512,
      "step": 1812
    },
    {
      "epoch": 0.62,
      "learning_rate": 9.901049479440573e-05,
      "loss": 0.5421,
      "step": 1813
    },
    {
      "epoch": 0.62,
      "learning_rate": 9.88537050439585e-05,
      "loss": 0.5243,
      "step": 1814
    },
    {
      "epoch": 0.62,
      "learning_rate": 9.869697850114969e-05,
      "loss": 0.3493,
      "step": 1815
    },
    {
      "epoch": 0.62,
      "learning_rate": 9.854031535966521e-05,
      "loss": 0.4334,
      "step": 1816
    },
    {
      "epoch": 0.62,
      "learning_rate": 9.838371581311252e-05,
      "loss": 0.3951,
      "step": 1817
    },
    {
      "epoch": 0.62,
      "learning_rate": 9.822718005502057e-05,
      "loss": 0.3961,
      "step": 1818
    },
    {
      "epoch": 0.62,
      "learning_rate": 9.807070827883952e-05,
      "loss": 0.2853,
      "step": 1819
    },
    {
      "epoch": 0.62,
      "learning_rate": 9.791430067794027e-05,
      "loss": 0.5609,
      "step": 1820
    },
    {
      "epoch": 0.62,
      "learning_rate": 9.77579574456146e-05,
      "loss": 0.4557,
      "step": 1821
    },
    {
      "epoch": 0.63,
      "learning_rate": 9.760167877507472e-05,
      "loss": 0.4805,
      "step": 1822
    },
    {
      "epoch": 0.63,
      "learning_rate": 9.744546485945292e-05,
      "loss": 0.4623,
      "step": 1823
    },
    {
      "epoch": 0.63,
      "learning_rate": 9.72893158918016e-05,
      "loss": 0.4983,
      "step": 1824
    },
    {
      "epoch": 0.63,
      "learning_rate": 9.713323206509291e-05,
      "loss": 0.4213,
      "step": 1825
    },
    {
      "epoch": 0.63,
      "learning_rate": 9.697721357221833e-05,
      "loss": 0.4228,
      "step": 1826
    },
    {
      "epoch": 0.63,
      "learning_rate": 9.682126060598876e-05,
      "loss": 0.3928,
      "step": 1827
    },
    {
      "epoch": 0.63,
      "learning_rate": 9.666537335913409e-05,
      "loss": 0.5212,
      "step": 1828
    },
    {
      "epoch": 0.63,
      "learning_rate": 9.650955202430293e-05,
      "loss": 0.3264,
      "step": 1829
    },
    {
      "epoch": 0.63,
      "learning_rate": 9.635379679406248e-05,
      "loss": 0.3804,
      "step": 1830
    },
    {
      "epoch": 0.63,
      "learning_rate": 9.619810786089832e-05,
      "loss": 0.3418,
      "step": 1831
    },
    {
      "epoch": 0.63,
      "learning_rate": 9.604248541721391e-05,
      "loss": 0.2985,
      "step": 1832
    },
    {
      "epoch": 0.63,
      "learning_rate": 9.588692965533065e-05,
      "loss": 0.3877,
      "step": 1833
    },
    {
      "epoch": 0.63,
      "learning_rate": 9.573144076748769e-05,
      "loss": 0.4492,
      "step": 1834
    },
    {
      "epoch": 0.63,
      "learning_rate": 9.557601894584121e-05,
      "loss": 0.5209,
      "step": 1835
    },
    {
      "epoch": 0.63,
      "learning_rate": 9.542066438246475e-05,
      "loss": 0.3483,
      "step": 1836
    },
    {
      "epoch": 0.63,
      "learning_rate": 9.52653772693487e-05,
      "loss": 0.5176,
      "step": 1837
    },
    {
      "epoch": 0.63,
      "learning_rate": 9.511015779839996e-05,
      "loss": 0.448,
      "step": 1838
    },
    {
      "epoch": 0.63,
      "learning_rate": 9.495500616144195e-05,
      "loss": 0.4435,
      "step": 1839
    },
    {
      "epoch": 0.63,
      "learning_rate": 9.479992255021435e-05,
      "loss": 0.4682,
      "step": 1840
    },
    {
      "epoch": 0.63,
      "learning_rate": 9.46449071563725e-05,
      "loss": 0.3436,
      "step": 1841
    },
    {
      "epoch": 0.63,
      "learning_rate": 9.448996017148772e-05,
      "loss": 0.4712,
      "step": 1842
    },
    {
      "epoch": 0.63,
      "learning_rate": 9.433508178704667e-05,
      "loss": 0.6084,
      "step": 1843
    },
    {
      "epoch": 0.63,
      "learning_rate": 9.418027219445108e-05,
      "loss": 0.2903,
      "step": 1844
    },
    {
      "epoch": 0.63,
      "learning_rate": 9.402553158501793e-05,
      "loss": 0.5276,
      "step": 1845
    },
    {
      "epoch": 0.63,
      "learning_rate": 9.387086014997889e-05,
      "loss": 0.2744,
      "step": 1846
    },
    {
      "epoch": 0.63,
      "learning_rate": 9.371625808047997e-05,
      "loss": 0.3123,
      "step": 1847
    },
    {
      "epoch": 0.63,
      "learning_rate": 9.35617255675816e-05,
      "loss": 0.3274,
      "step": 1848
    },
    {
      "epoch": 0.63,
      "learning_rate": 9.340726280225832e-05,
      "loss": 0.4564,
      "step": 1849
    },
    {
      "epoch": 0.63,
      "learning_rate": 9.325286997539818e-05,
      "loss": 0.4918,
      "step": 1850
    },
    {
      "epoch": 0.64,
      "learning_rate": 9.309854727780316e-05,
      "loss": 0.3473,
      "step": 1851
    },
    {
      "epoch": 0.64,
      "learning_rate": 9.294429490018844e-05,
      "loss": 0.3805,
      "step": 1852
    },
    {
      "epoch": 0.64,
      "learning_rate": 9.279011303318211e-05,
      "loss": 0.2296,
      "step": 1853
    },
    {
      "epoch": 0.64,
      "learning_rate": 9.263600186732534e-05,
      "loss": 0.3844,
      "step": 1854
    },
    {
      "epoch": 0.64,
      "learning_rate": 9.248196159307197e-05,
      "loss": 0.355,
      "step": 1855
    },
    {
      "epoch": 0.64,
      "learning_rate": 9.232799240078794e-05,
      "loss": 0.2711,
      "step": 1856
    },
    {
      "epoch": 0.64,
      "learning_rate": 9.217409448075166e-05,
      "loss": 0.5279,
      "step": 1857
    },
    {
      "epoch": 0.64,
      "learning_rate": 9.202026802315336e-05,
      "loss": 0.496,
      "step": 1858
    },
    {
      "epoch": 0.64,
      "learning_rate": 9.186651321809479e-05,
      "loss": 0.3927,
      "step": 1859
    },
    {
      "epoch": 0.64,
      "learning_rate": 9.171283025558938e-05,
      "loss": 0.5007,
      "step": 1860
    },
    {
      "epoch": 0.64,
      "learning_rate": 9.15592193255617e-05,
      "loss": 0.5721,
      "step": 1861
    },
    {
      "epoch": 0.64,
      "learning_rate": 9.140568061784713e-05,
      "loss": 0.2796,
      "step": 1862
    },
    {
      "epoch": 0.64,
      "learning_rate": 9.125221432219213e-05,
      "loss": 0.5777,
      "step": 1863
    },
    {
      "epoch": 0.64,
      "learning_rate": 9.109882062825345e-05,
      "loss": 0.5177,
      "step": 1864
    },
    {
      "epoch": 0.64,
      "learning_rate": 9.094549972559809e-05,
      "loss": 0.4099,
      "step": 1865
    },
    {
      "epoch": 0.64,
      "learning_rate": 9.079225180370318e-05,
      "loss": 0.5434,
      "step": 1866
    },
    {
      "epoch": 0.64,
      "learning_rate": 9.063907705195574e-05,
      "loss": 0.4669,
      "step": 1867
    },
    {
      "epoch": 0.64,
      "learning_rate": 9.048597565965207e-05,
      "loss": 0.39,
      "step": 1868
    },
    {
      "epoch": 0.64,
      "learning_rate": 9.033294781599815e-05,
      "loss": 0.3118,
      "step": 1869
    },
    {
      "epoch": 0.64,
      "learning_rate": 9.017999371010895e-05,
      "loss": 0.5136,
      "step": 1870
    },
    {
      "epoch": 0.64,
      "learning_rate": 9.002711353100817e-05,
      "loss": 0.4367,
      "step": 1871
    },
    {
      "epoch": 0.64,
      "learning_rate": 8.987430746762832e-05,
      "loss": 0.424,
      "step": 1872
    },
    {
      "epoch": 0.64,
      "learning_rate": 8.97215757088103e-05,
      "loss": 0.3368,
      "step": 1873
    },
    {
      "epoch": 0.64,
      "learning_rate": 8.956891844330305e-05,
      "loss": 0.5919,
      "step": 1874
    },
    {
      "epoch": 0.64,
      "learning_rate": 8.941633585976361e-05,
      "loss": 0.4959,
      "step": 1875
    },
    {
      "epoch": 0.64,
      "learning_rate": 8.926382814675673e-05,
      "loss": 0.3806,
      "step": 1876
    },
    {
      "epoch": 0.64,
      "learning_rate": 8.911139549275441e-05,
      "loss": 0.5071,
      "step": 1877
    },
    {
      "epoch": 0.64,
      "learning_rate": 8.89590380861361e-05,
      "loss": 0.5881,
      "step": 1878
    },
    {
      "epoch": 0.64,
      "learning_rate": 8.880675611518827e-05,
      "loss": 0.326,
      "step": 1879
    },
    {
      "epoch": 0.65,
      "learning_rate": 8.865454976810402e-05,
      "loss": 0.3938,
      "step": 1880
    },
    {
      "epoch": 0.65,
      "learning_rate": 8.85024192329831e-05,
      "loss": 0.6035,
      "step": 1881
    },
    {
      "epoch": 0.65,
      "learning_rate": 8.835036469783159e-05,
      "loss": 0.5185,
      "step": 1882
    },
    {
      "epoch": 0.65,
      "learning_rate": 8.81983863505615e-05,
      "loss": 0.3119,
      "step": 1883
    },
    {
      "epoch": 0.65,
      "learning_rate": 8.80464843789908e-05,
      "loss": 0.4908,
      "step": 1884
    },
    {
      "epoch": 0.65,
      "learning_rate": 8.789465897084315e-05,
      "loss": 0.2812,
      "step": 1885
    },
    {
      "epoch": 0.65,
      "learning_rate": 8.774291031374738e-05,
      "loss": 0.3882,
      "step": 1886
    },
    {
      "epoch": 0.65,
      "learning_rate": 8.759123859523765e-05,
      "loss": 0.4889,
      "step": 1887
    },
    {
      "epoch": 0.65,
      "learning_rate": 8.743964400275302e-05,
      "loss": 0.4171,
      "step": 1888
    },
    {
      "epoch": 0.65,
      "learning_rate": 8.728812672363704e-05,
      "loss": 0.3933,
      "step": 1889
    },
    {
      "epoch": 0.65,
      "learning_rate": 8.713668694513803e-05,
      "loss": 0.3756,
      "step": 1890
    },
    {
      "epoch": 0.65,
      "learning_rate": 8.698532485440831e-05,
      "loss": 0.3634,
      "step": 1891
    },
    {
      "epoch": 0.65,
      "learning_rate": 8.683404063850424e-05,
      "loss": 0.4376,
      "step": 1892
    },
    {
      "epoch": 0.65,
      "learning_rate": 8.668283448438588e-05,
      "loss": 0.4346,
      "step": 1893
    },
    {
      "epoch": 0.65,
      "learning_rate": 8.653170657891701e-05,
      "loss": 0.4751,
      "step": 1894
    },
    {
      "epoch": 0.65,
      "learning_rate": 8.638065710886456e-05,
      "loss": 0.2688,
      "step": 1895
    },
    {
      "epoch": 0.65,
      "learning_rate": 8.62296862608985e-05,
      "loss": 0.4707,
      "step": 1896
    },
    {
      "epoch": 0.65,
      "learning_rate": 8.607879422159181e-05,
      "loss": 0.3935,
      "step": 1897
    },
    {
      "epoch": 0.65,
      "learning_rate": 8.592798117741981e-05,
      "loss": 0.4274,
      "step": 1898
    },
    {
      "epoch": 0.65,
      "learning_rate": 8.577724731476046e-05,
      "loss": 0.5455,
      "step": 1899
    },
    {
      "epoch": 0.65,
      "learning_rate": 8.562659281989373e-05,
      "loss": 0.3097,
      "step": 1900
    },
    {
      "epoch": 0.65,
      "eval_loss": 0.5287613272666931,
      "eval_runtime": 44.6317,
      "eval_samples_per_second": 2.106,
      "eval_steps_per_second": 0.269,
      "step": 1900
    },
    {
      "epoch": 0.65,
      "learning_rate": 8.547601787900145e-05,
      "loss": 0.4129,
      "step": 1901
    },
    {
      "epoch": 0.65,
      "learning_rate": 8.532552267816734e-05,
      "loss": 0.4582,
      "step": 1902
    },
    {
      "epoch": 0.65,
      "learning_rate": 8.517510740337639e-05,
      "loss": 0.405,
      "step": 1903
    },
    {
      "epoch": 0.65,
      "learning_rate": 8.502477224051488e-05,
      "loss": 0.4478,
      "step": 1904
    },
    {
      "epoch": 0.65,
      "learning_rate": 8.487451737537003e-05,
      "loss": 0.2627,
      "step": 1905
    },
    {
      "epoch": 0.65,
      "learning_rate": 8.472434299362998e-05,
      "loss": 0.3755,
      "step": 1906
    },
    {
      "epoch": 0.65,
      "learning_rate": 8.457424928088326e-05,
      "loss": 0.3987,
      "step": 1907
    },
    {
      "epoch": 0.65,
      "learning_rate": 8.442423642261867e-05,
      "loss": 0.4951,
      "step": 1908
    },
    {
      "epoch": 0.66,
      "learning_rate": 8.427430460422537e-05,
      "loss": 0.2951,
      "step": 1909
    },
    {
      "epoch": 0.66,
      "learning_rate": 8.412445401099195e-05,
      "loss": 0.4422,
      "step": 1910
    },
    {
      "epoch": 0.66,
      "learning_rate": 8.397468482810699e-05,
      "loss": 0.5291,
      "step": 1911
    },
    {
      "epoch": 0.66,
      "learning_rate": 8.382499724065825e-05,
      "loss": 0.3826,
      "step": 1912
    },
    {
      "epoch": 0.66,
      "learning_rate": 8.367539143363267e-05,
      "loss": 0.2481,
      "step": 1913
    },
    {
      "epoch": 0.66,
      "learning_rate": 8.352586759191629e-05,
      "loss": 0.3975,
      "step": 1914
    },
    {
      "epoch": 0.66,
      "learning_rate": 8.337642590029369e-05,
      "loss": 0.6749,
      "step": 1915
    },
    {
      "epoch": 0.66,
      "learning_rate": 8.322706654344795e-05,
      "loss": 0.5233,
      "step": 1916
    },
    {
      "epoch": 0.66,
      "learning_rate": 8.307778970596034e-05,
      "loss": 0.3971,
      "step": 1917
    },
    {
      "epoch": 0.66,
      "learning_rate": 8.292859557231041e-05,
      "loss": 0.2764,
      "step": 1918
    },
    {
      "epoch": 0.66,
      "learning_rate": 8.27794843268752e-05,
      "loss": 0.4142,
      "step": 1919
    },
    {
      "epoch": 0.66,
      "learning_rate": 8.263045615392943e-05,
      "loss": 0.391,
      "step": 1920
    },
    {
      "epoch": 0.66,
      "learning_rate": 8.248151123764533e-05,
      "loss": 0.3312,
      "step": 1921
    },
    {
      "epoch": 0.66,
      "learning_rate": 8.233264976209183e-05,
      "loss": 0.4555,
      "step": 1922
    },
    {
      "epoch": 0.66,
      "learning_rate": 8.218387191123517e-05,
      "loss": 0.5021,
      "step": 1923
    },
    {
      "epoch": 0.66,
      "learning_rate": 8.203517786893801e-05,
      "loss": 0.5391,
      "step": 1924
    },
    {
      "epoch": 0.66,
      "learning_rate": 8.188656781895942e-05,
      "loss": 0.3435,
      "step": 1925
    },
    {
      "epoch": 0.66,
      "learning_rate": 8.173804194495491e-05,
      "loss": 0.2276,
      "step": 1926
    },
    {
      "epoch": 0.66,
      "learning_rate": 8.158960043047566e-05,
      "loss": 0.5372,
      "step": 1927
    },
    {
      "epoch": 0.66,
      "learning_rate": 8.144124345896879e-05,
      "loss": 0.493,
      "step": 1928
    },
    {
      "epoch": 0.66,
      "learning_rate": 8.129297121377681e-05,
      "loss": 0.3488,
      "step": 1929
    },
    {
      "epoch": 0.66,
      "learning_rate": 8.114478387813769e-05,
      "loss": 0.3166,
      "step": 1930
    },
    {
      "epoch": 0.66,
      "learning_rate": 8.099668163518435e-05,
      "loss": 0.349,
      "step": 1931
    },
    {
      "epoch": 0.66,
      "learning_rate": 8.084866466794449e-05,
      "loss": 0.2259,
      "step": 1932
    },
    {
      "epoch": 0.66,
      "learning_rate": 8.07007331593407e-05,
      "loss": 0.3847,
      "step": 1933
    },
    {
      "epoch": 0.66,
      "learning_rate": 8.055288729218952e-05,
      "loss": 0.403,
      "step": 1934
    },
    {
      "epoch": 0.66,
      "learning_rate": 8.040512724920207e-05,
      "loss": 0.3626,
      "step": 1935
    },
    {
      "epoch": 0.66,
      "learning_rate": 8.02574532129832e-05,
      "loss": 0.3558,
      "step": 1936
    },
    {
      "epoch": 0.66,
      "learning_rate": 8.010986536603145e-05,
      "loss": 0.3794,
      "step": 1937
    },
    {
      "epoch": 0.67,
      "learning_rate": 7.9962363890739e-05,
      "loss": 0.3546,
      "step": 1938
    },
    {
      "epoch": 0.67,
      "learning_rate": 7.981494896939114e-05,
      "loss": 0.4771,
      "step": 1939
    },
    {
      "epoch": 0.67,
      "learning_rate": 7.966762078416624e-05,
      "loss": 0.3522,
      "step": 1940
    },
    {
      "epoch": 0.67,
      "learning_rate": 7.952037951713545e-05,
      "loss": 0.4307,
      "step": 1941
    },
    {
      "epoch": 0.67,
      "learning_rate": 7.937322535026265e-05,
      "loss": 0.4625,
      "step": 1942
    },
    {
      "epoch": 0.67,
      "learning_rate": 7.92261584654039e-05,
      "loss": 0.3986,
      "step": 1943
    },
    {
      "epoch": 0.67,
      "learning_rate": 7.907917904430742e-05,
      "loss": 0.519,
      "step": 1944
    },
    {
      "epoch": 0.67,
      "learning_rate": 7.893228726861357e-05,
      "loss": 0.4034,
      "step": 1945
    },
    {
      "epoch": 0.67,
      "learning_rate": 7.878548331985399e-05,
      "loss": 0.2725,
      "step": 1946
    },
    {
      "epoch": 0.67,
      "learning_rate": 7.863876737945213e-05,
      "loss": 0.3802,
      "step": 1947
    },
    {
      "epoch": 0.67,
      "learning_rate": 7.849213962872254e-05,
      "loss": 0.5592,
      "step": 1948
    },
    {
      "epoch": 0.67,
      "learning_rate": 7.834560024887073e-05,
      "loss": 0.523,
      "step": 1949
    },
    {
      "epoch": 0.67,
      "learning_rate": 7.819914942099318e-05,
      "loss": 0.3212,
      "step": 1950
    },
    {
      "epoch": 0.67,
      "learning_rate": 7.805278732607678e-05,
      "loss": 0.4272,
      "step": 1951
    },
    {
      "epoch": 0.67,
      "learning_rate": 7.790651414499876e-05,
      "loss": 0.3266,
      "step": 1952
    },
    {
      "epoch": 0.67,
      "learning_rate": 7.776033005852648e-05,
      "loss": 0.2844,
      "step": 1953
    },
    {
      "epoch": 0.67,
      "learning_rate": 7.761423524731736e-05,
      "loss": 0.3844,
      "step": 1954
    },
    {
      "epoch": 0.67,
      "learning_rate": 7.746822989191826e-05,
      "loss": 0.3283,
      "step": 1955
    },
    {
      "epoch": 0.67,
      "learning_rate": 7.732231417276555e-05,
      "loss": 0.5113,
      "step": 1956
    },
    {
      "epoch": 0.67,
      "learning_rate": 7.717648827018507e-05,
      "loss": 0.4332,
      "step": 1957
    },
    {
      "epoch": 0.67,
      "learning_rate": 7.703075236439118e-05,
      "loss": 0.51,
      "step": 1958
    },
    {
      "epoch": 0.67,
      "learning_rate": 7.688510663548746e-05,
      "loss": 0.3774,
      "step": 1959
    },
    {
      "epoch": 0.67,
      "learning_rate": 7.673955126346588e-05,
      "loss": 0.4214,
      "step": 1960
    },
    {
      "epoch": 0.67,
      "learning_rate": 7.659408642820664e-05,
      "loss": 0.4405,
      "step": 1961
    },
    {
      "epoch": 0.67,
      "learning_rate": 7.64487123094783e-05,
      "loss": 0.3175,
      "step": 1962
    },
    {
      "epoch": 0.67,
      "learning_rate": 7.630342908693712e-05,
      "loss": 0.2884,
      "step": 1963
    },
    {
      "epoch": 0.67,
      "learning_rate": 7.615823694012708e-05,
      "loss": 0.2746,
      "step": 1964
    },
    {
      "epoch": 0.67,
      "learning_rate": 7.601313604847952e-05,
      "loss": 0.4267,
      "step": 1965
    },
    {
      "epoch": 0.67,
      "learning_rate": 7.586812659131324e-05,
      "loss": 0.5186,
      "step": 1966
    },
    {
      "epoch": 0.67,
      "learning_rate": 7.572320874783382e-05,
      "loss": 0.4128,
      "step": 1967
    },
    {
      "epoch": 0.68,
      "learning_rate": 7.557838269713367e-05,
      "loss": 0.312,
      "step": 1968
    },
    {
      "epoch": 0.68,
      "learning_rate": 7.543364861819192e-05,
      "loss": 0.3217,
      "step": 1969
    },
    {
      "epoch": 0.68,
      "learning_rate": 7.528900668987369e-05,
      "loss": 0.276,
      "step": 1970
    },
    {
      "epoch": 0.68,
      "learning_rate": 7.514445709093064e-05,
      "loss": 0.3587,
      "step": 1971
    },
    {
      "epoch": 0.68,
      "learning_rate": 7.500000000000002e-05,
      "loss": 0.458,
      "step": 1972
    },
    {
      "epoch": 0.68,
      "learning_rate": 7.485563559560483e-05,
      "loss": 0.537,
      "step": 1973
    },
    {
      "epoch": 0.68,
      "learning_rate": 7.471136405615368e-05,
      "loss": 0.5347,
      "step": 1974
    },
    {
      "epoch": 0.68,
      "learning_rate": 7.456718555994022e-05,
      "loss": 0.4504,
      "step": 1975
    },
    {
      "epoch": 0.68,
      "learning_rate": 7.442310028514319e-05,
      "loss": 0.4542,
      "step": 1976
    },
    {
      "epoch": 0.68,
      "learning_rate": 7.427910840982605e-05,
      "loss": 0.5876,
      "step": 1977
    },
    {
      "epoch": 0.68,
      "learning_rate": 7.413521011193704e-05,
      "loss": 0.453,
      "step": 1978
    },
    {
      "epoch": 0.68,
      "learning_rate": 7.399140556930857e-05,
      "loss": 0.5457,
      "step": 1979
    },
    {
      "epoch": 0.68,
      "learning_rate": 7.384769495965715e-05,
      "loss": 0.3634,
      "step": 1980
    },
    {
      "epoch": 0.68,
      "learning_rate": 7.370407846058351e-05,
      "loss": 0.4365,
      "step": 1981
    },
    {
      "epoch": 0.68,
      "learning_rate": 7.356055624957161e-05,
      "loss": 0.4034,
      "step": 1982
    },
    {
      "epoch": 0.68,
      "learning_rate": 7.34171285039893e-05,
      "loss": 0.4388,
      "step": 1983
    },
    {
      "epoch": 0.68,
      "learning_rate": 7.327379540108748e-05,
      "loss": 0.5805,
      "step": 1984
    },
    {
      "epoch": 0.68,
      "learning_rate": 7.313055711800006e-05,
      "loss": 0.407,
      "step": 1985
    },
    {
      "epoch": 0.68,
      "learning_rate": 7.298741383174396e-05,
      "loss": 0.4315,
      "step": 1986
    },
    {
      "epoch": 0.68,
      "learning_rate": 7.284436571921855e-05,
      "loss": 0.4305,
      "step": 1987
    },
    {
      "epoch": 0.68,
      "learning_rate": 7.27014129572056e-05,
      "loss": 0.3876,
      "step": 1988
    },
    {
      "epoch": 0.68,
      "learning_rate": 7.2558555722369e-05,
      "loss": 0.2452,
      "step": 1989
    },
    {
      "epoch": 0.68,
      "learning_rate": 7.241579419125476e-05,
      "loss": 0.5069,
      "step": 1990
    },
    {
      "epoch": 0.68,
      "learning_rate": 7.227312854029045e-05,
      "loss": 0.4427,
      "step": 1991
    },
    {
      "epoch": 0.68,
      "learning_rate": 7.213055894578514e-05,
      "loss": 0.5342,
      "step": 1992
    },
    {
      "epoch": 0.68,
      "learning_rate": 7.19880855839294e-05,
      "loss": 0.3508,
      "step": 1993
    },
    {
      "epoch": 0.68,
      "learning_rate": 7.184570863079457e-05,
      "loss": 0.4094,
      "step": 1994
    },
    {
      "epoch": 0.68,
      "learning_rate": 7.170342826233312e-05,
      "loss": 0.3645,
      "step": 1995
    },
    {
      "epoch": 0.68,
      "learning_rate": 7.156124465437799e-05,
      "loss": 0.4618,
      "step": 1996
    },
    {
      "epoch": 0.69,
      "learning_rate": 7.141915798264255e-05,
      "loss": 0.4619,
      "step": 1997
    },
    {
      "epoch": 0.69,
      "learning_rate": 7.127716842272052e-05,
      "loss": 0.4472,
      "step": 1998
    },
    {
      "epoch": 0.69,
      "learning_rate": 7.113527615008547e-05,
      "loss": 0.3267,
      "step": 1999
    },
    {
      "epoch": 0.69,
      "learning_rate": 7.099348134009074e-05,
      "loss": 0.4448,
      "step": 2000
    },
    {
      "epoch": 0.69,
      "eval_loss": 0.5234239101409912,
      "eval_runtime": 44.1934,
      "eval_samples_per_second": 2.127,
      "eval_steps_per_second": 0.272,
      "step": 2000
    },
    {
      "epoch": 0.69,
      "learning_rate": 7.085178416796924e-05,
      "loss": 0.4192,
      "step": 2001
    },
    {
      "epoch": 0.69,
      "learning_rate": 7.071018480883332e-05,
      "loss": 0.3488,
      "step": 2002
    },
    {
      "epoch": 0.69,
      "learning_rate": 7.056868343767433e-05,
      "loss": 0.3907,
      "step": 2003
    },
    {
      "epoch": 0.69,
      "learning_rate": 7.042728022936248e-05,
      "loss": 0.4094,
      "step": 2004
    },
    {
      "epoch": 0.69,
      "learning_rate": 7.028597535864694e-05,
      "loss": 0.4296,
      "step": 2005
    },
    {
      "epoch": 0.69,
      "learning_rate": 7.014476900015495e-05,
      "loss": 0.3416,
      "step": 2006
    },
    {
      "epoch": 0.69,
      "learning_rate": 7.000366132839234e-05,
      "loss": 0.4002,
      "step": 2007
    },
    {
      "epoch": 0.69,
      "learning_rate": 6.986265251774286e-05,
      "loss": 0.5088,
      "step": 2008
    },
    {
      "epoch": 0.69,
      "learning_rate": 6.9721742742468e-05,
      "loss": 0.3497,
      "step": 2009
    },
    {
      "epoch": 0.69,
      "learning_rate": 6.958093217670705e-05,
      "loss": 0.3002,
      "step": 2010
    },
    {
      "epoch": 0.69,
      "learning_rate": 6.944022099447656e-05,
      "loss": 0.4579,
      "step": 2011
    },
    {
      "epoch": 0.69,
      "learning_rate": 6.929960936967026e-05,
      "loss": 0.3427,
      "step": 2012
    },
    {
      "epoch": 0.69,
      "learning_rate": 6.915909747605883e-05,
      "loss": 0.5575,
      "step": 2013
    },
    {
      "epoch": 0.69,
      "learning_rate": 6.901868548728986e-05,
      "loss": 0.5193,
      "step": 2014
    },
    {
      "epoch": 0.69,
      "learning_rate": 6.887837357688733e-05,
      "loss": 0.5819,
      "step": 2015
    },
    {
      "epoch": 0.69,
      "learning_rate": 6.873816191825146e-05,
      "loss": 0.5623,
      "step": 2016
    },
    {
      "epoch": 0.69,
      "learning_rate": 6.859805068465889e-05,
      "loss": 0.3951,
      "step": 2017
    },
    {
      "epoch": 0.69,
      "learning_rate": 6.845804004926175e-05,
      "loss": 0.3292,
      "step": 2018
    },
    {
      "epoch": 0.69,
      "learning_rate": 6.831813018508817e-05,
      "loss": 0.3258,
      "step": 2019
    },
    {
      "epoch": 0.69,
      "learning_rate": 6.817832126504157e-05,
      "loss": 0.406,
      "step": 2020
    },
    {
      "epoch": 0.69,
      "learning_rate": 6.803861346190066e-05,
      "loss": 0.2299,
      "step": 2021
    },
    {
      "epoch": 0.69,
      "learning_rate": 6.789900694831929e-05,
      "loss": 0.452,
      "step": 2022
    },
    {
      "epoch": 0.69,
      "learning_rate": 6.775950189682598e-05,
      "loss": 0.4146,
      "step": 2023
    },
    {
      "epoch": 0.69,
      "learning_rate": 6.762009847982397e-05,
      "loss": 0.5361,
      "step": 2024
    },
    {
      "epoch": 0.69,
      "learning_rate": 6.748079686959075e-05,
      "loss": 0.3137,
      "step": 2025
    },
    {
      "epoch": 0.7,
      "learning_rate": 6.734159723827826e-05,
      "loss": 0.3715,
      "step": 2026
    },
    {
      "epoch": 0.7,
      "learning_rate": 6.720249975791218e-05,
      "loss": 0.3817,
      "step": 2027
    },
    {
      "epoch": 0.7,
      "learning_rate": 6.706350460039194e-05,
      "loss": 0.5074,
      "step": 2028
    },
    {
      "epoch": 0.7,
      "learning_rate": 6.69246119374908e-05,
      "loss": 0.3733,
      "step": 2029
    },
    {
      "epoch": 0.7,
      "learning_rate": 6.678582194085494e-05,
      "loss": 0.5128,
      "step": 2030
    },
    {
      "epoch": 0.7,
      "learning_rate": 6.664713478200404e-05,
      "loss": 0.4746,
      "step": 2031
    },
    {
      "epoch": 0.7,
      "learning_rate": 6.650855063233044e-05,
      "loss": 0.669,
      "step": 2032
    },
    {
      "epoch": 0.7,
      "learning_rate": 6.637006966309928e-05,
      "loss": 0.3224,
      "step": 2033
    },
    {
      "epoch": 0.7,
      "learning_rate": 6.623169204544823e-05,
      "loss": 0.4783,
      "step": 2034
    },
    {
      "epoch": 0.7,
      "learning_rate": 6.609341795038714e-05,
      "loss": 0.4467,
      "step": 2035
    },
    {
      "epoch": 0.7,
      "learning_rate": 6.595524754879799e-05,
      "loss": 0.3656,
      "step": 2036
    },
    {
      "epoch": 0.7,
      "learning_rate": 6.581718101143452e-05,
      "loss": 0.4117,
      "step": 2037
    },
    {
      "epoch": 0.7,
      "learning_rate": 6.567921850892229e-05,
      "loss": 0.4027,
      "step": 2038
    },
    {
      "epoch": 0.7,
      "learning_rate": 6.554136021175813e-05,
      "loss": 0.4584,
      "step": 2039
    },
    {
      "epoch": 0.7,
      "learning_rate": 6.54036062903101e-05,
      "loss": 0.4327,
      "step": 2040
    },
    {
      "epoch": 0.7,
      "learning_rate": 6.526595691481746e-05,
      "loss": 0.4247,
      "step": 2041
    },
    {
      "epoch": 0.7,
      "learning_rate": 6.512841225538996e-05,
      "loss": 0.3087,
      "step": 2042
    },
    {
      "epoch": 0.7,
      "learning_rate": 6.49909724820082e-05,
      "loss": 0.4829,
      "step": 2043
    },
    {
      "epoch": 0.7,
      "learning_rate": 6.485363776452307e-05,
      "loss": 0.4982,
      "step": 2044
    },
    {
      "epoch": 0.7,
      "learning_rate": 6.471640827265553e-05,
      "loss": 0.3647,
      "step": 2045
    },
    {
      "epoch": 0.7,
      "learning_rate": 6.457928417599673e-05,
      "loss": 0.5598,
      "step": 2046
    },
    {
      "epoch": 0.7,
      "learning_rate": 6.444226564400738e-05,
      "loss": 0.476,
      "step": 2047
    },
    {
      "epoch": 0.7,
      "learning_rate": 6.430535284601777e-05,
      "loss": 0.4723,
      "step": 2048
    },
    {
      "epoch": 0.7,
      "learning_rate": 6.41685459512275e-05,
      "loss": 0.5211,
      "step": 2049
    },
    {
      "epoch": 0.7,
      "learning_rate": 6.403184512870543e-05,
      "loss": 0.3191,
      "step": 2050
    },
    {
      "epoch": 0.7,
      "learning_rate": 6.389525054738918e-05,
      "loss": 0.4433,
      "step": 2051
    },
    {
      "epoch": 0.7,
      "learning_rate": 6.375876237608508e-05,
      "loss": 0.535,
      "step": 2052
    },
    {
      "epoch": 0.7,
      "learning_rate": 6.362238078346819e-05,
      "loss": 0.3582,
      "step": 2053
    },
    {
      "epoch": 0.7,
      "learning_rate": 6.348610593808141e-05,
      "loss": 0.3649,
      "step": 2054
    },
    {
      "epoch": 0.71,
      "learning_rate": 6.33499380083362e-05,
      "loss": 0.3225,
      "step": 2055
    },
    {
      "epoch": 0.71,
      "learning_rate": 6.321387716251158e-05,
      "loss": 0.5677,
      "step": 2056
    },
    {
      "epoch": 0.71,
      "learning_rate": 6.307792356875428e-05,
      "loss": 0.5347,
      "step": 2057
    },
    {
      "epoch": 0.71,
      "learning_rate": 6.294207739507866e-05,
      "loss": 0.3901,
      "step": 2058
    },
    {
      "epoch": 0.71,
      "learning_rate": 6.280633880936614e-05,
      "loss": 0.4869,
      "step": 2059
    },
    {
      "epoch": 0.71,
      "learning_rate": 6.267070797936526e-05,
      "loss": 0.3244,
      "step": 2060
    },
    {
      "epoch": 0.71,
      "learning_rate": 6.253518507269129e-05,
      "loss": 0.2454,
      "step": 2061
    },
    {
      "epoch": 0.71,
      "learning_rate": 6.239977025682635e-05,
      "loss": 0.4451,
      "step": 2062
    },
    {
      "epoch": 0.71,
      "learning_rate": 6.226446369911876e-05,
      "loss": 0.3277,
      "step": 2063
    },
    {
      "epoch": 0.71,
      "learning_rate": 6.212926556678311e-05,
      "loss": 0.4243,
      "step": 2064
    },
    {
      "epoch": 0.71,
      "learning_rate": 6.199417602690016e-05,
      "loss": 0.3547,
      "step": 2065
    },
    {
      "epoch": 0.71,
      "learning_rate": 6.185919524641613e-05,
      "loss": 0.4976,
      "step": 2066
    },
    {
      "epoch": 0.71,
      "learning_rate": 6.172432339214316e-05,
      "loss": 0.486,
      "step": 2067
    },
    {
      "epoch": 0.71,
      "learning_rate": 6.158956063075865e-05,
      "loss": 0.419,
      "step": 2068
    },
    {
      "epoch": 0.71,
      "learning_rate": 6.145490712880508e-05,
      "loss": 0.3481,
      "step": 2069
    },
    {
      "epoch": 0.71,
      "learning_rate": 6.132036305269013e-05,
      "loss": 0.3339,
      "step": 2070
    },
    {
      "epoch": 0.71,
      "learning_rate": 6.118592856868606e-05,
      "loss": 0.3108,
      "step": 2071
    },
    {
      "epoch": 0.71,
      "learning_rate": 6.105160384292977e-05,
      "loss": 0.4198,
      "step": 2072
    },
    {
      "epoch": 0.71,
      "learning_rate": 6.0917389041422456e-05,
      "loss": 0.3754,
      "step": 2073
    },
    {
      "epoch": 0.71,
      "learning_rate": 6.0783284330029604e-05,
      "loss": 0.4616,
      "step": 2074
    },
    {
      "epoch": 0.71,
      "learning_rate": 6.064928987448052e-05,
      "loss": 0.4437,
      "step": 2075
    },
    {
      "epoch": 0.71,
      "learning_rate": 6.0515405840368235e-05,
      "loss": 0.4114,
      "step": 2076
    },
    {
      "epoch": 0.71,
      "learning_rate": 6.038163239314956e-05,
      "loss": 0.4001,
      "step": 2077
    },
    {
      "epoch": 0.71,
      "learning_rate": 6.024796969814423e-05,
      "loss": 0.4534,
      "step": 2078
    },
    {
      "epoch": 0.71,
      "learning_rate": 6.011441792053551e-05,
      "loss": 0.3243,
      "step": 2079
    },
    {
      "epoch": 0.71,
      "learning_rate": 5.998097722536934e-05,
      "loss": 0.575,
      "step": 2080
    },
    {
      "epoch": 0.71,
      "learning_rate": 5.984764777755446e-05,
      "loss": 0.3887,
      "step": 2081
    },
    {
      "epoch": 0.71,
      "learning_rate": 5.9714429741862184e-05,
      "loss": 0.2744,
      "step": 2082
    },
    {
      "epoch": 0.71,
      "learning_rate": 5.958132328292606e-05,
      "loss": 0.368,
      "step": 2083
    },
    {
      "epoch": 0.72,
      "learning_rate": 5.944832856524179e-05,
      "loss": 0.3643,
      "step": 2084
    },
    {
      "epoch": 0.72,
      "learning_rate": 5.9315445753166885e-05,
      "loss": 0.4541,
      "step": 2085
    },
    {
      "epoch": 0.72,
      "learning_rate": 5.918267501092078e-05,
      "loss": 0.3657,
      "step": 2086
    },
    {
      "epoch": 0.72,
      "learning_rate": 5.90500165025842e-05,
      "loss": 0.2513,
      "step": 2087
    },
    {
      "epoch": 0.72,
      "learning_rate": 5.8917470392099206e-05,
      "loss": 0.2043,
      "step": 2088
    },
    {
      "epoch": 0.72,
      "learning_rate": 5.878503684326915e-05,
      "loss": 0.3268,
      "step": 2089
    },
    {
      "epoch": 0.72,
      "learning_rate": 5.8652716019757896e-05,
      "loss": 0.4286,
      "step": 2090
    },
    {
      "epoch": 0.72,
      "learning_rate": 5.8520508085090414e-05,
      "loss": 0.5592,
      "step": 2091
    },
    {
      "epoch": 0.72,
      "learning_rate": 5.838841320265191e-05,
      "loss": 0.4223,
      "step": 2092
    },
    {
      "epoch": 0.72,
      "learning_rate": 5.825643153568788e-05,
      "loss": 0.566,
      "step": 2093
    },
    {
      "epoch": 0.72,
      "learning_rate": 5.81245632473041e-05,
      "loss": 0.5643,
      "step": 2094
    },
    {
      "epoch": 0.72,
      "learning_rate": 5.799280850046603e-05,
      "loss": 0.4554,
      "step": 2095
    },
    {
      "epoch": 0.72,
      "learning_rate": 5.786116745799889e-05,
      "loss": 0.4851,
      "step": 2096
    },
    {
      "epoch": 0.72,
      "learning_rate": 5.772964028258731e-05,
      "loss": 0.471,
      "step": 2097
    },
    {
      "epoch": 0.72,
      "learning_rate": 5.7598227136775385e-05,
      "loss": 0.3707,
      "step": 2098
    },
    {
      "epoch": 0.72,
      "learning_rate": 5.746692818296614e-05,
      "loss": 0.4579,
      "step": 2099
    },
    {
      "epoch": 0.72,
      "learning_rate": 5.733574358342141e-05,
      "loss": 0.302,
      "step": 2100
    },
    {
      "epoch": 0.72,
      "eval_loss": 0.5205362439155579,
      "eval_runtime": 44.9709,
      "eval_samples_per_second": 2.09,
      "eval_steps_per_second": 0.267,
      "step": 2100
    },
    {
      "epoch": 0.72,
      "learning_rate": 5.720467350026199e-05,
      "loss": 0.3975,
      "step": 2101
    },
    {
      "epoch": 0.72,
      "learning_rate": 5.7073718095466764e-05,
      "loss": 0.3161,
      "step": 2102
    },
    {
      "epoch": 0.72,
      "learning_rate": 5.694287753087327e-05,
      "loss": 0.367,
      "step": 2103
    },
    {
      "epoch": 0.72,
      "learning_rate": 5.681215196817687e-05,
      "loss": 0.4075,
      "step": 2104
    },
    {
      "epoch": 0.72,
      "learning_rate": 5.668154156893087e-05,
      "loss": 0.4714,
      "step": 2105
    },
    {
      "epoch": 0.72,
      "learning_rate": 5.6551046494546367e-05,
      "loss": 0.3698,
      "step": 2106
    },
    {
      "epoch": 0.72,
      "learning_rate": 5.64206669062918e-05,
      "loss": 0.452,
      "step": 2107
    },
    {
      "epoch": 0.72,
      "learning_rate": 5.629040296529294e-05,
      "loss": 0.4889,
      "step": 2108
    },
    {
      "epoch": 0.72,
      "learning_rate": 5.616025483253255e-05,
      "loss": 0.4032,
      "step": 2109
    },
    {
      "epoch": 0.72,
      "learning_rate": 5.603022266885049e-05,
      "loss": 0.4045,
      "step": 2110
    },
    {
      "epoch": 0.72,
      "learning_rate": 5.590030663494312e-05,
      "loss": 0.3819,
      "step": 2111
    },
    {
      "epoch": 0.72,
      "learning_rate": 5.577050689136325e-05,
      "loss": 0.3016,
      "step": 2112
    },
    {
      "epoch": 0.73,
      "learning_rate": 5.5640823598520244e-05,
      "loss": 0.2872,
      "step": 2113
    },
    {
      "epoch": 0.73,
      "learning_rate": 5.5511256916679165e-05,
      "loss": 0.3464,
      "step": 2114
    },
    {
      "epoch": 0.73,
      "learning_rate": 5.538180700596132e-05,
      "loss": 0.4014,
      "step": 2115
    },
    {
      "epoch": 0.73,
      "learning_rate": 5.52524740263435e-05,
      "loss": 0.606,
      "step": 2116
    },
    {
      "epoch": 0.73,
      "learning_rate": 5.5123258137658005e-05,
      "loss": 0.522,
      "step": 2117
    },
    {
      "epoch": 0.73,
      "learning_rate": 5.499415949959258e-05,
      "loss": 0.3613,
      "step": 2118
    },
    {
      "epoch": 0.73,
      "learning_rate": 5.4865178271689895e-05,
      "loss": 0.2544,
      "step": 2119
    },
    {
      "epoch": 0.73,
      "learning_rate": 5.473631461334761e-05,
      "loss": 0.5544,
      "step": 2120
    },
    {
      "epoch": 0.73,
      "learning_rate": 5.460756868381803e-05,
      "loss": 0.3565,
      "step": 2121
    },
    {
      "epoch": 0.73,
      "learning_rate": 5.44789406422081e-05,
      "loss": 0.5081,
      "step": 2122
    },
    {
      "epoch": 0.73,
      "learning_rate": 5.435043064747893e-05,
      "loss": 0.3321,
      "step": 2123
    },
    {
      "epoch": 0.73,
      "learning_rate": 5.422203885844576e-05,
      "loss": 0.4368,
      "step": 2124
    },
    {
      "epoch": 0.73,
      "learning_rate": 5.4093765433777944e-05,
      "loss": 0.2864,
      "step": 2125
    },
    {
      "epoch": 0.73,
      "learning_rate": 5.3965610531998204e-05,
      "loss": 0.2756,
      "step": 2126
    },
    {
      "epoch": 0.73,
      "learning_rate": 5.383757431148313e-05,
      "loss": 0.3225,
      "step": 2127
    },
    {
      "epoch": 0.73,
      "learning_rate": 5.370965693046248e-05,
      "loss": 0.3162,
      "step": 2128
    },
    {
      "epoch": 0.73,
      "learning_rate": 5.358185854701909e-05,
      "loss": 0.357,
      "step": 2129
    },
    {
      "epoch": 0.73,
      "learning_rate": 5.3454179319088956e-05,
      "loss": 0.6657,
      "step": 2130
    },
    {
      "epoch": 0.73,
      "learning_rate": 5.3326619404460594e-05,
      "loss": 0.353,
      "step": 2131
    },
    {
      "epoch": 0.73,
      "learning_rate": 5.319917896077519e-05,
      "loss": 0.3405,
      "step": 2132
    },
    {
      "epoch": 0.73,
      "learning_rate": 5.307185814552619e-05,
      "loss": 0.3153,
      "step": 2133
    },
    {
      "epoch": 0.73,
      "learning_rate": 5.2944657116059354e-05,
      "loss": 0.5832,
      "step": 2134
    },
    {
      "epoch": 0.73,
      "learning_rate": 5.2817576029572294e-05,
      "loss": 0.4542,
      "step": 2135
    },
    {
      "epoch": 0.73,
      "learning_rate": 5.2690615043114344e-05,
      "loss": 0.4089,
      "step": 2136
    },
    {
      "epoch": 0.73,
      "learning_rate": 5.2563774313586636e-05,
      "loss": 0.461,
      "step": 2137
    },
    {
      "epoch": 0.73,
      "learning_rate": 5.243705399774138e-05,
      "loss": 0.498,
      "step": 2138
    },
    {
      "epoch": 0.73,
      "learning_rate": 5.2310454252182235e-05,
      "loss": 0.3466,
      "step": 2139
    },
    {
      "epoch": 0.73,
      "learning_rate": 5.218397523336374e-05,
      "loss": 0.4168,
      "step": 2140
    },
    {
      "epoch": 0.73,
      "learning_rate": 5.20576170975912e-05,
      "loss": 0.5234,
      "step": 2141
    },
    {
      "epoch": 0.74,
      "learning_rate": 5.1931380001020696e-05,
      "loss": 0.3738,
      "step": 2142
    },
    {
      "epoch": 0.74,
      "learning_rate": 5.180526409965855e-05,
      "loss": 0.3849,
      "step": 2143
    },
    {
      "epoch": 0.74,
      "learning_rate": 5.167926954936137e-05,
      "loss": 0.5367,
      "step": 2144
    },
    {
      "epoch": 0.74,
      "learning_rate": 5.1553396505835766e-05,
      "loss": 0.467,
      "step": 2145
    },
    {
      "epoch": 0.74,
      "learning_rate": 5.1427645124638335e-05,
      "loss": 0.4695,
      "step": 2146
    },
    {
      "epoch": 0.74,
      "learning_rate": 5.130201556117512e-05,
      "loss": 0.3724,
      "step": 2147
    },
    {
      "epoch": 0.74,
      "learning_rate": 5.117650797070168e-05,
      "loss": 0.5101,
      "step": 2148
    },
    {
      "epoch": 0.74,
      "learning_rate": 5.105112250832303e-05,
      "loss": 0.4245,
      "step": 2149
    },
    {
      "epoch": 0.74,
      "learning_rate": 5.092585932899286e-05,
      "loss": 0.3355,
      "step": 2150
    },
    {
      "epoch": 0.74,
      "learning_rate": 5.080071858751414e-05,
      "loss": 0.3595,
      "step": 2151
    },
    {
      "epoch": 0.74,
      "learning_rate": 5.067570043853831e-05,
      "loss": 0.3552,
      "step": 2152
    },
    {
      "epoch": 0.74,
      "learning_rate": 5.05508050365653e-05,
      "loss": 0.3339,
      "step": 2153
    },
    {
      "epoch": 0.74,
      "learning_rate": 5.042603253594352e-05,
      "loss": 0.4315,
      "step": 2154
    },
    {
      "epoch": 0.74,
      "learning_rate": 5.030138309086932e-05,
      "loss": 0.3864,
      "step": 2155
    },
    {
      "epoch": 0.74,
      "learning_rate": 5.017685685538701e-05,
      "loss": 0.2114,
      "step": 2156
    },
    {
      "epoch": 0.74,
      "learning_rate": 5.005245398338867e-05,
      "loss": 0.385,
      "step": 2157
    },
    {
      "epoch": 0.74,
      "learning_rate": 4.9928174628613965e-05,
      "loss": 0.4067,
      "step": 2158
    },
    {
      "epoch": 0.74,
      "learning_rate": 4.980401894464985e-05,
      "loss": 0.3471,
      "step": 2159
    },
    {
      "epoch": 0.74,
      "learning_rate": 4.967998708493039e-05,
      "loss": 0.3623,
      "step": 2160
    },
    {
      "epoch": 0.74,
      "learning_rate": 4.955607920273684e-05,
      "loss": 0.3853,
      "step": 2161
    },
    {
      "epoch": 0.74,
      "learning_rate": 4.943229545119693e-05,
      "loss": 0.2809,
      "step": 2162
    },
    {
      "epoch": 0.74,
      "learning_rate": 4.9308635983285264e-05,
      "loss": 0.4595,
      "step": 2163
    },
    {
      "epoch": 0.74,
      "learning_rate": 4.9185100951822745e-05,
      "loss": 0.2419,
      "step": 2164
    },
    {
      "epoch": 0.74,
      "learning_rate": 4.906169050947639e-05,
      "loss": 0.6282,
      "step": 2165
    },
    {
      "epoch": 0.74,
      "learning_rate": 4.893840480875947e-05,
      "loss": 0.375,
      "step": 2166
    },
    {
      "epoch": 0.74,
      "learning_rate": 4.881524400203095e-05,
      "loss": 0.4252,
      "step": 2167
    },
    {
      "epoch": 0.74,
      "learning_rate": 4.869220824149544e-05,
      "loss": 0.5292,
      "step": 2168
    },
    {
      "epoch": 0.74,
      "learning_rate": 4.856929767920304e-05,
      "loss": 0.3331,
      "step": 2169
    },
    {
      "epoch": 0.74,
      "learning_rate": 4.844651246704921e-05,
      "loss": 0.3222,
      "step": 2170
    },
    {
      "epoch": 0.74,
      "learning_rate": 4.8323852756774386e-05,
      "loss": 0.4203,
      "step": 2171
    },
    {
      "epoch": 0.75,
      "learning_rate": 4.8201318699963895e-05,
      "loss": 0.2656,
      "step": 2172
    },
    {
      "epoch": 0.75,
      "learning_rate": 4.8078910448048003e-05,
      "loss": 0.4094,
      "step": 2173
    },
    {
      "epoch": 0.75,
      "learning_rate": 4.795662815230111e-05,
      "loss": 0.245,
      "step": 2174
    },
    {
      "epoch": 0.75,
      "learning_rate": 4.783447196384234e-05,
      "loss": 0.353,
      "step": 2175
    },
    {
      "epoch": 0.75,
      "learning_rate": 4.771244203363478e-05,
      "loss": 0.4814,
      "step": 2176
    },
    {
      "epoch": 0.75,
      "learning_rate": 4.7590538512485435e-05,
      "loss": 0.3729,
      "step": 2177
    },
    {
      "epoch": 0.75,
      "learning_rate": 4.7468761551045295e-05,
      "loss": 0.4129,
      "step": 2178
    },
    {
      "epoch": 0.75,
      "learning_rate": 4.7347111299808744e-05,
      "loss": 0.5662,
      "step": 2179
    },
    {
      "epoch": 0.75,
      "learning_rate": 4.722558790911368e-05,
      "loss": 0.5215,
      "step": 2180
    },
    {
      "epoch": 0.75,
      "learning_rate": 4.710419152914116e-05,
      "loss": 0.3162,
      "step": 2181
    },
    {
      "epoch": 0.75,
      "learning_rate": 4.698292230991537e-05,
      "loss": 0.4133,
      "step": 2182
    },
    {
      "epoch": 0.75,
      "learning_rate": 4.686178040130328e-05,
      "loss": 0.5207,
      "step": 2183
    },
    {
      "epoch": 0.75,
      "learning_rate": 4.674076595301448e-05,
      "loss": 0.4651,
      "step": 2184
    },
    {
      "epoch": 0.75,
      "learning_rate": 4.661987911460125e-05,
      "loss": 0.4019,
      "step": 2185
    },
    {
      "epoch": 0.75,
      "learning_rate": 4.649912003545782e-05,
      "loss": 0.5651,
      "step": 2186
    },
    {
      "epoch": 0.75,
      "learning_rate": 4.637848886482088e-05,
      "loss": 0.4881,
      "step": 2187
    },
    {
      "epoch": 0.75,
      "learning_rate": 4.6257985751768875e-05,
      "loss": 0.4187,
      "step": 2188
    },
    {
      "epoch": 0.75,
      "learning_rate": 4.613761084522193e-05,
      "loss": 0.4577,
      "step": 2189
    },
    {
      "epoch": 0.75,
      "learning_rate": 4.6017364293941946e-05,
      "loss": 0.4195,
      "step": 2190
    },
    {
      "epoch": 0.75,
      "learning_rate": 4.589724624653201e-05,
      "loss": 0.3206,
      "step": 2191
    },
    {
      "epoch": 0.75,
      "learning_rate": 4.577725685143647e-05,
      "loss": 0.4554,
      "step": 2192
    },
    {
      "epoch": 0.75,
      "learning_rate": 4.565739625694064e-05,
      "loss": 0.4023,
      "step": 2193
    },
    {
      "epoch": 0.75,
      "learning_rate": 4.553766461117075e-05,
      "loss": 0.3836,
      "step": 2194
    },
    {
      "epoch": 0.75,
      "learning_rate": 4.541806206209364e-05,
      "loss": 0.2327,
      "step": 2195
    },
    {
      "epoch": 0.75,
      "learning_rate": 4.529858875751648e-05,
      "loss": 0.552,
      "step": 2196
    },
    {
      "epoch": 0.75,
      "learning_rate": 4.5179244845087e-05,
      "loss": 0.4712,
      "step": 2197
    },
    {
      "epoch": 0.75,
      "learning_rate": 4.506003047229265e-05,
      "loss": 0.4236,
      "step": 2198
    },
    {
      "epoch": 0.75,
      "learning_rate": 4.494094578646108e-05,
      "loss": 0.4509,
      "step": 2199
    },
    {
      "epoch": 0.75,
      "learning_rate": 4.4821990934759694e-05,
      "loss": 0.3649,
      "step": 2200
    },
    {
      "epoch": 0.75,
      "eval_loss": 0.5181701183319092,
      "eval_runtime": 44.6803,
      "eval_samples_per_second": 2.104,
      "eval_steps_per_second": 0.269,
      "step": 2200
    },
    {
      "epoch": 0.76,
      "learning_rate": 4.470316606419513e-05,
      "loss": 0.3934,
      "step": 2201
    },
    {
      "epoch": 0.76,
      "learning_rate": 4.458447132161376e-05,
      "loss": 0.3402,
      "step": 2202
    },
    {
      "epoch": 0.76,
      "learning_rate": 4.446590685370091e-05,
      "loss": 0.3963,
      "step": 2203
    },
    {
      "epoch": 0.76,
      "learning_rate": 4.434747280698097e-05,
      "loss": 0.5158,
      "step": 2204
    },
    {
      "epoch": 0.76,
      "learning_rate": 4.4229169327817135e-05,
      "loss": 0.4096,
      "step": 2205
    },
    {
      "epoch": 0.76,
      "learning_rate": 4.4110996562411345e-05,
      "loss": 0.3059,
      "step": 2206
    },
    {
      "epoch": 0.76,
      "learning_rate": 4.399295465680387e-05,
      "loss": 0.6426,
      "step": 2207
    },
    {
      "epoch": 0.76,
      "learning_rate": 4.387504375687328e-05,
      "loss": 0.3854,
      "step": 2208
    },
    {
      "epoch": 0.76,
      "learning_rate": 4.375726400833638e-05,
      "loss": 0.5773,
      "step": 2209
    },
    {
      "epoch": 0.76,
      "learning_rate": 4.363961555674774e-05,
      "loss": 0.5054,
      "step": 2210
    },
    {
      "epoch": 0.76,
      "learning_rate": 4.352209854749967e-05,
      "loss": 0.4434,
      "step": 2211
    },
    {
      "epoch": 0.76,
      "learning_rate": 4.340471312582218e-05,
      "loss": 0.2918,
      "step": 2212
    },
    {
      "epoch": 0.76,
      "learning_rate": 4.328745943678257e-05,
      "loss": 0.2545,
      "step": 2213
    },
    {
      "epoch": 0.76,
      "learning_rate": 4.3170337625285316e-05,
      "loss": 0.2331,
      "step": 2214
    },
    {
      "epoch": 0.76,
      "learning_rate": 4.30533478360719e-05,
      "loss": 0.4501,
      "step": 2215
    },
    {
      "epoch": 0.76,
      "learning_rate": 4.293649021372087e-05,
      "loss": 0.4144,
      "step": 2216
    },
    {
      "epoch": 0.76,
      "learning_rate": 4.281976490264706e-05,
      "loss": 0.4145,
      "step": 2217
    },
    {
      "epoch": 0.76,
      "learning_rate": 4.270317204710208e-05,
      "loss": 0.5292,
      "step": 2218
    },
    {
      "epoch": 0.76,
      "learning_rate": 4.2586711791173896e-05,
      "loss": 0.401,
      "step": 2219
    },
    {
      "epoch": 0.76,
      "learning_rate": 4.247038427878626e-05,
      "loss": 0.2899,
      "step": 2220
    },
    {
      "epoch": 0.76,
      "learning_rate": 4.2354189653699234e-05,
      "loss": 0.5638,
      "step": 2221
    },
    {
      "epoch": 0.76,
      "learning_rate": 4.223812805950849e-05,
      "loss": 0.3105,
      "step": 2222
    },
    {
      "epoch": 0.76,
      "learning_rate": 4.2122199639645263e-05,
      "loss": 0.5668,
      "step": 2223
    },
    {
      "epoch": 0.76,
      "learning_rate": 4.200640453737637e-05,
      "loss": 0.4388,
      "step": 2224
    },
    {
      "epoch": 0.76,
      "learning_rate": 4.1890742895803705e-05,
      "loss": 0.5617,
      "step": 2225
    },
    {
      "epoch": 0.76,
      "learning_rate": 4.1775214857864294e-05,
      "loss": 0.3868,
      "step": 2226
    },
    {
      "epoch": 0.76,
      "learning_rate": 4.1659820566330035e-05,
      "loss": 0.2995,
      "step": 2227
    },
    {
      "epoch": 0.76,
      "learning_rate": 4.15445601638076e-05,
      "loss": 0.6154,
      "step": 2228
    },
    {
      "epoch": 0.76,
      "learning_rate": 4.142943379273815e-05,
      "loss": 0.5535,
      "step": 2229
    },
    {
      "epoch": 0.77,
      "learning_rate": 4.131444159539715e-05,
      "loss": 0.2967,
      "step": 2230
    },
    {
      "epoch": 0.77,
      "learning_rate": 4.1199583713894436e-05,
      "loss": 0.4364,
      "step": 2231
    },
    {
      "epoch": 0.77,
      "learning_rate": 4.108486029017358e-05,
      "loss": 0.4465,
      "step": 2232
    },
    {
      "epoch": 0.77,
      "learning_rate": 4.0970271466012236e-05,
      "loss": 0.4428,
      "step": 2233
    },
    {
      "epoch": 0.77,
      "learning_rate": 4.085581738302159e-05,
      "loss": 0.4489,
      "step": 2234
    },
    {
      "epoch": 0.77,
      "learning_rate": 4.0741498182646315e-05,
      "loss": 0.3578,
      "step": 2235
    },
    {
      "epoch": 0.77,
      "learning_rate": 4.0627314006164484e-05,
      "loss": 0.4578,
      "step": 2236
    },
    {
      "epoch": 0.77,
      "learning_rate": 4.0513264994687194e-05,
      "loss": 0.339,
      "step": 2237
    },
    {
      "epoch": 0.77,
      "learning_rate": 4.039935128915857e-05,
      "loss": 0.3539,
      "step": 2238
    },
    {
      "epoch": 0.77,
      "learning_rate": 4.0285573030355423e-05,
      "loss": 0.4401,
      "step": 2239
    },
    {
      "epoch": 0.77,
      "learning_rate": 4.017193035888739e-05,
      "loss": 0.4214,
      "step": 2240
    },
    {
      "epoch": 0.77,
      "learning_rate": 4.0058423415196325e-05,
      "loss": 0.3211,
      "step": 2241
    },
    {
      "epoch": 0.77,
      "learning_rate": 3.994505233955641e-05,
      "loss": 0.4424,
      "step": 2242
    },
    {
      "epoch": 0.77,
      "learning_rate": 3.9831817272074064e-05,
      "loss": 0.4429,
      "step": 2243
    },
    {
      "epoch": 0.77,
      "learning_rate": 3.971871835268734e-05,
      "loss": 0.3629,
      "step": 2244
    },
    {
      "epoch": 0.77,
      "learning_rate": 3.960575572116631e-05,
      "loss": 0.3373,
      "step": 2245
    },
    {
      "epoch": 0.77,
      "learning_rate": 3.949292951711247e-05,
      "loss": 0.3343,
      "step": 2246
    },
    {
      "epoch": 0.77,
      "learning_rate": 3.938023987995872e-05,
      "loss": 0.3448,
      "step": 2247
    },
    {
      "epoch": 0.77,
      "learning_rate": 3.926768694896931e-05,
      "loss": 0.4063,
      "step": 2248
    },
    {
      "epoch": 0.77,
      "learning_rate": 3.9155270863239383e-05,
      "loss": 0.4507,
      "step": 2249
    },
    {
      "epoch": 0.77,
      "learning_rate": 3.9042991761695077e-05,
      "loss": 0.5086,
      "step": 2250
    },
    {
      "epoch": 0.77,
      "learning_rate": 3.893084978309313e-05,
      "loss": 0.2264,
      "step": 2251
    },
    {
      "epoch": 0.77,
      "learning_rate": 3.8818845066021e-05,
      "loss": 0.3777,
      "step": 2252
    },
    {
      "epoch": 0.77,
      "learning_rate": 3.870697774889635e-05,
      "loss": 0.26,
      "step": 2253
    },
    {
      "epoch": 0.77,
      "learning_rate": 3.859524796996709e-05,
      "loss": 0.3807,
      "step": 2254
    },
    {
      "epoch": 0.77,
      "learning_rate": 3.848365586731125e-05,
      "loss": 0.6097,
      "step": 2255
    },
    {
      "epoch": 0.77,
      "learning_rate": 3.8372201578836506e-05,
      "loss": 0.2635,
      "step": 2256
    },
    {
      "epoch": 0.77,
      "learning_rate": 3.8260885242280456e-05,
      "loss": 0.2908,
      "step": 2257
    },
    {
      "epoch": 0.77,
      "learning_rate": 3.814970699521008e-05,
      "loss": 0.4426,
      "step": 2258
    },
    {
      "epoch": 0.78,
      "learning_rate": 3.803866697502167e-05,
      "loss": 0.3991,
      "step": 2259
    },
    {
      "epoch": 0.78,
      "learning_rate": 3.792776531894085e-05,
      "loss": 0.392,
      "step": 2260
    },
    {
      "epoch": 0.78,
      "learning_rate": 3.781700216402212e-05,
      "loss": 0.4804,
      "step": 2261
    },
    {
      "epoch": 0.78,
      "learning_rate": 3.770637764714885e-05,
      "loss": 0.2832,
      "step": 2262
    },
    {
      "epoch": 0.78,
      "learning_rate": 3.759589190503303e-05,
      "loss": 0.4419,
      "step": 2263
    },
    {
      "epoch": 0.78,
      "learning_rate": 3.7485545074215314e-05,
      "loss": 0.5757,
      "step": 2264
    },
    {
      "epoch": 0.78,
      "learning_rate": 3.7375337291064504e-05,
      "loss": 0.4749,
      "step": 2265
    },
    {
      "epoch": 0.78,
      "learning_rate": 3.72652686917776e-05,
      "loss": 0.478,
      "step": 2266
    },
    {
      "epoch": 0.78,
      "learning_rate": 3.715533941237977e-05,
      "loss": 0.2248,
      "step": 2267
    },
    {
      "epoch": 0.78,
      "learning_rate": 3.7045549588723694e-05,
      "loss": 0.4168,
      "step": 2268
    },
    {
      "epoch": 0.78,
      "learning_rate": 3.693589935648999e-05,
      "loss": 0.2772,
      "step": 2269
    },
    {
      "epoch": 0.78,
      "learning_rate": 3.6826388851186645e-05,
      "loss": 0.2977,
      "step": 2270
    },
    {
      "epoch": 0.78,
      "learning_rate": 3.671701820814894e-05,
      "loss": 0.3399,
      "step": 2271
    },
    {
      "epoch": 0.78,
      "learning_rate": 3.6607787562539425e-05,
      "loss": 0.1725,
      "step": 2272
    },
    {
      "epoch": 0.78,
      "learning_rate": 3.649869704934752e-05,
      "loss": 0.3619,
      "step": 2273
    },
    {
      "epoch": 0.78,
      "learning_rate": 3.638974680338954e-05,
      "loss": 0.3493,
      "step": 2274
    },
    {
      "epoch": 0.78,
      "learning_rate": 3.6280936959308356e-05,
      "loss": 0.4766,
      "step": 2275
    },
    {
      "epoch": 0.78,
      "learning_rate": 3.617226765157351e-05,
      "loss": 0.2814,
      "step": 2276
    },
    {
      "epoch": 0.78,
      "learning_rate": 3.606373901448072e-05,
      "loss": 0.5158,
      "step": 2277
    },
    {
      "epoch": 0.78,
      "learning_rate": 3.5955351182151824e-05,
      "loss": 0.5249,
      "step": 2278
    },
    {
      "epoch": 0.78,
      "learning_rate": 3.5847104288534884e-05,
      "loss": 0.3463,
      "step": 2279
    },
    {
      "epoch": 0.78,
      "learning_rate": 3.573899846740343e-05,
      "loss": 0.5763,
      "step": 2280
    },
    {
      "epoch": 0.78,
      "learning_rate": 3.563103385235699e-05,
      "loss": 0.366,
      "step": 2281
    },
    {
      "epoch": 0.78,
      "learning_rate": 3.552321057682042e-05,
      "loss": 0.2994,
      "step": 2282
    },
    {
      "epoch": 0.78,
      "learning_rate": 3.5415528774043864e-05,
      "loss": 0.3631,
      "step": 2283
    },
    {
      "epoch": 0.78,
      "learning_rate": 3.53079885771028e-05,
      "loss": 0.3868,
      "step": 2284
    },
    {
      "epoch": 0.78,
      "learning_rate": 3.520059011889753e-05,
      "loss": 0.4117,
      "step": 2285
    },
    {
      "epoch": 0.78,
      "learning_rate": 3.509333353215331e-05,
      "loss": 0.3066,
      "step": 2286
    },
    {
      "epoch": 0.78,
      "learning_rate": 3.4986218949419955e-05,
      "loss": 0.4353,
      "step": 2287
    },
    {
      "epoch": 0.79,
      "learning_rate": 3.4879246503071965e-05,
      "loss": 0.2818,
      "step": 2288
    },
    {
      "epoch": 0.79,
      "learning_rate": 3.477241632530802e-05,
      "loss": 0.4487,
      "step": 2289
    },
    {
      "epoch": 0.79,
      "learning_rate": 3.4665728548151e-05,
      "loss": 0.5368,
      "step": 2290
    },
    {
      "epoch": 0.79,
      "learning_rate": 3.455918330344799e-05,
      "loss": 0.3438,
      "step": 2291
    },
    {
      "epoch": 0.79,
      "learning_rate": 3.445278072286958e-05,
      "loss": 0.4047,
      "step": 2292
    },
    {
      "epoch": 0.79,
      "learning_rate": 3.434652093791043e-05,
      "loss": 0.465,
      "step": 2293
    },
    {
      "epoch": 0.79,
      "learning_rate": 3.424040407988847e-05,
      "loss": 0.3717,
      "step": 2294
    },
    {
      "epoch": 0.79,
      "learning_rate": 3.413443027994507e-05,
      "loss": 0.4186,
      "step": 2295
    },
    {
      "epoch": 0.79,
      "learning_rate": 3.40285996690449e-05,
      "loss": 0.516,
      "step": 2296
    },
    {
      "epoch": 0.79,
      "learning_rate": 3.392291237797556e-05,
      "loss": 0.4067,
      "step": 2297
    },
    {
      "epoch": 0.79,
      "learning_rate": 3.3817368537347556e-05,
      "loss": 0.4301,
      "step": 2298
    },
    {
      "epoch": 0.79,
      "learning_rate": 3.3711968277594094e-05,
      "loss": 0.5733,
      "step": 2299
    },
    {
      "epoch": 0.79,
      "learning_rate": 3.3606711728971043e-05,
      "loss": 0.4754,
      "step": 2300
    },
    {
      "epoch": 0.79,
      "eval_loss": 0.5145557522773743,
      "eval_runtime": 41.5815,
      "eval_samples_per_second": 2.261,
      "eval_steps_per_second": 0.289,
      "step": 2300
    },
    {
      "epoch": 0.79,
      "learning_rate": 3.350159902155657e-05,
      "loss": 0.4753,
      "step": 2301
    },
    {
      "epoch": 0.79,
      "learning_rate": 3.339663028525108e-05,
      "loss": 0.4825,
      "step": 2302
    },
    {
      "epoch": 0.79,
      "learning_rate": 3.3291805649777194e-05,
      "loss": 0.4916,
      "step": 2303
    },
    {
      "epoch": 0.79,
      "learning_rate": 3.318712524467918e-05,
      "loss": 0.4964,
      "step": 2304
    },
    {
      "epoch": 0.79,
      "learning_rate": 3.3082589199323363e-05,
      "loss": 0.262,
      "step": 2305
    },
    {
      "epoch": 0.79,
      "learning_rate": 3.2978197642897465e-05,
      "loss": 0.5207,
      "step": 2306
    },
    {
      "epoch": 0.79,
      "learning_rate": 3.287395070441069e-05,
      "loss": 0.4001,
      "step": 2307
    },
    {
      "epoch": 0.79,
      "learning_rate": 3.2769848512693604e-05,
      "loss": 0.4613,
      "step": 2308
    },
    {
      "epoch": 0.79,
      "learning_rate": 3.266589119639777e-05,
      "loss": 0.3989,
      "step": 2309
    },
    {
      "epoch": 0.79,
      "learning_rate": 3.256207888399582e-05,
      "loss": 0.5025,
      "step": 2310
    },
    {
      "epoch": 0.79,
      "learning_rate": 3.245841170378106e-05,
      "loss": 0.5808,
      "step": 2311
    },
    {
      "epoch": 0.79,
      "learning_rate": 3.235488978386758e-05,
      "loss": 0.5693,
      "step": 2312
    },
    {
      "epoch": 0.79,
      "learning_rate": 3.225151325218988e-05,
      "loss": 0.627,
      "step": 2313
    },
    {
      "epoch": 0.79,
      "learning_rate": 3.214828223650273e-05,
      "loss": 0.3992,
      "step": 2314
    },
    {
      "epoch": 0.79,
      "learning_rate": 3.2045196864381265e-05,
      "loss": 0.2623,
      "step": 2315
    },
    {
      "epoch": 0.79,
      "learning_rate": 3.194225726322035e-05,
      "loss": 0.3844,
      "step": 2316
    },
    {
      "epoch": 0.8,
      "learning_rate": 3.183946356023495e-05,
      "loss": 0.4672,
      "step": 2317
    },
    {
      "epoch": 0.8,
      "learning_rate": 3.1736815882459584e-05,
      "loss": 0.4871,
      "step": 2318
    },
    {
      "epoch": 0.8,
      "learning_rate": 3.163431435674834e-05,
      "loss": 0.479,
      "step": 2319
    },
    {
      "epoch": 0.8,
      "learning_rate": 3.153195910977475e-05,
      "loss": 0.3892,
      "step": 2320
    },
    {
      "epoch": 0.8,
      "learning_rate": 3.142975026803151e-05,
      "loss": 0.2672,
      "step": 2321
    },
    {
      "epoch": 0.8,
      "learning_rate": 3.132768795783039e-05,
      "loss": 0.4449,
      "step": 2322
    },
    {
      "epoch": 0.8,
      "learning_rate": 3.122577230530205e-05,
      "loss": 0.2866,
      "step": 2323
    },
    {
      "epoch": 0.8,
      "learning_rate": 3.112400343639599e-05,
      "loss": 0.3209,
      "step": 2324
    },
    {
      "epoch": 0.8,
      "learning_rate": 3.102238147688028e-05,
      "loss": 0.4619,
      "step": 2325
    },
    {
      "epoch": 0.8,
      "learning_rate": 3.0920906552341315e-05,
      "loss": 0.3244,
      "step": 2326
    },
    {
      "epoch": 0.8,
      "learning_rate": 3.081957878818404e-05,
      "loss": 0.4643,
      "step": 2327
    },
    {
      "epoch": 0.8,
      "learning_rate": 3.071839830963121e-05,
      "loss": 0.5384,
      "step": 2328
    },
    {
      "epoch": 0.8,
      "learning_rate": 3.061736524172385e-05,
      "loss": 0.7388,
      "step": 2329
    },
    {
      "epoch": 0.8,
      "learning_rate": 3.0516479709320658e-05,
      "loss": 0.303,
      "step": 2330
    },
    {
      "epoch": 0.8,
      "learning_rate": 3.0415741837098013e-05,
      "loss": 0.4239,
      "step": 2331
    },
    {
      "epoch": 0.8,
      "learning_rate": 3.0315151749549897e-05,
      "loss": 0.2292,
      "step": 2332
    },
    {
      "epoch": 0.8,
      "learning_rate": 3.021470957098756e-05,
      "loss": 0.483,
      "step": 2333
    },
    {
      "epoch": 0.8,
      "learning_rate": 3.0114415425539522e-05,
      "loss": 0.3911,
      "step": 2334
    },
    {
      "epoch": 0.8,
      "learning_rate": 3.001426943715129e-05,
      "loss": 0.5843,
      "step": 2335
    },
    {
      "epoch": 0.8,
      "learning_rate": 2.991427172958541e-05,
      "loss": 0.3848,
      "step": 2336
    },
    {
      "epoch": 0.8,
      "learning_rate": 2.9814422426421065e-05,
      "loss": 0.3578,
      "step": 2337
    },
    {
      "epoch": 0.8,
      "learning_rate": 2.9714721651053995e-05,
      "loss": 0.3877,
      "step": 2338
    },
    {
      "epoch": 0.8,
      "learning_rate": 2.9615169526696612e-05,
      "loss": 0.2555,
      "step": 2339
    },
    {
      "epoch": 0.8,
      "learning_rate": 2.9515766176377305e-05,
      "loss": 0.4473,
      "step": 2340
    },
    {
      "epoch": 0.8,
      "learning_rate": 2.9416511722940884e-05,
      "loss": 0.4547,
      "step": 2341
    },
    {
      "epoch": 0.8,
      "learning_rate": 2.9317406289047985e-05,
      "loss": 0.5091,
      "step": 2342
    },
    {
      "epoch": 0.8,
      "learning_rate": 2.9218449997175103e-05,
      "loss": 0.2781,
      "step": 2343
    },
    {
      "epoch": 0.8,
      "learning_rate": 2.9119642969614532e-05,
      "loss": 0.3604,
      "step": 2344
    },
    {
      "epoch": 0.8,
      "learning_rate": 2.902098532847396e-05,
      "loss": 0.3829,
      "step": 2345
    },
    {
      "epoch": 0.81,
      "learning_rate": 2.8922477195676547e-05,
      "loss": 0.4924,
      "step": 2346
    },
    {
      "epoch": 0.81,
      "learning_rate": 2.8824118692960625e-05,
      "loss": 0.3703,
      "step": 2347
    },
    {
      "epoch": 0.81,
      "learning_rate": 2.8725909941879692e-05,
      "loss": 0.3436,
      "step": 2348
    },
    {
      "epoch": 0.81,
      "learning_rate": 2.8627851063802103e-05,
      "loss": 0.3887,
      "step": 2349
    },
    {
      "epoch": 0.81,
      "learning_rate": 2.8529942179911002e-05,
      "loss": 0.3536,
      "step": 2350
    },
    {
      "epoch": 0.81,
      "learning_rate": 2.84321834112043e-05,
      "loss": 0.3097,
      "step": 2351
    },
    {
      "epoch": 0.81,
      "learning_rate": 2.8334574878494143e-05,
      "loss": 0.5549,
      "step": 2352
    },
    {
      "epoch": 0.81,
      "learning_rate": 2.8237116702407253e-05,
      "loss": 0.3947,
      "step": 2353
    },
    {
      "epoch": 0.81,
      "learning_rate": 2.8139809003384407e-05,
      "loss": 0.4004,
      "step": 2354
    },
    {
      "epoch": 0.81,
      "learning_rate": 2.8042651901680407e-05,
      "loss": 0.4539,
      "step": 2355
    },
    {
      "epoch": 0.81,
      "learning_rate": 2.7945645517364064e-05,
      "loss": 0.4363,
      "step": 2356
    },
    {
      "epoch": 0.81,
      "learning_rate": 2.784878997031784e-05,
      "loss": 0.475,
      "step": 2357
    },
    {
      "epoch": 0.81,
      "learning_rate": 2.7752085380237783e-05,
      "loss": 0.4193,
      "step": 2358
    },
    {
      "epoch": 0.81,
      "learning_rate": 2.7655531866633352e-05,
      "loss": 0.4439,
      "step": 2359
    },
    {
      "epoch": 0.81,
      "learning_rate": 2.7559129548827467e-05,
      "loss": 0.4353,
      "step": 2360
    },
    {
      "epoch": 0.81,
      "learning_rate": 2.746287854595602e-05,
      "loss": 0.4708,
      "step": 2361
    },
    {
      "epoch": 0.81,
      "learning_rate": 2.736677897696795e-05,
      "loss": 0.5215,
      "step": 2362
    },
    {
      "epoch": 0.81,
      "learning_rate": 2.7270830960625184e-05,
      "loss": 0.3716,
      "step": 2363
    },
    {
      "epoch": 0.81,
      "learning_rate": 2.7175034615502068e-05,
      "loss": 0.3748,
      "step": 2364
    },
    {
      "epoch": 0.81,
      "learning_rate": 2.7079390059985833e-05,
      "loss": 0.4331,
      "step": 2365
    },
    {
      "epoch": 0.81,
      "learning_rate": 2.6983897412275936e-05,
      "loss": 0.4035,
      "step": 2366
    },
    {
      "epoch": 0.81,
      "learning_rate": 2.6888556790384087e-05,
      "loss": 0.4703,
      "step": 2367
    },
    {
      "epoch": 0.81,
      "learning_rate": 2.6793368312134273e-05,
      "loss": 0.4672,
      "step": 2368
    },
    {
      "epoch": 0.81,
      "learning_rate": 2.6698332095162328e-05,
      "loss": 0.401,
      "step": 2369
    },
    {
      "epoch": 0.81,
      "learning_rate": 2.6603448256915936e-05,
      "loss": 0.3471,
      "step": 2370
    },
    {
      "epoch": 0.81,
      "learning_rate": 2.650871691465447e-05,
      "loss": 0.4014,
      "step": 2371
    },
    {
      "epoch": 0.81,
      "learning_rate": 2.6414138185448928e-05,
      "loss": 0.4279,
      "step": 2372
    },
    {
      "epoch": 0.81,
      "learning_rate": 2.63197121861816e-05,
      "loss": 0.354,
      "step": 2373
    },
    {
      "epoch": 0.81,
      "learning_rate": 2.6225439033546043e-05,
      "loss": 0.4149,
      "step": 2374
    },
    {
      "epoch": 0.81,
      "learning_rate": 2.613131884404704e-05,
      "loss": 0.4506,
      "step": 2375
    },
    {
      "epoch": 0.82,
      "learning_rate": 2.6037351734000116e-05,
      "loss": 0.3608,
      "step": 2376
    },
    {
      "epoch": 0.82,
      "learning_rate": 2.5943537819531852e-05,
      "loss": 0.2911,
      "step": 2377
    },
    {
      "epoch": 0.82,
      "learning_rate": 2.5849877216579384e-05,
      "loss": 0.3541,
      "step": 2378
    },
    {
      "epoch": 0.82,
      "learning_rate": 2.5756370040890344e-05,
      "loss": 0.3909,
      "step": 2379
    },
    {
      "epoch": 0.82,
      "learning_rate": 2.5663016408022898e-05,
      "loss": 0.4099,
      "step": 2380
    },
    {
      "epoch": 0.82,
      "learning_rate": 2.5569816433345336e-05,
      "loss": 0.3602,
      "step": 2381
    },
    {
      "epoch": 0.82,
      "learning_rate": 2.5476770232036098e-05,
      "loss": 0.4084,
      "step": 2382
    },
    {
      "epoch": 0.82,
      "learning_rate": 2.538387791908355e-05,
      "loss": 0.3977,
      "step": 2383
    },
    {
      "epoch": 0.82,
      "learning_rate": 2.5291139609285997e-05,
      "loss": 0.2864,
      "step": 2384
    },
    {
      "epoch": 0.82,
      "learning_rate": 2.5198555417251282e-05,
      "loss": 0.4589,
      "step": 2385
    },
    {
      "epoch": 0.82,
      "learning_rate": 2.5106125457396807e-05,
      "loss": 0.4753,
      "step": 2386
    },
    {
      "epoch": 0.82,
      "learning_rate": 2.5013849843949556e-05,
      "loss": 0.2082,
      "step": 2387
    },
    {
      "epoch": 0.82,
      "learning_rate": 2.4921728690945425e-05,
      "loss": 0.3267,
      "step": 2388
    },
    {
      "epoch": 0.82,
      "learning_rate": 2.482976211222978e-05,
      "loss": 0.4041,
      "step": 2389
    },
    {
      "epoch": 0.82,
      "learning_rate": 2.473795022145672e-05,
      "loss": 0.3974,
      "step": 2390
    },
    {
      "epoch": 0.82,
      "learning_rate": 2.464629313208924e-05,
      "loss": 0.5238,
      "step": 2391
    },
    {
      "epoch": 0.82,
      "learning_rate": 2.4554790957399145e-05,
      "loss": 0.3521,
      "step": 2392
    },
    {
      "epoch": 0.82,
      "learning_rate": 2.4463443810466614e-05,
      "loss": 0.3213,
      "step": 2393
    },
    {
      "epoch": 0.82,
      "learning_rate": 2.4372251804180364e-05,
      "loss": 0.3742,
      "step": 2394
    },
    {
      "epoch": 0.82,
      "learning_rate": 2.428121505123728e-05,
      "loss": 0.4834,
      "step": 2395
    },
    {
      "epoch": 0.82,
      "learning_rate": 2.4190333664142513e-05,
      "loss": 0.4734,
      "step": 2396
    },
    {
      "epoch": 0.82,
      "learning_rate": 2.4099607755209143e-05,
      "loss": 0.3551,
      "step": 2397
    },
    {
      "epoch": 0.82,
      "learning_rate": 2.400903743655803e-05,
      "loss": 0.4241,
      "step": 2398
    },
    {
      "epoch": 0.82,
      "learning_rate": 2.3918622820117962e-05,
      "loss": 0.5039,
      "step": 2399
    },
    {
      "epoch": 0.82,
      "learning_rate": 2.3828364017625003e-05,
      "loss": 0.4702,
      "step": 2400
    },
    {
      "epoch": 0.82,
      "eval_loss": 0.5123106241226196,
      "eval_runtime": 41.4581,
      "eval_samples_per_second": 2.267,
      "eval_steps_per_second": 0.289,
      "step": 2400
    },
    {
      "epoch": 0.82,
      "learning_rate": 2.373826114062296e-05,
      "loss": 0.5158,
      "step": 2401
    },
    {
      "epoch": 0.82,
      "learning_rate": 2.3648314300462766e-05,
      "loss": 0.3602,
      "step": 2402
    },
    {
      "epoch": 0.82,
      "learning_rate": 2.3558523608302536e-05,
      "loss": 0.3943,
      "step": 2403
    },
    {
      "epoch": 0.82,
      "learning_rate": 2.3468889175107526e-05,
      "loss": 0.3495,
      "step": 2404
    },
    {
      "epoch": 0.83,
      "learning_rate": 2.3379411111649753e-05,
      "loss": 0.4752,
      "step": 2405
    },
    {
      "epoch": 0.83,
      "learning_rate": 2.329008952850804e-05,
      "loss": 0.3198,
      "step": 2406
    },
    {
      "epoch": 0.83,
      "learning_rate": 2.3200924536067795e-05,
      "loss": 0.4177,
      "step": 2407
    },
    {
      "epoch": 0.83,
      "learning_rate": 2.311191624452103e-05,
      "loss": 0.4242,
      "step": 2408
    },
    {
      "epoch": 0.83,
      "learning_rate": 2.302306476386595e-05,
      "loss": 0.4132,
      "step": 2409
    },
    {
      "epoch": 0.83,
      "learning_rate": 2.293437020390701e-05,
      "loss": 0.368,
      "step": 2410
    },
    {
      "epoch": 0.83,
      "learning_rate": 2.2845832674254877e-05,
      "loss": 0.2846,
      "step": 2411
    },
    {
      "epoch": 0.83,
      "learning_rate": 2.2757452284325893e-05,
      "loss": 0.4216,
      "step": 2412
    },
    {
      "epoch": 0.83,
      "learning_rate": 2.266922914334246e-05,
      "loss": 0.4911,
      "step": 2413
    },
    {
      "epoch": 0.83,
      "learning_rate": 2.258116336033251e-05,
      "loss": 0.5004,
      "step": 2414
    },
    {
      "epoch": 0.83,
      "learning_rate": 2.2493255044129506e-05,
      "loss": 0.3936,
      "step": 2415
    },
    {
      "epoch": 0.83,
      "learning_rate": 2.2405504303372407e-05,
      "loss": 0.3783,
      "step": 2416
    },
    {
      "epoch": 0.83,
      "learning_rate": 2.2317911246505336e-05,
      "loss": 0.4067,
      "step": 2417
    },
    {
      "epoch": 0.83,
      "learning_rate": 2.223047598177761e-05,
      "loss": 0.2891,
      "step": 2418
    },
    {
      "epoch": 0.83,
      "learning_rate": 2.2143198617243462e-05,
      "loss": 0.4873,
      "step": 2419
    },
    {
      "epoch": 0.83,
      "learning_rate": 2.2056079260762128e-05,
      "loss": 0.3806,
      "step": 2420
    },
    {
      "epoch": 0.83,
      "learning_rate": 2.196911801999746e-05,
      "loss": 0.4877,
      "step": 2421
    },
    {
      "epoch": 0.83,
      "learning_rate": 2.1882315002417883e-05,
      "loss": 0.4107,
      "step": 2422
    },
    {
      "epoch": 0.83,
      "learning_rate": 2.179567031529648e-05,
      "loss": 0.4013,
      "step": 2423
    },
    {
      "epoch": 0.83,
      "learning_rate": 2.1709184065710355e-05,
      "loss": 0.339,
      "step": 2424
    },
    {
      "epoch": 0.83,
      "learning_rate": 2.1622856360541125e-05,
      "loss": 0.3925,
      "step": 2425
    },
    {
      "epoch": 0.83,
      "learning_rate": 2.1536687306474265e-05,
      "loss": 0.5156,
      "step": 2426
    },
    {
      "epoch": 0.83,
      "learning_rate": 2.1450677009999246e-05,
      "loss": 0.2917,
      "step": 2427
    },
    {
      "epoch": 0.83,
      "learning_rate": 2.1364825577409422e-05,
      "loss": 0.3646,
      "step": 2428
    },
    {
      "epoch": 0.83,
      "learning_rate": 2.127913311480171e-05,
      "loss": 0.4236,
      "step": 2429
    },
    {
      "epoch": 0.83,
      "learning_rate": 2.1193599728076616e-05,
      "loss": 0.4259,
      "step": 2430
    },
    {
      "epoch": 0.83,
      "learning_rate": 2.1108225522938e-05,
      "loss": 0.4037,
      "step": 2431
    },
    {
      "epoch": 0.83,
      "learning_rate": 2.1023010604893132e-05,
      "loss": 0.4841,
      "step": 2432
    },
    {
      "epoch": 0.83,
      "learning_rate": 2.093795507925232e-05,
      "loss": 0.3744,
      "step": 2433
    },
    {
      "epoch": 0.84,
      "learning_rate": 2.085305905112889e-05,
      "loss": 0.433,
      "step": 2434
    },
    {
      "epoch": 0.84,
      "learning_rate": 2.0768322625439193e-05,
      "loss": 0.4295,
      "step": 2435
    },
    {
      "epoch": 0.84,
      "learning_rate": 2.06837459069021e-05,
      "loss": 0.3678,
      "step": 2436
    },
    {
      "epoch": 0.84,
      "learning_rate": 2.059932900003935e-05,
      "loss": 0.4412,
      "step": 2437
    },
    {
      "epoch": 0.84,
      "learning_rate": 2.051507200917506e-05,
      "loss": 0.4428,
      "step": 2438
    },
    {
      "epoch": 0.84,
      "learning_rate": 2.0430975038435705e-05,
      "loss": 0.3511,
      "step": 2439
    },
    {
      "epoch": 0.84,
      "learning_rate": 2.0347038191750096e-05,
      "loss": 0.3203,
      "step": 2440
    },
    {
      "epoch": 0.84,
      "learning_rate": 2.0263261572849117e-05,
      "loss": 0.4101,
      "step": 2441
    },
    {
      "epoch": 0.84,
      "learning_rate": 2.017964528526557e-05,
      "loss": 0.3414,
      "step": 2442
    },
    {
      "epoch": 0.84,
      "learning_rate": 2.009618943233419e-05,
      "loss": 0.3934,
      "step": 2443
    },
    {
      "epoch": 0.84,
      "learning_rate": 2.0012894117191473e-05,
      "loss": 0.4716,
      "step": 2444
    },
    {
      "epoch": 0.84,
      "learning_rate": 1.9929759442775463e-05,
      "loss": 0.5731,
      "step": 2445
    },
    {
      "epoch": 0.84,
      "learning_rate": 1.9846785511825618e-05,
      "loss": 0.3842,
      "step": 2446
    },
    {
      "epoch": 0.84,
      "learning_rate": 1.9763972426882958e-05,
      "loss": 0.305,
      "step": 2447
    },
    {
      "epoch": 0.84,
      "learning_rate": 1.9681320290289442e-05,
      "loss": 0.2953,
      "step": 2448
    },
    {
      "epoch": 0.84,
      "learning_rate": 1.9598829204188353e-05,
      "loss": 0.4649,
      "step": 2449
    },
    {
      "epoch": 0.84,
      "learning_rate": 1.9516499270523878e-05,
      "loss": 0.6898,
      "step": 2450
    },
    {
      "epoch": 0.84,
      "learning_rate": 1.943433059104096e-05,
      "loss": 0.4684,
      "step": 2451
    },
    {
      "epoch": 0.84,
      "learning_rate": 1.9352323267285418e-05,
      "loss": 0.2203,
      "step": 2452
    },
    {
      "epoch": 0.84,
      "learning_rate": 1.927047740060354e-05,
      "loss": 0.6617,
      "step": 2453
    },
    {
      "epoch": 0.84,
      "learning_rate": 1.918879309214213e-05,
      "loss": 0.3965,
      "step": 2454
    },
    {
      "epoch": 0.84,
      "learning_rate": 1.9107270442848304e-05,
      "loss": 0.3782,
      "step": 2455
    },
    {
      "epoch": 0.84,
      "learning_rate": 1.9025909553469476e-05,
      "loss": 0.364,
      "step": 2456
    },
    {
      "epoch": 0.84,
      "learning_rate": 1.8944710524553063e-05,
      "loss": 0.4265,
      "step": 2457
    },
    {
      "epoch": 0.84,
      "learning_rate": 1.8863673456446465e-05,
      "loss": 0.4046,
      "step": 2458
    },
    {
      "epoch": 0.84,
      "learning_rate": 1.8782798449297036e-05,
      "loss": 0.5474,
      "step": 2459
    },
    {
      "epoch": 0.84,
      "learning_rate": 1.8702085603051647e-05,
      "loss": 0.431,
      "step": 2460
    },
    {
      "epoch": 0.84,
      "learning_rate": 1.8621535017456973e-05,
      "loss": 0.2132,
      "step": 2461
    },
    {
      "epoch": 0.84,
      "learning_rate": 1.8541146792059052e-05,
      "loss": 0.35,
      "step": 2462
    },
    {
      "epoch": 0.85,
      "learning_rate": 1.8460921026203268e-05,
      "loss": 0.293,
      "step": 2463
    },
    {
      "epoch": 0.85,
      "learning_rate": 1.838085781903433e-05,
      "loss": 0.3361,
      "step": 2464
    },
    {
      "epoch": 0.85,
      "learning_rate": 1.8300957269495935e-05,
      "loss": 0.5438,
      "step": 2465
    },
    {
      "epoch": 0.85,
      "learning_rate": 1.822121947633084e-05,
      "loss": 0.3356,
      "step": 2466
    },
    {
      "epoch": 0.85,
      "learning_rate": 1.8141644538080613e-05,
      "loss": 0.3786,
      "step": 2467
    },
    {
      "epoch": 0.85,
      "learning_rate": 1.8062232553085642e-05,
      "loss": 0.3087,
      "step": 2468
    },
    {
      "epoch": 0.85,
      "learning_rate": 1.7982983619484858e-05,
      "loss": 0.5325,
      "step": 2469
    },
    {
      "epoch": 0.85,
      "learning_rate": 1.7903897835215687e-05,
      "loss": 0.4818,
      "step": 2470
    },
    {
      "epoch": 0.85,
      "learning_rate": 1.782497529801406e-05,
      "loss": 0.4339,
      "step": 2471
    },
    {
      "epoch": 0.85,
      "learning_rate": 1.7746216105413914e-05,
      "loss": 0.356,
      "step": 2472
    },
    {
      "epoch": 0.85,
      "learning_rate": 1.7667620354747584e-05,
      "loss": 0.393,
      "step": 2473
    },
    {
      "epoch": 0.85,
      "learning_rate": 1.7589188143145283e-05,
      "loss": 0.3619,
      "step": 2474
    },
    {
      "epoch": 0.85,
      "learning_rate": 1.7510919567535104e-05,
      "loss": 0.383,
      "step": 2475
    },
    {
      "epoch": 0.85,
      "learning_rate": 1.7432814724643007e-05,
      "loss": 0.4138,
      "step": 2476
    },
    {
      "epoch": 0.85,
      "learning_rate": 1.7354873710992536e-05,
      "loss": 0.4337,
      "step": 2477
    },
    {
      "epoch": 0.85,
      "learning_rate": 1.72770966229048e-05,
      "loss": 0.4177,
      "step": 2478
    },
    {
      "epoch": 0.85,
      "learning_rate": 1.719948355649827e-05,
      "loss": 0.3815,
      "step": 2479
    },
    {
      "epoch": 0.85,
      "learning_rate": 1.712203460768884e-05,
      "loss": 0.3792,
      "step": 2480
    },
    {
      "epoch": 0.85,
      "learning_rate": 1.7044749872189457e-05,
      "loss": 0.3235,
      "step": 2481
    },
    {
      "epoch": 0.85,
      "learning_rate": 1.6967629445510154e-05,
      "loss": 0.4445,
      "step": 2482
    },
    {
      "epoch": 0.85,
      "learning_rate": 1.6890673422958035e-05,
      "loss": 0.3249,
      "step": 2483
    },
    {
      "epoch": 0.85,
      "learning_rate": 1.68138818996368e-05,
      "loss": 0.3913,
      "step": 2484
    },
    {
      "epoch": 0.85,
      "learning_rate": 1.673725497044707e-05,
      "loss": 0.3987,
      "step": 2485
    },
    {
      "epoch": 0.85,
      "learning_rate": 1.666079273008597e-05,
      "loss": 0.325,
      "step": 2486
    },
    {
      "epoch": 0.85,
      "learning_rate": 1.6584495273047037e-05,
      "loss": 0.5514,
      "step": 2487
    },
    {
      "epoch": 0.85,
      "learning_rate": 1.6508362693620304e-05,
      "loss": 0.4994,
      "step": 2488
    },
    {
      "epoch": 0.85,
      "learning_rate": 1.643239508589195e-05,
      "loss": 0.4783,
      "step": 2489
    },
    {
      "epoch": 0.85,
      "learning_rate": 1.635659254374429e-05,
      "loss": 0.4522,
      "step": 2490
    },
    {
      "epoch": 0.85,
      "learning_rate": 1.6280955160855628e-05,
      "loss": 0.4218,
      "step": 2491
    },
    {
      "epoch": 0.86,
      "learning_rate": 1.620548303070025e-05,
      "loss": 0.4299,
      "step": 2492
    },
    {
      "epoch": 0.86,
      "learning_rate": 1.6130176246548127e-05,
      "loss": 0.4288,
      "step": 2493
    },
    {
      "epoch": 0.86,
      "learning_rate": 1.6055034901464915e-05,
      "loss": 0.3829,
      "step": 2494
    },
    {
      "epoch": 0.86,
      "learning_rate": 1.5980059088311897e-05,
      "loss": 0.3838,
      "step": 2495
    },
    {
      "epoch": 0.86,
      "learning_rate": 1.5905248899745593e-05,
      "loss": 0.377,
      "step": 2496
    },
    {
      "epoch": 0.86,
      "learning_rate": 1.5830604428218064e-05,
      "loss": 0.589,
      "step": 2497
    },
    {
      "epoch": 0.86,
      "learning_rate": 1.5756125765976453e-05,
      "loss": 0.482,
      "step": 2498
    },
    {
      "epoch": 0.86,
      "learning_rate": 1.5681813005062982e-05,
      "loss": 0.4418,
      "step": 2499
    },
    {
      "epoch": 0.86,
      "learning_rate": 1.5607666237314925e-05,
      "loss": 0.5135,
      "step": 2500
    },
    {
      "epoch": 0.86,
      "eval_loss": 0.5098740458488464,
      "eval_runtime": 44.8436,
      "eval_samples_per_second": 2.096,
      "eval_steps_per_second": 0.268,
      "step": 2500
    }
  ],
  "logging_steps": 1,
  "max_steps": 2914,
  "num_train_epochs": 1,
  "save_steps": 500,
  "total_flos": 1.4016003753480684e+18,
  "trial_name": null,
  "trial_params": null
}