{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 19.999983677999577,
  "global_step": 612660,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.1,
      "learning_rate": 9.951082166291254e-05,
      "loss": 4.9783,
      "step": 3000
    },
    {
      "epoch": 0.2,
      "learning_rate": 9.902115365782e-05,
      "loss": 3.1296,
      "step": 6000
    },
    {
      "epoch": 0.29,
      "learning_rate": 9.853148565272745e-05,
      "loss": 2.7383,
      "step": 9000
    },
    {
      "epoch": 0.39,
      "learning_rate": 9.804181764763491e-05,
      "loss": 2.5447,
      "step": 12000
    },
    {
      "epoch": 0.49,
      "learning_rate": 9.755231286521073e-05,
      "loss": 2.4175,
      "step": 15000
    },
    {
      "epoch": 0.59,
      "learning_rate": 9.706280808278654e-05,
      "loss": 2.3285,
      "step": 18000
    },
    {
      "epoch": 0.69,
      "learning_rate": 9.657346652303072e-05,
      "loss": 2.2597,
      "step": 21000
    },
    {
      "epoch": 0.78,
      "learning_rate": 9.608396174060654e-05,
      "loss": 2.2072,
      "step": 24000
    },
    {
      "epoch": 0.88,
      "learning_rate": 9.559462018085072e-05,
      "loss": 2.1601,
      "step": 27000
    },
    {
      "epoch": 0.98,
      "learning_rate": 9.510511539842654e-05,
      "loss": 2.125,
      "step": 30000
    },
    {
      "epoch": 1.0,
      "eval_loss": 2.072047233581543,
      "eval_runtime": 19.2095,
      "eval_samples_per_second": 1536.842,
      "eval_steps_per_second": 9.631,
      "step": 30633
    },
    {
      "epoch": 1.08,
      "learning_rate": 9.461577383867072e-05,
      "loss": 2.0771,
      "step": 33000
    },
    {
      "epoch": 1.18,
      "learning_rate": 9.412626905624655e-05,
      "loss": 2.0514,
      "step": 36000
    },
    {
      "epoch": 1.27,
      "learning_rate": 9.363692749649071e-05,
      "loss": 2.0297,
      "step": 39000
    },
    {
      "epoch": 1.37,
      "learning_rate": 9.314742271406653e-05,
      "loss": 2.0123,
      "step": 42000
    },
    {
      "epoch": 1.47,
      "learning_rate": 9.265791793164235e-05,
      "loss": 1.9955,
      "step": 45000
    },
    {
      "epoch": 1.57,
      "learning_rate": 9.216857637188653e-05,
      "loss": 1.9803,
      "step": 48000
    },
    {
      "epoch": 1.66,
      "learning_rate": 9.167907158946235e-05,
      "loss": 1.9667,
      "step": 51000
    },
    {
      "epoch": 1.76,
      "learning_rate": 9.118973002970654e-05,
      "loss": 1.9505,
      "step": 54000
    },
    {
      "epoch": 1.86,
      "learning_rate": 9.070022524728234e-05,
      "loss": 1.9381,
      "step": 57000
    },
    {
      "epoch": 1.96,
      "learning_rate": 9.021088368752652e-05,
      "loss": 1.9288,
      "step": 60000
    },
    {
      "epoch": 2.0,
      "eval_loss": 1.9032506942749023,
      "eval_runtime": 19.1781,
      "eval_samples_per_second": 1539.357,
      "eval_steps_per_second": 9.646,
      "step": 61266
    },
    {
      "epoch": 2.06,
      "learning_rate": 8.972137890510235e-05,
      "loss": 1.9011,
      "step": 63000
    },
    {
      "epoch": 2.15,
      "learning_rate": 8.923203734534653e-05,
      "loss": 1.8834,
      "step": 66000
    },
    {
      "epoch": 2.25,
      "learning_rate": 8.874253256292235e-05,
      "loss": 1.8807,
      "step": 69000
    },
    {
      "epoch": 2.35,
      "learning_rate": 8.825319100316653e-05,
      "loss": 1.8737,
      "step": 72000
    },
    {
      "epoch": 2.45,
      "learning_rate": 8.776368622074233e-05,
      "loss": 1.8686,
      "step": 75000
    },
    {
      "epoch": 2.55,
      "learning_rate": 8.727434466098652e-05,
      "loss": 1.861,
      "step": 78000
    },
    {
      "epoch": 2.64,
      "learning_rate": 8.678483987856234e-05,
      "loss": 1.8549,
      "step": 81000
    },
    {
      "epoch": 2.74,
      "learning_rate": 8.629549831880652e-05,
      "loss": 1.8503,
      "step": 84000
    },
    {
      "epoch": 2.84,
      "learning_rate": 8.580599353638234e-05,
      "loss": 1.8446,
      "step": 87000
    },
    {
      "epoch": 2.94,
      "learning_rate": 8.531665197662652e-05,
      "loss": 1.8387,
      "step": 90000
    },
    {
      "epoch": 3.0,
      "eval_loss": 1.833019733428955,
      "eval_runtime": 19.0959,
      "eval_samples_per_second": 1545.988,
      "eval_steps_per_second": 9.688,
      "step": 91899
    },
    {
      "epoch": 3.04,
      "learning_rate": 8.482714719420234e-05,
      "loss": 1.8222,
      "step": 93000
    },
    {
      "epoch": 3.13,
      "learning_rate": 8.433764241177815e-05,
      "loss": 1.8037,
      "step": 96000
    },
    {
      "epoch": 3.23,
      "learning_rate": 8.384830085202233e-05,
      "loss": 1.8017,
      "step": 99000
    },
    {
      "epoch": 3.33,
      "learning_rate": 8.335879606959815e-05,
      "loss": 1.8018,
      "step": 102000
    },
    {
      "epoch": 3.43,
      "learning_rate": 8.286945450984233e-05,
      "loss": 1.7984,
      "step": 105000
    },
    {
      "epoch": 3.53,
      "learning_rate": 8.237994972741815e-05,
      "loss": 1.796,
      "step": 108000
    },
    {
      "epoch": 3.62,
      "learning_rate": 8.189060816766233e-05,
      "loss": 1.7942,
      "step": 111000
    },
    {
      "epoch": 3.72,
      "learning_rate": 8.140110338523814e-05,
      "loss": 1.7905,
      "step": 114000
    },
    {
      "epoch": 3.82,
      "learning_rate": 8.091176182548232e-05,
      "loss": 1.7885,
      "step": 117000
    },
    {
      "epoch": 3.92,
      "learning_rate": 8.042225704305814e-05,
      "loss": 1.7832,
      "step": 120000
    },
    {
      "epoch": 4.0,
      "eval_loss": 1.7864413261413574,
      "eval_runtime": 19.3546,
      "eval_samples_per_second": 1525.321,
      "eval_steps_per_second": 9.558,
      "step": 122532
    },
    {
      "epoch": 4.02,
      "learning_rate": 7.993291548330233e-05,
      "loss": 1.7754,
      "step": 123000
    },
    {
      "epoch": 4.11,
      "learning_rate": 7.944341070087814e-05,
      "loss": 1.7507,
      "step": 126000
    },
    {
      "epoch": 4.21,
      "learning_rate": 7.895406914112233e-05,
      "loss": 1.7526,
      "step": 129000
    },
    {
      "epoch": 4.31,
      "learning_rate": 7.846456435869815e-05,
      "loss": 1.7541,
      "step": 132000
    },
    {
      "epoch": 4.41,
      "learning_rate": 7.797522279894231e-05,
      "loss": 1.7537,
      "step": 135000
    },
    {
      "epoch": 4.5,
      "learning_rate": 7.748571801651814e-05,
      "loss": 1.7541,
      "step": 138000
    },
    {
      "epoch": 4.6,
      "learning_rate": 7.699621323409395e-05,
      "loss": 1.7505,
      "step": 141000
    },
    {
      "epoch": 4.7,
      "learning_rate": 7.650687167433813e-05,
      "loss": 1.7475,
      "step": 144000
    },
    {
      "epoch": 4.8,
      "learning_rate": 7.601736689191396e-05,
      "loss": 1.7477,
      "step": 147000
    },
    {
      "epoch": 4.9,
      "learning_rate": 7.552802533215814e-05,
      "loss": 1.7461,
      "step": 150000
    },
    {
      "epoch": 4.99,
      "learning_rate": 7.503852054973394e-05,
      "loss": 1.7445,
      "step": 153000
    },
    {
      "epoch": 5.0,
      "eval_loss": 1.7591967582702637,
      "eval_runtime": 19.1359,
      "eval_samples_per_second": 1542.756,
      "eval_steps_per_second": 9.668,
      "step": 153165
    },
    {
      "epoch": 5.09,
      "learning_rate": 7.454917898997813e-05,
      "loss": 1.7143,
      "step": 156000
    },
    {
      "epoch": 5.19,
      "learning_rate": 7.405967420755395e-05,
      "loss": 1.7177,
      "step": 159000
    },
    {
      "epoch": 5.29,
      "learning_rate": 7.357033264779813e-05,
      "loss": 1.7188,
      "step": 162000
    },
    {
      "epoch": 5.39,
      "learning_rate": 7.308082786537395e-05,
      "loss": 1.7198,
      "step": 165000
    },
    {
      "epoch": 5.48,
      "learning_rate": 7.259148630561813e-05,
      "loss": 1.7202,
      "step": 168000
    },
    {
      "epoch": 5.58,
      "learning_rate": 7.210198152319395e-05,
      "loss": 1.7184,
      "step": 171000
    },
    {
      "epoch": 5.68,
      "learning_rate": 7.161247674076976e-05,
      "loss": 1.719,
      "step": 174000
    },
    {
      "epoch": 5.78,
      "learning_rate": 7.112313518101394e-05,
      "loss": 1.7173,
      "step": 177000
    },
    {
      "epoch": 5.88,
      "learning_rate": 7.063363039858976e-05,
      "loss": 1.7176,
      "step": 180000
    },
    {
      "epoch": 5.97,
      "learning_rate": 7.014428883883394e-05,
      "loss": 1.7152,
      "step": 183000
    },
    {
      "epoch": 6.0,
      "eval_loss": 1.740378975868225,
      "eval_runtime": 19.1537,
      "eval_samples_per_second": 1541.325,
      "eval_steps_per_second": 9.659,
      "step": 183798
    },
    {
      "epoch": 6.07,
      "learning_rate": 6.965478405640976e-05,
      "loss": 1.6926,
      "step": 186000
    },
    {
      "epoch": 6.17,
      "learning_rate": 6.916544249665395e-05,
      "loss": 1.6889,
      "step": 189000
    },
    {
      "epoch": 6.27,
      "learning_rate": 6.867593771422975e-05,
      "loss": 1.6923,
      "step": 192000
    },
    {
      "epoch": 6.37,
      "learning_rate": 6.818659615447393e-05,
      "loss": 1.693,
      "step": 195000
    },
    {
      "epoch": 6.46,
      "learning_rate": 6.769709137204976e-05,
      "loss": 1.694,
      "step": 198000
    },
    {
      "epoch": 6.56,
      "learning_rate": 6.720774981229393e-05,
      "loss": 1.6948,
      "step": 201000
    },
    {
      "epoch": 6.66,
      "learning_rate": 6.671824502986975e-05,
      "loss": 1.6944,
      "step": 204000
    },
    {
      "epoch": 6.76,
      "learning_rate": 6.622874024744557e-05,
      "loss": 1.6934,
      "step": 207000
    },
    {
      "epoch": 6.86,
      "learning_rate": 6.573939868768974e-05,
      "loss": 1.6926,
      "step": 210000
    },
    {
      "epoch": 6.95,
      "learning_rate": 6.524989390526556e-05,
      "loss": 1.6933,
      "step": 213000
    },
    {
      "epoch": 7.0,
      "eval_loss": 1.7208322286605835,
      "eval_runtime": 19.2921,
      "eval_samples_per_second": 1530.262,
      "eval_steps_per_second": 9.589,
      "step": 214431
    },
    {
      "epoch": 7.05,
      "learning_rate": 6.476055234550975e-05,
      "loss": 1.6773,
      "step": 216000
    },
    {
      "epoch": 7.15,
      "learning_rate": 6.427104756308556e-05,
      "loss": 1.6671,
      "step": 219000
    },
    {
      "epoch": 7.25,
      "learning_rate": 6.378170600332975e-05,
      "loss": 1.6695,
      "step": 222000
    },
    {
      "epoch": 7.35,
      "learning_rate": 6.329220122090557e-05,
      "loss": 1.6707,
      "step": 225000
    },
    {
      "epoch": 7.44,
      "learning_rate": 6.280285966114975e-05,
      "loss": 1.674,
      "step": 228000
    },
    {
      "epoch": 7.54,
      "learning_rate": 6.231335487872557e-05,
      "loss": 1.6726,
      "step": 231000
    },
    {
      "epoch": 7.64,
      "learning_rate": 6.182401331896974e-05,
      "loss": 1.6739,
      "step": 234000
    },
    {
      "epoch": 7.74,
      "learning_rate": 6.133450853654555e-05,
      "loss": 1.6755,
      "step": 237000
    },
    {
      "epoch": 7.83,
      "learning_rate": 6.084516697678973e-05,
      "loss": 1.6726,
      "step": 240000
    },
    {
      "epoch": 7.93,
      "learning_rate": 6.035566219436556e-05,
      "loss": 1.6743,
      "step": 243000
    },
    {
      "epoch": 8.0,
      "eval_loss": 1.7004761695861816,
      "eval_runtime": 19.351,
      "eval_samples_per_second": 1525.608,
      "eval_steps_per_second": 9.56,
      "step": 245064
    },
    {
      "epoch": 8.03,
      "learning_rate": 5.986632063460974e-05,
      "loss": 1.6642,
      "step": 246000
    },
    {
      "epoch": 8.13,
      "learning_rate": 5.9376815852185555e-05,
      "loss": 1.6475,
      "step": 249000
    },
    {
      "epoch": 8.23,
      "learning_rate": 5.888747429242973e-05,
      "loss": 1.6525,
      "step": 252000
    },
    {
      "epoch": 8.32,
      "learning_rate": 5.839796951000556e-05,
      "loss": 1.653,
      "step": 255000
    },
    {
      "epoch": 8.42,
      "learning_rate": 5.7908627950249736e-05,
      "loss": 1.6556,
      "step": 258000
    },
    {
      "epoch": 8.52,
      "learning_rate": 5.741912316782555e-05,
      "loss": 1.6556,
      "step": 261000
    },
    {
      "epoch": 8.62,
      "learning_rate": 5.692961838540136e-05,
      "loss": 1.6565,
      "step": 264000
    },
    {
      "epoch": 8.72,
      "learning_rate": 5.6440276825645545e-05,
      "loss": 1.6567,
      "step": 267000
    },
    {
      "epoch": 8.81,
      "learning_rate": 5.5950772043221364e-05,
      "loss": 1.6574,
      "step": 270000
    },
    {
      "epoch": 8.91,
      "learning_rate": 5.546143048346555e-05,
      "loss": 1.6561,
      "step": 273000
    },
    {
      "epoch": 9.0,
      "eval_loss": 1.6906808614730835,
      "eval_runtime": 19.2999,
      "eval_samples_per_second": 1529.642,
      "eval_steps_per_second": 9.586,
      "step": 275697
    },
    {
      "epoch": 9.01,
      "learning_rate": 5.497192570104136e-05,
      "loss": 1.6546,
      "step": 276000
    },
    {
      "epoch": 9.11,
      "learning_rate": 5.4482584141285545e-05,
      "loss": 1.6302,
      "step": 279000
    },
    {
      "epoch": 9.21,
      "learning_rate": 5.3993079358861364e-05,
      "loss": 1.6356,
      "step": 282000
    },
    {
      "epoch": 9.3,
      "learning_rate": 5.3503574576437175e-05,
      "loss": 1.6375,
      "step": 285000
    },
    {
      "epoch": 9.4,
      "learning_rate": 5.301423301668136e-05,
      "loss": 1.6399,
      "step": 288000
    },
    {
      "epoch": 9.5,
      "learning_rate": 5.252472823425718e-05,
      "loss": 1.6404,
      "step": 291000
    },
    {
      "epoch": 9.6,
      "learning_rate": 5.203538667450135e-05,
      "loss": 1.642,
      "step": 294000
    },
    {
      "epoch": 9.7,
      "learning_rate": 5.1545881892077175e-05,
      "loss": 1.642,
      "step": 297000
    },
    {
      "epoch": 9.79,
      "learning_rate": 5.105654033232135e-05,
      "loss": 1.6421,
      "step": 300000
    },
    {
      "epoch": 9.89,
      "learning_rate": 5.0567035549897165e-05,
      "loss": 1.6417,
      "step": 303000
    },
    {
      "epoch": 9.99,
      "learning_rate": 5.007753076747299e-05,
      "loss": 1.6431,
      "step": 306000
    },
    {
      "epoch": 10.0,
      "eval_loss": 1.690254807472229,
      "eval_runtime": 19.1786,
      "eval_samples_per_second": 1539.322,
      "eval_steps_per_second": 9.646,
      "step": 306330
    },
    {
      "epoch": 10.09,
      "learning_rate": 4.9588189207717175e-05,
      "loss": 1.6191,
      "step": 309000
    },
    {
      "epoch": 10.19,
      "learning_rate": 4.909868442529299e-05,
      "loss": 1.6215,
      "step": 312000
    },
    {
      "epoch": 10.28,
      "learning_rate": 4.8609342865537165e-05,
      "loss": 1.6247,
      "step": 315000
    },
    {
      "epoch": 10.38,
      "learning_rate": 4.8119838083112984e-05,
      "loss": 1.6244,
      "step": 318000
    },
    {
      "epoch": 10.48,
      "learning_rate": 4.76303333006888e-05,
      "loss": 1.6261,
      "step": 321000
    },
    {
      "epoch": 10.58,
      "learning_rate": 4.714099174093298e-05,
      "loss": 1.6288,
      "step": 324000
    },
    {
      "epoch": 10.67,
      "learning_rate": 4.66514869585088e-05,
      "loss": 1.6289,
      "step": 327000
    },
    {
      "epoch": 10.77,
      "learning_rate": 4.6162145398752984e-05,
      "loss": 1.6295,
      "step": 330000
    },
    {
      "epoch": 10.87,
      "learning_rate": 4.5672640616328796e-05,
      "loss": 1.6295,
      "step": 333000
    },
    {
      "epoch": 10.97,
      "learning_rate": 4.5183135833904614e-05,
      "loss": 1.6282,
      "step": 336000
    },
    {
      "epoch": 11.0,
      "eval_loss": 1.6800603866577148,
      "eval_runtime": 19.1041,
      "eval_samples_per_second": 1545.321,
      "eval_steps_per_second": 9.684,
      "step": 336963
    },
    {
      "epoch": 11.07,
      "learning_rate": 4.46937942741488e-05,
      "loss": 1.6134,
      "step": 339000
    },
    {
      "epoch": 11.16,
      "learning_rate": 4.420428949172462e-05,
      "loss": 1.6072,
      "step": 342000
    },
    {
      "epoch": 11.26,
      "learning_rate": 4.371494793196879e-05,
      "loss": 1.6099,
      "step": 345000
    },
    {
      "epoch": 11.36,
      "learning_rate": 4.322544314954461e-05,
      "loss": 1.6137,
      "step": 348000
    },
    {
      "epoch": 11.46,
      "learning_rate": 4.273610158978879e-05,
      "loss": 1.6136,
      "step": 351000
    },
    {
      "epoch": 11.56,
      "learning_rate": 4.224659680736461e-05,
      "loss": 1.6151,
      "step": 354000
    },
    {
      "epoch": 11.65,
      "learning_rate": 4.175725524760879e-05,
      "loss": 1.6166,
      "step": 357000
    },
    {
      "epoch": 11.75,
      "learning_rate": 4.126775046518461e-05,
      "loss": 1.6179,
      "step": 360000
    },
    {
      "epoch": 11.85,
      "learning_rate": 4.077840890542879e-05,
      "loss": 1.6174,
      "step": 363000
    },
    {
      "epoch": 11.95,
      "learning_rate": 4.0288904123004604e-05,
      "loss": 1.6173,
      "step": 366000
    },
    {
      "epoch": 12.0,
      "eval_loss": 1.6714136600494385,
      "eval_runtime": 19.2107,
      "eval_samples_per_second": 1536.747,
      "eval_steps_per_second": 9.63,
      "step": 367596
    },
    {
      "epoch": 12.05,
      "learning_rate": 3.979939934058042e-05,
      "loss": 1.6063,
      "step": 369000
    },
    {
      "epoch": 12.14,
      "learning_rate": 3.931005778082461e-05,
      "loss": 1.5969,
      "step": 372000
    },
    {
      "epoch": 12.24,
      "learning_rate": 3.882055299840042e-05,
      "loss": 1.5998,
      "step": 375000
    },
    {
      "epoch": 12.34,
      "learning_rate": 3.83312114386446e-05,
      "loss": 1.6011,
      "step": 378000
    },
    {
      "epoch": 12.44,
      "learning_rate": 3.784154343355205e-05,
      "loss": 1.6034,
      "step": 381000
    },
    {
      "epoch": 12.54,
      "learning_rate": 3.7352201873796235e-05,
      "loss": 1.6035,
      "step": 384000
    },
    {
      "epoch": 12.63,
      "learning_rate": 3.686269709137205e-05,
      "loss": 1.6054,
      "step": 387000
    },
    {
      "epoch": 12.73,
      "learning_rate": 3.637335553161623e-05,
      "loss": 1.6055,
      "step": 390000
    },
    {
      "epoch": 12.83,
      "learning_rate": 3.588385074919205e-05,
      "loss": 1.6057,
      "step": 393000
    },
    {
      "epoch": 12.93,
      "learning_rate": 3.539434596676787e-05,
      "loss": 1.6061,
      "step": 396000
    },
    {
      "epoch": 13.0,
      "eval_loss": 1.6634231805801392,
      "eval_runtime": 19.238,
      "eval_samples_per_second": 1534.564,
      "eval_steps_per_second": 9.616,
      "step": 398229
    },
    {
      "epoch": 13.03,
      "learning_rate": 3.4905004407012046e-05,
      "loss": 1.5995,
      "step": 399000
    },
    {
      "epoch": 13.12,
      "learning_rate": 3.4415499624587865e-05,
      "loss": 1.5849,
      "step": 402000
    },
    {
      "epoch": 13.22,
      "learning_rate": 3.392615806483205e-05,
      "loss": 1.5894,
      "step": 405000
    },
    {
      "epoch": 13.32,
      "learning_rate": 3.343665328240786e-05,
      "loss": 1.5914,
      "step": 408000
    },
    {
      "epoch": 13.42,
      "learning_rate": 3.294731172265204e-05,
      "loss": 1.5917,
      "step": 411000
    },
    {
      "epoch": 13.51,
      "learning_rate": 3.245780694022786e-05,
      "loss": 1.5933,
      "step": 414000
    },
    {
      "epoch": 13.61,
      "learning_rate": 3.196830215780368e-05,
      "loss": 1.5926,
      "step": 417000
    },
    {
      "epoch": 13.71,
      "learning_rate": 3.1478960598047855e-05,
      "loss": 1.5956,
      "step": 420000
    },
    {
      "epoch": 13.81,
      "learning_rate": 3.0989455815623674e-05,
      "loss": 1.5953,
      "step": 423000
    },
    {
      "epoch": 13.91,
      "learning_rate": 3.0500114255867855e-05,
      "loss": 1.5971,
      "step": 426000
    },
    {
      "epoch": 14.0,
      "eval_loss": 1.6542909145355225,
      "eval_runtime": 19.1669,
      "eval_samples_per_second": 1540.259,
      "eval_steps_per_second": 9.652,
      "step": 428862
    },
    {
      "epoch": 14.0,
      "learning_rate": 3.0010609473443674e-05,
      "loss": 1.5959,
      "step": 429000
    },
    {
      "epoch": 14.1,
      "learning_rate": 2.9521267913687855e-05,
      "loss": 1.5752,
      "step": 432000
    },
    {
      "epoch": 14.2,
      "learning_rate": 2.9031763131263674e-05,
      "loss": 1.5775,
      "step": 435000
    },
    {
      "epoch": 14.3,
      "learning_rate": 2.854225834883949e-05,
      "loss": 1.5814,
      "step": 438000
    },
    {
      "epoch": 14.4,
      "learning_rate": 2.8052916789083673e-05,
      "loss": 1.5814,
      "step": 441000
    },
    {
      "epoch": 14.49,
      "learning_rate": 2.7563412006659482e-05,
      "loss": 1.5837,
      "step": 444000
    },
    {
      "epoch": 14.59,
      "learning_rate": 2.7074070446903667e-05,
      "loss": 1.585,
      "step": 447000
    },
    {
      "epoch": 14.69,
      "learning_rate": 2.6584565664479482e-05,
      "loss": 1.5868,
      "step": 450000
    },
    {
      "epoch": 14.79,
      "learning_rate": 2.60950608820553e-05,
      "loss": 1.5854,
      "step": 453000
    },
    {
      "epoch": 14.89,
      "learning_rate": 2.5605719322299482e-05,
      "loss": 1.5864,
      "step": 456000
    },
    {
      "epoch": 14.98,
      "learning_rate": 2.51162145398753e-05,
      "loss": 1.5867,
      "step": 459000
    },
    {
      "epoch": 15.0,
      "eval_loss": 1.6488285064697266,
      "eval_runtime": 19.1177,
      "eval_samples_per_second": 1544.224,
      "eval_steps_per_second": 9.677,
      "step": 459495
    },
    {
      "epoch": 15.08,
      "learning_rate": 2.4626709757451116e-05,
      "loss": 1.5695,
      "step": 462000
    },
    {
      "epoch": 15.18,
      "learning_rate": 2.4137368197695297e-05,
      "loss": 1.5714,
      "step": 465000
    },
    {
      "epoch": 15.28,
      "learning_rate": 2.3647863415271113e-05,
      "loss": 1.5721,
      "step": 468000
    },
    {
      "epoch": 15.38,
      "learning_rate": 2.315835863284693e-05,
      "loss": 1.5729,
      "step": 471000
    },
    {
      "epoch": 15.47,
      "learning_rate": 2.2669017073091113e-05,
      "loss": 1.5728,
      "step": 474000
    },
    {
      "epoch": 15.57,
      "learning_rate": 2.2179512290666928e-05,
      "loss": 1.5739,
      "step": 477000
    },
    {
      "epoch": 15.67,
      "learning_rate": 2.1690007508242746e-05,
      "loss": 1.5756,
      "step": 480000
    },
    {
      "epoch": 15.77,
      "learning_rate": 2.1200665948486928e-05,
      "loss": 1.5774,
      "step": 483000
    },
    {
      "epoch": 15.87,
      "learning_rate": 2.0711161166062743e-05,
      "loss": 1.5772,
      "step": 486000
    },
    {
      "epoch": 15.96,
      "learning_rate": 2.022165638363856e-05,
      "loss": 1.5781,
      "step": 489000
    },
    {
      "epoch": 16.0,
      "eval_loss": 1.6446890830993652,
      "eval_runtime": 19.0262,
      "eval_samples_per_second": 1551.652,
      "eval_steps_per_second": 9.723,
      "step": 490128
    },
    {
      "epoch": 16.06,
      "learning_rate": 1.9732314823882743e-05,
      "loss": 1.5652,
      "step": 492000
    },
    {
      "epoch": 16.16,
      "learning_rate": 1.924281004145856e-05,
      "loss": 1.5612,
      "step": 495000
    },
    {
      "epoch": 16.26,
      "learning_rate": 1.8753305259034377e-05,
      "loss": 1.5634,
      "step": 498000
    },
    {
      "epoch": 16.35,
      "learning_rate": 1.8263800476610192e-05,
      "loss": 1.5648,
      "step": 501000
    },
    {
      "epoch": 16.45,
      "learning_rate": 1.7774458916854374e-05,
      "loss": 1.5664,
      "step": 504000
    },
    {
      "epoch": 16.55,
      "learning_rate": 1.728495413443019e-05,
      "loss": 1.5656,
      "step": 507000
    },
    {
      "epoch": 16.65,
      "learning_rate": 1.679561257467437e-05,
      "loss": 1.5676,
      "step": 510000
    },
    {
      "epoch": 16.75,
      "learning_rate": 1.630610779225019e-05,
      "loss": 1.566,
      "step": 513000
    },
    {
      "epoch": 16.84,
      "learning_rate": 1.5816603009826008e-05,
      "loss": 1.5691,
      "step": 516000
    },
    {
      "epoch": 16.94,
      "learning_rate": 1.5327098227401823e-05,
      "loss": 1.5684,
      "step": 519000
    },
    {
      "epoch": 17.0,
      "eval_loss": 1.6387931108474731,
      "eval_runtime": 19.1639,
      "eval_samples_per_second": 1540.501,
      "eval_steps_per_second": 9.654,
      "step": 520761
    },
    {
      "epoch": 17.04,
      "learning_rate": 1.4837756667646002e-05,
      "loss": 1.5616,
      "step": 522000
    },
    {
      "epoch": 17.14,
      "learning_rate": 1.434825188522182e-05,
      "loss": 1.5545,
      "step": 525000
    },
    {
      "epoch": 17.24,
      "learning_rate": 1.3858747102797636e-05,
      "loss": 1.5551,
      "step": 528000
    },
    {
      "epoch": 17.33,
      "learning_rate": 1.3369405543041818e-05,
      "loss": 1.5558,
      "step": 531000
    },
    {
      "epoch": 17.43,
      "learning_rate": 1.2879900760617636e-05,
      "loss": 1.5587,
      "step": 534000
    },
    {
      "epoch": 17.53,
      "learning_rate": 1.2390559200861816e-05,
      "loss": 1.5585,
      "step": 537000
    },
    {
      "epoch": 17.63,
      "learning_rate": 1.1901054418437633e-05,
      "loss": 1.5579,
      "step": 540000
    },
    {
      "epoch": 17.73,
      "learning_rate": 1.141154963601345e-05,
      "loss": 1.5586,
      "step": 543000
    },
    {
      "epoch": 17.82,
      "learning_rate": 1.0922208076257631e-05,
      "loss": 1.559,
      "step": 546000
    },
    {
      "epoch": 17.92,
      "learning_rate": 1.0432703293833448e-05,
      "loss": 1.5597,
      "step": 549000
    },
    {
      "epoch": 18.0,
      "eval_loss": 1.6415975093841553,
      "eval_runtime": 19.1825,
      "eval_samples_per_second": 1539.008,
      "eval_steps_per_second": 9.644,
      "step": 551394
    },
    {
      "epoch": 18.02,
      "learning_rate": 9.94336173407763e-06,
      "loss": 1.5579,
      "step": 552000
    },
    {
      "epoch": 18.12,
      "learning_rate": 9.453856951653447e-06,
      "loss": 1.5465,
      "step": 555000
    },
    {
      "epoch": 18.22,
      "learning_rate": 8.964352169229264e-06,
      "loss": 1.5491,
      "step": 558000
    },
    {
      "epoch": 18.31,
      "learning_rate": 8.475010609473443e-06,
      "loss": 1.5495,
      "step": 561000
    },
    {
      "epoch": 18.41,
      "learning_rate": 7.985505827049262e-06,
      "loss": 1.5498,
      "step": 564000
    },
    {
      "epoch": 18.51,
      "learning_rate": 7.496001044625078e-06,
      "loss": 1.5514,
      "step": 567000
    },
    {
      "epoch": 18.61,
      "learning_rate": 7.006659484869258e-06,
      "loss": 1.5508,
      "step": 570000
    },
    {
      "epoch": 18.71,
      "learning_rate": 6.517154702445076e-06,
      "loss": 1.5516,
      "step": 573000
    },
    {
      "epoch": 18.8,
      "learning_rate": 6.027649920020892e-06,
      "loss": 1.5508,
      "step": 576000
    },
    {
      "epoch": 18.9,
      "learning_rate": 5.538308360265074e-06,
      "loss": 1.5515,
      "step": 579000
    },
    {
      "epoch": 19.0,
      "learning_rate": 5.048803577840891e-06,
      "loss": 1.5521,
      "step": 582000
    },
    {
      "epoch": 19.0,
      "eval_loss": 1.6370400190353394,
      "eval_runtime": 19.1163,
      "eval_samples_per_second": 1544.337,
      "eval_steps_per_second": 9.678,
      "step": 582027
    },
    {
      "epoch": 19.1,
      "learning_rate": 4.559298795416708e-06,
      "loss": 1.5413,
      "step": 585000
    },
    {
      "epoch": 19.19,
      "learning_rate": 4.069957235660889e-06,
      "loss": 1.5435,
      "step": 588000
    },
    {
      "epoch": 19.29,
      "learning_rate": 3.580452453236706e-06,
      "loss": 1.5432,
      "step": 591000
    },
    {
      "epoch": 19.39,
      "learning_rate": 3.091110893480887e-06,
      "loss": 1.5437,
      "step": 594000
    },
    {
      "epoch": 19.49,
      "learning_rate": 2.6016061110567034e-06,
      "loss": 1.5431,
      "step": 597000
    },
    {
      "epoch": 19.59,
      "learning_rate": 2.1121013286325204e-06,
      "loss": 1.5431,
      "step": 600000
    },
    {
      "epoch": 19.68,
      "learning_rate": 1.6225965462083374e-06,
      "loss": 1.5441,
      "step": 603000
    },
    {
      "epoch": 19.78,
      "learning_rate": 1.1332549864525185e-06,
      "loss": 1.544,
      "step": 606000
    },
    {
      "epoch": 19.88,
      "learning_rate": 6.437502040283355e-07,
      "loss": 1.5469,
      "step": 609000
    },
    {
      "epoch": 19.98,
      "learning_rate": 1.5440864427251657e-07,
      "loss": 1.5438,
      "step": 612000
    },
    {
      "epoch": 20.0,
      "eval_loss": 1.636548638343811,
      "eval_runtime": 19.1335,
      "eval_samples_per_second": 1542.949,
      "eval_steps_per_second": 9.669,
      "step": 612660
    },
    {
      "epoch": 20.0,
      "step": 612660,
      "total_flos": 3.3229272051886326e+18,
      "train_loss": 1.7127611959194204,
      "train_runtime": 370998.644,
      "train_samples_per_second": 528.445,
      "train_steps_per_second": 1.651
    }
  ],
  "max_steps": 612660,
  "num_train_epochs": 20,
  "total_flos": 3.3229272051886326e+18,
  "trial_name": null,
  "trial_params": null
}