{
  "best_metric": 0.6794027228809838,
  "best_model_checkpoint": "./swin-transformer-results\\checkpoint-5500",
  "epoch": 3.0,
  "eval_steps": 500,
  "global_step": 7686,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0039032006245121,
      "grad_norm": 16.536907196044922,
      "learning_rate": 1.9973978662503254e-05,
      "loss": 1.4354,
      "step": 10
    },
    {
      "epoch": 0.0078064012490242,
      "grad_norm": 14.592063903808594,
      "learning_rate": 1.9947957325006506e-05,
      "loss": 1.3153,
      "step": 20
    },
    {
      "epoch": 0.0117096018735363,
      "grad_norm": 16.282886505126953,
      "learning_rate": 1.992193598750976e-05,
      "loss": 1.2859,
      "step": 30
    },
    {
      "epoch": 0.0156128024980484,
      "grad_norm": 17.62813377380371,
      "learning_rate": 1.9895914650013015e-05,
      "loss": 1.3195,
      "step": 40
    },
    {
      "epoch": 0.0195160031225605,
      "grad_norm": 14.134129524230957,
      "learning_rate": 1.9869893312516264e-05,
      "loss": 1.3646,
      "step": 50
    },
    {
      "epoch": 0.0234192037470726,
      "grad_norm": 20.433639526367188,
      "learning_rate": 1.9843871975019516e-05,
      "loss": 1.3113,
      "step": 60
    },
    {
      "epoch": 0.0273224043715847,
      "grad_norm": 11.255603790283203,
      "learning_rate": 1.9817850637522772e-05,
      "loss": 1.2547,
      "step": 70
    },
    {
      "epoch": 0.0312256049960968,
      "grad_norm": 9.096766471862793,
      "learning_rate": 1.979182930002602e-05,
      "loss": 1.2448,
      "step": 80
    },
    {
      "epoch": 0.0351288056206089,
      "grad_norm": 11.983659744262695,
      "learning_rate": 1.9765807962529277e-05,
      "loss": 1.2902,
      "step": 90
    },
    {
      "epoch": 0.039032006245121,
      "grad_norm": 10.826493263244629,
      "learning_rate": 1.973978662503253e-05,
      "loss": 1.3364,
      "step": 100
    },
    {
      "epoch": 0.0429352068696331,
      "grad_norm": 15.706151962280273,
      "learning_rate": 1.971376528753578e-05,
      "loss": 1.2779,
      "step": 110
    },
    {
      "epoch": 0.0468384074941452,
      "grad_norm": 19.543142318725586,
      "learning_rate": 1.9687743950039034e-05,
      "loss": 1.1835,
      "step": 120
    },
    {
      "epoch": 0.0507416081186573,
      "grad_norm": 22.684574127197266,
      "learning_rate": 1.9661722612542286e-05,
      "loss": 1.2514,
      "step": 130
    },
    {
      "epoch": 0.0546448087431694,
      "grad_norm": 11.184915542602539,
      "learning_rate": 1.963570127504554e-05,
      "loss": 1.2269,
      "step": 140
    },
    {
      "epoch": 0.0585480093676815,
      "grad_norm": 13.154550552368164,
      "learning_rate": 1.960967993754879e-05,
      "loss": 1.3039,
      "step": 150
    },
    {
      "epoch": 0.0624512099921936,
      "grad_norm": 11.685466766357422,
      "learning_rate": 1.9583658600052043e-05,
      "loss": 1.2313,
      "step": 160
    },
    {
      "epoch": 0.0663544106167057,
      "grad_norm": 20.31207847595215,
      "learning_rate": 1.95576372625553e-05,
      "loss": 1.2862,
      "step": 170
    },
    {
      "epoch": 0.0702576112412178,
      "grad_norm": 24.33086585998535,
      "learning_rate": 1.9531615925058548e-05,
      "loss": 1.2672,
      "step": 180
    },
    {
      "epoch": 0.0741608118657299,
      "grad_norm": 18.98204231262207,
      "learning_rate": 1.9505594587561804e-05,
      "loss": 1.2237,
      "step": 190
    },
    {
      "epoch": 0.078064012490242,
      "grad_norm": 27.43819236755371,
      "learning_rate": 1.9479573250065056e-05,
      "loss": 1.1109,
      "step": 200
    },
    {
      "epoch": 0.08196721311475409,
      "grad_norm": 21.111120223999023,
      "learning_rate": 1.9453551912568305e-05,
      "loss": 1.3043,
      "step": 210
    },
    {
      "epoch": 0.0858704137392662,
      "grad_norm": 11.223044395446777,
      "learning_rate": 1.942753057507156e-05,
      "loss": 1.0625,
      "step": 220
    },
    {
      "epoch": 0.0897736143637783,
      "grad_norm": 15.63923168182373,
      "learning_rate": 1.9401509237574814e-05,
      "loss": 1.1942,
      "step": 230
    },
    {
      "epoch": 0.0936768149882904,
      "grad_norm": 15.160065650939941,
      "learning_rate": 1.9375487900078066e-05,
      "loss": 1.3044,
      "step": 240
    },
    {
      "epoch": 0.0975800156128025,
      "grad_norm": 21.101158142089844,
      "learning_rate": 1.934946656258132e-05,
      "loss": 1.1587,
      "step": 250
    },
    {
      "epoch": 0.1014832162373146,
      "grad_norm": 20.524930953979492,
      "learning_rate": 1.932344522508457e-05,
      "loss": 1.2612,
      "step": 260
    },
    {
      "epoch": 0.1053864168618267,
      "grad_norm": 16.662723541259766,
      "learning_rate": 1.9297423887587823e-05,
      "loss": 1.2497,
      "step": 270
    },
    {
      "epoch": 0.1092896174863388,
      "grad_norm": 12.685712814331055,
      "learning_rate": 1.9271402550091076e-05,
      "loss": 1.1758,
      "step": 280
    },
    {
      "epoch": 0.1131928181108509,
      "grad_norm": 12.468690872192383,
      "learning_rate": 1.9245381212594328e-05,
      "loss": 1.1081,
      "step": 290
    },
    {
      "epoch": 0.117096018735363,
      "grad_norm": 13.250388145446777,
      "learning_rate": 1.921935987509758e-05,
      "loss": 1.2645,
      "step": 300
    },
    {
      "epoch": 0.1209992193598751,
      "grad_norm": 18.353004455566406,
      "learning_rate": 1.9193338537600833e-05,
      "loss": 1.2223,
      "step": 310
    },
    {
      "epoch": 0.1249024199843872,
      "grad_norm": 12.347312927246094,
      "learning_rate": 1.916731720010409e-05,
      "loss": 1.1655,
      "step": 320
    },
    {
      "epoch": 0.1288056206088993,
      "grad_norm": 15.365438461303711,
      "learning_rate": 1.9141295862607337e-05,
      "loss": 1.1184,
      "step": 330
    },
    {
      "epoch": 0.1327088212334114,
      "grad_norm": 22.46241569519043,
      "learning_rate": 1.9115274525110593e-05,
      "loss": 1.1131,
      "step": 340
    },
    {
      "epoch": 0.1366120218579235,
      "grad_norm": 19.408044815063477,
      "learning_rate": 1.9089253187613846e-05,
      "loss": 1.2973,
      "step": 350
    },
    {
      "epoch": 0.1405152224824356,
      "grad_norm": 22.120386123657227,
      "learning_rate": 1.9063231850117098e-05,
      "loss": 1.0921,
      "step": 360
    },
    {
      "epoch": 0.1444184231069477,
      "grad_norm": 13.416804313659668,
      "learning_rate": 1.903721051262035e-05,
      "loss": 1.1388,
      "step": 370
    },
    {
      "epoch": 0.1483216237314598,
      "grad_norm": 19.56183433532715,
      "learning_rate": 1.9011189175123603e-05,
      "loss": 1.0763,
      "step": 380
    },
    {
      "epoch": 0.1522248243559719,
      "grad_norm": 20.526203155517578,
      "learning_rate": 1.8985167837626855e-05,
      "loss": 1.0733,
      "step": 390
    },
    {
      "epoch": 0.156128024980484,
      "grad_norm": 13.672319412231445,
      "learning_rate": 1.8959146500130108e-05,
      "loss": 1.1721,
      "step": 400
    },
    {
      "epoch": 0.1600312256049961,
      "grad_norm": 20.59427261352539,
      "learning_rate": 1.893312516263336e-05,
      "loss": 1.1005,
      "step": 410
    },
    {
      "epoch": 0.16393442622950818,
      "grad_norm": 19.595266342163086,
      "learning_rate": 1.8907103825136616e-05,
      "loss": 1.122,
      "step": 420
    },
    {
      "epoch": 0.1678376268540203,
      "grad_norm": 17.960214614868164,
      "learning_rate": 1.8881082487639865e-05,
      "loss": 1.0146,
      "step": 430
    },
    {
      "epoch": 0.1717408274785324,
      "grad_norm": 15.603906631469727,
      "learning_rate": 1.885506115014312e-05,
      "loss": 1.0788,
      "step": 440
    },
    {
      "epoch": 0.1756440281030445,
      "grad_norm": 12.236602783203125,
      "learning_rate": 1.8829039812646373e-05,
      "loss": 1.2375,
      "step": 450
    },
    {
      "epoch": 0.1795472287275566,
      "grad_norm": 12.608255386352539,
      "learning_rate": 1.8803018475149622e-05,
      "loss": 1.0655,
      "step": 460
    },
    {
      "epoch": 0.1834504293520687,
      "grad_norm": 17.830537796020508,
      "learning_rate": 1.8776997137652878e-05,
      "loss": 1.116,
      "step": 470
    },
    {
      "epoch": 0.1873536299765808,
      "grad_norm": 25.879196166992188,
      "learning_rate": 1.875097580015613e-05,
      "loss": 1.1763,
      "step": 480
    },
    {
      "epoch": 0.1912568306010929,
      "grad_norm": 19.43730354309082,
      "learning_rate": 1.8724954462659383e-05,
      "loss": 1.1672,
      "step": 490
    },
    {
      "epoch": 0.195160031225605,
      "grad_norm": 19.6768798828125,
      "learning_rate": 1.8698933125162635e-05,
      "loss": 1.0686,
      "step": 500
    },
    {
      "epoch": 0.195160031225605,
      "eval_accuracy": 0.5265700483091788,
      "eval_f1": 0.5041769365508473,
      "eval_loss": 1.0584903955459595,
      "eval_precision": 0.5355302773089086,
      "eval_runtime": 1117.355,
      "eval_samples_per_second": 2.038,
      "eval_steps_per_second": 0.255,
      "step": 500
    },
    {
      "epoch": 0.1990632318501171,
      "grad_norm": 21.30547523498535,
      "learning_rate": 1.8672911787665887e-05,
      "loss": 1.0181,
      "step": 510
    },
    {
      "epoch": 0.2029664324746292,
      "grad_norm": 16.48003578186035,
      "learning_rate": 1.864689045016914e-05,
      "loss": 1.061,
      "step": 520
    },
    {
      "epoch": 0.2068696330991413,
      "grad_norm": 18.582307815551758,
      "learning_rate": 1.8620869112672392e-05,
      "loss": 1.2029,
      "step": 530
    },
    {
      "epoch": 0.2107728337236534,
      "grad_norm": 20.36729621887207,
      "learning_rate": 1.8594847775175645e-05,
      "loss": 1.1101,
      "step": 540
    },
    {
      "epoch": 0.21467603434816548,
      "grad_norm": 19.45392608642578,
      "learning_rate": 1.8568826437678897e-05,
      "loss": 1.1044,
      "step": 550
    },
    {
      "epoch": 0.2185792349726776,
      "grad_norm": 11.488951683044434,
      "learning_rate": 1.854280510018215e-05,
      "loss": 1.1562,
      "step": 560
    },
    {
      "epoch": 0.2224824355971897,
      "grad_norm": 15.483370780944824,
      "learning_rate": 1.8516783762685405e-05,
      "loss": 0.9525,
      "step": 570
    },
    {
      "epoch": 0.2263856362217018,
      "grad_norm": 17.925048828125,
      "learning_rate": 1.8490762425188654e-05,
      "loss": 1.0028,
      "step": 580
    },
    {
      "epoch": 0.2302888368462139,
      "grad_norm": 15.90748405456543,
      "learning_rate": 1.846474108769191e-05,
      "loss": 1.08,
      "step": 590
    },
    {
      "epoch": 0.234192037470726,
      "grad_norm": 25.57672691345215,
      "learning_rate": 1.8438719750195162e-05,
      "loss": 1.0937,
      "step": 600
    },
    {
      "epoch": 0.23809523809523808,
      "grad_norm": 22.465103149414062,
      "learning_rate": 1.8412698412698415e-05,
      "loss": 0.8304,
      "step": 610
    },
    {
      "epoch": 0.2419984387197502,
      "grad_norm": 16.213275909423828,
      "learning_rate": 1.8386677075201667e-05,
      "loss": 1.1154,
      "step": 620
    },
    {
      "epoch": 0.2459016393442623,
      "grad_norm": 21.252735137939453,
      "learning_rate": 1.836065573770492e-05,
      "loss": 1.0111,
      "step": 630
    },
    {
      "epoch": 0.2498048399687744,
      "grad_norm": 26.36522102355957,
      "learning_rate": 1.8334634400208172e-05,
      "loss": 1.0806,
      "step": 640
    },
    {
      "epoch": 0.2537080405932865,
      "grad_norm": 16.74532699584961,
      "learning_rate": 1.8308613062711424e-05,
      "loss": 1.0296,
      "step": 650
    },
    {
      "epoch": 0.2576112412177986,
      "grad_norm": 16.58189582824707,
      "learning_rate": 1.8282591725214677e-05,
      "loss": 1.1868,
      "step": 660
    },
    {
      "epoch": 0.2615144418423107,
      "grad_norm": 32.56268310546875,
      "learning_rate": 1.8256570387717933e-05,
      "loss": 1.1575,
      "step": 670
    },
    {
      "epoch": 0.2654176424668228,
      "grad_norm": 13.969286918640137,
      "learning_rate": 1.823054905022118e-05,
      "loss": 1.1623,
      "step": 680
    },
    {
      "epoch": 0.2693208430913349,
      "grad_norm": 11.675450325012207,
      "learning_rate": 1.8204527712724437e-05,
      "loss": 0.9411,
      "step": 690
    },
    {
      "epoch": 0.273224043715847,
      "grad_norm": 19.56696891784668,
      "learning_rate": 1.817850637522769e-05,
      "loss": 1.1799,
      "step": 700
    },
    {
      "epoch": 0.27712724434035907,
      "grad_norm": 27.7091064453125,
      "learning_rate": 1.815248503773094e-05,
      "loss": 1.1811,
      "step": 710
    },
    {
      "epoch": 0.2810304449648712,
      "grad_norm": 18.857580184936523,
      "learning_rate": 1.8126463700234194e-05,
      "loss": 0.7854,
      "step": 720
    },
    {
      "epoch": 0.2849336455893833,
      "grad_norm": 15.643468856811523,
      "learning_rate": 1.8100442362737447e-05,
      "loss": 1.0822,
      "step": 730
    },
    {
      "epoch": 0.2888368462138954,
      "grad_norm": 21.42402458190918,
      "learning_rate": 1.80744210252407e-05,
      "loss": 1.1193,
      "step": 740
    },
    {
      "epoch": 0.2927400468384075,
      "grad_norm": 22.916393280029297,
      "learning_rate": 1.804839968774395e-05,
      "loss": 1.087,
      "step": 750
    },
    {
      "epoch": 0.2966432474629196,
      "grad_norm": 16.503360748291016,
      "learning_rate": 1.8022378350247204e-05,
      "loss": 1.0669,
      "step": 760
    },
    {
      "epoch": 0.3005464480874317,
      "grad_norm": 16.80801773071289,
      "learning_rate": 1.7996357012750456e-05,
      "loss": 0.9412,
      "step": 770
    },
    {
      "epoch": 0.3044496487119438,
      "grad_norm": 22.436809539794922,
      "learning_rate": 1.797033567525371e-05,
      "loss": 1.1394,
      "step": 780
    },
    {
      "epoch": 0.3083528493364559,
      "grad_norm": 16.492721557617188,
      "learning_rate": 1.794431433775696e-05,
      "loss": 0.9852,
      "step": 790
    },
    {
      "epoch": 0.312256049960968,
      "grad_norm": 15.263131141662598,
      "learning_rate": 1.7918293000260214e-05,
      "loss": 0.9625,
      "step": 800
    },
    {
      "epoch": 0.3161592505854801,
      "grad_norm": 27.94483184814453,
      "learning_rate": 1.7892271662763466e-05,
      "loss": 1.1123,
      "step": 810
    },
    {
      "epoch": 0.3200624512099922,
      "grad_norm": 15.007001876831055,
      "learning_rate": 1.7866250325266722e-05,
      "loss": 1.065,
      "step": 820
    },
    {
      "epoch": 0.3239656518345043,
      "grad_norm": 13.74414348602295,
      "learning_rate": 1.784022898776997e-05,
      "loss": 1.0334,
      "step": 830
    },
    {
      "epoch": 0.32786885245901637,
      "grad_norm": 12.379937171936035,
      "learning_rate": 1.7814207650273227e-05,
      "loss": 0.978,
      "step": 840
    },
    {
      "epoch": 0.3317720530835285,
      "grad_norm": 30.208288192749023,
      "learning_rate": 1.778818631277648e-05,
      "loss": 1.1062,
      "step": 850
    },
    {
      "epoch": 0.3356752537080406,
      "grad_norm": 38.5370979309082,
      "learning_rate": 1.776216497527973e-05,
      "loss": 1.0816,
      "step": 860
    },
    {
      "epoch": 0.3395784543325527,
      "grad_norm": 17.81158447265625,
      "learning_rate": 1.7736143637782984e-05,
      "loss": 1.1385,
      "step": 870
    },
    {
      "epoch": 0.3434816549570648,
      "grad_norm": 18.054468154907227,
      "learning_rate": 1.7710122300286236e-05,
      "loss": 1.0646,
      "step": 880
    },
    {
      "epoch": 0.3473848555815769,
      "grad_norm": 17.814855575561523,
      "learning_rate": 1.768410096278949e-05,
      "loss": 0.9851,
      "step": 890
    },
    {
      "epoch": 0.351288056206089,
      "grad_norm": 22.76386833190918,
      "learning_rate": 1.765807962529274e-05,
      "loss": 1.0601,
      "step": 900
    },
    {
      "epoch": 0.3551912568306011,
      "grad_norm": 15.68315315246582,
      "learning_rate": 1.7632058287795993e-05,
      "loss": 0.9163,
      "step": 910
    },
    {
      "epoch": 0.3590944574551132,
      "grad_norm": 22.243940353393555,
      "learning_rate": 1.760603695029925e-05,
      "loss": 1.06,
      "step": 920
    },
    {
      "epoch": 0.3629976580796253,
      "grad_norm": 14.713462829589844,
      "learning_rate": 1.7580015612802498e-05,
      "loss": 1.0852,
      "step": 930
    },
    {
      "epoch": 0.3669008587041374,
      "grad_norm": 23.62862205505371,
      "learning_rate": 1.7553994275305754e-05,
      "loss": 0.9613,
      "step": 940
    },
    {
      "epoch": 0.3708040593286495,
      "grad_norm": 11.741788864135742,
      "learning_rate": 1.7527972937809006e-05,
      "loss": 0.8653,
      "step": 950
    },
    {
      "epoch": 0.3747072599531616,
      "grad_norm": 12.762251853942871,
      "learning_rate": 1.7501951600312255e-05,
      "loss": 0.9752,
      "step": 960
    },
    {
      "epoch": 0.37861046057767367,
      "grad_norm": 36.61482238769531,
      "learning_rate": 1.747593026281551e-05,
      "loss": 0.965,
      "step": 970
    },
    {
      "epoch": 0.3825136612021858,
      "grad_norm": 14.14993667602539,
      "learning_rate": 1.7449908925318764e-05,
      "loss": 0.8004,
      "step": 980
    },
    {
      "epoch": 0.3864168618266979,
      "grad_norm": 32.5792350769043,
      "learning_rate": 1.7423887587822016e-05,
      "loss": 1.1095,
      "step": 990
    },
    {
      "epoch": 0.39032006245121,
      "grad_norm": 21.636621475219727,
      "learning_rate": 1.739786625032527e-05,
      "loss": 1.3283,
      "step": 1000
    },
    {
      "epoch": 0.39032006245121,
      "eval_accuracy": 0.5722441809398331,
      "eval_f1": 0.5794356642640391,
      "eval_loss": 1.0014504194259644,
      "eval_precision": 0.6006410783379276,
      "eval_runtime": 682.6552,
      "eval_samples_per_second": 3.336,
      "eval_steps_per_second": 0.417,
      "step": 1000
    },
    {
      "epoch": 0.3942232630757221,
      "grad_norm": 24.92072105407715,
      "learning_rate": 1.737184491282852e-05,
      "loss": 0.9741,
      "step": 1010
    },
    {
      "epoch": 0.3981264637002342,
      "grad_norm": 38.53818130493164,
      "learning_rate": 1.7345823575331773e-05,
      "loss": 0.9729,
      "step": 1020
    },
    {
      "epoch": 0.4020296643247463,
      "grad_norm": 20.330123901367188,
      "learning_rate": 1.7319802237835026e-05,
      "loss": 1.0114,
      "step": 1030
    },
    {
      "epoch": 0.4059328649492584,
      "grad_norm": 17.378185272216797,
      "learning_rate": 1.7293780900338278e-05,
      "loss": 1.0528,
      "step": 1040
    },
    {
      "epoch": 0.4098360655737705,
      "grad_norm": 12.809037208557129,
      "learning_rate": 1.726775956284153e-05,
      "loss": 1.0743,
      "step": 1050
    },
    {
      "epoch": 0.4137392661982826,
      "grad_norm": 13.860386848449707,
      "learning_rate": 1.7241738225344783e-05,
      "loss": 1.1068,
      "step": 1060
    },
    {
      "epoch": 0.4176424668227947,
      "grad_norm": 19.999746322631836,
      "learning_rate": 1.721571688784804e-05,
      "loss": 1.1866,
      "step": 1070
    },
    {
      "epoch": 0.4215456674473068,
      "grad_norm": 14.789665222167969,
      "learning_rate": 1.7189695550351288e-05,
      "loss": 0.9032,
      "step": 1080
    },
    {
      "epoch": 0.42544886807181886,
      "grad_norm": 13.514769554138184,
      "learning_rate": 1.7163674212854543e-05,
      "loss": 0.9095,
      "step": 1090
    },
    {
      "epoch": 0.42935206869633097,
      "grad_norm": 19.155099868774414,
      "learning_rate": 1.7137652875357796e-05,
      "loss": 1.0249,
      "step": 1100
    },
    {
      "epoch": 0.4332552693208431,
      "grad_norm": 15.455997467041016,
      "learning_rate": 1.7111631537861048e-05,
      "loss": 0.8525,
      "step": 1110
    },
    {
      "epoch": 0.4371584699453552,
      "grad_norm": 19.765039443969727,
      "learning_rate": 1.70856102003643e-05,
      "loss": 1.0712,
      "step": 1120
    },
    {
      "epoch": 0.4410616705698673,
      "grad_norm": 16.243799209594727,
      "learning_rate": 1.7059588862867553e-05,
      "loss": 1.0301,
      "step": 1130
    },
    {
      "epoch": 0.4449648711943794,
      "grad_norm": 17.044267654418945,
      "learning_rate": 1.7033567525370805e-05,
      "loss": 0.9106,
      "step": 1140
    },
    {
      "epoch": 0.4488680718188915,
      "grad_norm": 14.242496490478516,
      "learning_rate": 1.7007546187874058e-05,
      "loss": 1.0363,
      "step": 1150
    },
    {
      "epoch": 0.4527712724434036,
      "grad_norm": 15.626288414001465,
      "learning_rate": 1.698152485037731e-05,
      "loss": 1.1165,
      "step": 1160
    },
    {
      "epoch": 0.4566744730679157,
      "grad_norm": 15.360112190246582,
      "learning_rate": 1.6955503512880566e-05,
      "loss": 0.9648,
      "step": 1170
    },
    {
      "epoch": 0.4605776736924278,
      "grad_norm": 18.963918685913086,
      "learning_rate": 1.6929482175383815e-05,
      "loss": 0.9798,
      "step": 1180
    },
    {
      "epoch": 0.4644808743169399,
      "grad_norm": 26.764999389648438,
      "learning_rate": 1.690346083788707e-05,
      "loss": 1.0336,
      "step": 1190
    },
    {
      "epoch": 0.468384074941452,
      "grad_norm": 20.623807907104492,
      "learning_rate": 1.6877439500390323e-05,
      "loss": 1.0019,
      "step": 1200
    },
    {
      "epoch": 0.4722872755659641,
      "grad_norm": 20.17474365234375,
      "learning_rate": 1.6851418162893572e-05,
      "loss": 0.8738,
      "step": 1210
    },
    {
      "epoch": 0.47619047619047616,
      "grad_norm": 19.663928985595703,
      "learning_rate": 1.6825396825396828e-05,
      "loss": 1.009,
      "step": 1220
    },
    {
      "epoch": 0.48009367681498827,
      "grad_norm": 19.72048568725586,
      "learning_rate": 1.679937548790008e-05,
      "loss": 0.9647,
      "step": 1230
    },
    {
      "epoch": 0.4839968774395004,
      "grad_norm": 14.891254425048828,
      "learning_rate": 1.6773354150403333e-05,
      "loss": 1.0387,
      "step": 1240
    },
    {
      "epoch": 0.4879000780640125,
      "grad_norm": 16.836780548095703,
      "learning_rate": 1.6747332812906585e-05,
      "loss": 0.8702,
      "step": 1250
    },
    {
      "epoch": 0.4918032786885246,
      "grad_norm": 24.60145378112793,
      "learning_rate": 1.6721311475409837e-05,
      "loss": 1.0804,
      "step": 1260
    },
    {
      "epoch": 0.4957064793130367,
      "grad_norm": 18.74412727355957,
      "learning_rate": 1.669529013791309e-05,
      "loss": 0.7997,
      "step": 1270
    },
    {
      "epoch": 0.4996096799375488,
      "grad_norm": 25.53291893005371,
      "learning_rate": 1.6669268800416342e-05,
      "loss": 0.9774,
      "step": 1280
    },
    {
      "epoch": 0.5035128805620609,
      "grad_norm": 15.621230125427246,
      "learning_rate": 1.6643247462919595e-05,
      "loss": 0.9418,
      "step": 1290
    },
    {
      "epoch": 0.507416081186573,
      "grad_norm": 22.501752853393555,
      "learning_rate": 1.6617226125422847e-05,
      "loss": 0.9191,
      "step": 1300
    },
    {
      "epoch": 0.5113192818110851,
      "grad_norm": 18.241544723510742,
      "learning_rate": 1.65912047879261e-05,
      "loss": 0.8284,
      "step": 1310
    },
    {
      "epoch": 0.5152224824355972,
      "grad_norm": 14.422910690307617,
      "learning_rate": 1.6565183450429355e-05,
      "loss": 0.8938,
      "step": 1320
    },
    {
      "epoch": 0.5191256830601093,
      "grad_norm": 19.221588134765625,
      "learning_rate": 1.6539162112932604e-05,
      "loss": 0.994,
      "step": 1330
    },
    {
      "epoch": 0.5230288836846214,
      "grad_norm": 27.67292594909668,
      "learning_rate": 1.651314077543586e-05,
      "loss": 0.7844,
      "step": 1340
    },
    {
      "epoch": 0.5269320843091335,
      "grad_norm": 22.864667892456055,
      "learning_rate": 1.6487119437939112e-05,
      "loss": 0.9116,
      "step": 1350
    },
    {
      "epoch": 0.5308352849336456,
      "grad_norm": 16.085805892944336,
      "learning_rate": 1.6461098100442365e-05,
      "loss": 0.8897,
      "step": 1360
    },
    {
      "epoch": 0.5347384855581577,
      "grad_norm": 21.264652252197266,
      "learning_rate": 1.6435076762945617e-05,
      "loss": 0.8812,
      "step": 1370
    },
    {
      "epoch": 0.5386416861826698,
      "grad_norm": 28.43931007385254,
      "learning_rate": 1.640905542544887e-05,
      "loss": 0.9958,
      "step": 1380
    },
    {
      "epoch": 0.5425448868071819,
      "grad_norm": 25.854400634765625,
      "learning_rate": 1.6383034087952122e-05,
      "loss": 1.045,
      "step": 1390
    },
    {
      "epoch": 0.546448087431694,
      "grad_norm": 18.568450927734375,
      "learning_rate": 1.6357012750455374e-05,
      "loss": 1.035,
      "step": 1400
    },
    {
      "epoch": 0.550351288056206,
      "grad_norm": 17.184099197387695,
      "learning_rate": 1.6330991412958627e-05,
      "loss": 0.9636,
      "step": 1410
    },
    {
      "epoch": 0.5542544886807181,
      "grad_norm": 20.51470375061035,
      "learning_rate": 1.6304970075461883e-05,
      "loss": 0.9043,
      "step": 1420
    },
    {
      "epoch": 0.5581576893052302,
      "grad_norm": 17.037694931030273,
      "learning_rate": 1.627894873796513e-05,
      "loss": 0.9231,
      "step": 1430
    },
    {
      "epoch": 0.5620608899297423,
      "grad_norm": 16.286304473876953,
      "learning_rate": 1.6252927400468387e-05,
      "loss": 0.9082,
      "step": 1440
    },
    {
      "epoch": 0.5659640905542545,
      "grad_norm": 31.658315658569336,
      "learning_rate": 1.622690606297164e-05,
      "loss": 0.9476,
      "step": 1450
    },
    {
      "epoch": 0.5698672911787666,
      "grad_norm": 18.533662796020508,
      "learning_rate": 1.620088472547489e-05,
      "loss": 1.0869,
      "step": 1460
    },
    {
      "epoch": 0.5737704918032787,
      "grad_norm": 18.22993278503418,
      "learning_rate": 1.6174863387978145e-05,
      "loss": 0.8841,
      "step": 1470
    },
    {
      "epoch": 0.5776736924277908,
      "grad_norm": 19.26787757873535,
      "learning_rate": 1.6148842050481397e-05,
      "loss": 1.0866,
      "step": 1480
    },
    {
      "epoch": 0.5815768930523029,
      "grad_norm": 22.517330169677734,
      "learning_rate": 1.612282071298465e-05,
      "loss": 0.8655,
      "step": 1490
    },
    {
      "epoch": 0.585480093676815,
      "grad_norm": 33.4715461730957,
      "learning_rate": 1.6096799375487902e-05,
      "loss": 0.991,
      "step": 1500
    },
    {
      "epoch": 0.585480093676815,
      "eval_accuracy": 0.582784365393061,
      "eval_f1": 0.5865157083567943,
      "eval_loss": 0.960147500038147,
      "eval_precision": 0.6193644269538527,
      "eval_runtime": 480.1075,
      "eval_samples_per_second": 4.743,
      "eval_steps_per_second": 0.594,
      "step": 1500
    },
    {
      "epoch": 0.5893832943013271,
      "grad_norm": 23.995346069335938,
      "learning_rate": 1.6070778037991154e-05,
      "loss": 1.0479,
      "step": 1510
    },
    {
      "epoch": 0.5932864949258392,
      "grad_norm": 13.516109466552734,
      "learning_rate": 1.6044756700494407e-05,
      "loss": 0.9763,
      "step": 1520
    },
    {
      "epoch": 0.5971896955503513,
      "grad_norm": 19.393400192260742,
      "learning_rate": 1.601873536299766e-05,
      "loss": 0.8501,
      "step": 1530
    },
    {
      "epoch": 0.6010928961748634,
      "grad_norm": 34.907257080078125,
      "learning_rate": 1.599271402550091e-05,
      "loss": 0.9804,
      "step": 1540
    },
    {
      "epoch": 0.6049960967993755,
      "grad_norm": 15.574237823486328,
      "learning_rate": 1.5966692688004164e-05,
      "loss": 1.0237,
      "step": 1550
    },
    {
      "epoch": 0.6088992974238876,
      "grad_norm": 18.978933334350586,
      "learning_rate": 1.5940671350507416e-05,
      "loss": 0.9052,
      "step": 1560
    },
    {
      "epoch": 0.6128024980483997,
      "grad_norm": 18.668365478515625,
      "learning_rate": 1.5914650013010672e-05,
      "loss": 0.9378,
      "step": 1570
    },
    {
      "epoch": 0.6167056986729118,
      "grad_norm": 30.60311508178711,
      "learning_rate": 1.588862867551392e-05,
      "loss": 0.885,
      "step": 1580
    },
    {
      "epoch": 0.6206088992974239,
      "grad_norm": 18.447364807128906,
      "learning_rate": 1.5862607338017177e-05,
      "loss": 0.9475,
      "step": 1590
    },
    {
      "epoch": 0.624512099921936,
      "grad_norm": 23.304832458496094,
      "learning_rate": 1.583658600052043e-05,
      "loss": 0.7561,
      "step": 1600
    },
    {
      "epoch": 0.6284153005464481,
      "grad_norm": 19.00995445251465,
      "learning_rate": 1.5810564663023678e-05,
      "loss": 1.0923,
      "step": 1610
    },
    {
      "epoch": 0.6323185011709602,
      "grad_norm": 28.906587600708008,
      "learning_rate": 1.5784543325526934e-05,
      "loss": 1.0013,
      "step": 1620
    },
    {
      "epoch": 0.6362217017954723,
      "grad_norm": 25.062774658203125,
      "learning_rate": 1.5758521988030186e-05,
      "loss": 1.0364,
      "step": 1630
    },
    {
      "epoch": 0.6401249024199844,
      "grad_norm": 23.65471839904785,
      "learning_rate": 1.573250065053344e-05,
      "loss": 1.0099,
      "step": 1640
    },
    {
      "epoch": 0.6440281030444965,
      "grad_norm": 25.28416633605957,
      "learning_rate": 1.570647931303669e-05,
      "loss": 1.0383,
      "step": 1650
    },
    {
      "epoch": 0.6479313036690086,
      "grad_norm": 14.492937088012695,
      "learning_rate": 1.5680457975539943e-05,
      "loss": 0.7934,
      "step": 1660
    },
    {
      "epoch": 0.6518345042935206,
      "grad_norm": 17.175853729248047,
      "learning_rate": 1.56544366380432e-05,
      "loss": 0.9777,
      "step": 1670
    },
    {
      "epoch": 0.6557377049180327,
      "grad_norm": 19.173566818237305,
      "learning_rate": 1.5628415300546448e-05,
      "loss": 1.0395,
      "step": 1680
    },
    {
      "epoch": 0.6596409055425448,
      "grad_norm": 14.708358764648438,
      "learning_rate": 1.5602393963049704e-05,
      "loss": 0.9978,
      "step": 1690
    },
    {
      "epoch": 0.663544106167057,
      "grad_norm": 17.125288009643555,
      "learning_rate": 1.5576372625552956e-05,
      "loss": 0.8062,
      "step": 1700
    },
    {
      "epoch": 0.667447306791569,
      "grad_norm": 21.206947326660156,
      "learning_rate": 1.5550351288056205e-05,
      "loss": 0.9511,
      "step": 1710
    },
    {
      "epoch": 0.6713505074160812,
      "grad_norm": 23.78548240661621,
      "learning_rate": 1.552432995055946e-05,
      "loss": 1.0588,
      "step": 1720
    },
    {
      "epoch": 0.6752537080405933,
      "grad_norm": 12.645089149475098,
      "learning_rate": 1.5498308613062714e-05,
      "loss": 1.1241,
      "step": 1730
    },
    {
      "epoch": 0.6791569086651054,
      "grad_norm": 11.756546974182129,
      "learning_rate": 1.5472287275565966e-05,
      "loss": 0.8782,
      "step": 1740
    },
    {
      "epoch": 0.6830601092896175,
      "grad_norm": 25.50925636291504,
      "learning_rate": 1.544626593806922e-05,
      "loss": 0.792,
      "step": 1750
    },
    {
      "epoch": 0.6869633099141296,
      "grad_norm": 18.2367000579834,
      "learning_rate": 1.542024460057247e-05,
      "loss": 0.9115,
      "step": 1760
    },
    {
      "epoch": 0.6908665105386417,
      "grad_norm": 12.55910873413086,
      "learning_rate": 1.5394223263075723e-05,
      "loss": 0.916,
      "step": 1770
    },
    {
      "epoch": 0.6947697111631538,
      "grad_norm": 12.871712684631348,
      "learning_rate": 1.5368201925578976e-05,
      "loss": 0.9277,
      "step": 1780
    },
    {
      "epoch": 0.6986729117876659,
      "grad_norm": 19.934558868408203,
      "learning_rate": 1.5342180588082228e-05,
      "loss": 0.9641,
      "step": 1790
    },
    {
      "epoch": 0.702576112412178,
      "grad_norm": 20.543476104736328,
      "learning_rate": 1.531615925058548e-05,
      "loss": 1.0832,
      "step": 1800
    },
    {
      "epoch": 0.7064793130366901,
      "grad_norm": 17.633708953857422,
      "learning_rate": 1.5290137913088733e-05,
      "loss": 0.8951,
      "step": 1810
    },
    {
      "epoch": 0.7103825136612022,
      "grad_norm": 16.232019424438477,
      "learning_rate": 1.526411657559199e-05,
      "loss": 0.8154,
      "step": 1820
    },
    {
      "epoch": 0.7142857142857143,
      "grad_norm": 17.052671432495117,
      "learning_rate": 1.523809523809524e-05,
      "loss": 0.8777,
      "step": 1830
    },
    {
      "epoch": 0.7181889149102264,
      "grad_norm": 14.156832695007324,
      "learning_rate": 1.5212073900598492e-05,
      "loss": 0.9059,
      "step": 1840
    },
    {
      "epoch": 0.7220921155347385,
      "grad_norm": 18.345481872558594,
      "learning_rate": 1.5186052563101746e-05,
      "loss": 1.0737,
      "step": 1850
    },
    {
      "epoch": 0.7259953161592506,
      "grad_norm": 16.307941436767578,
      "learning_rate": 1.5160031225604996e-05,
      "loss": 0.8755,
      "step": 1860
    },
    {
      "epoch": 0.7298985167837627,
      "grad_norm": 18.315353393554688,
      "learning_rate": 1.513400988810825e-05,
      "loss": 1.0113,
      "step": 1870
    },
    {
      "epoch": 0.7338017174082748,
      "grad_norm": 19.200876235961914,
      "learning_rate": 1.5107988550611503e-05,
      "loss": 0.9061,
      "step": 1880
    },
    {
      "epoch": 0.7377049180327869,
      "grad_norm": 15.035209655761719,
      "learning_rate": 1.5081967213114754e-05,
      "loss": 0.9594,
      "step": 1890
    },
    {
      "epoch": 0.741608118657299,
      "grad_norm": 18.473522186279297,
      "learning_rate": 1.5055945875618008e-05,
      "loss": 0.7496,
      "step": 1900
    },
    {
      "epoch": 0.7455113192818111,
      "grad_norm": 25.08469009399414,
      "learning_rate": 1.5029924538121262e-05,
      "loss": 0.9742,
      "step": 1910
    },
    {
      "epoch": 0.7494145199063232,
      "grad_norm": 25.479049682617188,
      "learning_rate": 1.5003903200624513e-05,
      "loss": 1.0103,
      "step": 1920
    },
    {
      "epoch": 0.7533177205308352,
      "grad_norm": 18.297483444213867,
      "learning_rate": 1.4977881863127765e-05,
      "loss": 0.9415,
      "step": 1930
    },
    {
      "epoch": 0.7572209211553473,
      "grad_norm": 16.913925170898438,
      "learning_rate": 1.4951860525631019e-05,
      "loss": 0.9655,
      "step": 1940
    },
    {
      "epoch": 0.7611241217798594,
      "grad_norm": 25.924585342407227,
      "learning_rate": 1.4925839188134273e-05,
      "loss": 1.0325,
      "step": 1950
    },
    {
      "epoch": 0.7650273224043715,
      "grad_norm": 17.963571548461914,
      "learning_rate": 1.4899817850637524e-05,
      "loss": 0.9722,
      "step": 1960
    },
    {
      "epoch": 0.7689305230288837,
      "grad_norm": 16.77972412109375,
      "learning_rate": 1.4873796513140776e-05,
      "loss": 0.8023,
      "step": 1970
    },
    {
      "epoch": 0.7728337236533958,
      "grad_norm": 19.90070152282715,
      "learning_rate": 1.484777517564403e-05,
      "loss": 1.0169,
      "step": 1980
    },
    {
      "epoch": 0.7767369242779079,
      "grad_norm": 11.26119613647461,
      "learning_rate": 1.4821753838147281e-05,
      "loss": 0.8598,
      "step": 1990
    },
    {
      "epoch": 0.78064012490242,
      "grad_norm": 18.710615158081055,
      "learning_rate": 1.4795732500650535e-05,
      "loss": 0.7919,
      "step": 2000
    },
    {
      "epoch": 0.78064012490242,
      "eval_accuracy": 0.6135265700483091,
      "eval_f1": 0.6190999273841837,
      "eval_loss": 0.9065605998039246,
      "eval_precision": 0.6580469720650659,
      "eval_runtime": 534.0305,
      "eval_samples_per_second": 4.264,
      "eval_steps_per_second": 0.534,
      "step": 2000
    },
    {
      "epoch": 0.7845433255269321,
      "grad_norm": 13.80505084991455,
      "learning_rate": 1.4769711163153787e-05,
      "loss": 0.9029,
      "step": 2010
    },
    {
      "epoch": 0.7884465261514442,
      "grad_norm": 15.317811965942383,
      "learning_rate": 1.474368982565704e-05,
      "loss": 0.9233,
      "step": 2020
    },
    {
      "epoch": 0.7923497267759563,
      "grad_norm": 25.26319694519043,
      "learning_rate": 1.4717668488160292e-05,
      "loss": 0.8268,
      "step": 2030
    },
    {
      "epoch": 0.7962529274004684,
      "grad_norm": 30.67687225341797,
      "learning_rate": 1.4691647150663546e-05,
      "loss": 0.9769,
      "step": 2040
    },
    {
      "epoch": 0.8001561280249805,
      "grad_norm": 21.325197219848633,
      "learning_rate": 1.4665625813166797e-05,
      "loss": 0.9789,
      "step": 2050
    },
    {
      "epoch": 0.8040593286494926,
      "grad_norm": 9.161794662475586,
      "learning_rate": 1.4639604475670051e-05,
      "loss": 0.8523,
      "step": 2060
    },
    {
      "epoch": 0.8079625292740047,
      "grad_norm": 15.068933486938477,
      "learning_rate": 1.4613583138173304e-05,
      "loss": 0.9569,
      "step": 2070
    },
    {
      "epoch": 0.8118657298985168,
      "grad_norm": 20.638368606567383,
      "learning_rate": 1.4587561800676556e-05,
      "loss": 1.0039,
      "step": 2080
    },
    {
      "epoch": 0.8157689305230289,
      "grad_norm": 13.046148300170898,
      "learning_rate": 1.4561540463179808e-05,
      "loss": 0.7524,
      "step": 2090
    },
    {
      "epoch": 0.819672131147541,
      "grad_norm": 18.688011169433594,
      "learning_rate": 1.4535519125683062e-05,
      "loss": 0.9218,
      "step": 2100
    },
    {
      "epoch": 0.8235753317720531,
      "grad_norm": 27.032108306884766,
      "learning_rate": 1.4509497788186313e-05,
      "loss": 0.7629,
      "step": 2110
    },
    {
      "epoch": 0.8274785323965652,
      "grad_norm": 17.78452491760254,
      "learning_rate": 1.4483476450689567e-05,
      "loss": 0.9396,
      "step": 2120
    },
    {
      "epoch": 0.8313817330210773,
      "grad_norm": 22.845773696899414,
      "learning_rate": 1.445745511319282e-05,
      "loss": 0.9596,
      "step": 2130
    },
    {
      "epoch": 0.8352849336455894,
      "grad_norm": 56.26203155517578,
      "learning_rate": 1.443143377569607e-05,
      "loss": 1.0003,
      "step": 2140
    },
    {
      "epoch": 0.8391881342701015,
      "grad_norm": 17.84065055847168,
      "learning_rate": 1.4405412438199324e-05,
      "loss": 0.9668,
      "step": 2150
    },
    {
      "epoch": 0.8430913348946136,
      "grad_norm": 15.454276084899902,
      "learning_rate": 1.4379391100702578e-05,
      "loss": 0.9177,
      "step": 2160
    },
    {
      "epoch": 0.8469945355191257,
      "grad_norm": 25.1417293548584,
      "learning_rate": 1.435336976320583e-05,
      "loss": 0.9691,
      "step": 2170
    },
    {
      "epoch": 0.8508977361436377,
      "grad_norm": 12.82750415802002,
      "learning_rate": 1.4327348425709082e-05,
      "loss": 0.9249,
      "step": 2180
    },
    {
      "epoch": 0.8548009367681498,
      "grad_norm": 28.972078323364258,
      "learning_rate": 1.4301327088212336e-05,
      "loss": 1.0681,
      "step": 2190
    },
    {
      "epoch": 0.8587041373926619,
      "grad_norm": 20.388343811035156,
      "learning_rate": 1.427530575071559e-05,
      "loss": 1.0044,
      "step": 2200
    },
    {
      "epoch": 0.862607338017174,
      "grad_norm": 13.870368003845215,
      "learning_rate": 1.424928441321884e-05,
      "loss": 0.8876,
      "step": 2210
    },
    {
      "epoch": 0.8665105386416861,
      "grad_norm": 12.517757415771484,
      "learning_rate": 1.4223263075722093e-05,
      "loss": 0.9297,
      "step": 2220
    },
    {
      "epoch": 0.8704137392661982,
      "grad_norm": 20.90099334716797,
      "learning_rate": 1.4197241738225347e-05,
      "loss": 0.9008,
      "step": 2230
    },
    {
      "epoch": 0.8743169398907104,
      "grad_norm": 27.37404441833496,
      "learning_rate": 1.4171220400728598e-05,
      "loss": 0.88,
      "step": 2240
    },
    {
      "epoch": 0.8782201405152225,
      "grad_norm": 16.42445182800293,
      "learning_rate": 1.4145199063231852e-05,
      "loss": 1.0013,
      "step": 2250
    },
    {
      "epoch": 0.8821233411397346,
      "grad_norm": 21.18807601928711,
      "learning_rate": 1.4119177725735104e-05,
      "loss": 0.7898,
      "step": 2260
    },
    {
      "epoch": 0.8860265417642467,
      "grad_norm": 13.144170761108398,
      "learning_rate": 1.4093156388238357e-05,
      "loss": 0.7895,
      "step": 2270
    },
    {
      "epoch": 0.8899297423887588,
      "grad_norm": 55.67690658569336,
      "learning_rate": 1.4067135050741609e-05,
      "loss": 0.8081,
      "step": 2280
    },
    {
      "epoch": 0.8938329430132709,
      "grad_norm": 21.24954605102539,
      "learning_rate": 1.4041113713244863e-05,
      "loss": 0.8659,
      "step": 2290
    },
    {
      "epoch": 0.897736143637783,
      "grad_norm": 22.867698669433594,
      "learning_rate": 1.4015092375748114e-05,
      "loss": 0.7498,
      "step": 2300
    },
    {
      "epoch": 0.9016393442622951,
      "grad_norm": 16.5629825592041,
      "learning_rate": 1.3989071038251368e-05,
      "loss": 0.9806,
      "step": 2310
    },
    {
      "epoch": 0.9055425448868072,
      "grad_norm": 13.808975219726562,
      "learning_rate": 1.396304970075462e-05,
      "loss": 0.7086,
      "step": 2320
    },
    {
      "epoch": 0.9094457455113193,
      "grad_norm": 20.163864135742188,
      "learning_rate": 1.3937028363257873e-05,
      "loss": 0.82,
      "step": 2330
    },
    {
      "epoch": 0.9133489461358314,
      "grad_norm": 29.5799503326416,
      "learning_rate": 1.3911007025761125e-05,
      "loss": 0.9479,
      "step": 2340
    },
    {
      "epoch": 0.9172521467603435,
      "grad_norm": 32.35124969482422,
      "learning_rate": 1.3884985688264379e-05,
      "loss": 0.8603,
      "step": 2350
    },
    {
      "epoch": 0.9211553473848556,
      "grad_norm": 20.933696746826172,
      "learning_rate": 1.385896435076763e-05,
      "loss": 0.9729,
      "step": 2360
    },
    {
      "epoch": 0.9250585480093677,
      "grad_norm": 16.94362449645996,
      "learning_rate": 1.3832943013270884e-05,
      "loss": 0.9072,
      "step": 2370
    },
    {
      "epoch": 0.9289617486338798,
      "grad_norm": 26.795732498168945,
      "learning_rate": 1.3806921675774136e-05,
      "loss": 0.8721,
      "step": 2380
    },
    {
      "epoch": 0.9328649492583919,
      "grad_norm": 25.74945831298828,
      "learning_rate": 1.3780900338277387e-05,
      "loss": 0.8523,
      "step": 2390
    },
    {
      "epoch": 0.936768149882904,
      "grad_norm": 33.05274200439453,
      "learning_rate": 1.3754879000780641e-05,
      "loss": 0.8909,
      "step": 2400
    },
    {
      "epoch": 0.9406713505074161,
      "grad_norm": 29.36082649230957,
      "learning_rate": 1.3728857663283895e-05,
      "loss": 0.7505,
      "step": 2410
    },
    {
      "epoch": 0.9445745511319282,
      "grad_norm": 17.815048217773438,
      "learning_rate": 1.3702836325787146e-05,
      "loss": 0.7936,
      "step": 2420
    },
    {
      "epoch": 0.9484777517564403,
      "grad_norm": 19.493328094482422,
      "learning_rate": 1.3676814988290398e-05,
      "loss": 0.9049,
      "step": 2430
    },
    {
      "epoch": 0.9523809523809523,
      "grad_norm": 13.49242115020752,
      "learning_rate": 1.3650793650793652e-05,
      "loss": 0.6746,
      "step": 2440
    },
    {
      "epoch": 0.9562841530054644,
      "grad_norm": 25.401935577392578,
      "learning_rate": 1.3624772313296906e-05,
      "loss": 1.0147,
      "step": 2450
    },
    {
      "epoch": 0.9601873536299765,
      "grad_norm": 22.136951446533203,
      "learning_rate": 1.3598750975800157e-05,
      "loss": 0.9204,
      "step": 2460
    },
    {
      "epoch": 0.9640905542544886,
      "grad_norm": 21.862937927246094,
      "learning_rate": 1.357272963830341e-05,
      "loss": 0.7469,
      "step": 2470
    },
    {
      "epoch": 0.9679937548790007,
      "grad_norm": 14.690473556518555,
      "learning_rate": 1.3546708300806664e-05,
      "loss": 0.9364,
      "step": 2480
    },
    {
      "epoch": 0.9718969555035128,
      "grad_norm": 14.1323823928833,
      "learning_rate": 1.3520686963309914e-05,
      "loss": 0.8788,
      "step": 2490
    },
    {
      "epoch": 0.975800156128025,
      "grad_norm": 28.636653900146484,
      "learning_rate": 1.3494665625813168e-05,
      "loss": 0.9748,
      "step": 2500
    },
    {
      "epoch": 0.975800156128025,
      "eval_accuracy": 0.6460254721124287,
      "eval_f1": 0.6443439062238167,
      "eval_loss": 0.832680344581604,
      "eval_precision": 0.6457811636912757,
      "eval_runtime": 567.7528,
      "eval_samples_per_second": 4.011,
      "eval_steps_per_second": 0.502,
      "step": 2500
    },
    {
      "epoch": 0.9797033567525371,
      "grad_norm": 19.920490264892578,
      "learning_rate": 1.346864428831642e-05,
      "loss": 0.8252,
      "step": 2510
    },
    {
      "epoch": 0.9836065573770492,
      "grad_norm": 22.412405014038086,
      "learning_rate": 1.3442622950819673e-05,
      "loss": 0.9048,
      "step": 2520
    },
    {
      "epoch": 0.9875097580015613,
      "grad_norm": 11.322604179382324,
      "learning_rate": 1.3416601613322926e-05,
      "loss": 0.8911,
      "step": 2530
    },
    {
      "epoch": 0.9914129586260734,
      "grad_norm": 26.00006103515625,
      "learning_rate": 1.339058027582618e-05,
      "loss": 0.9352,
      "step": 2540
    },
    {
      "epoch": 0.9953161592505855,
      "grad_norm": 15.5698823928833,
      "learning_rate": 1.336455893832943e-05,
      "loss": 0.9756,
      "step": 2550
    },
    {
      "epoch": 0.9992193598750976,
      "grad_norm": 28.190237045288086,
      "learning_rate": 1.3338537600832685e-05,
      "loss": 0.8543,
      "step": 2560
    },
    {
      "epoch": 1.0031225604996097,
      "grad_norm": 13.940471649169922,
      "learning_rate": 1.3312516263335937e-05,
      "loss": 0.7443,
      "step": 2570
    },
    {
      "epoch": 1.0070257611241218,
      "grad_norm": 23.969850540161133,
      "learning_rate": 1.3286494925839188e-05,
      "loss": 0.8327,
      "step": 2580
    },
    {
      "epoch": 1.010928961748634,
      "grad_norm": 11.817898750305176,
      "learning_rate": 1.3260473588342442e-05,
      "loss": 0.7274,
      "step": 2590
    },
    {
      "epoch": 1.014832162373146,
      "grad_norm": 22.571331024169922,
      "learning_rate": 1.3234452250845696e-05,
      "loss": 0.7268,
      "step": 2600
    },
    {
      "epoch": 1.018735362997658,
      "grad_norm": 27.355514526367188,
      "learning_rate": 1.3208430913348946e-05,
      "loss": 0.6468,
      "step": 2610
    },
    {
      "epoch": 1.0226385636221702,
      "grad_norm": 17.21080207824707,
      "learning_rate": 1.3182409575852199e-05,
      "loss": 0.9288,
      "step": 2620
    },
    {
      "epoch": 1.0265417642466823,
      "grad_norm": 31.05831527709961,
      "learning_rate": 1.3156388238355453e-05,
      "loss": 0.7853,
      "step": 2630
    },
    {
      "epoch": 1.0304449648711944,
      "grad_norm": 13.082383155822754,
      "learning_rate": 1.3130366900858704e-05,
      "loss": 0.659,
      "step": 2640
    },
    {
      "epoch": 1.0343481654957065,
      "grad_norm": 19.924589157104492,
      "learning_rate": 1.3104345563361958e-05,
      "loss": 0.765,
      "step": 2650
    },
    {
      "epoch": 1.0382513661202186,
      "grad_norm": 14.45408821105957,
      "learning_rate": 1.307832422586521e-05,
      "loss": 0.6935,
      "step": 2660
    },
    {
      "epoch": 1.0421545667447307,
      "grad_norm": 30.87961769104004,
      "learning_rate": 1.3052302888368463e-05,
      "loss": 0.8106,
      "step": 2670
    },
    {
      "epoch": 1.0460577673692428,
      "grad_norm": 19.620201110839844,
      "learning_rate": 1.3026281550871715e-05,
      "loss": 0.7656,
      "step": 2680
    },
    {
      "epoch": 1.049960967993755,
      "grad_norm": 18.17420768737793,
      "learning_rate": 1.3000260213374969e-05,
      "loss": 0.7107,
      "step": 2690
    },
    {
      "epoch": 1.053864168618267,
      "grad_norm": 14.265844345092773,
      "learning_rate": 1.2974238875878221e-05,
      "loss": 0.9212,
      "step": 2700
    },
    {
      "epoch": 1.0577673692427791,
      "grad_norm": 28.509872436523438,
      "learning_rate": 1.2948217538381474e-05,
      "loss": 0.9023,
      "step": 2710
    },
    {
      "epoch": 1.0616705698672912,
      "grad_norm": 25.33905792236328,
      "learning_rate": 1.2922196200884726e-05,
      "loss": 0.7922,
      "step": 2720
    },
    {
      "epoch": 1.0655737704918034,
      "grad_norm": 14.716764450073242,
      "learning_rate": 1.289617486338798e-05,
      "loss": 0.8546,
      "step": 2730
    },
    {
      "epoch": 1.0694769711163155,
      "grad_norm": 28.75935935974121,
      "learning_rate": 1.2870153525891231e-05,
      "loss": 0.7805,
      "step": 2740
    },
    {
      "epoch": 1.0733801717408276,
      "grad_norm": 19.825672149658203,
      "learning_rate": 1.2844132188394485e-05,
      "loss": 0.8885,
      "step": 2750
    },
    {
      "epoch": 1.0772833723653397,
      "grad_norm": 15.355547904968262,
      "learning_rate": 1.2818110850897738e-05,
      "loss": 0.828,
      "step": 2760
    },
    {
      "epoch": 1.0811865729898518,
      "grad_norm": 26.40794563293457,
      "learning_rate": 1.279208951340099e-05,
      "loss": 0.7669,
      "step": 2770
    },
    {
      "epoch": 1.0850897736143639,
      "grad_norm": 16.548391342163086,
      "learning_rate": 1.2766068175904242e-05,
      "loss": 0.664,
      "step": 2780
    },
    {
      "epoch": 1.088992974238876,
      "grad_norm": 18.67404556274414,
      "learning_rate": 1.2740046838407496e-05,
      "loss": 0.732,
      "step": 2790
    },
    {
      "epoch": 1.092896174863388,
      "grad_norm": 23.299999237060547,
      "learning_rate": 1.2714025500910747e-05,
      "loss": 0.7994,
      "step": 2800
    },
    {
      "epoch": 1.0967993754879002,
      "grad_norm": 16.705995559692383,
      "learning_rate": 1.2688004163414001e-05,
      "loss": 0.7505,
      "step": 2810
    },
    {
      "epoch": 1.100702576112412,
      "grad_norm": 21.36037254333496,
      "learning_rate": 1.2661982825917254e-05,
      "loss": 0.8308,
      "step": 2820
    },
    {
      "epoch": 1.1046057767369244,
      "grad_norm": 18.319244384765625,
      "learning_rate": 1.2635961488420504e-05,
      "loss": 0.7536,
      "step": 2830
    },
    {
      "epoch": 1.1085089773614363,
      "grad_norm": 12.982011795043945,
      "learning_rate": 1.2609940150923758e-05,
      "loss": 0.7694,
      "step": 2840
    },
    {
      "epoch": 1.1124121779859484,
      "grad_norm": 32.51813888549805,
      "learning_rate": 1.2583918813427012e-05,
      "loss": 0.8408,
      "step": 2850
    },
    {
      "epoch": 1.1163153786104605,
      "grad_norm": 16.680301666259766,
      "learning_rate": 1.2557897475930263e-05,
      "loss": 0.8817,
      "step": 2860
    },
    {
      "epoch": 1.1202185792349726,
      "grad_norm": 20.043039321899414,
      "learning_rate": 1.2531876138433516e-05,
      "loss": 0.7716,
      "step": 2870
    },
    {
      "epoch": 1.1241217798594847,
      "grad_norm": 45.995540618896484,
      "learning_rate": 1.250585480093677e-05,
      "loss": 0.7821,
      "step": 2880
    },
    {
      "epoch": 1.1280249804839968,
      "grad_norm": 13.068787574768066,
      "learning_rate": 1.247983346344002e-05,
      "loss": 0.8281,
      "step": 2890
    },
    {
      "epoch": 1.131928181108509,
      "grad_norm": 15.299711227416992,
      "learning_rate": 1.2453812125943274e-05,
      "loss": 0.7017,
      "step": 2900
    },
    {
      "epoch": 1.135831381733021,
      "grad_norm": 22.235782623291016,
      "learning_rate": 1.2427790788446527e-05,
      "loss": 0.5502,
      "step": 2910
    },
    {
      "epoch": 1.139734582357533,
      "grad_norm": 20.392881393432617,
      "learning_rate": 1.240176945094978e-05,
      "loss": 0.868,
      "step": 2920
    },
    {
      "epoch": 1.1436377829820452,
      "grad_norm": 22.242549896240234,
      "learning_rate": 1.2375748113453032e-05,
      "loss": 0.7577,
      "step": 2930
    },
    {
      "epoch": 1.1475409836065573,
      "grad_norm": 28.95302391052246,
      "learning_rate": 1.2349726775956286e-05,
      "loss": 0.7933,
      "step": 2940
    },
    {
      "epoch": 1.1514441842310694,
      "grad_norm": 25.682924270629883,
      "learning_rate": 1.2323705438459538e-05,
      "loss": 0.7775,
      "step": 2950
    },
    {
      "epoch": 1.1553473848555815,
      "grad_norm": 30.765838623046875,
      "learning_rate": 1.229768410096279e-05,
      "loss": 0.8376,
      "step": 2960
    },
    {
      "epoch": 1.1592505854800936,
      "grad_norm": 17.011415481567383,
      "learning_rate": 1.2271662763466043e-05,
      "loss": 0.9072,
      "step": 2970
    },
    {
      "epoch": 1.1631537861046057,
      "grad_norm": 24.54769515991211,
      "learning_rate": 1.2245641425969297e-05,
      "loss": 0.6206,
      "step": 2980
    },
    {
      "epoch": 1.1670569867291178,
      "grad_norm": 18.610301971435547,
      "learning_rate": 1.2219620088472548e-05,
      "loss": 0.8104,
      "step": 2990
    },
    {
      "epoch": 1.17096018735363,
      "grad_norm": 23.293169021606445,
      "learning_rate": 1.2193598750975802e-05,
      "loss": 0.7183,
      "step": 3000
    },
    {
      "epoch": 1.17096018735363,
      "eval_accuracy": 0.6420729029424681,
      "eval_f1": 0.6419367290018672,
      "eval_loss": 0.8808031678199768,
      "eval_precision": 0.6638056284576775,
      "eval_runtime": 532.9354,
      "eval_samples_per_second": 4.273,
      "eval_steps_per_second": 0.535,
      "step": 3000
    },
    {
      "epoch": 1.174863387978142,
      "grad_norm": 31.562047958374023,
      "learning_rate": 1.2167577413479054e-05,
      "loss": 0.8382,
      "step": 3010
    },
    {
      "epoch": 1.1787665886026542,
      "grad_norm": 16.15005874633789,
      "learning_rate": 1.2141556075982307e-05,
      "loss": 0.9313,
      "step": 3020
    },
    {
      "epoch": 1.1826697892271663,
      "grad_norm": 24.99754524230957,
      "learning_rate": 1.2115534738485559e-05,
      "loss": 0.8578,
      "step": 3030
    },
    {
      "epoch": 1.1865729898516784,
      "grad_norm": 17.830720901489258,
      "learning_rate": 1.2089513400988813e-05,
      "loss": 0.7939,
      "step": 3040
    },
    {
      "epoch": 1.1904761904761905,
      "grad_norm": 22.83194923400879,
      "learning_rate": 1.2063492063492064e-05,
      "loss": 0.8549,
      "step": 3050
    },
    {
      "epoch": 1.1943793911007026,
      "grad_norm": 12.608864784240723,
      "learning_rate": 1.2037470725995318e-05,
      "loss": 0.8015,
      "step": 3060
    },
    {
      "epoch": 1.1982825917252147,
      "grad_norm": 15.087687492370605,
      "learning_rate": 1.201144938849857e-05,
      "loss": 0.6802,
      "step": 3070
    },
    {
      "epoch": 1.2021857923497268,
      "grad_norm": 23.995473861694336,
      "learning_rate": 1.1985428051001821e-05,
      "loss": 0.814,
      "step": 3080
    },
    {
      "epoch": 1.2060889929742389,
      "grad_norm": 11.217513084411621,
      "learning_rate": 1.1959406713505075e-05,
      "loss": 0.6423,
      "step": 3090
    },
    {
      "epoch": 1.209992193598751,
      "grad_norm": 24.381746292114258,
      "learning_rate": 1.1933385376008329e-05,
      "loss": 0.9023,
      "step": 3100
    },
    {
      "epoch": 1.213895394223263,
      "grad_norm": 31.57900619506836,
      "learning_rate": 1.190736403851158e-05,
      "loss": 0.8815,
      "step": 3110
    },
    {
      "epoch": 1.2177985948477752,
      "grad_norm": 24.265108108520508,
      "learning_rate": 1.1881342701014832e-05,
      "loss": 0.6218,
      "step": 3120
    },
    {
      "epoch": 1.2217017954722873,
      "grad_norm": 14.179804801940918,
      "learning_rate": 1.1855321363518086e-05,
      "loss": 0.7221,
      "step": 3130
    },
    {
      "epoch": 1.2256049960967994,
      "grad_norm": 27.16385269165039,
      "learning_rate": 1.1829300026021337e-05,
      "loss": 0.812,
      "step": 3140
    },
    {
      "epoch": 1.2295081967213115,
      "grad_norm": 24.262319564819336,
      "learning_rate": 1.1803278688524591e-05,
      "loss": 0.8976,
      "step": 3150
    },
    {
      "epoch": 1.2334113973458236,
      "grad_norm": 13.859904289245605,
      "learning_rate": 1.1777257351027844e-05,
      "loss": 0.7494,
      "step": 3160
    },
    {
      "epoch": 1.2373145979703357,
      "grad_norm": 24.26496124267578,
      "learning_rate": 1.1751236013531096e-05,
      "loss": 0.8057,
      "step": 3170
    },
    {
      "epoch": 1.2412177985948478,
      "grad_norm": 30.277931213378906,
      "learning_rate": 1.1725214676034348e-05,
      "loss": 0.6479,
      "step": 3180
    },
    {
      "epoch": 1.24512099921936,
      "grad_norm": 20.715435028076172,
      "learning_rate": 1.1699193338537602e-05,
      "loss": 0.6559,
      "step": 3190
    },
    {
      "epoch": 1.249024199843872,
      "grad_norm": 36.786556243896484,
      "learning_rate": 1.1673172001040853e-05,
      "loss": 0.9387,
      "step": 3200
    },
    {
      "epoch": 1.2529274004683841,
      "grad_norm": 19.293689727783203,
      "learning_rate": 1.1647150663544107e-05,
      "loss": 0.896,
      "step": 3210
    },
    {
      "epoch": 1.2568306010928962,
      "grad_norm": 19.146167755126953,
      "learning_rate": 1.162112932604736e-05,
      "loss": 0.7836,
      "step": 3220
    },
    {
      "epoch": 1.2607338017174083,
      "grad_norm": 18.51961898803711,
      "learning_rate": 1.1595107988550614e-05,
      "loss": 0.732,
      "step": 3230
    },
    {
      "epoch": 1.2646370023419204,
      "grad_norm": 15.236265182495117,
      "learning_rate": 1.1569086651053864e-05,
      "loss": 0.7098,
      "step": 3240
    },
    {
      "epoch": 1.2685402029664326,
      "grad_norm": 14.104326248168945,
      "learning_rate": 1.1543065313557118e-05,
      "loss": 1.0432,
      "step": 3250
    },
    {
      "epoch": 1.2724434035909447,
      "grad_norm": 20.513916015625,
      "learning_rate": 1.1517043976060371e-05,
      "loss": 0.7273,
      "step": 3260
    },
    {
      "epoch": 1.2763466042154565,
      "grad_norm": 19.04469108581543,
      "learning_rate": 1.1491022638563623e-05,
      "loss": 0.6806,
      "step": 3270
    },
    {
      "epoch": 1.2802498048399689,
      "grad_norm": 29.374847412109375,
      "learning_rate": 1.1465001301066876e-05,
      "loss": 0.8454,
      "step": 3280
    },
    {
      "epoch": 1.2841530054644807,
      "grad_norm": 22.682941436767578,
      "learning_rate": 1.143897996357013e-05,
      "loss": 0.8353,
      "step": 3290
    },
    {
      "epoch": 1.288056206088993,
      "grad_norm": 22.856298446655273,
      "learning_rate": 1.141295862607338e-05,
      "loss": 0.699,
      "step": 3300
    },
    {
      "epoch": 1.291959406713505,
      "grad_norm": 15.765235900878906,
      "learning_rate": 1.1386937288576635e-05,
      "loss": 0.8079,
      "step": 3310
    },
    {
      "epoch": 1.2958626073380173,
      "grad_norm": 30.02912139892578,
      "learning_rate": 1.1360915951079887e-05,
      "loss": 0.7469,
      "step": 3320
    },
    {
      "epoch": 1.2997658079625292,
      "grad_norm": 20.856346130371094,
      "learning_rate": 1.1334894613583138e-05,
      "loss": 0.9403,
      "step": 3330
    },
    {
      "epoch": 1.3036690085870415,
      "grad_norm": 28.435420989990234,
      "learning_rate": 1.1308873276086392e-05,
      "loss": 0.6698,
      "step": 3340
    },
    {
      "epoch": 1.3075722092115534,
      "grad_norm": 26.82207679748535,
      "learning_rate": 1.1282851938589646e-05,
      "loss": 0.7993,
      "step": 3350
    },
    {
      "epoch": 1.3114754098360657,
      "grad_norm": 33.5129508972168,
      "learning_rate": 1.1256830601092897e-05,
      "loss": 0.8178,
      "step": 3360
    },
    {
      "epoch": 1.3153786104605776,
      "grad_norm": 17.09794807434082,
      "learning_rate": 1.1230809263596149e-05,
      "loss": 0.7572,
      "step": 3370
    },
    {
      "epoch": 1.31928181108509,
      "grad_norm": 29.424118041992188,
      "learning_rate": 1.1204787926099403e-05,
      "loss": 0.7314,
      "step": 3380
    },
    {
      "epoch": 1.3231850117096018,
      "grad_norm": 37.52955627441406,
      "learning_rate": 1.1178766588602654e-05,
      "loss": 0.7276,
      "step": 3390
    },
    {
      "epoch": 1.327088212334114,
      "grad_norm": 34.16141128540039,
      "learning_rate": 1.1152745251105908e-05,
      "loss": 0.8598,
      "step": 3400
    },
    {
      "epoch": 1.330991412958626,
      "grad_norm": 19.33012580871582,
      "learning_rate": 1.112672391360916e-05,
      "loss": 0.7457,
      "step": 3410
    },
    {
      "epoch": 1.334894613583138,
      "grad_norm": 27.01128387451172,
      "learning_rate": 1.1100702576112413e-05,
      "loss": 0.9616,
      "step": 3420
    },
    {
      "epoch": 1.3387978142076502,
      "grad_norm": 21.613548278808594,
      "learning_rate": 1.1074681238615665e-05,
      "loss": 0.761,
      "step": 3430
    },
    {
      "epoch": 1.3427010148321623,
      "grad_norm": 14.504700660705566,
      "learning_rate": 1.1048659901118919e-05,
      "loss": 0.888,
      "step": 3440
    },
    {
      "epoch": 1.3466042154566744,
      "grad_norm": 25.77508544921875,
      "learning_rate": 1.102263856362217e-05,
      "loss": 0.6665,
      "step": 3450
    },
    {
      "epoch": 1.3505074160811865,
      "grad_norm": 33.185203552246094,
      "learning_rate": 1.0996617226125424e-05,
      "loss": 0.8546,
      "step": 3460
    },
    {
      "epoch": 1.3544106167056986,
      "grad_norm": 24.185197830200195,
      "learning_rate": 1.0970595888628676e-05,
      "loss": 0.8804,
      "step": 3470
    },
    {
      "epoch": 1.3583138173302107,
      "grad_norm": 14.364441871643066,
      "learning_rate": 1.094457455113193e-05,
      "loss": 0.7183,
      "step": 3480
    },
    {
      "epoch": 1.3622170179547228,
      "grad_norm": 26.025264739990234,
      "learning_rate": 1.0918553213635181e-05,
      "loss": 0.727,
      "step": 3490
    },
    {
      "epoch": 1.366120218579235,
      "grad_norm": 25.0123291015625,
      "learning_rate": 1.0892531876138435e-05,
      "loss": 0.769,
      "step": 3500
    },
    {
      "epoch": 1.366120218579235,
      "eval_accuracy": 0.6526130873956961,
      "eval_f1": 0.6482851527784913,
      "eval_loss": 0.8453596830368042,
      "eval_precision": 0.6552959609318904,
      "eval_runtime": 534.2154,
      "eval_samples_per_second": 4.262,
      "eval_steps_per_second": 0.533,
      "step": 3500
    },
    {
      "epoch": 1.370023419203747,
      "grad_norm": 20.68358612060547,
      "learning_rate": 1.0866510538641688e-05,
      "loss": 0.7872,
      "step": 3510
    },
    {
      "epoch": 1.3739266198282591,
      "grad_norm": 13.944914817810059,
      "learning_rate": 1.084048920114494e-05,
      "loss": 0.6732,
      "step": 3520
    },
    {
      "epoch": 1.3778298204527712,
      "grad_norm": 21.312284469604492,
      "learning_rate": 1.0814467863648192e-05,
      "loss": 0.8165,
      "step": 3530
    },
    {
      "epoch": 1.3817330210772834,
      "grad_norm": 16.84514808654785,
      "learning_rate": 1.0788446526151446e-05,
      "loss": 0.9606,
      "step": 3540
    },
    {
      "epoch": 1.3856362217017955,
      "grad_norm": 13.688089370727539,
      "learning_rate": 1.0762425188654697e-05,
      "loss": 0.9008,
      "step": 3550
    },
    {
      "epoch": 1.3895394223263076,
      "grad_norm": 13.488187789916992,
      "learning_rate": 1.0736403851157951e-05,
      "loss": 0.8009,
      "step": 3560
    },
    {
      "epoch": 1.3934426229508197,
      "grad_norm": 19.60662078857422,
      "learning_rate": 1.0710382513661204e-05,
      "loss": 0.7927,
      "step": 3570
    },
    {
      "epoch": 1.3973458235753318,
      "grad_norm": 21.638179779052734,
      "learning_rate": 1.0684361176164454e-05,
      "loss": 0.9062,
      "step": 3580
    },
    {
      "epoch": 1.4012490241998439,
      "grad_norm": 20.0795955657959,
      "learning_rate": 1.0658339838667708e-05,
      "loss": 0.8662,
      "step": 3590
    },
    {
      "epoch": 1.405152224824356,
      "grad_norm": 24.393640518188477,
      "learning_rate": 1.0632318501170963e-05,
      "loss": 0.6427,
      "step": 3600
    },
    {
      "epoch": 1.409055425448868,
      "grad_norm": 32.25210952758789,
      "learning_rate": 1.0606297163674213e-05,
      "loss": 0.783,
      "step": 3610
    },
    {
      "epoch": 1.4129586260733802,
      "grad_norm": 20.680322647094727,
      "learning_rate": 1.0580275826177466e-05,
      "loss": 0.8474,
      "step": 3620
    },
    {
      "epoch": 1.4168618266978923,
      "grad_norm": 22.47220230102539,
      "learning_rate": 1.055425448868072e-05,
      "loss": 0.7529,
      "step": 3630
    },
    {
      "epoch": 1.4207650273224044,
      "grad_norm": 20.39389419555664,
      "learning_rate": 1.052823315118397e-05,
      "loss": 0.6799,
      "step": 3640
    },
    {
      "epoch": 1.4246682279469165,
      "grad_norm": 13.36572551727295,
      "learning_rate": 1.0502211813687224e-05,
      "loss": 0.751,
      "step": 3650
    },
    {
      "epoch": 1.4285714285714286,
      "grad_norm": 13.096351623535156,
      "learning_rate": 1.0476190476190477e-05,
      "loss": 0.6663,
      "step": 3660
    },
    {
      "epoch": 1.4324746291959407,
      "grad_norm": 24.350488662719727,
      "learning_rate": 1.045016913869373e-05,
      "loss": 0.9584,
      "step": 3670
    },
    {
      "epoch": 1.4363778298204528,
      "grad_norm": 15.154532432556152,
      "learning_rate": 1.0424147801196982e-05,
      "loss": 0.7227,
      "step": 3680
    },
    {
      "epoch": 1.440281030444965,
      "grad_norm": 19.181100845336914,
      "learning_rate": 1.0398126463700236e-05,
      "loss": 0.6977,
      "step": 3690
    },
    {
      "epoch": 1.444184231069477,
      "grad_norm": 13.921120643615723,
      "learning_rate": 1.0372105126203486e-05,
      "loss": 0.9468,
      "step": 3700
    },
    {
      "epoch": 1.4480874316939891,
      "grad_norm": 15.287452697753906,
      "learning_rate": 1.034608378870674e-05,
      "loss": 0.7241,
      "step": 3710
    },
    {
      "epoch": 1.4519906323185012,
      "grad_norm": 24.74435043334961,
      "learning_rate": 1.0320062451209993e-05,
      "loss": 0.6822,
      "step": 3720
    },
    {
      "epoch": 1.4558938329430133,
      "grad_norm": 16.381296157836914,
      "learning_rate": 1.0294041113713247e-05,
      "loss": 0.641,
      "step": 3730
    },
    {
      "epoch": 1.4597970335675254,
      "grad_norm": 28.847530364990234,
      "learning_rate": 1.0268019776216498e-05,
      "loss": 0.686,
      "step": 3740
    },
    {
      "epoch": 1.4637002341920375,
      "grad_norm": 24.10832405090332,
      "learning_rate": 1.0241998438719752e-05,
      "loss": 0.7982,
      "step": 3750
    },
    {
      "epoch": 1.4676034348165496,
      "grad_norm": 30.958894729614258,
      "learning_rate": 1.0215977101223004e-05,
      "loss": 1.0218,
      "step": 3760
    },
    {
      "epoch": 1.4715066354410617,
      "grad_norm": 17.907434463500977,
      "learning_rate": 1.0189955763726257e-05,
      "loss": 0.8696,
      "step": 3770
    },
    {
      "epoch": 1.4754098360655736,
      "grad_norm": 15.665881156921387,
      "learning_rate": 1.0163934426229509e-05,
      "loss": 0.7127,
      "step": 3780
    },
    {
      "epoch": 1.479313036690086,
      "grad_norm": 31.044660568237305,
      "learning_rate": 1.0137913088732763e-05,
      "loss": 0.7658,
      "step": 3790
    },
    {
      "epoch": 1.4832162373145978,
      "grad_norm": 23.514188766479492,
      "learning_rate": 1.0111891751236014e-05,
      "loss": 0.8666,
      "step": 3800
    },
    {
      "epoch": 1.4871194379391102,
      "grad_norm": 30.007097244262695,
      "learning_rate": 1.0085870413739268e-05,
      "loss": 0.6909,
      "step": 3810
    },
    {
      "epoch": 1.491022638563622,
      "grad_norm": 22.750186920166016,
      "learning_rate": 1.005984907624252e-05,
      "loss": 0.5755,
      "step": 3820
    },
    {
      "epoch": 1.4949258391881344,
      "grad_norm": 18.6169490814209,
      "learning_rate": 1.0033827738745771e-05,
      "loss": 0.7376,
      "step": 3830
    },
    {
      "epoch": 1.4988290398126463,
      "grad_norm": 27.797338485717773,
      "learning_rate": 1.0007806401249025e-05,
      "loss": 0.9218,
      "step": 3840
    },
    {
      "epoch": 1.5027322404371586,
      "grad_norm": 15.644762992858887,
      "learning_rate": 9.981785063752277e-06,
      "loss": 0.5988,
      "step": 3850
    },
    {
      "epoch": 1.5066354410616705,
      "grad_norm": 15.448534965515137,
      "learning_rate": 9.95576372625553e-06,
      "loss": 0.7589,
      "step": 3860
    },
    {
      "epoch": 1.5105386416861828,
      "grad_norm": 9.4154052734375,
      "learning_rate": 9.929742388758782e-06,
      "loss": 0.7403,
      "step": 3870
    },
    {
      "epoch": 1.5144418423106947,
      "grad_norm": 17.392614364624023,
      "learning_rate": 9.903721051262035e-06,
      "loss": 0.9861,
      "step": 3880
    },
    {
      "epoch": 1.518345042935207,
      "grad_norm": 26.482196807861328,
      "learning_rate": 9.877699713765289e-06,
      "loss": 0.6962,
      "step": 3890
    },
    {
      "epoch": 1.5222482435597189,
      "grad_norm": 19.088714599609375,
      "learning_rate": 9.851678376268541e-06,
      "loss": 0.919,
      "step": 3900
    },
    {
      "epoch": 1.5261514441842312,
      "grad_norm": 20.973234176635742,
      "learning_rate": 9.825657038771794e-06,
      "loss": 0.6882,
      "step": 3910
    },
    {
      "epoch": 1.530054644808743,
      "grad_norm": 28.655149459838867,
      "learning_rate": 9.799635701275046e-06,
      "loss": 0.6602,
      "step": 3920
    },
    {
      "epoch": 1.5339578454332554,
      "grad_norm": 27.785593032836914,
      "learning_rate": 9.773614363778298e-06,
      "loss": 0.7343,
      "step": 3930
    },
    {
      "epoch": 1.5378610460577673,
      "grad_norm": 15.211939811706543,
      "learning_rate": 9.747593026281552e-06,
      "loss": 0.7364,
      "step": 3940
    },
    {
      "epoch": 1.5417642466822796,
      "grad_norm": 35.89198303222656,
      "learning_rate": 9.721571688784805e-06,
      "loss": 0.7271,
      "step": 3950
    },
    {
      "epoch": 1.5456674473067915,
      "grad_norm": 22.174612045288086,
      "learning_rate": 9.695550351288057e-06,
      "loss": 0.8153,
      "step": 3960
    },
    {
      "epoch": 1.5495706479313038,
      "grad_norm": 28.701997756958008,
      "learning_rate": 9.66952901379131e-06,
      "loss": 0.7239,
      "step": 3970
    },
    {
      "epoch": 1.5534738485558157,
      "grad_norm": 16.179439544677734,
      "learning_rate": 9.643507676294562e-06,
      "loss": 0.7681,
      "step": 3980
    },
    {
      "epoch": 1.5573770491803278,
      "grad_norm": 20.15789031982422,
      "learning_rate": 9.617486338797814e-06,
      "loss": 0.7671,
      "step": 3990
    },
    {
      "epoch": 1.56128024980484,
      "grad_norm": 21.519535064697266,
      "learning_rate": 9.591465001301069e-06,
      "loss": 0.8558,
      "step": 4000
    },
    {
      "epoch": 1.56128024980484,
      "eval_accuracy": 0.6482213438735178,
      "eval_f1": 0.636406624772975,
      "eval_loss": 0.8772887587547302,
      "eval_precision": 0.645447629600433,
      "eval_runtime": 507.2198,
      "eval_samples_per_second": 4.489,
      "eval_steps_per_second": 0.562,
      "step": 4000
    },
    {
      "epoch": 1.565183450429352,
      "grad_norm": 26.905174255371094,
      "learning_rate": 9.565443663804321e-06,
      "loss": 0.8558,
      "step": 4010
    },
    {
      "epoch": 1.5690866510538641,
      "grad_norm": 18.44993019104004,
      "learning_rate": 9.539422326307573e-06,
      "loss": 0.7791,
      "step": 4020
    },
    {
      "epoch": 1.5729898516783762,
      "grad_norm": 28.036226272583008,
      "learning_rate": 9.513400988810826e-06,
      "loss": 0.6579,
      "step": 4030
    },
    {
      "epoch": 1.5768930523028883,
      "grad_norm": 13.208318710327148,
      "learning_rate": 9.487379651314078e-06,
      "loss": 0.8431,
      "step": 4040
    },
    {
      "epoch": 1.5807962529274004,
      "grad_norm": 24.933347702026367,
      "learning_rate": 9.461358313817332e-06,
      "loss": 0.9371,
      "step": 4050
    },
    {
      "epoch": 1.5846994535519126,
      "grad_norm": 7.629575729370117,
      "learning_rate": 9.435336976320585e-06,
      "loss": 0.6654,
      "step": 4060
    },
    {
      "epoch": 1.5886026541764247,
      "grad_norm": 15.276191711425781,
      "learning_rate": 9.409315638823835e-06,
      "loss": 0.6255,
      "step": 4070
    },
    {
      "epoch": 1.5925058548009368,
      "grad_norm": 30.370452880859375,
      "learning_rate": 9.38329430132709e-06,
      "loss": 0.7631,
      "step": 4080
    },
    {
      "epoch": 1.5964090554254489,
      "grad_norm": 17.536256790161133,
      "learning_rate": 9.357272963830342e-06,
      "loss": 0.7768,
      "step": 4090
    },
    {
      "epoch": 1.600312256049961,
      "grad_norm": 39.84246826171875,
      "learning_rate": 9.331251626333594e-06,
      "loss": 0.7803,
      "step": 4100
    },
    {
      "epoch": 1.604215456674473,
      "grad_norm": 40.01328659057617,
      "learning_rate": 9.305230288836847e-06,
      "loss": 0.8479,
      "step": 4110
    },
    {
      "epoch": 1.6081186572989852,
      "grad_norm": 19.080677032470703,
      "learning_rate": 9.279208951340099e-06,
      "loss": 0.6903,
      "step": 4120
    },
    {
      "epoch": 1.6120218579234973,
      "grad_norm": 29.685087203979492,
      "learning_rate": 9.253187613843351e-06,
      "loss": 0.7071,
      "step": 4130
    },
    {
      "epoch": 1.6159250585480094,
      "grad_norm": 31.297470092773438,
      "learning_rate": 9.227166276346605e-06,
      "loss": 0.7553,
      "step": 4140
    },
    {
      "epoch": 1.6198282591725215,
      "grad_norm": 23.306514739990234,
      "learning_rate": 9.201144938849858e-06,
      "loss": 0.7529,
      "step": 4150
    },
    {
      "epoch": 1.6237314597970336,
      "grad_norm": 14.093189239501953,
      "learning_rate": 9.17512360135311e-06,
      "loss": 0.7744,
      "step": 4160
    },
    {
      "epoch": 1.6276346604215457,
      "grad_norm": 35.98076629638672,
      "learning_rate": 9.149102263856363e-06,
      "loss": 0.7887,
      "step": 4170
    },
    {
      "epoch": 1.6315378610460578,
      "grad_norm": 17.573429107666016,
      "learning_rate": 9.123080926359615e-06,
      "loss": 0.6862,
      "step": 4180
    },
    {
      "epoch": 1.63544106167057,
      "grad_norm": 6.816839218139648,
      "learning_rate": 9.097059588862869e-06,
      "loss": 0.7052,
      "step": 4190
    },
    {
      "epoch": 1.639344262295082,
      "grad_norm": 31.473432540893555,
      "learning_rate": 9.071038251366122e-06,
      "loss": 0.9111,
      "step": 4200
    },
    {
      "epoch": 1.6432474629195941,
      "grad_norm": 19.522480010986328,
      "learning_rate": 9.045016913869374e-06,
      "loss": 0.7186,
      "step": 4210
    },
    {
      "epoch": 1.6471506635441062,
      "grad_norm": 38.03465270996094,
      "learning_rate": 9.018995576372626e-06,
      "loss": 0.7337,
      "step": 4220
    },
    {
      "epoch": 1.651053864168618,
      "grad_norm": 23.659252166748047,
      "learning_rate": 8.992974238875879e-06,
      "loss": 0.7744,
      "step": 4230
    },
    {
      "epoch": 1.6549570647931304,
      "grad_norm": 24.468427658081055,
      "learning_rate": 8.966952901379131e-06,
      "loss": 0.8053,
      "step": 4240
    },
    {
      "epoch": 1.6588602654176423,
      "grad_norm": 24.506221771240234,
      "learning_rate": 8.940931563882385e-06,
      "loss": 0.9187,
      "step": 4250
    },
    {
      "epoch": 1.6627634660421546,
      "grad_norm": 42.30460739135742,
      "learning_rate": 8.914910226385638e-06,
      "loss": 0.7236,
      "step": 4260
    },
    {
      "epoch": 1.6666666666666665,
      "grad_norm": 10.751883506774902,
      "learning_rate": 8.888888888888888e-06,
      "loss": 0.6522,
      "step": 4270
    },
    {
      "epoch": 1.6705698672911788,
      "grad_norm": 28.08174705505371,
      "learning_rate": 8.862867551392142e-06,
      "loss": 0.9179,
      "step": 4280
    },
    {
      "epoch": 1.6744730679156907,
      "grad_norm": 18.37599754333496,
      "learning_rate": 8.836846213895395e-06,
      "loss": 0.7667,
      "step": 4290
    },
    {
      "epoch": 1.678376268540203,
      "grad_norm": 18.424991607666016,
      "learning_rate": 8.810824876398649e-06,
      "loss": 0.8011,
      "step": 4300
    },
    {
      "epoch": 1.682279469164715,
      "grad_norm": 36.96381378173828,
      "learning_rate": 8.7848035389019e-06,
      "loss": 0.8372,
      "step": 4310
    },
    {
      "epoch": 1.6861826697892273,
      "grad_norm": 25.916088104248047,
      "learning_rate": 8.758782201405152e-06,
      "loss": 0.777,
      "step": 4320
    },
    {
      "epoch": 1.6900858704137391,
      "grad_norm": 24.226865768432617,
      "learning_rate": 8.732760863908406e-06,
      "loss": 0.7477,
      "step": 4330
    },
    {
      "epoch": 1.6939890710382515,
      "grad_norm": 16.20622444152832,
      "learning_rate": 8.706739526411658e-06,
      "loss": 0.6704,
      "step": 4340
    },
    {
      "epoch": 1.6978922716627634,
      "grad_norm": 25.544708251953125,
      "learning_rate": 8.680718188914911e-06,
      "loss": 0.7956,
      "step": 4350
    },
    {
      "epoch": 1.7017954722872757,
      "grad_norm": 40.89060592651367,
      "learning_rate": 8.654696851418163e-06,
      "loss": 0.861,
      "step": 4360
    },
    {
      "epoch": 1.7056986729117876,
      "grad_norm": 26.384037017822266,
      "learning_rate": 8.628675513921416e-06,
      "loss": 0.5457,
      "step": 4370
    },
    {
      "epoch": 1.7096018735362999,
      "grad_norm": 21.66419792175293,
      "learning_rate": 8.602654176424668e-06,
      "loss": 0.9332,
      "step": 4380
    },
    {
      "epoch": 1.7135050741608118,
      "grad_norm": 13.737820625305176,
      "learning_rate": 8.576632838927922e-06,
      "loss": 0.5954,
      "step": 4390
    },
    {
      "epoch": 1.717408274785324,
      "grad_norm": 21.151206970214844,
      "learning_rate": 8.550611501431175e-06,
      "loss": 0.7043,
      "step": 4400
    },
    {
      "epoch": 1.721311475409836,
      "grad_norm": 22.563579559326172,
      "learning_rate": 8.524590163934427e-06,
      "loss": 0.8685,
      "step": 4410
    },
    {
      "epoch": 1.7252146760343483,
      "grad_norm": 27.850271224975586,
      "learning_rate": 8.49856882643768e-06,
      "loss": 0.8229,
      "step": 4420
    },
    {
      "epoch": 1.7291178766588602,
      "grad_norm": 16.04234504699707,
      "learning_rate": 8.472547488940932e-06,
      "loss": 0.8122,
      "step": 4430
    },
    {
      "epoch": 1.7330210772833725,
      "grad_norm": 20.54485511779785,
      "learning_rate": 8.446526151444186e-06,
      "loss": 0.6758,
      "step": 4440
    },
    {
      "epoch": 1.7369242779078844,
      "grad_norm": 18.285106658935547,
      "learning_rate": 8.420504813947438e-06,
      "loss": 0.6712,
      "step": 4450
    },
    {
      "epoch": 1.7408274785323967,
      "grad_norm": 13.215126991271973,
      "learning_rate": 8.39448347645069e-06,
      "loss": 0.6486,
      "step": 4460
    },
    {
      "epoch": 1.7447306791569086,
      "grad_norm": 18.360017776489258,
      "learning_rate": 8.368462138953943e-06,
      "loss": 1.0,
      "step": 4470
    },
    {
      "epoch": 1.748633879781421,
      "grad_norm": 24.763240814208984,
      "learning_rate": 8.342440801457195e-06,
      "loss": 0.7282,
      "step": 4480
    },
    {
      "epoch": 1.7525370804059328,
      "grad_norm": 29.135393142700195,
      "learning_rate": 8.316419463960448e-06,
      "loss": 0.6719,
      "step": 4490
    },
    {
      "epoch": 1.756440281030445,
      "grad_norm": 36.65876007080078,
      "learning_rate": 8.290398126463702e-06,
      "loss": 0.6713,
      "step": 4500
    },
    {
      "epoch": 1.756440281030445,
      "eval_accuracy": 0.6561264822134387,
      "eval_f1": 0.6560353496154399,
      "eval_loss": 0.8337997198104858,
      "eval_precision": 0.6711084155534306,
      "eval_runtime": 515.3814,
      "eval_samples_per_second": 4.418,
      "eval_steps_per_second": 0.553,
      "step": 4500
    },
    {
      "epoch": 1.760343481654957,
      "grad_norm": 45.38300323486328,
      "learning_rate": 8.264376788966954e-06,
      "loss": 0.7204,
      "step": 4510
    },
    {
      "epoch": 1.7642466822794691,
      "grad_norm": 15.224348068237305,
      "learning_rate": 8.238355451470205e-06,
      "loss": 0.9662,
      "step": 4520
    },
    {
      "epoch": 1.7681498829039812,
      "grad_norm": 17.86296272277832,
      "learning_rate": 8.212334113973459e-06,
      "loss": 0.8512,
      "step": 4530
    },
    {
      "epoch": 1.7720530835284933,
      "grad_norm": 24.529163360595703,
      "learning_rate": 8.186312776476711e-06,
      "loss": 0.7672,
      "step": 4540
    },
    {
      "epoch": 1.7759562841530054,
      "grad_norm": 30.77049446105957,
      "learning_rate": 8.160291438979966e-06,
      "loss": 0.9028,
      "step": 4550
    },
    {
      "epoch": 1.7798594847775175,
      "grad_norm": 20.602842330932617,
      "learning_rate": 8.134270101483216e-06,
      "loss": 0.6781,
      "step": 4560
    },
    {
      "epoch": 1.7837626854020296,
      "grad_norm": 14.823912620544434,
      "learning_rate": 8.108248763986469e-06,
      "loss": 0.7844,
      "step": 4570
    },
    {
      "epoch": 1.7876658860265418,
      "grad_norm": 36.14381408691406,
      "learning_rate": 8.082227426489723e-06,
      "loss": 0.7229,
      "step": 4580
    },
    {
      "epoch": 1.7915690866510539,
      "grad_norm": 14.766901969909668,
      "learning_rate": 8.056206088992975e-06,
      "loss": 0.8739,
      "step": 4590
    },
    {
      "epoch": 1.795472287275566,
      "grad_norm": 12.617851257324219,
      "learning_rate": 8.030184751496228e-06,
      "loss": 0.8902,
      "step": 4600
    },
    {
      "epoch": 1.799375487900078,
      "grad_norm": 13.8934907913208,
      "learning_rate": 8.00416341399948e-06,
      "loss": 0.7233,
      "step": 4610
    },
    {
      "epoch": 1.8032786885245902,
      "grad_norm": 37.96211624145508,
      "learning_rate": 7.978142076502732e-06,
      "loss": 0.8236,
      "step": 4620
    },
    {
      "epoch": 1.8071818891491023,
      "grad_norm": 26.803813934326172,
      "learning_rate": 7.952120739005985e-06,
      "loss": 0.7486,
      "step": 4630
    },
    {
      "epoch": 1.8110850897736144,
      "grad_norm": 33.1042594909668,
      "learning_rate": 7.926099401509239e-06,
      "loss": 0.7879,
      "step": 4640
    },
    {
      "epoch": 1.8149882903981265,
      "grad_norm": 29.476795196533203,
      "learning_rate": 7.900078064012491e-06,
      "loss": 0.7343,
      "step": 4650
    },
    {
      "epoch": 1.8188914910226386,
      "grad_norm": 28.440385818481445,
      "learning_rate": 7.874056726515744e-06,
      "loss": 0.7123,
      "step": 4660
    },
    {
      "epoch": 1.8227946916471507,
      "grad_norm": 22.828847885131836,
      "learning_rate": 7.848035389018996e-06,
      "loss": 0.7489,
      "step": 4670
    },
    {
      "epoch": 1.8266978922716628,
      "grad_norm": 29.763521194458008,
      "learning_rate": 7.822014051522248e-06,
      "loss": 0.8698,
      "step": 4680
    },
    {
      "epoch": 1.830601092896175,
      "grad_norm": 37.93069839477539,
      "learning_rate": 7.795992714025502e-06,
      "loss": 0.7441,
      "step": 4690
    },
    {
      "epoch": 1.834504293520687,
      "grad_norm": 36.870941162109375,
      "learning_rate": 7.769971376528755e-06,
      "loss": 0.7587,
      "step": 4700
    },
    {
      "epoch": 1.838407494145199,
      "grad_norm": 27.33887481689453,
      "learning_rate": 7.743950039032007e-06,
      "loss": 0.642,
      "step": 4710
    },
    {
      "epoch": 1.8423106947697112,
      "grad_norm": 17.98344612121582,
      "learning_rate": 7.71792870153526e-06,
      "loss": 0.7044,
      "step": 4720
    },
    {
      "epoch": 1.8462138953942233,
      "grad_norm": 35.98600769042969,
      "learning_rate": 7.691907364038512e-06,
      "loss": 0.7872,
      "step": 4730
    },
    {
      "epoch": 1.8501170960187352,
      "grad_norm": 13.842114448547363,
      "learning_rate": 7.665886026541764e-06,
      "loss": 0.6504,
      "step": 4740
    },
    {
      "epoch": 1.8540202966432475,
      "grad_norm": 29.785045623779297,
      "learning_rate": 7.639864689045019e-06,
      "loss": 0.9544,
      "step": 4750
    },
    {
      "epoch": 1.8579234972677594,
      "grad_norm": 17.643163681030273,
      "learning_rate": 7.61384335154827e-06,
      "loss": 0.6625,
      "step": 4760
    },
    {
      "epoch": 1.8618266978922717,
      "grad_norm": 32.38596725463867,
      "learning_rate": 7.5878220140515225e-06,
      "loss": 0.6087,
      "step": 4770
    },
    {
      "epoch": 1.8657298985167836,
      "grad_norm": 23.442716598510742,
      "learning_rate": 7.561800676554776e-06,
      "loss": 0.8076,
      "step": 4780
    },
    {
      "epoch": 1.869633099141296,
      "grad_norm": 16.857141494750977,
      "learning_rate": 7.535779339058028e-06,
      "loss": 0.6266,
      "step": 4790
    },
    {
      "epoch": 1.8735362997658078,
      "grad_norm": 28.210186004638672,
      "learning_rate": 7.5097580015612805e-06,
      "loss": 0.8567,
      "step": 4800
    },
    {
      "epoch": 1.8774395003903201,
      "grad_norm": 36.62312698364258,
      "learning_rate": 7.483736664064534e-06,
      "loss": 0.746,
      "step": 4810
    },
    {
      "epoch": 1.881342701014832,
      "grad_norm": 28.0416259765625,
      "learning_rate": 7.457715326567786e-06,
      "loss": 0.8604,
      "step": 4820
    },
    {
      "epoch": 1.8852459016393444,
      "grad_norm": 11.835354804992676,
      "learning_rate": 7.4316939890710394e-06,
      "loss": 0.601,
      "step": 4830
    },
    {
      "epoch": 1.8891491022638562,
      "grad_norm": 21.843231201171875,
      "learning_rate": 7.405672651574292e-06,
      "loss": 0.5532,
      "step": 4840
    },
    {
      "epoch": 1.8930523028883686,
      "grad_norm": 10.732438087463379,
      "learning_rate": 7.379651314077544e-06,
      "loss": 0.7507,
      "step": 4850
    },
    {
      "epoch": 1.8969555035128804,
      "grad_norm": 26.463783264160156,
      "learning_rate": 7.3536299765807975e-06,
      "loss": 0.7552,
      "step": 4860
    },
    {
      "epoch": 1.9008587041373928,
      "grad_norm": 27.588624954223633,
      "learning_rate": 7.32760863908405e-06,
      "loss": 0.9198,
      "step": 4870
    },
    {
      "epoch": 1.9047619047619047,
      "grad_norm": 19.678701400756836,
      "learning_rate": 7.301587301587301e-06,
      "loss": 0.8336,
      "step": 4880
    },
    {
      "epoch": 1.908665105386417,
      "grad_norm": 32.96697235107422,
      "learning_rate": 7.2755659640905555e-06,
      "loss": 0.7862,
      "step": 4890
    },
    {
      "epoch": 1.9125683060109289,
      "grad_norm": 14.043961524963379,
      "learning_rate": 7.249544626593807e-06,
      "loss": 0.7815,
      "step": 4900
    },
    {
      "epoch": 1.9164715066354412,
      "grad_norm": 28.381839752197266,
      "learning_rate": 7.2235232890970594e-06,
      "loss": 0.7592,
      "step": 4910
    },
    {
      "epoch": 1.920374707259953,
      "grad_norm": 30.838054656982422,
      "learning_rate": 7.197501951600313e-06,
      "loss": 0.7805,
      "step": 4920
    },
    {
      "epoch": 1.9242779078844654,
      "grad_norm": 20.862051010131836,
      "learning_rate": 7.171480614103565e-06,
      "loss": 0.7601,
      "step": 4930
    },
    {
      "epoch": 1.9281811085089773,
      "grad_norm": 44.85637664794922,
      "learning_rate": 7.145459276606818e-06,
      "loss": 0.7345,
      "step": 4940
    },
    {
      "epoch": 1.9320843091334896,
      "grad_norm": 27.92873764038086,
      "learning_rate": 7.119437939110071e-06,
      "loss": 0.7661,
      "step": 4950
    },
    {
      "epoch": 1.9359875097580015,
      "grad_norm": 19.9342098236084,
      "learning_rate": 7.093416601613323e-06,
      "loss": 0.7984,
      "step": 4960
    },
    {
      "epoch": 1.9398907103825138,
      "grad_norm": 21.331783294677734,
      "learning_rate": 7.067395264116576e-06,
      "loss": 0.6277,
      "step": 4970
    },
    {
      "epoch": 1.9437939110070257,
      "grad_norm": 16.340133666992188,
      "learning_rate": 7.041373926619829e-06,
      "loss": 0.6775,
      "step": 4980
    },
    {
      "epoch": 1.947697111631538,
      "grad_norm": 21.518478393554688,
      "learning_rate": 7.015352589123081e-06,
      "loss": 0.6887,
      "step": 4990
    },
    {
      "epoch": 1.95160031225605,
      "grad_norm": 51.44401550292969,
      "learning_rate": 6.989331251626334e-06,
      "loss": 0.7476,
      "step": 5000
    },
    {
      "epoch": 1.95160031225605,
      "eval_accuracy": 0.663153271848924,
      "eval_f1": 0.6636133792846726,
      "eval_loss": 0.8082752823829651,
      "eval_precision": 0.6689700868238959,
      "eval_runtime": 510.761,
      "eval_samples_per_second": 4.458,
      "eval_steps_per_second": 0.558,
      "step": 5000
    },
    {
      "epoch": 1.955503512880562,
      "grad_norm": 24.46480941772461,
      "learning_rate": 6.963309914129587e-06,
      "loss": 0.73,
      "step": 5010
    },
    {
      "epoch": 1.9594067135050741,
      "grad_norm": 19.43697166442871,
      "learning_rate": 6.937288576632839e-06,
      "loss": 0.7743,
      "step": 5020
    },
    {
      "epoch": 1.9633099141295862,
      "grad_norm": 19.321481704711914,
      "learning_rate": 6.9112672391360924e-06,
      "loss": 0.7719,
      "step": 5030
    },
    {
      "epoch": 1.9672131147540983,
      "grad_norm": 32.15214157104492,
      "learning_rate": 6.885245901639345e-06,
      "loss": 0.6969,
      "step": 5040
    },
    {
      "epoch": 1.9711163153786104,
      "grad_norm": 38.08918380737305,
      "learning_rate": 6.859224564142597e-06,
      "loss": 0.6562,
      "step": 5050
    },
    {
      "epoch": 1.9750195160031225,
      "grad_norm": 55.19151306152344,
      "learning_rate": 6.8332032266458505e-06,
      "loss": 0.7672,
      "step": 5060
    },
    {
      "epoch": 1.9789227166276346,
      "grad_norm": 16.78116798400879,
      "learning_rate": 6.807181889149103e-06,
      "loss": 0.7973,
      "step": 5070
    },
    {
      "epoch": 1.9828259172521467,
      "grad_norm": 33.32207107543945,
      "learning_rate": 6.781160551652356e-06,
      "loss": 0.8173,
      "step": 5080
    },
    {
      "epoch": 1.9867291178766588,
      "grad_norm": 18.180084228515625,
      "learning_rate": 6.7551392141556085e-06,
      "loss": 0.7005,
      "step": 5090
    },
    {
      "epoch": 1.990632318501171,
      "grad_norm": 24.440303802490234,
      "learning_rate": 6.729117876658861e-06,
      "loss": 0.8474,
      "step": 5100
    },
    {
      "epoch": 1.994535519125683,
      "grad_norm": 25.649343490600586,
      "learning_rate": 6.703096539162114e-06,
      "loss": 0.701,
      "step": 5110
    },
    {
      "epoch": 1.9984387197501952,
      "grad_norm": 16.38230323791504,
      "learning_rate": 6.6770752016653665e-06,
      "loss": 0.8305,
      "step": 5120
    },
    {
      "epoch": 2.002341920374707,
      "grad_norm": 20.355327606201172,
      "learning_rate": 6.651053864168618e-06,
      "loss": 0.8247,
      "step": 5130
    },
    {
      "epoch": 2.0062451209992194,
      "grad_norm": 43.57061004638672,
      "learning_rate": 6.625032526671872e-06,
      "loss": 0.7703,
      "step": 5140
    },
    {
      "epoch": 2.0101483216237312,
      "grad_norm": 12.986127853393555,
      "learning_rate": 6.599011189175124e-06,
      "loss": 0.695,
      "step": 5150
    },
    {
      "epoch": 2.0140515222482436,
      "grad_norm": 35.72697067260742,
      "learning_rate": 6.572989851678376e-06,
      "loss": 0.6714,
      "step": 5160
    },
    {
      "epoch": 2.0179547228727555,
      "grad_norm": 27.513973236083984,
      "learning_rate": 6.546968514181629e-06,
      "loss": 0.7465,
      "step": 5170
    },
    {
      "epoch": 2.021857923497268,
      "grad_norm": 19.781970977783203,
      "learning_rate": 6.520947176684882e-06,
      "loss": 0.5885,
      "step": 5180
    },
    {
      "epoch": 2.0257611241217797,
      "grad_norm": 19.667024612426758,
      "learning_rate": 6.494925839188135e-06,
      "loss": 0.6936,
      "step": 5190
    },
    {
      "epoch": 2.029664324746292,
      "grad_norm": 34.08565902709961,
      "learning_rate": 6.468904501691387e-06,
      "loss": 0.7634,
      "step": 5200
    },
    {
      "epoch": 2.033567525370804,
      "grad_norm": 12.38807487487793,
      "learning_rate": 6.44288316419464e-06,
      "loss": 0.6085,
      "step": 5210
    },
    {
      "epoch": 2.037470725995316,
      "grad_norm": 18.969928741455078,
      "learning_rate": 6.416861826697893e-06,
      "loss": 0.651,
      "step": 5220
    },
    {
      "epoch": 2.041373926619828,
      "grad_norm": 11.566606521606445,
      "learning_rate": 6.3908404892011454e-06,
      "loss": 0.7721,
      "step": 5230
    },
    {
      "epoch": 2.0452771272443404,
      "grad_norm": 27.953218460083008,
      "learning_rate": 6.364819151704398e-06,
      "loss": 0.793,
      "step": 5240
    },
    {
      "epoch": 2.0491803278688523,
      "grad_norm": 21.244613647460938,
      "learning_rate": 6.338797814207651e-06,
      "loss": 0.6156,
      "step": 5250
    },
    {
      "epoch": 2.0530835284933646,
      "grad_norm": 22.573089599609375,
      "learning_rate": 6.3127764767109035e-06,
      "loss": 0.7089,
      "step": 5260
    },
    {
      "epoch": 2.0569867291178765,
      "grad_norm": 54.8220100402832,
      "learning_rate": 6.286755139214156e-06,
      "loss": 0.734,
      "step": 5270
    },
    {
      "epoch": 2.060889929742389,
      "grad_norm": 23.76951026916504,
      "learning_rate": 6.260733801717409e-06,
      "loss": 0.6829,
      "step": 5280
    },
    {
      "epoch": 2.0647931303669007,
      "grad_norm": 25.190048217773438,
      "learning_rate": 6.2347124642206615e-06,
      "loss": 0.6623,
      "step": 5290
    },
    {
      "epoch": 2.068696330991413,
      "grad_norm": 18.35578155517578,
      "learning_rate": 6.208691126723914e-06,
      "loss": 0.7413,
      "step": 5300
    },
    {
      "epoch": 2.072599531615925,
      "grad_norm": 42.21385192871094,
      "learning_rate": 6.182669789227167e-06,
      "loss": 0.6376,
      "step": 5310
    },
    {
      "epoch": 2.0765027322404372,
      "grad_norm": 14.984137535095215,
      "learning_rate": 6.1566484517304195e-06,
      "loss": 0.6489,
      "step": 5320
    },
    {
      "epoch": 2.080405932864949,
      "grad_norm": 27.056503295898438,
      "learning_rate": 6.130627114233673e-06,
      "loss": 0.6118,
      "step": 5330
    },
    {
      "epoch": 2.0843091334894615,
      "grad_norm": 15.342044830322266,
      "learning_rate": 6.104605776736925e-06,
      "loss": 0.688,
      "step": 5340
    },
    {
      "epoch": 2.0882123341139733,
      "grad_norm": 32.349693298339844,
      "learning_rate": 6.078584439240178e-06,
      "loss": 0.7782,
      "step": 5350
    },
    {
      "epoch": 2.0921155347384857,
      "grad_norm": 16.96416473388672,
      "learning_rate": 6.052563101743431e-06,
      "loss": 0.4371,
      "step": 5360
    },
    {
      "epoch": 2.0960187353629975,
      "grad_norm": 23.127717971801758,
      "learning_rate": 6.026541764246683e-06,
      "loss": 0.6787,
      "step": 5370
    },
    {
      "epoch": 2.09992193598751,
      "grad_norm": 30.370403289794922,
      "learning_rate": 6.000520426749935e-06,
      "loss": 0.6349,
      "step": 5380
    },
    {
      "epoch": 2.1038251366120218,
      "grad_norm": 22.363401412963867,
      "learning_rate": 5.974499089253189e-06,
      "loss": 0.7157,
      "step": 5390
    },
    {
      "epoch": 2.107728337236534,
      "grad_norm": 19.00469207763672,
      "learning_rate": 5.94847775175644e-06,
      "loss": 0.5982,
      "step": 5400
    },
    {
      "epoch": 2.111631537861046,
      "grad_norm": 22.592437744140625,
      "learning_rate": 5.922456414259693e-06,
      "loss": 0.6603,
      "step": 5410
    },
    {
      "epoch": 2.1155347384855583,
      "grad_norm": 22.392742156982422,
      "learning_rate": 5.896435076762946e-06,
      "loss": 0.51,
      "step": 5420
    },
    {
      "epoch": 2.11943793911007,
      "grad_norm": 11.822457313537598,
      "learning_rate": 5.8704137392661984e-06,
      "loss": 0.4894,
      "step": 5430
    },
    {
      "epoch": 2.1233411397345825,
      "grad_norm": 17.402572631835938,
      "learning_rate": 5.844392401769451e-06,
      "loss": 0.6268,
      "step": 5440
    },
    {
      "epoch": 2.1272443403590944,
      "grad_norm": 25.622364044189453,
      "learning_rate": 5.818371064272704e-06,
      "loss": 0.6566,
      "step": 5450
    },
    {
      "epoch": 2.1311475409836067,
      "grad_norm": 26.075284957885742,
      "learning_rate": 5.7923497267759565e-06,
      "loss": 0.5466,
      "step": 5460
    },
    {
      "epoch": 2.1350507416081186,
      "grad_norm": 34.75681686401367,
      "learning_rate": 5.76632838927921e-06,
      "loss": 0.791,
      "step": 5470
    },
    {
      "epoch": 2.138953942232631,
      "grad_norm": 22.57561683654785,
      "learning_rate": 5.740307051782462e-06,
      "loss": 0.7384,
      "step": 5480
    },
    {
      "epoch": 2.142857142857143,
      "grad_norm": 31.161609649658203,
      "learning_rate": 5.7142857142857145e-06,
      "loss": 0.5188,
      "step": 5490
    },
    {
      "epoch": 2.146760343481655,
      "grad_norm": 38.85685729980469,
      "learning_rate": 5.688264376788968e-06,
      "loss": 0.6896,
      "step": 5500
    },
    {
      "epoch": 2.146760343481655,
      "eval_accuracy": 0.6794027228809838,
      "eval_f1": 0.6810232542216262,
      "eval_loss": 0.8055222034454346,
      "eval_precision": 0.6903667447745538,
      "eval_runtime": 520.4548,
      "eval_samples_per_second": 4.375,
      "eval_steps_per_second": 0.548,
      "step": 5500
    },
    {
      "epoch": 2.150663544106167,
      "grad_norm": 31.780139923095703,
      "learning_rate": 5.66224303929222e-06,
      "loss": 0.6622,
      "step": 5510
    },
    {
      "epoch": 2.1545667447306793,
      "grad_norm": 13.657153129577637,
      "learning_rate": 5.6362217017954725e-06,
      "loss": 0.5757,
      "step": 5520
    },
    {
      "epoch": 2.158469945355191,
      "grad_norm": 31.0767879486084,
      "learning_rate": 5.610200364298726e-06,
      "loss": 0.6109,
      "step": 5530
    },
    {
      "epoch": 2.1623731459797035,
      "grad_norm": 25.168046951293945,
      "learning_rate": 5.584179026801978e-06,
      "loss": 0.4644,
      "step": 5540
    },
    {
      "epoch": 2.1662763466042154,
      "grad_norm": 22.076927185058594,
      "learning_rate": 5.558157689305231e-06,
      "loss": 0.6506,
      "step": 5550
    },
    {
      "epoch": 2.1701795472287277,
      "grad_norm": 33.785064697265625,
      "learning_rate": 5.532136351808484e-06,
      "loss": 0.7103,
      "step": 5560
    },
    {
      "epoch": 2.1740827478532396,
      "grad_norm": 26.069047927856445,
      "learning_rate": 5.506115014311736e-06,
      "loss": 0.7311,
      "step": 5570
    },
    {
      "epoch": 2.177985948477752,
      "grad_norm": 30.260974884033203,
      "learning_rate": 5.4800936768149895e-06,
      "loss": 0.6922,
      "step": 5580
    },
    {
      "epoch": 2.181889149102264,
      "grad_norm": 10.878069877624512,
      "learning_rate": 5.454072339318242e-06,
      "loss": 0.6498,
      "step": 5590
    },
    {
      "epoch": 2.185792349726776,
      "grad_norm": 25.517105102539062,
      "learning_rate": 5.428051001821493e-06,
      "loss": 0.717,
      "step": 5600
    },
    {
      "epoch": 2.189695550351288,
      "grad_norm": 33.412330627441406,
      "learning_rate": 5.4020296643247475e-06,
      "loss": 0.6382,
      "step": 5610
    },
    {
      "epoch": 2.1935987509758004,
      "grad_norm": 20.42127227783203,
      "learning_rate": 5.376008326827999e-06,
      "loss": 0.616,
      "step": 5620
    },
    {
      "epoch": 2.1975019516003123,
      "grad_norm": 19.26539421081543,
      "learning_rate": 5.3499869893312514e-06,
      "loss": 0.8775,
      "step": 5630
    },
    {
      "epoch": 2.201405152224824,
      "grad_norm": 18.456235885620117,
      "learning_rate": 5.323965651834505e-06,
      "loss": 0.6093,
      "step": 5640
    },
    {
      "epoch": 2.2053083528493365,
      "grad_norm": 20.25872230529785,
      "learning_rate": 5.297944314337757e-06,
      "loss": 0.5729,
      "step": 5650
    },
    {
      "epoch": 2.209211553473849,
      "grad_norm": 25.063989639282227,
      "learning_rate": 5.2719229768410095e-06,
      "loss": 0.6152,
      "step": 5660
    },
    {
      "epoch": 2.2131147540983607,
      "grad_norm": 47.08866882324219,
      "learning_rate": 5.245901639344263e-06,
      "loss": 0.6651,
      "step": 5670
    },
    {
      "epoch": 2.2170179547228726,
      "grad_norm": 16.291648864746094,
      "learning_rate": 5.219880301847515e-06,
      "loss": 0.5448,
      "step": 5680
    },
    {
      "epoch": 2.220921155347385,
      "grad_norm": 17.116273880004883,
      "learning_rate": 5.1938589643507675e-06,
      "loss": 0.7754,
      "step": 5690
    },
    {
      "epoch": 2.2248243559718968,
      "grad_norm": 22.30712127685547,
      "learning_rate": 5.167837626854021e-06,
      "loss": 0.5742,
      "step": 5700
    },
    {
      "epoch": 2.228727556596409,
      "grad_norm": 42.15053939819336,
      "learning_rate": 5.141816289357273e-06,
      "loss": 0.7653,
      "step": 5710
    },
    {
      "epoch": 2.232630757220921,
      "grad_norm": 26.44182014465332,
      "learning_rate": 5.115794951860526e-06,
      "loss": 0.5583,
      "step": 5720
    },
    {
      "epoch": 2.2365339578454333,
      "grad_norm": 48.94859313964844,
      "learning_rate": 5.089773614363779e-06,
      "loss": 0.8265,
      "step": 5730
    },
    {
      "epoch": 2.240437158469945,
      "grad_norm": 27.069503784179688,
      "learning_rate": 5.063752276867031e-06,
      "loss": 0.6056,
      "step": 5740
    },
    {
      "epoch": 2.2443403590944575,
      "grad_norm": 39.831947326660156,
      "learning_rate": 5.0377309393702844e-06,
      "loss": 0.5782,
      "step": 5750
    },
    {
      "epoch": 2.2482435597189694,
      "grad_norm": 27.80128288269043,
      "learning_rate": 5.011709601873537e-06,
      "loss": 0.7191,
      "step": 5760
    },
    {
      "epoch": 2.2521467603434817,
      "grad_norm": 24.281858444213867,
      "learning_rate": 4.985688264376789e-06,
      "loss": 0.5723,
      "step": 5770
    },
    {
      "epoch": 2.2560499609679936,
      "grad_norm": 33.02968978881836,
      "learning_rate": 4.959666926880042e-06,
      "loss": 0.5751,
      "step": 5780
    },
    {
      "epoch": 2.259953161592506,
      "grad_norm": 27.91119956970215,
      "learning_rate": 4.933645589383295e-06,
      "loss": 0.8533,
      "step": 5790
    },
    {
      "epoch": 2.263856362217018,
      "grad_norm": 14.739704132080078,
      "learning_rate": 4.907624251886547e-06,
      "loss": 0.4909,
      "step": 5800
    },
    {
      "epoch": 2.26775956284153,
      "grad_norm": 19.9144344329834,
      "learning_rate": 4.8816029143898005e-06,
      "loss": 0.8169,
      "step": 5810
    },
    {
      "epoch": 2.271662763466042,
      "grad_norm": 33.30397415161133,
      "learning_rate": 4.855581576893053e-06,
      "loss": 0.6909,
      "step": 5820
    },
    {
      "epoch": 2.2755659640905543,
      "grad_norm": 20.37330436706543,
      "learning_rate": 4.829560239396305e-06,
      "loss": 0.6513,
      "step": 5830
    },
    {
      "epoch": 2.279469164715066,
      "grad_norm": 14.372746467590332,
      "learning_rate": 4.8035389018995585e-06,
      "loss": 0.4826,
      "step": 5840
    },
    {
      "epoch": 2.2833723653395785,
      "grad_norm": 23.365970611572266,
      "learning_rate": 4.77751756440281e-06,
      "loss": 0.5339,
      "step": 5850
    },
    {
      "epoch": 2.2872755659640904,
      "grad_norm": 13.748836517333984,
      "learning_rate": 4.751496226906063e-06,
      "loss": 0.4996,
      "step": 5860
    },
    {
      "epoch": 2.2911787665886028,
      "grad_norm": 29.603607177734375,
      "learning_rate": 4.725474889409316e-06,
      "loss": 0.7725,
      "step": 5870
    },
    {
      "epoch": 2.2950819672131146,
      "grad_norm": 23.49576187133789,
      "learning_rate": 4.699453551912569e-06,
      "loss": 0.7574,
      "step": 5880
    },
    {
      "epoch": 2.298985167837627,
      "grad_norm": 26.170352935791016,
      "learning_rate": 4.673432214415821e-06,
      "loss": 0.6274,
      "step": 5890
    },
    {
      "epoch": 2.302888368462139,
      "grad_norm": 5.334280967712402,
      "learning_rate": 4.647410876919074e-06,
      "loss": 0.4535,
      "step": 5900
    },
    {
      "epoch": 2.306791569086651,
      "grad_norm": 28.396541595458984,
      "learning_rate": 4.621389539422327e-06,
      "loss": 0.5847,
      "step": 5910
    },
    {
      "epoch": 2.310694769711163,
      "grad_norm": 21.644254684448242,
      "learning_rate": 4.595368201925579e-06,
      "loss": 0.6591,
      "step": 5920
    },
    {
      "epoch": 2.3145979703356754,
      "grad_norm": 23.934938430786133,
      "learning_rate": 4.569346864428832e-06,
      "loss": 0.7666,
      "step": 5930
    },
    {
      "epoch": 2.3185011709601873,
      "grad_norm": 15.335939407348633,
      "learning_rate": 4.543325526932085e-06,
      "loss": 0.6592,
      "step": 5940
    },
    {
      "epoch": 2.3224043715846996,
      "grad_norm": 20.766149520874023,
      "learning_rate": 4.5173041894353374e-06,
      "loss": 0.7174,
      "step": 5950
    },
    {
      "epoch": 2.3263075722092115,
      "grad_norm": 22.40735626220703,
      "learning_rate": 4.49128285193859e-06,
      "loss": 0.7626,
      "step": 5960
    },
    {
      "epoch": 2.330210772833724,
      "grad_norm": 20.685266494750977,
      "learning_rate": 4.465261514441842e-06,
      "loss": 0.6121,
      "step": 5970
    },
    {
      "epoch": 2.3341139734582357,
      "grad_norm": 13.917596817016602,
      "learning_rate": 4.4392401769450955e-06,
      "loss": 0.5979,
      "step": 5980
    },
    {
      "epoch": 2.338017174082748,
      "grad_norm": 20.515750885009766,
      "learning_rate": 4.413218839448348e-06,
      "loss": 0.7176,
      "step": 5990
    },
    {
      "epoch": 2.34192037470726,
      "grad_norm": 25.638954162597656,
      "learning_rate": 4.3871975019516e-06,
      "loss": 0.648,
      "step": 6000
    },
    {
      "epoch": 2.34192037470726,
      "eval_accuracy": 0.6697408871321915,
      "eval_f1": 0.6726460699427654,
      "eval_loss": 0.8251564502716064,
      "eval_precision": 0.6822269942572033,
      "eval_runtime": 522.662,
      "eval_samples_per_second": 4.357,
      "eval_steps_per_second": 0.545,
      "step": 6000
    },
    {
      "epoch": 2.345823575331772,
      "grad_norm": 37.23610305786133,
      "learning_rate": 4.3611761644548535e-06,
      "loss": 0.7493,
      "step": 6010
    },
    {
      "epoch": 2.349726775956284,
      "grad_norm": 25.37757110595703,
      "learning_rate": 4.335154826958106e-06,
      "loss": 0.5975,
      "step": 6020
    },
    {
      "epoch": 2.3536299765807964,
      "grad_norm": 24.137222290039062,
      "learning_rate": 4.309133489461358e-06,
      "loss": 0.7238,
      "step": 6030
    },
    {
      "epoch": 2.3575331772053083,
      "grad_norm": 19.644248962402344,
      "learning_rate": 4.2831121519646115e-06,
      "loss": 0.4829,
      "step": 6040
    },
    {
      "epoch": 2.3614363778298206,
      "grad_norm": 22.676055908203125,
      "learning_rate": 4.257090814467864e-06,
      "loss": 0.7672,
      "step": 6050
    },
    {
      "epoch": 2.3653395784543325,
      "grad_norm": 32.15772247314453,
      "learning_rate": 4.231069476971117e-06,
      "loss": 0.6176,
      "step": 6060
    },
    {
      "epoch": 2.369242779078845,
      "grad_norm": 11.57933521270752,
      "learning_rate": 4.20504813947437e-06,
      "loss": 0.6593,
      "step": 6070
    },
    {
      "epoch": 2.3731459797033567,
      "grad_norm": 36.1183967590332,
      "learning_rate": 4.179026801977622e-06,
      "loss": 0.8547,
      "step": 6080
    },
    {
      "epoch": 2.3770491803278686,
      "grad_norm": 26.899953842163086,
      "learning_rate": 4.153005464480875e-06,
      "loss": 0.8321,
      "step": 6090
    },
    {
      "epoch": 2.380952380952381,
      "grad_norm": 22.020702362060547,
      "learning_rate": 4.126984126984127e-06,
      "loss": 0.6586,
      "step": 6100
    },
    {
      "epoch": 2.3848555815768933,
      "grad_norm": 23.889657974243164,
      "learning_rate": 4.10096278948738e-06,
      "loss": 0.662,
      "step": 6110
    },
    {
      "epoch": 2.388758782201405,
      "grad_norm": 35.975040435791016,
      "learning_rate": 4.074941451990632e-06,
      "loss": 0.7058,
      "step": 6120
    },
    {
      "epoch": 2.392661982825917,
      "grad_norm": 17.011363983154297,
      "learning_rate": 4.048920114493886e-06,
      "loss": 0.6168,
      "step": 6130
    },
    {
      "epoch": 2.3965651834504293,
      "grad_norm": 37.42076110839844,
      "learning_rate": 4.022898776997138e-06,
      "loss": 0.6178,
      "step": 6140
    },
    {
      "epoch": 2.4004683840749417,
      "grad_norm": 28.27116584777832,
      "learning_rate": 3.9968774395003904e-06,
      "loss": 0.66,
      "step": 6150
    },
    {
      "epoch": 2.4043715846994536,
      "grad_norm": 12.404146194458008,
      "learning_rate": 3.970856102003644e-06,
      "loss": 0.7339,
      "step": 6160
    },
    {
      "epoch": 2.4082747853239654,
      "grad_norm": 25.358911514282227,
      "learning_rate": 3.944834764506896e-06,
      "loss": 0.672,
      "step": 6170
    },
    {
      "epoch": 2.4121779859484778,
      "grad_norm": 12.079841613769531,
      "learning_rate": 3.9188134270101485e-06,
      "loss": 0.533,
      "step": 6180
    },
    {
      "epoch": 2.41608118657299,
      "grad_norm": 21.36527442932129,
      "learning_rate": 3.892792089513402e-06,
      "loss": 0.6995,
      "step": 6190
    },
    {
      "epoch": 2.419984387197502,
      "grad_norm": 30.704492568969727,
      "learning_rate": 3.866770752016654e-06,
      "loss": 0.6417,
      "step": 6200
    },
    {
      "epoch": 2.423887587822014,
      "grad_norm": 41.40189743041992,
      "learning_rate": 3.8407494145199065e-06,
      "loss": 0.75,
      "step": 6210
    },
    {
      "epoch": 2.427790788446526,
      "grad_norm": 21.466224670410156,
      "learning_rate": 3.814728077023159e-06,
      "loss": 0.6642,
      "step": 6220
    },
    {
      "epoch": 2.431693989071038,
      "grad_norm": 14.106243133544922,
      "learning_rate": 3.788706739526412e-06,
      "loss": 0.6163,
      "step": 6230
    },
    {
      "epoch": 2.4355971896955504,
      "grad_norm": 23.728660583496094,
      "learning_rate": 3.7626854020296646e-06,
      "loss": 0.7042,
      "step": 6240
    },
    {
      "epoch": 2.4395003903200623,
      "grad_norm": 30.437705993652344,
      "learning_rate": 3.7366640645329174e-06,
      "loss": 0.9272,
      "step": 6250
    },
    {
      "epoch": 2.4434035909445746,
      "grad_norm": 30.561357498168945,
      "learning_rate": 3.71064272703617e-06,
      "loss": 0.6557,
      "step": 6260
    },
    {
      "epoch": 2.4473067915690865,
      "grad_norm": 23.999597549438477,
      "learning_rate": 3.684621389539423e-06,
      "loss": 0.5138,
      "step": 6270
    },
    {
      "epoch": 2.451209992193599,
      "grad_norm": 26.256488800048828,
      "learning_rate": 3.658600052042675e-06,
      "loss": 0.4852,
      "step": 6280
    },
    {
      "epoch": 2.4551131928181107,
      "grad_norm": 27.01072120666504,
      "learning_rate": 3.632578714545928e-06,
      "loss": 0.6165,
      "step": 6290
    },
    {
      "epoch": 2.459016393442623,
      "grad_norm": 23.757448196411133,
      "learning_rate": 3.6065573770491806e-06,
      "loss": 0.738,
      "step": 6300
    },
    {
      "epoch": 2.462919594067135,
      "grad_norm": 23.861846923828125,
      "learning_rate": 3.5805360395524334e-06,
      "loss": 0.6112,
      "step": 6310
    },
    {
      "epoch": 2.4668227946916472,
      "grad_norm": 22.361257553100586,
      "learning_rate": 3.554514702055686e-06,
      "loss": 0.7132,
      "step": 6320
    },
    {
      "epoch": 2.470725995316159,
      "grad_norm": 20.35881233215332,
      "learning_rate": 3.5284933645589387e-06,
      "loss": 0.7318,
      "step": 6330
    },
    {
      "epoch": 2.4746291959406714,
      "grad_norm": 22.779541015625,
      "learning_rate": 3.5024720270621915e-06,
      "loss": 0.5226,
      "step": 6340
    },
    {
      "epoch": 2.4785323965651833,
      "grad_norm": 27.687824249267578,
      "learning_rate": 3.476450689565444e-06,
      "loss": 0.6691,
      "step": 6350
    },
    {
      "epoch": 2.4824355971896956,
      "grad_norm": 25.025310516357422,
      "learning_rate": 3.4504293520686967e-06,
      "loss": 0.6941,
      "step": 6360
    },
    {
      "epoch": 2.4863387978142075,
      "grad_norm": 45.203765869140625,
      "learning_rate": 3.4244080145719495e-06,
      "loss": 0.7545,
      "step": 6370
    },
    {
      "epoch": 2.49024199843872,
      "grad_norm": 26.899240493774414,
      "learning_rate": 3.3983866770752023e-06,
      "loss": 0.5953,
      "step": 6380
    },
    {
      "epoch": 2.4941451990632317,
      "grad_norm": 21.623353958129883,
      "learning_rate": 3.3723653395784543e-06,
      "loss": 0.5469,
      "step": 6390
    },
    {
      "epoch": 2.498048399687744,
      "grad_norm": 14.954353332519531,
      "learning_rate": 3.346344002081707e-06,
      "loss": 0.6842,
      "step": 6400
    },
    {
      "epoch": 2.501951600312256,
      "grad_norm": 20.893714904785156,
      "learning_rate": 3.32032266458496e-06,
      "loss": 0.5275,
      "step": 6410
    },
    {
      "epoch": 2.5058548009367683,
      "grad_norm": 37.9805793762207,
      "learning_rate": 3.2943013270882123e-06,
      "loss": 0.6957,
      "step": 6420
    },
    {
      "epoch": 2.50975800156128,
      "grad_norm": 43.23405075073242,
      "learning_rate": 3.268279989591465e-06,
      "loss": 0.8842,
      "step": 6430
    },
    {
      "epoch": 2.5136612021857925,
      "grad_norm": 25.276151657104492,
      "learning_rate": 3.242258652094718e-06,
      "loss": 0.5103,
      "step": 6440
    },
    {
      "epoch": 2.5175644028103044,
      "grad_norm": 17.771467208862305,
      "learning_rate": 3.216237314597971e-06,
      "loss": 0.6922,
      "step": 6450
    },
    {
      "epoch": 2.5214676034348167,
      "grad_norm": 17.89122772216797,
      "learning_rate": 3.190215977101223e-06,
      "loss": 0.5758,
      "step": 6460
    },
    {
      "epoch": 2.5253708040593286,
      "grad_norm": 20.690338134765625,
      "learning_rate": 3.164194639604476e-06,
      "loss": 0.4978,
      "step": 6470
    },
    {
      "epoch": 2.529274004683841,
      "grad_norm": 25.7519588470459,
      "learning_rate": 3.138173302107729e-06,
      "loss": 0.6533,
      "step": 6480
    },
    {
      "epoch": 2.5331772053083528,
      "grad_norm": 21.44919776916504,
      "learning_rate": 3.112151964610981e-06,
      "loss": 0.5135,
      "step": 6490
    },
    {
      "epoch": 2.537080405932865,
      "grad_norm": 25.233623504638672,
      "learning_rate": 3.0861306271142336e-06,
      "loss": 0.5969,
      "step": 6500
    },
    {
      "epoch": 2.537080405932865,
      "eval_accuracy": 0.6697408871321915,
      "eval_f1": 0.6675894331288813,
      "eval_loss": 0.8178600668907166,
      "eval_precision": 0.6660810982417206,
      "eval_runtime": 506.4974,
      "eval_samples_per_second": 4.496,
      "eval_steps_per_second": 0.563,
      "step": 6500
    },
    {
      "epoch": 2.540983606557377,
      "grad_norm": 32.796878814697266,
      "learning_rate": 3.0601092896174864e-06,
      "loss": 0.6084,
      "step": 6510
    },
    {
      "epoch": 2.5448868071818893,
      "grad_norm": 38.351646423339844,
      "learning_rate": 3.0340879521207393e-06,
      "loss": 0.6567,
      "step": 6520
    },
    {
      "epoch": 2.548790007806401,
      "grad_norm": 20.30670738220215,
      "learning_rate": 3.0080666146239917e-06,
      "loss": 0.544,
      "step": 6530
    },
    {
      "epoch": 2.552693208430913,
      "grad_norm": 9.90613842010498,
      "learning_rate": 2.9820452771272445e-06,
      "loss": 0.6121,
      "step": 6540
    },
    {
      "epoch": 2.5565964090554254,
      "grad_norm": 46.304115295410156,
      "learning_rate": 2.9560239396304973e-06,
      "loss": 0.5715,
      "step": 6550
    },
    {
      "epoch": 2.5604996096799377,
      "grad_norm": 35.72332763671875,
      "learning_rate": 2.9300026021337497e-06,
      "loss": 0.7934,
      "step": 6560
    },
    {
      "epoch": 2.5644028103044496,
      "grad_norm": 26.29020881652832,
      "learning_rate": 2.9039812646370025e-06,
      "loss": 0.5539,
      "step": 6570
    },
    {
      "epoch": 2.5683060109289615,
      "grad_norm": 68.64653015136719,
      "learning_rate": 2.8779599271402553e-06,
      "loss": 0.5884,
      "step": 6580
    },
    {
      "epoch": 2.572209211553474,
      "grad_norm": 36.428829193115234,
      "learning_rate": 2.851938589643508e-06,
      "loss": 0.5943,
      "step": 6590
    },
    {
      "epoch": 2.576112412177986,
      "grad_norm": 26.976856231689453,
      "learning_rate": 2.8259172521467606e-06,
      "loss": 0.7204,
      "step": 6600
    },
    {
      "epoch": 2.580015612802498,
      "grad_norm": 21.736186981201172,
      "learning_rate": 2.7998959146500134e-06,
      "loss": 0.6684,
      "step": 6610
    },
    {
      "epoch": 2.58391881342701,
      "grad_norm": 40.856109619140625,
      "learning_rate": 2.773874577153266e-06,
      "loss": 0.6465,
      "step": 6620
    },
    {
      "epoch": 2.5878220140515222,
      "grad_norm": 25.26105308532715,
      "learning_rate": 2.747853239656519e-06,
      "loss": 0.7813,
      "step": 6630
    },
    {
      "epoch": 2.5917252146760346,
      "grad_norm": 25.408008575439453,
      "learning_rate": 2.721831902159771e-06,
      "loss": 0.5776,
      "step": 6640
    },
    {
      "epoch": 2.5956284153005464,
      "grad_norm": 11.46083927154541,
      "learning_rate": 2.695810564663024e-06,
      "loss": 0.5457,
      "step": 6650
    },
    {
      "epoch": 2.5995316159250583,
      "grad_norm": 36.387210845947266,
      "learning_rate": 2.6697892271662766e-06,
      "loss": 0.5492,
      "step": 6660
    },
    {
      "epoch": 2.6034348165495707,
      "grad_norm": 43.403953552246094,
      "learning_rate": 2.643767889669529e-06,
      "loss": 0.6451,
      "step": 6670
    },
    {
      "epoch": 2.607338017174083,
      "grad_norm": 11.76537799835205,
      "learning_rate": 2.617746552172782e-06,
      "loss": 0.6204,
      "step": 6680
    },
    {
      "epoch": 2.611241217798595,
      "grad_norm": 25.495561599731445,
      "learning_rate": 2.5917252146760347e-06,
      "loss": 0.6338,
      "step": 6690
    },
    {
      "epoch": 2.6151444184231067,
      "grad_norm": 35.05058670043945,
      "learning_rate": 2.5657038771792875e-06,
      "loss": 0.795,
      "step": 6700
    },
    {
      "epoch": 2.619047619047619,
      "grad_norm": 50.0393180847168,
      "learning_rate": 2.53968253968254e-06,
      "loss": 0.8539,
      "step": 6710
    },
    {
      "epoch": 2.6229508196721314,
      "grad_norm": 26.79608726501465,
      "learning_rate": 2.5136612021857927e-06,
      "loss": 0.6355,
      "step": 6720
    },
    {
      "epoch": 2.6268540202966433,
      "grad_norm": 23.704853057861328,
      "learning_rate": 2.487639864689045e-06,
      "loss": 0.5522,
      "step": 6730
    },
    {
      "epoch": 2.630757220921155,
      "grad_norm": 25.824356079101562,
      "learning_rate": 2.461618527192298e-06,
      "loss": 0.5931,
      "step": 6740
    },
    {
      "epoch": 2.6346604215456675,
      "grad_norm": 30.930511474609375,
      "learning_rate": 2.4355971896955503e-06,
      "loss": 0.6017,
      "step": 6750
    },
    {
      "epoch": 2.63856362217018,
      "grad_norm": 19.582050323486328,
      "learning_rate": 2.409575852198803e-06,
      "loss": 0.6648,
      "step": 6760
    },
    {
      "epoch": 2.6424668227946917,
      "grad_norm": 18.19685935974121,
      "learning_rate": 2.383554514702056e-06,
      "loss": 0.4673,
      "step": 6770
    },
    {
      "epoch": 2.6463700234192036,
      "grad_norm": 19.287338256835938,
      "learning_rate": 2.3575331772053088e-06,
      "loss": 0.5301,
      "step": 6780
    },
    {
      "epoch": 2.650273224043716,
      "grad_norm": 20.247272491455078,
      "learning_rate": 2.331511839708561e-06,
      "loss": 0.5621,
      "step": 6790
    },
    {
      "epoch": 2.654176424668228,
      "grad_norm": 33.87660217285156,
      "learning_rate": 2.3054905022118136e-06,
      "loss": 0.7313,
      "step": 6800
    },
    {
      "epoch": 2.65807962529274,
      "grad_norm": 43.06293869018555,
      "learning_rate": 2.2794691647150664e-06,
      "loss": 0.7114,
      "step": 6810
    },
    {
      "epoch": 2.661982825917252,
      "grad_norm": 23.750961303710938,
      "learning_rate": 2.253447827218319e-06,
      "loss": 0.4888,
      "step": 6820
    },
    {
      "epoch": 2.6658860265417643,
      "grad_norm": 29.33478355407715,
      "learning_rate": 2.227426489721572e-06,
      "loss": 0.6292,
      "step": 6830
    },
    {
      "epoch": 2.669789227166276,
      "grad_norm": 24.963043212890625,
      "learning_rate": 2.2014051522248244e-06,
      "loss": 0.6575,
      "step": 6840
    },
    {
      "epoch": 2.6736924277907885,
      "grad_norm": 22.78046226501465,
      "learning_rate": 2.1753838147280772e-06,
      "loss": 0.5557,
      "step": 6850
    },
    {
      "epoch": 2.6775956284153004,
      "grad_norm": 30.312135696411133,
      "learning_rate": 2.14936247723133e-06,
      "loss": 0.5294,
      "step": 6860
    },
    {
      "epoch": 2.6814988290398127,
      "grad_norm": 8.56813907623291,
      "learning_rate": 2.123341139734583e-06,
      "loss": 0.5702,
      "step": 6870
    },
    {
      "epoch": 2.6854020296643246,
      "grad_norm": 12.665549278259277,
      "learning_rate": 2.0973198022378353e-06,
      "loss": 0.6265,
      "step": 6880
    },
    {
      "epoch": 2.689305230288837,
      "grad_norm": 25.245529174804688,
      "learning_rate": 2.0712984647410877e-06,
      "loss": 0.6225,
      "step": 6890
    },
    {
      "epoch": 2.693208430913349,
      "grad_norm": 19.783662796020508,
      "learning_rate": 2.0452771272443405e-06,
      "loss": 0.6434,
      "step": 6900
    },
    {
      "epoch": 2.697111631537861,
      "grad_norm": 32.52118682861328,
      "learning_rate": 2.0192557897475933e-06,
      "loss": 0.472,
      "step": 6910
    },
    {
      "epoch": 2.701014832162373,
      "grad_norm": 31.25482177734375,
      "learning_rate": 1.993234452250846e-06,
      "loss": 0.6023,
      "step": 6920
    },
    {
      "epoch": 2.7049180327868854,
      "grad_norm": 25.170175552368164,
      "learning_rate": 1.9672131147540985e-06,
      "loss": 0.7371,
      "step": 6930
    },
    {
      "epoch": 2.7088212334113972,
      "grad_norm": 30.668685913085938,
      "learning_rate": 1.9411917772573513e-06,
      "loss": 0.5718,
      "step": 6940
    },
    {
      "epoch": 2.7127244340359096,
      "grad_norm": 23.023950576782227,
      "learning_rate": 1.9151704397606037e-06,
      "loss": 0.4882,
      "step": 6950
    },
    {
      "epoch": 2.7166276346604215,
      "grad_norm": 26.25387954711914,
      "learning_rate": 1.8891491022638563e-06,
      "loss": 0.6525,
      "step": 6960
    },
    {
      "epoch": 2.720530835284934,
      "grad_norm": 29.496206283569336,
      "learning_rate": 1.8631277647671092e-06,
      "loss": 0.6029,
      "step": 6970
    },
    {
      "epoch": 2.7244340359094457,
      "grad_norm": 46.15703201293945,
      "learning_rate": 1.8371064272703618e-06,
      "loss": 0.6635,
      "step": 6980
    },
    {
      "epoch": 2.728337236533958,
      "grad_norm": 54.97532653808594,
      "learning_rate": 1.8110850897736146e-06,
      "loss": 0.5554,
      "step": 6990
    },
    {
      "epoch": 2.73224043715847,
      "grad_norm": 20.024608612060547,
      "learning_rate": 1.7850637522768672e-06,
      "loss": 0.7098,
      "step": 7000
    },
    {
      "epoch": 2.73224043715847,
      "eval_accuracy": 0.6723759332454985,
      "eval_f1": 0.6705358068872935,
      "eval_loss": 0.8139342665672302,
      "eval_precision": 0.6697573559560747,
      "eval_runtime": 499.0975,
      "eval_samples_per_second": 4.562,
      "eval_steps_per_second": 0.571,
      "step": 7000
    },
    {
      "epoch": 2.736143637782982,
      "grad_norm": 27.666086196899414,
      "learning_rate": 1.75904241478012e-06,
      "loss": 0.767,
      "step": 7010
    },
    {
      "epoch": 2.740046838407494,
      "grad_norm": 22.795127868652344,
      "learning_rate": 1.7330210772833724e-06,
      "loss": 0.7355,
      "step": 7020
    },
    {
      "epoch": 2.7439500390320064,
      "grad_norm": 15.536296844482422,
      "learning_rate": 1.7069997397866252e-06,
      "loss": 0.6448,
      "step": 7030
    },
    {
      "epoch": 2.7478532396565183,
      "grad_norm": 30.21648406982422,
      "learning_rate": 1.6809784022898778e-06,
      "loss": 0.661,
      "step": 7040
    },
    {
      "epoch": 2.7517564402810306,
      "grad_norm": 32.448883056640625,
      "learning_rate": 1.6549570647931305e-06,
      "loss": 0.7496,
      "step": 7050
    },
    {
      "epoch": 2.7556596409055425,
      "grad_norm": 8.262447357177734,
      "learning_rate": 1.6289357272963833e-06,
      "loss": 0.6864,
      "step": 7060
    },
    {
      "epoch": 2.7595628415300544,
      "grad_norm": 84.66475677490234,
      "learning_rate": 1.6029143897996357e-06,
      "loss": 0.6082,
      "step": 7070
    },
    {
      "epoch": 2.7634660421545667,
      "grad_norm": 24.211793899536133,
      "learning_rate": 1.5768930523028885e-06,
      "loss": 0.7275,
      "step": 7080
    },
    {
      "epoch": 2.767369242779079,
      "grad_norm": 33.69306945800781,
      "learning_rate": 1.550871714806141e-06,
      "loss": 0.7905,
      "step": 7090
    },
    {
      "epoch": 2.771272443403591,
      "grad_norm": 40.78749465942383,
      "learning_rate": 1.524850377309394e-06,
      "loss": 0.6727,
      "step": 7100
    },
    {
      "epoch": 2.775175644028103,
      "grad_norm": 17.712146759033203,
      "learning_rate": 1.4988290398126465e-06,
      "loss": 0.467,
      "step": 7110
    },
    {
      "epoch": 2.779078844652615,
      "grad_norm": 30.42344093322754,
      "learning_rate": 1.4728077023158991e-06,
      "loss": 0.9049,
      "step": 7120
    },
    {
      "epoch": 2.7829820452771274,
      "grad_norm": 18.113666534423828,
      "learning_rate": 1.446786364819152e-06,
      "loss": 0.7537,
      "step": 7130
    },
    {
      "epoch": 2.7868852459016393,
      "grad_norm": 14.142333984375,
      "learning_rate": 1.4207650273224043e-06,
      "loss": 0.6127,
      "step": 7140
    },
    {
      "epoch": 2.790788446526151,
      "grad_norm": 42.50033950805664,
      "learning_rate": 1.3947436898256572e-06,
      "loss": 0.6171,
      "step": 7150
    },
    {
      "epoch": 2.7946916471506635,
      "grad_norm": 30.37510871887207,
      "learning_rate": 1.3687223523289098e-06,
      "loss": 0.7918,
      "step": 7160
    },
    {
      "epoch": 2.798594847775176,
      "grad_norm": 18.139474868774414,
      "learning_rate": 1.3427010148321626e-06,
      "loss": 0.5466,
      "step": 7170
    },
    {
      "epoch": 2.8024980483996877,
      "grad_norm": 42.68107604980469,
      "learning_rate": 1.3166796773354152e-06,
      "loss": 0.7046,
      "step": 7180
    },
    {
      "epoch": 2.8064012490241996,
      "grad_norm": 14.916542053222656,
      "learning_rate": 1.290658339838668e-06,
      "loss": 0.5031,
      "step": 7190
    },
    {
      "epoch": 2.810304449648712,
      "grad_norm": 23.136096954345703,
      "learning_rate": 1.2646370023419204e-06,
      "loss": 0.582,
      "step": 7200
    },
    {
      "epoch": 2.8142076502732243,
      "grad_norm": 42.9893913269043,
      "learning_rate": 1.2386156648451732e-06,
      "loss": 0.5939,
      "step": 7210
    },
    {
      "epoch": 2.818110850897736,
      "grad_norm": 13.466967582702637,
      "learning_rate": 1.2125943273484258e-06,
      "loss": 0.5789,
      "step": 7220
    },
    {
      "epoch": 2.822014051522248,
      "grad_norm": 23.57389259338379,
      "learning_rate": 1.1865729898516785e-06,
      "loss": 0.6472,
      "step": 7230
    },
    {
      "epoch": 2.8259172521467604,
      "grad_norm": 12.421579360961914,
      "learning_rate": 1.160551652354931e-06,
      "loss": 0.5107,
      "step": 7240
    },
    {
      "epoch": 2.8298204527712727,
      "grad_norm": 28.03537940979004,
      "learning_rate": 1.1345303148581837e-06,
      "loss": 0.7155,
      "step": 7250
    },
    {
      "epoch": 2.8337236533957846,
      "grad_norm": 53.70099639892578,
      "learning_rate": 1.1085089773614365e-06,
      "loss": 0.6998,
      "step": 7260
    },
    {
      "epoch": 2.8376268540202965,
      "grad_norm": 27.881629943847656,
      "learning_rate": 1.082487639864689e-06,
      "loss": 0.5905,
      "step": 7270
    },
    {
      "epoch": 2.841530054644809,
      "grad_norm": 26.79347038269043,
      "learning_rate": 1.056466302367942e-06,
      "loss": 0.5191,
      "step": 7280
    },
    {
      "epoch": 2.845433255269321,
      "grad_norm": 14.186870574951172,
      "learning_rate": 1.0304449648711945e-06,
      "loss": 0.5998,
      "step": 7290
    },
    {
      "epoch": 2.849336455893833,
      "grad_norm": 13.8596773147583,
      "learning_rate": 1.0044236273744471e-06,
      "loss": 0.6731,
      "step": 7300
    },
    {
      "epoch": 2.853239656518345,
      "grad_norm": 21.963685989379883,
      "learning_rate": 9.784022898777e-07,
      "loss": 0.666,
      "step": 7310
    },
    {
      "epoch": 2.857142857142857,
      "grad_norm": 16.37224006652832,
      "learning_rate": 9.523809523809525e-07,
      "loss": 0.626,
      "step": 7320
    },
    {
      "epoch": 2.861046057767369,
      "grad_norm": 30.341266632080078,
      "learning_rate": 9.263596148842051e-07,
      "loss": 0.6577,
      "step": 7330
    },
    {
      "epoch": 2.8649492583918814,
      "grad_norm": 17.633089065551758,
      "learning_rate": 9.003382773874578e-07,
      "loss": 0.5903,
      "step": 7340
    },
    {
      "epoch": 2.8688524590163933,
      "grad_norm": 31.547941207885742,
      "learning_rate": 8.743169398907105e-07,
      "loss": 0.612,
      "step": 7350
    },
    {
      "epoch": 2.8727556596409056,
      "grad_norm": 26.80977439880371,
      "learning_rate": 8.482956023939631e-07,
      "loss": 0.556,
      "step": 7360
    },
    {
      "epoch": 2.8766588602654175,
      "grad_norm": 24.7663631439209,
      "learning_rate": 8.222742648972158e-07,
      "loss": 0.5661,
      "step": 7370
    },
    {
      "epoch": 2.88056206088993,
      "grad_norm": 18.68294334411621,
      "learning_rate": 7.962529274004685e-07,
      "loss": 0.556,
      "step": 7380
    },
    {
      "epoch": 2.8844652615144417,
      "grad_norm": 6.5460309982299805,
      "learning_rate": 7.702315899037211e-07,
      "loss": 0.4582,
      "step": 7390
    },
    {
      "epoch": 2.888368462138954,
      "grad_norm": 20.424238204956055,
      "learning_rate": 7.442102524069737e-07,
      "loss": 0.5497,
      "step": 7400
    },
    {
      "epoch": 2.892271662763466,
      "grad_norm": 26.183116912841797,
      "learning_rate": 7.181889149102265e-07,
      "loss": 0.4205,
      "step": 7410
    },
    {
      "epoch": 2.8961748633879782,
      "grad_norm": 13.063218116760254,
      "learning_rate": 6.921675774134791e-07,
      "loss": 0.5449,
      "step": 7420
    },
    {
      "epoch": 2.90007806401249,
      "grad_norm": 27.06941032409668,
      "learning_rate": 6.661462399167318e-07,
      "loss": 0.6018,
      "step": 7430
    },
    {
      "epoch": 2.9039812646370025,
      "grad_norm": 25.81630516052246,
      "learning_rate": 6.401249024199845e-07,
      "loss": 0.6361,
      "step": 7440
    },
    {
      "epoch": 2.9078844652615143,
      "grad_norm": 38.08973693847656,
      "learning_rate": 6.141035649232371e-07,
      "loss": 0.6657,
      "step": 7450
    },
    {
      "epoch": 2.9117876658860267,
      "grad_norm": 44.63924026489258,
      "learning_rate": 5.880822274264897e-07,
      "loss": 0.7121,
      "step": 7460
    },
    {
      "epoch": 2.9156908665105385,
      "grad_norm": 27.802579879760742,
      "learning_rate": 5.620608899297424e-07,
      "loss": 0.5532,
      "step": 7470
    },
    {
      "epoch": 2.919594067135051,
      "grad_norm": 59.510616302490234,
      "learning_rate": 5.360395524329951e-07,
      "loss": 0.5878,
      "step": 7480
    },
    {
      "epoch": 2.9234972677595628,
      "grad_norm": 19.039642333984375,
      "learning_rate": 5.100182149362478e-07,
      "loss": 0.4791,
      "step": 7490
    },
    {
      "epoch": 2.927400468384075,
      "grad_norm": 34.94255447387695,
      "learning_rate": 4.839968774395005e-07,
      "loss": 0.5318,
      "step": 7500
    },
    {
      "epoch": 2.927400468384075,
      "eval_accuracy": 0.678963548528766,
      "eval_f1": 0.6782808517534218,
      "eval_loss": 0.8033220171928406,
      "eval_precision": 0.679321912493148,
      "eval_runtime": 1238.8968,
      "eval_samples_per_second": 1.838,
      "eval_steps_per_second": 0.23,
      "step": 7500
    },
    {
      "epoch": 2.931303669008587,
      "grad_norm": 13.730076789855957,
      "learning_rate": 4.579755399427531e-07,
      "loss": 0.4971,
      "step": 7510
    },
    {
      "epoch": 2.9352068696330993,
      "grad_norm": 31.707950592041016,
      "learning_rate": 4.319542024460058e-07,
      "loss": 0.5996,
      "step": 7520
    },
    {
      "epoch": 2.939110070257611,
      "grad_norm": 14.122936248779297,
      "learning_rate": 4.0593286494925844e-07,
      "loss": 0.6111,
      "step": 7530
    },
    {
      "epoch": 2.9430132708821235,
      "grad_norm": 19.498577117919922,
      "learning_rate": 3.799115274525111e-07,
      "loss": 0.6815,
      "step": 7540
    },
    {
      "epoch": 2.9469164715066354,
      "grad_norm": 25.610261917114258,
      "learning_rate": 3.5389018995576376e-07,
      "loss": 0.6345,
      "step": 7550
    },
    {
      "epoch": 2.9508196721311473,
      "grad_norm": 36.2590217590332,
      "learning_rate": 3.278688524590164e-07,
      "loss": 0.6353,
      "step": 7560
    },
    {
      "epoch": 2.9547228727556596,
      "grad_norm": 29.718833923339844,
      "learning_rate": 3.018475149622691e-07,
      "loss": 0.6126,
      "step": 7570
    },
    {
      "epoch": 2.958626073380172,
      "grad_norm": 23.557323455810547,
      "learning_rate": 2.7582617746552174e-07,
      "loss": 0.6757,
      "step": 7580
    },
    {
      "epoch": 2.962529274004684,
      "grad_norm": 18.829254150390625,
      "learning_rate": 2.498048399687744e-07,
      "loss": 0.4613,
      "step": 7590
    },
    {
      "epoch": 2.9664324746291957,
      "grad_norm": 20.043907165527344,
      "learning_rate": 2.237835024720271e-07,
      "loss": 0.6292,
      "step": 7600
    },
    {
      "epoch": 2.970335675253708,
      "grad_norm": 17.610868453979492,
      "learning_rate": 1.9776216497527975e-07,
      "loss": 0.6374,
      "step": 7610
    },
    {
      "epoch": 2.9742388758782203,
      "grad_norm": 24.038745880126953,
      "learning_rate": 1.7174082747853244e-07,
      "loss": 0.6114,
      "step": 7620
    },
    {
      "epoch": 2.978142076502732,
      "grad_norm": 20.293149948120117,
      "learning_rate": 1.4571948998178507e-07,
      "loss": 0.6725,
      "step": 7630
    },
    {
      "epoch": 2.982045277127244,
      "grad_norm": 25.10896110534668,
      "learning_rate": 1.1969815248503773e-07,
      "loss": 0.6149,
      "step": 7640
    },
    {
      "epoch": 2.9859484777517564,
      "grad_norm": 15.646224975585938,
      "learning_rate": 9.367681498829041e-08,
      "loss": 0.6491,
      "step": 7650
    },
    {
      "epoch": 2.9898516783762688,
      "grad_norm": 12.147490501403809,
      "learning_rate": 6.765547749154307e-08,
      "loss": 0.5834,
      "step": 7660
    },
    {
      "epoch": 2.9937548790007806,
      "grad_norm": 19.882108688354492,
      "learning_rate": 4.1634139994795736e-08,
      "loss": 0.6542,
      "step": 7670
    },
    {
      "epoch": 2.9976580796252925,
      "grad_norm": 19.61357879638672,
      "learning_rate": 1.56128024980484e-08,
      "loss": 0.532,
      "step": 7680
    },
    {
      "epoch": 3.0,
      "step": 7686,
      "total_flos": 1.5279830292400128e+18,
      "train_loss": 0.8075623554765263,
      "train_runtime": 38574.522,
      "train_samples_per_second": 1.594,
      "train_steps_per_second": 0.199
    }
  ],
  "logging_steps": 10,
  "max_steps": 7686,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 3,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.5279830292400128e+18,
  "train_batch_size": 8,
  "trial_name": null,
  "trial_params": null
}