{ "best_metric": 249.32330322265625, "best_model_checkpoint": "./ckpts/hf-llama3-8b-instruct/int2-g128/checkpoint-1200", "epoch": 4.0, "eval_steps": 400, "global_step": 1200, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0033333333333333335, "grad_norm": 299081.625, "learning_rate": 8e-06, "loss": 4897.9277, "step": 1 }, { "epoch": 0.006666666666666667, "grad_norm": 149638.265625, "learning_rate": 8e-06, "loss": 2450.8735, "step": 2 }, { "epoch": 0.01, "grad_norm": 58717.53515625, "learning_rate": 8e-06, "loss": 948.5937, "step": 3 }, { "epoch": 0.013333333333333334, "grad_norm": 12207.1767578125, "learning_rate": 8e-06, "loss": 575.4004, "step": 4 }, { "epoch": 0.016666666666666666, "grad_norm": 27176.1953125, "learning_rate": 8e-06, "loss": 693.1818, "step": 5 }, { "epoch": 0.02, "grad_norm": 29369.60546875, "learning_rate": 8e-06, "loss": 615.2617, "step": 6 }, { "epoch": 0.023333333333333334, "grad_norm": 26989.28515625, "learning_rate": 8e-06, "loss": 642.2118, "step": 7 }, { "epoch": 0.02666666666666667, "grad_norm": 8187.20458984375, "learning_rate": 8e-06, "loss": 472.2585, "step": 8 }, { "epoch": 0.03, "grad_norm": 16044.2080078125, "learning_rate": 8e-06, "loss": 541.3935, "step": 9 }, { "epoch": 0.03333333333333333, "grad_norm": 45178.66015625, "learning_rate": 8e-06, "loss": 626.2382, "step": 10 }, { "epoch": 0.03666666666666667, "grad_norm": 17810.783203125, "learning_rate": 8e-06, "loss": 632.3056, "step": 11 }, { "epoch": 0.04, "grad_norm": 25976.498046875, "learning_rate": 8e-06, "loss": 625.1094, "step": 12 }, { "epoch": 0.043333333333333335, "grad_norm": 8909.4658203125, "learning_rate": 8e-06, "loss": 415.1552, "step": 13 }, { "epoch": 0.04666666666666667, "grad_norm": 8924.72265625, "learning_rate": 8e-06, "loss": 504.1435, "step": 14 }, { "epoch": 0.05, "grad_norm": 7251.72802734375, "learning_rate": 8e-06, "loss": 524.2874, "step": 15 }, { "epoch": 0.05333333333333334, "grad_norm": 8383.466796875, "learning_rate": 8e-06, "loss": 426.1407, "step": 16 }, { "epoch": 0.056666666666666664, "grad_norm": 5297.39208984375, "learning_rate": 8e-06, "loss": 399.9639, "step": 17 }, { "epoch": 0.06, "grad_norm": 25405.353515625, "learning_rate": 8e-06, "loss": 421.432, "step": 18 }, { "epoch": 0.06333333333333334, "grad_norm": 6101.39501953125, "learning_rate": 8e-06, "loss": 384.2199, "step": 19 }, { "epoch": 0.06666666666666667, "grad_norm": 5212.65478515625, "learning_rate": 8e-06, "loss": 369.6908, "step": 20 }, { "epoch": 0.07, "grad_norm": 15722.62890625, "learning_rate": 8e-06, "loss": 397.5793, "step": 21 }, { "epoch": 0.07333333333333333, "grad_norm": 15691.951171875, "learning_rate": 8e-06, "loss": 531.838, "step": 22 }, { "epoch": 0.07666666666666666, "grad_norm": 7032.90478515625, "learning_rate": 8e-06, "loss": 482.211, "step": 23 }, { "epoch": 0.08, "grad_norm": 6694.416015625, "learning_rate": 8e-06, "loss": 436.7674, "step": 24 }, { "epoch": 0.08333333333333333, "grad_norm": 6177.0830078125, "learning_rate": 8e-06, "loss": 376.6952, "step": 25 }, { "epoch": 0.08666666666666667, "grad_norm": 5572.80810546875, "learning_rate": 8e-06, "loss": 438.5435, "step": 26 }, { "epoch": 0.09, "grad_norm": 146623.140625, "learning_rate": 8e-06, "loss": 419.0643, "step": 27 }, { "epoch": 0.09333333333333334, "grad_norm": 4768.9677734375, "learning_rate": 8e-06, "loss": 332.2076, "step": 28 }, { "epoch": 0.09666666666666666, "grad_norm": 6839.39306640625, "learning_rate": 8e-06, "loss": 517.8188, "step": 29 }, { "epoch": 0.1, "grad_norm": 4564.12158203125, "learning_rate": 8e-06, "loss": 368.3604, "step": 30 }, { "epoch": 0.10333333333333333, "grad_norm": 4523.7734375, "learning_rate": 8e-06, "loss": 398.2078, "step": 31 }, { "epoch": 0.10666666666666667, "grad_norm": 4826.28759765625, "learning_rate": 8e-06, "loss": 364.3542, "step": 32 }, { "epoch": 0.11, "grad_norm": 5213.2578125, "learning_rate": 8e-06, "loss": 370.139, "step": 33 }, { "epoch": 0.11333333333333333, "grad_norm": 3500.7197265625, "learning_rate": 8e-06, "loss": 327.6242, "step": 34 }, { "epoch": 0.11666666666666667, "grad_norm": 5468.50146484375, "learning_rate": 8e-06, "loss": 427.5528, "step": 35 }, { "epoch": 0.12, "grad_norm": 12776.15625, "learning_rate": 8e-06, "loss": 482.9988, "step": 36 }, { "epoch": 0.12333333333333334, "grad_norm": 5042.4169921875, "learning_rate": 8e-06, "loss": 449.5488, "step": 37 }, { "epoch": 0.12666666666666668, "grad_norm": 4656.3017578125, "learning_rate": 8e-06, "loss": 422.8404, "step": 38 }, { "epoch": 0.13, "grad_norm": 4322.228515625, "learning_rate": 8e-06, "loss": 261.3572, "step": 39 }, { "epoch": 0.13333333333333333, "grad_norm": 7618.5537109375, "learning_rate": 8e-06, "loss": 409.1255, "step": 40 }, { "epoch": 0.13666666666666666, "grad_norm": 6758.10986328125, "learning_rate": 8e-06, "loss": 414.5503, "step": 41 }, { "epoch": 0.14, "grad_norm": 18122.6171875, "learning_rate": 8e-06, "loss": 364.9304, "step": 42 }, { "epoch": 0.14333333333333334, "grad_norm": 4081.0185546875, "learning_rate": 8e-06, "loss": 327.7346, "step": 43 }, { "epoch": 0.14666666666666667, "grad_norm": 6978.04296875, "learning_rate": 8e-06, "loss": 373.8395, "step": 44 }, { "epoch": 0.15, "grad_norm": 17885.078125, "learning_rate": 8e-06, "loss": 450.2648, "step": 45 }, { "epoch": 0.15333333333333332, "grad_norm": 3991.118408203125, "learning_rate": 8e-06, "loss": 423.3859, "step": 46 }, { "epoch": 0.15666666666666668, "grad_norm": 4963.15283203125, "learning_rate": 8e-06, "loss": 347.0266, "step": 47 }, { "epoch": 0.16, "grad_norm": 4146.677734375, "learning_rate": 8e-06, "loss": 293.8803, "step": 48 }, { "epoch": 0.16333333333333333, "grad_norm": 8551.7822265625, "learning_rate": 8e-06, "loss": 384.1107, "step": 49 }, { "epoch": 0.16666666666666666, "grad_norm": 6196.830078125, "learning_rate": 8e-06, "loss": 350.1491, "step": 50 }, { "epoch": 0.17, "grad_norm": 10965.498046875, "learning_rate": 8e-06, "loss": 360.0603, "step": 51 }, { "epoch": 0.17333333333333334, "grad_norm": 3580.333984375, "learning_rate": 8e-06, "loss": 363.9769, "step": 52 }, { "epoch": 0.17666666666666667, "grad_norm": 3962.866455078125, "learning_rate": 8e-06, "loss": 361.198, "step": 53 }, { "epoch": 0.18, "grad_norm": 5888.021484375, "learning_rate": 8e-06, "loss": 246.51, "step": 54 }, { "epoch": 0.18333333333333332, "grad_norm": 11651.341796875, "learning_rate": 8e-06, "loss": 374.5479, "step": 55 }, { "epoch": 0.18666666666666668, "grad_norm": 12411.435546875, "learning_rate": 8e-06, "loss": 405.4997, "step": 56 }, { "epoch": 0.19, "grad_norm": 5103.48779296875, "learning_rate": 8e-06, "loss": 390.2045, "step": 57 }, { "epoch": 0.19333333333333333, "grad_norm": 5316.8056640625, "learning_rate": 8e-06, "loss": 313.0942, "step": 58 }, { "epoch": 0.19666666666666666, "grad_norm": 3669.82177734375, "learning_rate": 8e-06, "loss": 297.0284, "step": 59 }, { "epoch": 0.2, "grad_norm": 5196.92578125, "learning_rate": 8e-06, "loss": 275.6656, "step": 60 }, { "epoch": 0.20333333333333334, "grad_norm": 3770.981201171875, "learning_rate": 8e-06, "loss": 327.3121, "step": 61 }, { "epoch": 0.20666666666666667, "grad_norm": 5351.9208984375, "learning_rate": 8e-06, "loss": 295.3929, "step": 62 }, { "epoch": 0.21, "grad_norm": 3593.324462890625, "learning_rate": 8e-06, "loss": 292.4643, "step": 63 }, { "epoch": 0.21333333333333335, "grad_norm": 7170.197265625, "learning_rate": 8e-06, "loss": 333.2579, "step": 64 }, { "epoch": 0.21666666666666667, "grad_norm": 5766.62744140625, "learning_rate": 8e-06, "loss": 294.0817, "step": 65 }, { "epoch": 0.22, "grad_norm": 7292.2900390625, "learning_rate": 8e-06, "loss": 277.0906, "step": 66 }, { "epoch": 0.22333333333333333, "grad_norm": 46524.85546875, "learning_rate": 8e-06, "loss": 451.188, "step": 67 }, { "epoch": 0.22666666666666666, "grad_norm": 10629.0888671875, "learning_rate": 8e-06, "loss": 258.6876, "step": 68 }, { "epoch": 0.23, "grad_norm": 3722.06884765625, "learning_rate": 8e-06, "loss": 285.6375, "step": 69 }, { "epoch": 0.23333333333333334, "grad_norm": 3225.382080078125, "learning_rate": 8e-06, "loss": 298.4425, "step": 70 }, { "epoch": 0.23666666666666666, "grad_norm": 3747.288818359375, "learning_rate": 8e-06, "loss": 375.9342, "step": 71 }, { "epoch": 0.24, "grad_norm": 4182.5576171875, "learning_rate": 8e-06, "loss": 341.6081, "step": 72 }, { "epoch": 0.24333333333333335, "grad_norm": 4203.4833984375, "learning_rate": 8e-06, "loss": 281.234, "step": 73 }, { "epoch": 0.24666666666666667, "grad_norm": 3273.578369140625, "learning_rate": 8e-06, "loss": 237.2037, "step": 74 }, { "epoch": 0.25, "grad_norm": 4801.87548828125, "learning_rate": 8e-06, "loss": 294.8515, "step": 75 }, { "epoch": 0.25333333333333335, "grad_norm": 3788.703369140625, "learning_rate": 8e-06, "loss": 272.4215, "step": 76 }, { "epoch": 0.25666666666666665, "grad_norm": 2901.314208984375, "learning_rate": 8e-06, "loss": 244.3135, "step": 77 }, { "epoch": 0.26, "grad_norm": 3690.60693359375, "learning_rate": 8e-06, "loss": 288.901, "step": 78 }, { "epoch": 0.2633333333333333, "grad_norm": 12020.3642578125, "learning_rate": 8e-06, "loss": 380.1544, "step": 79 }, { "epoch": 0.26666666666666666, "grad_norm": 2987.83251953125, "learning_rate": 8e-06, "loss": 294.5196, "step": 80 }, { "epoch": 0.27, "grad_norm": 3128.651123046875, "learning_rate": 8e-06, "loss": 244.4444, "step": 81 }, { "epoch": 0.2733333333333333, "grad_norm": 4437.48486328125, "learning_rate": 8e-06, "loss": 339.8995, "step": 82 }, { "epoch": 0.27666666666666667, "grad_norm": 3836.4892578125, "learning_rate": 8e-06, "loss": 320.7166, "step": 83 }, { "epoch": 0.28, "grad_norm": 42555.37890625, "learning_rate": 8e-06, "loss": 365.6827, "step": 84 }, { "epoch": 0.2833333333333333, "grad_norm": 3743.496826171875, "learning_rate": 8e-06, "loss": 329.7776, "step": 85 }, { "epoch": 0.2866666666666667, "grad_norm": 3429.26025390625, "learning_rate": 8e-06, "loss": 258.9485, "step": 86 }, { "epoch": 0.29, "grad_norm": 4343.1484375, "learning_rate": 8e-06, "loss": 253.2939, "step": 87 }, { "epoch": 0.29333333333333333, "grad_norm": 7510.67138671875, "learning_rate": 8e-06, "loss": 305.6551, "step": 88 }, { "epoch": 0.2966666666666667, "grad_norm": 3559.4248046875, "learning_rate": 8e-06, "loss": 303.0639, "step": 89 }, { "epoch": 0.3, "grad_norm": 3087.24951171875, "learning_rate": 8e-06, "loss": 307.8586, "step": 90 }, { "epoch": 0.30333333333333334, "grad_norm": 3745.066162109375, "learning_rate": 8e-06, "loss": 275.6919, "step": 91 }, { "epoch": 0.30666666666666664, "grad_norm": 3881.8662109375, "learning_rate": 8e-06, "loss": 323.7448, "step": 92 }, { "epoch": 0.31, "grad_norm": 9983.0576171875, "learning_rate": 8e-06, "loss": 341.0989, "step": 93 }, { "epoch": 0.31333333333333335, "grad_norm": 5191.8583984375, "learning_rate": 8e-06, "loss": 356.1661, "step": 94 }, { "epoch": 0.31666666666666665, "grad_norm": 4711.75244140625, "learning_rate": 8e-06, "loss": 252.5984, "step": 95 }, { "epoch": 0.32, "grad_norm": 11132.2822265625, "learning_rate": 8e-06, "loss": 306.9489, "step": 96 }, { "epoch": 0.3233333333333333, "grad_norm": 7833.5048828125, "learning_rate": 8e-06, "loss": 353.0605, "step": 97 }, { "epoch": 0.32666666666666666, "grad_norm": 4053.969482421875, "learning_rate": 8e-06, "loss": 352.1935, "step": 98 }, { "epoch": 0.33, "grad_norm": 3196.588623046875, "learning_rate": 8e-06, "loss": 254.189, "step": 99 }, { "epoch": 0.3333333333333333, "grad_norm": 3550.42919921875, "learning_rate": 8e-06, "loss": 331.9965, "step": 100 }, { "epoch": 0.33666666666666667, "grad_norm": 3798.58642578125, "learning_rate": 8e-06, "loss": 342.9701, "step": 101 }, { "epoch": 0.34, "grad_norm": 9407.2685546875, "learning_rate": 8e-06, "loss": 313.3018, "step": 102 }, { "epoch": 0.3433333333333333, "grad_norm": 2966.33056640625, "learning_rate": 8e-06, "loss": 276.61, "step": 103 }, { "epoch": 0.3466666666666667, "grad_norm": 69461.546875, "learning_rate": 8e-06, "loss": 383.5469, "step": 104 }, { "epoch": 0.35, "grad_norm": 5283.6376953125, "learning_rate": 8e-06, "loss": 407.8528, "step": 105 }, { "epoch": 0.35333333333333333, "grad_norm": 3203.443603515625, "learning_rate": 8e-06, "loss": 311.2915, "step": 106 }, { "epoch": 0.3566666666666667, "grad_norm": 3730.074951171875, "learning_rate": 8e-06, "loss": 275.8661, "step": 107 }, { "epoch": 0.36, "grad_norm": 3541.144287109375, "learning_rate": 8e-06, "loss": 278.4428, "step": 108 }, { "epoch": 0.36333333333333334, "grad_norm": 3837.410888671875, "learning_rate": 8e-06, "loss": 368.3663, "step": 109 }, { "epoch": 0.36666666666666664, "grad_norm": 3959.927978515625, "learning_rate": 8e-06, "loss": 391.5013, "step": 110 }, { "epoch": 0.37, "grad_norm": 3099.64404296875, "learning_rate": 8e-06, "loss": 264.178, "step": 111 }, { "epoch": 0.37333333333333335, "grad_norm": 3085.619384765625, "learning_rate": 8e-06, "loss": 295.9514, "step": 112 }, { "epoch": 0.37666666666666665, "grad_norm": 3134.65283203125, "learning_rate": 8e-06, "loss": 300.3761, "step": 113 }, { "epoch": 0.38, "grad_norm": 3622.12255859375, "learning_rate": 8e-06, "loss": 290.0009, "step": 114 }, { "epoch": 0.38333333333333336, "grad_norm": 3647.3486328125, "learning_rate": 8e-06, "loss": 270.3719, "step": 115 }, { "epoch": 0.38666666666666666, "grad_norm": 5578.8330078125, "learning_rate": 8e-06, "loss": 351.2977, "step": 116 }, { "epoch": 0.39, "grad_norm": 10896.5537109375, "learning_rate": 8e-06, "loss": 283.6028, "step": 117 }, { "epoch": 0.3933333333333333, "grad_norm": 3432.72900390625, "learning_rate": 8e-06, "loss": 250.7074, "step": 118 }, { "epoch": 0.39666666666666667, "grad_norm": 4871.3447265625, "learning_rate": 8e-06, "loss": 266.2117, "step": 119 }, { "epoch": 0.4, "grad_norm": 3179.614990234375, "learning_rate": 8e-06, "loss": 292.8347, "step": 120 }, { "epoch": 0.4033333333333333, "grad_norm": 4301.76123046875, "learning_rate": 8e-06, "loss": 353.7879, "step": 121 }, { "epoch": 0.4066666666666667, "grad_norm": 7787.93115234375, "learning_rate": 8e-06, "loss": 278.7324, "step": 122 }, { "epoch": 0.41, "grad_norm": 4184.16015625, "learning_rate": 8e-06, "loss": 354.6778, "step": 123 }, { "epoch": 0.41333333333333333, "grad_norm": 3175.350341796875, "learning_rate": 8e-06, "loss": 277.6086, "step": 124 }, { "epoch": 0.4166666666666667, "grad_norm": 28396.060546875, "learning_rate": 8e-06, "loss": 474.991, "step": 125 }, { "epoch": 0.42, "grad_norm": 3156.357421875, "learning_rate": 8e-06, "loss": 295.0091, "step": 126 }, { "epoch": 0.42333333333333334, "grad_norm": 5404.86328125, "learning_rate": 8e-06, "loss": 387.941, "step": 127 }, { "epoch": 0.4266666666666667, "grad_norm": 2757.193603515625, "learning_rate": 8e-06, "loss": 266.1871, "step": 128 }, { "epoch": 0.43, "grad_norm": 11914.0537109375, "learning_rate": 8e-06, "loss": 444.1031, "step": 129 }, { "epoch": 0.43333333333333335, "grad_norm": 3417.672607421875, "learning_rate": 8e-06, "loss": 302.7297, "step": 130 }, { "epoch": 0.43666666666666665, "grad_norm": 3607.97998046875, "learning_rate": 8e-06, "loss": 204.9096, "step": 131 }, { "epoch": 0.44, "grad_norm": 3770.42626953125, "learning_rate": 8e-06, "loss": 329.2759, "step": 132 }, { "epoch": 0.44333333333333336, "grad_norm": 3686.265380859375, "learning_rate": 8e-06, "loss": 316.2871, "step": 133 }, { "epoch": 0.44666666666666666, "grad_norm": 4291.43359375, "learning_rate": 8e-06, "loss": 286.6203, "step": 134 }, { "epoch": 0.45, "grad_norm": 3550.517333984375, "learning_rate": 8e-06, "loss": 322.8923, "step": 135 }, { "epoch": 0.4533333333333333, "grad_norm": 3850.011962890625, "learning_rate": 8e-06, "loss": 274.8848, "step": 136 }, { "epoch": 0.45666666666666667, "grad_norm": 5747.69140625, "learning_rate": 8e-06, "loss": 340.2192, "step": 137 }, { "epoch": 0.46, "grad_norm": 2855.41943359375, "learning_rate": 8e-06, "loss": 290.4051, "step": 138 }, { "epoch": 0.4633333333333333, "grad_norm": 3524.505859375, "learning_rate": 8e-06, "loss": 257.5426, "step": 139 }, { "epoch": 0.4666666666666667, "grad_norm": 4739.56298828125, "learning_rate": 8e-06, "loss": 255.8588, "step": 140 }, { "epoch": 0.47, "grad_norm": 3110.748046875, "learning_rate": 8e-06, "loss": 268.7426, "step": 141 }, { "epoch": 0.47333333333333333, "grad_norm": 3332.57958984375, "learning_rate": 8e-06, "loss": 297.3264, "step": 142 }, { "epoch": 0.4766666666666667, "grad_norm": 3208.52685546875, "learning_rate": 8e-06, "loss": 249.0137, "step": 143 }, { "epoch": 0.48, "grad_norm": 15584.43359375, "learning_rate": 8e-06, "loss": 269.6663, "step": 144 }, { "epoch": 0.48333333333333334, "grad_norm": 27723.552734375, "learning_rate": 8e-06, "loss": 286.3863, "step": 145 }, { "epoch": 0.4866666666666667, "grad_norm": 4074.123291015625, "learning_rate": 8e-06, "loss": 392.1979, "step": 146 }, { "epoch": 0.49, "grad_norm": 3560.1455078125, "learning_rate": 8e-06, "loss": 269.0158, "step": 147 }, { "epoch": 0.49333333333333335, "grad_norm": 3564.868408203125, "learning_rate": 8e-06, "loss": 316.9247, "step": 148 }, { "epoch": 0.49666666666666665, "grad_norm": 3976.566162109375, "learning_rate": 8e-06, "loss": 291.2782, "step": 149 }, { "epoch": 0.5, "grad_norm": 4100.13720703125, "learning_rate": 8e-06, "loss": 276.4059, "step": 150 }, { "epoch": 0.5033333333333333, "grad_norm": 2941.823974609375, "learning_rate": 8e-06, "loss": 261.7668, "step": 151 }, { "epoch": 0.5066666666666667, "grad_norm": 3383.001708984375, "learning_rate": 8e-06, "loss": 302.0899, "step": 152 }, { "epoch": 0.51, "grad_norm": 5256.3232421875, "learning_rate": 8e-06, "loss": 287.4728, "step": 153 }, { "epoch": 0.5133333333333333, "grad_norm": 3733.6240234375, "learning_rate": 8e-06, "loss": 251.2614, "step": 154 }, { "epoch": 0.5166666666666667, "grad_norm": 3867.15234375, "learning_rate": 8e-06, "loss": 352.7506, "step": 155 }, { "epoch": 0.52, "grad_norm": 3016.2265625, "learning_rate": 8e-06, "loss": 241.3634, "step": 156 }, { "epoch": 0.5233333333333333, "grad_norm": 3690.19189453125, "learning_rate": 8e-06, "loss": 322.1484, "step": 157 }, { "epoch": 0.5266666666666666, "grad_norm": 2867.7392578125, "learning_rate": 8e-06, "loss": 256.9736, "step": 158 }, { "epoch": 0.53, "grad_norm": 40280.43359375, "learning_rate": 8e-06, "loss": 329.875, "step": 159 }, { "epoch": 0.5333333333333333, "grad_norm": 3301.6806640625, "learning_rate": 8e-06, "loss": 304.6819, "step": 160 }, { "epoch": 0.5366666666666666, "grad_norm": 5835.25732421875, "learning_rate": 8e-06, "loss": 279.393, "step": 161 }, { "epoch": 0.54, "grad_norm": 3798.682861328125, "learning_rate": 8e-06, "loss": 313.3201, "step": 162 }, { "epoch": 0.5433333333333333, "grad_norm": 4291.4501953125, "learning_rate": 8e-06, "loss": 300.9011, "step": 163 }, { "epoch": 0.5466666666666666, "grad_norm": 3922.12451171875, "learning_rate": 8e-06, "loss": 351.2925, "step": 164 }, { "epoch": 0.55, "grad_norm": 3791.50341796875, "learning_rate": 8e-06, "loss": 325.6664, "step": 165 }, { "epoch": 0.5533333333333333, "grad_norm": 4051.289306640625, "learning_rate": 8e-06, "loss": 263.1725, "step": 166 }, { "epoch": 0.5566666666666666, "grad_norm": 3581.71142578125, "learning_rate": 8e-06, "loss": 250.4543, "step": 167 }, { "epoch": 0.56, "grad_norm": 3169.486083984375, "learning_rate": 8e-06, "loss": 294.2786, "step": 168 }, { "epoch": 0.5633333333333334, "grad_norm": 2631.362548828125, "learning_rate": 8e-06, "loss": 217.1984, "step": 169 }, { "epoch": 0.5666666666666667, "grad_norm": 2557.88134765625, "learning_rate": 8e-06, "loss": 239.9385, "step": 170 }, { "epoch": 0.57, "grad_norm": 10312.841796875, "learning_rate": 8e-06, "loss": 249.3919, "step": 171 }, { "epoch": 0.5733333333333334, "grad_norm": 3068.349853515625, "learning_rate": 8e-06, "loss": 234.3448, "step": 172 }, { "epoch": 0.5766666666666667, "grad_norm": 3917.5107421875, "learning_rate": 8e-06, "loss": 311.7297, "step": 173 }, { "epoch": 0.58, "grad_norm": 2701.498046875, "learning_rate": 8e-06, "loss": 210.6637, "step": 174 }, { "epoch": 0.5833333333333334, "grad_norm": 2945.10009765625, "learning_rate": 8e-06, "loss": 224.8564, "step": 175 }, { "epoch": 0.5866666666666667, "grad_norm": 5220.5654296875, "learning_rate": 8e-06, "loss": 247.0606, "step": 176 }, { "epoch": 0.59, "grad_norm": 5427.705078125, "learning_rate": 8e-06, "loss": 307.3244, "step": 177 }, { "epoch": 0.5933333333333334, "grad_norm": 3268.90087890625, "learning_rate": 8e-06, "loss": 267.0103, "step": 178 }, { "epoch": 0.5966666666666667, "grad_norm": 10908.9677734375, "learning_rate": 8e-06, "loss": 285.3419, "step": 179 }, { "epoch": 0.6, "grad_norm": 3789.08154296875, "learning_rate": 8e-06, "loss": 331.1101, "step": 180 }, { "epoch": 0.6033333333333334, "grad_norm": 3043.91552734375, "learning_rate": 8e-06, "loss": 308.622, "step": 181 }, { "epoch": 0.6066666666666667, "grad_norm": 4932.53564453125, "learning_rate": 8e-06, "loss": 322.7148, "step": 182 }, { "epoch": 0.61, "grad_norm": 3490.79833984375, "learning_rate": 8e-06, "loss": 309.721, "step": 183 }, { "epoch": 0.6133333333333333, "grad_norm": 11744.5546875, "learning_rate": 8e-06, "loss": 353.9744, "step": 184 }, { "epoch": 0.6166666666666667, "grad_norm": 5138.8125, "learning_rate": 8e-06, "loss": 381.9202, "step": 185 }, { "epoch": 0.62, "grad_norm": 3228.42236328125, "learning_rate": 8e-06, "loss": 259.5366, "step": 186 }, { "epoch": 0.6233333333333333, "grad_norm": 3402.6796875, "learning_rate": 8e-06, "loss": 321.2389, "step": 187 }, { "epoch": 0.6266666666666667, "grad_norm": 2996.648193359375, "learning_rate": 8e-06, "loss": 288.2106, "step": 188 }, { "epoch": 0.63, "grad_norm": 2826.81982421875, "learning_rate": 8e-06, "loss": 225.985, "step": 189 }, { "epoch": 0.6333333333333333, "grad_norm": 3551.96337890625, "learning_rate": 8e-06, "loss": 330.4437, "step": 190 }, { "epoch": 0.6366666666666667, "grad_norm": 3478.882568359375, "learning_rate": 8e-06, "loss": 336.5376, "step": 191 }, { "epoch": 0.64, "grad_norm": 4110.38134765625, "learning_rate": 8e-06, "loss": 261.2546, "step": 192 }, { "epoch": 0.6433333333333333, "grad_norm": 3620.785400390625, "learning_rate": 8e-06, "loss": 317.138, "step": 193 }, { "epoch": 0.6466666666666666, "grad_norm": 3330.638427734375, "learning_rate": 8e-06, "loss": 249.6132, "step": 194 }, { "epoch": 0.65, "grad_norm": 5665.078125, "learning_rate": 8e-06, "loss": 296.731, "step": 195 }, { "epoch": 0.6533333333333333, "grad_norm": 3430.8359375, "learning_rate": 8e-06, "loss": 292.0752, "step": 196 }, { "epoch": 0.6566666666666666, "grad_norm": 6075.54248046875, "learning_rate": 8e-06, "loss": 333.7978, "step": 197 }, { "epoch": 0.66, "grad_norm": 7324.5205078125, "learning_rate": 8e-06, "loss": 329.4111, "step": 198 }, { "epoch": 0.6633333333333333, "grad_norm": 2889.927490234375, "learning_rate": 8e-06, "loss": 241.07, "step": 199 }, { "epoch": 0.6666666666666666, "grad_norm": 4839.7412109375, "learning_rate": 8e-06, "loss": 291.9418, "step": 200 }, { "epoch": 0.67, "grad_norm": 3711.042236328125, "learning_rate": 8e-06, "loss": 312.4595, "step": 201 }, { "epoch": 0.6733333333333333, "grad_norm": 3562.346435546875, "learning_rate": 8e-06, "loss": 246.6008, "step": 202 }, { "epoch": 0.6766666666666666, "grad_norm": 2907.572021484375, "learning_rate": 8e-06, "loss": 255.3827, "step": 203 }, { "epoch": 0.68, "grad_norm": 8729.5048828125, "learning_rate": 8e-06, "loss": 297.4739, "step": 204 }, { "epoch": 0.6833333333333333, "grad_norm": 2872.552001953125, "learning_rate": 8e-06, "loss": 239.869, "step": 205 }, { "epoch": 0.6866666666666666, "grad_norm": 2916.447021484375, "learning_rate": 8e-06, "loss": 236.7443, "step": 206 }, { "epoch": 0.69, "grad_norm": 3551.052978515625, "learning_rate": 8e-06, "loss": 307.2638, "step": 207 }, { "epoch": 0.6933333333333334, "grad_norm": 3032.5380859375, "learning_rate": 8e-06, "loss": 277.9977, "step": 208 }, { "epoch": 0.6966666666666667, "grad_norm": 4455.4912109375, "learning_rate": 8e-06, "loss": 311.0144, "step": 209 }, { "epoch": 0.7, "grad_norm": 3393.73681640625, "learning_rate": 8e-06, "loss": 263.7961, "step": 210 }, { "epoch": 0.7033333333333334, "grad_norm": 2522.445556640625, "learning_rate": 8e-06, "loss": 226.4581, "step": 211 }, { "epoch": 0.7066666666666667, "grad_norm": 3028.45703125, "learning_rate": 8e-06, "loss": 281.5686, "step": 212 }, { "epoch": 0.71, "grad_norm": 2838.064697265625, "learning_rate": 8e-06, "loss": 269.2559, "step": 213 }, { "epoch": 0.7133333333333334, "grad_norm": 3279.972900390625, "learning_rate": 8e-06, "loss": 326.9465, "step": 214 }, { "epoch": 0.7166666666666667, "grad_norm": 2944.669189453125, "learning_rate": 8e-06, "loss": 242.4968, "step": 215 }, { "epoch": 0.72, "grad_norm": 3292.0029296875, "learning_rate": 8e-06, "loss": 291.0416, "step": 216 }, { "epoch": 0.7233333333333334, "grad_norm": 2995.833251953125, "learning_rate": 8e-06, "loss": 273.9235, "step": 217 }, { "epoch": 0.7266666666666667, "grad_norm": 3278.17822265625, "learning_rate": 8e-06, "loss": 248.1496, "step": 218 }, { "epoch": 0.73, "grad_norm": 3317.37451171875, "learning_rate": 8e-06, "loss": 342.4843, "step": 219 }, { "epoch": 0.7333333333333333, "grad_norm": 3103.078125, "learning_rate": 8e-06, "loss": 288.849, "step": 220 }, { "epoch": 0.7366666666666667, "grad_norm": 3102.86083984375, "learning_rate": 8e-06, "loss": 267.763, "step": 221 }, { "epoch": 0.74, "grad_norm": 3314.853271484375, "learning_rate": 8e-06, "loss": 292.4836, "step": 222 }, { "epoch": 0.7433333333333333, "grad_norm": 2515.840087890625, "learning_rate": 8e-06, "loss": 200.3891, "step": 223 }, { "epoch": 0.7466666666666667, "grad_norm": 2199.884765625, "learning_rate": 8e-06, "loss": 216.3481, "step": 224 }, { "epoch": 0.75, "grad_norm": 3209.211669921875, "learning_rate": 8e-06, "loss": 226.9698, "step": 225 }, { "epoch": 0.7533333333333333, "grad_norm": 2985.835693359375, "learning_rate": 8e-06, "loss": 274.5299, "step": 226 }, { "epoch": 0.7566666666666667, "grad_norm": 4339.10888671875, "learning_rate": 8e-06, "loss": 249.6611, "step": 227 }, { "epoch": 0.76, "grad_norm": 5717.1806640625, "learning_rate": 8e-06, "loss": 279.2451, "step": 228 }, { "epoch": 0.7633333333333333, "grad_norm": 1922.8037109375, "learning_rate": 8e-06, "loss": 163.3981, "step": 229 }, { "epoch": 0.7666666666666667, "grad_norm": 2883.223876953125, "learning_rate": 8e-06, "loss": 289.6681, "step": 230 }, { "epoch": 0.77, "grad_norm": 3146.4814453125, "learning_rate": 8e-06, "loss": 266.2442, "step": 231 }, { "epoch": 0.7733333333333333, "grad_norm": 2848.17724609375, "learning_rate": 8e-06, "loss": 241.1193, "step": 232 }, { "epoch": 0.7766666666666666, "grad_norm": 5164.63525390625, "learning_rate": 8e-06, "loss": 238.3128, "step": 233 }, { "epoch": 0.78, "grad_norm": 30185.416015625, "learning_rate": 8e-06, "loss": 338.5593, "step": 234 }, { "epoch": 0.7833333333333333, "grad_norm": 2669.078857421875, "learning_rate": 8e-06, "loss": 254.7147, "step": 235 }, { "epoch": 0.7866666666666666, "grad_norm": 3444.97607421875, "learning_rate": 8e-06, "loss": 283.7398, "step": 236 }, { "epoch": 0.79, "grad_norm": 3440.032958984375, "learning_rate": 8e-06, "loss": 319.4095, "step": 237 }, { "epoch": 0.7933333333333333, "grad_norm": 3022.367431640625, "learning_rate": 8e-06, "loss": 250.9974, "step": 238 }, { "epoch": 0.7966666666666666, "grad_norm": 3010.485595703125, "learning_rate": 8e-06, "loss": 274.7934, "step": 239 }, { "epoch": 0.8, "grad_norm": 2450.54052734375, "learning_rate": 8e-06, "loss": 211.3371, "step": 240 }, { "epoch": 0.8033333333333333, "grad_norm": 10314.9560546875, "learning_rate": 8e-06, "loss": 669.7935, "step": 241 }, { "epoch": 0.8066666666666666, "grad_norm": 3431.2255859375, "learning_rate": 8e-06, "loss": 226.4799, "step": 242 }, { "epoch": 0.81, "grad_norm": 3359.284912109375, "learning_rate": 8e-06, "loss": 356.0662, "step": 243 }, { "epoch": 0.8133333333333334, "grad_norm": 3586.3583984375, "learning_rate": 8e-06, "loss": 332.8689, "step": 244 }, { "epoch": 0.8166666666666667, "grad_norm": 8722.8349609375, "learning_rate": 8e-06, "loss": 255.4095, "step": 245 }, { "epoch": 0.82, "grad_norm": 2567.072509765625, "learning_rate": 8e-06, "loss": 240.3655, "step": 246 }, { "epoch": 0.8233333333333334, "grad_norm": 3487.963623046875, "learning_rate": 8e-06, "loss": 310.909, "step": 247 }, { "epoch": 0.8266666666666667, "grad_norm": 3218.185302734375, "learning_rate": 8e-06, "loss": 224.5296, "step": 248 }, { "epoch": 0.83, "grad_norm": 3100.22998046875, "learning_rate": 8e-06, "loss": 275.8154, "step": 249 }, { "epoch": 0.8333333333333334, "grad_norm": 2711.873779296875, "learning_rate": 8e-06, "loss": 245.1363, "step": 250 }, { "epoch": 0.8366666666666667, "grad_norm": 6701.63525390625, "learning_rate": 8e-06, "loss": 318.0585, "step": 251 }, { "epoch": 0.84, "grad_norm": 2469.4111328125, "learning_rate": 8e-06, "loss": 206.172, "step": 252 }, { "epoch": 0.8433333333333334, "grad_norm": 2929.555419921875, "learning_rate": 8e-06, "loss": 255.2601, "step": 253 }, { "epoch": 0.8466666666666667, "grad_norm": 3089.22900390625, "learning_rate": 8e-06, "loss": 275.1524, "step": 254 }, { "epoch": 0.85, "grad_norm": 3216.767578125, "learning_rate": 8e-06, "loss": 250.7503, "step": 255 }, { "epoch": 0.8533333333333334, "grad_norm": 2914.973876953125, "learning_rate": 8e-06, "loss": 258.4535, "step": 256 }, { "epoch": 0.8566666666666667, "grad_norm": 50174.5078125, "learning_rate": 8e-06, "loss": 609.7941, "step": 257 }, { "epoch": 0.86, "grad_norm": 3105.322998046875, "learning_rate": 8e-06, "loss": 335.5597, "step": 258 }, { "epoch": 0.8633333333333333, "grad_norm": 4548.2548828125, "learning_rate": 8e-06, "loss": 275.8671, "step": 259 }, { "epoch": 0.8666666666666667, "grad_norm": 2810.388916015625, "learning_rate": 8e-06, "loss": 263.3778, "step": 260 }, { "epoch": 0.87, "grad_norm": 4014.811767578125, "learning_rate": 8e-06, "loss": 281.3542, "step": 261 }, { "epoch": 0.8733333333333333, "grad_norm": 3318.468994140625, "learning_rate": 8e-06, "loss": 326.7267, "step": 262 }, { "epoch": 0.8766666666666667, "grad_norm": 21219.521484375, "learning_rate": 8e-06, "loss": 366.0864, "step": 263 }, { "epoch": 0.88, "grad_norm": 3987.22998046875, "learning_rate": 8e-06, "loss": 373.7441, "step": 264 }, { "epoch": 0.8833333333333333, "grad_norm": 3076.98876953125, "learning_rate": 8e-06, "loss": 315.7464, "step": 265 }, { "epoch": 0.8866666666666667, "grad_norm": 3121.901123046875, "learning_rate": 8e-06, "loss": 251.5838, "step": 266 }, { "epoch": 0.89, "grad_norm": 3203.251953125, "learning_rate": 8e-06, "loss": 342.4987, "step": 267 }, { "epoch": 0.8933333333333333, "grad_norm": 2980.89794921875, "learning_rate": 8e-06, "loss": 256.1788, "step": 268 }, { "epoch": 0.8966666666666666, "grad_norm": 2591.302490234375, "learning_rate": 8e-06, "loss": 219.8607, "step": 269 }, { "epoch": 0.9, "grad_norm": 2314.455078125, "learning_rate": 8e-06, "loss": 204.4726, "step": 270 }, { "epoch": 0.9033333333333333, "grad_norm": 2942.879150390625, "learning_rate": 8e-06, "loss": 254.1741, "step": 271 }, { "epoch": 0.9066666666666666, "grad_norm": 8133.71875, "learning_rate": 8e-06, "loss": 365.5086, "step": 272 }, { "epoch": 0.91, "grad_norm": 2597.53125, "learning_rate": 8e-06, "loss": 231.1918, "step": 273 }, { "epoch": 0.9133333333333333, "grad_norm": 7106.68994140625, "learning_rate": 8e-06, "loss": 267.6558, "step": 274 }, { "epoch": 0.9166666666666666, "grad_norm": 9943.7099609375, "learning_rate": 8e-06, "loss": 356.9215, "step": 275 }, { "epoch": 0.92, "grad_norm": 2935.984375, "learning_rate": 8e-06, "loss": 244.6402, "step": 276 }, { "epoch": 0.9233333333333333, "grad_norm": 2658.87744140625, "learning_rate": 8e-06, "loss": 255.5557, "step": 277 }, { "epoch": 0.9266666666666666, "grad_norm": 3075.70068359375, "learning_rate": 8e-06, "loss": 275.4171, "step": 278 }, { "epoch": 0.93, "grad_norm": 2404.6337890625, "learning_rate": 8e-06, "loss": 211.1503, "step": 279 }, { "epoch": 0.9333333333333333, "grad_norm": 2839.173583984375, "learning_rate": 8e-06, "loss": 260.4447, "step": 280 }, { "epoch": 0.9366666666666666, "grad_norm": 2812.916748046875, "learning_rate": 8e-06, "loss": 268.6677, "step": 281 }, { "epoch": 0.94, "grad_norm": 3363.776611328125, "learning_rate": 8e-06, "loss": 312.5987, "step": 282 }, { "epoch": 0.9433333333333334, "grad_norm": 2543.073974609375, "learning_rate": 8e-06, "loss": 205.9395, "step": 283 }, { "epoch": 0.9466666666666667, "grad_norm": 4796.2236328125, "learning_rate": 8e-06, "loss": 195.7359, "step": 284 }, { "epoch": 0.95, "grad_norm": 2741.69140625, "learning_rate": 8e-06, "loss": 233.1778, "step": 285 }, { "epoch": 0.9533333333333334, "grad_norm": 2493.708984375, "learning_rate": 8e-06, "loss": 207.12, "step": 286 }, { "epoch": 0.9566666666666667, "grad_norm": 26911.68359375, "learning_rate": 8e-06, "loss": 235.8838, "step": 287 }, { "epoch": 0.96, "grad_norm": 2865.230224609375, "learning_rate": 8e-06, "loss": 234.9224, "step": 288 }, { "epoch": 0.9633333333333334, "grad_norm": 3929.42431640625, "learning_rate": 8e-06, "loss": 301.713, "step": 289 }, { "epoch": 0.9666666666666667, "grad_norm": 3091.3818359375, "learning_rate": 8e-06, "loss": 266.6574, "step": 290 }, { "epoch": 0.97, "grad_norm": 2879.42822265625, "learning_rate": 8e-06, "loss": 226.4114, "step": 291 }, { "epoch": 0.9733333333333334, "grad_norm": 4383.98876953125, "learning_rate": 8e-06, "loss": 283.6816, "step": 292 }, { "epoch": 0.9766666666666667, "grad_norm": 6967.61376953125, "learning_rate": 8e-06, "loss": 292.857, "step": 293 }, { "epoch": 0.98, "grad_norm": 2490.9794921875, "learning_rate": 8e-06, "loss": 221.0435, "step": 294 }, { "epoch": 0.9833333333333333, "grad_norm": 4937.3935546875, "learning_rate": 8e-06, "loss": 488.6658, "step": 295 }, { "epoch": 0.9866666666666667, "grad_norm": 11989.2177734375, "learning_rate": 8e-06, "loss": 250.2168, "step": 296 }, { "epoch": 0.99, "grad_norm": 3021.28076171875, "learning_rate": 8e-06, "loss": 238.7066, "step": 297 }, { "epoch": 0.9933333333333333, "grad_norm": 2585.99072265625, "learning_rate": 8e-06, "loss": 231.4611, "step": 298 }, { "epoch": 0.9966666666666667, "grad_norm": 3125.06298828125, "learning_rate": 8e-06, "loss": 276.1064, "step": 299 }, { "epoch": 1.0, "grad_norm": 2861.87255859375, "learning_rate": 8e-06, "loss": 291.5585, "step": 300 }, { "epoch": 1.0033333333333334, "grad_norm": 1895.1048583984375, "learning_rate": 8e-06, "loss": 175.189, "step": 301 }, { "epoch": 1.0066666666666666, "grad_norm": 2189.89501953125, "learning_rate": 8e-06, "loss": 183.5457, "step": 302 }, { "epoch": 1.01, "grad_norm": 3206.24609375, "learning_rate": 8e-06, "loss": 138.4382, "step": 303 }, { "epoch": 1.0133333333333334, "grad_norm": 2248.70947265625, "learning_rate": 8e-06, "loss": 193.5868, "step": 304 }, { "epoch": 1.0166666666666666, "grad_norm": 2114.16064453125, "learning_rate": 8e-06, "loss": 182.4887, "step": 305 }, { "epoch": 1.02, "grad_norm": 2053.282958984375, "learning_rate": 8e-06, "loss": 161.4878, "step": 306 }, { "epoch": 1.0233333333333334, "grad_norm": 3352.9658203125, "learning_rate": 8e-06, "loss": 198.5755, "step": 307 }, { "epoch": 1.0266666666666666, "grad_norm": 2226.722900390625, "learning_rate": 8e-06, "loss": 190.7063, "step": 308 }, { "epoch": 1.03, "grad_norm": 1648.5791015625, "learning_rate": 8e-06, "loss": 123.5357, "step": 309 }, { "epoch": 1.0333333333333334, "grad_norm": 4348.27880859375, "learning_rate": 8e-06, "loss": 148.0692, "step": 310 }, { "epoch": 1.0366666666666666, "grad_norm": 2404.052734375, "learning_rate": 8e-06, "loss": 199.4967, "step": 311 }, { "epoch": 1.04, "grad_norm": 2040.4388427734375, "learning_rate": 8e-06, "loss": 155.1767, "step": 312 }, { "epoch": 1.0433333333333334, "grad_norm": 2209.615966796875, "learning_rate": 8e-06, "loss": 157.1001, "step": 313 }, { "epoch": 1.0466666666666666, "grad_norm": 2587.216552734375, "learning_rate": 8e-06, "loss": 187.8506, "step": 314 }, { "epoch": 1.05, "grad_norm": 2105.357421875, "learning_rate": 8e-06, "loss": 171.9885, "step": 315 }, { "epoch": 1.0533333333333332, "grad_norm": 2170.13134765625, "learning_rate": 8e-06, "loss": 179.4087, "step": 316 }, { "epoch": 1.0566666666666666, "grad_norm": 2668.26416015625, "learning_rate": 8e-06, "loss": 154.123, "step": 317 }, { "epoch": 1.06, "grad_norm": 1891.8875732421875, "learning_rate": 8e-06, "loss": 145.8987, "step": 318 }, { "epoch": 1.0633333333333332, "grad_norm": 2365.20947265625, "learning_rate": 8e-06, "loss": 181.9857, "step": 319 }, { "epoch": 1.0666666666666667, "grad_norm": 1698.6849365234375, "learning_rate": 8e-06, "loss": 153.0071, "step": 320 }, { "epoch": 1.07, "grad_norm": 2976.96630859375, "learning_rate": 8e-06, "loss": 248.4191, "step": 321 }, { "epoch": 1.0733333333333333, "grad_norm": 3645.52001953125, "learning_rate": 8e-06, "loss": 192.0311, "step": 322 }, { "epoch": 1.0766666666666667, "grad_norm": 3383.41845703125, "learning_rate": 8e-06, "loss": 205.9243, "step": 323 }, { "epoch": 1.08, "grad_norm": 3263.815673828125, "learning_rate": 8e-06, "loss": 182.2533, "step": 324 }, { "epoch": 1.0833333333333333, "grad_norm": 2388.34619140625, "learning_rate": 8e-06, "loss": 207.0549, "step": 325 }, { "epoch": 1.0866666666666667, "grad_norm": 2643.72607421875, "learning_rate": 8e-06, "loss": 142.6037, "step": 326 }, { "epoch": 1.09, "grad_norm": 1558.873046875, "learning_rate": 8e-06, "loss": 144.7025, "step": 327 }, { "epoch": 1.0933333333333333, "grad_norm": 1525.6187744140625, "learning_rate": 8e-06, "loss": 147.5978, "step": 328 }, { "epoch": 1.0966666666666667, "grad_norm": 3101.341796875, "learning_rate": 8e-06, "loss": 208.2214, "step": 329 }, { "epoch": 1.1, "grad_norm": 3434.76318359375, "learning_rate": 8e-06, "loss": 171.8323, "step": 330 }, { "epoch": 1.1033333333333333, "grad_norm": 2345.912109375, "learning_rate": 8e-06, "loss": 173.9656, "step": 331 }, { "epoch": 1.1066666666666667, "grad_norm": 2904.48486328125, "learning_rate": 8e-06, "loss": 209.2182, "step": 332 }, { "epoch": 1.11, "grad_norm": 44378.8125, "learning_rate": 8e-06, "loss": 230.725, "step": 333 }, { "epoch": 1.1133333333333333, "grad_norm": 2872.51953125, "learning_rate": 8e-06, "loss": 196.8287, "step": 334 }, { "epoch": 1.1166666666666667, "grad_norm": 1854.2708740234375, "learning_rate": 8e-06, "loss": 147.5028, "step": 335 }, { "epoch": 1.12, "grad_norm": 2004.066650390625, "learning_rate": 8e-06, "loss": 158.9952, "step": 336 }, { "epoch": 1.1233333333333333, "grad_norm": 1941.7972412109375, "learning_rate": 8e-06, "loss": 162.1854, "step": 337 }, { "epoch": 1.1266666666666667, "grad_norm": 3790.82421875, "learning_rate": 8e-06, "loss": 173.7075, "step": 338 }, { "epoch": 1.13, "grad_norm": 1688.8963623046875, "learning_rate": 8e-06, "loss": 161.2739, "step": 339 }, { "epoch": 1.1333333333333333, "grad_norm": 7499.4072265625, "learning_rate": 8e-06, "loss": 273.9813, "step": 340 }, { "epoch": 1.1366666666666667, "grad_norm": 2189.1640625, "learning_rate": 8e-06, "loss": 163.4938, "step": 341 }, { "epoch": 1.1400000000000001, "grad_norm": 5174.5224609375, "learning_rate": 8e-06, "loss": 400.8041, "step": 342 }, { "epoch": 1.1433333333333333, "grad_norm": 1861.2803955078125, "learning_rate": 8e-06, "loss": 158.2274, "step": 343 }, { "epoch": 1.1466666666666667, "grad_norm": 2114.91357421875, "learning_rate": 8e-06, "loss": 177.6065, "step": 344 }, { "epoch": 1.15, "grad_norm": 1970.2086181640625, "learning_rate": 8e-06, "loss": 153.7169, "step": 345 }, { "epoch": 1.1533333333333333, "grad_norm": 2626.900146484375, "learning_rate": 8e-06, "loss": 180.7556, "step": 346 }, { "epoch": 1.1566666666666667, "grad_norm": 3540.03515625, "learning_rate": 8e-06, "loss": 171.7078, "step": 347 }, { "epoch": 1.16, "grad_norm": 1578.1788330078125, "learning_rate": 8e-06, "loss": 144.226, "step": 348 }, { "epoch": 1.1633333333333333, "grad_norm": 7222.56787109375, "learning_rate": 8e-06, "loss": 238.0032, "step": 349 }, { "epoch": 1.1666666666666667, "grad_norm": 2714.17626953125, "learning_rate": 8e-06, "loss": 167.6138, "step": 350 }, { "epoch": 1.17, "grad_norm": 1841.9884033203125, "learning_rate": 8e-06, "loss": 156.3762, "step": 351 }, { "epoch": 1.1733333333333333, "grad_norm": 7967.734375, "learning_rate": 8e-06, "loss": 227.3331, "step": 352 }, { "epoch": 1.1766666666666667, "grad_norm": 11436.859375, "learning_rate": 8e-06, "loss": 169.6624, "step": 353 }, { "epoch": 1.18, "grad_norm": 2799.8349609375, "learning_rate": 8e-06, "loss": 183.4581, "step": 354 }, { "epoch": 1.1833333333333333, "grad_norm": 2907.432373046875, "learning_rate": 8e-06, "loss": 169.9039, "step": 355 }, { "epoch": 1.1866666666666668, "grad_norm": 11866.5888671875, "learning_rate": 8e-06, "loss": 161.033, "step": 356 }, { "epoch": 1.19, "grad_norm": 2143.69921875, "learning_rate": 8e-06, "loss": 190.2374, "step": 357 }, { "epoch": 1.1933333333333334, "grad_norm": 1848.9957275390625, "learning_rate": 8e-06, "loss": 176.4111, "step": 358 }, { "epoch": 1.1966666666666668, "grad_norm": 8630.7529296875, "learning_rate": 8e-06, "loss": 206.7687, "step": 359 }, { "epoch": 1.2, "grad_norm": 1870.1104736328125, "learning_rate": 8e-06, "loss": 150.893, "step": 360 }, { "epoch": 1.2033333333333334, "grad_norm": 2022.3304443359375, "learning_rate": 8e-06, "loss": 132.6389, "step": 361 }, { "epoch": 1.2066666666666666, "grad_norm": 2723.172607421875, "learning_rate": 8e-06, "loss": 197.7227, "step": 362 }, { "epoch": 1.21, "grad_norm": 2092.636474609375, "learning_rate": 8e-06, "loss": 166.2974, "step": 363 }, { "epoch": 1.2133333333333334, "grad_norm": 1803.07470703125, "learning_rate": 8e-06, "loss": 151.6591, "step": 364 }, { "epoch": 1.2166666666666668, "grad_norm": 17976.8359375, "learning_rate": 8e-06, "loss": 222.8886, "step": 365 }, { "epoch": 1.22, "grad_norm": 1973.697021484375, "learning_rate": 8e-06, "loss": 167.9204, "step": 366 }, { "epoch": 1.2233333333333334, "grad_norm": 1902.6009521484375, "learning_rate": 8e-06, "loss": 151.387, "step": 367 }, { "epoch": 1.2266666666666666, "grad_norm": 2344.799072265625, "learning_rate": 8e-06, "loss": 181.4625, "step": 368 }, { "epoch": 1.23, "grad_norm": 2430.619384765625, "learning_rate": 8e-06, "loss": 146.4991, "step": 369 }, { "epoch": 1.2333333333333334, "grad_norm": 2040.2552490234375, "learning_rate": 8e-06, "loss": 191.2448, "step": 370 }, { "epoch": 1.2366666666666666, "grad_norm": 2257.688232421875, "learning_rate": 8e-06, "loss": 182.9387, "step": 371 }, { "epoch": 1.24, "grad_norm": 2836.457275390625, "learning_rate": 8e-06, "loss": 186.8855, "step": 372 }, { "epoch": 1.2433333333333334, "grad_norm": 2124.9765625, "learning_rate": 8e-06, "loss": 158.6163, "step": 373 }, { "epoch": 1.2466666666666666, "grad_norm": 22002.81640625, "learning_rate": 8e-06, "loss": 182.2663, "step": 374 }, { "epoch": 1.25, "grad_norm": 2080.9013671875, "learning_rate": 8e-06, "loss": 179.1773, "step": 375 }, { "epoch": 1.2533333333333334, "grad_norm": 4354.05322265625, "learning_rate": 8e-06, "loss": 225.1475, "step": 376 }, { "epoch": 1.2566666666666666, "grad_norm": 2766.34765625, "learning_rate": 8e-06, "loss": 210.0997, "step": 377 }, { "epoch": 1.26, "grad_norm": 1744.378662109375, "learning_rate": 8e-06, "loss": 170.8285, "step": 378 }, { "epoch": 1.2633333333333332, "grad_norm": 2115.197265625, "learning_rate": 8e-06, "loss": 193.0526, "step": 379 }, { "epoch": 1.2666666666666666, "grad_norm": 2450.997314453125, "learning_rate": 8e-06, "loss": 172.2764, "step": 380 }, { "epoch": 1.27, "grad_norm": 2132.5625, "learning_rate": 8e-06, "loss": 202.299, "step": 381 }, { "epoch": 1.2733333333333334, "grad_norm": 2344.452880859375, "learning_rate": 8e-06, "loss": 201.1546, "step": 382 }, { "epoch": 1.2766666666666666, "grad_norm": 2655.98486328125, "learning_rate": 8e-06, "loss": 162.0153, "step": 383 }, { "epoch": 1.28, "grad_norm": 3715.317138671875, "learning_rate": 8e-06, "loss": 217.4261, "step": 384 }, { "epoch": 1.2833333333333332, "grad_norm": 2676.864501953125, "learning_rate": 8e-06, "loss": 149.2692, "step": 385 }, { "epoch": 1.2866666666666666, "grad_norm": 9804.2158203125, "learning_rate": 8e-06, "loss": 239.9565, "step": 386 }, { "epoch": 1.29, "grad_norm": 2503.278076171875, "learning_rate": 8e-06, "loss": 202.9038, "step": 387 }, { "epoch": 1.2933333333333334, "grad_norm": 1728.56201171875, "learning_rate": 8e-06, "loss": 150.0894, "step": 388 }, { "epoch": 1.2966666666666666, "grad_norm": 1782.750732421875, "learning_rate": 8e-06, "loss": 153.3394, "step": 389 }, { "epoch": 1.3, "grad_norm": 2454.009765625, "learning_rate": 8e-06, "loss": 201.5603, "step": 390 }, { "epoch": 1.3033333333333332, "grad_norm": 2001.5255126953125, "learning_rate": 8e-06, "loss": 166.6791, "step": 391 }, { "epoch": 1.3066666666666666, "grad_norm": 2414.639404296875, "learning_rate": 8e-06, "loss": 215.8665, "step": 392 }, { "epoch": 1.31, "grad_norm": 4586.7958984375, "learning_rate": 8e-06, "loss": 181.3715, "step": 393 }, { "epoch": 1.3133333333333335, "grad_norm": 1631.7193603515625, "learning_rate": 8e-06, "loss": 140.6186, "step": 394 }, { "epoch": 1.3166666666666667, "grad_norm": 2084.684814453125, "learning_rate": 8e-06, "loss": 188.1181, "step": 395 }, { "epoch": 1.32, "grad_norm": 2033.9609375, "learning_rate": 8e-06, "loss": 149.5855, "step": 396 }, { "epoch": 1.3233333333333333, "grad_norm": 2032.2508544921875, "learning_rate": 8e-06, "loss": 174.703, "step": 397 }, { "epoch": 1.3266666666666667, "grad_norm": 1617.00146484375, "learning_rate": 8e-06, "loss": 133.2466, "step": 398 }, { "epoch": 1.33, "grad_norm": 27432.53125, "learning_rate": 8e-06, "loss": 593.2298, "step": 399 }, { "epoch": 1.3333333333333333, "grad_norm": 10125.828125, "learning_rate": 8e-06, "loss": 229.5127, "step": 400 }, { "epoch": 1.3333333333333333, "eval_loss": 282.9708557128906, "eval_runtime": 856.6328, "eval_samples_per_second": 2.101, "eval_steps_per_second": 1.051, "step": 400 }, { "epoch": 1.3366666666666667, "grad_norm": 3012.62255859375, "learning_rate": 8e-06, "loss": 159.2788, "step": 401 }, { "epoch": 1.34, "grad_norm": 1775.7852783203125, "learning_rate": 8e-06, "loss": 151.6165, "step": 402 }, { "epoch": 1.3433333333333333, "grad_norm": 2409.974365234375, "learning_rate": 8e-06, "loss": 190.6473, "step": 403 }, { "epoch": 1.3466666666666667, "grad_norm": 2992.13818359375, "learning_rate": 8e-06, "loss": 165.084, "step": 404 }, { "epoch": 1.35, "grad_norm": 3485.1181640625, "learning_rate": 8e-06, "loss": 160.9989, "step": 405 }, { "epoch": 1.3533333333333333, "grad_norm": 2118.489990234375, "learning_rate": 8e-06, "loss": 183.7959, "step": 406 }, { "epoch": 1.3566666666666667, "grad_norm": 10115.9580078125, "learning_rate": 8e-06, "loss": 224.9091, "step": 407 }, { "epoch": 1.3599999999999999, "grad_norm": 3513.64306640625, "learning_rate": 8e-06, "loss": 177.9569, "step": 408 }, { "epoch": 1.3633333333333333, "grad_norm": 2064.371826171875, "learning_rate": 8e-06, "loss": 161.2645, "step": 409 }, { "epoch": 1.3666666666666667, "grad_norm": 1680.4442138671875, "learning_rate": 8e-06, "loss": 148.034, "step": 410 }, { "epoch": 1.37, "grad_norm": 2255.190673828125, "learning_rate": 8e-06, "loss": 202.835, "step": 411 }, { "epoch": 1.3733333333333333, "grad_norm": 11578.634765625, "learning_rate": 8e-06, "loss": 147.8881, "step": 412 }, { "epoch": 1.3766666666666667, "grad_norm": 2191.87548828125, "learning_rate": 8e-06, "loss": 203.6141, "step": 413 }, { "epoch": 1.38, "grad_norm": 1836.796630859375, "learning_rate": 8e-06, "loss": 165.2415, "step": 414 }, { "epoch": 1.3833333333333333, "grad_norm": 2470.1103515625, "learning_rate": 8e-06, "loss": 174.4177, "step": 415 }, { "epoch": 1.3866666666666667, "grad_norm": 4922.85693359375, "learning_rate": 8e-06, "loss": 198.8384, "step": 416 }, { "epoch": 1.3900000000000001, "grad_norm": 2375.222412109375, "learning_rate": 8e-06, "loss": 212.8037, "step": 417 }, { "epoch": 1.3933333333333333, "grad_norm": 5317.0908203125, "learning_rate": 8e-06, "loss": 180.0162, "step": 418 }, { "epoch": 1.3966666666666667, "grad_norm": 1953.235107421875, "learning_rate": 8e-06, "loss": 176.0956, "step": 419 }, { "epoch": 1.4, "grad_norm": 2860.262451171875, "learning_rate": 8e-06, "loss": 202.9857, "step": 420 }, { "epoch": 1.4033333333333333, "grad_norm": 2885.9921875, "learning_rate": 8e-06, "loss": 182.2745, "step": 421 }, { "epoch": 1.4066666666666667, "grad_norm": 2907.427978515625, "learning_rate": 8e-06, "loss": 219.0796, "step": 422 }, { "epoch": 1.41, "grad_norm": 1964.21533203125, "learning_rate": 8e-06, "loss": 167.3661, "step": 423 }, { "epoch": 1.4133333333333333, "grad_norm": 1727.44873046875, "learning_rate": 8e-06, "loss": 144.6872, "step": 424 }, { "epoch": 1.4166666666666667, "grad_norm": 2090.8955078125, "learning_rate": 8e-06, "loss": 147.7673, "step": 425 }, { "epoch": 1.42, "grad_norm": 1892.08056640625, "learning_rate": 8e-06, "loss": 172.1414, "step": 426 }, { "epoch": 1.4233333333333333, "grad_norm": 2421.4716796875, "learning_rate": 8e-06, "loss": 137.9185, "step": 427 }, { "epoch": 1.4266666666666667, "grad_norm": 4119.71630859375, "learning_rate": 8e-06, "loss": 208.5695, "step": 428 }, { "epoch": 1.43, "grad_norm": 101917.8671875, "learning_rate": 8e-06, "loss": 285.0583, "step": 429 }, { "epoch": 1.4333333333333333, "grad_norm": 1792.384033203125, "learning_rate": 8e-06, "loss": 164.6562, "step": 430 }, { "epoch": 1.4366666666666665, "grad_norm": 2680.8701171875, "learning_rate": 8e-06, "loss": 161.7598, "step": 431 }, { "epoch": 1.44, "grad_norm": 2844.314208984375, "learning_rate": 8e-06, "loss": 183.6607, "step": 432 }, { "epoch": 1.4433333333333334, "grad_norm": 2875.23193359375, "learning_rate": 8e-06, "loss": 203.2717, "step": 433 }, { "epoch": 1.4466666666666668, "grad_norm": 2254.956787109375, "learning_rate": 8e-06, "loss": 232.2297, "step": 434 }, { "epoch": 1.45, "grad_norm": 2095.884033203125, "learning_rate": 8e-06, "loss": 155.5794, "step": 435 }, { "epoch": 1.4533333333333334, "grad_norm": 2171.238037109375, "learning_rate": 8e-06, "loss": 181.0814, "step": 436 }, { "epoch": 1.4566666666666666, "grad_norm": 4359.90234375, "learning_rate": 8e-06, "loss": 213.6469, "step": 437 }, { "epoch": 1.46, "grad_norm": 2418.025146484375, "learning_rate": 8e-06, "loss": 169.5107, "step": 438 }, { "epoch": 1.4633333333333334, "grad_norm": 2879.6689453125, "learning_rate": 8e-06, "loss": 223.5063, "step": 439 }, { "epoch": 1.4666666666666668, "grad_norm": 2349.777099609375, "learning_rate": 8e-06, "loss": 181.2596, "step": 440 }, { "epoch": 1.47, "grad_norm": 2260.34423828125, "learning_rate": 8e-06, "loss": 181.6681, "step": 441 }, { "epoch": 1.4733333333333334, "grad_norm": 2301.9609375, "learning_rate": 8e-06, "loss": 169.7167, "step": 442 }, { "epoch": 1.4766666666666666, "grad_norm": 2042.8990478515625, "learning_rate": 8e-06, "loss": 161.6211, "step": 443 }, { "epoch": 1.48, "grad_norm": 1656.9332275390625, "learning_rate": 8e-06, "loss": 144.9184, "step": 444 }, { "epoch": 1.4833333333333334, "grad_norm": 3178.647705078125, "learning_rate": 8e-06, "loss": 173.4807, "step": 445 }, { "epoch": 1.4866666666666668, "grad_norm": 1940.889892578125, "learning_rate": 8e-06, "loss": 153.0618, "step": 446 }, { "epoch": 1.49, "grad_norm": 2604.650390625, "learning_rate": 8e-06, "loss": 202.1064, "step": 447 }, { "epoch": 1.4933333333333334, "grad_norm": 2094.173583984375, "learning_rate": 8e-06, "loss": 170.3328, "step": 448 }, { "epoch": 1.4966666666666666, "grad_norm": 2210.40771484375, "learning_rate": 8e-06, "loss": 197.5099, "step": 449 }, { "epoch": 1.5, "grad_norm": 7563.06591796875, "learning_rate": 8e-06, "loss": 170.226, "step": 450 }, { "epoch": 1.5033333333333334, "grad_norm": 1776.3701171875, "learning_rate": 8e-06, "loss": 185.4063, "step": 451 }, { "epoch": 1.5066666666666668, "grad_norm": 1850.83056640625, "learning_rate": 8e-06, "loss": 191.5097, "step": 452 }, { "epoch": 1.51, "grad_norm": 2090.9013671875, "learning_rate": 8e-06, "loss": 175.2754, "step": 453 }, { "epoch": 1.5133333333333332, "grad_norm": 2191.100830078125, "learning_rate": 8e-06, "loss": 181.2789, "step": 454 }, { "epoch": 1.5166666666666666, "grad_norm": 1596.8277587890625, "learning_rate": 8e-06, "loss": 144.9332, "step": 455 }, { "epoch": 1.52, "grad_norm": 2124.211181640625, "learning_rate": 8e-06, "loss": 166.4356, "step": 456 }, { "epoch": 1.5233333333333334, "grad_norm": 2037.772216796875, "learning_rate": 8e-06, "loss": 150.603, "step": 457 }, { "epoch": 1.5266666666666666, "grad_norm": 3271.727783203125, "learning_rate": 8e-06, "loss": 176.4925, "step": 458 }, { "epoch": 1.53, "grad_norm": 48445.62890625, "learning_rate": 8e-06, "loss": 383.918, "step": 459 }, { "epoch": 1.5333333333333332, "grad_norm": 2072.277099609375, "learning_rate": 8e-06, "loss": 158.4182, "step": 460 }, { "epoch": 1.5366666666666666, "grad_norm": 1764.2037353515625, "learning_rate": 8e-06, "loss": 156.9812, "step": 461 }, { "epoch": 1.54, "grad_norm": 2082.84375, "learning_rate": 8e-06, "loss": 147.9546, "step": 462 }, { "epoch": 1.5433333333333334, "grad_norm": 1895.2977294921875, "learning_rate": 8e-06, "loss": 195.1376, "step": 463 }, { "epoch": 1.5466666666666666, "grad_norm": 3616.126953125, "learning_rate": 8e-06, "loss": 164.8048, "step": 464 }, { "epoch": 1.55, "grad_norm": 2584.40283203125, "learning_rate": 8e-06, "loss": 172.4984, "step": 465 }, { "epoch": 1.5533333333333332, "grad_norm": 2501.74169921875, "learning_rate": 8e-06, "loss": 167.9393, "step": 466 }, { "epoch": 1.5566666666666666, "grad_norm": 1743.8760986328125, "learning_rate": 8e-06, "loss": 133.5256, "step": 467 }, { "epoch": 1.56, "grad_norm": 2896.204345703125, "learning_rate": 8e-06, "loss": 201.8696, "step": 468 }, { "epoch": 1.5633333333333335, "grad_norm": 2155.779296875, "learning_rate": 8e-06, "loss": 157.6537, "step": 469 }, { "epoch": 1.5666666666666667, "grad_norm": 2158.2490234375, "learning_rate": 8e-06, "loss": 172.2711, "step": 470 }, { "epoch": 1.5699999999999998, "grad_norm": 2482.66357421875, "learning_rate": 8e-06, "loss": 166.426, "step": 471 }, { "epoch": 1.5733333333333333, "grad_norm": 2437.72509765625, "learning_rate": 8e-06, "loss": 204.3992, "step": 472 }, { "epoch": 1.5766666666666667, "grad_norm": 2023.183837890625, "learning_rate": 8e-06, "loss": 139.7697, "step": 473 }, { "epoch": 1.58, "grad_norm": 1853.008544921875, "learning_rate": 8e-06, "loss": 155.7142, "step": 474 }, { "epoch": 1.5833333333333335, "grad_norm": 2049.85546875, "learning_rate": 8e-06, "loss": 125.7788, "step": 475 }, { "epoch": 1.5866666666666667, "grad_norm": 2151.17529296875, "learning_rate": 8e-06, "loss": 174.0001, "step": 476 }, { "epoch": 1.5899999999999999, "grad_norm": 1931.64453125, "learning_rate": 8e-06, "loss": 152.9574, "step": 477 }, { "epoch": 1.5933333333333333, "grad_norm": 2370.313720703125, "learning_rate": 8e-06, "loss": 127.5246, "step": 478 }, { "epoch": 1.5966666666666667, "grad_norm": 2164.80810546875, "learning_rate": 8e-06, "loss": 165.4399, "step": 479 }, { "epoch": 1.6, "grad_norm": 1820.36083984375, "learning_rate": 8e-06, "loss": 175.4782, "step": 480 }, { "epoch": 1.6033333333333335, "grad_norm": 16873.576171875, "learning_rate": 8e-06, "loss": 230.0637, "step": 481 }, { "epoch": 1.6066666666666667, "grad_norm": 1746.5850830078125, "learning_rate": 8e-06, "loss": 140.269, "step": 482 }, { "epoch": 1.6099999999999999, "grad_norm": 2072.251953125, "learning_rate": 8e-06, "loss": 171.9086, "step": 483 }, { "epoch": 1.6133333333333333, "grad_norm": 176337.734375, "learning_rate": 8e-06, "loss": 444.9861, "step": 484 }, { "epoch": 1.6166666666666667, "grad_norm": 2377.791259765625, "learning_rate": 8e-06, "loss": 158.927, "step": 485 }, { "epoch": 1.62, "grad_norm": 2648.470458984375, "learning_rate": 8e-06, "loss": 184.6893, "step": 486 }, { "epoch": 1.6233333333333333, "grad_norm": 7976.63427734375, "learning_rate": 8e-06, "loss": 187.7707, "step": 487 }, { "epoch": 1.6266666666666667, "grad_norm": 2438.31103515625, "learning_rate": 8e-06, "loss": 173.1316, "step": 488 }, { "epoch": 1.63, "grad_norm": 1666.070556640625, "learning_rate": 8e-06, "loss": 160.3404, "step": 489 }, { "epoch": 1.6333333333333333, "grad_norm": 3138.111572265625, "learning_rate": 8e-06, "loss": 184.9305, "step": 490 }, { "epoch": 1.6366666666666667, "grad_norm": 2130.50146484375, "learning_rate": 8e-06, "loss": 171.1389, "step": 491 }, { "epoch": 1.6400000000000001, "grad_norm": 1836.3660888671875, "learning_rate": 8e-06, "loss": 130.7209, "step": 492 }, { "epoch": 1.6433333333333333, "grad_norm": 1365.61376953125, "learning_rate": 8e-06, "loss": 124.9125, "step": 493 }, { "epoch": 1.6466666666666665, "grad_norm": 3320.72998046875, "learning_rate": 8e-06, "loss": 182.0857, "step": 494 }, { "epoch": 1.65, "grad_norm": 1599.5006103515625, "learning_rate": 8e-06, "loss": 139.4691, "step": 495 }, { "epoch": 1.6533333333333333, "grad_norm": 2964.45947265625, "learning_rate": 8e-06, "loss": 192.7783, "step": 496 }, { "epoch": 1.6566666666666667, "grad_norm": 2563.791259765625, "learning_rate": 8e-06, "loss": 195.6123, "step": 497 }, { "epoch": 1.6600000000000001, "grad_norm": 2092.328125, "learning_rate": 8e-06, "loss": 169.5192, "step": 498 }, { "epoch": 1.6633333333333333, "grad_norm": 1922.743896484375, "learning_rate": 8e-06, "loss": 165.4237, "step": 499 }, { "epoch": 1.6666666666666665, "grad_norm": 2732.639892578125, "learning_rate": 8e-06, "loss": 221.3114, "step": 500 }, { "epoch": 1.67, "grad_norm": 2133.735107421875, "learning_rate": 8e-06, "loss": 174.369, "step": 501 }, { "epoch": 1.6733333333333333, "grad_norm": 1700.1793212890625, "learning_rate": 8e-06, "loss": 149.7767, "step": 502 }, { "epoch": 1.6766666666666667, "grad_norm": 1650.5919189453125, "learning_rate": 8e-06, "loss": 172.0403, "step": 503 }, { "epoch": 1.6800000000000002, "grad_norm": 1783.216064453125, "learning_rate": 8e-06, "loss": 166.5345, "step": 504 }, { "epoch": 1.6833333333333333, "grad_norm": 2281.06982421875, "learning_rate": 8e-06, "loss": 183.2507, "step": 505 }, { "epoch": 1.6866666666666665, "grad_norm": 2589.958740234375, "learning_rate": 8e-06, "loss": 192.0384, "step": 506 }, { "epoch": 1.69, "grad_norm": 5324.01416015625, "learning_rate": 8e-06, "loss": 228.5024, "step": 507 }, { "epoch": 1.6933333333333334, "grad_norm": 2082.757568359375, "learning_rate": 8e-06, "loss": 168.0666, "step": 508 }, { "epoch": 1.6966666666666668, "grad_norm": 3569.548095703125, "learning_rate": 8e-06, "loss": 202.1297, "step": 509 }, { "epoch": 1.7, "grad_norm": 2333.125244140625, "learning_rate": 8e-06, "loss": 157.0771, "step": 510 }, { "epoch": 1.7033333333333334, "grad_norm": 2063.491943359375, "learning_rate": 8e-06, "loss": 164.1692, "step": 511 }, { "epoch": 1.7066666666666666, "grad_norm": 1988.2403564453125, "learning_rate": 8e-06, "loss": 152.9757, "step": 512 }, { "epoch": 1.71, "grad_norm": 3374.164794921875, "learning_rate": 8e-06, "loss": 187.9239, "step": 513 }, { "epoch": 1.7133333333333334, "grad_norm": 1725.946533203125, "learning_rate": 8e-06, "loss": 148.2257, "step": 514 }, { "epoch": 1.7166666666666668, "grad_norm": 1991.826904296875, "learning_rate": 8e-06, "loss": 157.7233, "step": 515 }, { "epoch": 1.72, "grad_norm": 2110.306884765625, "learning_rate": 8e-06, "loss": 145.0476, "step": 516 }, { "epoch": 1.7233333333333334, "grad_norm": 3402.83056640625, "learning_rate": 8e-06, "loss": 189.1095, "step": 517 }, { "epoch": 1.7266666666666666, "grad_norm": 1921.84423828125, "learning_rate": 8e-06, "loss": 183.6954, "step": 518 }, { "epoch": 1.73, "grad_norm": 1666.6932373046875, "learning_rate": 8e-06, "loss": 162.8129, "step": 519 }, { "epoch": 1.7333333333333334, "grad_norm": 1836.007568359375, "learning_rate": 8e-06, "loss": 181.8143, "step": 520 }, { "epoch": 1.7366666666666668, "grad_norm": 3976.889892578125, "learning_rate": 8e-06, "loss": 171.8505, "step": 521 }, { "epoch": 1.74, "grad_norm": 1986.572998046875, "learning_rate": 8e-06, "loss": 167.6448, "step": 522 }, { "epoch": 1.7433333333333332, "grad_norm": 1995.6435546875, "learning_rate": 8e-06, "loss": 191.2361, "step": 523 }, { "epoch": 1.7466666666666666, "grad_norm": 2225.221923828125, "learning_rate": 8e-06, "loss": 208.3215, "step": 524 }, { "epoch": 1.75, "grad_norm": 2081.197998046875, "learning_rate": 8e-06, "loss": 163.0927, "step": 525 }, { "epoch": 1.7533333333333334, "grad_norm": 1844.3660888671875, "learning_rate": 8e-06, "loss": 166.7268, "step": 526 }, { "epoch": 1.7566666666666668, "grad_norm": 1607.2025146484375, "learning_rate": 8e-06, "loss": 158.2042, "step": 527 }, { "epoch": 1.76, "grad_norm": 2093.40673828125, "learning_rate": 8e-06, "loss": 207.5303, "step": 528 }, { "epoch": 1.7633333333333332, "grad_norm": 1926.264892578125, "learning_rate": 8e-06, "loss": 158.3108, "step": 529 }, { "epoch": 1.7666666666666666, "grad_norm": 3158.77734375, "learning_rate": 8e-06, "loss": 205.1217, "step": 530 }, { "epoch": 1.77, "grad_norm": 3237.943359375, "learning_rate": 8e-06, "loss": 227.7727, "step": 531 }, { "epoch": 1.7733333333333334, "grad_norm": 2330.94775390625, "learning_rate": 8e-06, "loss": 166.952, "step": 532 }, { "epoch": 1.7766666666666666, "grad_norm": 2124.118408203125, "learning_rate": 8e-06, "loss": 184.2727, "step": 533 }, { "epoch": 1.78, "grad_norm": 2608.2041015625, "learning_rate": 8e-06, "loss": 184.2567, "step": 534 }, { "epoch": 1.7833333333333332, "grad_norm": 82545.234375, "learning_rate": 8e-06, "loss": 263.6479, "step": 535 }, { "epoch": 1.7866666666666666, "grad_norm": 2418.788818359375, "learning_rate": 8e-06, "loss": 180.5526, "step": 536 }, { "epoch": 1.79, "grad_norm": 1933.655517578125, "learning_rate": 8e-06, "loss": 156.1871, "step": 537 }, { "epoch": 1.7933333333333334, "grad_norm": 2151.745361328125, "learning_rate": 8e-06, "loss": 130.2346, "step": 538 }, { "epoch": 1.7966666666666666, "grad_norm": 2990.4052734375, "learning_rate": 8e-06, "loss": 187.0549, "step": 539 }, { "epoch": 1.8, "grad_norm": 3288.891357421875, "learning_rate": 8e-06, "loss": 157.9175, "step": 540 }, { "epoch": 1.8033333333333332, "grad_norm": 1840.6514892578125, "learning_rate": 8e-06, "loss": 145.2132, "step": 541 }, { "epoch": 1.8066666666666666, "grad_norm": 3679.103515625, "learning_rate": 8e-06, "loss": 188.3875, "step": 542 }, { "epoch": 1.81, "grad_norm": 16968.365234375, "learning_rate": 8e-06, "loss": 205.7764, "step": 543 }, { "epoch": 1.8133333333333335, "grad_norm": 3148.380615234375, "learning_rate": 8e-06, "loss": 189.5049, "step": 544 }, { "epoch": 1.8166666666666667, "grad_norm": 1827.2548828125, "learning_rate": 8e-06, "loss": 154.2148, "step": 545 }, { "epoch": 1.8199999999999998, "grad_norm": 1814.88232421875, "learning_rate": 8e-06, "loss": 133.9529, "step": 546 }, { "epoch": 1.8233333333333333, "grad_norm": 2587.741455078125, "learning_rate": 8e-06, "loss": 145.4079, "step": 547 }, { "epoch": 1.8266666666666667, "grad_norm": 1647.722900390625, "learning_rate": 8e-06, "loss": 167.6373, "step": 548 }, { "epoch": 1.83, "grad_norm": 1892.9091796875, "learning_rate": 8e-06, "loss": 182.79, "step": 549 }, { "epoch": 1.8333333333333335, "grad_norm": 1783.653564453125, "learning_rate": 8e-06, "loss": 143.4793, "step": 550 }, { "epoch": 1.8366666666666667, "grad_norm": 5507.533203125, "learning_rate": 8e-06, "loss": 194.087, "step": 551 }, { "epoch": 1.8399999999999999, "grad_norm": 9519.95703125, "learning_rate": 8e-06, "loss": 183.6715, "step": 552 }, { "epoch": 1.8433333333333333, "grad_norm": 2050.432373046875, "learning_rate": 8e-06, "loss": 183.5788, "step": 553 }, { "epoch": 1.8466666666666667, "grad_norm": 33634.6953125, "learning_rate": 8e-06, "loss": 589.509, "step": 554 }, { "epoch": 1.85, "grad_norm": 2702.313720703125, "learning_rate": 8e-06, "loss": 206.9411, "step": 555 }, { "epoch": 1.8533333333333335, "grad_norm": 1955.1455078125, "learning_rate": 8e-06, "loss": 184.4851, "step": 556 }, { "epoch": 1.8566666666666667, "grad_norm": 2086.965576171875, "learning_rate": 8e-06, "loss": 163.7623, "step": 557 }, { "epoch": 1.8599999999999999, "grad_norm": 2290.885009765625, "learning_rate": 8e-06, "loss": 180.0004, "step": 558 }, { "epoch": 1.8633333333333333, "grad_norm": 2561.19873046875, "learning_rate": 8e-06, "loss": 178.2596, "step": 559 }, { "epoch": 1.8666666666666667, "grad_norm": 1969.3897705078125, "learning_rate": 8e-06, "loss": 168.5457, "step": 560 }, { "epoch": 1.87, "grad_norm": 2148.949462890625, "learning_rate": 8e-06, "loss": 192.3326, "step": 561 }, { "epoch": 1.8733333333333333, "grad_norm": 2056.060791015625, "learning_rate": 8e-06, "loss": 138.5616, "step": 562 }, { "epoch": 1.8766666666666667, "grad_norm": 1542.1502685546875, "learning_rate": 8e-06, "loss": 134.0084, "step": 563 }, { "epoch": 1.88, "grad_norm": 2459.717041015625, "learning_rate": 8e-06, "loss": 147.9213, "step": 564 }, { "epoch": 1.8833333333333333, "grad_norm": 2720.8681640625, "learning_rate": 8e-06, "loss": 165.7043, "step": 565 }, { "epoch": 1.8866666666666667, "grad_norm": 2913.6435546875, "learning_rate": 8e-06, "loss": 235.3023, "step": 566 }, { "epoch": 1.8900000000000001, "grad_norm": 4042.34228515625, "learning_rate": 8e-06, "loss": 144.223, "step": 567 }, { "epoch": 1.8933333333333333, "grad_norm": 2377.74072265625, "learning_rate": 8e-06, "loss": 199.585, "step": 568 }, { "epoch": 1.8966666666666665, "grad_norm": 2974.247802734375, "learning_rate": 8e-06, "loss": 180.4202, "step": 569 }, { "epoch": 1.9, "grad_norm": 2473.316650390625, "learning_rate": 8e-06, "loss": 192.3658, "step": 570 }, { "epoch": 1.9033333333333333, "grad_norm": 3129.60595703125, "learning_rate": 8e-06, "loss": 156.669, "step": 571 }, { "epoch": 1.9066666666666667, "grad_norm": 3374.810546875, "learning_rate": 8e-06, "loss": 168.7177, "step": 572 }, { "epoch": 1.9100000000000001, "grad_norm": 2261.082275390625, "learning_rate": 8e-06, "loss": 191.2776, "step": 573 }, { "epoch": 1.9133333333333333, "grad_norm": 2176.280517578125, "learning_rate": 8e-06, "loss": 215.0109, "step": 574 }, { "epoch": 1.9166666666666665, "grad_norm": 1649.1036376953125, "learning_rate": 8e-06, "loss": 151.2731, "step": 575 }, { "epoch": 1.92, "grad_norm": 3465.714111328125, "learning_rate": 8e-06, "loss": 313.962, "step": 576 }, { "epoch": 1.9233333333333333, "grad_norm": 1735.416259765625, "learning_rate": 8e-06, "loss": 134.0693, "step": 577 }, { "epoch": 1.9266666666666667, "grad_norm": 1879.34130859375, "learning_rate": 8e-06, "loss": 170.3584, "step": 578 }, { "epoch": 1.9300000000000002, "grad_norm": 2120.559326171875, "learning_rate": 8e-06, "loss": 151.4335, "step": 579 }, { "epoch": 1.9333333333333333, "grad_norm": 1694.056640625, "learning_rate": 8e-06, "loss": 151.1551, "step": 580 }, { "epoch": 1.9366666666666665, "grad_norm": 1927.02734375, "learning_rate": 8e-06, "loss": 191.0919, "step": 581 }, { "epoch": 1.94, "grad_norm": 2036.642578125, "learning_rate": 8e-06, "loss": 181.714, "step": 582 }, { "epoch": 1.9433333333333334, "grad_norm": 1685.2396240234375, "learning_rate": 8e-06, "loss": 138.7952, "step": 583 }, { "epoch": 1.9466666666666668, "grad_norm": 1855.4345703125, "learning_rate": 8e-06, "loss": 154.0075, "step": 584 }, { "epoch": 1.95, "grad_norm": 2088.48388671875, "learning_rate": 8e-06, "loss": 146.8001, "step": 585 }, { "epoch": 1.9533333333333334, "grad_norm": 6678.10791015625, "learning_rate": 8e-06, "loss": 203.3128, "step": 586 }, { "epoch": 1.9566666666666666, "grad_norm": 2472.193359375, "learning_rate": 8e-06, "loss": 143.7792, "step": 587 }, { "epoch": 1.96, "grad_norm": 2192.246826171875, "learning_rate": 8e-06, "loss": 200.7935, "step": 588 }, { "epoch": 1.9633333333333334, "grad_norm": 2112.46044921875, "learning_rate": 8e-06, "loss": 167.1109, "step": 589 }, { "epoch": 1.9666666666666668, "grad_norm": 2718.529296875, "learning_rate": 8e-06, "loss": 158.1499, "step": 590 }, { "epoch": 1.97, "grad_norm": 2105.776611328125, "learning_rate": 8e-06, "loss": 204.0821, "step": 591 }, { "epoch": 1.9733333333333334, "grad_norm": 6692.474609375, "learning_rate": 8e-06, "loss": 208.9566, "step": 592 }, { "epoch": 1.9766666666666666, "grad_norm": 2157.894775390625, "learning_rate": 8e-06, "loss": 187.6069, "step": 593 }, { "epoch": 1.98, "grad_norm": 1727.661376953125, "learning_rate": 8e-06, "loss": 152.1291, "step": 594 }, { "epoch": 1.9833333333333334, "grad_norm": 3749.360595703125, "learning_rate": 8e-06, "loss": 227.8881, "step": 595 }, { "epoch": 1.9866666666666668, "grad_norm": 1814.2344970703125, "learning_rate": 8e-06, "loss": 146.5783, "step": 596 }, { "epoch": 1.99, "grad_norm": 3674.33642578125, "learning_rate": 8e-06, "loss": 226.204, "step": 597 }, { "epoch": 1.9933333333333332, "grad_norm": 1787.3858642578125, "learning_rate": 8e-06, "loss": 160.9511, "step": 598 }, { "epoch": 1.9966666666666666, "grad_norm": 2074.641845703125, "learning_rate": 8e-06, "loss": 158.478, "step": 599 }, { "epoch": 2.0, "grad_norm": 3868.880859375, "learning_rate": 8e-06, "loss": 286.6745, "step": 600 }, { "epoch": 2.0033333333333334, "grad_norm": 1556.2646484375, "learning_rate": 8e-06, "loss": 136.8504, "step": 601 }, { "epoch": 2.006666666666667, "grad_norm": 1204.3673095703125, "learning_rate": 8e-06, "loss": 100.6773, "step": 602 }, { "epoch": 2.01, "grad_norm": 1558.851806640625, "learning_rate": 8e-06, "loss": 136.7052, "step": 603 }, { "epoch": 2.013333333333333, "grad_norm": 1879.329345703125, "learning_rate": 8e-06, "loss": 129.5214, "step": 604 }, { "epoch": 2.0166666666666666, "grad_norm": 1791.66064453125, "learning_rate": 8e-06, "loss": 107.3147, "step": 605 }, { "epoch": 2.02, "grad_norm": 1631.0894775390625, "learning_rate": 8e-06, "loss": 130.3522, "step": 606 }, { "epoch": 2.0233333333333334, "grad_norm": 1531.7685546875, "learning_rate": 8e-06, "loss": 122.5682, "step": 607 }, { "epoch": 2.026666666666667, "grad_norm": 1472.6488037109375, "learning_rate": 8e-06, "loss": 129.8733, "step": 608 }, { "epoch": 2.03, "grad_norm": 2434.40087890625, "learning_rate": 8e-06, "loss": 129.6405, "step": 609 }, { "epoch": 2.033333333333333, "grad_norm": 1989.21875, "learning_rate": 8e-06, "loss": 133.372, "step": 610 }, { "epoch": 2.0366666666666666, "grad_norm": 2003.641845703125, "learning_rate": 8e-06, "loss": 118.8046, "step": 611 }, { "epoch": 2.04, "grad_norm": 1416.8846435546875, "learning_rate": 8e-06, "loss": 127.314, "step": 612 }, { "epoch": 2.0433333333333334, "grad_norm": 2230.67822265625, "learning_rate": 8e-06, "loss": 145.6762, "step": 613 }, { "epoch": 2.046666666666667, "grad_norm": 1904.8175048828125, "learning_rate": 8e-06, "loss": 125.6758, "step": 614 }, { "epoch": 2.05, "grad_norm": 1482.5469970703125, "learning_rate": 8e-06, "loss": 120.2969, "step": 615 }, { "epoch": 2.0533333333333332, "grad_norm": 1504.982421875, "learning_rate": 8e-06, "loss": 135.3738, "step": 616 }, { "epoch": 2.0566666666666666, "grad_norm": 2493.294189453125, "learning_rate": 8e-06, "loss": 158.0207, "step": 617 }, { "epoch": 2.06, "grad_norm": 2075.63330078125, "learning_rate": 8e-06, "loss": 139.6178, "step": 618 }, { "epoch": 2.0633333333333335, "grad_norm": 1750.9154052734375, "learning_rate": 8e-06, "loss": 113.3567, "step": 619 }, { "epoch": 2.066666666666667, "grad_norm": 3303.998291015625, "learning_rate": 8e-06, "loss": 138.6855, "step": 620 }, { "epoch": 2.07, "grad_norm": 1713.556640625, "learning_rate": 8e-06, "loss": 123.509, "step": 621 }, { "epoch": 2.0733333333333333, "grad_norm": 1440.22900390625, "learning_rate": 8e-06, "loss": 133.6415, "step": 622 }, { "epoch": 2.0766666666666667, "grad_norm": 1712.7186279296875, "learning_rate": 8e-06, "loss": 112.414, "step": 623 }, { "epoch": 2.08, "grad_norm": 1547.916015625, "learning_rate": 8e-06, "loss": 99.3051, "step": 624 }, { "epoch": 2.0833333333333335, "grad_norm": 1357.4639892578125, "learning_rate": 8e-06, "loss": 102.1604, "step": 625 }, { "epoch": 2.086666666666667, "grad_norm": 2283.520751953125, "learning_rate": 8e-06, "loss": 135.3398, "step": 626 }, { "epoch": 2.09, "grad_norm": 3901.62841796875, "learning_rate": 8e-06, "loss": 113.6724, "step": 627 }, { "epoch": 2.0933333333333333, "grad_norm": 11078.9599609375, "learning_rate": 8e-06, "loss": 237.9257, "step": 628 }, { "epoch": 2.0966666666666667, "grad_norm": 1299.328369140625, "learning_rate": 8e-06, "loss": 103.6248, "step": 629 }, { "epoch": 2.1, "grad_norm": 1578.59716796875, "learning_rate": 8e-06, "loss": 122.5945, "step": 630 }, { "epoch": 2.1033333333333335, "grad_norm": 2289.77685546875, "learning_rate": 8e-06, "loss": 137.9359, "step": 631 }, { "epoch": 2.1066666666666665, "grad_norm": 1983.411865234375, "learning_rate": 8e-06, "loss": 110.5755, "step": 632 }, { "epoch": 2.11, "grad_norm": 2308.76708984375, "learning_rate": 8e-06, "loss": 190.6613, "step": 633 }, { "epoch": 2.1133333333333333, "grad_norm": 1503.8245849609375, "learning_rate": 8e-06, "loss": 135.3405, "step": 634 }, { "epoch": 2.1166666666666667, "grad_norm": 1573.3255615234375, "learning_rate": 8e-06, "loss": 106.384, "step": 635 }, { "epoch": 2.12, "grad_norm": 1972.5081787109375, "learning_rate": 8e-06, "loss": 130.452, "step": 636 }, { "epoch": 2.1233333333333335, "grad_norm": 1524.6993408203125, "learning_rate": 8e-06, "loss": 140.8059, "step": 637 }, { "epoch": 2.1266666666666665, "grad_norm": 1921.386474609375, "learning_rate": 8e-06, "loss": 145.1599, "step": 638 }, { "epoch": 2.13, "grad_norm": 1535.875244140625, "learning_rate": 8e-06, "loss": 116.4942, "step": 639 }, { "epoch": 2.1333333333333333, "grad_norm": 1928.425537109375, "learning_rate": 8e-06, "loss": 129.5353, "step": 640 }, { "epoch": 2.1366666666666667, "grad_norm": 1415.85546875, "learning_rate": 8e-06, "loss": 125.7305, "step": 641 }, { "epoch": 2.14, "grad_norm": 2280.470458984375, "learning_rate": 8e-06, "loss": 144.4786, "step": 642 }, { "epoch": 2.1433333333333335, "grad_norm": 2156.9013671875, "learning_rate": 8e-06, "loss": 148.5764, "step": 643 }, { "epoch": 2.1466666666666665, "grad_norm": 1581.927734375, "learning_rate": 8e-06, "loss": 130.3042, "step": 644 }, { "epoch": 2.15, "grad_norm": 1953.165283203125, "learning_rate": 8e-06, "loss": 120.4, "step": 645 }, { "epoch": 2.1533333333333333, "grad_norm": 1893.3292236328125, "learning_rate": 8e-06, "loss": 119.8747, "step": 646 }, { "epoch": 2.1566666666666667, "grad_norm": 1703.091064453125, "learning_rate": 8e-06, "loss": 120.6234, "step": 647 }, { "epoch": 2.16, "grad_norm": 1269.4962158203125, "learning_rate": 8e-06, "loss": 101.0687, "step": 648 }, { "epoch": 2.163333333333333, "grad_norm": 3250.052978515625, "learning_rate": 8e-06, "loss": 129.6145, "step": 649 }, { "epoch": 2.1666666666666665, "grad_norm": 1386.7431640625, "learning_rate": 8e-06, "loss": 114.622, "step": 650 }, { "epoch": 2.17, "grad_norm": 28121.013671875, "learning_rate": 8e-06, "loss": 423.4986, "step": 651 }, { "epoch": 2.1733333333333333, "grad_norm": 4357.61181640625, "learning_rate": 8e-06, "loss": 153.7993, "step": 652 }, { "epoch": 2.1766666666666667, "grad_norm": 2452.100341796875, "learning_rate": 8e-06, "loss": 124.2542, "step": 653 }, { "epoch": 2.18, "grad_norm": 1478.061279296875, "learning_rate": 8e-06, "loss": 119.1345, "step": 654 }, { "epoch": 2.183333333333333, "grad_norm": 1180.8251953125, "learning_rate": 8e-06, "loss": 103.0584, "step": 655 }, { "epoch": 2.1866666666666665, "grad_norm": 1370.6693115234375, "learning_rate": 8e-06, "loss": 129.9872, "step": 656 }, { "epoch": 2.19, "grad_norm": 2820.5439453125, "learning_rate": 8e-06, "loss": 95.2142, "step": 657 }, { "epoch": 2.1933333333333334, "grad_norm": 1722.82275390625, "learning_rate": 8e-06, "loss": 131.7362, "step": 658 }, { "epoch": 2.1966666666666668, "grad_norm": 1720.507568359375, "learning_rate": 8e-06, "loss": 125.437, "step": 659 }, { "epoch": 2.2, "grad_norm": 2826.442626953125, "learning_rate": 8e-06, "loss": 125.1029, "step": 660 }, { "epoch": 2.203333333333333, "grad_norm": 5743.2529296875, "learning_rate": 8e-06, "loss": 607.4863, "step": 661 }, { "epoch": 2.2066666666666666, "grad_norm": 2595.774658203125, "learning_rate": 8e-06, "loss": 129.4419, "step": 662 }, { "epoch": 2.21, "grad_norm": 1331.5777587890625, "learning_rate": 8e-06, "loss": 105.7767, "step": 663 }, { "epoch": 2.2133333333333334, "grad_norm": 20789.24609375, "learning_rate": 8e-06, "loss": 153.9794, "step": 664 }, { "epoch": 2.216666666666667, "grad_norm": 1877.037109375, "learning_rate": 8e-06, "loss": 138.423, "step": 665 }, { "epoch": 2.22, "grad_norm": 1901.5697021484375, "learning_rate": 8e-06, "loss": 206.4459, "step": 666 }, { "epoch": 2.223333333333333, "grad_norm": 1588.9552001953125, "learning_rate": 8e-06, "loss": 117.6874, "step": 667 }, { "epoch": 2.2266666666666666, "grad_norm": 1554.6837158203125, "learning_rate": 8e-06, "loss": 149.7417, "step": 668 }, { "epoch": 2.23, "grad_norm": 2007.1231689453125, "learning_rate": 8e-06, "loss": 130.9421, "step": 669 }, { "epoch": 2.2333333333333334, "grad_norm": 1852.6959228515625, "learning_rate": 8e-06, "loss": 143.383, "step": 670 }, { "epoch": 2.236666666666667, "grad_norm": 1841.0206298828125, "learning_rate": 8e-06, "loss": 129.1616, "step": 671 }, { "epoch": 2.24, "grad_norm": 1295.876953125, "learning_rate": 8e-06, "loss": 112.3037, "step": 672 }, { "epoch": 2.243333333333333, "grad_norm": 1568.910888671875, "learning_rate": 8e-06, "loss": 140.6588, "step": 673 }, { "epoch": 2.2466666666666666, "grad_norm": 1314.6630859375, "learning_rate": 8e-06, "loss": 130.3549, "step": 674 }, { "epoch": 2.25, "grad_norm": 36551.6953125, "learning_rate": 8e-06, "loss": 156.1712, "step": 675 }, { "epoch": 2.2533333333333334, "grad_norm": 1307.7371826171875, "learning_rate": 8e-06, "loss": 122.8967, "step": 676 }, { "epoch": 2.256666666666667, "grad_norm": 4752.58544921875, "learning_rate": 8e-06, "loss": 139.9254, "step": 677 }, { "epoch": 2.26, "grad_norm": 1438.94140625, "learning_rate": 8e-06, "loss": 106.0688, "step": 678 }, { "epoch": 2.263333333333333, "grad_norm": 1285.2674560546875, "learning_rate": 8e-06, "loss": 105.6991, "step": 679 }, { "epoch": 2.2666666666666666, "grad_norm": 1289.8099365234375, "learning_rate": 8e-06, "loss": 133.0195, "step": 680 }, { "epoch": 2.27, "grad_norm": 1434.508544921875, "learning_rate": 8e-06, "loss": 102.0162, "step": 681 }, { "epoch": 2.2733333333333334, "grad_norm": 1650.91796875, "learning_rate": 8e-06, "loss": 126.2975, "step": 682 }, { "epoch": 2.276666666666667, "grad_norm": 2619.72119140625, "learning_rate": 8e-06, "loss": 158.7676, "step": 683 }, { "epoch": 2.2800000000000002, "grad_norm": 28865.435546875, "learning_rate": 8e-06, "loss": 218.1773, "step": 684 }, { "epoch": 2.283333333333333, "grad_norm": 6903.01220703125, "learning_rate": 8e-06, "loss": 136.2646, "step": 685 }, { "epoch": 2.2866666666666666, "grad_norm": 2979.0244140625, "learning_rate": 8e-06, "loss": 166.6657, "step": 686 }, { "epoch": 2.29, "grad_norm": 1701.4605712890625, "learning_rate": 8e-06, "loss": 131.0002, "step": 687 }, { "epoch": 2.2933333333333334, "grad_norm": 2914.819091796875, "learning_rate": 8e-06, "loss": 237.3755, "step": 688 }, { "epoch": 2.296666666666667, "grad_norm": 1863.2547607421875, "learning_rate": 8e-06, "loss": 145.9498, "step": 689 }, { "epoch": 2.3, "grad_norm": 1627.00048828125, "learning_rate": 8e-06, "loss": 117.881, "step": 690 }, { "epoch": 2.3033333333333332, "grad_norm": 1970.314453125, "learning_rate": 8e-06, "loss": 137.72, "step": 691 }, { "epoch": 2.3066666666666666, "grad_norm": 11100.8623046875, "learning_rate": 8e-06, "loss": 293.6888, "step": 692 }, { "epoch": 2.31, "grad_norm": 1479.2615966796875, "learning_rate": 8e-06, "loss": 123.5312, "step": 693 }, { "epoch": 2.3133333333333335, "grad_norm": 1615.1658935546875, "learning_rate": 8e-06, "loss": 144.8124, "step": 694 }, { "epoch": 2.3166666666666664, "grad_norm": 1756.41357421875, "learning_rate": 8e-06, "loss": 135.5969, "step": 695 }, { "epoch": 2.32, "grad_norm": 2183.849365234375, "learning_rate": 8e-06, "loss": 109.752, "step": 696 }, { "epoch": 2.3233333333333333, "grad_norm": 1970.754638671875, "learning_rate": 8e-06, "loss": 131.9297, "step": 697 }, { "epoch": 2.3266666666666667, "grad_norm": 2116.089111328125, "learning_rate": 8e-06, "loss": 99.696, "step": 698 }, { "epoch": 2.33, "grad_norm": 1829.75439453125, "learning_rate": 8e-06, "loss": 113.0716, "step": 699 }, { "epoch": 2.3333333333333335, "grad_norm": 1476.1793212890625, "learning_rate": 8e-06, "loss": 104.9451, "step": 700 }, { "epoch": 2.336666666666667, "grad_norm": 2222.96435546875, "learning_rate": 8e-06, "loss": 120.953, "step": 701 }, { "epoch": 2.34, "grad_norm": 9380.060546875, "learning_rate": 8e-06, "loss": 138.7993, "step": 702 }, { "epoch": 2.3433333333333333, "grad_norm": 1679.3817138671875, "learning_rate": 8e-06, "loss": 134.3208, "step": 703 }, { "epoch": 2.3466666666666667, "grad_norm": 1442.17236328125, "learning_rate": 8e-06, "loss": 92.7587, "step": 704 }, { "epoch": 2.35, "grad_norm": 1367.2061767578125, "learning_rate": 8e-06, "loss": 121.2768, "step": 705 }, { "epoch": 2.3533333333333335, "grad_norm": 1248.1695556640625, "learning_rate": 8e-06, "loss": 116.9666, "step": 706 }, { "epoch": 2.3566666666666665, "grad_norm": 20453.5234375, "learning_rate": 8e-06, "loss": 376.956, "step": 707 }, { "epoch": 2.36, "grad_norm": 1495.2889404296875, "learning_rate": 8e-06, "loss": 101.0957, "step": 708 }, { "epoch": 2.3633333333333333, "grad_norm": 1726.5560302734375, "learning_rate": 8e-06, "loss": 148.6609, "step": 709 }, { "epoch": 2.3666666666666667, "grad_norm": 2641.858154296875, "learning_rate": 8e-06, "loss": 163.1479, "step": 710 }, { "epoch": 2.37, "grad_norm": 1801.218505859375, "learning_rate": 8e-06, "loss": 119.2229, "step": 711 }, { "epoch": 2.3733333333333335, "grad_norm": 1693.7442626953125, "learning_rate": 8e-06, "loss": 132.5043, "step": 712 }, { "epoch": 2.3766666666666665, "grad_norm": 2091.88330078125, "learning_rate": 8e-06, "loss": 147.464, "step": 713 }, { "epoch": 2.38, "grad_norm": 1578.102783203125, "learning_rate": 8e-06, "loss": 114.0627, "step": 714 }, { "epoch": 2.3833333333333333, "grad_norm": 2351.2607421875, "learning_rate": 8e-06, "loss": 123.1597, "step": 715 }, { "epoch": 2.3866666666666667, "grad_norm": 1315.5687255859375, "learning_rate": 8e-06, "loss": 115.1075, "step": 716 }, { "epoch": 2.39, "grad_norm": 1510.3790283203125, "learning_rate": 8e-06, "loss": 109.5176, "step": 717 }, { "epoch": 2.3933333333333335, "grad_norm": 1532.697998046875, "learning_rate": 8e-06, "loss": 99.2867, "step": 718 }, { "epoch": 2.3966666666666665, "grad_norm": 1300.1014404296875, "learning_rate": 8e-06, "loss": 120.9424, "step": 719 }, { "epoch": 2.4, "grad_norm": 2729.224365234375, "learning_rate": 8e-06, "loss": 114.9256, "step": 720 }, { "epoch": 2.4033333333333333, "grad_norm": 1317.2303466796875, "learning_rate": 8e-06, "loss": 102.3711, "step": 721 }, { "epoch": 2.4066666666666667, "grad_norm": 1498.4573974609375, "learning_rate": 8e-06, "loss": 135.2365, "step": 722 }, { "epoch": 2.41, "grad_norm": 1865.0723876953125, "learning_rate": 8e-06, "loss": 130.9664, "step": 723 }, { "epoch": 2.413333333333333, "grad_norm": 3120.843017578125, "learning_rate": 8e-06, "loss": 125.216, "step": 724 }, { "epoch": 2.4166666666666665, "grad_norm": 1531.434326171875, "learning_rate": 8e-06, "loss": 120.9744, "step": 725 }, { "epoch": 2.42, "grad_norm": 1755.6026611328125, "learning_rate": 8e-06, "loss": 111.1381, "step": 726 }, { "epoch": 2.4233333333333333, "grad_norm": 1478.3941650390625, "learning_rate": 8e-06, "loss": 124.5824, "step": 727 }, { "epoch": 2.4266666666666667, "grad_norm": 17907.654296875, "learning_rate": 8e-06, "loss": 125.6474, "step": 728 }, { "epoch": 2.43, "grad_norm": 1446.43359375, "learning_rate": 8e-06, "loss": 132.7871, "step": 729 }, { "epoch": 2.4333333333333336, "grad_norm": 2421.5341796875, "learning_rate": 8e-06, "loss": 179.9294, "step": 730 }, { "epoch": 2.4366666666666665, "grad_norm": 1725.28857421875, "learning_rate": 8e-06, "loss": 136.7637, "step": 731 }, { "epoch": 2.44, "grad_norm": 2015.51025390625, "learning_rate": 8e-06, "loss": 121.2952, "step": 732 }, { "epoch": 2.4433333333333334, "grad_norm": 1705.6173095703125, "learning_rate": 8e-06, "loss": 110.4791, "step": 733 }, { "epoch": 2.4466666666666668, "grad_norm": 1421.70849609375, "learning_rate": 8e-06, "loss": 103.1995, "step": 734 }, { "epoch": 2.45, "grad_norm": 1865.3294677734375, "learning_rate": 8e-06, "loss": 132.5225, "step": 735 }, { "epoch": 2.453333333333333, "grad_norm": 1825.8245849609375, "learning_rate": 8e-06, "loss": 133.7585, "step": 736 }, { "epoch": 2.4566666666666666, "grad_norm": 2180.423583984375, "learning_rate": 8e-06, "loss": 140.9315, "step": 737 }, { "epoch": 2.46, "grad_norm": 6084.18017578125, "learning_rate": 8e-06, "loss": 146.2271, "step": 738 }, { "epoch": 2.4633333333333334, "grad_norm": 2014.62744140625, "learning_rate": 8e-06, "loss": 126.1484, "step": 739 }, { "epoch": 2.466666666666667, "grad_norm": 1243.1656494140625, "learning_rate": 8e-06, "loss": 103.6744, "step": 740 }, { "epoch": 2.4699999999999998, "grad_norm": 1581.9586181640625, "learning_rate": 8e-06, "loss": 95.0835, "step": 741 }, { "epoch": 2.473333333333333, "grad_norm": 1325.827880859375, "learning_rate": 8e-06, "loss": 112.0473, "step": 742 }, { "epoch": 2.4766666666666666, "grad_norm": 1464.9918212890625, "learning_rate": 8e-06, "loss": 128.1577, "step": 743 }, { "epoch": 2.48, "grad_norm": 2208.0927734375, "learning_rate": 8e-06, "loss": 152.0096, "step": 744 }, { "epoch": 2.4833333333333334, "grad_norm": 2100.02490234375, "learning_rate": 8e-06, "loss": 147.5463, "step": 745 }, { "epoch": 2.486666666666667, "grad_norm": 1421.8133544921875, "learning_rate": 8e-06, "loss": 106.8184, "step": 746 }, { "epoch": 2.49, "grad_norm": 1479.231689453125, "learning_rate": 8e-06, "loss": 94.067, "step": 747 }, { "epoch": 2.493333333333333, "grad_norm": 2578.95361328125, "learning_rate": 8e-06, "loss": 162.0832, "step": 748 }, { "epoch": 2.4966666666666666, "grad_norm": 1351.6405029296875, "learning_rate": 8e-06, "loss": 125.9322, "step": 749 }, { "epoch": 2.5, "grad_norm": 1589.424560546875, "learning_rate": 8e-06, "loss": 116.5617, "step": 750 }, { "epoch": 2.5033333333333334, "grad_norm": 2823.43408203125, "learning_rate": 8e-06, "loss": 144.2864, "step": 751 }, { "epoch": 2.506666666666667, "grad_norm": 1887.8447265625, "learning_rate": 8e-06, "loss": 138.0956, "step": 752 }, { "epoch": 2.51, "grad_norm": 2067.181396484375, "learning_rate": 8e-06, "loss": 144.1646, "step": 753 }, { "epoch": 2.513333333333333, "grad_norm": 2330.794189453125, "learning_rate": 8e-06, "loss": 141.2042, "step": 754 }, { "epoch": 2.5166666666666666, "grad_norm": 1427.31640625, "learning_rate": 8e-06, "loss": 135.7423, "step": 755 }, { "epoch": 2.52, "grad_norm": 1161.4061279296875, "learning_rate": 8e-06, "loss": 99.3035, "step": 756 }, { "epoch": 2.5233333333333334, "grad_norm": 1712.1439208984375, "learning_rate": 8e-06, "loss": 114.2467, "step": 757 }, { "epoch": 2.5266666666666664, "grad_norm": 1197.593017578125, "learning_rate": 8e-06, "loss": 107.4427, "step": 758 }, { "epoch": 2.5300000000000002, "grad_norm": 1731.598876953125, "learning_rate": 8e-06, "loss": 126.1534, "step": 759 }, { "epoch": 2.533333333333333, "grad_norm": 1432.5394287109375, "learning_rate": 8e-06, "loss": 115.6338, "step": 760 }, { "epoch": 2.5366666666666666, "grad_norm": 3142.1005859375, "learning_rate": 8e-06, "loss": 189.7106, "step": 761 }, { "epoch": 2.54, "grad_norm": 1320.365478515625, "learning_rate": 8e-06, "loss": 115.4958, "step": 762 }, { "epoch": 2.5433333333333334, "grad_norm": 1628.338623046875, "learning_rate": 8e-06, "loss": 122.4915, "step": 763 }, { "epoch": 2.546666666666667, "grad_norm": 1467.8492431640625, "learning_rate": 8e-06, "loss": 125.6665, "step": 764 }, { "epoch": 2.55, "grad_norm": 2865.892578125, "learning_rate": 8e-06, "loss": 128.4004, "step": 765 }, { "epoch": 2.5533333333333332, "grad_norm": 1418.7894287109375, "learning_rate": 8e-06, "loss": 108.1406, "step": 766 }, { "epoch": 2.5566666666666666, "grad_norm": 1850.069091796875, "learning_rate": 8e-06, "loss": 175.9062, "step": 767 }, { "epoch": 2.56, "grad_norm": 1794.0701904296875, "learning_rate": 8e-06, "loss": 130.9639, "step": 768 }, { "epoch": 2.5633333333333335, "grad_norm": 1451.385498046875, "learning_rate": 8e-06, "loss": 125.577, "step": 769 }, { "epoch": 2.5666666666666664, "grad_norm": 1426.46240234375, "learning_rate": 8e-06, "loss": 114.7984, "step": 770 }, { "epoch": 2.57, "grad_norm": 1218.86669921875, "learning_rate": 8e-06, "loss": 110.1531, "step": 771 }, { "epoch": 2.5733333333333333, "grad_norm": 1524.708740234375, "learning_rate": 8e-06, "loss": 113.6179, "step": 772 }, { "epoch": 2.5766666666666667, "grad_norm": 1464.95849609375, "learning_rate": 8e-06, "loss": 124.511, "step": 773 }, { "epoch": 2.58, "grad_norm": 1637.928466796875, "learning_rate": 8e-06, "loss": 93.99, "step": 774 }, { "epoch": 2.5833333333333335, "grad_norm": 3661.8359375, "learning_rate": 8e-06, "loss": 145.4815, "step": 775 }, { "epoch": 2.586666666666667, "grad_norm": 1699.713623046875, "learning_rate": 8e-06, "loss": 136.5588, "step": 776 }, { "epoch": 2.59, "grad_norm": 1160.001708984375, "learning_rate": 8e-06, "loss": 110.3232, "step": 777 }, { "epoch": 2.5933333333333333, "grad_norm": 2293.4052734375, "learning_rate": 8e-06, "loss": 120.6876, "step": 778 }, { "epoch": 2.5966666666666667, "grad_norm": 1315.2447509765625, "learning_rate": 8e-06, "loss": 117.5079, "step": 779 }, { "epoch": 2.6, "grad_norm": 1174.728759765625, "learning_rate": 8e-06, "loss": 101.8514, "step": 780 }, { "epoch": 2.6033333333333335, "grad_norm": 1330.5498046875, "learning_rate": 8e-06, "loss": 103.6102, "step": 781 }, { "epoch": 2.6066666666666665, "grad_norm": 2042.9381103515625, "learning_rate": 8e-06, "loss": 140.7256, "step": 782 }, { "epoch": 2.61, "grad_norm": 2028.093017578125, "learning_rate": 8e-06, "loss": 136.8938, "step": 783 }, { "epoch": 2.6133333333333333, "grad_norm": 14681.4189453125, "learning_rate": 8e-06, "loss": 285.7935, "step": 784 }, { "epoch": 2.6166666666666667, "grad_norm": 2435.10009765625, "learning_rate": 8e-06, "loss": 116.6105, "step": 785 }, { "epoch": 2.62, "grad_norm": 1599.9298095703125, "learning_rate": 8e-06, "loss": 158.0862, "step": 786 }, { "epoch": 2.623333333333333, "grad_norm": 1441.6348876953125, "learning_rate": 8e-06, "loss": 107.3423, "step": 787 }, { "epoch": 2.626666666666667, "grad_norm": 1360.754150390625, "learning_rate": 8e-06, "loss": 116.9525, "step": 788 }, { "epoch": 2.63, "grad_norm": 1660.15576171875, "learning_rate": 8e-06, "loss": 101.1028, "step": 789 }, { "epoch": 2.6333333333333333, "grad_norm": 1712.9136962890625, "learning_rate": 8e-06, "loss": 120.6488, "step": 790 }, { "epoch": 2.6366666666666667, "grad_norm": 1436.0123291015625, "learning_rate": 8e-06, "loss": 137.5496, "step": 791 }, { "epoch": 2.64, "grad_norm": 4147.0537109375, "learning_rate": 8e-06, "loss": 104.2722, "step": 792 }, { "epoch": 2.6433333333333335, "grad_norm": 1559.4739990234375, "learning_rate": 8e-06, "loss": 141.1813, "step": 793 }, { "epoch": 2.6466666666666665, "grad_norm": 1479.011962890625, "learning_rate": 8e-06, "loss": 150.0217, "step": 794 }, { "epoch": 2.65, "grad_norm": 2171.935302734375, "learning_rate": 8e-06, "loss": 165.3374, "step": 795 }, { "epoch": 2.6533333333333333, "grad_norm": 1640.123779296875, "learning_rate": 8e-06, "loss": 122.8269, "step": 796 }, { "epoch": 2.6566666666666667, "grad_norm": 1345.9244384765625, "learning_rate": 8e-06, "loss": 115.7013, "step": 797 }, { "epoch": 2.66, "grad_norm": 4976.23193359375, "learning_rate": 8e-06, "loss": 133.1451, "step": 798 }, { "epoch": 2.663333333333333, "grad_norm": 1573.3651123046875, "learning_rate": 8e-06, "loss": 130.7121, "step": 799 }, { "epoch": 2.6666666666666665, "grad_norm": 2591.026123046875, "learning_rate": 8e-06, "loss": 164.4879, "step": 800 }, { "epoch": 2.6666666666666665, "eval_loss": 253.93336486816406, "eval_runtime": 856.5563, "eval_samples_per_second": 2.101, "eval_steps_per_second": 1.051, "step": 800 }, { "epoch": 2.67, "grad_norm": 1346.125244140625, "learning_rate": 8e-06, "loss": 126.6996, "step": 801 }, { "epoch": 2.6733333333333333, "grad_norm": 1393.3607177734375, "learning_rate": 8e-06, "loss": 115.9554, "step": 802 }, { "epoch": 2.6766666666666667, "grad_norm": 1946.3060302734375, "learning_rate": 8e-06, "loss": 125.6584, "step": 803 }, { "epoch": 2.68, "grad_norm": 1483.58251953125, "learning_rate": 8e-06, "loss": 100.8621, "step": 804 }, { "epoch": 2.6833333333333336, "grad_norm": 1651.197998046875, "learning_rate": 8e-06, "loss": 139.0113, "step": 805 }, { "epoch": 2.6866666666666665, "grad_norm": 1329.492919921875, "learning_rate": 8e-06, "loss": 117.3851, "step": 806 }, { "epoch": 2.69, "grad_norm": 1464.396240234375, "learning_rate": 8e-06, "loss": 93.6395, "step": 807 }, { "epoch": 2.6933333333333334, "grad_norm": 1691.2379150390625, "learning_rate": 8e-06, "loss": 140.1688, "step": 808 }, { "epoch": 2.6966666666666668, "grad_norm": 1795.8988037109375, "learning_rate": 8e-06, "loss": 138.0487, "step": 809 }, { "epoch": 2.7, "grad_norm": 1581.2906494140625, "learning_rate": 8e-06, "loss": 116.7431, "step": 810 }, { "epoch": 2.703333333333333, "grad_norm": 3235.380859375, "learning_rate": 8e-06, "loss": 126.381, "step": 811 }, { "epoch": 2.7066666666666666, "grad_norm": 2436.695556640625, "learning_rate": 8e-06, "loss": 123.1087, "step": 812 }, { "epoch": 2.71, "grad_norm": 1701.041259765625, "learning_rate": 8e-06, "loss": 137.3659, "step": 813 }, { "epoch": 2.7133333333333334, "grad_norm": 1276.497314453125, "learning_rate": 8e-06, "loss": 113.9922, "step": 814 }, { "epoch": 2.716666666666667, "grad_norm": 1860.7666015625, "learning_rate": 8e-06, "loss": 116.6647, "step": 815 }, { "epoch": 2.7199999999999998, "grad_norm": 1605.3519287109375, "learning_rate": 8e-06, "loss": 150.8002, "step": 816 }, { "epoch": 2.7233333333333336, "grad_norm": 1359.60009765625, "learning_rate": 8e-06, "loss": 121.1264, "step": 817 }, { "epoch": 2.7266666666666666, "grad_norm": 1621.8148193359375, "learning_rate": 8e-06, "loss": 129.6622, "step": 818 }, { "epoch": 2.73, "grad_norm": 1477.146240234375, "learning_rate": 8e-06, "loss": 119.8018, "step": 819 }, { "epoch": 2.7333333333333334, "grad_norm": 2180.00537109375, "learning_rate": 8e-06, "loss": 151.51, "step": 820 }, { "epoch": 2.736666666666667, "grad_norm": 2292.234130859375, "learning_rate": 8e-06, "loss": 142.1312, "step": 821 }, { "epoch": 2.74, "grad_norm": 2067.784912109375, "learning_rate": 8e-06, "loss": 128.4793, "step": 822 }, { "epoch": 2.743333333333333, "grad_norm": 1650.3232421875, "learning_rate": 8e-06, "loss": 109.4251, "step": 823 }, { "epoch": 2.7466666666666666, "grad_norm": 1728.8126220703125, "learning_rate": 8e-06, "loss": 132.2084, "step": 824 }, { "epoch": 2.75, "grad_norm": 1828.502197265625, "learning_rate": 8e-06, "loss": 121.4602, "step": 825 }, { "epoch": 2.7533333333333334, "grad_norm": 1360.934814453125, "learning_rate": 8e-06, "loss": 119.0866, "step": 826 }, { "epoch": 2.756666666666667, "grad_norm": 1886.692626953125, "learning_rate": 8e-06, "loss": 109.1527, "step": 827 }, { "epoch": 2.76, "grad_norm": 1158.99609375, "learning_rate": 8e-06, "loss": 101.1601, "step": 828 }, { "epoch": 2.763333333333333, "grad_norm": 2107.421142578125, "learning_rate": 8e-06, "loss": 154.901, "step": 829 }, { "epoch": 2.7666666666666666, "grad_norm": 1346.6021728515625, "learning_rate": 8e-06, "loss": 110.2574, "step": 830 }, { "epoch": 2.77, "grad_norm": 2046.423828125, "learning_rate": 8e-06, "loss": 152.7993, "step": 831 }, { "epoch": 2.7733333333333334, "grad_norm": 2123.324462890625, "learning_rate": 8e-06, "loss": 141.4529, "step": 832 }, { "epoch": 2.7766666666666664, "grad_norm": 1597.5897216796875, "learning_rate": 8e-06, "loss": 108.298, "step": 833 }, { "epoch": 2.7800000000000002, "grad_norm": 1649.84765625, "learning_rate": 8e-06, "loss": 104.5699, "step": 834 }, { "epoch": 2.783333333333333, "grad_norm": 1555.3839111328125, "learning_rate": 8e-06, "loss": 110.989, "step": 835 }, { "epoch": 2.7866666666666666, "grad_norm": 2826.848388671875, "learning_rate": 8e-06, "loss": 168.2019, "step": 836 }, { "epoch": 2.79, "grad_norm": 1649.079345703125, "learning_rate": 8e-06, "loss": 129.5021, "step": 837 }, { "epoch": 2.7933333333333334, "grad_norm": 1513.61865234375, "learning_rate": 8e-06, "loss": 120.7805, "step": 838 }, { "epoch": 2.796666666666667, "grad_norm": 11877.251953125, "learning_rate": 8e-06, "loss": 196.4533, "step": 839 }, { "epoch": 2.8, "grad_norm": 1512.845947265625, "learning_rate": 8e-06, "loss": 116.478, "step": 840 }, { "epoch": 2.8033333333333332, "grad_norm": 8531.359375, "learning_rate": 8e-06, "loss": 201.9097, "step": 841 }, { "epoch": 2.8066666666666666, "grad_norm": 11348.8896484375, "learning_rate": 8e-06, "loss": 199.2899, "step": 842 }, { "epoch": 2.81, "grad_norm": 1671.9217529296875, "learning_rate": 8e-06, "loss": 136.4999, "step": 843 }, { "epoch": 2.8133333333333335, "grad_norm": 1789.046630859375, "learning_rate": 8e-06, "loss": 120.9409, "step": 844 }, { "epoch": 2.8166666666666664, "grad_norm": 1395.83349609375, "learning_rate": 8e-06, "loss": 133.436, "step": 845 }, { "epoch": 2.82, "grad_norm": 1755.172607421875, "learning_rate": 8e-06, "loss": 160.6759, "step": 846 }, { "epoch": 2.8233333333333333, "grad_norm": 2140.5712890625, "learning_rate": 8e-06, "loss": 197.1828, "step": 847 }, { "epoch": 2.8266666666666667, "grad_norm": 1562.9735107421875, "learning_rate": 8e-06, "loss": 146.6434, "step": 848 }, { "epoch": 2.83, "grad_norm": 1706.0521240234375, "learning_rate": 8e-06, "loss": 125.0628, "step": 849 }, { "epoch": 2.8333333333333335, "grad_norm": 2627.5810546875, "learning_rate": 8e-06, "loss": 174.2681, "step": 850 }, { "epoch": 2.836666666666667, "grad_norm": 1677.6097412109375, "learning_rate": 8e-06, "loss": 126.5001, "step": 851 }, { "epoch": 2.84, "grad_norm": 1122.907470703125, "learning_rate": 8e-06, "loss": 87.2312, "step": 852 }, { "epoch": 2.8433333333333333, "grad_norm": 16826.1796875, "learning_rate": 8e-06, "loss": 171.4326, "step": 853 }, { "epoch": 2.8466666666666667, "grad_norm": 1605.15966796875, "learning_rate": 8e-06, "loss": 115.2828, "step": 854 }, { "epoch": 2.85, "grad_norm": 1574.7774658203125, "learning_rate": 8e-06, "loss": 109.5397, "step": 855 }, { "epoch": 2.8533333333333335, "grad_norm": 1433.800048828125, "learning_rate": 8e-06, "loss": 131.8328, "step": 856 }, { "epoch": 2.8566666666666665, "grad_norm": 1186.85205078125, "learning_rate": 8e-06, "loss": 109.0231, "step": 857 }, { "epoch": 2.86, "grad_norm": 1395.7698974609375, "learning_rate": 8e-06, "loss": 127.747, "step": 858 }, { "epoch": 2.8633333333333333, "grad_norm": 1544.681884765625, "learning_rate": 8e-06, "loss": 124.6063, "step": 859 }, { "epoch": 2.8666666666666667, "grad_norm": 1576.1446533203125, "learning_rate": 8e-06, "loss": 128.7931, "step": 860 }, { "epoch": 2.87, "grad_norm": 1472.5439453125, "learning_rate": 8e-06, "loss": 107.333, "step": 861 }, { "epoch": 2.873333333333333, "grad_norm": 2009.869140625, "learning_rate": 8e-06, "loss": 185.5132, "step": 862 }, { "epoch": 2.876666666666667, "grad_norm": 1762.5379638671875, "learning_rate": 8e-06, "loss": 154.4742, "step": 863 }, { "epoch": 2.88, "grad_norm": 1735.4830322265625, "learning_rate": 8e-06, "loss": 151.1092, "step": 864 }, { "epoch": 2.8833333333333333, "grad_norm": 2073.78564453125, "learning_rate": 8e-06, "loss": 138.165, "step": 865 }, { "epoch": 2.8866666666666667, "grad_norm": 65369.6640625, "learning_rate": 8e-06, "loss": 126.3652, "step": 866 }, { "epoch": 2.89, "grad_norm": 2205.854736328125, "learning_rate": 8e-06, "loss": 123.5169, "step": 867 }, { "epoch": 2.8933333333333335, "grad_norm": 1481.4891357421875, "learning_rate": 8e-06, "loss": 109.891, "step": 868 }, { "epoch": 2.8966666666666665, "grad_norm": 2527.139404296875, "learning_rate": 8e-06, "loss": 151.9944, "step": 869 }, { "epoch": 2.9, "grad_norm": 1253.7718505859375, "learning_rate": 8e-06, "loss": 90.7531, "step": 870 }, { "epoch": 2.9033333333333333, "grad_norm": 1385.5650634765625, "learning_rate": 8e-06, "loss": 116.331, "step": 871 }, { "epoch": 2.9066666666666667, "grad_norm": 2393.984375, "learning_rate": 8e-06, "loss": 158.5081, "step": 872 }, { "epoch": 2.91, "grad_norm": 1486.62939453125, "learning_rate": 8e-06, "loss": 100.8314, "step": 873 }, { "epoch": 2.913333333333333, "grad_norm": 1337.0845947265625, "learning_rate": 8e-06, "loss": 123.3309, "step": 874 }, { "epoch": 2.9166666666666665, "grad_norm": 1931.1649169921875, "learning_rate": 8e-06, "loss": 136.7862, "step": 875 }, { "epoch": 2.92, "grad_norm": 2080.406494140625, "learning_rate": 8e-06, "loss": 138.9914, "step": 876 }, { "epoch": 2.9233333333333333, "grad_norm": 1388.366455078125, "learning_rate": 8e-06, "loss": 132.2199, "step": 877 }, { "epoch": 2.9266666666666667, "grad_norm": 1234.0062255859375, "learning_rate": 8e-06, "loss": 124.7154, "step": 878 }, { "epoch": 2.93, "grad_norm": 1221.112548828125, "learning_rate": 8e-06, "loss": 118.9437, "step": 879 }, { "epoch": 2.9333333333333336, "grad_norm": 3296.05029296875, "learning_rate": 8e-06, "loss": 123.6962, "step": 880 }, { "epoch": 2.9366666666666665, "grad_norm": 1570.7691650390625, "learning_rate": 8e-06, "loss": 130.3079, "step": 881 }, { "epoch": 2.94, "grad_norm": 2041.43505859375, "learning_rate": 8e-06, "loss": 147.4692, "step": 882 }, { "epoch": 2.9433333333333334, "grad_norm": 1359.5753173828125, "learning_rate": 8e-06, "loss": 118.2364, "step": 883 }, { "epoch": 2.9466666666666668, "grad_norm": 1334.557373046875, "learning_rate": 8e-06, "loss": 114.6468, "step": 884 }, { "epoch": 2.95, "grad_norm": 1628.8009033203125, "learning_rate": 8e-06, "loss": 107.4027, "step": 885 }, { "epoch": 2.953333333333333, "grad_norm": 1484.663330078125, "learning_rate": 8e-06, "loss": 112.1182, "step": 886 }, { "epoch": 2.9566666666666666, "grad_norm": 1260.080078125, "learning_rate": 8e-06, "loss": 105.0868, "step": 887 }, { "epoch": 2.96, "grad_norm": 1193.4752197265625, "learning_rate": 8e-06, "loss": 101.7556, "step": 888 }, { "epoch": 2.9633333333333334, "grad_norm": 5000.62255859375, "learning_rate": 8e-06, "loss": 126.682, "step": 889 }, { "epoch": 2.966666666666667, "grad_norm": 1277.2457275390625, "learning_rate": 8e-06, "loss": 124.1078, "step": 890 }, { "epoch": 2.9699999999999998, "grad_norm": 1439.92529296875, "learning_rate": 8e-06, "loss": 117.5673, "step": 891 }, { "epoch": 2.9733333333333336, "grad_norm": 1180.908203125, "learning_rate": 8e-06, "loss": 96.392, "step": 892 }, { "epoch": 2.9766666666666666, "grad_norm": 1227.9453125, "learning_rate": 8e-06, "loss": 103.7586, "step": 893 }, { "epoch": 2.98, "grad_norm": 1718.8194580078125, "learning_rate": 8e-06, "loss": 118.2294, "step": 894 }, { "epoch": 2.9833333333333334, "grad_norm": 3727.582763671875, "learning_rate": 8e-06, "loss": 174.479, "step": 895 }, { "epoch": 2.986666666666667, "grad_norm": 7991.6494140625, "learning_rate": 8e-06, "loss": 173.3744, "step": 896 }, { "epoch": 2.99, "grad_norm": 1895.7752685546875, "learning_rate": 8e-06, "loss": 129.3557, "step": 897 }, { "epoch": 2.993333333333333, "grad_norm": 1599.3128662109375, "learning_rate": 8e-06, "loss": 146.8098, "step": 898 }, { "epoch": 2.9966666666666666, "grad_norm": 1358.5841064453125, "learning_rate": 8e-06, "loss": 125.8957, "step": 899 }, { "epoch": 3.0, "grad_norm": 1869.621337890625, "learning_rate": 8e-06, "loss": 108.7622, "step": 900 }, { "epoch": 3.0033333333333334, "grad_norm": 1262.7513427734375, "learning_rate": 8e-06, "loss": 99.1532, "step": 901 }, { "epoch": 3.006666666666667, "grad_norm": 1321.475830078125, "learning_rate": 8e-06, "loss": 103.4653, "step": 902 }, { "epoch": 3.01, "grad_norm": 1498.091552734375, "learning_rate": 8e-06, "loss": 90.9615, "step": 903 }, { "epoch": 3.013333333333333, "grad_norm": 1004.3009643554688, "learning_rate": 8e-06, "loss": 82.4096, "step": 904 }, { "epoch": 3.0166666666666666, "grad_norm": 1226.6676025390625, "learning_rate": 8e-06, "loss": 98.0483, "step": 905 }, { "epoch": 3.02, "grad_norm": 12529.296875, "learning_rate": 8e-06, "loss": 168.1034, "step": 906 }, { "epoch": 3.0233333333333334, "grad_norm": 1219.318115234375, "learning_rate": 8e-06, "loss": 97.0369, "step": 907 }, { "epoch": 3.026666666666667, "grad_norm": 1335.098876953125, "learning_rate": 8e-06, "loss": 96.7979, "step": 908 }, { "epoch": 3.03, "grad_norm": 1256.594970703125, "learning_rate": 8e-06, "loss": 92.1351, "step": 909 }, { "epoch": 3.033333333333333, "grad_norm": 1075.2801513671875, "learning_rate": 8e-06, "loss": 94.878, "step": 910 }, { "epoch": 3.0366666666666666, "grad_norm": 1312.4832763671875, "learning_rate": 8e-06, "loss": 105.1931, "step": 911 }, { "epoch": 3.04, "grad_norm": 1327.4451904296875, "learning_rate": 8e-06, "loss": 106.8739, "step": 912 }, { "epoch": 3.0433333333333334, "grad_norm": 1165.400146484375, "learning_rate": 8e-06, "loss": 92.7762, "step": 913 }, { "epoch": 3.046666666666667, "grad_norm": 1600.0269775390625, "learning_rate": 8e-06, "loss": 119.0007, "step": 914 }, { "epoch": 3.05, "grad_norm": 1038.8360595703125, "learning_rate": 8e-06, "loss": 91.5958, "step": 915 }, { "epoch": 3.0533333333333332, "grad_norm": 1410.8739013671875, "learning_rate": 8e-06, "loss": 96.8286, "step": 916 }, { "epoch": 3.0566666666666666, "grad_norm": 1826.8096923828125, "learning_rate": 8e-06, "loss": 103.9593, "step": 917 }, { "epoch": 3.06, "grad_norm": 4852.3154296875, "learning_rate": 8e-06, "loss": 97.6483, "step": 918 }, { "epoch": 3.0633333333333335, "grad_norm": 1166.8743896484375, "learning_rate": 8e-06, "loss": 92.0162, "step": 919 }, { "epoch": 3.066666666666667, "grad_norm": 1478.2503662109375, "learning_rate": 8e-06, "loss": 121.591, "step": 920 }, { "epoch": 3.07, "grad_norm": 2064.3203125, "learning_rate": 8e-06, "loss": 126.6654, "step": 921 }, { "epoch": 3.0733333333333333, "grad_norm": 1435.8455810546875, "learning_rate": 8e-06, "loss": 88.1973, "step": 922 }, { "epoch": 3.0766666666666667, "grad_norm": 1942.680908203125, "learning_rate": 8e-06, "loss": 123.716, "step": 923 }, { "epoch": 3.08, "grad_norm": 28748.62890625, "learning_rate": 8e-06, "loss": 162.4702, "step": 924 }, { "epoch": 3.0833333333333335, "grad_norm": 1499.2147216796875, "learning_rate": 8e-06, "loss": 112.0224, "step": 925 }, { "epoch": 3.086666666666667, "grad_norm": 1556.641357421875, "learning_rate": 8e-06, "loss": 88.2299, "step": 926 }, { "epoch": 3.09, "grad_norm": 1299.166015625, "learning_rate": 8e-06, "loss": 103.7875, "step": 927 }, { "epoch": 3.0933333333333333, "grad_norm": 1944.1239013671875, "learning_rate": 8e-06, "loss": 108.5586, "step": 928 }, { "epoch": 3.0966666666666667, "grad_norm": 1073.6209716796875, "learning_rate": 8e-06, "loss": 94.7179, "step": 929 }, { "epoch": 3.1, "grad_norm": 1089.99169921875, "learning_rate": 8e-06, "loss": 77.1986, "step": 930 }, { "epoch": 3.1033333333333335, "grad_norm": 1837.2335205078125, "learning_rate": 8e-06, "loss": 107.1631, "step": 931 }, { "epoch": 3.1066666666666665, "grad_norm": 875.464599609375, "learning_rate": 8e-06, "loss": 77.9481, "step": 932 }, { "epoch": 3.11, "grad_norm": 1689.199462890625, "learning_rate": 8e-06, "loss": 95.6178, "step": 933 }, { "epoch": 3.1133333333333333, "grad_norm": 1132.5665283203125, "learning_rate": 8e-06, "loss": 90.5679, "step": 934 }, { "epoch": 3.1166666666666667, "grad_norm": 10556.5361328125, "learning_rate": 8e-06, "loss": 142.7617, "step": 935 }, { "epoch": 3.12, "grad_norm": 3006.5654296875, "learning_rate": 8e-06, "loss": 152.3454, "step": 936 }, { "epoch": 3.1233333333333335, "grad_norm": 1338.9169921875, "learning_rate": 8e-06, "loss": 95.0885, "step": 937 }, { "epoch": 3.1266666666666665, "grad_norm": 1181.060546875, "learning_rate": 8e-06, "loss": 101.9101, "step": 938 }, { "epoch": 3.13, "grad_norm": 1245.28759765625, "learning_rate": 8e-06, "loss": 90.3373, "step": 939 }, { "epoch": 3.1333333333333333, "grad_norm": 1051.4898681640625, "learning_rate": 8e-06, "loss": 93.1638, "step": 940 }, { "epoch": 3.1366666666666667, "grad_norm": 8261.3447265625, "learning_rate": 8e-06, "loss": 98.6297, "step": 941 }, { "epoch": 3.14, "grad_norm": 1626.823486328125, "learning_rate": 8e-06, "loss": 133.2003, "step": 942 }, { "epoch": 3.1433333333333335, "grad_norm": 1202.6107177734375, "learning_rate": 8e-06, "loss": 93.3832, "step": 943 }, { "epoch": 3.1466666666666665, "grad_norm": 1268.8509521484375, "learning_rate": 8e-06, "loss": 100.0029, "step": 944 }, { "epoch": 3.15, "grad_norm": 2731.94140625, "learning_rate": 8e-06, "loss": 130.7733, "step": 945 }, { "epoch": 3.1533333333333333, "grad_norm": 1163.638671875, "learning_rate": 8e-06, "loss": 99.1531, "step": 946 }, { "epoch": 3.1566666666666667, "grad_norm": 2256.369873046875, "learning_rate": 8e-06, "loss": 113.4864, "step": 947 }, { "epoch": 3.16, "grad_norm": 1189.3375244140625, "learning_rate": 8e-06, "loss": 97.2566, "step": 948 }, { "epoch": 3.163333333333333, "grad_norm": 1057.408447265625, "learning_rate": 8e-06, "loss": 102.7371, "step": 949 }, { "epoch": 3.1666666666666665, "grad_norm": 1580.7080078125, "learning_rate": 8e-06, "loss": 117.3059, "step": 950 }, { "epoch": 3.17, "grad_norm": 1658.1783447265625, "learning_rate": 8e-06, "loss": 157.542, "step": 951 }, { "epoch": 3.1733333333333333, "grad_norm": 1415.591552734375, "learning_rate": 8e-06, "loss": 87.911, "step": 952 }, { "epoch": 3.1766666666666667, "grad_norm": 1630.5460205078125, "learning_rate": 8e-06, "loss": 110.0969, "step": 953 }, { "epoch": 3.18, "grad_norm": 2119.048095703125, "learning_rate": 8e-06, "loss": 94.7941, "step": 954 }, { "epoch": 3.183333333333333, "grad_norm": 1087.211181640625, "learning_rate": 8e-06, "loss": 83.2646, "step": 955 }, { "epoch": 3.1866666666666665, "grad_norm": 1539.645263671875, "learning_rate": 8e-06, "loss": 117.4885, "step": 956 }, { "epoch": 3.19, "grad_norm": 1199.56005859375, "learning_rate": 8e-06, "loss": 105.2662, "step": 957 }, { "epoch": 3.1933333333333334, "grad_norm": 1386.4102783203125, "learning_rate": 8e-06, "loss": 88.4007, "step": 958 }, { "epoch": 3.1966666666666668, "grad_norm": 1402.4371337890625, "learning_rate": 8e-06, "loss": 78.0059, "step": 959 }, { "epoch": 3.2, "grad_norm": 1591.2662353515625, "learning_rate": 8e-06, "loss": 77.4269, "step": 960 }, { "epoch": 3.203333333333333, "grad_norm": 1094.13623046875, "learning_rate": 8e-06, "loss": 86.3273, "step": 961 }, { "epoch": 3.2066666666666666, "grad_norm": 1403.09375, "learning_rate": 8e-06, "loss": 83.7896, "step": 962 }, { "epoch": 3.21, "grad_norm": 2142.72265625, "learning_rate": 8e-06, "loss": 131.6924, "step": 963 }, { "epoch": 3.2133333333333334, "grad_norm": 1260.436279296875, "learning_rate": 8e-06, "loss": 108.5527, "step": 964 }, { "epoch": 3.216666666666667, "grad_norm": 1149.84375, "learning_rate": 8e-06, "loss": 109.7251, "step": 965 }, { "epoch": 3.22, "grad_norm": 1782.0703125, "learning_rate": 8e-06, "loss": 86.3341, "step": 966 }, { "epoch": 3.223333333333333, "grad_norm": 1510.5732421875, "learning_rate": 8e-06, "loss": 107.6742, "step": 967 }, { "epoch": 3.2266666666666666, "grad_norm": 2081.285400390625, "learning_rate": 8e-06, "loss": 155.5452, "step": 968 }, { "epoch": 3.23, "grad_norm": 1017.6116333007812, "learning_rate": 8e-06, "loss": 80.941, "step": 969 }, { "epoch": 3.2333333333333334, "grad_norm": 1088.0570068359375, "learning_rate": 8e-06, "loss": 103.5597, "step": 970 }, { "epoch": 3.236666666666667, "grad_norm": 2368.023193359375, "learning_rate": 8e-06, "loss": 146.6311, "step": 971 }, { "epoch": 3.24, "grad_norm": 1531.8577880859375, "learning_rate": 8e-06, "loss": 100.6271, "step": 972 }, { "epoch": 3.243333333333333, "grad_norm": 6621.287109375, "learning_rate": 8e-06, "loss": 116.6581, "step": 973 }, { "epoch": 3.2466666666666666, "grad_norm": 1714.970458984375, "learning_rate": 8e-06, "loss": 106.1187, "step": 974 }, { "epoch": 3.25, "grad_norm": 1542.84521484375, "learning_rate": 8e-06, "loss": 107.4749, "step": 975 }, { "epoch": 3.2533333333333334, "grad_norm": 1303.92431640625, "learning_rate": 8e-06, "loss": 100.8845, "step": 976 }, { "epoch": 3.256666666666667, "grad_norm": 1075.9840087890625, "learning_rate": 8e-06, "loss": 85.6477, "step": 977 }, { "epoch": 3.26, "grad_norm": 982.2786254882812, "learning_rate": 8e-06, "loss": 91.8521, "step": 978 }, { "epoch": 3.263333333333333, "grad_norm": 2913.77978515625, "learning_rate": 8e-06, "loss": 113.1902, "step": 979 }, { "epoch": 3.2666666666666666, "grad_norm": 1728.9910888671875, "learning_rate": 8e-06, "loss": 108.4564, "step": 980 }, { "epoch": 3.27, "grad_norm": 1070.4744873046875, "learning_rate": 8e-06, "loss": 105.2907, "step": 981 }, { "epoch": 3.2733333333333334, "grad_norm": 1446.7811279296875, "learning_rate": 8e-06, "loss": 106.6868, "step": 982 }, { "epoch": 3.276666666666667, "grad_norm": 1480.2811279296875, "learning_rate": 8e-06, "loss": 81.2437, "step": 983 }, { "epoch": 3.2800000000000002, "grad_norm": 1167.655517578125, "learning_rate": 8e-06, "loss": 78.4928, "step": 984 }, { "epoch": 3.283333333333333, "grad_norm": 1756.5379638671875, "learning_rate": 8e-06, "loss": 119.3782, "step": 985 }, { "epoch": 3.2866666666666666, "grad_norm": 841.9312744140625, "learning_rate": 8e-06, "loss": 76.9443, "step": 986 }, { "epoch": 3.29, "grad_norm": 1480.3017578125, "learning_rate": 8e-06, "loss": 131.2546, "step": 987 }, { "epoch": 3.2933333333333334, "grad_norm": 4178.57080078125, "learning_rate": 8e-06, "loss": 129.6531, "step": 988 }, { "epoch": 3.296666666666667, "grad_norm": 1865.8370361328125, "learning_rate": 8e-06, "loss": 75.2041, "step": 989 }, { "epoch": 3.3, "grad_norm": 1763.667724609375, "learning_rate": 8e-06, "loss": 116.9005, "step": 990 }, { "epoch": 3.3033333333333332, "grad_norm": 1108.38037109375, "learning_rate": 8e-06, "loss": 78.9717, "step": 991 }, { "epoch": 3.3066666666666666, "grad_norm": 1515.422607421875, "learning_rate": 8e-06, "loss": 108.791, "step": 992 }, { "epoch": 3.31, "grad_norm": 990.1348266601562, "learning_rate": 8e-06, "loss": 91.9363, "step": 993 }, { "epoch": 3.3133333333333335, "grad_norm": 1046.6795654296875, "learning_rate": 8e-06, "loss": 79.6511, "step": 994 }, { "epoch": 3.3166666666666664, "grad_norm": 1681.680908203125, "learning_rate": 8e-06, "loss": 128.2324, "step": 995 }, { "epoch": 3.32, "grad_norm": 1519.6373291015625, "learning_rate": 8e-06, "loss": 91.8029, "step": 996 }, { "epoch": 3.3233333333333333, "grad_norm": 1112.5341796875, "learning_rate": 8e-06, "loss": 83.8015, "step": 997 }, { "epoch": 3.3266666666666667, "grad_norm": 2544.40966796875, "learning_rate": 8e-06, "loss": 96.9486, "step": 998 }, { "epoch": 3.33, "grad_norm": 1285.3277587890625, "learning_rate": 8e-06, "loss": 95.5518, "step": 999 }, { "epoch": 3.3333333333333335, "grad_norm": 1346.85986328125, "learning_rate": 8e-06, "loss": 114.2571, "step": 1000 }, { "epoch": 3.336666666666667, "grad_norm": 1472.1822509765625, "learning_rate": 8e-06, "loss": 100.3992, "step": 1001 }, { "epoch": 3.34, "grad_norm": 1339.799560546875, "learning_rate": 8e-06, "loss": 119.5787, "step": 1002 }, { "epoch": 3.3433333333333333, "grad_norm": 1881.1258544921875, "learning_rate": 8e-06, "loss": 121.5525, "step": 1003 }, { "epoch": 3.3466666666666667, "grad_norm": 1049.4923095703125, "learning_rate": 8e-06, "loss": 91.3793, "step": 1004 }, { "epoch": 3.35, "grad_norm": 1232.52880859375, "learning_rate": 8e-06, "loss": 98.4554, "step": 1005 }, { "epoch": 3.3533333333333335, "grad_norm": 1111.83447265625, "learning_rate": 8e-06, "loss": 97.8704, "step": 1006 }, { "epoch": 3.3566666666666665, "grad_norm": 1484.6248779296875, "learning_rate": 8e-06, "loss": 100.7085, "step": 1007 }, { "epoch": 3.36, "grad_norm": 1566.390625, "learning_rate": 8e-06, "loss": 99.9637, "step": 1008 }, { "epoch": 3.3633333333333333, "grad_norm": 1677.29638671875, "learning_rate": 8e-06, "loss": 98.9516, "step": 1009 }, { "epoch": 3.3666666666666667, "grad_norm": 1129.9610595703125, "learning_rate": 8e-06, "loss": 89.5633, "step": 1010 }, { "epoch": 3.37, "grad_norm": 3159.544677734375, "learning_rate": 8e-06, "loss": 160.3649, "step": 1011 }, { "epoch": 3.3733333333333335, "grad_norm": 4449.5849609375, "learning_rate": 8e-06, "loss": 141.0703, "step": 1012 }, { "epoch": 3.3766666666666665, "grad_norm": 2477.33251953125, "learning_rate": 8e-06, "loss": 109.721, "step": 1013 }, { "epoch": 3.38, "grad_norm": 1162.41064453125, "learning_rate": 8e-06, "loss": 101.1131, "step": 1014 }, { "epoch": 3.3833333333333333, "grad_norm": 1281.06396484375, "learning_rate": 8e-06, "loss": 93.4934, "step": 1015 }, { "epoch": 3.3866666666666667, "grad_norm": 2298.62451171875, "learning_rate": 8e-06, "loss": 103.6231, "step": 1016 }, { "epoch": 3.39, "grad_norm": 1952.998291015625, "learning_rate": 8e-06, "loss": 121.2991, "step": 1017 }, { "epoch": 3.3933333333333335, "grad_norm": 1192.8304443359375, "learning_rate": 8e-06, "loss": 96.3522, "step": 1018 }, { "epoch": 3.3966666666666665, "grad_norm": 1659.65283203125, "learning_rate": 8e-06, "loss": 109.9598, "step": 1019 }, { "epoch": 3.4, "grad_norm": 1338.1715087890625, "learning_rate": 8e-06, "loss": 89.1919, "step": 1020 }, { "epoch": 3.4033333333333333, "grad_norm": 1662.503173828125, "learning_rate": 8e-06, "loss": 118.1108, "step": 1021 }, { "epoch": 3.4066666666666667, "grad_norm": 1500.498046875, "learning_rate": 8e-06, "loss": 122.4905, "step": 1022 }, { "epoch": 3.41, "grad_norm": 1837.53759765625, "learning_rate": 8e-06, "loss": 110.1797, "step": 1023 }, { "epoch": 3.413333333333333, "grad_norm": 1570.8609619140625, "learning_rate": 8e-06, "loss": 86.9768, "step": 1024 }, { "epoch": 3.4166666666666665, "grad_norm": 1139.4315185546875, "learning_rate": 8e-06, "loss": 104.2498, "step": 1025 }, { "epoch": 3.42, "grad_norm": 1250.85400390625, "learning_rate": 8e-06, "loss": 106.292, "step": 1026 }, { "epoch": 3.4233333333333333, "grad_norm": 1645.544189453125, "learning_rate": 8e-06, "loss": 96.3781, "step": 1027 }, { "epoch": 3.4266666666666667, "grad_norm": 1413.2198486328125, "learning_rate": 8e-06, "loss": 98.8219, "step": 1028 }, { "epoch": 3.43, "grad_norm": 1309.17578125, "learning_rate": 8e-06, "loss": 93.8141, "step": 1029 }, { "epoch": 3.4333333333333336, "grad_norm": 1311.4599609375, "learning_rate": 8e-06, "loss": 89.7627, "step": 1030 }, { "epoch": 3.4366666666666665, "grad_norm": 1206.6412353515625, "learning_rate": 8e-06, "loss": 101.3723, "step": 1031 }, { "epoch": 3.44, "grad_norm": 1012.2117919921875, "learning_rate": 8e-06, "loss": 68.5795, "step": 1032 }, { "epoch": 3.4433333333333334, "grad_norm": 1698.3997802734375, "learning_rate": 8e-06, "loss": 105.8956, "step": 1033 }, { "epoch": 3.4466666666666668, "grad_norm": 1690.8609619140625, "learning_rate": 8e-06, "loss": 103.3692, "step": 1034 }, { "epoch": 3.45, "grad_norm": 2105.405029296875, "learning_rate": 8e-06, "loss": 119.3123, "step": 1035 }, { "epoch": 3.453333333333333, "grad_norm": 1008.283447265625, "learning_rate": 8e-06, "loss": 90.5128, "step": 1036 }, { "epoch": 3.4566666666666666, "grad_norm": 1693.2672119140625, "learning_rate": 8e-06, "loss": 115.4596, "step": 1037 }, { "epoch": 3.46, "grad_norm": 1196.2149658203125, "learning_rate": 8e-06, "loss": 101.2129, "step": 1038 }, { "epoch": 3.4633333333333334, "grad_norm": 1419.3143310546875, "learning_rate": 8e-06, "loss": 115.6889, "step": 1039 }, { "epoch": 3.466666666666667, "grad_norm": 1857.6715087890625, "learning_rate": 8e-06, "loss": 99.4209, "step": 1040 }, { "epoch": 3.4699999999999998, "grad_norm": 2315.8466796875, "learning_rate": 8e-06, "loss": 99.2002, "step": 1041 }, { "epoch": 3.473333333333333, "grad_norm": 1256.9241943359375, "learning_rate": 8e-06, "loss": 90.5748, "step": 1042 }, { "epoch": 3.4766666666666666, "grad_norm": 1620.748046875, "learning_rate": 8e-06, "loss": 103.6786, "step": 1043 }, { "epoch": 3.48, "grad_norm": 1332.335693359375, "learning_rate": 8e-06, "loss": 107.1477, "step": 1044 }, { "epoch": 3.4833333333333334, "grad_norm": 1540.1741943359375, "learning_rate": 8e-06, "loss": 118.4717, "step": 1045 }, { "epoch": 3.486666666666667, "grad_norm": 1100.0787353515625, "learning_rate": 8e-06, "loss": 105.4547, "step": 1046 }, { "epoch": 3.49, "grad_norm": 1000.0263671875, "learning_rate": 8e-06, "loss": 80.8778, "step": 1047 }, { "epoch": 3.493333333333333, "grad_norm": 1745.34375, "learning_rate": 8e-06, "loss": 98.5197, "step": 1048 }, { "epoch": 3.4966666666666666, "grad_norm": 2048.67333984375, "learning_rate": 8e-06, "loss": 107.1022, "step": 1049 }, { "epoch": 3.5, "grad_norm": 2059.141845703125, "learning_rate": 8e-06, "loss": 123.0717, "step": 1050 }, { "epoch": 3.5033333333333334, "grad_norm": 5549.779296875, "learning_rate": 8e-06, "loss": 129.8801, "step": 1051 }, { "epoch": 3.506666666666667, "grad_norm": 1742.79931640625, "learning_rate": 8e-06, "loss": 95.3436, "step": 1052 }, { "epoch": 3.51, "grad_norm": 1429.6099853515625, "learning_rate": 8e-06, "loss": 109.2349, "step": 1053 }, { "epoch": 3.513333333333333, "grad_norm": 1553.3477783203125, "learning_rate": 8e-06, "loss": 98.418, "step": 1054 }, { "epoch": 3.5166666666666666, "grad_norm": 2562.79052734375, "learning_rate": 8e-06, "loss": 119.0194, "step": 1055 }, { "epoch": 3.52, "grad_norm": 2988.712890625, "learning_rate": 8e-06, "loss": 124.5422, "step": 1056 }, { "epoch": 3.5233333333333334, "grad_norm": 1765.5494384765625, "learning_rate": 8e-06, "loss": 103.2756, "step": 1057 }, { "epoch": 3.5266666666666664, "grad_norm": 1640.2490234375, "learning_rate": 8e-06, "loss": 111.3964, "step": 1058 }, { "epoch": 3.5300000000000002, "grad_norm": 58123.6640625, "learning_rate": 8e-06, "loss": 178.0924, "step": 1059 }, { "epoch": 3.533333333333333, "grad_norm": 1372.79541015625, "learning_rate": 8e-06, "loss": 124.4003, "step": 1060 }, { "epoch": 3.5366666666666666, "grad_norm": 1267.953125, "learning_rate": 8e-06, "loss": 90.042, "step": 1061 }, { "epoch": 3.54, "grad_norm": 1850.373046875, "learning_rate": 8e-06, "loss": 128.5253, "step": 1062 }, { "epoch": 3.5433333333333334, "grad_norm": 1413.1473388671875, "learning_rate": 8e-06, "loss": 125.4861, "step": 1063 }, { "epoch": 3.546666666666667, "grad_norm": 1020.3916625976562, "learning_rate": 8e-06, "loss": 71.3096, "step": 1064 }, { "epoch": 3.55, "grad_norm": 1546.8359375, "learning_rate": 8e-06, "loss": 111.37, "step": 1065 }, { "epoch": 3.5533333333333332, "grad_norm": 1461.0078125, "learning_rate": 8e-06, "loss": 94.5669, "step": 1066 }, { "epoch": 3.5566666666666666, "grad_norm": 1004.5853881835938, "learning_rate": 8e-06, "loss": 89.7205, "step": 1067 }, { "epoch": 3.56, "grad_norm": 1219.38916015625, "learning_rate": 8e-06, "loss": 86.174, "step": 1068 }, { "epoch": 3.5633333333333335, "grad_norm": 1333.85693359375, "learning_rate": 8e-06, "loss": 107.8823, "step": 1069 }, { "epoch": 3.5666666666666664, "grad_norm": 9046.4990234375, "learning_rate": 8e-06, "loss": 121.3283, "step": 1070 }, { "epoch": 3.57, "grad_norm": 2590.66650390625, "learning_rate": 8e-06, "loss": 96.7871, "step": 1071 }, { "epoch": 3.5733333333333333, "grad_norm": 1612.9219970703125, "learning_rate": 8e-06, "loss": 116.6796, "step": 1072 }, { "epoch": 3.5766666666666667, "grad_norm": 1245.856689453125, "learning_rate": 8e-06, "loss": 83.4438, "step": 1073 }, { "epoch": 3.58, "grad_norm": 1368.11474609375, "learning_rate": 8e-06, "loss": 105.5171, "step": 1074 }, { "epoch": 3.5833333333333335, "grad_norm": 1181.2598876953125, "learning_rate": 8e-06, "loss": 93.1511, "step": 1075 }, { "epoch": 3.586666666666667, "grad_norm": 1255.1689453125, "learning_rate": 8e-06, "loss": 102.4427, "step": 1076 }, { "epoch": 3.59, "grad_norm": 933.6524047851562, "learning_rate": 8e-06, "loss": 98.656, "step": 1077 }, { "epoch": 3.5933333333333333, "grad_norm": 1519.060302734375, "learning_rate": 8e-06, "loss": 103.6229, "step": 1078 }, { "epoch": 3.5966666666666667, "grad_norm": 1135.09130859375, "learning_rate": 8e-06, "loss": 92.0949, "step": 1079 }, { "epoch": 3.6, "grad_norm": 1145.5345458984375, "learning_rate": 8e-06, "loss": 98.793, "step": 1080 }, { "epoch": 3.6033333333333335, "grad_norm": 1713.8614501953125, "learning_rate": 8e-06, "loss": 126.0349, "step": 1081 }, { "epoch": 3.6066666666666665, "grad_norm": 1237.0721435546875, "learning_rate": 8e-06, "loss": 112.0758, "step": 1082 }, { "epoch": 3.61, "grad_norm": 1265.5643310546875, "learning_rate": 8e-06, "loss": 98.4531, "step": 1083 }, { "epoch": 3.6133333333333333, "grad_norm": 1172.4429931640625, "learning_rate": 8e-06, "loss": 89.3182, "step": 1084 }, { "epoch": 3.6166666666666667, "grad_norm": 1169.0030517578125, "learning_rate": 8e-06, "loss": 108.5065, "step": 1085 }, { "epoch": 3.62, "grad_norm": 1332.7613525390625, "learning_rate": 8e-06, "loss": 111.5358, "step": 1086 }, { "epoch": 3.623333333333333, "grad_norm": 1504.4539794921875, "learning_rate": 8e-06, "loss": 93.6187, "step": 1087 }, { "epoch": 3.626666666666667, "grad_norm": 1538.526123046875, "learning_rate": 8e-06, "loss": 94.4933, "step": 1088 }, { "epoch": 3.63, "grad_norm": 1093.1561279296875, "learning_rate": 8e-06, "loss": 94.4474, "step": 1089 }, { "epoch": 3.6333333333333333, "grad_norm": 1106.5731201171875, "learning_rate": 8e-06, "loss": 78.291, "step": 1090 }, { "epoch": 3.6366666666666667, "grad_norm": 1287.757568359375, "learning_rate": 8e-06, "loss": 105.9506, "step": 1091 }, { "epoch": 3.64, "grad_norm": 1629.7943115234375, "learning_rate": 8e-06, "loss": 85.2943, "step": 1092 }, { "epoch": 3.6433333333333335, "grad_norm": 1731.007568359375, "learning_rate": 8e-06, "loss": 99.824, "step": 1093 }, { "epoch": 3.6466666666666665, "grad_norm": 1222.0220947265625, "learning_rate": 8e-06, "loss": 89.81, "step": 1094 }, { "epoch": 3.65, "grad_norm": 1286.586669921875, "learning_rate": 8e-06, "loss": 106.8691, "step": 1095 }, { "epoch": 3.6533333333333333, "grad_norm": 1232.73681640625, "learning_rate": 8e-06, "loss": 93.6507, "step": 1096 }, { "epoch": 3.6566666666666667, "grad_norm": 4019.5341796875, "learning_rate": 8e-06, "loss": 163.3437, "step": 1097 }, { "epoch": 3.66, "grad_norm": 7609.376953125, "learning_rate": 8e-06, "loss": 164.4489, "step": 1098 }, { "epoch": 3.663333333333333, "grad_norm": 1162.5357666015625, "learning_rate": 8e-06, "loss": 88.1954, "step": 1099 }, { "epoch": 3.6666666666666665, "grad_norm": 1630.39306640625, "learning_rate": 8e-06, "loss": 120.0612, "step": 1100 }, { "epoch": 3.67, "grad_norm": 3266.170166015625, "learning_rate": 8e-06, "loss": 120.2182, "step": 1101 }, { "epoch": 3.6733333333333333, "grad_norm": 1302.93115234375, "learning_rate": 8e-06, "loss": 85.0205, "step": 1102 }, { "epoch": 3.6766666666666667, "grad_norm": 3661.461181640625, "learning_rate": 8e-06, "loss": 75.0205, "step": 1103 }, { "epoch": 3.68, "grad_norm": 1691.5009765625, "learning_rate": 8e-06, "loss": 96.133, "step": 1104 }, { "epoch": 3.6833333333333336, "grad_norm": 1218.2723388671875, "learning_rate": 8e-06, "loss": 99.2882, "step": 1105 }, { "epoch": 3.6866666666666665, "grad_norm": 1294.4605712890625, "learning_rate": 8e-06, "loss": 117.9985, "step": 1106 }, { "epoch": 3.69, "grad_norm": 960.9136352539062, "learning_rate": 8e-06, "loss": 96.7495, "step": 1107 }, { "epoch": 3.6933333333333334, "grad_norm": 964.8324584960938, "learning_rate": 8e-06, "loss": 86.2032, "step": 1108 }, { "epoch": 3.6966666666666668, "grad_norm": 1633.069091796875, "learning_rate": 8e-06, "loss": 98.5851, "step": 1109 }, { "epoch": 3.7, "grad_norm": 1021.7009887695312, "learning_rate": 8e-06, "loss": 72.7226, "step": 1110 }, { "epoch": 3.703333333333333, "grad_norm": 2428.23974609375, "learning_rate": 8e-06, "loss": 101.7108, "step": 1111 }, { "epoch": 3.7066666666666666, "grad_norm": 1543.0806884765625, "learning_rate": 8e-06, "loss": 103.8124, "step": 1112 }, { "epoch": 3.71, "grad_norm": 3607.26416015625, "learning_rate": 8e-06, "loss": 122.9033, "step": 1113 }, { "epoch": 3.7133333333333334, "grad_norm": 1206.9984130859375, "learning_rate": 8e-06, "loss": 97.7421, "step": 1114 }, { "epoch": 3.716666666666667, "grad_norm": 1262.3092041015625, "learning_rate": 8e-06, "loss": 99.0013, "step": 1115 }, { "epoch": 3.7199999999999998, "grad_norm": 1239.2381591796875, "learning_rate": 8e-06, "loss": 96.4628, "step": 1116 }, { "epoch": 3.7233333333333336, "grad_norm": 1586.4107666015625, "learning_rate": 8e-06, "loss": 111.3539, "step": 1117 }, { "epoch": 3.7266666666666666, "grad_norm": 1391.3529052734375, "learning_rate": 8e-06, "loss": 87.5459, "step": 1118 }, { "epoch": 3.73, "grad_norm": 1637.781005859375, "learning_rate": 8e-06, "loss": 139.9659, "step": 1119 }, { "epoch": 3.7333333333333334, "grad_norm": 1259.135498046875, "learning_rate": 8e-06, "loss": 105.8619, "step": 1120 }, { "epoch": 3.736666666666667, "grad_norm": 1447.7239990234375, "learning_rate": 8e-06, "loss": 92.4983, "step": 1121 }, { "epoch": 3.74, "grad_norm": 1470.084228515625, "learning_rate": 8e-06, "loss": 94.736, "step": 1122 }, { "epoch": 3.743333333333333, "grad_norm": 1227.9195556640625, "learning_rate": 8e-06, "loss": 115.2907, "step": 1123 }, { "epoch": 3.7466666666666666, "grad_norm": 1189.396484375, "learning_rate": 8e-06, "loss": 107.8086, "step": 1124 }, { "epoch": 3.75, "grad_norm": 1645.446044921875, "learning_rate": 8e-06, "loss": 108.1662, "step": 1125 }, { "epoch": 3.7533333333333334, "grad_norm": 987.1251220703125, "learning_rate": 8e-06, "loss": 78.1466, "step": 1126 }, { "epoch": 3.756666666666667, "grad_norm": 1228.653076171875, "learning_rate": 8e-06, "loss": 85.6449, "step": 1127 }, { "epoch": 3.76, "grad_norm": 1180.8492431640625, "learning_rate": 8e-06, "loss": 105.9941, "step": 1128 }, { "epoch": 3.763333333333333, "grad_norm": 1421.6231689453125, "learning_rate": 8e-06, "loss": 93.4972, "step": 1129 }, { "epoch": 3.7666666666666666, "grad_norm": 1598.895263671875, "learning_rate": 8e-06, "loss": 101.2348, "step": 1130 }, { "epoch": 3.77, "grad_norm": 1405.4217529296875, "learning_rate": 8e-06, "loss": 109.5432, "step": 1131 }, { "epoch": 3.7733333333333334, "grad_norm": 1204.7901611328125, "learning_rate": 8e-06, "loss": 106.6145, "step": 1132 }, { "epoch": 3.7766666666666664, "grad_norm": 996.3070068359375, "learning_rate": 8e-06, "loss": 87.5242, "step": 1133 }, { "epoch": 3.7800000000000002, "grad_norm": 3217.37109375, "learning_rate": 8e-06, "loss": 104.356, "step": 1134 }, { "epoch": 3.783333333333333, "grad_norm": 1397.2333984375, "learning_rate": 8e-06, "loss": 91.9944, "step": 1135 }, { "epoch": 3.7866666666666666, "grad_norm": 1460.9483642578125, "learning_rate": 8e-06, "loss": 96.8384, "step": 1136 }, { "epoch": 3.79, "grad_norm": 1621.3123779296875, "learning_rate": 8e-06, "loss": 116.4024, "step": 1137 }, { "epoch": 3.7933333333333334, "grad_norm": 1173.6678466796875, "learning_rate": 8e-06, "loss": 84.0385, "step": 1138 }, { "epoch": 3.796666666666667, "grad_norm": 1748.694091796875, "learning_rate": 8e-06, "loss": 108.236, "step": 1139 }, { "epoch": 3.8, "grad_norm": 1290.759765625, "learning_rate": 8e-06, "loss": 117.6849, "step": 1140 }, { "epoch": 3.8033333333333332, "grad_norm": 1205.4642333984375, "learning_rate": 8e-06, "loss": 85.8433, "step": 1141 }, { "epoch": 3.8066666666666666, "grad_norm": 1094.4393310546875, "learning_rate": 8e-06, "loss": 91.2855, "step": 1142 }, { "epoch": 3.81, "grad_norm": 1143.126220703125, "learning_rate": 8e-06, "loss": 102.9539, "step": 1143 }, { "epoch": 3.8133333333333335, "grad_norm": 1192.037109375, "learning_rate": 8e-06, "loss": 86.3304, "step": 1144 }, { "epoch": 3.8166666666666664, "grad_norm": 2080.63232421875, "learning_rate": 8e-06, "loss": 106.6091, "step": 1145 }, { "epoch": 3.82, "grad_norm": 1981.8778076171875, "learning_rate": 8e-06, "loss": 105.9725, "step": 1146 }, { "epoch": 3.8233333333333333, "grad_norm": 1039.827880859375, "learning_rate": 8e-06, "loss": 92.1161, "step": 1147 }, { "epoch": 3.8266666666666667, "grad_norm": 1247.5198974609375, "learning_rate": 8e-06, "loss": 105.5764, "step": 1148 }, { "epoch": 3.83, "grad_norm": 2359.34912109375, "learning_rate": 8e-06, "loss": 131.653, "step": 1149 }, { "epoch": 3.8333333333333335, "grad_norm": 1629.3062744140625, "learning_rate": 8e-06, "loss": 120.2511, "step": 1150 }, { "epoch": 3.836666666666667, "grad_norm": 1235.25927734375, "learning_rate": 8e-06, "loss": 104.3257, "step": 1151 }, { "epoch": 3.84, "grad_norm": 2616.281494140625, "learning_rate": 8e-06, "loss": 109.3858, "step": 1152 }, { "epoch": 3.8433333333333333, "grad_norm": 2025.326171875, "learning_rate": 8e-06, "loss": 118.4407, "step": 1153 }, { "epoch": 3.8466666666666667, "grad_norm": 1315.9407958984375, "learning_rate": 8e-06, "loss": 110.1536, "step": 1154 }, { "epoch": 3.85, "grad_norm": 1185.6700439453125, "learning_rate": 8e-06, "loss": 95.2059, "step": 1155 }, { "epoch": 3.8533333333333335, "grad_norm": 1301.6844482421875, "learning_rate": 8e-06, "loss": 102.4743, "step": 1156 }, { "epoch": 3.8566666666666665, "grad_norm": 1240.643798828125, "learning_rate": 8e-06, "loss": 96.866, "step": 1157 }, { "epoch": 3.86, "grad_norm": 1363.72509765625, "learning_rate": 8e-06, "loss": 112.0611, "step": 1158 }, { "epoch": 3.8633333333333333, "grad_norm": 1599.5068359375, "learning_rate": 8e-06, "loss": 94.0664, "step": 1159 }, { "epoch": 3.8666666666666667, "grad_norm": 1220.3763427734375, "learning_rate": 8e-06, "loss": 98.0257, "step": 1160 }, { "epoch": 3.87, "grad_norm": 1135.7181396484375, "learning_rate": 8e-06, "loss": 94.3363, "step": 1161 }, { "epoch": 3.873333333333333, "grad_norm": 1140.160400390625, "learning_rate": 8e-06, "loss": 110.418, "step": 1162 }, { "epoch": 3.876666666666667, "grad_norm": 1568.91357421875, "learning_rate": 8e-06, "loss": 120.6119, "step": 1163 }, { "epoch": 3.88, "grad_norm": 1983.083984375, "learning_rate": 8e-06, "loss": 109.6378, "step": 1164 }, { "epoch": 3.8833333333333333, "grad_norm": 1314.113525390625, "learning_rate": 8e-06, "loss": 99.3481, "step": 1165 }, { "epoch": 3.8866666666666667, "grad_norm": 1645.87548828125, "learning_rate": 8e-06, "loss": 101.9699, "step": 1166 }, { "epoch": 3.89, "grad_norm": 1396.23583984375, "learning_rate": 8e-06, "loss": 121.3454, "step": 1167 }, { "epoch": 3.8933333333333335, "grad_norm": 1517.88232421875, "learning_rate": 8e-06, "loss": 74.4765, "step": 1168 }, { "epoch": 3.8966666666666665, "grad_norm": 1110.167724609375, "learning_rate": 8e-06, "loss": 98.9139, "step": 1169 }, { "epoch": 3.9, "grad_norm": 1544.4853515625, "learning_rate": 8e-06, "loss": 123.5604, "step": 1170 }, { "epoch": 3.9033333333333333, "grad_norm": 1809.413330078125, "learning_rate": 8e-06, "loss": 100.1321, "step": 1171 }, { "epoch": 3.9066666666666667, "grad_norm": 1213.014892578125, "learning_rate": 8e-06, "loss": 97.2027, "step": 1172 }, { "epoch": 3.91, "grad_norm": 1125.602783203125, "learning_rate": 8e-06, "loss": 83.4753, "step": 1173 }, { "epoch": 3.913333333333333, "grad_norm": 1498.9251708984375, "learning_rate": 8e-06, "loss": 121.4995, "step": 1174 }, { "epoch": 3.9166666666666665, "grad_norm": 1829.532470703125, "learning_rate": 8e-06, "loss": 112.8876, "step": 1175 }, { "epoch": 3.92, "grad_norm": 1008.3826293945312, "learning_rate": 8e-06, "loss": 94.1952, "step": 1176 }, { "epoch": 3.9233333333333333, "grad_norm": 1689.2933349609375, "learning_rate": 8e-06, "loss": 91.7001, "step": 1177 }, { "epoch": 3.9266666666666667, "grad_norm": 905.2721557617188, "learning_rate": 8e-06, "loss": 77.6426, "step": 1178 }, { "epoch": 3.93, "grad_norm": 1524.002197265625, "learning_rate": 8e-06, "loss": 120.6405, "step": 1179 }, { "epoch": 3.9333333333333336, "grad_norm": 1663.9874267578125, "learning_rate": 8e-06, "loss": 112.903, "step": 1180 }, { "epoch": 3.9366666666666665, "grad_norm": 1653.5052490234375, "learning_rate": 8e-06, "loss": 118.7463, "step": 1181 }, { "epoch": 3.94, "grad_norm": 1066.969482421875, "learning_rate": 8e-06, "loss": 92.5098, "step": 1182 }, { "epoch": 3.9433333333333334, "grad_norm": 1379.9056396484375, "learning_rate": 8e-06, "loss": 106.0095, "step": 1183 }, { "epoch": 3.9466666666666668, "grad_norm": 3959.04296875, "learning_rate": 8e-06, "loss": 104.2069, "step": 1184 }, { "epoch": 3.95, "grad_norm": 1216.3792724609375, "learning_rate": 8e-06, "loss": 85.2712, "step": 1185 }, { "epoch": 3.953333333333333, "grad_norm": 1450.44482421875, "learning_rate": 8e-06, "loss": 104.3864, "step": 1186 }, { "epoch": 3.9566666666666666, "grad_norm": 4799.47705078125, "learning_rate": 8e-06, "loss": 151.4352, "step": 1187 }, { "epoch": 3.96, "grad_norm": 1530.94580078125, "learning_rate": 8e-06, "loss": 102.7601, "step": 1188 }, { "epoch": 3.9633333333333334, "grad_norm": 1225.0638427734375, "learning_rate": 8e-06, "loss": 111.2649, "step": 1189 }, { "epoch": 3.966666666666667, "grad_norm": 1063.117919921875, "learning_rate": 8e-06, "loss": 97.7322, "step": 1190 }, { "epoch": 3.9699999999999998, "grad_norm": 1219.420654296875, "learning_rate": 8e-06, "loss": 98.817, "step": 1191 }, { "epoch": 3.9733333333333336, "grad_norm": 2458.62646484375, "learning_rate": 8e-06, "loss": 105.0183, "step": 1192 }, { "epoch": 3.9766666666666666, "grad_norm": 1175.68359375, "learning_rate": 8e-06, "loss": 94.4347, "step": 1193 }, { "epoch": 3.98, "grad_norm": 1164.2926025390625, "learning_rate": 8e-06, "loss": 85.7069, "step": 1194 }, { "epoch": 3.9833333333333334, "grad_norm": 1042.6993408203125, "learning_rate": 8e-06, "loss": 98.1143, "step": 1195 }, { "epoch": 3.986666666666667, "grad_norm": 2035.12939453125, "learning_rate": 8e-06, "loss": 83.1174, "step": 1196 }, { "epoch": 3.99, "grad_norm": 1740.3966064453125, "learning_rate": 8e-06, "loss": 122.5139, "step": 1197 }, { "epoch": 3.993333333333333, "grad_norm": 1286.7196044921875, "learning_rate": 8e-06, "loss": 114.5274, "step": 1198 }, { "epoch": 3.9966666666666666, "grad_norm": 2211.156494140625, "learning_rate": 8e-06, "loss": 123.2792, "step": 1199 }, { "epoch": 4.0, "grad_norm": 1335.3843994140625, "learning_rate": 8e-06, "loss": 89.2689, "step": 1200 }, { "epoch": 4.0, "eval_loss": 249.32330322265625, "eval_runtime": 855.9453, "eval_samples_per_second": 2.103, "eval_steps_per_second": 1.051, "step": 1200 } ], "logging_steps": 1.0, "max_steps": 1200, "num_input_tokens_seen": 0, "num_train_epochs": 4, "save_steps": 400, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 1.2491565487987098e+18, "train_batch_size": 2, "trial_name": null, "trial_params": null }